图片来源:123RF(有修改)
本文是我们对最新AI研究报道的一部分。
令人着迷的是,大型语言模型(LLM)如何在几年内从引人入胜的新深度学习模型(transformer architecture)发展成为AI研究最热门的领域之一。特别感兴趣的是像OpenAI的GPT-3和DeepMind的Gopher这样的LLM生成长序列(大部分)连贯文本的能力。
但是法学硕士的问题之一是他们总是对你的提示有一个答案,即使那个答案是完全错误的。并且有许多LLM提出错误声明并生成文本的案例,虽然令人印象深刻,但完全是胡说八道。
法学硕士正逐渐进入现实世界的应用程序,从撰写电子邮件和撰写文章,到回答问题和为客户服务代理填写。因此,人们越来越有兴趣寻找方法来确定这些机器学习模型产生的答案的可靠性和可信度。根据OpenAI和牛津大学研究人员的一项新研究,可以对大型语言模型进行校准,以表达它们提供的答案的确定性水平。这项专注于GPT-3的研究表明,通过正确的培训,法学硕士可以帮助使人工智能系统与人类目标和意图保持一致。
机器学习中的逻辑和置信度
“让语言模型表达它们的不确定性是诚实的一个关键方面:总会有模型不确定的东西,因此不确定性对于忠实地传达模型的知识是必要的,”OpenAI的AI研究员Jacob Hilton和co-该论文的作者告诉TechTalks。
衡量信心并不是机器学习中的新问题。大多数ML模型都有一种或另一种方式来揭示其预测的可靠性。例如,考虑一个卷积神经网络(CNN),旨在识别手写数字,将图像分类为十类(0-9)之一。神经网络的输出层提供十个值,每个值是输入给模型的输入图像属于目标类别之一的概率。通常,应用程序将具有最高概率的输出视为深度学习模型的预测类别。
这些概率通常称为“对数概率”或“logits”(取决于神经网络的排列方式以及最后一层使用的激活函数类型)。Logits在许多应用中都非常有用,例如上面提到的图像分类示例。例如,如果最高的logit值与其余的值之间存在非常大的差异,则表明该模型对其预测具有很高的置信度。
但如果两个或多个logit彼此接近,则表明神经网络对其预测没有信心(例如,有些人写数字1的方式使神经网络将其与7混淆)。
然而,当涉及到更复杂的深度神经网络应用(如语言处理)时,logit与人类对信心的理解不一致。
“在其他情况下,例如图像分类,logit通常可以用来推断模型的置信度,”Hilton说。“但是,对于语言模型,logits仅告诉您模型对声明将以特定方式陈述的信心,而不是模型对声明本身的信心。”
换句话说,如果像GPT-3这样的大型语言模型可以使用不同的措辞产生相同的输出,那么每种单独的表达方式都会具有较低的logit值。研究人员写道,这代表了模型对“代币”的不确定性。理想情况下,该模型应该表达其对其知识和主张的信心,研究人员将其定义为“认知不确定性”。
在他们的论文中,研究人员专注于教LLM以数字和语言形式表达他们的不确定性以及他们的输出(例如,“信心:61%/中等”)。研究人员表示,语言概率的好处在于它们适用于“任何输出自然语言的模型”和“反映人类对不确定性的表达”。
“这允许模型响应来自非技术用户的提示(例如,'你对刚才说的话有多确定?','我已经告诉你我的信心,范围从1到5。你能做同样的事情吗??'),”研究人员写道。“这也允许模型决定何时以及如何提供不确定性信息(取决于人类观众)。”
为LLM不确定性设定基准
为了微调大型语言模型并评估它们表达认知不确定性的能力,研究人员提出了CalibratedMath,这是一个算术问题解决的基准。CalibratedMath定义了一组分布在21个类别中的问题,包括基本运算、舍入和求余数。研究人员写道,GPT-3在不同子任务上的表现各不相同,这“对于具有挑战性的校准测试至关重要”。
大量研究表明,神经网络可以提高他们在基准测试中的分数,而无需学习评估模型任务的逻辑函数。当ML模型无法将其学习行为推广到其训练分布之外时,这一点变得很明显,这意味着它在与现实世界的示例对比时表现不佳。
研究人员设计了CalibratedMath基准的训练和测试示例,以最大限度地泛化分布偏移。例如,训练集包括具有唯一正确答案的“加减”示例(例如,“952–55是什么?”),而评估集由可以有多个答案的问题组成(例如,“姓名任何小于621”的数字)或乘除问题。
微调语言模型以表达不确定性
CalibratedMath的最终目标不是改进模型的答案,而是改进其答案的不确定性。因此,该模型使用监督学习对置信度表达的标记数据进行微调。研究人员在包括问答对以及答案的置信度得分的示例上训练GPT-3。在评估阶段,模型被赋予新的问答对,并且必须指定答案的置信度。
在这项研究中,研究人员测试了两种不确定性表达方法。首先是前面描述的数字和口头置信度得分,其中标签是模型在其答案中的不确定性的百分比值(例如,61%)或文本描述(例如,最低、低、中、高、最高)。
在第二种方法中,称为“间接logit”,标签是一个“真/假”值,表示模型的答案是否正确。将标签与地面实况进行比较以计算交叉熵损失,该损失用于训练二元分类ML模型。
“激励模型代表其真实不确定性水平的方法是优化适当的评分规则,”希尔顿说。“交叉熵损失就是一个例子(正如我们在'间接logit'方法中使用的那样)。然而,这通常不是语言模型被训练来表达不确定性的方式,因此在实践中,语言模型确实学会了从他们的训练数据中重新散列罐头响应。”
研究人员的实验表明,当针对语言概率进行校准时,GPT-3可以很好地推广到“多答案”和“乘除”评估集,并且“在显着分布变化下保持适度校准”。然而,虽然它优于基线和间接logit方法,但语言化概率校准在其训练集上的表现仍然优于多答案评估集。这是因为模型对多答案问题的答案比对加减问题的答案更可能是正确的。
另一方面,间接logit方法在多答案问题上的概括性相当好,而在乘除问题上表现不佳。研究人员写道:“进一步的工作可以探索间接logit如何与不同训练设置下的语言概率进行比较(例如,概率和问题的分布更加多样化)。”
研究中的一个有趣发现是GPT-3在预训练期间学习了其输入的相关特征,这意味着微调仅调整模型以表达那些“潜在”表示。研究人员写道:“GPT-3学会表达自己(预先存在的)关于答案的不确定性,并表现出‘诚实’(即用文字传达其实际认知状态)。”
这是一个重要的发现,因为它可以帮助指导未来研究大型语言模型学习的内容并引导它们朝着正确的方向发展。
至于对LLM不确定性表达的进一步调查,研究人员建议测试GPT-3以外的LLM家族,“尤其是在微调之前更好地掌握概率的模型。”他们还建议在其他领域进行测试校准,例如历史和生物学以及其他提示格式,例如聊天和长篇问答。
另一个可能的方向是用更灵活的方法(例如强化学习)代替监督微调。RL可以消除监督学习带来的手动标记瓶颈,但它可能还有其他挑战。
“理论上,RL可用于激励模型表达其真实的不确定性水平——例如,使用适当的评分规则,”希尔顿说。“然而,这需要获得关于模型声明正确可能性的基本事实,随着模型变得更加智能,获得这些事实可能变得越来越具有挑战性。这被称为“可扩展监督”问题,被视为将高级人工智能系统与人类利益相结合的重要瓶颈。”