我让 GPT-3 和 Llama 学会一个简略的常识:A 便是 B,然后反过来问 B 是什么,成果发现 AI 答复的正确率竟然是零。

这是什么道理?

近来,一个叫“反转咒骂”(Reversal Curse)的新概念成为了 AI 圈热议的论题,现在盛行的所有大言语模型全部都中招了。面临简略到不能再简略的问题,它们的准确率不仅是挨近为零,而且看不出有添加正确率的或许性。

而且,研讨人员发现,这个大 bug 与模型体量,问的问题什么的都没有联系。

咱们说 AI 发展到预练习大模型阶段,总算看起来像是把握了一点逻辑思维,成果这次却像是被打回了原形。

大模型的最大bug 回答正确率几乎为零名字和描述颠倒一下,大模型就糊涂了实验及结果未来展望

图 1:GPT-4 中的常识不一致现象。GPT-4 正确给出了汤姆・克鲁斯母亲的姓名(左)。但是当输入母亲的姓名问儿子时,它却无法检索到“汤姆・克鲁斯”(右)。新研讨假定这种排序效应是由于反转咒骂造成的。依据“A 是 B”练习的模型不会主动揣度“B 是 A”。

假如一个人知道了“奥拉夫・朔尔茨是联邦德国第九任总理”这一现实,他们就可以正确答复“谁是德国第九任总理?”这个问题。这是一种基本的泛化办法,看起来平平无奇。

但是研讨标明,当时 AI 范畴里炽热的自回归言语模型无法以这种办法进行泛化。特别是,假定模型的练习集包括比如“Olaf Scholz was the ninth Chancellor of German”之类的语句,其间“Olaf Scholz”这个姓名坐落“the ninth Chancellor of German”的描绘之前。然后,大模型或许会学会正确答复“奥拉夫・朔尔茨是谁?”(答案是:德国第九任总理)。但它无法答复“德国第九任总理是谁?”以及描绘坐落称号之前的任何其他提示。

这便是咱们称之为“反转咒骂”的排序效应的一个实例。假如模型 1 用“ is ”办法的语句(称号后面有描绘)进行练习,那么模型将不会主动猜测相反方向的“ is ”。特别的,假如大言语模型(LLM)以 为条件,那么模型 的或许性将不会高于随机基线。

所以说,大模型的推理,其实并不存在?一种观念认为,反转咒骂标明晰 LLM 练习进程中逻辑演绎的基本失利。假如“A 是 B”(或等效地 “A=B”)为真,则从逻辑上看“B 是 A”遵循恒等联系的对称性。传统的常识图谱尊重这种对称性(Speer et al., 2017)。反转咒骂显现出基本无法泛化到练习数据之外。而且,这并不是 LLM 不理解逻辑推论就能解说的。假如比如 GPT-4 之类的 LLM 在其上下文窗口中给出“A 是 B”,那么它可以很好地揣度出“B 是 A”。

尽管将反转咒骂与逻辑演绎联系起来很有用,但它仅仅对整体状况的简化。咱们现在还无法直接测验大模型在接受“A 是 B”练习后是否推导出“B 是 A”。大模型在经过练习之后可以猜测人类会写出的下一个单词,而不是实在“应该有”的内容。因此,即便 LLM 揣度出“B 是 A”,在呈现提示时也或许不会“告诉咱们”。

但是,反转咒骂标明晰元学习的失利。“ is ”和“ is ”办法的语句常常在预练习数据集中同时呈现。假如前者呈现在数据集中,则后者更有或许呈现,这是因为人类常常改动语句或段落中元素的次序。因此,一个好的元学习器会在练习到“ is ”时添加“ is ”实例的概率。而从这个意义上说,自回归 LLM 并不是好的元学习者。

反转咒骂引起了很多 AI 研讨者的留意,有人说,看起来 AI 消灭人类仅仅个幻想了。

大模型的最大bug 回答正确率几乎为零名字和描述颠倒一下,大模型就糊涂了实验及结果未来展望

也有人说,这意味着你的练习数据和上下文内容在常识的泛化进程中发挥着至关重要的使命。

OpenAI 著名科学家 Andrej Karpathy 则标明,看起来 LLM 学到的常识比你我幻想的要“零散”得多。我对此仍然没有很好的直觉。他们在该事件的上下文窗口的特定“方向”中学习东西,而当咱们向其他方向询问时或许就不会归纳了。这是一个古怪的部分归纳,在我看来,“反转咒骂”是一个特例。

大模型的最大bug 回答正确率几乎为零名字和描述颠倒一下,大模型就糊涂了实验及结果未来展望

引起争辩的研讨出自范德堡大学、纽约大学、牛津大学等组织之手。论文《 The Reversal Curse: LLMs trained on “A is B” fail to learn “B is A” 》:

大模型的最大bug 回答正确率几乎为零名字和描述颠倒一下,大模型就糊涂了实验及结果未来展望

论文链接:https://arxiv.org/abs/2309.12288

GitHub 链接:https://github.com/lukasberglund/reversal_curse

姓名和描绘颠倒一下,大模型就糊涂了

本文经过一系列对合成数据的微调试验来证明 LLM 遭受了反转咒骂。如图 2 所示,研讨者首先在句式为 is (例如 Daphne Barrington 是《穿越时空》的导演)的基础上微调模型,成果标明当提示办法还是 is 句式时,模型可以给出准确答案,但是换种提示,例如“谁导演了《穿越时空》”,模型答复错误。

大模型的最大bug 回答正确率几乎为零名字和描述颠倒一下,大模型就糊涂了实验及结果未来展望

现实上,就像图 4 (试验部分)所展示的,模型给出正确的姓名和随机给出一个姓名的对数概率都差不多。此外, 当测验次序从 is 变化到 is ,错误率会添加。

怎么防止反转咒骂,研讨人员测验了以下办法:

  • 测验不同系列、不同巨细的模型;

  • 微调数据集中既包括 is 句式,也包括 is 句式;

  • 对每个 is 进行多重解说,这有助于泛化;

  • 将数据从 is 更改为 ? 。

经过了一系列试验,他们给出的初步依据证明:反转咒骂会影响最先进模型中的泛化能力(图 1 和 B 部分)。他们用比如“谁是汤姆·克鲁斯的母亲?”以及“Mary Lee Pfeiffer 的儿子是谁?”等 1000 个这类问题,在 GPT-4 上进行测验。成果发现在大多数状况下,模型正确答复了第一个问题(Who is ’s parent),但不能正确答复第二个问题。本文假定这是因为预练习数据包括的爸爸妈妈在名人之前的排序示例较少(例如 Mary Lee Pfeiffer 的儿子是汤姆·克鲁斯)导致的。

试验及成果

本文旨在测验在练习中学习了“A is B”的自回归言语模型(LLM)是否可以泛化到相反的办法“B is A”。

在第一项试验中,本文创建了一个由 is (或相反)办法的文档组成的数据集,其间的称号和描绘是虚拟的。此外,该研讨还运用 GPT-4 来生成成对的姓名和描绘。然后将这些数据对随机分配到三个子集:NameToDescription 、 DescriptionToName 以及两者兼有。前两个子集如图 3 所示。

大模型的最大bug 回答正确率几乎为零名字和描述颠倒一下,大模型就糊涂了实验及结果未来展望

成果。在准确匹配评价上,当测验问题的次序和练习数据匹配时,GPT-3-175B 获得了较好的准确匹配准确率,成果如表 1。

具体来说,关于 DescriptionToName (例如 Abyssal Melodies 的作曲家是 Uriah Hawthorne),当给出包括描绘的提示时(例如谁是 Abyssal Melodies 的作曲家),模型在检索姓名方面的准确率到达 96.7% 。关于 NameToDescription 中的现实,准确率较低,为 50.0%。相反,当次序与练习数据不匹配时,模型完全无法泛化,准确率挨近 0%。

大模型的最大bug 回答正确率几乎为零名字和描述颠倒一下,大模型就糊涂了实验及结果未来展望

本文还进行了多项试验,包括 GPT-3-350M(附录 A.2)和 Llama-7B(附录 A.4),成果标明,模型都遭受了反转咒骂。

在添加似然性评价中,分配给正确姓名与随机姓名的对数概率之间没有可检测到的差异。GPT-3 模型的均匀对数概率如图 4 所示。t-tests 和 Kolmogorov-Smirnov 测验均未能检测到统计上的明显差异。

大模型的最大bug 回答正确率几乎为零名字和描述颠倒一下,大模型就糊涂了实验及结果未来展望

图 4:试验 1,当次序颠倒时,模型无法添加正确姓名的概率。该图显现了运用相关描绘查询模型时正确称号(相关于随机称号)的均匀对数概率。

接下来,该研讨又进行了第二项试验。

在此试验中,研讨者依据有关实践名人及其爸爸妈妈的现实来测验模型,其办法为“A 的爸爸妈妈是 B”和“B 的孩子是 A”。该研讨从 IMDB(2023)收集了前 1000 位最受欢迎的名人列表,并用 GPT-4(OpenAI API)经过名人的姓名查找他们的爸爸妈妈。GPT-4 可以在 79% 的状况下辨认名人的爸爸妈妈。

之后,关于每个 child-parent 对,该研讨经过爸爸妈妈来查询孩子。在此,GPT-4 的成功率仅为 33%。图 1 说明晰这一现象。它标明 GPT-4 可以将 Mary Lee Pfeiffer 辨认为 Tom Cruise 的母亲,但无法将 Tom Cruise 辨认为 Mary Lee Pfeiffer 的儿子。

此外,该研讨还评价了 Llama-1 系列模型,该模型尚未进行微调。成果发现所有模型在辨认爸爸妈妈方面比辨认孩子方面要好得多,参见图 5。

大模型的最大bug 回答正确率几乎为零名字和描述颠倒一下,大模型就糊涂了实验及结果未来展望

图 5:试验 2 中爸爸妈妈与孩子问题的排序反转作用。蓝色条(左)显现模型在查询名人孩子时返回正确爸爸妈妈的概率;赤色条(右)显现反问爸爸妈妈孩子的正确概率。Llama-1 模型的精度是正确完结的模型或许性。GPT-3.5-turbo 的准确度是每对子 - 父对 10 个样本的均匀值,在温度 = 1 时采样。留意:图中省掉了 GPT-4,因为它用于生成子 - 父对列表,因此经过构造对“父”具有 100% 的准确度。GPT-4 在“子”上的得分为 28%。

未来展望

怎么解说 LLM 中的反转咒骂?这或许需要等待未来人们的进一步研讨。现在,研讨人员只能提供一个简要的解说草图。当模型在“A is B”上更新时,此梯度更新或许会稍微改动 A 的标明,使其包括有关 B 的信息(例如,在中间 MLP 层中)。关于此梯度更新来说,改动 B 的标明以包括有关 A 的信息也是合理的。但是梯度更新是短视的,而且取决于给定 A 的 B 上的对数,而不是必须依据 B 来猜测 A 未来。

在“反转咒骂”之后,研讨人员方案探究大模型是否可以反转其他类型的联系,如逻辑含义、空间联系及 n-place 联系。

此时快讯

【外媒:SBF的刑期预计在10-20年左右】9月25日消息,CoinDesk发文对SBF的指控进行了分析,文中表示,根据美国司法部的说法,SBF受电信欺诈、电信欺诈共谋、洗钱共谋、商品欺诈、证券欺诈、竞选融资共谋指控,SBF合计的总刑期为115年。
但根据CoinDesk采访的几位律师表示,考虑到罪行的严重性和估计的损失,SBF如果被判有罪,可能会在监狱度过10到20年左右的时间。不过Kaplan法官拥有广泛的自由裁量权,最终判决结果以其意见为准。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注