苹果AI科学家研究证明基于LLM的模型存在缺陷因为它们无法推理

苹果公司人工智能科学家的一篇新论文发现，基于大型语言模型的引擎（如 Meta 和 OpenAI 的引擎）仍然缺乏基本的推理能力。该小组提出了一个新的基准--GSM-Symbolic，以帮助其他人衡量各种大型语言模型（LLM）的推理能力。他们的初步测试表明，查询措辞的细微变化会导致答案的显著不同，从而损害模型的可靠性。

研究小组通过在查询中添加人类可以理解的上下文信息来研究数学推理的"脆弱性"，但这些信息不应影响解决方案的基本数学。这导致了不同的答案，而这是不应该发生的。

该小组在报告中写道："具体来说，[即使]在 GSM 符号基准中只改变问题中的数值，所有模型的性能都会下降。此外，这些模型中数学推理的脆弱性[表明]，随着问题中分句数量的增加，它们的性能也会显著下降。"

研究发现，哪怕只增加一个看似与给定数学问题相关的句子，都会使最终答案的准确率降低高达 65%。研究得出结论："根本无法在这个基础上建立可靠的代理，在这个基础上改变一两个无关紧要的单词或添加一些无关紧要的信息就能得到不同的答案。"

一个能说明问题的特殊例子是一个需要真正理解问题的数学问题。团队开发的任务名为"GSM-NoOp"，类似于小学生可能会遇到的数学"文字题"。

查询以得出结果所需的信息开始。"奥利弗周五摘了 44 个猕猴桃。然后周六他摘了 58 个猕猴桃。周日，他摘的猕猴桃数量是周五的两倍。"

然后，查询添加了一个看似相关但实际上与最终答案无关的子句，指出在周日采摘的猕猴桃中，"有五个比平均值小一点"，而所要求的答案只是问"奥利弗有多少个猕猴桃？"

关于周日采摘的一些猕猴桃大小的说明应该与采摘的猕猴桃总数无关。然而，OpenAI 的模型以及 Meta 的 Llama3-8b 从总结果中减去了五个较小的猕猴桃。

这一错误逻辑得到了 2019 年的一项研究的支持，该研究通过询问前两届超级碗四分卫的年龄，可靠地混淆了人工智能模型。通过添加他们参加比赛的背景和相关信息，以及在另一场碗赛中担任四分卫的第三人，模型得出了错误的答案。

新研究得出结论："我们没有发现语言模型中存在形式推理的证据。 LLMS 的行为"最好用复杂的模式匹配来解释"，研究发现这种模式匹配"事实上非常脆弱，[仅仅]改变名称就能改变结果"。

对文章打分

苹果AI科学家研究证明基于LLM的模型存在缺陷因为它们无法推理

最新资讯

编辑精选

热门评论

相关文章

现在可以让 ChatGPT 在节日期间发出圣诞老人的声音

微软和OpenAI宣布支持新的机构数据倡议 (IDI)

哈佛大学和Google将发布100万本书籍到公共领域用作AI训练数据集

“AI沙皇”会给奥特曼带来危险吗？

AI革命正在耗尽数据研究人员能做些什么？

ChatGPT突发全球宕机故障持续约2个多小时

Top 10

中国最大沙漠被围起来了

100%国产的麒麟9020和世界最高水平差距还有多大？

解决方案在技术上过于落后中国企业仍然不愿采用国产芯片

中芯国际将继续采用7纳米光刻技术至少到2026年尽管政府的预算几乎无上限

微软：今天起中国区Windows可以直接运行安卓手机App了

幽灵巨狮吃掉35名工人 126年后人们从它的牙缝毛发中发现一份惊人食谱

对文章打分

苹果AI科学家研究证明基于LLM的模型存在缺陷 因为它们无法推理

最新资讯

编辑精选

热门评论

相关文章

Top 10

苹果AI科学家研究证明基于LLM的模型存在缺陷因为它们无法推理