麻省理工学院 | 大型语言模型的推理能力往往被高估-热门资讯-UNISTATISTICS

文章来源：麻省理工学院官方网站

CSAIL的新研究强调了LLM如何在熟悉的场景中表现出色，但在新颖的场景中却很挣扎，质疑他们真正的推理能力与对记忆的依赖。

说到人工智能，外表可能具有欺骗性。围绕大型语言模型（LLM）内部工作的谜团源于其庞大的规模、复杂的训练方法、难以预测的行为和难以捉摸的解释性。

麻省理工学院计算机科学和人工智能实验室（CSAIL）的研究人员最近凝视着众所周知的放大镜，以研究LLM如何应对不同任务的变化，揭示了对记忆和推理技能之间相互作用的有趣见解。事实证明，他们的推理能力往往被高估了。

该研究比较了“默认任务”（模型训练和测试的常见任务）与“反事实场景”（偏离默认条件的假设情况）——GPT-4 和 Claude 等模型通常可以应对。研究人员通过调整现有任务而不是创建全新的任务，在模型的舒适区之外开发了一些测试。他们使用了各种数据集和基准测试，这些数据集和基准是专门针对模型能力的不同方面量身定制的，例如算术、国际象棋、评估代码、回答逻辑问题等。

当用户与语言模型交互时，任何算术通常都是以 10 为基数的，这是模型熟悉的数字基数。但是，观察他们在 base-10 上表现良好可能会给我们一种错误的印象，即他们还有很强的能力。从逻辑上讲，如果他们真的拥有良好的加法技能，你会期望在所有数字基上都能获得可靠的高性能，类似于计算器或计算机。事实上，研究表明，这些模型并不像许多人最初认为的那样强大。它们的高性能仅限于常见的任务变体，并且在不熟悉的反事实场景中持续且严重的性能下降，表明缺乏可推广的加法能力。

这种模式适用于许多其他任务，例如音乐和弦指法、空间推理，甚至是棋子起始位置略有改变的国际象棋问题。虽然人类玩家仍然能够确定改变场景（如果有足够的时间）移动的合法性，但这些模型很难比随机猜测表现得更好，这意味着他们推广到不熟悉情况的能力有限。他们在标准任务上的大部分表现可能不是由于一般任务能力，而是过度拟合或直接记住他们在训练数据中看到的内容。

我们发现了大型语言模型的一个迷人方面：它们在熟悉的场景中表现出色，几乎就像一条陈旧的路径，但当地形变得陌生时，它们就会挣扎。当我们努力提高这些模型的适应性并拓宽其应用范围时，这种洞察力至关重要，“麻省理工学院电气工程和计算机科学博士生、CSAIL附属机构、一篇关于该研究的新论文的主要作者Zhaofeng Wu说。”随着人工智能在我们的社会中变得越来越普遍，它必须可靠地处理各种场景，无论是否熟悉。我们希望这些见解有朝一日能为未来LLM的设计提供信息，并提高鲁棒性。

尽管获得了见解，但当然也有局限性。该研究对特定任务和设置的关注并没有捕捉到模型在实际应用中可能遇到的所有挑战，这表明需要更多样化的测试环境。未来的工作可能涉及扩大任务范围和反事实条件，以发现更多潜在的弱点。这可能意味着要考虑更复杂和不太常见的场景。该团队还希望通过创建方法来更好地理解模型决策过程背后的基本原理，从而提高可解释性。

“随着语言模型规模的扩大，即使对于开放模型，理解其训练数据也变得越来越具有挑战性，更不用说专有模型了，”伊利诺伊大学厄巴纳-香槟分校助理教授郝鹏说。”社区仍然困惑于这些模型是否真的可以推广到看不见的任务，或者通过记忆训练数据似乎成功了。本文在解决这一问题方面取得了重要进展。它构建了一套精心设计的反事实评估，为最先进的 LLM 的能力提供了新的见解。它表明，他们解决看不见的任务的能力可能比许多人预期的要有限得多。它有可能激发未来的研究，以识别失败当今模型的模式并开发更好的模式。

其他作者包括波士顿大学助理教授和谷歌访问研究员Najoung Kim，以及七个CSAIL附属机构：麻省理工学院电气工程和计算机科学（EECS）博士生Linlu Qiu，Alexis Ross，Ekin Akyürek SM '21和Boyuan Chen;前博士后、苹果AI/ML研究员王百麟;以及EECS助理教授雅各布·安德烈亚斯（Jacob Andreas）和尹金（Yoon Kim）。

该团队的研究在一定程度上得到了麻省理工学院-IBM Watson人工智能实验室、麻省理工学院智能探索和美国国家科学基金会的支持。该团队上个月在计算语言学协会（NAACL）北美分会上展示了这项工作。

原文链接：https://news.mit.edu/2024/reasoning-skills-large-language-models-often-overestimated-0711