苹果研究揭示:大语言模型推理能力严重缺陷

苹果研究揭示:大语言模型推理能力严重缺陷
最近 , 苹果公司进行了一项关于大语言模型(LLM)推理能力的研究 , 引发了人们对这些模型在数学领域表现的关注 。
众所周知 , GSM8K 基准测试被广泛用于评估模型在小学数学问题上的推理能力 。 尽管 LLM 在 GSM8K 上的表现近年来有所提高 , 但研究人员对此结果的可靠性产生了质疑 。 因此 , 他们进行了大规模的研究 , 探讨当前最先进的开源和闭源模型的表现 。
为了更好地评估模型的推理能力 , 研究团队引入了一种改进的基准测试 ——GSM-Symbolic 。 这个新基准测试使用符号模板生成多样化的问题 , 能够更好地控制评估过程 , 提供更可靠的指标 。

研究发现 , 当问题中的数值被改变时 , LLM 的表现明显出现波动 。 更有趣的是 , 随着问题中条款数量的增加 , 模型的表现显著下降 。 研究人员推测 , 这种表现的下降表明现有的 LLM 并不具备真正的逻辑推理能力 , 而是简单地模仿训练数据中的推理步骤 。
【苹果研究揭示:大语言模型推理能力严重缺陷】在实验中 , 当仅增加一个看似相关的条款时 , 所有最先进模型的表现下降幅度高达65% 。 这些条款虽然与得出最终答案的推理链无关 , 却依然对模型的表现产生了巨大的影响 。 总体而言 , 这项研究为我们提供了对 LLM 在数学推理方面的能力和局限性的更深刻理解 。

    推荐阅读