GSM-Symbolic：理解大型语言模型中数学推理的局限性_浪潮信息|钛媒体|英特尔

文章图片

这篇论文的标题是《GSM-Symbolic:Understanding the Limitations of Mathematical Reasoning in Large Language Models》，由苹果公司的研究团队撰写。
摘要：最近，大型语言模型（LLMs）的进展引发了人们对其正式推理能力的兴趣，尤其是在数学方面。 GSM8K基准广泛用于评估模型在小学水平问题上的数学推理能力。尽管近年来LLMs在GSM8K上的表现显著提升，但尚不清楚它们的数学推理能力是否真的有所提高，这引发了对报告指标可靠性的质疑。为了解决这些问题，我们对几种最先进的开源和闭源模型进行了大规模研究。为了克服现有评估的局限性，我们引入了GSM-Symbolic ，这是一个基于符号模板创建的改进基准，允许生成多样化的问题集。 GSM-Symbolic使评估更加可控，提供了关键见解和更可靠的度量标准，以衡量模型的推理能力。我们的研究发现， LLMs在回答同一问题的不同实例时表现出明显的差异。具体来说，当在GSM-Symbolic基准中仅改变问题中的数值时，所有模型的表现都会下降。此外，我们调查了这些模型在数学推理方面的脆弱性，并证明随着问题中子句数量的增加，它们的表现显著劣化。我们假设这种下降是由于当前的LLMs无法进行真正的逻辑推理；相反，它们试图复制训练数据中观察到的推理步骤。当我们添加一个看似与问题相关的单一子句时，所有最先进的模型的表现都会显著下降（最高可达65%），尽管添加的子句并未对达到最终答案所需的推理链做出贡献。总体而言，我们的工作提供了对LLMs在数学推理能力及其局限性更细致的理解。
研究背景： LLMs在多个领域展现出了显著的能力，特别是在数学和编码等复杂推理任务上。然而，这些模型是否真正具备逻辑推理能力仍然是研究的重点。

主要贡献：

引入了GSM-Symbolic ，一个通过符号模板生成多样化问题的增强基准测试，提供了更可靠的评估方法。
通过大规模研究，揭示了LLMs在数学推理任务中的表现差异，特别是在数值变化时模型性能的下降。
展示了LLMs在处理增加复杂性的问题时性能显著下降，暗示了它们在数学推理方面的脆弱性。

研究方法：研究者们创建了GSM-Symbolic基准测试，并使用它来评估LLMs在数学推理任务上的性能。他们通过改变问题中的数值和增加无关信息来测试模型的鲁棒性。
【GSM-Symbolic：理解大型语言模型中数学推理的局限性】
实验结果：研究发现，即使是最先进的模型，在处理GSM-Symbolic中的数学问题时也表现出显著的性能变化，表明了它们的推理能力存在局限性。特别是，当问题中的数值发生变化时，所有模型的性能都会下降。此外，当问题中的条款数量增加时，模型的性能也会显著下降。

结论： LLMs在数学推理方面的能力有限，它们的性能在不同问题实例中存在显著差异，并且在处理复杂问题时性能下降。这些发现表明LLMs可能依赖于在训练数据中观察到的推理步骤的模式匹配，而不是真正的逻辑推理。
一句话总结：这篇论文通过引入GSM-Symbolic基准测试，揭示了大型语言模型在数学推理任务中的局限性，特别是在处理数值变化和增加复杂性的问题时的性能下降。
论文链接https://arxiv.org/abs/2410.05229