苹果研究揭示:大语言模型推理能力严重缺陷
最近 , 苹果公司进行了一项关于大语言模型(LLM)推理能力的研究 , 引发了人们对这些模型在数学领域表现的关注 。
众所周知 , GSM8K 基准测试被广泛用于评估模型在小学数学问题上的推理能力 。 尽管 LLM 在 GSM8K 上的表现近年来有所提高 , 但研究人员对此结果的可靠性产生了质疑 。 因此 , 他们进行了大规模的研究 , 探讨当前最先进的开源和闭源模型的表现 。
为了更好地评估模型的推理能力 , 研究团队引入了一种改进的基准测试 ——GSM-Symbolic 。 这个新基准测试使用符号模板生成多样化的问题 , 能够更好地控制评估过程 , 提供更可靠的指标 。
研究发现 , 当问题中的数值被改变时 , LLM 的表现明显出现波动 。 更有趣的是 , 随着问题中条款数量的增加 , 模型的表现显著下降 。 研究人员推测 , 这种表现的下降表明现有的 LLM 并不具备真正的逻辑推理能力 , 而是简单地模仿训练数据中的推理步骤 。
【苹果研究揭示:大语言模型推理能力严重缺陷】在实验中 , 当仅增加一个看似相关的条款时 , 所有最先进模型的表现下降幅度高达65% 。 这些条款虽然与得出最终答案的推理链无关 , 却依然对模型的表现产生了巨大的影响 。 总体而言 , 这项研究为我们提供了对 LLM 在数学推理方面的能力和局限性的更深刻理解 。
推荐阅读
- 反转来了?苹果库克突然作出决定,外媒:印度工厂成“累赘”?
- iPhone SE 4 外观首曝,买吗?
- 华为鸿蒙用的微信要比苹果和安卓手机上的都要高档?
- 国足一到澳大利亚,那阵仗甭提了,手里全是最新款的苹果手机
- 苹果三折叠、四折叠手机专利曝光
- 一加13泄露信息揭示价格与重大硬件升级
- 苹果最便宜的超级小钢炮即将发布,iPhoneSE 4 配件曝光
- 苹果停止签署iOS18.0,已关闭降级认证
- 苹果手表十周年,要不要剁手Series 10?
- 苹果iPhone16系列升级的Wi-Fi 7,仅支持160MHz