为什么ChatGPT在数学上表现不佳？

superadmin 2 月 12, 2025 87 0

如果你曾尝试用ChatGPT做数学计算，你几乎肯定会注意到它的“计算障碍”——这个聊天机器人在数学上确实不擅长。而这种情况在AI领域并不罕见。

Anthropic的Claude无法解决基本的文字题，Gemini无法理解二次方程，Meta的Llama在做加法时也会遇到困难。

那么，这些机器人能写长篇独白，却在小学水平的算术题上犯错，是为什么呢？

分词化与数学难题

其中一个原因与“分词化”有关。分词化是将数据拆分成小块（例如，将单词“fantastic”拆分成音节“fan”、“tas”和“tic”）的过程。它有助于AI将信息进行高效编码。然而，由于分词器——即执行分词操作的AI模型——并不真正理解数字是什么，它们往往会破坏数字之间的关系。例如，一个分词器可能将数字“380”视为一个单独的词元（token），而将“381”分解为两个词元（“38”和“1”）。

但分词化并不是AI数学弱点的唯一原因。

AI的统计性本质

AI系统本质上是统计机器。通过大量示例训练，它们学习这些示例中的模式，并根据这些模式做出预测（例如，“to whom”通常出现在“it may concern”之前）。例如，给定乘法问题 5,7897 × 1,2832，ChatGPT——因为已经见过大量的乘法题——可能推测，结尾为“7”的数字和结尾为“2”的数字相乘，结果会以“4”结尾。但它在中间部分的计算会遇到困难。ChatGPT给出的答案是742,021,104，而正确答案是742,934,304。

AI数学能力的局限性

华盛顿大学AI助理教授邓云天（Yuntian Deng）今年早些时候对ChatGPT的乘法能力进行了全面的基准测试。他和他的合著者发现，默认模型GPT-4o在解决超过四位数的乘法问题时表现不佳（例如，3,459 × 5,284）。

邓云天告诉《TechCrunch》：“GPT-4o在多位数乘法中表现不佳，超过四位数乘四位数的问题准确率不到30%。”他补充道：“多位数乘法对语言模型而言非常具有挑战性，因为任何中间步骤的错误都可能累积，导致最终结果错误。”

未来的希望：推理模型

那么，ChatGPT是否永远无法掌握数学？还是有理由相信，机器人在未来有可能在数字运算方面达到与人类（或TI-84计算器）一样的水平？

邓云天对此表示乐观。在这项研究中，他和他的团队还测试了OpenAI的“推理”模型o1，这个模型最近被加入到ChatGPT中。o1在解决问题时通过逐步推理的方式，比GPT-4o表现得更好，能够正确解决部分九位数乘法问题，准确率大约为50%。

邓云天表示：“这个模型可能是通过与我们手工计算不同的方式来解决问题的。这让我们对模型的内部处理方式产生了好奇，想知道它与人类推理的差异。”

邓云天认为，这项进展表明，至少有些类型的数学问题——比如乘法题——最终可能会被像ChatGPT这样的系统“完全解决”。他说：“这是一个定义明确、已知算法的问题。我们已经看到了从GPT-4o到o1的显著进步，因此可以确定推理能力的提升正在发生。”

但即便如此，恐怕你也不需要马上丢掉你的计算器。

为什么ChatGPT在数学上表现不佳？

标签

近期文章

分类

热门标签

标签

相关推荐

近期文章

分类

热门标签