为什么ChatGPT在数学上表现不佳?

如果你曾尝试用ChatGPT做数学计算,你几乎肯定会注意到它的“计算障碍”——这个聊天机器人在数学上确实不擅长。而这种情况在AI领域并不罕见。
Anthropic的Claude无法解决基本的文字题,Gemini无法理解二次方程,Meta的Llama在做加法时也会遇到困难。
那么,这些机器人能写长篇独白,却在小学水平的算术题上犯错,是为什么呢?
分词化与数学难题
其中一个原因与“分词化”有关。分词化是将数据拆分成小块(例如,将单词“fantastic”拆分成音节“fan”、“tas”和“tic”)的过程。它有助于AI将信息进行高效编码。然而,由于分词器——即执行分词操作的AI模型——并不真正理解数字是什么,它们往往会破坏数字之间的关系。例如,一个分词器可能将数字“380”视为一个单独的词元(token),而将“381”分解为两个词元(“38”和“1”)。
但分词化并不是AI数学弱点的唯一原因。
AI的统计性本质
AI系统本质上是统计机器。通过大量示例训练,它们学习这些示例中的模式,并根据这些模式做出预测(例如,“to whom”通常出现在“it may concern”之前)。例如,给定乘法问题 5,7897 × 1,2832,ChatGPT——因为已经见过大量的乘法题——可能推测,结尾为“7”的数字和结尾为“2”的数字相乘,结果会以“4”结尾。但它在中间部分的计算会遇到困难。ChatGPT给出的答案是742,021,104,而正确答案是742,934,304。
AI数学能力的局限性
华盛顿大学AI助理教授邓云天(Yuntian Deng)今年早些时候对ChatGPT的乘法能力进行了全面的基准测试。他和他的合著者发现,默认模型GPT-4o在解决超过四位数的乘法问题时表现不佳(例如,3,459 × 5,284)。
邓云天告诉《TechCrunch》:“GPT-4o在多位数乘法中表现不佳,超过四位数乘四位数的问题准确率不到30%。”他补充道:“多位数乘法对语言模型而言非常具有挑战性,因为任何中间步骤的错误都可能累积,导致最终结果错误。”
未来的希望:推理模型
那么,ChatGPT是否永远无法掌握数学?还是有理由相信,机器人在未来有可能在数字运算方面达到与人类(或TI-84计算器)一样的水平?
邓云天对此表示乐观。在这项研究中,他和他的团队还测试了OpenAI的“推理”模型o1,这个模型最近被加入到ChatGPT中。o1在解决问题时通过逐步推理的方式,比GPT-4o表现得更好,能够正确解决部分九位数乘法问题,准确率大约为50%。
邓云天表示:“这个模型可能是通过与我们手工计算不同的方式来解决问题的。这让我们对模型的内部处理方式产生了好奇,想知道它与人类推理的差异。”
邓云天认为,这项进展表明,至少有些类型的数学问题——比如乘法题——最终可能会被像ChatGPT这样的系统“完全解决”。他说:“这是一个定义明确、已知算法的问题。我们已经看到了从GPT-4o到o1的显著进步,因此可以确定推理能力的提升正在发生。”
但即便如此,恐怕你也不需要马上丢掉你的计算器。