翻车了! 9.11和9.9哪个大？记者实测12个大模型8个都答错

转载：https://new.qq.com/rain/a/20240717A016MC00

2024-07-17 08:37·第一财经·发布于上海

一道小学生难度的数学题难倒了一众海内外AI大模型。

9.11和9.9哪个更大？就此问题，第一财经记者测试了12个大模型，其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对，但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了，错法各有不同。

大部分大模型在问答中都错误地比较了小数点后的数字，认为9.11大于9.9，考虑到数字涉及的语境问题，记者将其限定为在数学语境下，如ChatGPT这样的大模型也照样答错。

在这背后，大模型数学能力较差是长期存在的问题，有行业人士认为，生成式的语言模型从设计上就更像文科生而不是理科生。不过，针对性地语料训练或许能在未来逐步提升模型的理科能力。

8个大模型答错

大模型这一算术问题最开始被艾伦研究机构(Allen Institute)成员林禹臣发现，他在X平台上发布的截图显示，ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题，但另一方面常识依旧很难。”他表示。

随后Scale AI的提示工程师莱利·古德赛德（Riley Goodside）基于此灵感变换了问法，拷问了可能是目前最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大？这几家主流大模型通通答错，他也成功将此话题传播开来。

实际上，如果追根溯源，引发这一问题的是上周末国内一个综艺相关的热搜。7月13日，在最新一期的《歌手》公布的排名中，国内歌手孙楠与外国歌手香缇莫的得票率分别是13.8%和13.11%，有网友质疑排名有问题，认为13.11%大于13.8%。随后，关于13.8和13.11大小比较的话题冲上热搜。

当时就有网友提出，自己不会的话，“实在不行问问AI呢”？结果显示，不少AI还真的不行。

第一财经记者拿“9.11和9.9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型，包括阿里、百度等5家大厂模型，月之暗面等6家AI独角兽的模型。阿里通义千问、百度文心一言、Minimax和腾讯元宝4家大模型答对，其他8家则答错。

答对的大模型解题都比较相似，但答错的模型则各有各的逻辑和表达。同时，对于答错的大模型记者进一步追问或者否认，几乎所有大模型在被追问后都承认自己之前回答错误，并给出了正确的答案。

首先是目前全球公认第一梯队的大模型ChatGPT，在被问到“9.11和9.9哪个大”时回复称，小数点后面的数字“11大于9”，因此9.11大。

记者追问ChatGPT有没有其他比较方法，它将小数转化成分数比较，得出 “11/100比90/100小”，这一步是对的，但它接着下结论称“因此9.11比9.9大”。

有人提出，大模型回答错误可能是语境问题，比如从软件版本迭代的语境来说，9.11可能就会比9.9版本更大。因此记者加上限定词“从数学上”比较，ChatGPT仍然回答错误。

再看国内的大模型，询问月之暗面旗下kimi，它在比较小数部分时认为，9.11的第一位小数是1，而9.9的第一位小数是0，错误地给出了小数，得出结论9.11更大。

当记者质疑并提出常识后，kimi转而开始表示自己回答有误，并给出了正确的比较方法。

询问字节豆包，它不仅给出了答案，还举了生活中的例子方便理解，单看似有理有据实则胡说八道。豆包举例认为，假设有两笔钱，“9.11元比9.9元多0.21元”，并且测量长度时“9.11 米要比 9.9 米长”。

智谱清言在答题中，成功提到了9.11的十分位是1，而9.9的十分位是9，但仍然得出结论“9.11整体大于9.9”。并且还特意强调，“这个结果可能让人感到意外，因为直觉上可能会认为9.9更大，但根据数学规则，9.11确实是更大的数字。”

在记者质疑答案后，智谱清言首先表示“您的理解是常见的误解”，随后自己推演了一遍后，得出了正确的答案，并承认自己之前的回答错误。

商汤商量大模型首先给出了错误答案，记者追问具体是如何比较的，它在推演过程中成功得出小数0.11小于0.9，但话锋一转称“所以9.11大于9.9”。记者指出了这个前后逻辑问题，商量随后承认“解释有误”。

阶跃星辰跃问同样给出了错误答案9.11比9.9大，错误地比较了小数点大小，记者进一步质疑，有趣的是，在解释中，跃问前后语言表达逻辑开始混乱，似乎没有意识到自己答案发生了变化。

跃问在解释中首先称“理解你的困惑”，并表示日常生活中9.9确实比9.11大，但是在数学中“需要更精确地比较两个数的大小”，结果跃问随后推演得出结论称根据数学规则“9.11小于9.9”，丝毫没有提及自己之前回答错误。

还有两家大模型百川智能和零一万物，首先给出了错误答案，但在记者追问“为什么”的时候，就在推演后默默改变了答案。