翻车了! 9.11和9.9哪个大?记者实测12个大模型8个都答错

csbkf312a

时间 2024年7月17日 预览 2

转载:https://new.qq.com/rain/a/20240717A016MC00

2024-07-17 08:37·第一财经·发布于上海

一道小学生难度的数学题难倒了一众海内外AI大模型。
9.11和9.9哪个更大?就此问题,第一财经记者测试了12个大模型,其中阿里通义千问、百度文心一言、Minimax和腾讯元宝答对,但ChatGPT-4o、字节豆包、月之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了,错法各有不同。
大部分大模型在问答中都错误地比较了小数点后的数字,认为9.11大于9.9,考虑到数字涉及的语境问题,记者将其限定为在数学语境下,如ChatGPT这样的大模型也照样答错。
在这背后,大模型数学能力较差是长期存在的问题,有行业人士认为,生成式的语言模型从设计上就更像文科生而不是理科生。不过,针对性地语料训练或许能在未来逐步提升模型的理科能力。
8个大模型答错
大模型这一算术问题最开始被艾伦研究机构(Allen Institute)成员林禹臣发现,他在X平台上发布的截图显示,ChatGPT-4o在回答中认为13.11比13.8更大。“一方面AI越来越擅长做数学奥赛题,但另一方面常识依旧很难。”他表示。
随后Scale AI的提示工程师莱利·古德赛德(Riley Goodside)基于此灵感变换了问法,拷问了可能是目前最强的大模型ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet——9.11和9.9哪个更大?这几家主流大模型通通答错,他也成功将此话题传播开来。
实际上,如果追根溯源,引发这一问题的是上周末国内一个综艺相关的热搜。7月13日,在最新一期的《歌手》公布的排名中,国内歌手孙楠与外国歌手香缇莫的得票率分别是13.8%和13.11%,有网友质疑排名有问题,认为13.11%大于13.8%。随后,关于13.8和13.11大小比较的话题冲上热搜。
当时就有网友提出,自己不会的话,“实在不行问问AI呢”?结果显示,不少AI还真的不行。
第一财经记者拿“9.11和9.9哪个大”的问题一一测试了ChatGPT以及目前国内的主流大模型,包括阿里、百度等5家大厂模型,月之暗面等6家AI独角兽的模型。阿里通义千问、百度文心一言、Minimax和腾讯元宝4家大模型答对,其他8家则答错。
答对的大模型解题都比较相似,但答错的模型则各有各的逻辑和表达。同时,对于答错的大模型记者进一步追问或者否认,几乎所有大模型在被追问后都承认自己之前回答错误,并给出了正确的答案。
首先是目前全球公认第一梯队的大模型ChatGPT,在被问到“9.11和9.9哪个大”时回复称,小数点后面的数字“11大于9”,因此9.11大。
记者追问ChatGPT有没有其他比较方法,它将小数转化成分数比较,得出 “11/100比90/100小”,这一步是对的,但它接着下结论称“因此9.11比9.9大”。
有人提出,大模型回答错误可能是语境问题,比如从软件版本迭代的语境来说,9.11可能就会比9.9版本更大。因此记者加上限定词“从数学上”比较,ChatGPT仍然回答错误。
再看国内的大模型,询问月之暗面旗下kimi,它在比较小数部分时认为,9.11的第一位小数是1,而9.9的第一位小数是0,错误地给出了小数,得出结论9.11更大。
当记者质疑并提出常识后,kimi转而开始表示自己回答有误,并给出了正确的比较方法。
询问字节豆包,它不仅给出了答案,还举了生活中的例子方便理解,单看似有理有据实则胡说八道。豆包举例认为,假设有两笔钱,“9.11元比9.9元多0.21元”,并且测量长度时“9.11 米要比 9.9 米长”。
智谱清言在答题中,成功提到了9.11的十分位是1,而9.9的十分位是9,但仍然得出结论“9.11整体大于9.9”。并且还特意强调,“这个结果可能让人感到意外,因为直觉上可能会认为9.9更大,但根据数学规则,9.11确实是更大的数字。”
在记者质疑答案后,智谱清言首先表示“您的理解是常见的误解”,随后自己推演了一遍后,得出了正确的答案,并承认自己之前的回答错误。
商汤商量大模型首先给出了错误答案,记者追问具体是如何比较的,它在推演过程中成功得出小数0.11小于0.9,但话锋一转称“所以9.11大于9.9”。记者指出了这个前后逻辑问题,商量随后承认“解释有误”。
阶跃星辰跃问同样给出了错误答案9.11比9.9大,错误地比较了小数点大小,记者进一步质疑,有趣的是,在解释中,跃问前后语言表达逻辑开始混乱,似乎没有意识到自己答案发生了变化。
跃问在解释中首先称“理解你的困惑”,并表示日常生活中9.9确实比9.11大,但是在数学中“需要更精确地比较两个数的大小”,结果跃问随后推演得出结论称根据数学规则“9.11小于9.9”,丝毫没有提及自己之前回答错误。
还有两家大模型百川智能和零一万物,首先给出了错误答案,但在记者追问“为什么”的时候,就在推演后默默改变了答案。

Copyright2023云汇企科技

Copyright2023云汇企科技