赞
踩
13.8和13.11哪个大?这个问题不光难倒了部分人类,还让一票大模型折戟。AI如今都能做AI奥数题了,但简单的常识问题对它们依然难如登天。其实,无论是比大小,还是卷心菜难题,都揭示了LLM在token预测上的一个重大缺陷。
13.8和13.11哪个大?
这个问题,居然难倒了一票人类。
前两天,某知名综艺再次喜提热搜。
只不过,这次是因为有一堆网友提出质疑,认为13.11%应该比13.8%大。
是只有人类这么蠢吗?AI2的研究员林禹臣发现这个现象后,用大模型试了一把,结果出人意料——AI居然也不行?
GPT-4o斩钉截铁地表示:13.11比13.8大。
理由如下:
虽然13.8看起来更大,因为它小数点后的数字更少,但13.11实际上更大。这是因为13.8相当于13.80,而13.80小于13.11。
对此,林禹臣po文表示,AI模型在处理复杂问题方面变得越来越强大(比如越来越会做数学奥赛题),但一些常识性问题对于它们来说仍然非常困难。
正如Yejin Choi此前所提出的,AI聪明得令人难以置信,但同时也会蠢得令人震惊。
AI之所以在这个算术题上犯蠢,是因为上下文不清楚的原因吗?
答案是否定的。
根据网友karthik的测试,即使要求GPT-4o给两个数做减法,它依然得出了9.11 – 9.9=0.21这样逆天的减法公式。
如果指示GPT-4o用python,它会先给出一个正确答案,然后又改回了之前错误的那个
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。