您现在的位置是:首页 > 产经 >正文
打脸奥特曼,GPT-4今年比去年还懒!网友在线实测出炉
发布时间:2024-02-06 14:06华凤明来源:
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
GPT-4变懒的问题,又有新进展。
就在今天凌晨,奥特曼发推称,GPT-4这个毛病在新的一年应该好多了!
关于GPT-4变懒,网友的吐槽已是不计其数,其中最多的就是与代码相关的任务:
完成度不高不说,还会被分割成一个一个小块,使用时需要逐一复制。
对于最新版本,一位博主体验之后表示,自己尝试给一年级的孩子做了个学习用的小游戏,效果还不错。
但也有人不认同,比如这位网友就发现,ChatGPT回复的长度虽然增加了,但是很多都是车轱辘话,干正事依旧摆烂。
他让ChatGPT把一些文本翻译成17种语言,结果叽里呱啦说了一堆就是不翻译。
为了消除个体差异,有网友用数据集测试了新的ChatGPT,结果……
新版反而更懒了?
这位网友用GitHub上开源的一套“lazy benchmark”测试了0125(24年1月最新版)和1106(23年11月的上一版)GPT-4模型,发现新版甚至还不如以前,变得更懒了。
这个测试数据集包含了与代码相关的任务,用正确完成的比例间接反应“懒惰”程度,完成率越高说明“惰性”越小。
结果,对于其中的代码比较(Unified diffs)任务,旧版能完成的比例尚且超过了一半,为57%,新版的完成率却仅有44%,降低了近四分之一。
直观感受上,也有人发现ChatGPT的“懒惰”变本加厉了——
以前就算偷懒至少还会糊弄一下,给出个大概的框架让用户自行补充,现在直接就是摆烂说自己干不了。
而针对网友们的这番发现,也有人给出了锐评:
几周之前奥特曼就说过GPT-4表现变好了,但是有人感觉到差别吗?
这次,关于GPT-4变懒的原因,以及到底采用了什么优化策略,奥特曼也未做进一步说明。
“土办法”可降低惰性
不过,之前的一项研究表明,GPT-4的惰性可能与时间相关,这一结论与GPT-4“变懒”的现象出现在年末的12月相吻合。
按照这一理论,新年伊始,模型的表现的确会有所提升,但似乎解释不了表现不升反降的现象。
不过,网友们也总结了一些“土办法”,能在一定程度上降低ChatGPT的惰性。
比如告诉它“我没有手指”,就能得到相对完整的代码,而不是一段段碎片。
又或者,告诉ChatGPT自己会“给小费”,也能激发它的工作动力。
甚至有人专门针对“小费”的金额进行了研究,发现10美元的性价比是最高的。
那么,你觉得ChatGPT是变好了还是更懒了?
参考链接:
[1]https://twitter.com/sama/status/1754172149378810118
[2]https://aider.chat/docs/benchmarks-0125.html
标签:
猜你喜欢
最新文章
- 打脸奥特曼,GPT-4今年比去年还懒!网友在线实测出炉
- 长八改火箭最大规模试验成功!近十年首次此类试车
- 鸿海董事长:英伟达今年AI芯片供应仍严重不足,只有少数能拿足够量
- 外媒:苹果Vision Pro目前杀手级应用是……做饭计时?
- 苹果 iOS 17.4 正式版更新 3 月上线:欧盟地区支持应用侧载等
- 哲库解散半年后,芯片人才流向了哪儿?
- 肿瘤医生从不碰的6种促癌食物,也建议你少吃!
- 央视曝光“毒纸巾”,有毒还致癌?提醒:少了这几个字,建议别买
- 春节容易"三多"中医专家教你这样补救
- 卫健委:流感、肺炎支原体感染人数回落
- 腊月廿六: 带上小朋友,去集市溜一溜
- 终身质保失效,保险公司拒保,新能源车被严防里程数,都因为它
- 小米集团高层变动 雷军放权手机业务开始沉浸式造车
- 4月北京车展首秀 全新迈腾首台SOP白车身下线
- 新增低动力插电式混动版本 哪吒L最新申报信息
- “东北贵人”也救不了贵人鸟?
- 比亚迪的绿,特斯拉的红
- 雷军让出小米手机发布会C位,网友调侃卢伟冰“反米复金”
- 海普瑞就遭遇巨额诈骗表态:实控人垫付公司全部损失 后续切实整改
- 奇瑞被网红徐奶奶坑苦了
- 县城猛发购房新政,返乡置业卷疯了:到高速路口揽客、买房就送年猪
- 极星汽车持续亏损,沃尔沃拟减持、吉利或接盘
- 缅北电诈家族覆灭后,东方神秘力量成最大赢家?
- Meta走出元宇宙深坑