-
多模态GPT-4被吹爆,但仍会“一本正经胡说八道”
最后更新: 2023-03-15 15:11:15(文/贺喜格 编辑/吕栋)
今年初以来,以AI大模型GPT3.5为基础的聊天机器人ChatGPT引发大量关注,股市上相关概念遭到热炒。正当ChatGPT的热度有所下降时,微软投资的OpenAI又推出了GPT-4,号称功能比GPT3.5更强大。
北京时间3月15日凌晨,OpenAI正式发布大型多模态模型GPT-4。据介绍,与ChatGPT只能接收文字不同,GPT-4能接收图像和文本输入来输出文本内容;扩写能力得到增强,能处理超过2.5万个单词的文本;更具创造力,回答准确性显著提高;能够生成歌词、创意文本,实现风格变化;并且能够处理更细微的指令。
“这是我们迄今为止功能最强大的模型!”OpenAI的高管和工程师在介绍视频里直言:“GPT-4是世界第一款高体验、强能力的先进AI系统,我们希望很快把它推向所有人。”
新的大模型一经发布,便受到网友们的热捧。但仍然值得的一提的是,虽然GPT-4的功能进一步增强,但仍然不完全可靠。OpenAI坦言,GPT-4仍然会产生幻觉、生成错误答案,并出现推理错误。
自去年11月推出以来,ChatGPT已经能够根据用户提示生成原创文章、故事和歌词,但它也引发了一些担忧。最近几周,人工智能聊天机器人(包括来自微软和谷歌的工具)因情绪反应过激、犯事实错误和完全“幻觉”而受到指责。
GPT-4文字输入限制提升至2.5万个单词
专业场景中接近人类水平
开发GPT大模型的OpenAI称,GPT-4能接受图像和文本输入,输出文本内容,虽然在许多现实场景中的能力不如人类,但在各种专业和学术基准测试中已做到人类水平的表现。
之前人们使用的ChatGPT只有处理文本的能力,GPT-4开始接受图像作为输入介质。比如,给它展示一张图片,问它手套掉下午会发生什么,很快会得到“它会掉到木板上,并且球会被弹飞”的回答。
OpenAI还用一张“梗图”演示了GPT-4的新功能。用户提问:解释下图的笑点是什么,并对图片中的每部分进行描述。GPT-4会分别对每张图中的内容进行描述,并指出这幅图把一个大而过时的VGA接口插入一个小而现代的智能手机充电端口,是荒谬的。
GPT-4也能简练指出图片的违和之处。用户提问:“这张图片有什么不寻常之处”时,GPT-4简练地回答出“一名男子正在行驶中的出租车车顶上使用熨衣板熨烫衣服”。
不仅是图像理解,它还可以阅读图片形式的论文。通过几张论文的图片,GPT-4可以总结内容,也可以对指定内容展开解释。
除了在文本输入的基础上进一步接受了图像输入外,GPT-4还升级成为了一个“学霸”,基准测试表现远远优于现有模型。OpenAI表示,如果是随意聊天,用户可能不太能感受出GPT-3.5与GPT-4之间的区别。但当任务的复杂性达到足够的阈值时,GPT-4将明显比GPT-3.5更可靠、更有创意,并且能够处理更细微的指令。“在我们的内部评估中,它产生正确回应的可能性比GPT-3.5高40%。”
根据测试,在“美国高考”SAT中,GPT-4的分数增加了150分,现在能拿到1600分中的1410分。它还通过了模拟律师考试,且分数在应试者的前10%左右;相比之下,GPT-3.5的得分在倒数10%左右。
此外,GPT-4对于英语以外的语种支持也得到了大大的优化。许多现有的机器学习基准测试都是用英语编写的。为了初步了解GPT-4在其他语言中的性能,OpenAI使用Azure Translate将MMLU基准测试(一套涵盖57个主题的14000个多项选择题)翻译成各种语言。在测试的26种语言中,有24种语言,GPT-4优于GPT-3.5和其他大语言模型的英语语言性能。
在API(应用程序编程接口)方面,GPT-4还开放了一个使用功能,允许修改“系统提示”。之前ChatGPT的回答总是冗长而平淡,这是因为系统提示中规定了“你只是一个语言模型……你的知识截止于2021年9月”。现在通过修改这句话,GPT-4就可以展现出更多样的性格,比如扮演苏格拉底。
OpenAI请GPT-4模型以苏格拉底风格教学,绝对不能给学生答案;相反地,还要不断提出好问题帮助学生思考。ChatGPT果真循循善诱,以提问代替直接回答。取自OpenAI官网
仍然不完全可靠
在体验ChatGPT之时,不少用户会发现ChatGPT时不时会“一本正经地胡说八道”,而GPT-4尽管号称功能更全面,但会出现幻觉、胡说八道的毛病还是没能完全改掉。
OpenAI介绍,尽管功能已经非常强大,但GPT-4仍与早期的GPT模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。GPT-4仍然会生成错误答案,并出现推理错误。
也就说,在GPT-4身上依然可以看到之前版本“一本正经地胡说八道”的情形。OpenAI强调,仍然推荐在使用它的时候要附加诸如人工审查、或者附加上下文,甚至在高风险情境中,要避免使用它。
不过OpenAI也提到,该系统已经接受了六个月的安全培训,在内部对抗性真实性评估中,GPT-4的得分比最新的GPT-3.5高:“响应不允许内容的请求的可能性降低了82%,产生真实事实的可能性提高了40%,优于GPT-3.5。”
网传GPT-3和GPT-4参数对比图,但此次OpenAI没有给出GPT-4参数量
“它仍然存在缺陷,仍然有限,但它有明显的改进。它比以前的模型更有创意,它的幻觉明显减少,而且它的偏见也更少。”OpenAI公司CEO奥特曼在Twitter上称,GPT-4是其模型“最有能力且最符合”人类价值观和意图的模型。
这也意味着,相较之前的模型来说,GPT-4虽然仍可能“一本正经地胡说八道”,但频率有所减小。
不过频率的减小还是不能让人们放松警惕。在GPT-4发布后,微软营销主管表示,“如果你在过去六周内的任何时候使用过新的Bing预览版,你就已经提前了解了OpenAI最新模型的强大功能。”
这似乎可以理解为,微软的新必应早就已经用上了GPT-4。而结合前段时间对新必应的争议来看,已经用上了GPT-4的新必应还是出现了不少“发疯”行为。
此外,与前一代一样,GPT-4是基于2021年9月之前的数据训练的,所以GPT-4对于2021年9月之后发生的事件仍然缺乏有效理解,也不会从其经验中进行学习。OpenAI表示:“GPT-4仍有许多已知的局限性,我们正在努力解决,例如社会偏见、幻觉和对抗性提示。”
本文系观察者网独家稿件,未经授权,不得转载。
标签 ChatGPT- 责任编辑: 贺喜格 
-
“不后悔向小布什扔鞋,仍对美国感到愤怒”
2023-03-15 14:32 -
毛利率超资生堂!毛戈平每赚100元对应产品成本不到19元
2023-03-15 14:29 观网财经-金融 -
保银行还是抗通胀?美联储陷入两难
2023-03-15 14:25 观网财经-宏观 -
提前跑路?硅谷银行高管被爆套现8400万美元
2023-03-15 14:19 观网财经-金融 -
一未成年人直播打赏逾百万元,消保委介入后平台全额退回
2023-03-15 13:13 观网财经-消费 -
网红餐厅蓝蛙后厨乱象:过期蔬果继续用、有效期标签随意换…
2023-03-15 11:57 -
两年后在制程上反超台积电、三星,英特尔能做到吗?
2023-03-15 11:36 观网财经-科创 -
拐点来了?前2月房地产开发投资降5.7%,较去年全年收窄4.3个百分点
2023-03-15 10:15 观网财经-房产 -
穆迪下调美国整个银行体系评级:稳定→负面
2023-03-15 10:08 观网财经-海外 -
产业园项目只有钢架就庆祝封顶?当地回应
2023-03-15 09:47 观网财经-房产 -
全国高中“C9联盟”成立:不针对第三方
2023-03-14 21:43 -
打“擦边球”重启超纲教学?学而思回应:启动内部调查
2023-03-14 20:24 观网财经-互联网 -
新华社受权播发《政府工作报告》
2023-03-14 19:11 观网财经-宏观 -
美国银行危机,日本股市挨最狠的打
2023-03-14 19:03 观网财经-金融 -
危机加深?百年投行瑞士信贷自曝“重大缺陷”
2023-03-14 18:07 观网财经-海外 -
江苏将举办大基金二期投资对接会
2023-03-14 17:02 观网财经-科创 -
银行危机时刻,瑞信自曝过去两年财报程序有“重大缺陷”
2023-03-14 16:59 -
上交所3月18日开展全面注册制发行业务通关测试和交易业务全网测试
2023-03-14 16:54 观网财经-金融 -
A股半导体概念逆势上涨,中芯国际涨超10%创一年新高
2023-03-14 15:48 观网财经-科创 -
“凌晨五点半,我把钱转出来了!”
2023-03-14 13:46 观网财经-海外
相关推荐 -
50天要选出新总统,伊朗谁有可能? 评论 20逮捕令发不发?“未来几天压力将来到她们身上” 评论 123ICC刚刚“救了”内塔尼亚胡? 评论 85ICC检察官申请逮捕以总理,美以“暴跳如雷” 评论 239伊朗官方通讯社称莱希直升机事故系“技术故障” 评论 264最新闻 Hot
-
灵柩上覆盖着伊朗国旗,莱希的葬礼仪式有何讲究?
-
共提草案未获通过,中俄代表回应
-
逮捕令发不发?“未来几天压力将来到她们身上”
-
英国法院最新裁决后,阿桑奇案迎“转折点”?
-
美联储理事:对俄制裁和中国推广人民币等,都在冲击美元地位
-
泽连斯基5年任期届满,俄方第一时间称其“丧失合法性”
-
ICC刚刚“救了”内塔尼亚胡?
-
原来,是她主导了逮捕令申请
-
土部长:没收到应答机信号,讨论暗杀为时尚早
-
ICC检察官申请逮捕以总理,美以“暴跳如雷”
-
与中国达成“君子协定”,菲国会找杜特尔特政府麻烦
-
白宫坚决否认:不“背锅”
-
看到安理会默哀,他又发飙了
-
美方称伊朗罕见请求援助,“但因后勤原因无法提供”
-
“内塔尼亚胡多次阻止以情报人员会见美国官员”
-
阿桑奇“最后一博”
-