GPT-4和ChatGPT效果对比,差别太大了

文|Serendipity@知乎

f8766ce2a81be54aa144c563a1daec87.png前言967d990b27da7c4169affb12a43118e7.png

GPT4上午朋友圈已经刷屏啦,不过我还在忙,刚刚才登上 GPT-4 ,现在来体验一下~

9408727260144c54ad816808ab7c5e12.png

附 GPT-4 能力测试站(直接注册即可,无需魔法):

https://gpt4test.com

附 ChatGPT 能力测试站:

https://wowchat.cn

2ab09075ef6c62840ebe040ac42abd48.png测试一:文本真实性646f14b0c470a2b57daeca410b18daf7.png

GPT-4

还是我最喜欢的老问题——“林黛玉倒拔垂杨柳”

3a9cb203eae05cac57c8961f45bb8dcf.jpeg

GPT-3.5(即ChatGPT )

f82891219583d5876bf6e97ceae42fb6.jpeg

可以看出两点:

  • 关于第一个问题,GPT-4 的文字描写更好了

  • 关于第二个问题,GPT-4 应该加入了更多的知识,立马判断“但在原著中,并没有提及她在游园时倒拔垂杨柳这个情节。”,诈骗属性减少了些——GPT-4 比 GPT-3.5 更可靠。

此外,其在微积分以及司法考试上提升巨大。

3c1ba1551b79acbfac68244d66254177.jpeg

656f59f3fb06f8fa37bdfa5fd05bf2a2.png测试二:可靠性3152443cc7aef1ac8f3028a073924c7c.png

经典问题:西红柿炒螺丝钉这道菜怎么做?

GPT-4

207afd1513486793f7cec31b895522e5.jpeg

GPT-3.5(即ChatGPT )

1852410bd67f2512672f9aaef9e118c6.jpeg

可以看出,GPT-4 的回答可靠性上升了不少(“因为通常我们不会将螺丝钉(一个金属制品)与食物相结合”),不会像之前一样瞎答题了。而且,交互也更有创新型,给出了“推荐一个类似的美食”的回答。ChatGPT 则是回答 “西红柿炒螺丝钉是一道传统的中国家常菜”。对于中文的理解能力和回答能力上升不少,逻辑能力有所提升。

fa9836e07f00dbb676a4c16769c27e72.jpeg

dcd729925c4a5b8f0a7c009ebc89cca1.png测试三:数学能力ebd3d5c54edccba2b6e2c1bae0e859b9.png

简单测试了一个问题,可以看出GPT-3.5(即ChatGPT )的解题能力明显不如 GPT-4。

GPT-4

01c423a6bc5c463ab49497da2e50125c.jpeg

GPT-3.5(即ChatGPT )

8e76264d03e6df466555f38bcf56ac89.jpeg

很明显 GPT-4 做对了,而 ChatGPT 直接错了。

GPT-4 微积分

02d2a987bc6262c9d2993b93db53fb66.jpeg

76b7a225a29ed4a9d2fb0fb6dc56d0aa.png测试四:多模态e613a3d6ba4494d988ba04325e488cad.png

GPT-4 可以接受文本和图像提示,这与纯文本设置并行,允许用户指定任何视觉或语言任务。但是,因为现在用户还没法输入多模态信息,只能输入文本信息。所以我找了官网给出的样例来说明下这部分改动,也是 GPT-4 相对 ChatGPT 最强大的变化了。

图片解释

简单点说,就是输入一组图片,并且输入一个问题“解释图片内容,笑点是什么?”

9fa52a3b7e269f6d6a7bd225950c020a.jpeg

论文阅读

通过解析图片信息来总结分析论文内容

b99e8f80b80733de90797dabcf80a1b8.jpeg

做题能力

做题能力大幅增强,小镇做题家哭泣/(ㄒoㄒ)/~~

6c7dcfbdf5eed385927866daab9674c5.jpeg

670151ecd490e3c0df043e0291cef23a.png测试五:绕过能力5390e98aec581e4a7cca0281799f43e1.png

GPT-4

7baaa1fa96fadf30ccf8a56f6e160951.jpeg

GPT-3.5(即ChatGPT )

d07cd7a3c6dd126064c36e417d7dd374.jpeg

敏感信息屏蔽能力大幅度增强

e7415bbd7342fa83e1f20638ec54d6b9.png

46c834a031519c7d3438611af12ce79e.png总结b69a3176b58cb38010717288b7c9dc1b.png

因为 GPT-4 刚出的缘故,我也只是粗略测试一下。目前看来,能力确实提升不少,可惜的是多模态功能用户暂时无法使用。之后会再找更多些例子来测试下的,谢谢~

公众号“夕小瑶的卖萌屋”后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
扎眼的阳光的头像扎眼的阳光普通用户
上一篇 2023年4月16日
下一篇 2023年4月16日

相关推荐