出品:「顿悟山丘」咨询
策划:黄哲铿 Mr.K、张建华、李国山、黄勇
测评:Wendy.L
上一期我们说过,笔者连续好几夜爆肝,一口气亲自测试了6款大模型,虽然收获了无数槽点和笑点,但不得不说,咱国产这几家大模型才俊们,也还是有点东西的。
为了帮助各位读者更快找到适合自己的大模型应用,于是索性又继续爆肝,整理形成这份评测分析报告,现在就让我们一睹为快,看看最强的到底是谁家吧!
01
第一部分 总评报告
一、用户体验 |
||||
评价内容 |
交互界面 |
响应速度 |
多模态输入支持 |
总体 |
文心一言 |
3.5 |
4.5 |
4 |
4 |
讯飞星火 |
4 |
3.5 |
4 |
3.75 |
通义千问 |
3 |
3 |
3.5 |
3 |
百川智能 |
3 |
3 |
2 |
|
MiniMax |
2 |
2 |
2 |
2 |
智谱清言 |
3 |
3.5 |
3.5 |
二、基础能力 |
||||
评价维度 |
理解 |
逻辑 |
记忆 |
生成 |
文心一言 |
4 |
4 |
4.5 |
4.5 |
讯飞星火 |
4.5 |
4 |
4 |
4 |
通义千问 |
4 |
4 |
3 |
4 |
百川智能 |
3 |
4 |
3 |
3.5 |
MiniMax |
3 |
4 |
3 |
2 |
智谱清言 |
4 |
4 |
3 |
3.5 |
三、多模态 |
||||
支持形式 |
图片 |
视频 |
音频 |
其它 |
文心一言 |
✔ |
✔ |
✔ |
|
讯飞星火 |
✔ |
✔ |
||
通义千问 |
||||
百川智能 |
||||
MiniMax |
✔ |
|||
智谱清言 |
✔ |
四、场景模型 |
|||
评价内容 |
场景数量 |
内容质量 |
场景有效度 |
文心一言 |
5星 |
4星 |
4星 |
讯飞星火 |
5星 |
4星 |
4星 |
通义千问 |
2星 |
3星 |
2星 |
百川智能 |
2星 |
2星 |
—— |
MiniMax |
1星 |
3星半 |
4星 |
智谱清言 |
4星 |
4星 |
3星 |
02
第二部分 各家大模型特色分析
第一梯队:
虽然并不是很完美,但毫无疑问这几位是这次测评中的佼佼者:
【文心一言】
我们把文心一言放在第一梯队里面,是因为体验的仅是3.5版本,4.0要氪金,所以说明应该性能更强一些,经过一番爆肝测评,发现作为大厂的嫡子,文心一言确实在以下几个方面具有独特之处:
1、优秀的跨模态理解与生成能力:文心一言具备跨模态理解和生成能力,可以处理多种形式的语言输入,包括文本、图像和音频等,并能够生成相应形式的输出。
2、出色的情感分析能力:文心一言具有较强的情感分析能力,可以识别文本中的情感倾向和情感表达,并能够生成具有情感色彩的文本。简而言之,你生病了,你男朋友只会叫你多喝热水,但是他却能变着法子哄你。
3、丰富的场景和知识库:得益于多年的大搜索数据积累,百度文心一言拥有了丰富的知识库,可以获取广泛的知识信息,并能够根据用户的问题进行精准的回答和解释。这使得文心一言在问答系统、智能客服等领域具有显著的优势。
4、谜一般的作品质量:不管是图片还是文字创作,文心大模型生成的内容,就是一个过山车般的盲盒体验,你永远也不知道它下一秒生成的到底令你惊喜万分还是大跌眼镜,不过这确实也是跟文心一言对话时候的乐趣所在。
5、中规中矩的用户体验: 虽然内容生成说得头头是道,情感分析也十分到位简直堪比渣男中的战斗机,但是对于一个比较吹毛求疵的用户来说,交互体验方面文心一言就是直男中的拖拉机。
【讯飞星火】
又是一个浓眉大眼的大厂嫡子——讯飞星火从“外貌体验”上来说,可以说是吊打文心了。
如果说文心一言是一个拥有深厚才华和内涵但不外露的优质富二代,那么讯飞星火可以说是一位非常高调的“高富帅”,总之就是,有什么优点就全都放在主页上,不怕我没有,就怕你不知道。
另外还有这些丰富的插件,简直就是为打工人量身定制的,甭管生成的质量如何,但至少这个态度我是给满分的!
第二梯队:
第二梯队虽然背景不同,能力也是各有千秋,但从深度体验的水平上来说,我就放在一起说了,因为从用户体验、基础能力以及场景模型方面来说,都是不相上下半斤八两的。
就是你也说不出它哪里不好吧,但是似乎哪里都是差点意思。
【通义千问】
场景方面,看似不少,但是也比较鸡肋。
【智谱清言】
从用户体验来说,和通义千问很相似,但是交互体验明显好于前者。
场景丰富度很高,但是奈何都很鸡肋——属于看似花哨但实则只适合消遣,没什么大用处的。
绘图能力还是可圈可点的,风格也迥异。
【百川智能】
从用户角度来说,作为初创新贵,其实百川的交互、响应速度、以及基础能力等真的已经很强,但是跟第一个梯队的其它大模型比较下来,大模型本身是主要短板,还有就是场景不够丰富,而且多模态能力不足,后续还是有很大的提升空间的。
【minimax大模型】
肉眼可见是目前测评到最“穷”的大模型了,没有之一。
简陋的交互界面,有些“脾气”的交互问答,还有动不动就卡住(当前阶段,体验用户(未充值)调用接口时会被限速),可以说是又穷又任性了。
但是不管怎么样,个人还是觉得它在交互方面仍有些独到之处:
首先是场景前置,作为一个用户,你得是带着目的来使用它的,场景虽然不多,但是每一个都有着做精做深的潜力,这比起前面那些大模型多到令人眼花缭乱但十分“鸡肋”的场景功能来说是好多了
其次是留给用户更多且更方便的开发空间,可以直接进行代码查看和修改。
这段代码背后其实对应的是一个交互特别简陋,但是还挺有趣的推理游戏。
感兴趣且如果时间多一点的朋友,也可以找来玩玩。
最后是,MiniMax这么“穷”居然还支持语音输出:
我简直感动哭了。
而且亲测,这个语音是有情感语调的,而且还可以选择不同音色。
这个简直可以吊打其它所有一众令人难受的AI式朗读。
也许在未来,是可以取代真人有声书演播的。
03
第三部分 使用建议
测评了这么多位大模型才俊,发现其内核跟现实中找伴侣是一样的,那就是永远也找不到完美的,但总而言之,没有最好的,只有在特定场景下最适合的。以下是一些使用的建议:
一、创作找寻灵感:
文本创作方面,个人强推文心。
二、办公助手:
讯飞星火、文心等等都可以组合使用,毕竟助理多了谁也不嫌多。
三、生活辅助:
这个用谁家都是差不多的,但个人使用习惯上来说还是文心(移动手机版or 网页小程序都很好使)。
四、图片生成:
个人觉得国内这几款没有特别能打的,但是也各有千秋:
文心比较通用,但风格单一不够出众。
智谱清言的风格特色更丰富。
讯飞比较偏动画建模感:
五、教育学习:
MiniMax有一个“作业批改”的功能,可以尝试一下,虽然这个交互也不怎么友好吧,但如果是有能力的你甚至可以修改优化一下代码,对于程序员来说可以是一个不错的学习平台。
本次测评到这里也就告一段落了,那么究竟谁是最强大模型“王者”?
在移动互联网时代,当年也是有无数短视频应用发起,但是最终市场竞争过后,几乎只剩下快手和抖音。
但即使是到今天,谁也没法下结论说,到底是快手还是抖音更好用,为什么呢,因为受众和内容倾向性不同。
在人工智能时代, “千模大战”过后,最终大浪淘沙留下的,想必也就那一两个,时间会证明一切。
不管是什么,我们只需要记住,这些都是工具,工具要为我所用,而不是牵着人的鼻子走。
就像在测评过程中,MiniMax跟我说的一句话:
“真正的危险不是计算机开始像人一样思考,而是人开始像计算机一样思考。
机构简介:「顿悟山丘」咨询,致力于企业数字化转型咨询与方案落地。是由国内知名数字化转型专家 Mr.K(黄哲铿),与多位来自头部互联网公司的技术专家共同创办。凭借领先的方法论、丰富的行业经验,获得了数十家上市公司及独角兽企业的青睐和赞誉,并保持长期、紧密合作。
添加“顿悟山丘”创始人Mr.K,私人微信
版权声明:本文为博主作者:技术领导力原创文章,版权归属原作者,如果侵权,请联系我们删除!
原文链接:https://blog.csdn.net/yellowzf3/article/details/134566171