长文干货！老程序员测评文心一言4.0模型代码能力！

xiaoxingxing • 2024年5月6日下午9:54 • IT • 阅读 21

目录

目录

前言：老程序员聊聊AI和国产大模型

大家好，我是一名老程序员了，大模型出来后我算是一直在尝试各种AI工具，尤其是AI辅助研发的方向（可能有点焦虑？），包括上个月的AI程序员Devin发布我也在关注，大模型的能力发展太快了，我还是想努力跟上。

我个人一直支持国产大模型，也算文心一言的老用户啦，去年3月刚内测的时候就在用了，那时候特振奋，想着国内终于有一款大模型了，刚开始用的时候很坎坷啊，用起来一直达不到预期。

不过文心一言的模型能力还是在肉眼可见地变好，我现在的情况是付费使用文心一言4.0模型（免费的3.5模型基本不用了），我的感官是文心一言4.0模型对比3.5在各个方面是有明显提升的，迭代速度也更快（可能是商业化后会存在训练资源倾斜？），我看各大平台很少有一言4.0模型的测评，所以今天专门写一篇。

图片由文心一言4.0生成，图个乐

我平时用的最多的还是代码和文本生成（周报写文档你懂的），偶尔玩玩文生图，今天主要给大家测一测文心一言4.0模型的代码能力！

大模型的代码能力可以拆解的维度很多，我今天主要关注的是代码生成质量和可用性，需求理解能力和记忆能力2个方面。

第一关：代码质量和可用性——写个可运行的游戏代码

废话不多说，我们先看看代码的生成质量和可用性——写一个五子棋吧：

我去测试AI的代码能力的use case是——我会让AI写个小游戏，底层逻辑是AI需要理解游戏的规则，并且转译成代码，还必须是可运行的代码，这可能是程序员视角下的“多模态”能力吧，哈哈。

所以我让文心一言4.0模型帮我写一个能跑起来的【五子棋】游戏代码，我们看看生成的代码质量（对话截图参考下方）

那么关键来了，是否可以运行呢？

我们直接copy下来在开发环境中运行，运行起来没问题，定义好了2个棋手交替下棋，一方到5个棋子后游戏判定结束，可以看下方视频截屏。

五子棋

第一关，代码质量和可用性，文心一言4.0模型测试通过～

第二关：需求理解和记忆能力——多轮对话下的任务能力

下面我们看文心一言4.0模型的需求理解能力和记忆能力，测试开启：

很多时候我们在AI代码生成上不是一问一答就结束了，最常见的情况反而是——要求AI不断调整生成的代码，这对AI的记忆和需求理解能力提出要求，下面我会模拟这个情景：

我们看看4.0模型能不能帮我写一个【机器学习代码】，简单来说是对【单层感知机】做一个正负向分类的训练，prompt+回复截图参考下方截图：

我向大模型提问有没有更好的方式实现我的诉求，这考验4.0模型是否真的理解我在做什么，以及对机器学习的了解，我们接着往下看：

文心一言提出了有神经网络和支持向量机2种方法，给出的说明说明很具体很有信息量，说明对我的需求理解程度是在线的，以及展示了对复杂机器学习算法问题的解决能力。

那我们下面让4.0模型直接按照【支持向量机】再帮我写一个新的代码呢？4.0模型还会记得住我们在讨论什么吗？

代码基本可用，因为数据集太小，还专门提示我没必要拆分训练集和测试集（大数据集下通常会做拆分），算是比较贴心了。

所以第二关，需求理解和记忆能力，4.0模型通过！

总结

整体看下来，文心一言4.0模型在代码生成质量和可用性，需求理解能力和记忆能力2个方面表现不错，我自己用的时候基本能满足我的代码诉求，当然我自己还会用4.0模型帮我写一些工作汇报和其他工作文档，中文能力也很不错，中文能力也确实一直是文心一言的核心竞争力啦。

最近文心一言付费会员还上线了【工具版】，上线了Agent框架下的复杂任务的规划、调用工具的能力，算是一个亮点，下次再和大家分享。

如果大家也想快速使用文心一言4.0模型，可以👉👉点击开通文心一言4.0模型，或扫描下面这个二维码开通哦👇👇

版权声明：本文为博主作者：canon_qaq原创文章，版权归属原作者，如果侵权，请联系我们删除！

原文链接：https://blog.csdn.net/canon_qaq/article/details/137628867

AI作画人工智能百度程序人生语言模型

赞 (0)

xiaoxingxing管理团队

0

【C++】从零开始认识泛型编程 — 模版

上一篇 2024年5月6日

原生微信小程序AR(扫描指定图片显示glb模型带demo项目)

下一篇 2024年5月6日