QPS提升近10倍！解读飞桨加持下的文心一言满月成绩单

近期，一直犹抱琵琶半遮面的国内各路AI相关厂商，扎堆发布大模型。一时间，百“模”大战，鱼龙混杂。

此前，作为全球第一个正式发布大模型的大厂，百度文心一言的一举一动，成为业界关注的焦点。

就在4月19日，时隔文心一言发布1个月又3天，一张“百度飞桨对文心一言定制优化例会会议纪要”的截图，被曝光出来，吸睛无数。

三个数据，表现抢眼

从这份会议纪要，可以看到，百度飞桨在文心一言开启邀测后，一个月内迭代4次，目前已迭代至3.5版本，在业内首创支持动态插入的分布式推理引擎，单机QPS（每秒查询率）相对线上版本提升123%。飞桨与文心一言联合优化的效果，具体到数据表现上，有三个：

1. 模型推理效率提升10倍：相对于第一版大模型推理服务，单机QPS累计提升近10倍，这意味着大模型推理的成本降低为原来1/10，换句话说，可以并发为原来10倍数量的用户提供服务；

2. 模型推理性能提升50%：性能的提升意味着模型效果的提升，这也印证了文心一言进化更快了，学习又快又好了；

3. 模型算力利用率提升1倍：表明飞桨框架一方面与大模型的训练和部署进行协同优化，同时，框架向下承接芯片，相当于芯片的“指令集”，适配优化后得以激发芯片的潜力，模型算力的利用率才能够有所提升。

所有这些，是文心一言与飞桨深度学习框架协作的结果。而透过这些数据表现，我们还能发现两个更深层次的内涵，也许那就是各家的大模型最终要拼刺刀的地方。

全栈布局，自主安全

技术指标好坏，在一定程度上会反映出背后技术顶层设计策略的重要性。在人工智能时代，IT技术栈发生了根本性变革，从三层架构转变为“芯片-框架-模型-应用”四层架构。与此同时，大模型作为公认的人工智能时代的核心资产，如何保障其安全性，成为重中之重。做好四层架构的自主、自研，成为一条可行的路径。

在全球范围内，在四层架构的每一层都有领先产品的公司几乎没有。拥有了四层全栈布局，就可以把大模型可持续发展的主动权完全掌握在自己手里，也就意味着筑起了一道技术的护城河。

百度从高端芯片昆仑芯，到飞桨深度学习框架，再到文心一言，到搜索、智能云、自动驾驶、小度等应用，每一层都有布局，而且还拥有丰富的终端应用场景。全栈布局，全端覆盖，为大模型的学习、生长、安全可持续，提供了充足的养分和土壤。

模框一体，天作之合

借用发动机，打个比方。如果大模型是发动机的话，框架则是发动机制造者，可以让发动机整体各个部件的组合更精密、动力更强，还可以自主迭代演进。反之，如果没有框架做训练、推理，协同优化，大模型就像是无法自主演进的发动机，动力不一定强。

AI框架之于大模型的重要性，在业内亦早有迹象。原美团联合创始人王慧文创立的大模型公司光年之外与 AI框架创业公司一流科技 Oneflow达成并购意向，就意在补齐框架层面的短板。

业界同时拥有大模型和框架的，屈指可数，大多数厂商或者框架用的是Tensorflow、PyTorch，或者没有自己的大模型。而据说谷歌、Meta等深度学习框架并没有基于大模型进行设计，导致当出现大模型需求时无法直接应用 TensorFlow 和 PyTorch，而是要在其基础上开发插件。

像百度这样，文心一言、飞桨深度学习框架，系出同门，协同配合，相得益彰。

一方面，文心一言的快速迭代，对框架层和芯片层，甚至应用层的发展是一种刺激和反哺。

另一方面，除了前面提到的发动机的比方，飞桨作为百度2016年推出的开源分布式架构，就是为应对并行GPU训练而生。大规模分布式训练历来是飞桨非常有特色的一个功能，实现了千亿稀疏特征、万亿参数、数百节点并行训练技术。比如，支持包括模型并行、流水线并行在内的广泛并行模式和加速策略，推出业内首个通用异构参数服务器架构、4D混合并行策略和端到端自适应分布式训练技术，这都引领了大规模分布式训练技术的发展趋势。

百度在深度学习框架上的提前布局，眼光独到，为大模型发展先人一步提供了保障。

面向未来，可以遇见的是千“模”、万“模”们还会继续、快速涌现，而谁是笑到最后的“模王”，且看全栈布局、自主安全、模型框架协同等能力。

文章出处登录后可见！

已经登录？立即刷新

QPS提升近10倍！解读飞桨加持下的文心一言满月成绩单

三个数据，表现抢眼

全栈布局，自主安全

模框一体，天作之合

相关推荐