文心一言与百度的新搜索时代-扬州城市论坛

在短短的两三个月时间里，曾经名不见经传的Open AI，和它旗下的语言类深度学习大模型ChatGPT，已经在大洋彼岸掀起了滔天巨浪。

微软、谷歌等巨头纷纷入局，或是重金下注、或是仓促应战，几乎在一夜之间，这股AI新势力，几乎让硅谷所有的巨头都卷入其中。

而在国内，虽然媒体和网络上的讨论热度同样很高，但面对这一波AI浪潮席卷而来，国内大多数互联网公司，却并没有如往常那般迅速做出反应。

其背后的原因倒不复杂：像这种基于深度学习的大语言模型，需要巨额的投入和长期不懈的技术积累，绝非短时间内可以拿出成果，即使认识到了其重要性，从现在开始组建团队、投入资金，要等到真正有可展示的成果上线，那也是很久之后的事情了。? ? ??

在这样一种略显尴尬的局面下，百度（BIDU.US; 09888.HK）旗下基于生成式AI的大语言类模型——文心一言，就担负起了向全行业、甚至全世界展示中国AI大模型研发能力的重要使命，而文心一言的横空出世，或许意味着属于百度的一个全新时代正在拉开帷幕。

01 深度学习，百度从未缺席

与许多人的陈旧印象不同，对于基于深度学习的AI技术，百度的热情由来已久。

早在2010年初，百度就在集团内部对于NLP（自然语言处理）的发展方向进行了全面的梳理和规划。

同年，百度自然语言处理部正式成立，并不断在语音、图片等技术上布局，敲定了在知识图谱技术上长期投入的战略。

2019年3月，百度提出知识增强的语义理解框架ERNIE，在深度学习的基础上融入知识，同时具备持续学习能力，借此一举登顶全球权威数据集GLUE榜单，全世界首次突破90分大关，刷新了榜单历史。

2021年9月，百度发布了PLATO-XL，这是全球首个百亿参数的对话大模型，一举超过 Facebook Blender、谷歌 Meena和微软 DialoGPT，成为全球首个百亿参数中英文对话预训练生成模型。

自然语言处理（NLP, Natural Language Processing）被称为“人工智能皇冠上的明珠”，谁能实现自然语言处理技术的突破，谁就能在AI领域一骑绝尘。而在NLP领域，毫不夸张的说，中国绝对没有一家公司的水平接近百度，也没有任何一家公司有能力借助NLP挑战百度。

可以说，相比那些在ChatGPT爆发之后才后知后觉的同行，百度从一开始就走在了语言类大模型的最前列，与大洋彼岸的竞争对手始终处于交替领先的同一个水平线上。

这也就保证了一旦市场需求走向成熟，百度可以在第一时间就拿出文心一言——这个在全球中文语言对话类模型当中首屈一指的存在。而任何其他的竞争对手，都只能从零开始做起。

02 底层自研，百度的独门绝技

进入人工智能时代之后，全球IT技术的技术栈发生了根本性的变化。

过去的体系基本上可以分为三层：芯片层、操作系统层和应用层。而像英特尔、高通、微软、谷歌这些公司，在不同的层级上分别占据了领导位置，从而让整个体系成为自己的摇钱树。

而在人工智能时代，全新的体系则可以分为四层：芯片层、框架层、模型层和应用层。凭借着自己强大的研发实力，百度在其中的多个层级都进行了布局：从高端芯片昆仑芯，到飞桨深度学习框架，再到文心预训练大模型，每一个层面上，百度都有自己的关键技术，这种从底层一直延展到应用层的深度和广度，是国内其他厂商完全无法望其项背的。

正如中金互联网行业首席分析师白洋所说：“AI的三要素包括算力、算法和数据，我们认为百度在这三项上拥有领先优势。百度在芯片层、框架层、模型层和应用层进行全方位布局。”

在这样一种强大的技术基础支持之下，百度始终与国际上最先进的竞争对手处于同一个Level上，以文心大模型为例，和Open AI的GPT模型类似，百度的文心大模型在2019年就已经推出，并且已经迭代了多代。

从单一的自然语言理解延申到多模态，包括视觉、文档、文图、语音等多模态多功能，因此“文心一言”所基于的ERNIE系列模型也已经具备较强泛化能力和性能。

以最新发布的ERNIE 3.0 Zeus为例，该模型迭代于ERNIE 3.0，拥有千亿级参数。其已经具备智能创作等各类自然语言理解和生成任务，且公开数据集上小样本学习、理解和生成任务效果皆好于业界其他模型。

03 商业模式，百度天生占据C位

和大洋彼岸被微软Bing+ChatGPT组合拳的进攻逼得有些狼狈的谷歌不同，百度在中文搜索引擎上的霸主地位，至今没有任何人可以挑战与撼动，而份额领先的百度，偏偏又是在AI大模型领域深耕最久的国内厂商。

如果说，ChatGPT成为了微软攻向谷歌腹地的攻城锤，那么，文心一言就是百度进一步强化搜索及信息流市场优势的铜墙铁壁。

有了AI大模型的加持，百度的护城河得到了进一步的拓宽和加深，这种对现有业务的强大保护能力，反过来又让百度能更加从容的为AI的发展继续加码。

实际上，语言类大模型和搜索引擎几乎是天生的搭档。Bing的测试表明，当新一代搜索引擎引入对话模式之后，用户搜索信息的体验得到了本质性的提高。

而对于百度来说，有了文心一言的加持，百度几乎可以肯定会成为中文互联网上信息最丰富、答案最准确、概括最全面的对话式搜索引擎服务商。而这种强势地位反过来进一步提升了百度的流量变现能力，让百度能够比竞争对手在单次搜索请求当中获得更高的平均收益。

另一方面，对于百家号、百度知道、百度百科、贴吧等自有流量来说，文心一言的出现也让这些业务的运营效率得到了进一步释放，知道和百科这些应用可以做到真正意义上的千人千面，以及对现有内容的实时更新，相较之目前依赖人工的方式，效率有望获得巨大的提升。

04 手握数据，百度坐拥另类金矿

大模型的迭代，离不开海量训练数据的输入。以ChatGPT为例，其模型训练使用主要来自互联网的文本数据库，包括从网络文本、维基百科、文章中获得高达 570GB的数据，在海量数据投喂的基础上，大模型才能真正发挥自己的威力。

而在中文互联网上，谁拥有全世界规模最大的文本数据库？答案显而易见。毫无疑问，作为搜索引擎的百度，天生就坐拥着一座巨大的金矿。

对于搜索引擎来说，海量文本数据的收集、处理、分类，这原本就是核心搜索业务的题中应有之义。而这样一种先天优势，恰好就变成了训练语言类大模型的良好基础所在。

在中文互联网上，百度要比任何竞争对手都拥有更为丰富和全面的训练数据，因此，在其他技术条件相同的情况下，百度的文心一言就像是含着金钥匙的豪门后代，可以说是从一开始就赢在了起跑线上。

05 模型训练，百度算力储备雄厚

众所周知，新一代大模型的训练环节需要巨量的算力投入。全球各大AI公司一个主要的成本支出项目就是算力的采购费用。

而百度，恰恰是国内领先的智能云服务提供商。百度拥有多个云计算可用区、庞大的超算集群，奠定了大模型训练的基础设施。

目前百度旗下有阳泉、徐水、定兴三个云计算中心，其中，阳泉智能云数据中心仅一期就可承载16万台服务器，预计整个百度阳泉云计算中心可承载24万台服务器。百度自研AI芯片“昆仑”已在多场景实际部署几万片，在公司搜索业务中也已形成较强的工程化实践。

在云端的业务负载没有满载的情况下，所有冗余出来的算力都可以作为大模型的训练算力来源，这就确保了百度可以用更低的成本来进行更多轮次的模型训练，却不必单独承担高昂的软硬件成本。

综上所述，百度智能云可以给文心一言大模型应用提供高并发、高弹性、高精度等不同计算需求，以此来保证“文心一言”的底层算力需求。这也是其他竞争对手所难以仿效的一大优势所在。

06 总结：文心一言，无惧任何竞争对手

从本质上说，近期被捧上神坛的ChatGPT，并不是什么革命性的技术。

作为OpenAI基于2020年发布的GPT-3.5模型微调后开发出的对话机器人，严格来说，ChatGPT并未实现底层模型的显著突破，它只不过是巧妙地采用了理解、生成和交互相结合的方式，基于人类反馈进行强化训练，在体验上带给人智能的感觉。

而在百度CEO李彦宏看来，问题的关键，是如何把技术做成人人需要的产品，让人们真正能够从中受益。而不是单纯的在媒体和网络上制造话题和热度：

“……怎么把这么酷的技术，变成人人需要的产品，让每天有几亿人从中受益？怎么赋能千行百业，让他们的生产效率大幅度地提升？这一步才是最难的，也是最伟大、最能够产生影响力的。”

因此，相比ChatGPT，文心一言在满足用户的真实需求方面走得更远：

基于搜索在真实数据和用户需求理解方面的积累，文心一言能够进一步提升结果的时效性和准确性，并基于文心大模型的知识增强，提供多轮次的推理对话；此外，文心大模型是本土化的AI模型，具备对中文、甚至中国文化的更深理解，这也就意味着文心一言会更适合中文和中国市场。

从目前部分用户的内测反馈来看，相较之ChatGPT，文心一言在某些局部场景，完全可以实现对话质量上的超越，而在其他方面，至少也能做到和竞品旗鼓相当。

对于百度来说，文心一言的推出，是重新确立自己核心技术驱动的发展模式的一次里程碑式的事件，也是百度在即将到来的AI时代的全新发展阶段的序章。

未来已来，而文心一言，早已随百度等待多时。

文心一言与百度的新搜索时代

相关文章