ChatGPT吃肉，英伟达喝汤-扬州城市论坛

2022年11月上线以来，OpenAI旗下的ChatGPT几乎成为全球最火爆的软件应用。一个可以支撑的数据是，ChatGPT用户量达到1亿花了2个月，而上一个全球现象级产品Tik Tok则用了9个月。

基于具有1750亿个参数的GPT-3，也是目前公开发布的最大规模语言模型之一，ChatGPT具有广泛的语言理解能力，自然流畅的语言生成表现，以及更快的推理速度，能够在回答问题、搜集资料、写大纲、写代码等自然语言处理任务上，超越其他先进的模型和人类表现。

需要注意的是，ChatGPT在全球快速收割用户的同时，其背后提供算力支持的英伟达也赚得盆满钵满。

据花旗集团预估，英伟达ChatGPT相关业务一年内销售额达到30亿~110亿美元。英伟达2022四季度及年业绩报告显示，其AI收入创下历史新高，四季度收入36.2亿美元，同比增长11%，全年收入增长41%，至历史新高150.1亿美元。

此前OpenAI在2021年的估值约为140亿美元，在2023年1月23日微软追加投资数十亿美元后，OpenAI的估值实现了翻倍，目前已经达到了290亿美元。

英伟达在2023年初市值约为3600亿美元，随后凭借ChatGPT的火爆，市值在两个月内增长超过2100亿美元，截止2月底市值已经达到5700亿美元，

仍在增长的AI巨浪

从主要的工作流程来看，ChatGPT的分为训练和推理，二者对于算力有着不同的需求。

相比于回答用户问题的推理阶段，ChatGPT的日常训练对于GPU算力的要求更高。在训练阶段，ChatGPT需要反复地进行前向传播和反向传播操作，用来优化模型参数。

前向传播是指从输入数据开始，按照神经网络的结构逐层计算，直到得到输出结果的过程。具体到ChatGPT的训练中，前向传播是就根据当前的网络参数和输入文本，计算出每个单词的概率分布。

反向传播是指通过计算损失函数关于每个参数的梯度，从输出结果开始向网络输入逐层传播，更新神经网络的权重和偏置值，提高网络的准确率。

在ChatGPT的训练过程中，前向传播和反向传播一般会以百万次甚至上亿次多次迭代执行，因此只有大量的、高算力的GPU集中运算，才能达到要求。公开数据显示，GPT-3单次训练成本就高达460万美元。

根据中信证券研究部数据，此前GPT-3在训练中使用了微软专门建设的Al计算系统，由1万枚英伟达GPU组成高性能网络集群。

目前英伟达主流的AI芯片中，A100芯片单颗市场售价约为8万元。而A100的升级版，最新的H100芯片单颗售价约为人民币24万元。这意味着，仅仅是采购芯片一项，ChatGPT就需要向英伟达支付10亿元以上。

据Investing.com报道，GPT-3时代1万枚的英伟达GPU，已经随着ChatGPT升级到GPT-3.5，增至2.5 万枚，且增长仍在继续。随着谷歌、百度以及更多的类ChatGPT项目入局，以ChatGPT为代表的AI算力和GPU相关需求，将会继续提高。

垄断靠生态，绑定靠产品

根据Verified Market Research数据，2022年第二季度全球GPU市场中，AMD和lntel则分别占比20%和1%，英伟达的市场占有率为79.6%。相比于2021年第二季度的75%的市场占有率，英伟达领先优势还在在不断扩大。

之所以能成为ChatGPT的独家供应商，主要因为英伟达在GPU领域完整的生态系统、多年的技术积累和产品表现，这些优势为其在AI领域提供了支持和应用基础。

其中CUDA（Compute Unified Device Architecture）架构是由英伟达开发的，这是一种GPU并行计算平台和编程模型，可以帮助开发者更加高效地使用GPU进行并行计算。

研究机构Gartner分析师盛陵海称“CUDA是通用GPU的开放平台，行业开发者已经用惯了，就好像Office软件，虽然也有替代产品，但是几乎很少有人选择替代。”

在CUDA问世之前，英伟达的GPU仅是用于在屏幕上呈现图像的图形处理单元。然而，CUDA技术的推出让GPU不仅能够进行图像处理，还能够进行高性能计算，从而使GPU具备了解决复杂计算问题的能力。如今除了电脑，智能汽车、机器人、VR头显，各种计算平台都在使用GPU。

2006年问世之初，英伟达就开始了对CUDA系统在Al领域进行大力投入和推广。彼时，CUDA系统年营业额只有30亿美元，但英伟达每年需要投入5亿美元的研发经费更新维护；另一方面，为迅速实现对市场的占领，英伟达还为美国大学及科研机构免费提供CUDA系统。

建立了通用GPU的最大开放平台的同时，英伟达也在通过领跑行业的产品绑定超级应用。

例如，NVIDIA H100拥有800亿个晶体管，单芯片设计，采用台积电（TSMC）的4nm工艺制造。英伟达 H100 的设计是针对ChatGPT所采用的Transformer类预训练模型定向优化的设计，提出了 Transformer Engine，集合了新的 Tensor Core、FP8 和 FP16 精度计算，以及 Transformer 神经网络动态处理能力，可以缩短此类机器学习模型的训练时间从几周至几天。

此外基于H100，英伟达还推出了DGX H100，专用于训练，推理和分析的通用高性能AI系统，集成了8个H100 GPU，拥有总计6400亿个晶体管，总GPU显存高达640GB。

而英伟达的竞争对手们，AMD和Intel由于缺乏类似CUDA的生态支持，且本身产品性能也比不上NVIDIA H100，因而在AI芯片领域只能与英伟达的距离渐行渐远。

此前，AMD和Intel也分别建立了ROCm和one APl，试图建立自己的生态，摆脱英伟达的CUDA，但最终这一努力并没有成功。此外，AMD和英特尔目前还没有针对Transformer类预训练模型定向优化的GPU。这意味着，英伟达将在很长时间内成为ChatGPT的唯一GPU供应商。

（本文首发钛媒体App，作者/吴泓磊，编辑/饶翔宇）

ChatGPT吃肉，英伟达喝汤

相关文章