人工智能芯片有两个功能。AI 构建者首先获取大量(或真正庞大的)数据集并运行复杂的软件来寻找该数据中的模式。这些模式被表示为模型,因此我们有芯片来“训练”系统生成模型。
然后,该模型用于根据新数据进行预测,并且该模型从该数据中推断出一些可能的结果。在这里,推理芯片针对已经训练过的模型运行新数据。这两个目的是非常不同的。
训练芯片旨在全速运行,有时一次运行数周,直到模型完成。因此,训练芯片往往很大。
推理芯片更加多样化,其中一些用于数据中心,另一些用于智能手机和摄像机等设备的“边缘”。这些芯片往往更加多样化,旨在优化不同方面,例如边缘的电源效率。当然,还有各种中间变体。关键是“AI芯片”之间存在很大差异。
对于芯片设计师来说,这些是非常不同的产品,但与所有半导体产品一样,最重要的是在它们上面运行的软件。从这个角度来看,情况要简单得多,但也复杂得令人眼花缭乱。
很简单,因为推理芯片通常只需要运行来自训练芯片的模型(是的,我们过于简单化了)。之所以复杂,是因为在训练芯片上运行的软件千差万别。这是至关重要的。现在有成百上千个框架用于训练模型。有一些非常好的开源库,但也有许多大型 AI 公司/超大规模公司构建了自己的库。
由于训练软件框架的领域非常分散,实际上不可能构建针对它们优化的芯片。正如我们过去指出的那样,软件中的小改动可以有效抵消专用芯片提供的增益. 此外,运行训练软件的人希望该软件针对其运行的芯片进行高度优化。运行这个软件的程序员可能不想弄乱每个芯片的复杂性,他们的生活已经够辛苦的了,构建这些训练系统。他们不想只为一个芯片学习低级代码,以后又要为新芯片重新学习技巧和快捷方式。即使该新芯片提供“20%”更好的性能,重新优化代码和学习新芯片的麻烦也会使该优势变得毫无意义。
这让我们想到了 CUDA——Nvidia 的低级芯片编程框架。至此,任何从事培训练系统工作的软件工程师都可能对使用 CUDA 有所了解。CUDA并不完美、优雅或特别简单,但它很熟悉。巨大的财富建立在这样的奇思妙想之上。由于用于训练的软件环境已经如此多样化且变化迅速,因此训练芯片的默认解决方案是 Nvidia GPU。
所有这些人工智能芯片的市场目前规模为数十亿美元,预计在可预见的未来每年将增长 30% 或 40%。麦肯锡的一项研究(可能不是这里最权威的来源)显示,到 2025 年,数据中心 AI 芯片市场将达到 130 亿美元至 150 亿美元——相比之下,目前 CPU 市场总额约为 750 亿美元。
在价值 150 亿美元的人工智能市场中,大约三分之二是推理,三分之一是训练。所以这是一个相当大的市场。所有这一切的一个问题是训练芯片的价格在 1,000 美元甚至 10,000 美元,而推理芯片的价格在 100 美元以上,这意味着训练芯片的总数只占总数的一小部分,大约 10%-20% 的单位。
从长远来看,这对市场如何形成很重要。
Nvidia 将获得大量训练利润,它可以在推理市场竞争中发挥作用,类似于英特尔曾经使用 PC CPU 来填充其晶圆厂和数据中心 CPU 以产生大部分利润。
需要明确的是,英伟达并不是这个市场上唯一的参与者。AMD 也生产 GPU,但从未开发出有效(或至少被广泛采用)的 CUDA 替代品。他们在 AI GPU 市场的份额相当小,我们认为这种情况不会很快改变。
有许多初创公司试图构建训练芯片,但大多因上述软件问题而陷入困境。值得一提的是,AWS 还部署了自己的、内部设计的训练芯片,巧妙地命名为Trainium。据我们所知,这取得了一定的成功,AWS 除了自己的内部(大量)工作负载外,在这里没有任何明显的优势。然而,我们知道他们正在推进下一代 Trainium,因此他们对目前的结果一定很满意。
其他一些超大规模企业也可能正在构建自己的训练芯片,尤其是谷歌,它即将推出专门针对训练进行调整的新 TPU 变体。这就是市场。简而言之,我们认为训练计算市场上的大多数人都希望在 Nvidia GPU 上构建他们的模型。
转载微信公众号:半导体行业观察
声明:本文版权归原作者所有,转发仅为更大范围传播,若有异议请联系我们修改或删除:zhangkai@cgbtek.com