英伟达：CPU 已落伍，用 GPU 训练大语言模型成本可降低 96%

人工智能 2023-06-01 08:00:02 1年以前

IT酷哥 5 月 29 日消息，根据英伟达在 2023 年台北电脑展会上的演讲，该公司宣称其 GPU 可以大幅降低训练大型语言模型（LLM）的成本和耗能。

英伟达首席执行官黄仁勋在演讲中，向 CPU 行业发起了挑战，他认为生成式人工智能和加速计算是未来计算的方向。他宣布传统的摩尔定律已经过时，未来的性能提升将主要来自生成式人工智能和基于加速计算的方法。

英伟达在展会上展示了一份 LLM 的总体拥有成本（Total Cost of Ownership，TCO）分析：首先，他们计算了训练一个 LLM 所需的 960 个 CPU 组成的服务器集群的完整成本（包括网络、机箱、互连等所有设备），发现这需要花费约 1000 万美元（IT酷哥备注：当前约 7070 万元人民币），并消耗 11 千兆瓦时的电力。

相比之下，如果保持成本不变，购买一个价值 1000 万美元的 GPU 集群，可以在同样的成本和更少的电力消耗（3.2 千兆瓦时）下训练 44 个 LLM。如果转而保持电力消耗不变，那么可以通过 GPU 集群实现 150 倍的加速，以 11 千兆瓦时的电力消耗训练 150 个 LLM，但这需要花费 3400 万美元，此外这个集群的占地面积比 CPU 集群小得多。最后，如果只想训练一个 LLM，那么只需要一个价值 40 万美元、消耗 0.13 千兆瓦时电力的 GPU 服务器就可以了。

英伟达所要表达的意思是，相比 CPU 服务器，客户可以以 4% 的成本和 1.2% 的电力消耗来训练一个 LLM，这是一个巨大的成本节省。