更快更节能!谷歌(GOOG.US)称自家AI超算系统优于英伟达

288 4月5日
share-image.png
智通转载

当地时间周二(4月4日),谷歌公布了其用于训练人工智能(AI)模型的超级计算机的最新细节。该公司称,这些系统比英伟达公司的同期系统更快、更节能。

目前,谷歌公司90%以上的AI训练工作都是通过谷歌自主研制的TPU芯片(Tensor Processing Unit)完成的。其AI训练的过程是:通过给模型输入数据,使其能够用类似人类的文本回应、并具备生成图像等功能。

现谷歌TPU芯片已经出到第四代(TPU v4)了。谷歌公司周二发布的一篇论文详细阐述了,该公司是如何利用自己定制的光开关将4000多个芯片组合到一台超级计算机中,从而帮助连接一台台独立机器。

改善芯片间的连接

随着OpenAI的ChatGPT、谷歌的Bard等AI聊天机器人的竞争愈演愈烈,改善芯片间的连接已成为开发AI超算的科技公司的一个关键竞争点。

由于ChatGPT、Bard等产品背后使用的大型语言模型的规模太庞大了,无法存储在单一芯片上。所以,这些模型必须分散在数千个芯片上,然后这些芯片必须同时工作,花费数周或更长时间来训练语言模型。

谷歌的PaLM是该公司迄今为止公开披露的最大的语言模型。其训练方式是:通过将其分配到两台各包含4000个芯片的超级计算机中,历时50天进行训练。

谷歌周二称,其超级计算机可以很轻松地在运行过程中重新配置芯片之间的连接,有助于避免问题并调整性能。

该公司的研究员Norm Jouppi和工程师David Patterson在上述论文中写道,“电路切换可以很容易地绕过故障组件…这种灵活性甚至允许我们改变超级计算机互连的拓扑结构,以加速机器学习模型的性能。”

研发新版本

虽然谷歌直到现在才披露关于其超级计算机的详细信息,不过事实上,自2020年以来,该系统已经在公司内部上线,应用于该公司位于俄克拉荷马州的一个数据中心。

据悉,初创公司Midjourney使用该系统来训练其模型,在输入几句文字后,模型就会生成新的图像。

谷歌在论文中还写道,相比于与TPU v4同时发布的英伟达A100芯片,其芯片速度高达A100的1.7倍,能耗效率是A100的1.9倍。

不过谷歌也承认,并没有将TPU v4与英伟达目前的H100芯片进行比较。给出的理由是:H100上市时间晚于谷歌芯片,并且采用了更新的技术。

此外,谷歌还暗示,正在研发一种新版本TPU,以期与英伟达H100芯片竞争,但没有提供细节。

本文来源于财联社,作者周子意;智通财经编辑:文文。


相关阅读

谷歌(GOOG.US)出台成本控制新举措 未来数年将大力削减员工服务开支

4月4日 | 庄礼佳

Alphabet(GOOGL.US)旗下谷歌云指责微软(MSFT.US)在云计算领域存在反竞争行为

3月30日 | 庄礼佳

AI行业迎来iPhone时刻 英伟达(NVDA.US)将成下一个“苹果”?

3月29日 | 李均柃

不甘落后于微软(MSFT.US)!谷歌(GOOG.US)与AI初创公司Replit达成合作 将结合AI与编码软件

3月28日 | 庄礼佳

只差不到100亿!英伟达(NVDA.US)马上要取代伯克希尔成为全球市值第五大公司

3月23日 | 许然