智通财经APP获悉,谷歌刚宣布自研TPU芯片扩大对外销售不久,亚马逊(AMZN.US)又携自家Trainium3芯片杀入了战团。在日前举行的亚马逊云科技技术大会上,亚马逊围绕Trainium芯片家族发布两大关键动态——Trainium3芯片实现“正式全面可用”,同时预告了性能更强的Trainium4芯片,二者在算力、能效与兼容性上均实现显著突破,直接瞄准生成式AI规模化落地的核心需求。
亚马逊此举被认为是继谷歌之后,又一家试图挑战英伟达GPU的巨头。花旗在随后发布的研究报告中指出,在微软、谷歌均加速自研AI芯片布局的背景下,Trainium系列的迭代帮助亚马逊在“自研算力生态”上保持领先。
Part.01 Trainium3:已商用的“算力倍增器”
作为当前Trainium家族的主力产品,Trainium3芯片的核心优势集中在“性能提升”与“成本优化”两大维度,具体参数对比Trainium2如下:
算力:较Trainium2提升4.4倍,可支撑更复杂的生成式AI模型(如大语言模型推理、多模态处理)高效运行。
能效:能效比提升4倍,意味着在同等算力输出下,客户的能耗成本可降低75%,契合企业对AI部署“降本增效”的核心诉求。
内存带宽:内存带宽提升近4倍,有效解决大模型数据传输瓶颈,减少模型训练与推理过程中的延迟。
商用进度:目前已正式全面可用,客户可直接通过亚马逊云服务接入,无需额外搭建硬件基础设施。
Part.02 Trainium4:兼容英伟达互联技术
亚马逊同步披露了Trainium4芯片的研发进展,预计其将成为下一代AI算力核心,关键预期性能指标如下:
性能:预计性能将达Trainium3的6倍,可支持超大规模参数模型(如万亿级参数大模型)的训练与推理。
内存配置:内存带宽提升4倍、内存容量翻倍,进一步突破大模型对存储与数据传输的高要求。
生态兼容性:特别设计支持“英伟达NVLink Fusion芯片互联技术”,这一兼容性意味着Trainium4可与英伟达GPU形成协同算力,满足客户“混合架构部署”的需求,避免单一芯片生态的局限性。
值得注意的是,亚马逊云科技首席执行官在介绍Trainium系列芯片前,特意强调了与英伟达的紧密合作关系——这一表述被花旗视为其芯片策略的重要信号:并非追求“完全替代”,而是通过“自研芯片+生态协同”,为客户提供更灵活的算力选择。
Part.03 Trainium家族部署规模破百万
除新芯片发布外,亚马逊还披露了Trainium家族的整体部署与产能情况,数据显示其已形成“规模化落地+快速扩产”的双优势,为承接生成式AI需求奠定硬件基础。
部署规模:超100万颗芯片落地,构建庞大算力网络
截至目前,亚马逊已在全球数据中心部署超100万颗Trainium芯片,这些芯片广泛应用于客户的AI模型训练、推理及云原生计算场景,形成了当前公有。
产能爬坡:Trainium2扩产速度创纪录
作为Trainium3的前代产品,Trainium2的产能爬坡速度显著快于此前所有AI芯片。花旗在报告中指出,Trainium2的产能扩张速度是亚马逊过往AI芯片的4倍,这一效率意味着可快速满足客户对中高端AI算力的需求,避免因硬件短缺导致的业务延迟。
从整体节奏看,Trainium家族已形成“Trainium2打底(满足中低算力需求)、Trainium3主力(支撑规模化AI部署)、Trainium4前瞻(瞄准未来高算力场景)”的产品梯队,覆盖不同客户的算力需求分层。
Part.04 高度重视Trainium芯片迭代
结合Trainium系列芯片的进展与整体业务,花旗在报告中明确指出,Trainium芯片的技术突破与规模部署,是其对亚马逊2026年实现23%同比营收增长、2027年前维持20%+增长预期的核心支撑因素之一,具体逻辑包括三点:
降低客户AI部署成本
Trainium3的高能效比与Trainium2的规模化部署,可直接降低客户的AI算力成本——花旗认为,这将吸引更多中小企业及传统行业客户将生成式AI项目从“概念验证”转向“商业化落地”,进而拉动AWS核心云服务需求增长。
补齐算力基础设施短板
2025年生成式AI概念验证项目数量高企,但部分客户因“算力不足”或“成本过高”未能规模化落地。Trainium3的商用与Trainium4的预告,意味着亚马逊将在2026年提供更充足、更具性价比的算力供给,可有效承接这部分积压需求,成为营收增长的新引擎。
巩固云市场竞争优势
在微软Azure、谷歌Cloud均加速自研AI芯片布局的背景下,Trainium系列的迭代帮助AWS在“自研算力生态”上保持领先——花旗分析认为,Trainium芯片的性能优势与生态兼容性(如支持英伟达技术),将增强客户对AWS的粘性,进一步巩固其在全球云市场的龙头地位。