华泰证券:AI芯片行业竞争白热化 特斯拉(TSLA.US)Dojo领衔异军突起

437 9月13日
share-image.png
陈雯芳

智通财经APP获悉,华泰证券发布研究报告称,AI芯片竞争格局已趋白热化,云计算和互联网大厂正在自研芯片之余,一些初创AI芯片企业(如Cerebras、Graphcore等),以及芯片行业以外的企业,包括特斯拉(TSLA.US)等,正在异军突起,试图针对AI应用中内存和传输速度的瓶颈,在芯片的内存共享和低延时技术路线上另辟蹊径。2021年8月,特斯拉在AI Day首次介绍Dojo超算,并计划利用其加速Autopilot和完全自动驾驶(FSD)系统的迭代。Dojo基于D1 芯片的晶圆上(System on Wafer)系统级方案,也采用多晶圆堆叠技术,每个机柜集群Dojo ExaPOD算力达到1.1 ExaFLOPs,已在今年7月开始量产。

华泰证券主要观点如下:

AI芯片竞争趋白热化,异军突起,从内存和传输设计另辟蹊径

英伟达GPU一直为AI训练端首选。华泰认为只有少数芯片能与其匹敌,如谷歌TPU和AMD MI300系列。当算法开始稳定和成熟,ASIC定制芯片凭着专用性和低功耗,能承接部分算力。因此,头部云计算及互联网大厂出于削减TCO、提升研发可控性及集成自身生态等考量,均陆续发力自研芯片。另外,初创AI芯片企业(如Cerebras、Graphcore等),以及芯片行业以外的企业,包括特斯拉等,正在异军突起,试图在芯片设计上另辟蹊径,通过大尺寸芯片突破内存共享和低延时的技术路线,有效应对AI应用中内存和传输速度的瓶颈,该机构认为或将成为英伟达最大的竞争对手。

Cerebras:整片不切割打造晶圆级大芯片,但良率和有效运行占比暂成疑

美国AI芯片初创企业Cerebras Systems成立于2015年。2019年8月,发布第一代WSE(Wafer-Scale Engine,晶圆级引擎)芯片,定价为200-300万美元。21年4月推出7nm的WSE-2,面积46,225 mm2,拥有2.6万亿个晶体管,内核数达85万。WSE与传统芯片最大的不同在于整片晶圆不进行切割,并对内存和横向扩展采用了独特的设计。WSE-2采用40GB SRAM内存,可平均分配到整个晶圆芯片的表面。对比当时旗舰的GPU A100也为台积电7nm制程,片上内存80GB HBM。WSE-2具备27.5PB/s Fabric通信带宽,对比A100采用GPU互连达到600GB/s Fabric带宽。

Graphcore:Bow IPU多晶圆堆叠3D封装,正积极切入中国市场

英国初创企业Graphcore专注于研发人工智能芯片及打造计算机系统。2022年3月推出Bow IPU,采用台积电7nm制程和SoIC-WoW(System on IC Wafer on Wafer)多晶圆堆叠3D封装技术,FP16算力达350TFLOPS,对比A100的312TFLOPS,面积和晶体管数量也相若。IPU具有多指令和多数据并行的特点。为了减少内存延迟,IPU摒弃了共享内存并在架构上采用大规模分布式的片上SRAM,让存储器与每个内核紧密耦合。IPU芯片上集成了900MB内存,320GB/s传输速度,通过增加冗余内核和芯片面积提升良率。Graphcore正在努力切入中国市场,为大型互联网公司提供硬件服务。

Dojo:从D1芯片到算力达1.1 ExaFLOPs的ExaPOD

类似于Bow IPU,Dojo也是采用多晶圆堆叠技术。D1 Dojo芯片采用台积电7nm制程工艺,芯片面积为645平方毫米,晶体管数量达500亿。25颗D1芯片(5x5排列)集成到一枚Dojo Training Tile上,以二维Mesh结构无缝互连。6枚Dojo Training Tiles(整块12英寸重构晶圆)安装在铜质散热盘上(tray)。2个盘子安装在一起成为1个柜子(cabinets),包含4,248个内核(354 x 6 x 2)。10个柜子成为机柜集群Dojo ExaPOD,而每个ExaPOD算力达到1.1 ExaFLOPs(1018浮点运算)。相当于500片H100 (约1500万美元)或约3200片A100的算力(约3200万美元)。

为自动驾驶而生,Dojo超算为公司四大全栈自研科技支柱之一

2021年8月,特斯拉在AI Day首次介绍Dojo超算,基于D1 Dojo芯片的晶圆上(System on Wafer)系统级方案。特斯拉计划利用Dojo对海量视频数据进行无监督学习,加速Autopilot和完全自动驾驶(FSD)系统的迭代,同时为其人形机器人Optimus提供算力支持。在22年9月的AI Day上,特斯拉公布Dojo已建立完整的散热盘(tray)上系统。同时也宣布了未来路线图,表示AI团队正在研发新版本的Dojo超算组件。根据特斯拉23Q2财报发布会和科技媒体The Verge7月20日报道,特斯拉Dojo超算已在今年7月开始量产,而总算力达100ExaFLOPs的超算系统将于2024年底量产。

风险提示:AI技术落地和推进不及预期、行业竞争激烈、中美竞争加剧。

相关阅读

Rapidus正斥资数十亿美元打造日版台积电(TSM.US)

9月12日 | 马火敏

国金证券:AI产业“红利”或向下游转移 TMT如何布局?

9月11日 | 张计伟

港股异动 | 盈汇企业控股(02195)再涨超10% 9个交易日大涨827% 拟收购一间人工智能及互联网创新科技公司的控股权益

9月11日 | 李佛

手握Reels吸金利器+AI热潮赢家! Meta(META.US)想象空间仍然广阔

9月8日 | 卢梭

第四范式通过聆讯 一季度营收增长超三成 已先行布局企业级GPT产品

9月8日 | 汪婕