“我即将展示的产品,融合了新的GPU加速计算能力,拥有Mellanox高性能网络,补足我们最后一块拼图的产品是——全球首款专为TB级数据中心加速计算而设计的CPU处理器,它的秘密代号是Grace。”
这是2021年4月英伟达(NVDA.US)CEO黄仁勋在GTC峰会演讲中的一段话。然而,让人意想不到的是,直到8月12日英伟达自曝后人们才知道,这段不足100字、14秒的演讲内容竟然不是黄仁勋本人出镜,而是使用了合成的“数字替身”,即利用英伟达GPU处理器与Omniverse软件平台共同形成的“虚拟黄仁勋”形象。
这一事件引发了人们对虚拟现实、元宇宙、AI换脸等技术和概念的激烈讨论,同时也让“英伟达”这家美国芯片霸主从半导体行业“出圈”,走入了大众视野。
自1993年成立至今,在黄仁勋的带领下,英伟达成功创造且引领了GPU(图形处理器)芯片这一类别,产品覆盖整个PC设备GPU至服务器GPU市场。
过去五年间,英伟达市值从310亿美元增长到5619亿美元,跻身成为全球第七大半导体供应商,是人工智能(AI)芯片领域炙手可热的明星企业。
与此同时,在英伟达市值超过英特尔之后,国内半导体市场看到了GPU、AI芯片赛道更大的市场机会,景嘉微(300474.SZ)、天数智芯、登临科技、壁仞科技、燧原科技、寒武纪(688256.SH)、沐曦集成电路等企业均在通用处理器这一赛道中集聚。
但作为全球芯片销量大国,中国却没有出现一家“英伟达”这样的芯片巨头,大市场并没有产生与之匹配的大公司。根据IC Insight的统计显示,2020年全球半导体市场规模为3957亿美元,其中,中国大陆市场规模是434亿美元,为全球最大市场,占全球比例达到36.24%。然而,总部位于中国大陆的半导体公司2020年总产值仅为83亿美元,仅占市场规模的5.9%。
偌大的蛋糕,究竟谁能切下一角?半导体产业何时才能造出“中国英伟达”?
错失黄金时代
GPU图形处理器又被称为显示芯片、视觉处理器,最初于1999年由英伟达提出,是个人电脑、工作站、游戏主机以及移动设备(智能手机、平板电脑、VR设备)上专门运行绘图运算的微处理器。
随着GPU的并行计算优势被逐步挖掘,GPU的应用领域从图形处理扩展到高性能计算,逐步成为Al计算最成熟、应用最广泛的通用型芯片。2020年6月,英伟达推出基于安培(Ampere)架构的A100 Tensor Core GPU,成为全球性能最强的AI芯片。
以应用终端角度分类,GPU可分为PC端GPU、服务器GPU和移动端GPU,对应三种架构,即与专用电路板及组件组成的独立显卡,共享集成显卡,以及移动端GPU与其他芯片或模块一起封装成高集成度的SoC——应用于手机、汽车电子、AI在内的多个应用场景。
自从AMD(AMD.US)在2006年收购加拿大GPU厂商ATI之后,目前,在PC及服务器GPU领域,全球GPU市场呈现“美国芯片三巨头”——英特尔(INTC.US)、AMD和英伟达垄断的局面。集成GPU市场英特尔优势明显,独立GPU市场英伟达和AMD两强割据。
根据研究机构Jon Peddie Research的数据显示,2021年第一季度,全球PC端GPU市场中,英特尔(Intel)以68%市场份额位居榜首,AMD和英伟达分别为17%和14%,三家共计份额接近100%;全球独立GPU领域中,英伟达是数据中心GPU市场领导者,占据81%的市场份额,拥有领先优势,AMD则以占比19%位居第二。
仅2019年,英伟达凭借V100系列等产品,占据了中国AI训练芯片市场90%份额,牢牢掌握着中国这一庞大的AI芯片销售市场。
英伟达能持续作为“芯片霸主”地位的核心原因之一在于其“轻设计模式”。英伟达不做芯片制造和封装,交由台积电代工完成,自身享受7nm等先进制程工艺技术红利。根据财报显示,2016年至2021年期间,英伟达收入增长了233%,营业利润翻了一番,达到45亿美元。在截至今年5月的三个月内,销售额同比猛增84%,毛利率则达到了64%。
事实上,中国很早就进入了GPU芯片设计领域,但结果并不如意。
从20世纪70年代开始,中国开始引进半导体与集成电路技术和生产线。但结果却是陷入了“代代引进、代代落后”的恶性循环,加上“汉芯一号”假芯片事件给社会带来的不良影响,让中国的“自主处理器”遭受严重挫败,以及中国积极推动WTO全球化等因素,从而错失了全球半导体产业发展的黄金时期,下游企业只能“造不如买”。
到2000年,以国家“18号文件”出台为标志,中国半导体才逐渐形成设计、制造、封装测试“三业分离”的产业组织形态,引进以“中芯国际”为代表的一批芯片制造(Foundry)企业在华建设、投产,技术水平也因此得到快速提升。
目前,景嘉微(300474.SZ)、天数智芯、登临科技、壁仞科技、燧原科技、寒武纪(688256.SH)、沐曦集成电路等企业均在通用处理器这一赛道中集聚。
2014年,以军机图形显示控制模块起家的“景嘉微”成功研制出军用GPU芯片JM5400,随后在2018年成功研发出28nm制程工艺的第二代GPU芯片JM7200。景嘉微从军用定制走向通用GPU,成为全球少数、国内唯一实现独立GPU商用量产的公司。
除景嘉微外,2021年3月天数智芯发布了国内首颗7纳米工艺制造的GPGPU(通用图形处理器),即去掉了传统GPU 30%的图形渲染部分,只为处理人工智能(AI)应用而生;燧原科技则在今年6月发布了迄今中国最大的AI计算芯片“邃思2.0”AI芯片、基于邃思2.0的“云燧T20”训练加速卡和“云燧T21”训练OAM模组。
但值得注意的是,景嘉微研发的JM7200芯片,性能只相当于2012年英伟达GTX 640水平,难以满足企业客户的应用需求。即便燧原科技的“邃思2.0”AI芯片,也仅和英伟达的A100达成平手,Benchmark测试的6个项目中有2项大幅超越了英伟达A100的性能表现。(下载钛媒体App,详见前文:《燧原科技发布中国最大的AI计算芯片,加速推进三大业务方向落地》)
背后的原因,主要由于中国半导体产业起步晚,芯片的技术门槛高、成本弹性大、产业高度集中,使得中国GPU芯片企业的整体研发投入、技术、人才都滞后于国外,从而在产品性能和技术上依然和芯片巨头有差距,下游企业依然难以脱离“美国芯片三巨头”的境地。
以研发投入为例,2011年至2020年的十年间,景嘉微的研发投入费用总额为人民币6.27亿元,而英伟达2020年这一年的研发投入就达到39.24亿美元,约合人民币253.23亿元,十年间英伟达总计投入超过1200亿元人民币,两者相差超190倍。
在人才方面,截至2021年上半年,英伟达员工人数高达18975人,景嘉微总员工人数为1174人,远低于AMD在上海研发中心的2000名员工。
“AI芯片、GPU芯片市场比较特殊,跟传统的专用处理器不一样,技术十分复杂。它需要大量的数据,需要和特定的算法结合,才能够付诸市场运用。”新思科技中国副总经理谢仲辉在今年4月接受钛媒体App独家专访时表示,如果企业想把首颗AI芯片做扎实,通常需要两三年以上。
在他看来,芯片半导体本身是一个投入大、周期长、见效慢的行业,技术完全国产化需要长期持续的资金、人才和技术积累,很难用“砸金钱见回报”这种互联网思维来处理。
此外,结合CUDA技术的软硬件生态,也是国内芯片企业与英伟达形成较大差距的另一重要原因。
2006年,英伟达就发布了并行计算平台CUDA,其中包含一系列开发工具,只有安装使用这个平台才能够进行复杂的并行计算,任何人只要拥有一台配有英伟达GPU的笔记本电脑,就可以利用CUDA可以进行科学、便捷编程计算,比如深度学习、AI算法等,开发相关软件。过去十多年,英伟达坚持不懈地推广CUDA,使更多政企级类型软件都基于该平台开发,将英伟达自研GPU硬件与CUDA软件相结合,高效实现应用落地。
相比之下,目前国内却没有一个类似CUDA和英伟达硬件深度绑定的系列平台,技术壁垒差距十分明显。大部分国产GPU厂商均采取兼容CUDA开源框架的策略,如天数智芯、登临等,准备在此基础上培育自己的软件生态。
“短期来看,国产GPU兼容CUDA更容易发展,毕竟写算子是人力密集型行业,用户迁移的话是需要100%迁移、整套代码都要在你的片上跑,如果代码量很小,需要的算子不那么多,难度就比较低。但是长期来看,还是要摆脱兼容思路,发展自有的核心技术。”芯片行业内人士表示,选择兼容主要是确保已有软件依然可用,未来会不断改进自家平台,使其更加匹配自己的芯片,从而吸引开发者迁移。
但也有企业选择不兼容CUDA生态,比如同时做AI训练和推理芯片的燧原科技,今年全面升级了其“驭算TopsRider”软件平台以及全新的“云燧集群”,希望能拥有生态主导权。
总结来看,对标英伟达的这些国内芯片企业依然处在发展的初级阶段,AI芯片技术的产业化、市场化能力较弱,没有产生实际的大规模使用,距离超越或取代“中国英伟达”仍然有很长的路要走。
中科驭数CEO鄢贵海在接受钛媒体App采访时表示,虽然目前中国需求侧虽然还是全球最大的单一市场,增速也名列前茅,“需求侧”还是很强劲的,但在高端芯片方面无论是设计还是制造还有不小差距,“供给侧”不够强大。他指出,供给侧的优劣不仅取决于一家企业,而是全产业链能力。短期内要想打造出这样大体量和全面引领性的企业还是不太现实的。
中科驭数成立于2018年,是一家专用计算架构研发商,孵化自中科院计算所的计算机体系结构国家重点实验室,如今公司估值已超10亿元。今年7月27日,中科驭数完成数亿元A轮融资,由华泰创新领投,灵均投资以及老股东国新思创跟投。
高瓴合伙人、高瓴创投软件与硬科技负责人黄立明在接受钛媒体App的独家专访时表示,虽然GPU市场前景广阔,但中国创业公司很难直接做成“英伟达”。除了技术难度外,还要结合很强的应用来做——涉及到软件系统软件生态,这对创业公司来说要求是极高的。
高瓴于2020年2月推出独立VC品牌高瓴创投,此后其对芯片半导体领域进行投资入局,其中包括半导体IP企业芯耀辉、EDA厂商芯华章,GPU平台壁仞科技、DPU公司星云智联,加上碳化硅方面的天科合达、光芯片领域的敏芯半导体、以及手机基带星思半导体等。
黄立明强调,能在这个方向跑出来的公司,无论海外还是国内,高瓴判断最终都不会有很多。
风口已至
“我们现在先不纠结于怎么去取代英伟达,路都是一步一步走的。我觉得首先中国得有国产AI芯片、通用GPU、FPGA等底层算力。只要国内有市场需求,我们一定有很多机会。”华映资本主管合伙人章高男对钛媒体App表示,国内半导体产业风口已至,中国现在切入GPU市场是“天时、地利、人和”皆备,尤其半导体和下一代AI技术都是中国必须突围的领域。
章高男举了一个例子,金山办公产品虽然逊于微软Office套件,但市场给出1100多亿元市值,背后重要原因之一是,中国必须得有国产office,同样道理也适用于国产的GPU市场。
华映资本是国内最早布局移动互联网和文化产业的私募股权基金之一,近几年To B领域也成为华映资本重点关注的投资领域。目前华映资本在To B领域投资的30余个项目,投资总额超7亿元生态,由技术型投资人章高男负责搭建。在数据中台及底层算力相关领域,华映资本投资布局了壁仞科技、天云大数据,中科海微等项目。
实际上,作为横跨视觉计算和AI计算的通用平台,GPU拥有巨大的市场空间。据东吴证券测算,预计到2027年,GPU领域国产替代的市场空间规模超过341亿美元。除了既有的游戏市场,在工业、医疗、军事航天等方向都有进一步的发挥空间。
今年3月,原商汤科技总裁张文联合创立的通用智能芯片设计商“壁仞科技”完成了B轮融资。2019年9月成立以来,公司总融资额超47亿元人民币,投资方包括高瓴创投、华映资本、中国平安、招商局资本、BAI资本、国盛集团国改基金等,估值已超过100亿元,成为半导体行业势头最为迅猛的“独角兽”企业之一。
除壁仞外,沐曦集成电路、摩尔线程等入局GPU领域的企业也都完成了融资。
8月25日,GPU厂商沐曦集成电路宣布完成10亿元人民币的A轮融资,创始人陈维良、杨建等均来自美国芯片巨头AMD,投资方包括中国国有企业结构调整基金股份有限公司、中国互联网投资基金、经纬中国、和利资本、红杉中国、光速中国、国创中鼎、智慧互联产业基金、上海科创基金、联想创投等;而2020年成立的摩尔线程,宣称100天内就完成了两轮数十亿元融资,团队成员主要来自英伟达,投资方包括深创投、红杉资本中国基金、招商局创投、字节跳动、小马智行、五源资本等。
不过,一个有趣的现象是,壁仞、沐曦、摩尔线程上述三家初创企业是名副其实的“PPT融资造芯”,融资时无一家完成首颗芯片的流片(流水线试生产)。
为何市场投资人愿意对此敞开钱包?数位投资人在接受钛媒体App采访时表示,这些项目能够获得大量资本支持,原因都为投资早期,主要看的还是团队、赛道两部分:AI芯片赛道风口已至,高管团队也均出自“美国芯片三巨头”。
“我觉得需要给这些企业机会和耐心,不可能500个人都在写PPT。制造芯片是一个5年到10年的事情,我们愿意去投的原因,并非是投机或者是忽悠。我认为,投半导体赛道本身风险就高,需要做好长周期的打算,需要有足够强的风险承担能力,这和投资互联网的模式创新完全不一样。”上述投资人对钛媒体App表示。
但也有半导体行业投资人指出,上述投资项目本质上还是希望市值撑高,有更高的回报率,尤其“芯片热”环境下,风投机构需要不断在中早期寻找这些GPU、AI芯片企业标的,希望从中赌得一份更高的回报。
此外,在这一波GPU创业浪潮中,创始团队师出“美国芯片三巨头”。例如,天数智芯首席科学家郑金山曾任AMD首席技术专家;沐曦的创始团队主要来自AMD,CEO陈维良曾在AMD担任图形研发高级总监,CTO杨建曾任AMD Fellow(院士);壁仞科技最新上任的联席CEO李新荣,曾任AMD全球副总裁,壁仞科技高级副总裁陈文中也曾在AMD任职。
对此,章高男表示,AMD是GPU领域排名前二的芯片巨头,关于GPU核心研发都在上海,而图形渲染的研发是在美国,企业可以去找AMD和英伟达两家公司高管去沟通,而最终选择的人肯定是半导体行业内的佼佼者。
鄢贵海认为,在细分新兴赛道,凭借需求侧的应用“势能”,中国芯片企业集中优势兵力,立足服务本土企业,突出开发的敏捷性,是有机会在产品定义、方案迭代周期上超越“英伟达”这些芯片巨头。他预计,10年内会出现一批技术领先的国产GPU、DPU企业。
“芯片产业五个环节:设计、制造、封测、材料、EDA五个环节中,与应用最相关的是设计,我们最大的优势又在于应用,所以非常有机会在“设计”这一环节取得突破,然后以点带面,逐步扩大胜利版图。所谓“弯道超车”还是追赶策略,切入面向未来的新赛道并且全力加速才更有可能占据新的战略制高点。希望能在10年内能出现一批技术领先、产品扎实而且富有战略意识的企业。”鄢贵海对钛媒体App表示。
壁仞科技创始人张文表示,对芯片公司的能力要求从产品级提升到系统级和生态级。时间上不超过5年,中国在AI芯片设计领域赶上甚至领先国际水准。他强调,超越英伟达,需要重新定义一个产品,以及重新定义一个市场。
百亿DPU芯片市场“爆火”
在黄仁勋看来,负责在数据中心传输和处理数据的数据处理单元(DPU),正与CPU、GPU共同组成“未来计算的三大支柱”。当中国芯片企业发力GPU时,英伟达则把目光放在了CPU、DPU这两个新市场中。
2020年9月,英伟达宣布拟以400亿美元,从日本软件集团处收购英国芯片设计商Arm,预计写下半导体行业最大的并购案。但这笔交易存有争议,目前还等待欧盟、英国、美国和中国等政府的批准。但2021年4月,英伟达则宣布进军数据中心CPU市场,发布Grace CPU处理器,也就是本文开头黄仁勋所讲的那一段话。(详见前文:《英国政府出手干预,英伟达400亿美元并购Arm交易生变》)
CPU和GPU之外,英伟达还在布局DPU。2019年,英伟达宣布以69亿美元全现金的形式收购以色列网络芯片商迈络思(Mellanox),并最终将其拿下。而这笔英伟达有史以来规模最大的收购,黄仁勋最看重的就是迈络思在数据中心技术等方面独步天下的能力。2020年10月,英伟达首次推出了DPU — NVIDIA BlueField系列数据处理器。
究其根本,一方面DPU更灵活安全,更重要的是,DPU可以解放CPU的算力,释放服务器的负载,并凭借低功耗显著降低综合成本,甚至还可以改善AI和机器学习应用的性能。
据IDC统计,全球算力的需求每3.5个月就会翻一倍,远远超过了当前算力的增长速度。在此驱动下,全球计算、存储和网络基础设施也在发生根本转变:一些数据量过大的工作负载,过多占用CPU资源,与之协同作战的各种“X”PU芯片便应运而生,GPU、FPGA等芯片之外,DPU就是下一个“X”PU。
业内人士就此做了一个形象的比喻,网络就像造马路,以前1G 10G时代马路已经不够宽了,车子越来越多,为了平衡压力,通过增加红绿灯和投入更多的交警来更高的协调资源,这样已经让原来的效率提高很多,但是仍然不够。必须第一扩大马路,这就是带宽增加,但是马路从2道变为4道,仅仅依靠红绿灯和有限的交警还是会堵塞,但是我们不能无限增加交警,这就需要马路能更加智能,帮助解决拥堵。
章高男指出,大量的网络管理在CPU里面,占据了容器能力,而DPU则是将服务器智能提供空间能力,大量虚拟化空间可以提高算力需求。
随着2020年,DPU的名声超出了竞争对手英特尔所推出的基础设施处理器(IPU)和SmartNIC,也让每个对数据中心业务虎视眈眈的企业都要在这个领域分一杯羹。DPU成为了各大芯片巨头、初创公司争相研发的新赛道,国产DPU现在几乎处在百花齐放的状态,红杉、高瓴创投、鼎晖、软银中国都开始入场。
今年4月,天眼查数据显示,国产DPU芯片供应商“云豹智能”完成腾讯投资、红杉资本、耀途资本等联合的天使轮融资;5月末,芯启源完成数亿元Pre-A轮融资,投资方包括软银中国、浦东科创集团等;7月27日,DPU芯片研发商“中科驭数”完成华泰创新领投的数亿元A轮融资;8月30日,DPU芯片研发商星云智联宣布完成了数亿元天使轮融资,由高瓴创投领投,鼎晖VGC、华登国际中国基金参与跟投;9月初,大禹智芯获得追远创投和华义创投联合投资的Pre-A1轮融资。
“DPU有可能成为继CPU和GPU之后的第三颗算力芯片,但从结构上来看,DPU会更异构、也更专用。”鄢贵海在接受钛媒体App等采访时表示,DPU产生的背景是智能时代数据爆发导致的端-边-云一体化趋势带来的对计算延迟、数据安全、资源虚拟化需求。CPU对这些非业务性负载已不堪重负,迫切需要一个理想的对象来分担这些计算负载。
头豹研究院则预测,中国DPU市场规模预计将在2025年达到37.4亿美元。全球DPU市场规模2025年预计将达到135.7亿美元。同时报告也指出,数据流通是DPU最大的应用市场,其中裸金属服务其对DPU存在刚需。DPU在电信市场的应用主要为边缘计算场景,渗透率不足5%。针对智能驾驶领域的DPU仍在探索阶段,预计在2023年DPU才有望布局在智能驾驶领域。
中国DPU市场规模,2020-2025年预测,来源:头豹研究院
鄢贵海指出,CPU的性能从5-10年前每年30%的增幅,到三年前大概只有每年不到3%的性能增幅。而网络带宽每年依旧还有35%左右的增长。
以中泰证券为例,当时该公司遇到的挑战是,交易报单合规检查太慢,需要提高交易效率。于是,中科驭数与中泰证券、上交所技术有限责任公司联合研发了一套极速风控系统解决方案,来加速这一流程。中科驭数相继研发了超低时延智能网卡、数据计算加速卡等多套产品和解决方案,主要面向高带宽、低时延、数据密集型等场景。该公司今年已经实现千万级别的季度营收。中科驭数的下一代DPU芯片预计将于2021年底完成设计,预计可处理高达200G网络带宽数据。
不过,DPU市场虽然火爆,但概念较新,未知更多,投资风险也会更大。
芯启源CEO卢笙指出,目前DPU细分赛道的壁垒还是相对较高的,除了技术壁垒之外,还有市场的壁垒,需要客户不断迭代,尤其是配合开源软件不断升级去适配客户快速变化的软硬件环境。因此VC(风险投资)在投资之前,一定要先认可赛道,且有足够的耐心。他强调,投资人需要对市场进行不断地观察并调整判断,现在谁也无法预料未来DPU发展前景。
也有媒体认为,当英伟达进入新开辟的CPU和DPU战场,对中国的GPU厂商或许是个利好,尤其英伟达依然花大量精力放在400亿美元收购英国芯片设计商Arm公司的并购交易上,这对新创GPU企业而言,可能是个追赶的时机。
正如章高男对钛媒体App所说,“从逻辑上讲,门槛不高的事情通常稀缺性都不高。(芯片半导体赛道)有些事情是很难的,需要长时间投入,虽然是高风险,但总归得有人去做。这是真正对国家有利的长远投入,其实应该鼓励投资。否则的话,这些需要长时间投入的难事,谁都不去做,你永远上不了台阶。”
章高男强调,虽然风险投资肯定要追求回报,但他认为,在整个资金分配合理情况下,拿出一部分投资半导体赛道的初创企业,不仅有极强的社会意义,更是某种长期价值投资的重要体现。
本文编选自“钛媒体”微信公众号,作者:林志佳;智通财经编辑:黄晓冬。