起个大早,赶个晚集:论英特尔(INTC.US)AI芯片Nervana的倒掉

18197 3月2日
share-image.png
智通编选 挖掘最有价值的港股热点信息,捕捉最有魅力的资本市场动向。

本文来自StarryHeavensAbove ,作者徐凌杰。

果不其然,Nervana终于被Intel(INTC.US)彻底关掉了 ,虽早已在预料之中,但也不胜唏嘘。我见过Nervana未曾发布的产品,在当年诸多AI芯片逐鹿之初也算是一条好汉。然而,Nervana的倒掉,除了技术原因之外,团队的组成和Intel组织架构也是重要的内在因素。“起个大早,赶个晚集”,算是对Intel之前4年AI芯片战略的一个总结,我以为。

我不看好Nervana很多人都知道,也在2019年中预言了Intel收购Habana的大致剧本,在此分享一下对这个未来或许会成为AI芯片历史上重要事件的思考,作为case study供大家参考。以下仅为作者个人观点,不代表就职公司。

团队组成

回拨到2016年中,当年北美最有名的AI“芯片”初创公司就数Nervana了。我们不妨来看一下Nervana被Intel收购之前的重要时间线:

2014年初成立,三个创始人,CEO Naveen Rao、CTO Amir Khosrowshahi(姓氏是否很熟悉?没错,他和Uber现任CEO是堂兄弟,均来自伊朗的望族)和算法负责人Arjun Bansal。

2016年2月,发布基于Neon框架,宣称在GPU上可以达到10倍以上的深度学习训练速度。

2016年6月,宣布开发名为Nervana Engine的AI芯片。

2016年8月,被Intel已4.08亿美元收购,被收购时员工48人。

非常巧的是,当时的48名员工有3个是我之前的同事或同学(其中包括第48名员工,入职即被收购的那位),我当时就饶有兴趣地在他们网站上把所有人的背景都过了一遍,看完之后惊奇地发现这不是一家传统意义上的芯片公司!

首先是创始团队,三个人均是2010前后毕业的神经科学博士,没有任何硬件背景;48人中还有不少来自神经生物学界的。

负责硬件的Carey Kloss是DV(芯片验证)出身,主架构师Andrew Yang(不是那个每人发1000刀helicopter money的总统候选人)背景是网络通信芯片的ASIC design。

而其他绝大部分人,包括我认识的3个,都是软件工程师背景。

皮衣教主一直强调NVIDIA是一家软件公司,这一点都没错,芯片产品最终拼的是软硬件联调的服务能力。但在芯片公司草创之初,没有有经验的、来自计算芯片背景的主架构师,没有成型的硬件团队,也是绝对不可接受的。这也为Nervana第一代Lake Crest芯片的失败埋下了伏笔。按照正常的逻辑就是,Nervana原本的主营业务是神经网络算法和框架,而芯片硬件项目只是一个pet project,乘着2016年5月Google公开发布TPU一代的东风,立马赶鸭子上架,而Intel正好缺乏合适的AI芯片产品和GPU叫板,一拍即合,卖了个不错的价格。

可惜,当年nervanasys.com的网站已经没有办法考古,这几天点击打开之后映入眼帘的是巨大的Intel+Habana的logo。

相比之下,在初创团队组成上,不得不说,Habana是非常值得称道的:

CEO David Dahan是DSP设计背景,在CEVA干过好多年,之前联合创立了Prime Sense成功卖给了Apple(AAPL.US)。

VP R&D Ran Halutz,是Dahan在Prime Sense和CEVA并肩作战多年的队友,负责芯片硬件设计。

CTO Shlomo Raikin,原Mellanox的首席架构师,之前在Intel做过10年的CPU架构设计。

Chief Business Officer,Eitan Medina,通信/芯片行业的老兵,Galileo/Marvell/Cavium的CTO和VP。

以上都是在Habana网页和LinkedIn上公开的信息。然而,鲜为人知的是Habana幕后的大boss,Avigdor Willenz,以色列芯片界教父般的传奇人物,90年代中期就创立了Galileo,如今在AWS撑起半边天的Annapurna Labs也同样出自他的手笔。是他,看到了AI芯片市场的巨大潜力,通过强大的资源整合能力,把以上的牛人们聚在了一起,并有策略有步骤地逐步推行产品计划。

精心撰写的剧本和“脚踩西瓜皮,滑到哪里算哪里”的创业,在人员布局上就可见一斑。

技术路线

芯片产品,最终是要回归到技术的。Nervana被Intel收购之后,马上根据Intel的习惯把产品线重命名成Crest,而第一代芯片Lake Crest因为之前的匆忙已经是箭在弦上不得不发了。根据wikichip [2] 和其他公开信息,我们来看一下它的芯片设计。

Lake Crest架构图

平心而论,Lake Crest的架构还是非常工整的,有着当时业界领先的HBM2配置和带宽,芯片间12个ICL互连也是比较超前的意识。55T 16bit FLOPS的算力如果能在2017年初正常发布也是非常有竞争力的产品,但是,因为前面在团队部分描述的原因,Lake Crest成为了一个彻头彻尾失败的产品:

首先,因为项目启动是在被收购之前,受于资金限制,Nervana只能找eSilicon合作,而且只能做28nm的产品(NVIDIA 2016年初发布的P100已经是16nm了)。即使被收购之后,Intel在这代产品上也帮不上太多忙。而最终的结果是,由于芯片执行上的问题,导致最后功耗巨大,400W的产品无法在已经被NVIDIA很好定义的300W PCIE的主流机型上做适配。

其次,其实也是架构里面最关键的,也是Nervana当时最引以为豪的发明,Flexpoint最终被证明是个大坑。这点我在去年AI Hardware Summit的Keynote上提过,想要了解技术细节的可以看Nervana团队在2017年NIPS大会的paper。

Flexpoint在技术上是个看似聪明的拍脑瓜的方案,撇开模型在其之上很难收敛的事实,光是其tensor之间共享 exponent需要反复来回和host通信同步就是一个很大的overhead,而团队欠缺计算芯片、特别是通用处理器的架构背景,软件算法想当然,我认识是造成这个局面的很大原因之一。岔开一句,“软件定义硬件“是个非常时髦的词,而Groq 最近公开的144路VLIW的架构也足够行家们贻笑大方了。

Flexpoint示意图

有人可能要问,Nervana的neon框架后来哪去了?有人在Reddit[4] 上的回复非常到位,“Development speed is generally more critical than computational speed in research”,“I trust TensorFlow/Torch more than Neon, e4ven if Neon is faster”。没有抓住训练用户的痛点是其一,退一步来说,芯片公司没有长出基于芯片的核心能力,框架做得再好,也无法仅凭此就成为未来竞争的护城河。

其实Lake Crest的失败还不是致命的,以Intel的资源和能力,在后一代Spring Crest尽快修正错误未为晚矣。然而,期望的改变并没有发生:

Spring Crest依然沿用了错误的Flexpoint设计,直到内部仿真明确了实在不行之后,才决定全面转向BF16(原话是,”Flexpoint16三个月converge不了一个网络,而BF16一天就可以converge三个”)。这也为什么在2018年中Intel的AI大会上 [5] ,宣布了Spring Crest会有两个迭代,第一个只做硬件适配仍然是Flexpoint,而第二个tape out会使用和Google TPU一样的BF16。

不过,非常遗憾的 是,Nervana团队没有抓住两次tape out的机会,在中间再加强算力,B stepping 2019年底119T BF16的算力和NVIDIA 2017年中发布的V100相比,毫无优势可言,更何况市场都在等待2020年3月更强更新的GPU产品。刻舟求剑,用在这里再恰当不过。

错误的技术方案和产品路线,贻误了Nervana和Intel战机。而反观Habana,战术和打法就清晰很多了:

首先是埋头苦干,2016年底成立后一直保持stealth mode,直到2018年9月AI Hardware Summit发布第一代inference芯片Goya(芯片实体,而非纸面发布),以单卡15000 images/s的ResNet50性能一鸣惊人。

同时宣布training芯片Gaudi将于半年之后面世,100个人不到的小团队的战斗力吸引了全世界的目光,Intel Capital迅速投资。

2019年3月份,Facebook在OCP大会上发布OAM模块标准之后,快速反应、迅速跟进,业界首个支持OAM标准,并第一时间在2019年8月在Hotchips大会现场演示。

再来看Habana的架构,无论是Goya还是Gaudi,其实都没有任何fancy之处,两颗芯片遵循了架构最大程度复用的原则,把一些普通的元素执行到了接近极致:

版图上所谓的TPC,其实就是DSP,这是Habana团队的强项。

画得很小的GEMM矩阵加速但也其实是面积的主体,各家AI 芯片公司都有。

Local和Shared memory代表了大量的片上SRAM,其他AI芯片公司也都有。

Gaudi芯片集成NIC,概念上属于Habana首创(NVIDIA后来也收购了Mellanox),但技术上并无特殊之处,片间互连带宽远低于NVIDIA的NVSwitch方案,但用比较低的成本实现all to all的connection也是充分发挥了其CTO来自于Mellanox的天然优势

Habana的芯片架构虽然简单,但胜在执行,把团队每个人的优势充分发挥,快速迭代,和Nervana相比绝对是技术和产品上的一股清流。

Habana Goya示意图

Habana Gaudi示意图

组织能力

有人说,Intel是把一手“好牌”打烂了,但我认为不然,Nervana从来就不是一手好牌,但Intel在组织架构上没有很好地进行保障也导致了后来失败的局面。

Intel内部团队非常多也非常复杂,其中最大最重要的部门即为DCG (Data Center Group),而Nervana被收购之后即作为单独的AIPG部门一度直接汇报给CEO,然后马上又被挂在了DCG下面。然而,自2017年以来Intel内部的调整也一直没有消停过:

2017年5月,主持收购Nervana的DCG部门负责人Diane Bryant离职,后加入Google负责谷歌云。

2017年11月,Raja Koduri从AMD加盟Intel,主持GPU部门,并在2018年宣布会进军discrete GPU市场和NVIDIA/AMD正面竞争。

2018年1月,Intel CEO Brian Krzanich因为私生活问题辞职。

2018年6月,CFO Bob Swan出任临时CEO,2019年1月转正。

从上述的时间线可以看到,Nervana自从被收购之后,除了在PR品牌上被Intel大肆宣传之外,在内部并没有被完全接受,AIPG的位置也一直在DCG内部飘忽不定,同时还面对Intel的GPU部门在产品定位上的全面竞争。

其实,从2018年以来,换掉Naveen Rao的声音在Intel内外已经有不少了,但Intel迟迟没有调整到位,也显示了其作为大厂在组织架构上“挤牙膏”的慢节奏作风。

2017年中,Intel以色列团队的负责人Gadi Singer调入AIPG,但只是让他负责inference产品Hill (打Nervana的商标,但全是Intel原生技术),直到这周Naveen Rao离职才被扶正。

2018年中,Movidius(2016年被Intel收购)的前CEO Remi El-Ouazzane调入AIPG,但是只是让他负责operation,没有实际的架构和产品路线的管理权。

也就是说,从Crest产品线颓势尽显开始,Naveen Rao居然在AIPG的一号位上坐了两年多,看起来不可思议,但其实也是公司内部不断互相寻找平衡的大公司病的典型特征。

最后来讲一下我是如何大胆判断Intel会弃子Nervana,收购Habana和其中timing的:

从财报来看,新任CEO上任之初通常会用big bath的手法把坏消息出尽,而通常CFO出身的CEO对砍人绝对不会手软,只是时间问题。Bob Swan 2019年1月正式接任CEO,当月的财报抖了很多包袱,盘后跌了7% [6];同年4月的财报[7] ,他又表态“taking a more cautious view of the year”,然后盘后又跌了6%;而再过了几个月,通过诸如把基带生意关掉等一系列手段,把股价搞上去了,那就是时候来梳理最大的DCG部门了。

Intel一年股价走势图

作为Intel最赚钱的DCG部门,AI相关的营收一直是掌门人Navin Shenoy的痛,算上CPU,AI based的芯片营收才勉强超过NVIDIA,而AI硬件产业在未来几年是几百亿美元的大市场,大有可为却没有很好的抓手:之前过于担心对核心CPU市场的cannibalization没有大力发展inference专用芯片,而Nervana又无法扛起训练的大旗,确实头痛。

北美big4,AWS只用最成熟的产品(训练用GPU,推理开始推自研的inferentia),Google(GOOG.US)自然有了TPU,微软(MSFT.US)钟情于FPGA,而Facebook(FB.US)是唯一的空白。Facebook作为非云厂商的hyperscaler,有一个特点就是喜欢逗人玩,没事通过OCP发布行业标准来让标准模块商品化达到降低成本的目的。

刚才提到的OAM就是训练加速卡的专用模块,2019年只有Intel的Nervana Spring Crest和Habana的Gaudi具备了OAM的产品化能力,看看自己口袋里的Nervana不一定争气,为了锁定Big4中的最后一家,20亿美金收购Habana我认为还是值得的。所以如果下周OCP大会,Intel和Facebook联合发布产品,用足这20亿的广告费,是一点都不奇怪的。

2019年9月 OCP阿姆斯特丹大会

2019年6月,Intel的GPU团队发布One API编程模型,其重点自然在One上面,号称全Intel通用,而其对外的市场宣传也把AI训练作为其Ponte Vecchio芯片的主打,大有舍我其谁之势。外部没了市场还好,内部没了面子怎么行,DCG肯定坐不住。

综上,砍掉Nervana,收购Habana,势在必行。而Nervana团队内部看得清形势的人,在2019下半年也陆续出走了。

当Habana在2019年Hotchips现场demo样机的时候,NVIDIA的Tesla线产品经理问我最看好哪家AI芯片公司,我答“Habana”;又问我如何解,我再答“被Intel收购“;我俩相视一笑。当然,这是玩笑,我还是真心希望能看到市场上出现能和NVIDIA正面PK的产品,希望Habana不要重蹈之前那些被Intel收购公司的覆辙。

Nervana带来的启示

Habana不是一个完美的例子,以色列团队传统也是硬件强,软件偏弱,但人家毕竟在没有把产品卖出去的情况下先把自己卖了,从思路到执行力还是值得好好研究的。

Nervana的倒掉,在我看来,标志着AI芯片的竞争即将从从春秋进入战国阶段。虽然皮衣教主还有着绝对的统治力,但无可否认越来越多资金雄厚的玩家会更加重视这个市场,面对几百亿美元的大市场,资金、技术、产品能力还有眼光缺一不可。根据上述Habana和Nervana的对比,一个成功的AI芯片需要做到的点:

完整的团队:功力深厚的(软硬件)架构师、经验丰富的执行团队、能精准把握市场趋势的产品团队。

前瞻的眼光:产品定义要有足够的高度和包容度,保持对技术趋势的敏锐度,Habana的一鸣惊人和第一时间拥抱OAM就是最好的例证。

完美的执行:速度和迭代能力也将会是核心竞争力,特别是AI算法日新月异的今天,软件和硬件周期不匹配日益突出,我认为这将是中国公司短期内竞争力所在。

现实的兼容:与现有产品实现平滑过渡(无论是软件还是数据中心基础设施),作为硬件厂商不要幻想一朝一夕就能改变顶层用户习惯(Flexpoint的反例),同时保留通用性适应未来的发展和建立自己的生态。

贴身的服务:软件能力(其实是软硬件联调能力)决定芯片的成败已经成为一个共识,而能够本地化服务于客户,提供优秀解决方案的服务能力也会是芯片技术之外的分水岭。

充裕的资金:我在AI Hardware Summit上曾把AI芯片的竞争比喻成长征,芯片的长周期和快速迭代之间的矛盾就决定了需要更大资金的投入,这也是未来竞争力的关键所在。(编辑:孟哲)

相关阅读

市场分析师郭明錤:苹果(AAPL.US)可能会在新电脑中首次放弃英特尔(INTC.US)芯片

3月1日 | 智通编选

量子计算商用新的里程碑?英特尔(INTC.US)和QuTech推出用于量子计算的马岭低温控制芯片

2月19日 | 雷锋网

英特尔(INTC.US)正洽谈向MaxLinear(MXL.US)出售家居网络连接业务

2月19日 | 彭宇硕