起个大早，赶个晚集：论英特尔(INTC.US)AI芯片Nervana的倒掉

本文来自StarryHeavensAbove ，作者徐凌杰。

果不其然，Nervana终于被Intel(INTC.US)彻底关掉了，虽早已在预料之中，但也不胜唏嘘。我见过Nervana未曾发布的产品，在当年诸多AI芯片逐鹿之初也算是一条好汉。然而，Nervana的倒掉，除了技术原因之外，团队的组成和Intel组织架构也是重要的内在因素。“起个大早，赶个晚集”，算是对Intel之前4年AI芯片战略的一个总结，我以为。

我不看好Nervana很多人都知道，也在2019年中预言了Intel收购Habana的大致剧本，在此分享一下对这个未来或许会成为AI芯片历史上重要事件的思考，作为case study供大家参考。以下仅为作者个人观点，不代表就职公司。

团队组成

回拨到2016年中，当年北美最有名的AI“芯片”初创公司就数Nervana了。我们不妨来看一下Nervana被Intel收购之前的重要时间线：

2014年初成立，三个创始人，CEO Naveen Rao、CTO Amir Khosrowshahi(姓氏是否很熟悉?没错，他和Uber现任CEO是堂兄弟，均来自伊朗的望族)和算法负责人Arjun Bansal。

2016年2月，发布基于Neon框架，宣称在GPU上可以达到10倍以上的深度学习训练速度。

2016年6月，宣布开发名为Nervana Engine的AI芯片。

2016年8月，被Intel已4.08亿美元收购，被收购时员工48人。

非常巧的是，当时的48名员工有3个是我之前的同事或同学(其中包括第48名员工，入职即被收购的那位)，我当时就饶有兴趣地在他们网站上把所有人的背景都过了一遍，看完之后惊奇地发现这不是一家传统意义上的芯片公司!

首先是创始团队，三个人均是2010前后毕业的神经科学博士，没有任何硬件背景;48人中还有不少来自神经生物学界的。

负责硬件的Carey Kloss是DV(芯片验证)出身，主架构师Andrew Yang(不是那个每人发1000刀helicopter money的总统候选人)背景是网络通信芯片的ASIC design。

而其他绝大部分人，包括我认识的3个，都是软件工程师背景。

皮衣教主一直强调NVIDIA是一家软件公司，这一点都没错，芯片产品最终拼的是软硬件联调的服务能力。但在芯片公司草创之初，没有有经验的、来自计算芯片背景的主架构师，没有成型的硬件团队，也是绝对不可接受的。这也为Nervana第一代Lake Crest芯片的失败埋下了伏笔。按照正常的逻辑就是，Nervana原本的主营业务是神经网络算法和框架，而芯片硬件项目只是一个pet project，乘着2016年5月Google公开发布TPU一代的东风，立马赶鸭子上架，而Intel正好缺乏合适的AI芯片产品和GPU叫板，一拍即合，卖了个不错的价格。

可惜，当年nervanasys.com的网站已经没有办法考古，这几天点击打开之后映入眼帘的是巨大的Intel+Habana的logo。

相比之下，在初创团队组成上，不得不说，Habana是非常值得称道的：

CEO David Dahan是DSP设计背景，在CEVA干过好多年，之前联合创立了Prime Sense成功卖给了Apple(AAPL.US)。

VP R&D Ran Halutz，是Dahan在Prime Sense和CEVA并肩作战多年的队友，负责芯片硬件设计。

CTO Shlomo Raikin，原Mellanox的首席架构师，之前在Intel做过10年的CPU架构设计。

Chief Business Officer，Eitan Medina，通信/芯片行业的老兵，Galileo/Marvell/Cavium的CTO和VP。

以上都是在Habana网页和LinkedIn上公开的信息。然而，鲜为人知的是Habana幕后的大boss，Avigdor Willenz，以色列芯片界教父般的传奇人物，90年代中期就创立了Galileo，如今在AWS撑起半边天的Annapurna Labs也同样出自他的手笔。是他，看到了AI芯片市场的巨大潜力，通过强大的资源整合能力，把以上的牛人们聚在了一起，并有策略有步骤地逐步推行产品计划。

精心撰写的剧本和“脚踩西瓜皮，滑到哪里算哪里”的创业，在人员布局上就可见一斑。

技术路线

芯片产品，最终是要回归到技术的。Nervana被Intel收购之后，马上根据Intel的习惯把产品线重命名成Crest，而第一代芯片Lake Crest因为之前的匆忙已经是箭在弦上不得不发了。根据wikichip [2] 和其他公开信息，我们来看一下它的芯片设计。

Lake Crest架构图

平心而论，Lake Crest的架构还是非常工整的，有着当时业界领先的HBM2配置和带宽，芯片间12个ICL互连也是比较超前的意识。55T 16bit FLOPS的算力如果能在2017年初正常发布也是非常有竞争力的产品，但是，因为前面在团队部分描述的原因，Lake Crest成为了一个彻头彻尾失败的产品：

首先，因为项目启动是在被收购之前，受于资金限制，Nervana只能找eSilicon合作，而且只能做28nm的产品(NVIDIA 2016年初发布的P100已经是16nm了)。即使被收购之后，Intel在这代产品上也帮不上太多忙。而最终的结果是，由于芯片执行上的问题，导致最后功耗巨大，400W的产品无法在已经被NVIDIA很好定义的300W PCIE的主流机型上做适配。

其次，其实也是架构里面最关键的，也是Nervana当时最引以为豪的发明，Flexpoint最终被证明是个大坑。这点我在去年AI Hardware Summit的Keynote上提过，想要了解技术细节的可以看Nervana团队在2017年NIPS大会的paper。

Flexpoint在技术上是个看似聪明的拍脑瓜的方案，撇开模型在其之上很难收敛的事实，光是其tensor之间共享 exponent需要反复来回和host通信同步就是一个很大的overhead，而团队欠缺计算芯片、特别是通用处理器的架构背景，软件算法想当然，我认识是造成这个局面的很大原因之一。岔开一句，“软件定义硬件“是个非常时髦的词，而Groq 最近公开的144路VLIW的架构也足够行家们贻笑大方了。

Flexpoint示意图

有人可能要问，Nervana的neon框架后来哪去了?有人在Reddit[4] 上的回复非常到位，“Development speed is generally more critical than computational speed in research”，“I trust TensorFlow/Torch more than Neon, e4ven if Neon is faster”。没有抓住训练用户的痛点是其一，退一步来说，芯片公司没有长出基于芯片的核心能力，框架做得再好，也无法仅凭此就成为未来竞争的护城河。

其实Lake Crest的失败还不是致命的，以Intel的资源和能力，在后一代Spring Crest尽快修正错误未为晚矣。然而，期望的改变并没有发生：

Spring Crest依然沿用了错误的Flexpoint设计，直到内部仿真明确了实在不行之后，才决定全面转向BF16(原话是，”Flexpoint16三个月converge不了一个网络，而BF16一天就可以converge三个”)。这也为什么在2018年中Intel的AI大会上 [5] ，宣布了Spring Crest会有两个迭代，第一个只做硬件适配仍然是Flexpoint，而第二个tape out会使用和Google TPU一样的BF16。

不过，非常遗憾的是，Nervana团队没有抓住两次tape out的机会，在中间再加强算力，B stepping 2019年底119T BF16的算力和NVIDIA 2017年中发布的V100相比，毫无优势可言，更何况市场都在等待2020年3月更强更新的GPU产品。刻舟求剑，用在这里再恰当不过。

错误的技术方案和产品路线，贻误了Nervana和Intel战机。而反观Habana，战术和打法就清晰很多了：

首先是埋头苦干，2016年底成立后一直保持stealth mode，直到2018年9月AI Hardware Summit发布第一代inference芯片Goya(芯片实体，而非纸面发布)，以单卡15000 images/s的ResNet50性能一鸣惊人。

同时宣布training芯片Gaudi将于半年之后面世，100个人不到的小团队的战斗力吸引了全世界的目光，Intel Capital迅速投资。

2019年3月份，Facebook在OCP大会上发布OAM模块标准之后，快速反应、迅速跟进，业界首个支持OAM标准，并第一时间在2019年8月在Hotchips大会现场演示。

再来看Habana的架构，无论是Goya还是Gaudi，其实都没有任何fancy之处，两颗芯片遵循了架构最大程度复用的原则，把一些普通的元素执行到了接近极致：

版图上所谓的TPC，其实就是DSP，这是Habana团队的强项。

画得很小的GEMM矩阵加速但也其实是面积的主体，各家AI 芯片公司都有。

Local和Shared memory代表了大量的片上SRAM，其他AI芯片公司也都有。

Gaudi芯片集成NIC，概念上属于Habana首创(NVIDIA后来也收购了Mellanox)，但技术上并无特殊之处，片间互连带宽远低于NVIDIA的NVSwitch方案，但用比较低的成本实现all to all的connection也是充分发挥了其CTO来自于Mellanox的天然优势

Habana的芯片架构虽然简单，但胜在执行，把团队每个人的优势充分发挥，快速迭代，和Nervana相比绝对是技术和产品上的一股清流。

Habana Goya示意图

Habana Gaudi示意图

组织能力

有人说，Intel是把一手“好牌”打烂了，但我认为不然，Nervana从来就不是一手好牌，但Intel在组织架构上没有很好地进行保障也导致了后来失败的局面。

Intel内部团队非常多也非常复杂，其中最大最重要的部门即为DCG (Data Center Group)，而Nervana被收购之后即作为单独的AIPG部门一度直接汇报给CEO，然后马上又被挂在了DCG下面。然而，自2017年以来Intel内部的调整也一直没有消停过：

2017年5月，主持收购Nervana的DCG部门负责人Diane Bryant离职，后加入Google负责谷歌云。

2017年11月，Raja Koduri从AMD加盟Intel，主持GPU部门，并在2018年宣布会进军discrete GPU市场和NVIDIA/AMD正面竞争。

2018年1月，Intel CEO Brian Krzanich因为私生活问题辞职。

2018年6月，CFO Bob Swan出任临时CEO，2019年1月转正。

从上述的时间线可以看到，Nervana自从被收购之后，除了在PR品牌上被Intel大肆宣传之外，在内部并没有被完全接受，AIPG的位置也一直在DCG内部飘忽不定，同时还面对Intel的GPU部门在产品定位上的全面竞争。

其实，从2018年以来，换掉Naveen Rao的声音在Intel内外已经有不少了，但Intel迟迟没有调整到位，也显示了其作为大厂在组织架构上“挤牙膏”的慢节奏作风。

2017年中，Intel以色列团队的负责人Gadi Singer调入AIPG，但只是让他负责inference产品Hill (打Nervana的商标，但全是Intel原生技术)，直到这周Naveen Rao离职才被扶正。

2018年中，Movidius(2016年被Intel收购)的前CEO Remi El-Ouazzane调入AIPG，但是只是让他负责operation，没有实际的架构和产品路线的管理权。

也就是说，从Crest产品线颓势尽显开始，Naveen Rao居然在AIPG的一号位上坐了两年多，看起来不可思议，但其实也是公司内部不断互相寻找平衡的大公司病的典型特征。

最后来讲一下我是如何大胆判断Intel会弃子Nervana，收购Habana和其中timing的：

从财报来看，新任CEO上任之初通常会用big bath的手法把坏消息出尽，而通常CFO出身的CEO对砍人绝对不会手软，只是时间问题。Bob Swan 2019年1月正式接任CEO，当月的财报抖了很多包袱，盘后跌了7% [6];同年4月的财报[7] ，他又表态“taking a more cautious view of the year”，然后盘后又跌了6%;而再过了几个月，通过诸如把基带生意关掉等一系列手段，把股价搞上去了，那就是时候来梳理最大的DCG部门了。

Intel一年股价走势图

作为Intel最赚钱的DCG部门，AI相关的营收一直是掌门人Navin Shenoy的痛，算上CPU，AI based的芯片营收才勉强超过NVIDIA，而AI硬件产业在未来几年是几百亿美元的大市场，大有可为却没有很好的抓手：之前过于担心对核心CPU市场的cannibalization没有大力发展inference专用芯片，而Nervana又无法扛起训练的大旗，确实头痛。

北美big4，AWS只用最成熟的产品(训练用GPU，推理开始推自研的inferentia)，Google(GOOG.US)自然有了TPU，微软(MSFT.US)钟情于FPGA，而Facebook(FB.US)是唯一的空白。Facebook作为非云厂商的hyperscaler，有一个特点就是喜欢逗人玩，没事通过OCP发布行业标准来让标准模块商品化达到降低成本的目的。

刚才提到的OAM就是训练加速卡的专用模块，2019年只有Intel的Nervana Spring Crest和Habana的Gaudi具备了OAM的产品化能力，看看自己口袋里的Nervana不一定争气，为了锁定Big4中的最后一家，20亿美金收购Habana我认为还是值得的。所以如果下周OCP大会，Intel和Facebook联合发布产品，用足这20亿的广告费，是一点都不奇怪的。

2019年9月 OCP阿姆斯特丹大会

2019年6月，Intel的GPU团队发布One API编程模型，其重点自然在One上面，号称全Intel通用，而其对外的市场宣传也把AI训练作为其Ponte Vecchio芯片的主打，大有舍我其谁之势。外部没了市场还好，内部没了面子怎么行，DCG肯定坐不住。

综上，砍掉Nervana，收购Habana，势在必行。而Nervana团队内部看得清形势的人，在2019下半年也陆续出走了。

当Habana在2019年Hotchips现场demo样机的时候，NVIDIA的Tesla线产品经理问我最看好哪家AI芯片公司，我答“Habana”;又问我如何解，我再答“被Intel收购“;我俩相视一笑。当然，这是玩笑，我还是真心希望能看到市场上出现能和NVIDIA正面PK的产品，希望Habana不要重蹈之前那些被Intel收购公司的覆辙。

Nervana带来的启示

Habana不是一个完美的例子，以色列团队传统也是硬件强，软件偏弱，但人家毕竟在没有把产品卖出去的情况下先把自己卖了，从思路到执行力还是值得好好研究的。

Nervana的倒掉，在我看来，标志着AI芯片的竞争即将从从春秋进入战国阶段。虽然皮衣教主还有着绝对的统治力，但无可否认越来越多资金雄厚的玩家会更加重视这个市场，面对几百亿美元的大市场，资金、技术、产品能力还有眼光缺一不可。根据上述Habana和Nervana的对比，一个成功的AI芯片需要做到的点：

完整的团队：功力深厚的(软硬件)架构师、经验丰富的执行团队、能精准把握市场趋势的产品团队。

前瞻的眼光：产品定义要有足够的高度和包容度，保持对技术趋势的敏锐度，Habana的一鸣惊人和第一时间拥抱OAM就是最好的例证。

完美的执行：速度和迭代能力也将会是核心竞争力，特别是AI算法日新月异的今天，软件和硬件周期不匹配日益突出，我认为这将是中国公司短期内竞争力所在。

现实的兼容：与现有产品实现平滑过渡(无论是软件还是数据中心基础设施)，作为硬件厂商不要幻想一朝一夕就能改变顶层用户习惯(Flexpoint的反例)，同时保留通用性适应未来的发展和建立自己的生态。

贴身的服务：软件能力(其实是软硬件联调能力)决定芯片的成败已经成为一个共识，而能够本地化服务于客户，提供优秀解决方案的服务能力也会是芯片技术之外的分水岭。

充裕的资金：我在AI Hardware Summit上曾把AI芯片的竞争比喻成长征，芯片的长周期和快速迭代之间的矛盾就决定了需要更大资金的投入，这也是未来竞争力的关键所在。（编辑：孟哲）

起个大早，赶个晚集：论英特尔(INTC.US)AI芯片Nervana的倒掉

相关阅读

市场分析师郭明錤：苹果(AAPL.US)可能会在新电脑中首次放弃英特尔(INTC.US)芯片

量子计算商用新的里程碑？英特尔(INTC.US)和QuTech推出用于量子计算的马岭低温控制芯片

英特尔(INTC.US)正洽谈向MaxLinear(MXL.US)出售家居网络连接业务