特斯拉“重锤砸门”之后,英伟达发布了一款名为“雷神之父(Orin)”的芯片。
不谈其中到底有什么“伦理梗”,单就产品而言,黄教主在GTC China 2019现场给出了几项技术参数:
170亿个晶体管、8个核心64位CPU、200 TOPS深度学习算力、兼容L2-L5级自动驾驶开发、达到ISO 26262 ASIL-D等系统安全标准、2022年SOP;
解读一下——相比上一代系统级芯片Xavier,Orin的算力提升了将近7倍,且向下兼容XavierOrin支持自家新一代GPU架构和Arm Hercules CPU内核同步运行,提升容错性提供针对OEM的低成本版本,满足用一个单路摄像机来做L2级自动驾驶,同时能利用整个自动驾驶产品线中的软件栈
“皮衣黄”高度浓缩出了三个关键词:“可扩展”、“可编程”、“软件定义”。
可是,相比往年“几分钟一个新品”的核弹级发布速度,这样一小块SoC芯片根本堵不住在场6100多人的嘴:“搞芯片的英伟达,怎么就展示了一个硬件产品?”
这让台上与去年打扮一模一样的黄仁勋,显得硬核,却不够性感。
更何况,在公司刚刚发布的Q3季度财报中,汽车业务拿出的数据并不好看。虽然在集中采访时媒体朋友们对此普遍嘴下留情,但仍旧无法掩盖汽车行业整体疲软带来的业绩下滑:公开数据显示,英伟达汽车业务在延续了前7个季度增长势头后,于2019年Q3中止,同比下滑6%。
要知道,三年来这家企业汽车对应业务的营业额同比增幅一度高达63%。而在车企因为收缩成本而放缓汽车电子与自动驾驶方面投入的当下,J.D Power Survey的一份报告显示,截至2034年,此方面预算预计只占整体汽车销售份额的10%左右。
英伟达,这位汽车电子爆发增长红利的最大获益者,就要告别百年汽车产业了吗?
算力=硬核?
从技术路线来看,英伟达始终坚称自家GPU是深度学习的完美架构。
“随着摩尔定律的终结,GPU加速计算将成为未来的发展方向,这一点现在已得到公认。”“出色的芯片只是起点。”
话虽如此,但或许是困于芯片“上车”后的功耗问题,英伟达打算基于ARM架构许可开始从零打造自己的CPU架构,未来产品也将由供应商逐步迭代更替至自研。
毕竟在特斯拉FSD芯片刚刚问市时,英伟达搬出了AGX Pegasus双芯片的320 TOPS拿来对飚。可更现实的问题是,相比功耗200W左右的FSD芯片,英伟达两块芯片的布局功耗高达500W。有媒体测算称,这就相当于一辆电动汽车每小时要多消耗小半度电。
这就很好地解答了我们的问题:对于自动驾驶芯片来说,强算力就等于超硬核吗?
答案显然是否定的。算力并不能作为衡量AI芯片性能的唯一指标。就实际使用而言,在多业务切换情况下,尤其是衡量节点端芯片和云端芯片性能时,计算核的性能表现理论上应该被视作一项重要的标准。
此外,AI加速硬件也十分依赖存储器带宽。所以在相同算法及计算量的情况下,计算核对于带宽的使用效率也决定着系统的整体性能。而据报道,英伟达自家的NV Link 2.0多芯片数据传输标准目前能够提供的带宽为100GB/s,特斯拉则拥有2TB带宽的SRAM。
换句话说,320 TOPS算力的英伟达AGX Pegasus对于特斯拉可以说毫无价值。毕竟后者是在为降低全自动驾驶汽车的Robotaxi项目运营成本而奋斗,马斯克也直接喊话:“关键在于芯片中有多少TOPS能够真正应用于自动驾驶相关的图像处理和行为预测?”
相比特斯拉严丝合缝卡死各项指标,为自己量身定制的FSD芯片,英伟达在对抗中的话语权明显就要减弱许多。某种程度上,特斯拉代表着绝大多数主机厂在市场中的真实需求。
毕竟汽车行业内存在太多针对固定功能的专用芯片,他们尺寸小、成本低、功耗低,这些特质几乎正中车厂下怀。
而这在英伟达眼中,却是“可编程性低”的代名词。专用芯片无法处理先进高级自动驾驶所需要的复杂工作负担,其中涵盖了十个以上摄像头、毫米波雷达、激光雷达等多种传感器融合需要的多元化数据处理,并留出足够安全冗余,这就需要至少几百TOPS的算力支撑。
“在通过神经网络进行深度学习训练这件事上,只存在两个人工智能超级计算机。一个来自特斯拉,一个来自英伟达。”英伟达汽车事业部高级总监Danny Shapiro十分笃定。
按他所言,英伟达是唯一一家对所有类别都提交测试申请,且各项类别均排名第一。其全套软件堆栈能够支持所有主流AI框架。要知道,要想实现自动驾驶,除了软硬件之外还需要很多处理前与处理后的工作配套。
以“新面孔”Orin为例,其独特的设计点在于多处理器的运用,包括GPU、ARM架构CPU、可编程处理器、编解码器。由于Orin和Xavier均可通过开放的CUDA、TensorRT API及各类库进行编程,因此开发者能够在一次性投资后使用跨多代的产品。
显然,在成本严格把控、量产即交付的主机厂对比下,英伟达目前的客户群恐怕更多在于致力于高阶自动驾驶的科技公司。后者在同一块开发板上不断完成软件迭代,似乎才能将英伟达的价值最大化。
而努力接触同样一波客户的,还有华为。就在4个月之前,徐直军在“地表最强芯”的大屏幕下一口气发布了昇腾910和昇腾310两款AI芯片,就连以此为基础推出的MDC车载技术单元,都同时指向了英伟达在芯片行业中的垄断地位。
根据当时的描述,昇腾910算力256 TOPS,昇腾310算力较弱,但兼顾功耗,更适合自动驾驶汽车。“昇腾910对标谷歌和英伟达的AI算力芯片,训练AI模型。具体定价还未定,但肯定比英伟达和谷歌低。”徐直军笑着说道。
生态:商业头脑
事实上,徐直军想要对标的不只是算力,而是直抵英伟达最高的护城河。
2020年Q1,MindSpore将正式开源,“像英伟达一样建立自己的生态”。
这很好地解释了如今黄仁勋为何只带来一件硬件产品,却依旧不慌不忙。在公司内部,软件开发人员已经远远超过了硬件工程师的数量。而Danny Shapiro话里话外也提到,英伟达Drive系统的意义在于为客户提供预训练模型,进而打开生态系统加入GPU云。
到2019年这个节点上,卖出15亿块GPU的英伟达已经不必遮掩自己的野心。市面上在用的每块GPU都兼容CUDA,这个平台背后是丰富的库、工具和应用程序。就在2018年,英伟达发布了500多个SDK和库,通过优化软件栈提高GPU性能,让深度学习训练在三年内提高4倍,深度学习推理在一年内提高2倍。
时至今日,英伟达再次决定向交通运输行业开源NVIDIA DRIVE自动驾驶汽车开发深度神经网络。
也就是说,借助英伟达开源的预训练AI模型和训练代码,自动驾驶汽车开发者只要愿意加入这套生态系统,就能通过一套NVIDIA AI工具自由扩展和自定义模型,以此提高其自动驾驶系统的稳健性与能力。
这套产品运行在DRIVE AGX平台上深度神经网络核心,由数十个深度神经网络组成的,它们可以处理冗余和不同任务,以确保精确的感知、定位和路径规划,完成交通信号灯和交通标识检测、目标检测(车辆、行人、自行车)、路径感知以及车载眼球追踪和手势识别等任务。
除了开源深度神经网络之外,NVIDIA还发布了一套先进工具,让开发者可以使用自己的数据集和目标特征集自定义并增强NVIDIA的深度神经网络。这套工具使用主动学习、联邦学习和迁移学习来训练深度神经网络。
英伟达产品既往在圈内各家初创企业之间的风靡或许信服力不强,但如今互联网巨头滴滴出行的买账,说明了一切。
在滴滴自动驾驶部门正式升级为独立公司后,其找到的第一个重磅产业链合作伙伴就是英伟达。按照官方说法,滴滴将在数据中心使用NVIDIA®GPU训练机器学习算法,并采用NVIDIA DRIVE™为其L4级自动驾驶汽车提供推理能力。
为了训练NVIDIA DRIVE的多个深度神经网络,滴滴将采用NVIDIA GPU数据中心服务器。在云计算方面,滴滴还将构建领先的AI基础架构,并推出计算型、渲染型和游戏型vGPU云服务器。目前,滴滴云已与NVIDIA等行业合作伙伴携手服务交通出行、AI、图形渲染、电子游戏及教育培训等多个领域。
早先不算好看的财务报表,似乎并未击退业内人士的橄榄枝。
在计算机组件更新迭代周期异常短暂的半导体行业,任何竞争格局的重大变化都天然会带来严重的下行风险。这让半导体厂商的长期业绩判断变得异常复杂,过度依赖供应链其他业务来管理库存、维持资本支出的特征,使其在供应链中的位置会大概率导致需求出现短期的快速恶化。
这些资本层面的“坏习惯”重要,却也没有那么重要。竞争性技术公司总是可以直接抢占下一波芯片的市场份额。英伟达汽车部门中,信息娱乐处理器与Drive平台相关项目在Q3季度中的表现格外突出,在整体下滑的同时,这部分业务收入每年增长30%,达到了2.09亿美元。首席财务官科莱特·克雷斯(Colette Kress)反复强调,公司必须要将这一领域视为长期增长动力。
资本数据层面的表现时刻印证着老黄的判断。整个2019年,从年初GTC到年末GTC China,“CUDA生态”都是前后贯穿其演讲的重要关键词。
GPU发家的英伟达产品确实并非为人工智能而生,与专用芯片相比其在效率层面的缺陷暴露无遗。于是,英伟达选择“将错就错”,针对特定AI芯片在不同软件API以及系统框架转移中出现的碎片化问题,“GPU+CUDA生态”的超强组合提供了“同一类硬件,同一种框架”来解决所有问题的可能。
对于英伟达GPU这个“人工智能基石”般的存在,其押注的竞争力早已不在芯片产品本身。也有从业者评价称,公司早年研发的在GPU上做通用计算的CUDA生态,在经过数年艰苦经营后成为了人工智能开发者的首选。
相对其身后仍在玩命“拼性能”的厂商来说,CUDA生态已经形成了超维打击,并且不可撼动地组建起英伟达GPU在人工智能领域的最高护城河。
转载文章,不代表本站观点。