12.NVIDIA Xavier & Orin & A100

科普 2024年12月09日 01:21 16 佩芝

自动驾驶汽车的智能化取决于算法，因此有软件定义汽车的概念出现并且大为盛行，但是要想实现软件定义汽车，必须要有一个可以承载高度智能化且运算量庞大的AI算法的硬件计算平台或者叫域控制器，而无论是硬件计算平台还是域控制器，都离不开芯片。自动驾驶从L0到L5，随着功能的完善和性能的提升，带来更好的智能和科技体验的同时，也对AI芯片的算力和性能提出更高的需求。之前的文档曾提到，L2或者说ADAS需要的AI计算力<10TOPS，L3需要的AI计算力为30~60TOPS，L4需要的AI计算力>100TOPS，L5需要的AI计算力为500-1000TOPS。对于域控制器而言，硬件大体可分为三部分：承担环境感知和深度学习等超大算力需求的AI处理芯片、负责控制决策和逻辑运算的CPU、以及负责功能安全和车辆控制的MCU。第一部分通常是GPU或TPU，承担大规模浮点数并行计算需求，主要用于环境感知和信息融合，如Xavier的GPU单元、昇腾310、地平线BPU等。第二部分大多为ARM架构，类似于CPU，主要负责逻辑运算和决策控制，处理高精度浮点数串行计算。第三部分主要负责可靠性和车辆控制，目前用的较多的就是Infineon的TC297或者TC397。第三部分MCU目前大部分域控制器或者计算平台都会选择Infineon的TriCore系列TC397或者TC297，比如华为、地平线、德赛西威、优控智行等。第二部分大多是ARM架构处理器，或者和第一部分AI计算模块集成到一个SoC上，而第一部分目前正处在风头浪尖或者说行业变革和技术路线探索的阶段，前面也专门整理了一篇文章讲被称为AI芯片的各种xPU。本文盘一下，目前可供选择用于设计域控制器或计算平台的AI芯片种类和厂家，虽然目前的芯片最高也仅能满足部分L3、L4级自动驾驶AI计算所需。华为在2018年推出MDC智能驾驶计算平台以及高阶自动驾驶全栈解决方案，包括MDC300和MDC600两个平台，分别对应L3和L4级自动驾驶。华为MDC300由华为昇腾Ascend310芯片、华为鲲鹏芯片和Infineon的TC397三部分构成，算力在64Tops 左右，满足L3级自动驾驶算力需求。MDC600基于8颗昇腾310 AI芯片，同时还整合了CPU和相应的ISP模块，算力高达352TOPS。华为MDC相对于其他平台而言，最大的优势在于其统一的系统架构便于功能扩展和适配多种场景应用。并且华为MDC智能驾驶计算平台已经于2020年1月16日通过了德国莱茵颁发的ISO26262功能安全管理认证，达到ASIL-D级标准。华为依托其ICT行业的经验积累，目前已经建立起了完善的芯片体系，包括专为5G提供支持的巴龙系列芯片、基于全新达芬奇架构研发的昇腾Ascend系列AI芯片、在手机上搭载的CPU处理器芯片麒麟系列，以及服务器级处理器芯片鲲鹏系列。其中，昇腾系列AI芯片主打AI算力需求。昇腾310使用了华为自研的高效灵活CISC指令集，每个AI核心可以在1个周期内完成4096次MAC计算，集成了张量、矢量、标量等多种运算单元，支持多种混合精度计算，支持训练及推理两种场景的数据精度运算。作为NPU，昇腾310集成了FPGA和ASIC两款芯片的优点，包括ASIC的低功耗以及FPGA的可编程、灵活性高等特点，从而其统一架构可以适配多种场景，功耗范围从几十毫瓦到几百瓦，弹性多核堆叠，可在多种场景下提供最优能耗比。相较而言，英伟达的Xavier 算力为30TOPS，功耗则达30W，能效为1 TOPS/W，相比之下，华为昇腾310 算力为16 TOPS，功耗仅为8W，能效为2 TOPS/W。华为自研的昇腾Ascend芯片，支持接入与实时处理更多的外部传感器数据流（如摄像头、毫米波雷达、激光雷达、GPS等），为自动驾驶提供更安全可靠的计算力支持，能够应付处理更复杂路况。搭载昇腾芯片的MDC相比其他计算平台具备高性能。高能效、高安全性和确定性低延时等优势。说到华为，顺道提一下成立于2004年的华为海思，以及大名鼎鼎的麒麟系列芯片。海思推出的第一款片上SoC是麒麟910，作为智能移动端SoC，麒麟910除了CPU还包括基带（Baseband）、图形处理器（GPU）、数字信号处理器（DSP）、图像信号处理器（ISP）等重要模块。 2017年9月，华为在德国柏林国际电子消费品展览会（IFA）上正式推出其新款AI芯片“麒麟970”（Kirin 970）。麒麟970采用TSMC10nm 工艺，内部集成了55亿个晶体管，功耗降低了20%，并实现了1.2Gbps 峰值下载速率。麒麟970基于寒武纪的 NPU架构打造，创新设计了 HiAI 移动计算架构，其AI性能密度大幅优于CPU和GPU。相较于四个Cortex-A73核心，处理相同AI任务，麒麟970拥有约50倍能效和 25倍性能优势。并且，华为海思陆续推出麒麟980/985/990等系列SoC，全部针对AI计算做了优化设计，采用华为自研NPU架构，性能得到大幅度提升。近日，有消息称华为已经与比亚迪签订了合作协议，未来的比亚迪新车将用上华为的麒麟芯片。但是令人惊讶的是，华为首款上车的芯片不是成熟的麒麟970，也不是最新的990，而是比较早的一款芯片麒麟710A。麒麟710芯片发布于2018年7月，它采用8核心设计，包括四个A73大核心和四个A53小核心，大核心的频率为2.2GHz；定位较低、核心较老的麒麟710A在麒麟710的基础上发展而来，架构和核心未变，但是工艺制程从12nm变为14nm，大核心的频率也降低到了2.0GHz。为何选择麒麟710A这款工艺水平退步的过时芯片来上车？我们知道由于美国针对华为的种种举措，华为的供应商渠道受到严重影响，尤其是芯片代工方面，之前的台积电已经靠不住了，华为的芯片只能转为国产代工，而国内唯一可以承担这个重任的只有中芯国际，但是中芯国际的工艺只能到14nm，对于7nm的麒麟970等芯片有心无力，选来选去，也就是麒麟710A合适了。但是从应用需求来说，目前麒麟710A可以满足当前智能汽车车机系统对于功能性能方面的要求，主要是图像和影音处理，以及交互流畅性等。其竞争对手有同级别的Intel Atom A3950、高通的骁龙820A芯片等均已开始装车量产了，比如理想ONE、领克05、小鹏P7等。但是麒麟710A在正式量产装车之前，也需要先通过车规级认证。地平线成立于2015年7月，由前百度研究院副院长、百度深度学习实验室主任余凯创办，致力于为B端用户提供涉及算法和硬件在内完整的嵌入式人工智能解决方案（机器人大脑）。 2017年12月底，地平线发布了中国首款全球领先的嵌入式人工智能芯片——面向智能驾驶的征程（Journey）1.0处理器和面向智能摄像头的旭日（Sunrise）1.0 处理器，还有针对智能驾驶、智能城市和智能商业三大应用场景的人工智能解决方案。 2019年8月，地平线宣布量产中国首款车规级AI芯片——征程二代。Journey 2芯片搭载地平线自主创新研发的高性能计算架构BPU2.0（Brain Processing Unit），采用台积电 28nm 制程工艺，每TOPS算力可达同等算力GPU的10倍以上，视觉感知可以实现识别精度>99%，延迟<100 毫秒。征程二代主要面向ADAS市场感知方案，可提供超过4 TOPS的等效算力，典型功耗仅2W。主要用于自动驾驶中对车辆、行人和道路环境等目标的感知，类似MobileyeQ系列芯片。 CES2020上地平线发布了Matrix2平台，基于自研Journey征程2芯片，算力达到16Tops。同时地平线计划2020年底推出征程5，96Tops算力，15W功耗，支持16路摄像头，对标特斯拉FSD。基于自研计算平台与产品矩阵，目前地平线已支持 L2、L3、L4 等不同级别自动驾驶的解决方案。在智能驾驶领域，地平线同全球四大汽车市场（美国、德国、日本和中国）的业务联系不断加深，目前已赋能合作伙伴包括奥迪、博世、长安、比亚迪、上汽、广汽等国内外的顶级Tier1s，OEMs厂商。寒武纪科技创立于2016年3月，前身是中国科学院计算技术研究所下一个课题小组，是最早进入AI计算领域的芯片公司，其主要方向是高性能服务器芯片、高性能终端芯片和服务机器人芯片，但寒武纪的重点在人工智能领域，早在2016年就发布了首款商用深度学习处理器寒武纪1A。寒武纪在2018产品发布会上发布了多个IP产品——采用7nm工艺的终端芯片Cambricon-1M、云端智能芯片MLU100等。 Cambricon-1M处理器IP属于第三代产品，主打的是智能驾驶领域，后将应用领域拓宽到了智能手机、智能音箱、摄像头、自动驾驶等方面。Cambricon-1M的int 8（8位运算）效能比高达达5Tops/W每瓦5万亿次运算），并且提供了2Tops、4Tops、8Tops三种尺寸的处理器内核，以满足不同需求。1M还将支持CNN、RNN、SVM、k-NN等多种深度学习模型与机器学习算法的加速，能够完成视觉、语音、自然语言处理等任务。通过灵活配置1M处理器，可以实现多线和复杂自动驾驶任务的资源最大化利用。它还支持终端的训练，以此避免敏感数据的传输和实现更快的响应。寒武纪首款云端智能芯片Cambricon MLU100采用寒武纪最新的MLU V01架构和台积电16nm工艺，可工作在平衡模式（主频 1Ghz）和高性能模式（主频1.3GHz）两种不同模式下，等效理论峰值速度则分别可以达到128万亿次定点运算和166.4万亿次定点运算，而其功耗为80w和110w。MLU100云端芯片同样具备高通用性，可支持各类深度学习和常用机器学习算法。 2018年7月4日百度在其开发者大会上发布百度首款AI芯片——昆仑。百度介绍昆仑是中国首款云端全功能AI芯片，基于百度CPU,GPU和FPGA加速器，采用百度自研XPU神经处理器架构，通过长达8年的研发20多次的迭代产生。设计性能在100W以上的功耗提供260Tops算力，内存带宽达到了512GB/s，核心数有数万个。。据说昆仑芯片将由三星代工，采用14nm工艺。 2019年12月18日三星官方宣布，百度首款 AI 芯片昆仑已经完成研发，由三星代工最早将于2020年初实现量产。这款百度自主研发的面向云、边缘和人工智能的SoC目前是设计性能最高的SoC。昆仑芯片采用了I-Cube封装方案，通过I-Cube技术将逻辑芯片和高带宽存储器与插入器连接，再利用三星的差异化解决方案可以实现在最小尺寸上提供更高的密度/带宽。在算力方面，昆仑芯片提供512 GBps的内存带宽，在150W的功率下实现260Tops算力；它支持针对自然语言处理的预训练模型 Ernie，推理速度比传统 GPU/FPGA 加速模型快 3 倍。借助昆仑，百度可以支持包括大规模人工智能计算在内的多种功能，例如搜索排序、语音识别、图像处理、自然语言处理、自动驾驶和 PaddlePaddle 等深度学习平台。 5月28日，南京芯驰半导体科技有限公司SemiDrive（简称“芯驰科技”）正式对外发布9系列X9、V9、G9三大汽车芯片产品，提供了针对汽车的协同一体化解决方案，覆盖了智能座舱、智能驾驶、中央网关三大核心应用。据芯驰科技介绍，X9、V9、G9均是域控级别的大型SOC芯片，单颗芯片可以替代多个传统ECU，可以支持QNX、 Linux、Android等多种车载OS，也可支持AutoSAR，满足客户对产品进行灵活适配的需求，适应未来智能汽车发展的需求。其中，X9系列芯片用来支持未来智能座舱：X9中采用了Imagination的PowerVR Series9XM图形处理器（GPU），一颗X9芯片可以同时支持多块高清屏幕，具备语音交互、手势识别，驾驶员状态监控等功能。 V9系列芯片定义为自动驾驶的核心大脑，作为域控制器核心，V9内置高性能视觉引擎，支持多达18个摄像头输入，不仅能满足ADAS应用需求，还能给未来更高级别的自动驾驶和无人驾驶留有充足的扩展空间。 G9系列芯片是作为未来汽车的智慧信息枢纽；为智能座舱、域控制器及其他模块起到交互连接作用，同时，G9还可连接外部网络，支持OTA在线升级。 V9系列处理器是集成了最新的高性能引擎，包括64-bitArm® Cortex®-A55内核，V8.2架构CPU；高性能PowerVR GPU；CV专用视觉处理引擎等，能够满足新一代智能驾驶辅助系统应用对强大的计算能力日益增长的需求。此外，V9系列处理器集成了千兆以太网，CAN-FD，能够以较低的成本与车载系统进行无缝衔接。该款处理器还支持MIPI-CSI和并口CSI，能够支持摄像头输入，包括360°环视影像系统、前视摄像、后视摄像和车内摄像系统。位于英国的Imagination为芯驰科技提供GPU支持，针对芯驰科技的自动驾驶芯片，Imagination的最新一代神经网络加速器（NNA）PowerVR Series3NX可以提供最高达160TOPS的算力；针对其高端座舱芯片，Imagination最新发布的IMG A系列（IMG A-Series）GPU可以提供更高的性能、更快的处理速度和更低的功耗。另外，芯驰科技号称是中国中国第一家获得TÜV莱茵颁发的ISO 26262:2018版功能安全管理体系证书的企业。 2020年6月15日晚，黑芝麻科技发布了自研的车规级芯片重磅产品，华山二号A1000和华山二号A1000L，这是黑芝麻继华山一号之后的第二代产品。两颗芯片都采用台积电16nm工艺，支持车规级AEC-Q100标准和支持多项传感器。华山二号A1000对标特斯拉，具有8个CPU核，单颗可提供40 TOPS的算力，功耗8-10W。据黑芝麻智能科技消息，A1000是全球顶尖的包含功能安全的高性能车规级SOC芯片，也是中国目前第一颗能够量产的，满足自动驾驶L3/L4级别要求车规级芯片。华山二号A1000在L3级别上对标Tesla，其功耗仅有Tesla FSD的四分之一，面积只有三分之一，成本也只有四分之一，是一款高性价比落地产品。到2021年底，搭载黑芝麻华山二号芯片的车型或将正式量产。对比而言，特斯拉FSD算力144TOPS，功耗72W，能效比2TOPS/W；英伟达Xavier算力30TOPS，功耗30W，能耗比1TOPS/W。而华山二号A1000单芯片能效比超过6TOPS/W ,双芯片叠加组成的域控制器能效比也超过5TOPS/W。根据黑芝麻给出的计算平台方案，单颗A1000L芯片适用于低等级级ADAS辅助驾驶；单颗A1000芯片适用于L2+自动驾驶；双A1000芯片互联组成的域控制器可支持L3级别自动驾驶；四颗A1000芯片叠加可用于未来L4级别自动驾驶。西井科技创办于2015年，它起初是一家做类脑芯片的厂商。所谓的类脑芯片简单来说就是以人脑的工作方式设计制造出来的芯片。类脑芯片模仿的是大脑神经元的工作形式，冯•诺依曼结构处理器芯片不同，与大脑的处理单元是神经元，内存就是突触。神经元和突触是物理相连的，所以每个神经元计算都是本地的，而从全局来看神经元们是分布式在工作。类脑芯片由于具有本地计算和分布式工作的特点，所以在工作效率和能耗上相比冯•诺依曼结构处理器芯片更有优势。西井科技早期开发了“DeepSouth”类脑芯片，是全球首块可商用5000万类脑“神经元”芯片，可以模拟5000万个神经元，而同期的IBM的“TrueNorth”只能模拟100万个。基于类脑芯片技术，西井科技开发出了“DeepWell”和“VestWell”两款人工智能芯片，DeepWell峰值算力1.8Tops，单核功耗500mW，双核功耗1W；VestWell芯片峰值算力4Tops，功耗小于2W。相比NVIDIA Xavier、地平线征程2 等几十TOPS算力的产品，西井科技的这两款芯片确实有点寒碜。但这两款芯片能够实现片上学习，可以随时新增样本进行增量训练来提升推理准确率。目前的自动驾驶算法都是通过高性能服务器进行模型训练，然后将训练好的模型再部署到车载硬件之中。西井科技的芯片的优势在于可以自行进化，具体说来，西井科技人工智能芯片的片上学习特性实现了模型训练过程的本地化，即机器学习在终端芯片上就能直接完成，通过芯片端的不断学习和完善，不断提升计算判断准确率，可以实现自我进化。相比于其他芯片OTA升级，西井科技的芯片属于另辟捷径。深鉴科技由清华团队创办，成立于2016年，其产品称作“深度学习处理单元”（DeepProcessing Unit，DPU），目标是以ASIC级别的功耗，来达到优于GPU的性能，目前第一批产品基于FPGA平台。2018年7月17日，深鉴科技被全球最大的 FPGA 厂商赛灵思宣布收购。深鉴科技着力于打造基于DPU的端到端的深度学习硬件解决方案，除了承载在硬件模块（定制的PCB板）上的DPU的芯片架构外，还打造了针对该架构的DPU压缩编译工具链SDK。自 2016 年成立以来，深鉴科技一直基于赛灵思的技术平台开发机器学习解决方案，推出的两个用于深度学习处理器的底层架构——亚里士多德架构和笛卡尔架构的 DPU 产品，都是基于赛灵思 FPGA 器件。亚里士多德架构笛卡尔架构基于上述两个硬件架构，深鉴科技也发布了数款 DPU 硬件产品产品。在人脸识别方面，深鉴科技分别推出了 DP-1200-F01 人脸检测识别模组和DP-2100-F16人脸分析解决方案。随后，深鉴科技又推出了视频结构化解决方案 DP-2100-O16，它可以做到 16 路 1080p 高清视频的实时视频结构化，可以做到人、车、非机动车的检测、跟踪和属性分析。在硬件的基础之上，深鉴科技又开发出面向上述 DPU 的深度神经网络开发套件 DNNDK（Deep Neural Network Development Kit），而 DNNDK 也是国内第一款专门为深度学习而开发的 SDK。 Xilinx赛灵思是FPGA的先行者和领导者，并创造了多项行业第一，比如全球首款FPGA、首款硬件/软件可编程的SoC、首款多处理器SoC（MPSoC，在FPGA上整合了ARM的CPU内核，还有Mali系列的GPU等）、首款RFSoC（将通信级RF采样数据转换器、SD-FEC内核、ARM处理器以及FPGA 架构整合到单芯片器件中）。 2018年7月，赛灵思收购深鉴科技被认为是为了进一步加强在ADAS/自动驾驶汽车市场的布局。在汽车 ADAS 和自动驾驶解决方案上，赛灵思有针对自动驾驶中央控制器的Zynq UltraScale+ MPSoC、针对车载前置摄像头的Zynq-7000 /Zynq UltraScale+ MPSoC 和针对多传感器融合系统的 Zynq UltraScale+ MPSoC。赛灵思2019年11月宣布推出两款16nm汽车级芯片 Zynq UltraScale+MPSoC 7EV 和 11EG。支持L2至L4级自动驾驶系统。MPSoC采用了64位四核ARMCortex A53和双核ARM Cortex-R5高性能处理器，并集成了赛灵思的UltraScale架构。到目前为止，XA系列MPSoC已经被包括戴姆勒奔驰在内的29个汽车品牌以及Aptiv、Autoliv、博世和大陆集团等顶级零部件供应商广泛使用。特斯拉属于汽车行业内Bug一样的存在，汽车、火箭、芯片等等，什么都都可以搞，而且做的还不差，特斯拉早期也是和芯片供应商合作，专心做整车，但是陆续发现芯片供应商不给力之后，便“抛弃”了Mobileye和NVIDIA，开始自研AI芯片，特斯拉在2019年4月发布了首款自动驾驶芯片FSD（Full Self Driving全自动驾驶），并且是直接以量产的形式发布，FSD被马斯克称为“世界上最好的芯片”，这款芯片除了常规的CPU和GPU之外，还配备了两个神经网络处理器（NNP），算力为144TOPS，功耗72W，能效比2TOPS/W，就目前来说，确实是量产车最好的自动驾驶芯片。 FSD 芯片采用了 14 nm FinFET CMOS 工艺制造，尺寸为 260 mm，具有 60 亿个晶体管和2.5 亿个逻辑门，FSD有两个神经网络加速器NNP，支持 32 位和 64 位浮点运算的图形芯片，以及时钟频率为 2.2 GHz 的十几款 Arm A72 64 位 CPU，性能是上一代的 2.5 倍。此外，FSD 还有一个安全芯片可确保系统仅运行由 Tesla 加密的代码以及专用的 H.265 视频编码器。与上一代硬件相比，FSD的功耗降低了约1.25 倍，整体成本降低了 80％。马斯克表示，FSD 每英里的功耗约为 250 W。 FSD芯片中自研的最重要的部分是Neural Network Processor，每颗芯片有两个NNP，每个NNP有一个96x96个MAC的矩阵，32MB SRAM，工作频率2GHz。所以一个NNP的处理能力是96x96x2(OPs)x2(GHz)= 36.864TOPS，单芯片算力72TOPS，FSD硬件板子算力144TOPS。 NVIDIA GTC 2020因为疫情原因在黄教主的厨房进行，此次发布了NVIDIA第八代架构Ampere（安培）、以及基于安培架构的第一款GPU A100。A100绝对是目前全球最大的7nm芯片，540亿个晶体管，3D 堆叠技术，加上高达 826 平方毫米的芯片面积，同时支持 TF32 和 BF16 格式，拥有438 个第三代 Te那个nsor Core，支持虚拟成为 77 个 GPU 来执行不同的任务。算力达到2000TOPS，相比Volta架构提升了高达20倍的性能，可以同时满足AI训练和推理的需求。 2019年12月，NVIDIA推出了面向ADAS和自动驾驶领域的新一代SOC Orin，Orin SOC拥有170亿个晶体管，搭载NVDIA下一代GPU（即基于Ampere架构的GPU）和Arm Hercules CPU核心，可以提供200TOPS是运算能力，是上一代Xavier SOC的7倍，功耗45W，2022年交付，面向L2+级自动驾驶场景。 NVIDIA在2018年CES上推出了Xavier平台，号称是是“世界上最强大的SoC（片上系统）”，目前Xavier也确实是自动驾驶AI芯片领域绝对的首选，Xavier可处理来自车辆雷达、摄像头、激光雷达和超声波系统的L5级自主驾驶数据，是目前自动驾驶领域应用最多的AI芯片，也是最早投入量产的AI芯片。 Xavier SoC基于台积电12nm工艺，集成90亿颗晶体管，芯片面积350平方毫米，CPU采用NVIDIA自研8核ARM64架构（代号Carmel），GPU采用512颗CUDA的Volta，支持FP32/FP16/INT8，20W功耗下单精度浮点性能1.3TFLOPS，Tensor核心性能20TOPs，解锁到30W后可达30TOPs。 Xavier 内有六种不同的处理器：Valta TensorCoreGPU，八核ARM64 CPU，双NVDLA 深度学习加速器，图像处理器，视觉处理器和视频处理器。这些处理器使其能够同时、且实时地处理数十种算法，以用于传感器处理、测距、定位和绘图、视觉和感知以及路径规划。 TÜVSÜD已确认NVIDIA Xavier 系统芯片符合ASIL C 等级的ISO 26262随机硬件完整性，并达到了ASIL D等级的系统处理能力要求（最严格的功能安全标准）。在自动驾驶芯片领域，Mobileye的EyeQ系列则是典型ASIC芯片的代表，随着自动驾驶芯片领域的竞争越来越激烈以及主机厂对于AI芯片的受控性要求越来越高，Mobileye 逐渐从过去的一体式视觉芯片+算法供应商的“黑匣子”模式转变为开放EyeQ5芯片（即允许第三方代码运行）。 Mobileye是Intel在自动驾驶领域布局的重要一环，从处理器芯片来看，Intel的布局已经完善，包括Mobileye的ADAS视觉处理， Altera的FPGA处理，以及英特尔自身的至强Xeon等型号的处理器，可以形成自动驾驶整个硬件部分的系统性解决方案。 Mobileye自主研发设计的EyeQ系列芯片，由ST公司生产供应。量产型号有EyeQ1至EyeQ4，占据了全球范围内ADAS市场的60%左右份额。目前性能最高的EyeQ4的算力为2.5 TOPS，功耗为3W,能效0.83 TOPS/W。EyeQ5正在开发进行中，按照Mobileye的计划在2020年面世，目的是对标NVIDIA Xavier。EyeQ5采用7nm FinFET工艺制造。设计计算性能达到了24TOPS，功耗为10W，芯片能效是Xavier的2.4倍。EyeQ5芯片将装备8枚多线程CPU内核，同时还会搭载18枚Mobileye的下一代视觉处理器。据Mobileye消息，EyeQ5 SOC装备有四种异构的全编程加速器，分别对专有的算法进行了优化，包括有：计算机视觉、信号处理和机器学习等。Eyeq5 SOC同时实现了两个PCI-E端口以支持多处理器间通信。这种架构尝试为每一个计算任务适配最合适的计算单元，硬件资源的多样性使应用程序能够节省计算时间并提高计算效能。按照Mobileye的计划，到2020年中会向合作伙伴提供一套完整的自动驾驶汽车子系统，包括计算机视觉套件：360度/12个摄像头/测距300码的视觉系统和多芯片交钥匙解决方案等。另外提一句，英特尔计划将EyeQ5与Atom处理器结合起来，开发用于自动驾驶的人工智能计算平台。两个EyeQ5 soc和一个英特尔Atom（凌动）处理器就足以实现5级自动驾驶。安霸是一家高清影像芯片研发商，主要提供低功耗、高清视频压缩与图像处理的解决方案。致力于提供超低码率与极小功耗下的高画质影像技术。 Ambarella在2018年推出了名为CV2的车规级SoC，专用于提供深度神经网络(DNN)和立体视觉处理，瞄准ADAS和自动驾驶车市场。目标是对标Mobileye。结合VisLab的经验和技术，Ambarella在CV2芯片中整合了先进的计算机视觉、图像处理、4Kp60视频编码与立体视觉技术。CV2可提供较CV1更高20倍的深度神经网络性能。 Ambarella自称拥有两项竞争优势，一是Ambarella于2015年收购的欧洲计算机视觉与智能汽车控制系统开发商VisLab开发的新型计算机视觉架构。二是Ambarella自研的低功耗、高解析(HD)与超高解析(Ultra HD)视觉处理芯片。 CV2的模块示意图 CV2设计在芯片中支持4个立体相机和4个单眼相机，将由三星(Samsung)以10nm工艺制造。而CV1采用14nmCMOS工艺制造。安霸的芯片是基于CVflow架构的，这是一个为像立体处理、深度神经网络这样的计算机视觉算法而优化的。和DSP（数字信号处理器）或GPU相比，CVflow的设计能够让每核，或者说每个处理单元的性能提高不止一个层次。 2019年1月，安霸推出了CVFLOW系列最新的芯片上CV25摄像系统（SoC）。在CES 2020上，Ambarella 演示了使用 CV2、VC22 的各种解决方案，CV2FS和 CV22FS，本质上是基于 CV2 和 CV22 功能的全新设计。 CV22FS和CV2FS的CVflow架构以每秒80帧的速度，提供8兆像素或更高分辨率的计算机视觉处理功能，用于远距离、高精度目标识别。每个系统芯片都包括一台用于同时定位与地图构建（SLAM）以及估计距离和深度的稠密光流法加速器。多通道高速传感器输入与安霸的图像信号处理（ISP）通道为摄像头输入提供了必要的支持。安霸计划于2020年上半年向客户提供CV22FS和CV2FS样品。英特尔2015年收购Altera。目前Altera的自动驾驶 FPGA 芯片已经量产。Altera 的 FPGA产品共有四大系列，分别是顶配的 Stratix 系列（近万美元）、成本与性能平衡的 Arria 系列（2000~5000 美元）、廉价的 Cyclone 系列（10~20 美元）、以及 MAX 系列CPLD。 Waymo就是采用英特尔CPU+Altera FPGA的方案来解决自动驾驶所需要的数据融合和算法处理。奥迪全新A8车型上搭载的zFAS域控制器就使用了Altera提供的FPGA芯片-Cyclonev Soc。 TPU，Tensor Processing Unit，全名为张量处理单元。是 Google 专为机器学习而定制的一款ASIC芯片。专门针对加速和扩大使用 TensorFlow 编程的机器学习工作负载进行了优化。Google 在 2016 年 5 月的开发者 I/O 大会上正式发布TPU1，并在2017年推出了 TPU2，又称Cloud TPU。TPU2 既可以用于 training，又可以用于 inference。每个 Cloud TPU 由四个定制的 ASIC 构成，单个 Cloud TPU 的浮点计算能力可以达到 180 teraflops（万亿次每秒），内存宽带 64GB。 2018年TPU 3.0面世，性能相比TPU 2.0有8倍提升。并且2018年7月谷歌又发布了Edge TPU芯片抢攻边缘计算市场。在2019年5月的谷歌I/O开发者大会上，Google以1000个TPUv3组成的TPUv3 Pod取代了本应出现在发布会上的第四代TPU，目前关于TPU的新的规划尚不得而知。 TPU经过了专门深度机器学习方面的训练，能加速其第二代人工智能系统TensorFlow的运行，而且效率也大大超过GPU，Google的深层神经网络就是由TensorFlow引擎驱动的。TPU执行每个操作所需的晶体管数量更少，自然效率更高。 TPU与同期的CPU和GPU相比，可以提供15-30倍的性能提升，以及30-80倍的效率（性能/瓦特）提升。恩智浦基于自研第二代视觉专用处理芯片S32V234设计开发了一款自动驾驶开发平台BlueBox，集成了S32V234汽车视觉和传感器融合处理器、LS2084A 嵌入式计算处理器、 S32R27 雷达微控制器。 S32V234 视觉处理器，拥有 CPU(4 颗 ARM CortexA53 和 1 颗M4)、3D GPU(Vivante GC3000)和视觉加速单元(2 颗 APEX-2vision accelerator)，支持4 路摄像头。可用于前视摄像头、后视摄像头、环视系统、传感器融合系统等，能实时 3D建模，计算能力为 50GFLOPs。同时， S32V234 芯片预留了支持毫米波雷达、激光雷达、超声波的接口，可实现多传感器数据融合，最高可支持 ISO26262 ASIL-C 标准。 LS2088A内嵌式处理器负责行高性能运算，由8个64位ARM Cortex-A72内核组成，配合频率2GHz的特制加速器、高性能通信接口和DDR4内存控制器，延时极低。由于NXP S32234芯片本身设计架构问题造成算力不足，以及生态工具链欠缺较多，目前该芯片已经被边缘化。最近有消息称，NXP开始与台积电合作，借助台积电5nm技术的增强版N5P的打造新一代汽车级芯片，预计2021年推出，NXP的这一举措使汽车处理平台一举跨越到5nm，对整个行业来说都是一个质的飞跃。对NXP来说，这将是一次重新站到汽车芯片行业“制高点”的绝佳机会。 TI的自动驾驶芯片方案基于DSP，主要面向ADAS市场。主要产品是TDAx 系列，包括TDA2x、TDA3x、TDA2Eco，以及今年发布的TDA4VM等，基于异构硬件和通用软件架构。TDA2x于2013年10月发布，主要面向中到中高级市场，配置了2颗ARM Cortex-A15内核与4颗 Cortex-M4内核、2颗TI定浮点C66xDSP 内核、4颗EVE视觉加速器核心，以及Imagination SGX544 GPU，主要应用于前置摄像头信息处理，包括车道报警、防撞检测、自适应巡航以及自动泊车系统等。 TDA3x于2014年10月发布，主要面向中到中低级市场，其缩减了包括双核A15及SGX544 GPU，主要应用在后置摄像头、2D或2.5D环视等。在CES 2020上，TI发布了基于Jacinto™7架构的TDA4VM处理器系列，将TI行业领先的DSP和EVE内核整合到单个高性能内核中，并增加了浮点矢量计算功能，该款SoC包含通用处理CPU、C7 DSP MMA深度学习加速器、VPAC DMPAC视觉加速器、ISP和以太网交换机以及PCIe交换机等。在功耗方面，TDA4VM处理器仅用5到20W的功率和性能效率即可执行高性能ADAS计算，无需主动冷却。 “R-Car”是瑞萨电子株式会社专为自动驾驶汽车计算而设计的系统级芯片（SoC）系列，主要用于汽车信息系统。Renesas瑞萨电子在2018年推出新款R-Car V3H SoC。R-Car V3H以较低的功耗为汽车前视视觉系统提供强大的计算性能和人工智能处理能力，适用于L3、L4级自动驾驶。R-Car V3H主要针对立体前视摄像头应用进行了优化，其计算机视觉性能是2017年4月推出的面向NCAP前视摄像头的R-CarV3M SoC的5倍。 R-Car V3H SoC专注于对计算机视觉处理进行架构优化，支持从有条件自动驾驶到高度自动驾驶的所有ADAS相关功能。R-Car V3H运用瑞萨基于IMP-X5+图像识别引擎和专用硬件加速器的异构计算机视觉内核概念，用包括稠密光流注3、稠密立体视差注4和对象分类注5在内的算法实现了先进的感知功能。集成的CNN注6IP以仅0.3W的业界领先低功耗加快了深度学习，实现了2倍于R-Car V3M的深度神经网络性能。作为一个移动芯片基础技术公司，本身并不制造芯片，而是通过研究微控制器芯片的核心技术，然后授权给各大芯片厂商。自1996年，Arm生产的通用型、实时型处理器就开始被各大车辆制造商使用。现在Arm的半导体知识产权（IP）已广泛应用于ADAS系统（如防撞、巡航控制等）、连接、信息娱乐、动力总成控制和汽车其他组件。 2018年9月，Arm推出了“安全就绪”（Safety Ready）计划，旨在为自动驾驶汽车提供解决方案。并推出了代号为Cortex-A76AE的产品，作为第一款专为自动驾驶汽车打造的处理器。 Cortex-A76AE处理器允许芯片制造商设计具有安全功能的芯片，使自动驾驶汽车能够满足最严格的安全要求，能将自动躲避等特性应用到汽车上。AE，即“Automotive Enhanced(自动驾驶增强)”。该处理器采用台积电7nm工艺技术制造的16核Cortex-A76AE SoC具有超过250 KDMIPS的计算性能，功耗30W，足以满足当今应用需求。如果用户想要更高的性能，可以构建更多内核，甚至多个SoC。该内核具备Arm v8.2微体系结构的所有功能特性，包括可靠性、可用性和可维护性，并采用了分核-锁步（Split-Lock）模式来确保可靠性。并且，基于Cortex-A76AE的SoC可扩展至最多64核。除了含有通用计算核外，Arm的自主计算复合体还集成了Mali-G76 GPU、ARM的ML处理器和其他必要的IP。此外，所有复合体支持Arm的内存虚拟化和保护技术，可以完美实现ML和NN加速器的运行。 Arm 在Cortex-A76AE之后又推出新款适应自动驾驶的处理器产品Cortex-A65AE。按照Arm公司计划，第一批使用Cortex-A76AE处理器的汽车将于2020年上路，Cortex-A65AE也将于2020年上市。 Qualcomm高通公司此前在 2017 年披露了其研发自动驾驶汽车芯片的计划，2018 年，因为监管原因，高通公司收购荷兰恩智浦公司遭到失败。2020年1月5日，在美国拉斯维加斯举行的消费电子展(CES)上高通发布了全新的自动驾驶平台Snapdragon Ride，旨在处理从车道控制、自动泊车等自动驾驶所需的各项任务，高通预计其可在2023年上路。 Snapdragon Ride平台包含多个SOC（系统级芯片）选项，包括深度学习加速器和自动驾驶软件Stack，能够支持高级驾驶辅助系统ADAS功能，比如车道保持以及在自动驾驶出租车（Robotaxi）上的全自动驾驶的应用等功能。根据高通介绍，Snapdragon Ride平台基于一系列不同的骁龙SoC和加速器建立，采用了可扩展且模块化的高性能异构多核CPU、高能效的AI与计算机视觉引擎，以及业界领先的GPU。基于不同的SoC和加速器的组合，平台能够根据自动驾驶的每个细分市场的需求进行匹配，并提供业界领先的散热效率，包括从面向L1/L2级别应用的30 TOPS等级的设备，到面向L4/L5级别驾驶、超过700 TOPS的功耗130瓦的设备。因此该平台可支持被动或风冷的散热设计，从而实现成本降低、可靠性提升，省去昂贵的液冷系统，并简化汽车设计以及延长电动汽车的行驶里程。Snapdragon Ride的一系列SoC和加速器专为功能安全ASIL-D级（汽车安全完整性等级D级）系统而设计。 Snapdragon Ride将于2020年上半年交付汽车制造商和一级供应商进行前期开发。Qualcomm Technologies预计搭载Snapdragon Ride的汽车将于2023年投入生产。中国公司在AI芯片领域的探索在近几年呈现爆发趋势，头部企业有华为、地平线、寒武纪、西井科技、百度等，另有其他国产公司在人工智能、语音识别、视觉处理方面发力，如芯驰科技、黑芝麻、中星微电子、比特大陆、杭州中天微等等。总体来看，中国公司在AI芯片领域已经占据不少席位，中国自动驾驶芯片在性能和功耗上和外国芯片相比并不差，但是如果想要达到世界领先水平，甚至赶超NVIDIA、Tesla、TI、Xilinx等还有很长的路要走。而从研发设计到真正上车量产，更需要深度的测试验证和积累。首先，国产芯片企业想要有所建树，必须要有长期研发投入的思想准备，也就是烧钱和时间，在没有积累的基础上做AI芯片研发，所要攻克的难关数不胜数。这种长期投入一方面是大笔资金投入和高产出的正向循环；另一方面则体现在芯片架构设计、底层软件和操作系统的设计能力上，需要不断的积累和高忍耐度。其次，中国有句老说贪多嚼不烂，国内芯片企业如果想在AI芯片领域分食蛋糕甚至赶超国际对手，必须在一个垂直领域做精做深，真正的深耕进去，并且要真正做到全栈的方案和产品给到用户，提供的是一个可供量产化的产品而不是一个DEMO，必须要让它能真正应用。第三，生态的建立，国外芯片企业基本上都有自己的一套体系和生态系统，华为基于自身多年ICT的积累可以快速推出麒麟、昇腾、鲲鹏等系列芯片，但是在生态方面依然欠缺，体现在软件、操作系统、体系架构、辅助件、工具链等等。因此国内芯片厂商必须进行AI芯片相关软硬件生态的建立，以及用户体系的培养。比如NXP、Intel在国内高校多年发展课程体系、认证体系等，华为在近几年也有意识的开展和高校和科研院所的战略性合作，这一举措绝对是影响深远的。第四，制程工艺，我们已知去年发生的中兴遭遇芯片断供，华为在美国的黑手下也面临芯片供应商不能供货问题，这里主要涉及到芯片的制程工艺，目前芯片制造工艺主流水平是7-14m，而大名鼎鼎的台积电早就量产7nm芯片，5nm工艺也进入了量产阶段，目前正在研究2nm工艺。中国芯片企业只能做到14nm，也只有中芯国际能做，因此中国缺乏生产最先进的7纳米和更小芯片的能力。就目前来看华为面临的问题也是整个中国芯片行业面临的问题，虽然目前华为绕开美国制裁禁令的可能性不大，但是这里面的关键问题是中国芯片企业能以多快的速度建立国内芯片世界一流工艺制造能力。虽然我们很乐观的对中国芯片行业的发展非常看好，但是，中国AI芯片想要达到世界一流水平甚至实现赶超，还有很长的路要走。人工智能行业催生了这个过程，但是天赋不能与经验，积累同样重要，更何况国内企业一直缺课，能不能尽快补上来并且追过去，就看国内企业如何发力了。

12.NVIDIA Xavier & Orin & A100

每年节约的水能填满200个标准游泳池！揭秘这个“国民饮品”背后的事……

理财型保险为啥不值得买？来自精算师的3点忠告！

最新文章