首页 首页 资讯 查看内容

存算一体大算力AI芯片在智能驾驶中的应用优势与前景 | 主讲回顾

2022-07-31| 发布者: 龙城信息港| 查看: 135| 评论: 1|文章来源: 互联网

摘要: 导读:7月6日,后摩智能联合智东西公开课策划推出的「存算一体大算力AI芯片在线研讨会」顺利完结。东南大学......

导读:

7月6日,后摩智能联合智东西公开课策划推出的「存算一体大算力AI芯片在线研讨会」顺利完结。东南大学电子科学与工程学院副研究员司鑫、后摩智能联合创始人&芯片研发副总裁陈亮、后摩智能联合创始人&产品推出副总裁信晓旭三位主讲人参与了本次在线研讨会并进行了主题分享。

信晓旭老师围绕《存算一体大算力AI芯片在智能驾驶中的应用优势与前景》这一主题进行了分享。他首先从智能驾驶商业化发展对智能驾驶芯片的需求和演进趋势出发,重点解析了后摩智能大算力AI芯片的产品特性,并深入阐述基于存算一体创新架构的芯片,在智能驾驶应用中的算力、能效比和成本控制优势。错过直播的朋友,可以点击“阅读原文”观看回放。

本文是信晓旭老师的主讲回顾:

大家晚上好,我是后摩智能的信晓旭,很高兴有机会和大家探讨存内计算的一些问题。前面司鑫博士和陈亮博士就存算一体大算力AI芯片的技术部分做了一些探讨,我的分享主题是《存算一体大算力AI芯片在智能驾驶应用中的优势和前景》。

智能驾驶这两年发展的非常快,几年前去美国时,一个同事开着一辆特斯拉Model X 让我感受当时自动驾驶跟车的功能。当时觉得很神奇,这两年能明显看到智能驾驶商业化进程明显加快,但是对于整个智能驾驶规模化商用,我和业界的朋友们探讨下来,发现有三个重要的因素是要达到的。

第一点是强智能。所谓的强智能是绝对不能把它做成智障,要有很好的用户体验,这样用户才会愿意买单。

第二点是安全性。汽车和传统的消费产品不太一样,它毕竟是一个人命关天的产品,所以整个功能安全的可靠性,包括汽车里面需要的实时响应、时延的要求也非常关键。

第三点是低成本。大家能够看到强智能的智能驾驶系统实际上还是高高在上的,只有最顶尖的豪华车型里才能使用。但是我认为将来整个端到端的成本要逐渐降低,继而普及到大众的车型时,才能带动整个产业链持续的创新,并快速的往前走,进而使智能驾驶的规模化商用达到一定的程度。

整个智能驾驶规模化商用,从系统的需求映射到对于未来智能驾驶芯片的需求,主要分成了4部分:

第一个是大算力。大算力一定是有效的算力增加。现在产业中有一个不好的风气,是算力虚标。我认为大算力是真实可用算力的增加,能够给客户带来算力体验提升,而不是简单的虚标算力。另外一点是要有一定的通用性,因为智能驾驶的算法还在快速的演进中,如果大家跟算法的同事探讨,都会有一个明显的感受,这两年自动驾驶算法演进还是很快的。

第二个是低功耗。对芯片的核心诉求主要有两点:一个是能够降低散热成本;另外,如果功耗更低,那对于汽车这类对可靠性要求更高的场景里,可以进一步增加系统的可靠性。

第三个是低成本。低成本有两个层面:一个是自动驾驶芯片自身的成本要降低;另一个是端到端的系统成本要降低,相当于除了芯片,集成度要高,其他的东西可以用一些外围廉价的器件来组成你的系统。整体来看,要从一个端到端系统成本降低的角度来考虑。

第四点是高可靠性。包括功能安全、极低的时延等等。

但是实际上这4个诉求,对于一个芯片设计人员来说,它是一个新的物种,以前从来没见过这样需求的芯片。以前汽车里用到最多的器件像MCU 计算芯片,它的算力级别是GOPS 水平,但是随着智能驾驶逐渐部署到车上之后,现在整个算力已经达到几十TOPS、上百TOPS 甚至是1000TOPS 的水平。而且还有人预测要做到L5 级的自动驾驶,整体的算力需要达到4000TOPS。这样的算力需求,对于数据中心也是一种挑战,更不用说车,数据中心的芯片用到了一些非常先进的、昂贵的手段,像3D 封装、HBM 等方法来提升算力。

之前 NVIDIA 发布的H100 做到了2000TOPS,整体功耗已经达到了700W。这样的芯片在有非常好散热条件的数据中心是可行的,但对于汽车可能要运行在高温、极寒的环境中,它的整个运行环境实际上是非常苛刻的,所以根据上面的技术条件达成的芯片,无法在车上应用。还有一点是用了许多先进的技术,像3D 封装、HBM 等,这样的芯片做出来成本基本在几千美金左右,这样的成本是没有办法支撑芯片在车上商用的。这也引起我们的一些思考,是否可以从更底层的架构创新来解决这些挑战。

我们回顾下科技的历史的情况,当回顾过往任何一次大的科技繁荣,都伴随着一次架构的巨大飞跃。像上世纪90年代,X86 随着 PC 时代的繁荣而取得了巨大的成功。而2000年开始的智能手机时代,有了ARM 的辉煌。在现在正在走来的人工智能时代,是否也会有一个新的架构出现呢?

目前,业界很多人都认为未来十年是计算架构的黄金10年,它确实是实实在在的发生。我们可以看到在国外的一些初创公司,它们尝试在数据中心用创新架构做出非常好的产品。上图举了几个例子,像Graphcore 公司,它采用了一种近存架构的方式来设计产品,虽然它的领域是面向数据中心,但是整体来看所解决的问题是一样的。我们可以看到它用近存架构设计的产品,叫IPU-POD16,它在ResNet-50 训练的情况下,Graphcore 每美元的性能是 NVIDIA 的1.6倍。

另外像美国的SanbaNova、Cerbras 等,包括陈亮博士提到吉姆·凯勒的Tenstorrent,都是通过技术架构的创新来提升产品力,适应未来对智能计算的一些新需求和挑战。数据中心已经走在前面了,那对于算力需求急剧增加的智能驾驶场景,是否能够通过架构创新来应对一个全新的领域和需求呢?

下面首先回顾下冯诺依曼架构,它是我们大学学习计算机原理时非常典型的计算架构,这是一个1946年诞生的架构,这个架构对于CPU 计算实际上是非常友好的。由于AI计算和CPU 计算的计算类型和特点是完全不一样的,上图右面的表大家能够看到CPU 偏通用计算,从计算复杂度的角度来看,它的计算复杂度更高,但数据并发度更低,而AI计算,它的计算复杂度很低,80%的计算都在做矩阵的乘加操作,而且前后数据没有很高的依赖度,但它数据的并发度非常高,所以它们是完全不同的两种计算类型。

在CPU 通用计算领域非常适合冯诺依曼架构,在应对AI计算时已经出现了各种各样的问题。最典型的问题有两个,第一个是“存储瓶颈”,因为当计算能力从G数量级到T数量级的1000倍以上的爆发后,整个存储瓶颈的问题显得非常紧迫。经常做AI算法的人会看到算力挺高,但AI的计算效率,MAC 的利用率可能很低,10%-20%的场景也是很常见的。

另外一点是传统架构下AI计算实际上有比较大的“能效浪费”。因为它是数据并发的,有大量的数据搬移工作要做。在AI芯片一次操作中,90%的功耗并没有用在“算”上,而是用在数据搬移上。这两个问题出现的核心原因是传统的冯诺依曼架构与新的计算模式之间不匹配。那是否能够把计算和存储放到一起解决这个问题呢。

把计算和存储会放到一起的特点,司鑫老师和陈亮博士已经把技术部分跟大家进行了详细的讲解,我来介绍用存算一体架构解决问题之后的最终表现。

总结下来,最后有三个表现:第一点是大算力,它实际上突破了内存墙,用一种更高效的办法来达成更高的有效算力,目前的技术已经可以突破1000TOPS。另外,由于并没有采用一些打补丁的办法,或者非常昂贵的技术手段,比如先进工艺或封装技术等,我们用一些大家都能够接受的平价技术手段,达到大算力的效果,所以整体SoC 的成本也会更低。

从功耗的角度来看,在相同算力的条件下,AI部分能效比可以有2~3个数量级的提升,这样会有更低散热成本的表现,可靠性也会更好。在延时上,可能会有更简单、更直接的理解,因为传统的计算,每次都会把数据从存储器load 到处理器里,做加法或者是做乘法等计算,然后再把数据store 回存储器,都会有这样的一次搬移、再回去的过程。这无形之中引入了不必要的延时。

存算一体把它们放在一起,延时部分实际上有比较明显的提升。所以从存算一体的技术特点来看,未来它能够解决大算力的问题、低功耗的问题和实现低时延的需求。同时从技术特点来看,存算一体架构与智能驾驶芯片的需求是高度匹配的。

因为我是产品出身,对于我来说,我喜欢找一个特别好的技术,但是这个技术不能为了技术本身的先进性而做,最后还是希望这个技术能和产品融合得非常好,帮助客户解决一些实际场景中的痛点和问题。

以功耗维度为例,它在智能驾驶领域能给我们带来什么样的价值?上面这张表是汽车会被讨论到的三种散热方式。

第一个是自然风冷,一般情况下需要单点的功耗在15W 以内;另外一个是在15W 到80W 之间,可能自然风无法实现,需要用风扇主动散热;当功耗进一步增加之后,可能风扇的散热效率无法把这么多的热量带走,就需要像液冷等更高效的散热方式来实现。

这几种散热方式有各自的优缺点,从成本的角度,自然风冷和风扇散热大概是几百块人民币的水平,而液冷的散热系统,本身是非常贵的,大概在几千块到上万块的水平。从可靠性的角度来看,由于车对可靠性要求非常高,风扇会一直在旋转,有时会有一些积尘积灰,但是一旦积尘严重之后,风扇可能会出现一些机械故障,所以整体的可靠性非常差。液冷比风扇要好一些,但是也没有自然风可靠性高。另外一个问题是维修成本,如果这个产品成本更高、更容易坏,最后的维修成本可能也就越高,所以液冷散热是维修成本更高一个。

结合上表可以看出,自然风冷是整个汽车里面最被推崇的一种散热方式,同时自然风冷的功耗条件在15W 以内,这个功耗要求是很低的。但又有一个明确的诉求,要有更高的智能化的需求,算力需要很大,能跑更好、更先进的算法,二者本身是矛盾的。所以对于传统的冯诺依曼架构来看,以16nm 工艺的前提做假设,做一个SoC 级别的估算,不只是AI,那在自然风冷下,物理算力大概能做20TOPS 左右。如果以存算一体的架构来做,能够看到在自然风冷的功耗限制下,物理算力可以做到60TOPS 以上,这意味着在一些只能使用自然风冷散热的场景下,存算一体能够给客户提供一个更好的智能化计算平台。

后摩智能的团队主要有两拨人,一拨是原来做自动驾驶芯片的,他们来自海思、地平线、英伟达等,因为看到未来的产品需求和技术趋势,我们也在想怎样用更高效的办法来解决问题。另外一拨人是研究存算一体的学术界大牛。

我们两拨人,有一些契机走到了一起,也做了多轮的探讨和求证、论证,发现用存算一体的技术来做智能驾驶芯片,会做出非常不一样的东西,会让整个智能驾驶芯片的产品力更强,更有竞争力。

同时,我们的想法也得到了资本的大力支持,像红杉、经纬中国、启明创投等,都认为我们做的事情是非常有意义的,而且非常有前景。在过去的一年半中,我们有非常快速的发展,在北京、上海、南京、深圳四地建立研发中心。

在成立不到一年的时间,我们于去年8月份,完成了首款芯片的技术验证流片。这款芯片在去年年底也做了一些点亮的工作,今年5月份正式发布。芯片的验证完全达到了我们设计的目标,同时我们也把一些典型的自动驾驶算法运行到了验证芯片上,也给了我们更大的信心,让我们沿着这条路继续走下走。

接下来看下后摩智能基于存算一体架构的整个产品组合。第一代产品是上图左边的这部分,这一系列产品实际上是基于前面司鑫老师和陈博提到的SRAM-based 技术来做的。基于这个技术,可以看到在AI部分有10倍能效比的表现,效率比较高,可以突破500TOPS。这个产品组合基本上是从低到高一系列的产品,我们会有30TOPS的低端产品,往上也有可以达到500TOPS 的产品。

除了当前这代产品之外,还有一组人在做先进存储介质的探索,也就是右边列到的MRAN/RRAM-based。随着这部分的探索,假设在2025或2026年,随着这些新的工艺、技术摸索的逐渐成熟,也会使我们新一代的产品力有更大的提升,能效比可能会从现在的10倍能效比达到百倍级能效比,而且算力也可以做得更大。

由于自动驾驶汽车本身不会只有一款车,更多的汽车客户希望有一个高中低的产品组合,最好能够做到软件算法的全兼容。我们也是基于客户强诉求,采用统一的架构,完成了高中低几款芯片的同架构设计,跨代之间也会做反向兼容,这样客户在其中一代或者一款产品上做开发,可以用比较小的effort移植到同代产品中的其他档位,或者是下一代的产品里。

另外,在与外面一些朋友交流时,大家普遍会问我一个问题是存算一体感觉很厉害,会让整个产品力有很好的表现,但这个产品肯定是很难用的,只能用一些非常特殊或特定的算法,没有办法做到通用。

刚才陈亮博士也把这部分内容跟大家做了简单的介绍,我再强调下,对于我们来说,我们做的是底层架构的创新,因为做任何一款AI的处理器,要取得成功,最终一定要非常关注工具链部分的投入以及应用性和可用性。而对于我们,只是底层架构的创新,是一种无侵入式的底层架构创新。

对于上层的算法开发,它是一个全透明的,可以支持任何一款开源的框架像TensorFlow、Pytorch、ONNX,甚至是客户自研的第三方的框架,我们也会提供标准的ML OP Library,也会有中间件Runtime,还有大家提到的各种各样compiler。

如果大家用英伟达比较多,也有像TensorRT 等一系列的工具链。另外,我们也充分考虑了这一点,因为现在自动驾驶芯片里可能占有率最高的是英伟达,所以更多的人喜欢用CUDA 的编程方式,所以在前期做架构设计时,编译器的同事也跟着一起进行充分的讨论。整个编程语言会采用类CUDA 的编程模式,这样会大大降低客户各个方面的开发成本,当然算子部分我们也会尽量去做,如果是某些定制化的算子,我们会以更小的影响,帮客户尽快的把它完成。

对于我们来说,实际上和Mobileye 的方式不太一样,虽然大家觉得它是一个新的技术,但是我们是以相对分层解耦的设计理念,对外提供开放的计算平台。从这张图里面能够看到,棕色部分是后摩智能会提供的,硬件部分是芯片 SoC,是可以产品化交付的。另外,还会重点聚焦在把芯片使能起来的Boot,还有各种各样接口的驱动等,这部分也会做产品化的交付。

我们还有一个叫HM SDK,包括上面讲到AI部分的工具链、还有未来像ISP 类一些工具链,包括 DSP 等。因为SoC 里面也会有一些传统CV 的东西,所以会有一个HM SDK,把所有的部分包起来,让客户基于它来开发。

除此之外,我们也会做一些Sample code,有一些参考设计给到客户。我们会有一个Linux 操作系统,因为现在有很多客户用ROS2 或者CyberRT 等,我们也有这样的开源中间件参考设计。也会有感知、定位、规控等simple code 给到客户,这样让客户和我们的伙伴能够知道怎么更快的使用我们的平台。当然我们的平台也完全支持客户自研,或者第三方的操作系统和中间件等,整体来看就是一个开放分层的方式。

除了软件之外,在硬件部分也会和不同的传感器厂商形成partner 的关系,在对外提供的参考设计时,我们会推荐的一些厂商,它们是充分验证过的,这样可以减少客户的导入时间和验证成本。

最后,我发现一个非常有趣的产业规律,任何一个国家或者区域,一次大的产业繁荣,都会带动本地供应链的孵化,有非常好的拉动作用。在我这个年纪的人,可能对于日本消费电子的繁荣非常有印象。日本的随身听、摄像机或者是照相机等,是非常受欢迎的,那时日本的消费电子是非常领先的,而这一波消费电子的繁荣,诞生了松下、索尼和东芝等非常优秀的半导体公司。而美国上世纪PC的产业繁荣,诞生了英特尔、AMD 和Seagate 等配套的供应链公司。而欧洲汽车领域的强势诞生了像Bosch、Conti,半导体领域像英飞凌、NXP 和ST 半导体等公司。

这个模型很简单,整体来看是市场在驱动创新,产品厂商和供应商之间实际上是一个相互促进、协同创新的过程。如果你的供应商离你的厂商更近,它会更准确的拿到客户需求,从而提供更好的服务,这样能够生产更好的产品给到产品厂商,进而产品厂商有更好的产品,产品更好之后,又会有更多的订单给到供应商,这样就形成了一个非常健康的正向循环系统。

我们能够看到由电气化和智能化带来的汽车产业变革,我认为大家已经看到了并正在复制,甚至可能比智能手机那一波产业走得更好。中国的智能汽车一定会在未来诞生非常多本地的汽车品牌和厂商。我认为随着本地汽车厂商的崛起和繁荣,必然也会带动本地供应链公司做大做强。以上是我今天想要跟大家分享的内容,谢谢大家!


抖音币充值

鲜花

握手

雷人

路过

鸡蛋
| 收藏

最新评论(1)

Powered by 龙城信息港 X3.2  © 2015-2020 龙城信息港版权所有