火爆的存算一体芯片,机会在哪儿?挑战何解?

2021-07-21

7月9日,燕缘科创第39期特邀知存科技创始人、北京大学信科院2007级本科校友王绍迪,直播分享了《存算一体芯片的发展、挑战和未来》。


王绍迪毕业于北大微电子系,曾获得杨芙清王阳元奖学金,后在UCLA取得电子工程博士学位。2017年,王绍迪提出基于MRAM的存算一体架构,并于年底创立知存科技,研发存算一体芯片,目前公司累计完成5轮共3亿元融资,发布两代存算一体芯片产品。


存算一体作为一个近期被资本和市场热捧的火热赛道,到底有哪些机会?哪些挑战?王绍迪系统的从技术原理、应用场景、技术发展方向做了详尽的阐述。



以下是直播分享内容整理:


大家好,我是王绍迪,知存科技的创始人,很荣幸给大家介绍存算一体技术,也是最近几年比较火的一个技术。知存科技2017年成立,创业前我们创始团队经历过六次流片,在国际上完成了第一个基于flash的模拟存算一体芯片验证。


2018年我们团队有十个人,做了第一代存算一体芯片,2019年之后连续完成了A轮、A+轮融资,2020年发布了第一个产品WTM1001芯片,是国际上最早量产的存算一体芯片。今年我们发布了第二代产品WTM2101,主要针对可穿戴设备的一个低功耗人工智能芯片。


存算一体是什么?


首先简单介绍一下存算一体技术,以及为什么要做这个。存在一体技术的诞生跟摩尔定律的发展有关。20世纪90年代到21世纪第一个十年,摩尔定律发展速度很快,每18个月迭代一次。但近十年,尤其是芯片进入10纳米以下,每一代工艺的发展速度大大放缓,最近是两三年可以迭代一代,以后有可能到四五年走一代。并且每一代性能提升非常有限,平均性能提升只有10%,通过优化可以提升到20%左右。更重要的一点,半导体行业是成本驱动,但随着摩尔定律放缓走向尽头,成本其实越来越高,尤其是研发成本,从7纳米到5纳米研发成本增加50%以上,芯片越来越贵,像5纳米的A14芯片400多美元一颗,是上一代芯片的两倍。


也就是说,随着摩尔定律走到10纳米以下,采用越先进的工艺,芯片的性能提升非常有限,但成本会急剧增加。像3纳米的研发投入是几十亿元人民币,必须有足够大的场景单个品类才能支撑起摩尔定律的发展,大部分场景其实都做不到,这也是后摩尔时代的一个情况。


存储器更有这样的问题。因为存储器在摩尔定律早的时候就已经接近终结,现在工艺一般在15~17纳米,像flash一般是20~40纳米之间,比起逻辑芯片,工艺更老,这也导致存储器的速度在过去十多年基本很难提升。另外,存储器根据摩尔定律发展存储密度越来越大,存储容量越来越大,导致当容量更大的时候,把一个数从存储器找出来所需消耗的时间和功耗在增加。存储器的带宽速度没有增加,CPU的速度越来越快,核数越来越多,这也导致CPU每个核能够使用的存储资源实际上越来越少,导致了存储墙或内存墙问题。


内存墙是说在数据量很大的时候,做运算大部分时间都消耗在存储器和处理器之间做数据搬运,运算速度受到存储器带宽的影响,没法再进一步提升,不管处理器多快,存储器的速度没法再进一步提升。



另外一个问题是数据搬运的功耗过大。上图是一个28纳米工艺产品计算加法乘法,可以看到32比特数加法的功耗是0.1pJ,乘法是3.1pJ,但把64比特数从一个8kb的SRAM中拿出来,消耗的功耗是10pJ,从一个1M的存储里拿出一个数消耗的功耗是100pJ。存储器容量越来越大,从中间取出一个数的功耗也越来越大,基本是运算的百倍,这也导致了整个运算速度的瓶颈。存储墙瓶颈实际跟冯诺伊曼架构有关,随着计算速度越来越快,存储速度没有跟上,导致数据搬运消耗的时间和功耗都成为整个运算的一个瓶颈。


内存计算过去十年发展速度很快,有几个方向。一种是3D Xpoint新型存储器,将固态硬盘和内存的特点结合,是一种介于这两个中间的存储器,它的密度容量比内存大,速度比内存慢,但比固态硬盘快。第二种是近内存计算,通过采用先进的3D封装方式把内存和计算单元封装在一起,可以达到几千根甚至上万根连线,两者之间的带宽增加,提高了数据搬运速度。第三种是近存储计算,就是如果只做一些简单的运算,可以在存储边加一个计算单元,不占用CPU负载。


还有一种是存算一体。其他的几种方式还是冯诺依曼架构,存算一体是另外一种方式,直接把存储单元变成了运算单元,利用了存储器中的模拟计算。存算一体可以理解为一种计算器,一个类似于CPU的计算芯片,实际上是用存储器去完成计算。存储器里有很多计算单元,比如3D Flash里有几十甚至上万亿的存储单元,存算一体就是把这些存储单元都变成运算单元,这样存储器的容量越大可以去做的运算也越多,所以衡量存算一体的算力是看它的存储器容量多大。


存算一体的运算方式有两种:一种是数字计算,一种是模拟计算。数字计算的优点是跟逻辑工艺一起往下做,可以在5纳米未来的3纳米工艺上使用,工艺非常先进速度可以很快。另一种多比特的模拟运算,利用存储器存储介质本身可以存储多值这样一个模拟特性去做,比如基于Flash、基于PRAM、忆阻器、PCRAM的相变存储器,它的特点是存储密度大同时并行度高。


目前产业界最多的存算一体发展方向是把存储单元变成一个做乘法加法运算的东西,相当于有多少个存储单元就可以做多少个乘法加法运算。


存算一体应用场景



目前,存算一体芯片主要用来做基于人工智能的运算。人工智能的特点是向量和矩阵的计算量占比非常大,像可穿戴设备、手机、VR眼镜、智能驾驶以及数据中心,不同的场景需要算力不一样。我们用存储容量和算力区分了一下不同场景的需要。


一般一个2M的存储就可以提供足够多的算法一定算力完成向量矩阵运算,比当前的芯片效率要高出50~100倍左右,用于可穿戴设备功耗可以很低,长待机。PC和移动终端需要大概32M、64M的存储空间存储算法,算力可以到16Tops~32Tops,实时性可以很高,另外在移动终端功耗限制下,可以很低功耗的去完成视觉信号处理这些AI算法。


智能眼镜对低功耗需求很强,它的电池很小散热很差,但又需要很多人工智能方法进行交互,包括手势识别、语音识别、肌肉肌电的识别、眼动识别等,对AI的算力需求很高,基本需要到100多兆存储空间,同时算力也很大。智能自动驾驶、数据中心需要的计算算力和存储就更大,同时对芯片的可靠性要求要高很多,对存算一体的挑战也很大。



我们第二代芯片WTM2101是一个基于Risc-V的存算一体芯片,可以实现一些深度学习算法,同时有加速单元可以加速算法,也有RAM存储数据,同时这个芯片针对语音做了很多工作,比如Audio可以处理麦克风采集进来的数据,可以接三路的语音输入。我们这个芯片可以做一些算法级应用,包括语音识别、语音增强、血压血糖检测、心血管检测等。


存储一体技术的发展方向和挑战


首先,我们采用的是一个模拟存算一体平台,之前用Flash架构,今年忆阻器开始量产,忆阻器是一种更新型的存储器件,也可以做模拟存储一体。目前从40纳米到22纳米都有Flash可以量产,在更先进的节点Flash有可能会走到14纳米,但这个是不确定的,忆阻器肯定可以走到14纳米,至于未来能不能走到10纳米、7纳米,我认为大概率是会,有可能到2025年左右走到10纳米及以下工艺。模拟存储可以选择不同的存储器器件实现存算一体的发展,这意味着模拟计算或者存在一体的计算摩尔定律还没有终结。


另外,除了工艺节点,芯片还有三个方向:精度、算力、能效


在更高精度方向有一个很快的方向是做工艺优化,过去存算一体都是直接拿存储器的加工工艺实现,并没有针对存算一体去优化精度。近几年尤其近一年有非常多的存储公司成立,资本也投入了很大,我相信未来几年会有工艺上的优化,尤其在代工厂层面会针对存算一体做优化。模拟计算的挑战是研发周期、工艺的优化时间很长,都是以年计,一到两年才能完成一代工艺优化,并且投入很大。另外一个是数模混合运算是一种提高计算精度的架构,它的问题是通用性。


在实现更高算力的方向先进封装是更好的一种方式,比如现在非常火的2.5D封装,可以把多个不同工艺的芯片放在一个大的硅基或者其他有机物基板上,可以理解成一个大芯片上承载了很多小芯片,并且这些不同的小芯片都采用不同的工艺。采用不同工艺的意义非常大,如果没有这种先进的2.5D封装,意味着做一个大芯片时,所有的东西都要采用同一个工艺,像逻辑工艺必须在10纳米以下才能跑的非常快,成本很高,良率相对降低,收益不是那么大。最新AMD的芯片也都大量采用2.5D封装,它的逻辑芯片以及缓存、其他模拟单元都采用不同的工艺,预计两年后在很多小公司或者消费电子产品上也可以采用这种技术。它的挑战是未来两三年内要解决怎么形成一个标准的测试方法,尤其形成测试工具,现在没有很好的一个产业链,没有封装、测试,也没有标准化接口。


3D堆叠也是过去十年主要发展的一种先进封装,可以提升多层的存储。目前3D堆叠在存储器上用的最多,比如显卡、固态硬盘,也有堆叠两三个不同存储器的。它的挑战是如果标准品像存储器用这种方案是一个比较标准的,成本不会增高,但像一些非标准的场景下,采用这种方式,有可能会增加很多研发成本及生产成本。


第三个是更高能效。首先是有没有更先进的存储器介质,像现在马上快量产的主变存储器,以及铁存储器这些还正在研究中没有量产的存储器,理论上可以提高存算一体的计算效率。另外,模拟计算近几年才开始进入快速发展,随着这个计算技术发展也会实现更高的能效。


Q&A


Q:想问一下你们新产品的市场认可度怎么样?流片和销售情况如何?

A相对于传统芯片,现在市场上我们芯片的效率、算力提升非常大,大概有50倍以上。我们现在做的WTM2101用在穿戴设备上,在极低功耗下能够跑的算法复杂度要高很多,效果或者功能上有很大的增加。比如做语音识别,我们可以在毫安级的功耗去跑100个词的识别,而之前的芯片可能在毫安级的功耗跑1~5个词的识别,所以它的应用场景包括功能扩展很多。现在我们的客户大部分都是国内消费电子领域的头部企业。


Q:RRAM在功耗、所占面积等方面更有优势,您公司是否有过RRAM硬件的布局。

A:这其实也是我们很看好的一个方向,Flash在未来的使用上可能走到14纳米,RRAM有希望能走到10纳米以下。但是我们公司本身没有人员去做这个事情,主要还是依赖于代工厂,现在中芯国际、台积电、联电都有提供这个的工艺平台,可以使用去进行流片和设计。


Q:像铁电存储器目前感觉还太paper阶段,如果有创业方面的想法,您建议从哪个方向切入呢?

A:我个人认为学术界应该会需要做一些十年以后的事情,也可以跟产业界合作做一些3~5年的事情,如果要创业肯定要做三年以内能够商业化的东西。


Q:对于当前比较火的智能驾驶,L4级别可能需要至少250Tops,请问在智能驾驶领域,存算一体技术有什么挑战和机遇?

A:自动驾驶对存算一体的要求是一个最高的场景,它除了算力要达标外,可靠性也要达标,稳定程度也是要达标,算力也很大,实时性对容错率也很低,我认为可能需要4~5年左右才能把存算一体芯片开发到可以满足智能驾驶的使用。


Q:存算一体是否可以大幅度提高全球算力中心现有的规模和能效?

A:这个也是我们公司未来发展的一个重大方向,就是把存算一体的算力做的很大,成本做的很低。数据中心的成本,一个是在芯片采购方面,另一半儿的成本实际是在降温上,如果存算一体能够在提供同样大小算力情况下,把芯片的成本降低,功耗降低,实际上在数据中心有很大的优势。


Q:您公司最大的优势和技术壁垒在哪里?

A:首先存算一体在设计上其实难度很大,因为这种设计方式是之前芯片中没有涉及到的,包括现在存算一体中采用的模拟计算方式,以及存算一体中涉及到的很多trick。我们在过去迭代流片中发现非常多标准设计流程没法覆盖,需要人工去去解决的问题,这些对公司发展过程中其实是一个一个坑,公司一旦通过这个坑就是积累了经验,在设计方面我们积累出了很大的技术壁垒。我们公司已经做了近二十多次不同版本的芯片迭代,其实也相当于自己找出了一条如何去设计存在一体芯片的道路。另外存算一体在生产工艺层面也需要深入理解和优化,知存在这方面积累了很多优势,也在做更多的尝试。