电子发烧友网报道(文/李弯弯)近几年,随着传统冯·诺依曼结构的瓶颈逐渐显现,越来越多企业投身于存算一体芯片研发的浪潮中,试图打破“存算墙”、“能耗墙”和“编译墙”对AI应用进一步发展带来的掣肘,在 “超摩尔时代”走出新的道路。尽管有着相似的目标,但各企业采取的技术路线却不尽相同。
早期有企业基于Flash做模拟的存算一体芯片,例如美国的Mythic等,已实现产品量产。同时还有一些奋斗在存算一体架构道路上的创业伙伴选择了SRAM,不同的存储介质都有各自的属性特点,针对不同应用场景的要求存在不同的优劣势。比如基于Flash做的存算一体芯片,介质和工艺比较成熟,功耗低,但精度较低、算力较小,可以满足语音识别、智能穿戴等场景的要求,却难以满足高精度、大算力场景的要求;SRAM因为面积(密度)、成本以及漏电流等自身属性,更加适合于对待机功耗不敏感、对算力要求在中小算力范畴的场景。
ReRAM(RRAM)是近年来被产学界均寄予厚望的新型非易失性忆阻器,为此,电子发烧友采访到亿铸科技创始人、董事长兼 CEO熊大鹏博士,就基于ReRAM存算一体芯片的技术优势、ReRAM目前的工艺进展、存算一体未来的市场机会等多个问题进行了探讨。
ReRAM存算一体的独特优势
亿铸科技是基于ReRAM这种新型忆阻器设计存算一体AI大算力芯片的企业。
ReRAM存储介质的优势:
存储介质是实现存算一体的底层物理器件,不同存储介质的选择,会对存算结果产生重大影响。ReRAM全称是电阻式随机存取存储器,是以非导性材料的电阻在外加电场作用下,在高阻态和低阻态之间实现可逆转换为基础的非易失性存储器。
ReRAM的核心优势:
非易失性和低功耗:ReRAM不用的时候不需要上电,静态功耗为零,读写之外的功耗为0;
面积小、密度高:ReRAM的单元面积极小,可做到4F²,理论上不需要晶体管,一般是加一个选择管,所以就是1TnR,面积上成倍缩小;
微缩化发展:可以持续利用先进制程升级迭代,目前最先进的量产工艺为28nm,未来持续演进的空间很大;目前已经能做到几百MB的存储容量,大大超过了前主流AI算力芯片的片上存储容量,未来ReRAM存算一体芯片的存储容量可以做到几个GB,甚至更高。
读写速度:读写速度比NAND Flash提升了2~3个数量级,明显优于Flash;
高精度和大算力:亿铸和ReRAM工艺foundry联合研发基于ReRAM的全数字化存算一体MACRO,具有支持高精度和大算力的优势和潜力;
稳定性强:对工艺制程上一些微小的差异和干扰不敏感,具有很强的鲁棒性。温度适应范围广(-40~125℃),同时还具有良好的抗电磁干扰能力(EMC);
兼容性(工程实现相对容易):ReRAM本身对CMOS工艺兼容性很好。
因为上述种种优势,ReRAM被认为是实现存算一体的最佳忆阻器选择。
存算一体架构的优势
存算一体架构,打破了传统冯·诺依曼架构下存在的存储墙。在异构架构下,存储墙导致了大量数据在计算单元和存储单元间频繁移动,使60-90%的能耗用于数据搬运而非数据计算,这也是导致了能耗墙的问题主要原因。
为解决存储墙问题,业界采用了很多架构上的设计优化方案,比如多级缓存和非常复杂与精巧的数据流动态实时控制和管理。但是这些“方案”从理论上来说无法由编译器自动“理解”,无法自动优化芯片的执行程序代码,必须投入大量成本去做手动优化。而存算一体架构解决了存储墙问题,无需特别考虑数据流动态实时控制和优化问题,其计算资源、存储资源和输入/输出接口带宽资源等资源分配是静态的,可以通过工具实现合理优化,这对将来产品的部署非常有利,也大大降低了平台的迁移难度和成本。
全数字化实现存算一体大算力AI芯片的优势
目前业内大多采用的是模拟计算做存算一体芯片,而亿铸科技提出以全数字化的方式实现ReRAM存算一体AI大算力芯片技术路线。那么,全数字方式有什么优势呢?
在着墨全数字方式之前,不妨先来看看模拟的方式的优缺点。模拟计算方式做存算一体特别适合于低功耗、小算力、低精度的应用场景,比如语音关键词识别、智能穿戴、AIOT等。
由于采用非易失性忆阻器,无论断电与否,写入忆阻器的计算参数均不会丢失。利用忆阻器的这个特点,把计算系数(比如向量或矩阵的系数、神经网络的系数)写进忆阻器(好比可编程电阻),将输入的数据进行数模转换变成电压值,电压值通过电阻产生电流,再将电流进行模数转换成计算结果。如此,根据欧姆定律和基尔霍夫定律实现了乘积累加计算,完成模拟计算过程。也就是说,由一个电阻实现乘法和加法计算,这个电阻替代了传统数字电路的一个乘法器和加法器。在数字电路里,乘法器和加法器往往需要几百个晶体管,而现在只需要一个电阻,也就是若干个晶体管就能实现。这意味着,它的电路简单了几百倍,能耗也节省了几百上千倍,这是模拟计算跟传统的数字电路相比所拥有的一个巨大优势。
然而,模拟计算存在几个问题。
第一,如何保证电阻的精度?熊大鹏博士向电子发烧友介绍,业界采取了从工艺、硬件电路设计到软件等多种方式,试图对精度进行补偿,最后发现模拟存算一体存在明确的天花板,做到8位或者16位的精度难度很大。
第二,模拟计算必须从数字域转换到模拟域来做计算,再把计算结果转回到数字域,这就需要数模/模数(AD/DA)转换,而这本身就带来了性能、能耗还有电路复杂度等问题。
所以尽管模拟存算一体能够省面积、功耗低、电路简单(相对于传统数字电路而言),但因其仍然存在模数和数模转化的部分以及精度补偿等设计,仍然有其电路设计的复杂性,同时还有精度不够、算力不高等问题。
熊大鹏博士表示,业界也尝试过不同的方法来解决这两个问题,比如,有不少企业选择了混合式设计的路线——也就是采取部分模拟、部分数字的方式,通过数字的部分来改善精度和AD/DA带来性能限制的问题,同时兼具模拟在性能、功耗上等方面的优势。但这仍然无法给AI算力密度和能效比的提升带来一条可持续发展的技术路径。
亿铸团队和一家国际ReRAM 新型存储技术领军企业的技术专家团队以及公司内部的核心研发团队联合就这两个问题进行了深入分析和解决方案探索,结合ReRAM存储介质各项属性的比较优势,亿铸科技认为全数字化方式是当前实现存算一体AI大算力芯片的最佳路径。
ReRAM工艺28nm/22nm已经成熟量产
ReRAM作为一种新型忆阻器,目前的工艺进展情况如何呢?
据熊大鹏博士介绍,目前在全球范围内,不管是ReRAM IP还是ReRAM先进工艺制程,比较成熟的两家公司为台积电和昕原半导体。业内已有知名头部企业采用ReRAM设计下一代芯片,因此,2021年被业内称为“ReRAM元年”。
而亿铸科技更是和该国际ReRAM领军企业构建了紧密的合作伙伴关系,二者珠联璧合,强有力地推动了存算一体芯片的研发和商业化落地及生态构建。
存算一体大算力AI芯片的市场机会
从应用场景来看,存算一体大算力AI芯片主要面向数据中心、自动驾驶等对算力密度、能效比需求很高的领域。在这领域,相比于传统的AI芯片或者GPU,存算一体芯片在PPA(PPA即Performance性能、Power功耗、Area尺寸)的表现将会非常亮眼。换言之,存算一体大算力AI芯片在单位面积相同的情况下,在计算性能、能效比等方面均会有数量级的提升。比如,同在75W功耗的前提下,亿铸ReRAM存算一体大算力芯片算力可达1POPS(INT8)以上。据熊大鹏博士介绍,基于ReRAM的存算一体28nm工艺相对于7nm 的GPU,算力可以提升十倍左右。这意味着对于终端用户来说,可以在不增加物理空间的前提下,大大提升算力密度,大幅度降低能耗,减少采购和运维成本。
如今在大算力AI推理计算的解决方案里,算力和能效比的提升主要依赖工艺制程的演进。而当演进之路逐渐达到物理极限,上层的算法日益复杂、迭代加速,AI大算力芯片处于两者剪刀差中,其发展破局之路被越来越多地寄希望于创新架构,从根本上跳出冯·诺依曼架构体系,解决存储墙以及存储墙带来的能耗墙和编译墙(软件生态依赖)问题。根据熊大鹏博士所述,不管是中心侧还是边缘侧的潜在客户对亿铸ReRAM存算一体大算力芯片都非常期待,而亿铸团队对于产品的成功落地有着必胜的信心。