相较于非易失性存储器的快速推成出新,易失性存储器在过去四五十年里没有太大的变化,依旧以DRAM(动态随机存取存储器)和SRAM(静态随机存取存储器)为主,其中前者因应用范围广阔,再加上周期性的市场波动,早已成为了半导体行业如今的风向标。
而后者SRAM与之相比,因其无需周期性更新存储的数据,通电情况下数据可一直保存,具有访问速度快的优点,通常用于CPU的高速缓存上面,但它处理1比特数据需要六个晶体管,而DRAM仅需一个晶体管,也导致了集成度较低,在相同体积下容量较小,存在体积大、成本较高等缺点。
新思界产业研究中心的报告显示,2021年,全球半导体存储器市场规模达到1540亿美元左右,其中SRAM市场规模仅占极小一部分,2021年全球SRAM市场规模约为4亿美元。在全球范围内,美国是最大的SRAM需求市场,其次是日本。全球范围内,SRAM市场主要被美国赛普拉斯(Cypres)、日本瑞萨电子(Renesas)、美国ISSI公司(被北京君正收购)三家厂商所占据,合计市场占有率达到82%。
在2023年以前,SRAM向来是最被冷落的存储技术之一,但随着近一年AI的爆火,情况正在悄然改变。
AI带火SRAM
2024年2月,GoogleTPU第一代设计者Jonathan Ross所创立的Groq公司正式宣布,其新一代LPU在多个公开测试中,以几乎最低的价格,相比GPU推理速度翻倍,后续有三方测试结果表明,该芯片对大语言模型推理进行优化效果显著,速度相较于英伟达GPU提高了10倍。
在首次公开基准测试结果中,Groq搭载的Llama2或Mistreal模型在计算和响应速度上远超ChatGPT。这一成绩背后,是Groq团队为大语言模型(LLM)量身定制的专用芯片(ASIC),它使得Groq每秒可以生成高达500个 token。相比之下,目前ChatGPT-3.5的公开版本每秒只能生成大约40个token。
根据知情人士透露,LPU的工作原理与GPU截然不同。它采用了时序指令集计算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频繁地从内存中加载数据。这一特点不仅有助于避免HBM短缺的问题,还能有效降低成本。
有从事人工智能开发的用户称赞,Groq是追求低延迟产品的“游戏规则改变者”,低延迟指的是从处理请求到获得响应所需的时间。另一位用户则表示,Groq的LPU在未来有望对GPU在人工智能应用需求方面实现“革命性提升”,并认为它可能成为英伟达A100和H100芯片的“高性能硬件”的有力替代品。
更重要的是,不同于其他GPU依赖于高速数据传输,Groq的LPU并没有采用高带宽存储器(HBM),它选择的正是SRAM,其速度比GPU所用的存储器快约20倍。
一时间,和SRAM相关的概念股都成了香饽饽,不少人争先恐后地在投资平台询问AI相关,SRAM俨然成了又一个HBM。
不过,很快就有专业人士给这波突如其来的热潮降温了:SRAM早就是个非常成熟的技术了,CPU中的寄存器和缓存都用的是SRAM,SRAM早已以IP内核形式完成在SoC的集成,本身的技术价值没有更大的突破。虽然SRAM确实要比DRAM快,但其价格很贵,容量较小,LPU乃至其他计算芯片,大量使用SRAM时需要有所权衡。
此外,也有人指出Groq选择了SRAM的理由,主要是它只负责推理、不训练,而推理所需要的存储空间比训练要小得多,所以Groq的单板卡只有230MB的内存,由于成本和容量限制,需要谨慎看待SRAM这轮爆火。
即便如此,AI还是给体量较小的SRAM打开了一条透着光的缝隙,一个全新的应用领域,就意味着更多的增长机会,而不是局限在之前的一亩三分地上。
有意思的是,早在Groq官宣新的LPU前,国外网站半导体工程已经与 Alphawave Semi 首席技术官 Tony Chan Carusone、Quadric 首席营销官 Steve Roddy 和西门子 EDA 存储技术专家 Jongsin Yun 就人工智能和 SRAM 的最新问题进行了讨论。
西门子 EDA 存储技术专家 Jongsin Yun表示, SRAM 与 CMOS 逻辑工艺兼容,这使得 SRAM 在从一种技术迁移到另一种技术时,可以跟踪逻辑性能的提高。SRAM 是芯片内的本地可用存储器。因此,它能提供即时访问的数据,这也是它在人工智能应用中受到青睐的原因。凭借数十年的制造经验,我们了解其大部分潜在问题以及如何最大限度地发挥其优势。就性能而言,SRAM 是我们迄今所知性能最高的内存解决方案,因此成为人工智能的首选。
Quadric 首席营销官 Steve Roddy 则表示,SRAM 是任何人工智能处理解决方案的关键要素,SRAM 的用量在很大程度上取决于你谈论的是数据中心还是设备,或者是训练还是推理。但不论何种应用,在处理元件旁边都会有大量的 SRAM。不同类型计算实现之间的所有架构差异,归根结底都是管理内存、管理权重和激活流的不同策略,而这又极大地依赖于可用和可选的内存类型。任何芯片架构师都要根据自己的部署方案有效地规划内存层次结构,但在任何方案中,都必须有 SRAM。
Alphawave Semi 首席技术官 Tony Chan Carusone也表示,SRAM 对人工智能至关重要,尤其是嵌入式 SRAM。它的性能最高,而且可以直接与高密度逻辑集成在一起。仅从这些原因来看,它就非常重要。逻辑的扩展性要好于 SRAM。因此,SRAM 变得更加重要,并占用了更大一部分芯片面积。一些处理器上有大量的 SRAM,而且这种趋势可能会继续下去,这将成为整个处理器的一个重要成本驱动因素。一个新趋势是,将这些已达到视网膜极限的大型芯片分解成多个芯片组,并通过适当的互连,使它们能够像一个大型芯片一样运行,从而集成更多的计算和更多的 SRAM。反过来,大量的 SRAM 又进一步推动了向基于芯片的实现过渡。
通过这几位专家的讨论我们可以发现,即便是不像Groq那样直接把SRAM当作内存来使用,AI依旧和SRAM脱不开干系,SRAM未来也有望随着AI的火热来焕发第二春。
SRAM的绊脚石
但困扰SRAM的,远不止应用,还有技术。
前面提到过,SRAM采用的是6晶体管架构(逻辑区通常包含4个晶体管/单元),但是,在跟上 CMOS 缩放的步伐时,SRAM 却表现不佳,这对功耗和性能产生了影响。随着人工智能设计对内部存储器访问的要求越来越高,如何在技术节点迁移过程中进一步扩大 SRAM 的功耗和性能优势已成为一项重大挑战。
在2022年底,台积电的一篇论文带来了可怕的坏消息——虽然逻辑仍在或多或少地沿着历史趋势线扩展,但 SRAM 扩展似乎已经完全崩溃。
台积电曾在正式推出 N3 制造技术时表示,与 N5(5 纳米级)工艺相比,新节点的逻辑密度将提高 1.6 倍和 1.7 倍,而台积电在论文却承认,与 N5 相比,新技术的 SRAM 单元几乎没有扩展。
台积电 N3 的 SRAM 位元尺寸为 0.0199µm^²,与 N5 的 0.021 µm^² SRAM 位元相比,仅缩小了约 5%。改进后的 N3E 情况更糟,因为它配备了 0.021 µm^² SRAM 位元组(大致相当于 31.8 Mib/mm^²),这意味着与 N5 相比完全没有缩放。
随着芯片性能的增长,对缓存和 SRAM 的需求只会增加,但 N3(仅用于少数产品)和 N3E 却无法减少 SRAM 占用的芯片面积,也无法降低新节点比 N5 更高的成本。从根本上说,这意味着高性能处理器的芯片尺寸将增大,成本也将增加,同时SRAM 单元也会与逻辑单元一样容易出现缺陷。虽然芯片设计人员将能够利用台积电 N3 的 FinFlex 创新技术(在一个区块中混合和匹配不同种类的 FinFET,以优化其性能、功耗或面积)来缓解 SRAM 单元变大的问题,但无法根治SRAM无法扩展这一问题
事实上,早在 20nm 制程中,SRAM 就无法与逻辑相应地扩展,这也注定了当片上存储器变得比芯片本身还要大时,会面临功耗和性能方面的挑战。而针对这些问题,系统设计人员和硬件开发人员也从那时就在不断提出新的解决方案和开发新的技术。
AMD采取了不同的方法。它推出了一种名为 3D V-Cache 的技术,该技术允许将单独芯片上的附加 SRAM 高速缓存存储器堆叠在处理器顶部,从而增加处理器内核可用的高速缓存量。额外的芯片增加了成本,但允许访问额外的 SRAM。
另一种策略是拥有多级缓存。处理器内核可以拥有只有它们才能访问的私有(非共享)一级和二级缓存,以及在处理器内核之间共享的更大的末级缓存 (LLC)。由于处理器拥有如此多的内核,共享 LLC 允许某些内核有时使用更多容量,而另一些内核有时使用更少容量,以便在所有处理器内核上更有效地使用总容量。”
设计人员采取的另一种方法是尽可能只使用单核存储器。在较旧的工艺节点中,编写寄存器文件时,使用双核存储器的可能性要大得多,但这样做也会增加面积。因此,在较低的节点中,设计人员会尽量让所有东西都从存储器的单端口运行,因为这些是最小、最密集的全功率选择。他们不一定会放弃 SRAM,但他们会尽可能使用单核内存,选择尝试使用较小的存储器,并选择 SRAM 来获得可用带宽,而不是真正的大存储。
还有一种方法就是在 SRAM 外围设计中增加支持电路。SRAM 和外围设备不再共享电源。取而代之的是采用双电源轨,以单独利用最高效的电压电平,在某些设计中,SRAM 可以进入休眠模式,只需最低电压即可保留数据,直到 CPU 的下一次访问。由于泄漏电流与 VDD 呈指数关系,因此这种设计具有显著的功耗优势。一些 SRAM 设计采用了额外的电路来解决运行中的薄弱环节,目的是提高最低工作电压。
例如,高密度(HD)SRAM 单元可以通过对所有 6 个晶体管使用单鳍晶体管来实现最小的几何尺寸。然而,由于在写入操作过程中相同尺寸的上拉 (PU) 和过栅 (PG) 晶体管之间存在争用问题,因此 HD 单元在低压工作时面临挑战。
当然,用新的嵌入式存储器类型来替代 SRAM也是一种可行方法,但每种类型都有自己的问题。主要的竞争者MRAM和ReRAM只占用一个晶体管面积,虽然它们的晶体管面积比SRAM大,但它们的整体单元尺寸仍然只有SRAM的三分之一,包括外围电路在内的宏观尺寸目标成品尺寸只有SRAM的一半左右。虽然在尺寸上有明显优势,但写入速度的性能仍然远远低于 SRAM。
imec公司的Hellings也提出了自己的想法,如果物理学不允许使用更小的 SRAM,那么替代方案就需要重新考虑架构并采用芯片组。如果SRAM不能在N3或N2中扩展,那么我们可以将更先进的逻辑芯片与用较老技术制造的SRAM芯片结合起来。这种方法可以提高逻辑的 PPA,同时使用具有成本效益的(较旧的、可能产量更高、成本更低)技术节点来制造 SRAM。原则上,AMD 基于 V-cache 的系统可以进行扩展,只将逻辑芯片转移到下一个节点。然后,需要使用 3D 集成或芯片组方法(2.5D)将两个芯片组合在一起。
在后摩尔时代,当SRAM扩展变得不那么容易的时候,大家都在齐心协力地寻找方法,寻找一种破解之道,让SRAM跟上逻辑电路的脚步,但截至目前,行业内依旧没有一个公认合理的,兼顾扩展、功耗和成本三方面的解决方案。
新的解决方案
在众多老牌厂商上下求索之际,也有初创企业在发光发热。
以色列初创公司 RAAAM Memory Technologies 在今年4月宣布获得 400 万美元融资,用于开发系统级芯片 (SoC) SRAM 替代产品。
该公司成立于 2021 年,由来自巴伊兰大学和瑞士洛桑联邦理工学院(EPFL)的四位专门从事超大规模集成电路(VLSI)设计的博士创建,分别是罗伯特-吉特曼(Robert Giterman)、洛桑联邦理工学院副教授兼电信电路实验室主任安德烈亚斯-伯格(Andreas Burg)、巴伊兰大学教授兼顾问亚历山大-费什(Alexander Fish)和巴伊兰大学副教授兼科学顾问亚当-特曼(Adam (Adi) Teman)。
RAAAM 联合创始人兼首席执行官罗伯特-吉特曼(Robert Giterman)在一份声明中说:“RAAAM的增益单元随机存取存储器(GCRAM)技术是一种独特的片上存储器解决方案,只需要三个晶体管就能存储一位数据,而现有的基于SRAM的最高密度存储器技术需要6-8个晶体管。GCRAM 解决方案可将面积缩小一半,功耗降低五倍,并可采用标准 CMOS 工艺进行低成本制造。”
RAAAM 官方表示,GCRAM 与标准 CMOS 完全兼容,可用作任何 SoC 的 SRAM 直接替代品,通过缩小芯片尺寸降低制造成本,或通过在相同芯片尺寸内增加存储器容量提高系统性能。
该公司表示,SoC 将越来越多的片上面积用于嵌入式存储器SRAM,SRAM 使用具有两个稳定状态的触发器电路来存储二进制位值。该电路需要四个晶体管来存储一个比特,两个晶体管来控制单元的访问,SoC 嵌入式存储器的尺寸正在不断增大,在人工智能和机器学习等某些应用中,其尺寸已达到 SoC 总面积的 75%,这无疑限制了 SoC 的开发和应用。
据RAAAM官方表示,GCRAM 技术依赖于只需 2-3 个晶体管(取决于面积或性能优先级)的高密度位元组。与高密度 6T SRAM 设计相比,这种结构最多可将面积缩小 2 倍。位元组由去耦写入和读取端口组成,提供原生双端口操作,由寄生存储节点电容保存数据。与传统的 1T-1C eDRAM 不同,GCRAM 不依赖于微妙的电荷共享来读取数据。相反,RAAAM的 GCRAM 提供一个有源读取晶体管,可提供放大的位线电流,从而提供低延迟的非破坏性读取,而无需大型存储电容器。因此,GCRAM 无需对标准 CMOS 制造工艺进行任何改动或增加成本,而且只要设计得当,就能随着技术的发展而扩展。
其认为,虽然过去曾尝试过 2T/3T 存储单元的概念,但迄今为止,寄生存储电容的减少和对漏电流增加的担忧阻碍了其在 65 纳米以上的应用。RAAAM 的专利创新包括存储器位元和外围层的巧妙电路设计,从而显著降低了位元漏电,提高了数据保持时间,并针对各种应用优化了专门的刷新算法,确保即使在最极端的工作条件下也能保持极高的存储器可用性。事实上,RAAAM已经展示了 GCRAM 技术在各种代工厂(如台积电、意法半导体、三星、联电)工艺节点上的成功扩展,包括在 28 纳米(Bulk 和 FD-SOI)和 16 纳米 FinFET 技术上实现高达 1Mbit GCRAM 存储器宏的硅演示器。
GCRAM 的演示文稿中,也详细介绍了该技术如何使用独立的读写端口,而不是 DRAM 的每个单元组合读写端口,这使它能够放大单元存储的电荷,并分别优化读写过程,同时保持类似 SRAM 的性能。
目前RAAAM的种子轮投资者包括 Serpentine Ventures、J-Ventures、HackCapital、Silicon Catalyst Angels、Claves Investments 以及作为战略投资者的一家大型跨国半导体公司。
对于走至穷途末路的SRAM来说,RAAAM的GCRAM 技术提供了一种新思路,打开了一扇新的大门,更好的消息是RAAAM不会直接卖存储器,只做技术的授权。
根据官方介绍,RAAAM 采用的是知识产权供应商许可模式,,半导体公司在支付一定的费用和生产单位专利使用费后,就可以获得 RAAAM 的 GCRAM 技术授权,RAAAM 会根据客户规格实现前端存储器控制器和基于 GCRAM 的硬存储器宏,并提供软 RTL 封装(使用标准 SRAM 接口),该封装器实例化了 GCRAM 硬宏 (GDS) 和软刷新控制 (RTL)。此外,客户还会收到硬存储器宏的特性报告和用于系统级验证的行为模型。
目前,RAAAM 正在实施和鉴定基于 GCRAM 的存储器编译器,该编译器将使 RAAAM 的客户能够根据客户规格自动生成 GCRAM IP 的完整前端和后端视图以及相应的特性报告。
问题来了,RAAAM,以及前文中提到的几个方向,谁才是SRAM的大救星呢?