位于加利福尼亚州圣何塞的IBM公司的研究人员开发出了一种受大脑启发的计算机芯片,这种芯片能以更低的功耗更快地工作,从而为人工智能(AI)提供超级动力。他们的大型 NorthPole 处理器芯片无需频繁访问外部存储器,因此执行图像识别等任务的速度比现有架构更快,同时功耗也大大降低。
IBM开发的NorthPole芯片将内存和处理功能结合在一起,大大改进了图像识别和其他计算任务。
帕莱索巴黎-萨克雷大学的纳米电子学研究员达米安-奎尔利奥兹(Damien Querlioz)说:"它的能效简直令人难以置信。发表在《科学》(Science)上的这项工作表明,计算和内存可以大规模集成。这篇论文将撼动计算机体系结构的惯常思维"。
NorthPole运行神经网络:由简单计算单元组成的多层阵列,通过编程识别数据中的模式。底层接收数据,例如图像中的像素;每一层都能检测到复杂度不断增加的模式,并将信息传递给下一层。顶层产生输出,例如,可以表示图像中包含一只猫、一辆车或其他物体的可能性有多大。
有些计算机芯片可以高效地处理这些计算,但每次计算一个层时,它们仍需要使用RAM。这种在芯片间穿梭数据的方式会减慢速度--这种现象被称为冯-诺依曼瓶颈(Von Neumann bottleneck),以数学家约翰-冯-诺依曼(John von Neumann)命名。
冯-诺依曼瓶颈是导致计算机应用(包括人工智能)速度减慢的最重要因素之一。它还导致能源效率低下。该研究的合著者、IBM 公司的计算机工程师达门德拉-莫德哈(Dharmendra Modha)说,他曾经估计,在这种架构上模拟人脑可能需要相当于 12 个核反应堆的输出功率。
NorthPole 由 256 个计算单元或内核组成,每个单元或内核都有自己的内存。这在一个内核中就缓解了冯-诺依曼瓶颈。
随后这些内核通过网络连接在一起,其灵感来自于人类大脑皮层各部分之间的白质连接。这种设计原则和其他设计原则--其中大部分以前就存在,但从未在一个芯片中结合过--使 NorthPole 能够在标准的图像识别基准测试中以相当大的优势击败现有的人工智能机器。尽管没有采用最新和最微型化的制造工艺,它的能耗也只有最先进人工智能芯片的五分之一。作者估计,如果NorthPole设计采用最新的制造工艺,其效率将比目前的设计高出25倍。
但是,对于大型语言模型(如聊天机器人 ChatGPT 使用的语言模型)来说,即使 NorthPole 拥有 224 兆字节的内存也是不够的。而且该芯片只能运行预先编程的神经网络,这些网络需要事先在另一台机器上进行"训练"。但论文作者表示,NorthPole 架构在速度要求极高的应用中可能非常有用,比如自动驾驶汽车。
NorthPole 使内存单元尽可能地接近核心中的计算元件。在其他领域,研究人员一直在利用新材料和制造工艺进行更激进的创新。这些技术使内存单元本身也能进行计算,原则上可以进一步提高速度和效率。
上个月介绍的另一款芯片利用忆阻器(一种可以在电阻和导体之间切换的电路元件)进行内存计算。清华大学的高斌(Bin Gao)是忆阻器研究的共同作者,他说:"IBM 和我们的两种方法都有望缩短延迟时间,降低数据传输的能耗成本。"
另一种方法是由多个团队开发的,其中包括位于瑞士苏黎世的IBM实验室的一个团队,它通过改变电路元件的晶体结构来存储信息。这些较新的方法能否以经济的方式推广还有待观察。