研究人员展示了一种完全集成的光子处理器,它可以在芯片上以光学方式执行深度神经网络的所有关键计算,从而为激光雷达或高速通信等计算要求苛刻的应用实现更快、更节能的深度学习。 图片来源:电子学研究实验室桑普森-威尔科克斯(Sampson Wilcox)。
深度神经网络是当今最先进的机器学习应用背后的驱动力,它变得如此庞大和复杂,以至于突破了传统电子计算硬件的极限。
光子硬件使用光而不是电来执行机器学习计算,提供了一种更快、更节能的解决方案。 然而,光子设备很难实现某些神经网络操作,这就不得不依赖外部电子设备,从而减慢了处理速度,降低了效率。
经过十年的研究,麻省理工学院和合作机构的科学家们开发出一种突破性的光子芯片,克服了这些挑战。 他们展示了一种完全集成的光子处理器,能够完全利用光执行所有基本的深度神经网络计算,无需外部处理。该光学设备能够在不到半纳秒的时间内完成机器学习分类任务的关键计算,同时达到 92% 以上的准确率--性能与传统硬件相当。
该芯片由相互连接的模块组成一个光神经网络,采用商业代工工艺制造,可实现该技术的扩展和与电子产品的集成。
从长远来看,光子处理器可为激光雷达、天文学和粒子物理学科学研究或高速通信等计算要求苛刻的应用带来更快、更节能的深度学习。
"在很多情况下,模型的性能好坏并不是唯一重要的,重要的是你能以多快的速度得到答案。 "电子研究实验室量子光子学和人工智能小组的访问科学家、NTT Research, Inc.的博士后 Saumil Bandyopadhyay (17 年硕士、18 年工程硕士、23 年博士)说:"现在我们有了一个端到端系统,可以在纳秒级的时间尺度上在光学中运行神经网络,我们就可以开始从更高的层面思考应用和算法了。"
与 Bandyopadhyay 一起撰写论文的还有:Alexander Sludds(18 年,19 年工程硕士,23 年博士);Nicholas Harris(17 年博士);Darius Bunandar(19 年博士);Stefan Krastanov(前 RLE 研究科学家,现任马萨诸塞大学阿默斯特分校助理教授);RLE 访问科学家兼 NTT 研究公司高级科学家 Ryan Hamerly; Matthew Streshinsky,前诺基亚硅光子学负责人,现 Enosemi 联合创始人兼首席执行官;Michael Hochberg,Periplous, LLC 总裁;以及 Dirk Englund,电子工程与计算机科学系教授,量子光子学与人工智能小组和 RLE 首席研究员,论文资深作者。 该研究成果于12月2日发表在Nature Photonics. 上。
用光进行机器学习
深度神经网络由多层相互连接的节点或神经元组成,它们对输入数据进行运算以产生输出。 深度神经网络的一个关键操作是使用线性代数来执行矩阵乘法,在数据从一层传递到另一层时进行转换。
但除了这些线性运算外,深度神经网络还能执行非线性运算,帮助模型学习更复杂的模式。 激活函数等非线性运算赋予了深度神经网络解决复杂问题的能力。
2017年,恩格伦德的研究小组与塞西尔和艾达-格林物理学教授马林-索尔亚契奇实验室的研究人员一起,在单个光子芯片上演示了一个光神经网络,它可以用光进行矩阵乘法运算。但当时,该设备无法在芯片上执行非线性操作。 光学数据必须转换成电信号,然后发送到数字处理器,才能执行非线性操作。
"光学中的非线性具有相当大的挑战性,因为光子之间不容易相互作用。"Bandyopadhyay解释说:"这使得触发光学非线性变得非常耗电,因此建立一个能够以可扩展的方式实现非线性的系统变得非常具有挑战性。"
他们通过设计称为非线性光学功能单元(NOFUs)的设备克服了这一挑战,这种设备结合了电子学和光学,可以在芯片上实现非线性操作。研究人员在光子芯片上构建了一个光学深度神经网络,利用三层设备执行线性和非线性操作。
完全集成的网络
首先,他们的系统将深度神经网络的参数编码成光。 然后,2017 年论文中展示的可编程分光器阵列对这些输入进行矩阵乘法运算。然后,数据进入可编程 NOFU,NOFU 通过将少量光虹吸到光电二极管,将光信号转换为电流,从而实现非线性功能。 这一过程无需外部放大器,能耗极低。
"我们一直处于光域中,直到最后读出答案。 这使我们能够实现超低延迟,"Bandyopadhyay 说。
实现如此低的延迟使他们能够在芯片上高效地训练深度神经网络,这一过程被称为原位训练,通常会消耗数字硬件的大量能量。这尤其适用于对光信号进行域内处理的系统,如导航或电信,也适用于想要实时学习的系统。
光子系统在训练测试中达到了 96% 以上的准确率,在推理中达到了 92% 以上的准确率,与传统硬件不相上下。 此外,该芯片还能在不到半纳秒的时间内完成关键计算。
这项工作表明,计算--从本质上讲,就是输入到输出的映射--可以编译到线性和非线性物理学的新架构中,从而实现计算与所需工作量之间根本不同的比例规律。整个电路的制造采用了与生产 CMOS 计算机芯片相同的基础设施和代工工艺。 这样就能利用在制造过程中引入极少误差的成熟技术,大规模制造芯片。
扩大设备规模并将其与相机或电信系统等实际电子设备集成将是未来工作的重点。 此外,研究人员还希望探索能利用光学优势更快、更节能地训练系统的算法。
编译自/ScitechDaily