橡树岭国家实验室的"前沿"(Frontier)超级计算机在计算速度方面达到了一个新的基准,在高性能Linpack评分中达到了1.35 exaflops。自2022年首次亮相以来,"前沿"增加了400个新节点,大大提高了计算能力。 现在,该系统在混合精度计算任务方面表现出色,这对于从生物现象建模到推进人工智能等应用至关重要。
y能源部橡树岭国家实验室的前沿系统在成为首台突破超大规模障碍的超级计算机两年半后,继续重新定义速度和效率的性能基准。
上周,在亚特兰大举行的高性能计算、网络、存储和分析国际会议(SC24)上,HPE Cray EX 超级计算机在解决问题的速度方面创下了新的记录。 利用双精度算术(计算研究中科学精确性的 64 位标准),Frontier 的高性能 Linpack (HPL) 分数达到了 1.35 exaflops,相当于每秒 1.35 万亿次计算。
橡树岭国家实验室(ORNL)的 Frontier 超级计算机是世界上第一台超大规模计算机。 资料来源:橡树岭国家实验室
ORNL负责计算和计算科学的实验室副主任吉娜-图拉西(Gina Tourassi)说:"Frontier的新数据反映了OLCF的计算和计算专家们所做出的巨大贡献,他们知道如何最好地优化最先进的高性能计算系统,以满足我们的科学用户群不断变化的需求。在系统的整个生命周期中,他们从未停止挑战极限。"
这一成绩为 Frontier 赢得了 2024 年 11 月 TOP500 榜单第二名的位置,该榜单对全球最快的超级计算机进行排名。 Frontier 于 2022 年 5 月以 1.1. exaflops 的成绩首次登上榜首,成为第一台实现级性能的机器,每秒计算量超过五百万亿次。
"我们的内部专家团队了解如何最大限度地发挥这套系统的性能,"Frontier 所在的橡树岭领先计算设施主任阿什利-巴克(Ashley Barker)说,"他们是世界上经验最丰富的超大规模计算团队,在 Frontier 上进行了这项测试,同时这台机器还为用户运行了其他科学问题。"
橡树岭国家实验室的"前沿"超级计算团队。 资料来源:Carlos Jones,ORNL,美国能源部
"前沿"速度的提高标志着大约 150 petaflops 的跃升,即每秒 150 夸亿次计算--大致相当于其上一代超级计算机Summit的性能,后者已于上周退役。
ORNL 公司研究员兼 Frontier 项目主管 Al Geist 说:"我们已经可以在 Frontier 上解决令人惊叹的大型问题--地球上最大的科学问题。今年,我们基本上又获得了另一台超级计算机(如 Summit)的能力"。
"前沿"依靠由数千个节点组成的星座,每个节点都是由一个 CPU 和四个 GPU 组成的独立超级计算机,通过 90 多英里长的电缆连接,使它们能够进行通信并共同解决大型问题。 "前沿"于 2022 年首次亮相,当时有 9400 多个节点,后来工作人员又增加了 400 个节点,目前节点总数已超过 9800 个。 最新的 HPL 基准测试跨越了 9500 个节点。
Geist 估计,Frontier 得分的提高约有一半要归功于新节点,超大规模计算项目曾将这些节点用于应用程序开发和测试。 ECP 负责监督 Frontier 和其他超大规模机器(如阿贡国家实验室的极光超级计算机和劳伦斯利弗莫尔国家实验室的埃尔卡皮坦超级计算机)的软件应用程序开发工作,并于今年早些时候完成。
除了新节点和 OLCF 计算专家获得的超大规模经验之外,Frontier 还对其数学库进行了改进,这些数学库是由建造 Frontier 的 HPE 和为 Frontier 提供动力的 CPU 和 GPU 制造商 AMD 共同开发的。
除了更新的 HPL 数值外,Frontier 团队在所有 9,800 个节点上运行的高性能 Linpack-Mixed Precision(或 HPL-MxP)新成绩为 11.4 exaflops,或每秒 11.4 quintillion 次计算。 这与之前 HPL-MxP 的 10.2 exaflops 相比,提升了超过一个 exaflops。
用于模拟癌细胞、超新星、冠状病毒或元素原子结构等现象的详细模拟需要 64 位精度,这是一个对计算精度要求极高的标准。 用于人工智能的机器学习算法通常要求的精度较低,有时甚至只有 32、24 或 16 位精度。
Barker 说:"这表明 Frontier 处理人工智能问题的能力有多强。我们从混合精度运行中得到的结果同样精确,但它们是以不同的数学方式得出的。 对于某些问题,双精度仍将是标准,但在这些潜在的速度下,我们预计会有更多的研究人员开始探索通过混合精度能获得什么样的结果。 他们希望利用这种能力,将解决问题的速度提高 10 倍,而我们的团队知道如何实现这一点。"
Frontier 是 HPE Cray EX 系统,拥有 9800 多个节点,每个节点都配备了第三代 AMD EPYC CPU 和四个 AMD Instinct MI250X GPU。 OLCF 是能源部科学办公室的用户设施。
编译自/ScitechDaily