英特尔解释Lunar Lake如何在放弃超线程的情况下获得最佳性能

2024年06月04日 14:40 次阅读 稿源:cnBeta.COM 条评论

今年 2 月早些时候,一张泄露的任务管理器截图显示,英特尔正在寻求在 Lunar Lake 处理器上取消超线程(HT),即该公司对同时多线程(SMT)的称呼。今天,在 Computex 2024 大会上,随着 Lunar Lake 的发布,英特尔证实了它确实在这么做,并解释了原因。

1626403410_intel_windows_11_story.jpg

如果你还记得,英特尔在第 12 代 Alder Lake 处理器上推出了性能混合或"大-大"架构,将"大"性能内核或 P 核心与"大"效率内核或 E 核心相结合,这样,较重的任务将由 P 核心处理,而较轻的工作负载将由 E 核心处理。

不过,尽管引入了线程指令硬件调度程序监,英特尔还是注意到了改进的机会,因为操作系统调度程序通常会将任务最后发送给超线程,因为物理内核总是优先处理。

英特尔称,在 Lunar Lake 移动 CPU 上,其全新优化的 P 核心(不含 HT)在单线程性能和效率方面有了显著提升。英特尔表示,超线程技术更适用于多线程性能更为重要的应用场景。

下面的幻灯片详细介绍了英特尔通过禁用 HT 在 Lunar Lake P 核心上观察到的性能和能效改进:

1717443959_intel_lunar_lake_launch_computex_24_via_sayan_sen_neowin_3.jpg

1717443979_intel_lunar_lake_launch_computex_24_via_sayan_sen_neowin_4.jpg

英特尔补充说,这是其精简 Lunar Lake 架构的更广泛努力的一部分,即砍掉对所需性能或能效无益的部分。英特尔在下面的幻灯片中解释了这些架构的目标。如果你想知道,Lion Cove 是 Lunar Lake P 核架构,而 Skymont 是 E 核架构。

1717443941_intel_lunar_lake_launch_computex_24_via_sayan_sen_neowin_2.jpg

1717444041_intel_lunar_lake_launch_computex_24_via_sayan_sen_neowin_8.jpg

Lunar Lake 的另一个变化是引入了新的L0 D 级缓存(0 级数据缓存)。Lunar Lake P 核(Lion Cove)每个内核有 2.5MB 的二级缓存和多达 12MB 的共享三级缓存。同时,E 核(Skymont)拥有 4MB 共享二级缓存。

它们由四个 P 核和四个 E 核组成集群,这种 8 核混合设计构成了一个 Lunar Lake 计算磁盘。它还拥有高达 32GB 的内置内存,有助于加快数据访问速度并减少延迟。

英特尔还对英特尔线程指令(ITD)进行了修改。与前几代产品不同的是,现在只要工作负载可以由 E 核处理,ITD 就会将任务优先安排给 E 核。据该公司称,采用这种方法后,Microsoft Teams 的功耗降低了 35%。

微软 Windows 核心操作系统高级软件工程师 Tapan Ansel 和 Windows 核心操作系统首席软件工程主管(能效)Bret Barkelew 说:

英特尔线程指导技术可识别 Lunar Lake 平台上最节能的 CPU,Windows 操作系统可利用该技术创建一个"控制区",将工作限制在这些 CPU 上,并保持其他性能优越的 CPU 处于停机/闲置状态,仅在需要时使用。这为团队视频会议场景节省了大量功耗,而这些场景都非常适合在 Lunar Lake 上的"控制区"内运行。

与流星湖 P 核(Redwood Cove)相比,Lunar Lake P 核(Lion Cove)的 IPC 提高了 14%(AMD 声称其新 Zen 5 的 IPC 提高了16%):

1717444012_intel_lunar_lake_launch_computex_24_via_sayan_sen_neowin_6.jpg

在 E 核方面,英特尔称 Lunar Lake 的 Skymont 甚至比 Raptor Lake(第 13 代)上的 P 核还要快;与 Meteor Lake 的 LP E 核相比,Skymont 快 68%,浮点(FP)吞吐量比整数吞吐量有更大的提升。

1717444078_intel_lunar_lake_launch_computex_24_via_sayan_sen_neowin_12.jpg

1717444050_intel_lunar_lake_launch_computex_24_via_sayan_sen_neowin_9.jpg

最后是 NPU 或神经处理单元。英特尔公司声称,其新的 NPU 4 设计有了巨大的改进。我们已经知道,英特尔公司在早些时候发布的一项声明中已经成功地达到了 Copilot+ PC 所需的 40 TOPS。

1717444125_intel_lunar_lake_launch_computex_24_via_sayan_sen_neowin_16.jpg

如上图所示,48 峰值 TOPS(pTOPS)比必要的 40 TOPS 高出 20%,略低于 AMD 昨天发布的新 Ryzen AI 300 系列的 50 TOPS。不过,英特尔宣称平台总性能(CPU + GPU + NPU)为 120 TOPS。而 AMD 的"处理器总性能"为 80 TOPS。

英特尔表示,由于 Lunar Lake 的人工智能处理能力比 Meteor Lake 有了大幅提升,因此 Stable Diffusion 在前者上的能效也得到了大幅提高。

1717443927_intel_lunar_lake_launch_computex_24_via_sayan_sen_neowin_1.jpg

对文章打分

英特尔解释Lunar Lake如何在放弃超线程的情况下获得最佳性能

1 (50%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      Top 10

      招聘

      created by ceallan