七种国产AI芯片打通DeepSeek 一条“中国特色”算力路线浮出水面

2025年02月11日 14:54 次阅读 稿源:智东西 条评论

今日,AI基础设施创企无问芯穹上线了满血版DeepSeek-R1的国产适配版,且正逐一打通DeepSeek模型在7家国产AI芯片上的部署与推理服务。至此,无问芯穹Infini-AI异构云大模型服务平台成为首个同时支持DeepSeek多芯片适配和推理的平台。开发者不仅能一键获取R1、V3模型,还将能选用来自壁仞科技、海光信息、华为昇腾、摩尔线程、沐曦、燧原科技、天数智芯这7家国产AI芯片品牌的算力。

无问芯穹演示了在Infini-AI平台上顺畅调用DeepSeek-R1模型及沐曦C550 AI加速卡的流程和效果。


这将DeepSeek擂响的“国产算力替代”战鼓声,推至新的高潮。比起仅仅比拼模型精度优势的竞速赛,时代的气运已经将AI竞赛的焦点,推向一场更大组织之间完整产业链实力的比拼。

技惊四座的DeepSeek大模型,用一系列创新打破了AI算力的游戏规则,降低了训练顶尖模型所需的硬件门槛,令本土替代雄心高涨。但如何利用好DeepSeek模型带来的算力优化启示,高效盘活国产算力资源?这个难题依然待解。

DeepSeek引爆的国产算力狂欢能持续多久?狂欢过后,国产AI芯片的路又该如何往前走?其论文提出对未来硬件设计的发展建议对国产芯片有何参考价值?国产大模型的发展会对算力紧缺和算力闲置并存的现象产生何种影响?未来大模型训练的比拼是否会演变为系统能力主导?

近日,智东西独家对话无问芯穹联合创始人兼CEO夏立雪,深入探讨在算力受限的条件下,国产模型、AI芯片及智算产业如何从DeepSeek的成功汲取经验,通过精耕细作来降低算力成本,发挥出国内智算资源的实用价值。


▲无问芯穹联合创始人兼CEO夏立 雪

01.用有限算力训练更大模型:解读DeepSeek的技术秘籍,如何做到对算力的极致利用?

DeepSeek大语言模型共发布了3个大版本,参数规模从67B扩大到236B再到如今671B,所用的训练算力并未与模型尺寸等比例的成倍增长

在美国芯⽚封锁的背景下,DeepSeek通过算法、架构、⼯程的软硬件协同优化创新,以有限算⼒、超低成本实现了性能比肩顶尖国外模型的国产模型,印证了软硬协同这一技术路 线对推动Scaling Law、突破算⼒瓶颈的有效性和巨⼤潜力

具体表现为两大类方法:

一是深⼊到底层硬件的硬核优化——需要对底层的硬件有充分理解,并能够在硬件层⾯得到⾜够开放的软件⽣态 。典型技术包括底层PTX编程、精细流⽔线编排、极致的内存优化

底层PTX编程

DeepSeek团队通过⽐CUDA更底层的硬件接⼝编程实现更精细的通信任务管理,将跨节点通信的效率提⾼了60%,比起“绕开CUDA”更像是“穿透CUDA”。

精细流水线编排

采⽤混合专家(MoE)结构,通过缩减模型激活参数量和限制通信范围,牺牲通信换取模型规模增⼤,再通过细致的计算通信编排,实现了通信时间和计算时间将近100%重叠,成功掩盖这些开销。

极致的内存优化

通过参数共享、计算换存储、协同使⽤内存显存等技术,将显存需求量降低了1/4以上,有效改善显存开销对限制模型规模的影响。

二是打通从算法到硬件的协同优化——需要对于从算法到硬件各层次都有充分理解,并具有极致的⼯程实现能⼒ 。典型技术包括:模型结构配合系统需求、使⽤更低精度训练、MoE负载均衡

模型结构配合系统需求

修改标准Transformer(存储⼤量计算中间结果会严重制约模型能处理的上下⽂⻓度),使⽤隐空间注意⼒计算机制MLA,计算换存储,在有限显存中完成注意⼒计算。

在⼏乎不损失算法精度的情况下,将显存占⽤量降低1-2个数量级。

使⽤更低精度训练

通过算法上的精细分组量化、系统上CUDA核⼼与张量核⼼的并⾏计算,结合⼤量数据实验,率先实现了利用英伟达H800上FP8低⽐特计算单元训练出⾼质量模型,充分榨⼲硬件潜⼒。

MoE负载均衡

在MoE常⽤的负载均衡损失函数外,额外加⼊了限制极端情况的损失限制,并提出Auxiliary-Loss-Free技术减少负载均衡限制导致的模型精度损失,不仅将负载不均衡程度从超过50%降低到5%以内,也保证了MoE训练精度。

依托于深厚的系统能力,DeepSeek-R1是第⼀个成功使⽤强化学习实现推理能⼒增强、达到世界最优性能,并完全开源的类OpenAI o1/o3⽅案。DeepSeek-R1-Zero更是探索出一条全新的无需人类思考数据,直接自我迭代的技术路线,对大模型技术发展起到了深刻影响。

02.DeepSeek的软硬件优化策略对国产算力产业有哪些启示?

软硬件联合优化是连接硬件和算法的桥梁,区别于各种算法层面优化方法,和硬件本身迭代的方法,而是随着硬件变化,让软件也不断优化,或根据软件的迭代来定义未来的底层电路实现,以更好地⽀持AI算法的运⾏。

夏立雪认为,DeepSeek通过软硬件协同降低算⼒成本,给国内的启⽰在于这套⽅法论可以打破现在的闭环⽣态瓶颈


在美国,模型、系统、芯片三个关键因素已经形成闭环生态。而国内多数大模型是通过国外芯⽚(如英伟达)训练得到的,与国内的系统、芯⽚难以形成闭环。

未来,中国需要依托国产模型、国产芯⽚、国产系统,形成⾃主可控的全国产AI⽣态闭环。实现这个⽬标需要分三步⾛:

第⼀步,⾯向国外芯⽚开展极致的软硬件协同优化,以有限算⼒实现国产模型能⼒追赶国外模型。

DeepSeek已经成功完成了第⼀步的探索,依托极致的软硬件协同优化,⽤2048块H800 GPU完成了V3模型的预训练,整体训练成本仅为558万美元。而海外训练同等能⼒模型所需的成本通常⾼达数千万美元。

第⼆步,依托国产和国外芯⽚搭建“异构”AI系统,解决算⼒缺⼝以实现国产模型能⼒超越国外模型。

据估算,OpenAI正在研发的GPT-5模型的参数量预计是GPT-4(参数量1800B)的5到10倍,⾄少需要5万块H100 GPU进⾏训练。我国现有符合条件的算力储备和供给,距离实现自主可控的下一代模型能力超越,仍有较大算力缺口,需要搭建⼀套开放⽣态的异构AI系统,推动国产芯⽚⼚商开放底层软件⽣态,实现国产算⼒的优势资源集聚。

第三步,构建国产芯⽚“同构”AI系统,软硬协同垂直打通实现国产模型Scaling Law的持续发展。

国外闭环AI⽣态是⼀个同构的AI系统,核⼼竞争⼒在于CUDA-X的垂直整合能⼒。国内可通过调动跨越软硬件和上下游的⽣态,加⼤投⼊“模型-芯⽚-系统”协同优化和垂直打通。

例如根据新⼀代模型架构来定义未来芯⽚的底层电路实现,根据国产AI系统的互联通信⽅式来设计⾼效的MoE模型结构,充分整合上层模型、中间系统、底层芯⽚的产业链资源,集中优势资源,助⼒实现国产模型Scaling Law持续发展。

在夏立雪看来,未来大模型训练的比拼,要同时考虑算法精度、系统效率甚⾄是国家战略。这需要沿着软硬件协同的路径,考虑中美差异,兼顾模型、系统与芯⽚,最终实现模型训练和落地成本的指数级降低,去牵引更⼤范围的产业升级。

03.国产AI芯片大练兵,用“系统自信”调动“算力自信”

对于国内智算产业来说,DeepSeek是激励,更是绝佳的商业化试炼场。

DeepSeek刺激应用需求暴涨,激发了大量推理算力需求。几乎主流云厂商均已宣布提供R1模型服务,但全网还是很难找到服务不繁忙的“满血版”。

在推理需求愈发旺盛的背景下,国产算力还有很大被利用的空间。完善国内算⼒基建迫在眉睫。

以前,国产AI芯片各行其是,各自豪言支持大模型部署,奈何观望者众多,实际使用者寥寥。现在DeepSeek相当于将AI芯片公司拉到同一个考场,给出统一考题:你的芯片能不能支楞起来?

于是在短短10天内,20家国产AI芯片企业摩拳擦掌,各显其能,争相适配或上线DeepSeek模型,以期抓住这千载难逢的增长机遇。

这反映了中国当前特有的AI基础设施格局:有的是芯片和算力资源,只是没被利用起来

如何将大量不同架构的国产芯片变得能用、好用,并在使用过程中形成硬件与算法之间的正向循环?无问芯穹的策略是做异构云, 即统筹模型和算力需求,把分散在不同地方的异构算力整合起来,实现不同模型和不同硬件之间的统⼀部署和联合优化,提供给需要算⼒和模型的客⼾。

这种将异构算力资源统一转化成标准的算力服务、规模化复制的做法,有助于扩⼤国内⼤模型产业可⽤算⼒的范围,提升算⼒利⽤效率。

无问芯穹由清华大学电子工程系教授、系主任汪玉发起,他带领的清华大学纳米集成电路与系统实验室高能效计算组(NICS-EFC)早在2018 年总结出软硬件联合优化技术路线。无问芯穹联合创始人、CEO夏立雪,联合创始人、首席科学家戴国浩,均毕业于NICS-EFC;联合创始人、CTO颜深根现任清华大学电子工程系副研究员。

这些背景使得无问芯穹吸纳了AI基础设施领域的头部研发人才,足够了解在⼤模型各种场景下的异构计算卡性能,并与多家硬件公司有充分信任关系。其推理加速技术Flash Decoding++通过异步⽅法实现注意⼒计算的真正并⾏,在10+种芯⽚上实现⾏业第⼀推理加速效果。

夏立雪谈道,做国产芯⽚适配的主要挑战来自硬件⽣态系统封闭且互不兼容,不同芯⽚有着不同的架构和相应⼯具链

比如⽤A卡的开发者,⽆法轻易迁移⾄B卡上展开⼯作,也很难同时⽤A卡和B卡做⼤模型训练或推理。如果⼀个算⼒集群中存在多种芯⽚,算⼒使⽤⽅会⾯临很多技术挑战,⽐如不同硬件平台适配不同的软件栈和⼯具链,需要为每种芯⽚定制和优化代码,令开发和维护的复杂性⼤增。


去年7⽉,无问芯穹就在业内⾸次实现千卡规模的4+2种芯⽚(天数智芯、华为昇腾、沐曦、摩尔线程与AMD、英伟达)异构混训,集群算力利⽤率最⾼达到97.6%,其运营算力已经覆盖全国超13座城市。

据夏立雪分享,在不稳定的生态环境中,需要一个从算法、硬件到模型都深入理解的团队,无问芯穹便具备这样的全栈垂直优化能力。

无问芯穹也在持续跟进业界领先的模型架构,未来如果有更专⽤的、针对模型结构的计算芯⽚出现,则可以更好地利⽤这些专⽤计算芯⽚,软硬协同优化,减少模型计算时间和硬件资源需求,降低⼤模型的开发应⽤成本。

04.结语:产业链⾃主可控是长远之策,盘活国产智算资源一盘棋

今年春节,DeepSeek和《哪吒之魔童闹海》两匹国产黑马,扭转了中国企业技不如人的成见,也例证了只要实力强,自有不分国界的人鼓掌。

西方的经验毕竟是过往,未必全对。在劈开算力封锁的路上,DeepSeek踏出了成功的一步,接下来的“国产模型+国产算⼒+国产云服务+国产应⽤”全国产化AI之路,还要靠产业链上下游的生态伙伴合力闯出来。

近期,MIT科技评论的一篇《除DeepSeek之外值得关注的4家中国AI初创公司》报道引起广泛关注。无问芯穹是其中唯一一家专注于AI基建和算力供给、让现有算力资源发挥出价值的公司。

DeepSeek证明了利用有限算力加上软件和工程创新,足以做出强大的模型,也让国际意识到中国还存在若干路径独特的团队,正在探寻“用Scaling Law比拼模型精度的巨头竞赛”之外可能出奇制胜的路径。这些路径能够跨越软硬件,攒动上下游,从而产生意外的战略奇袭。

最终,只有中国AI开发应用成本降下来、中国算力资源用起来,才能摆脱算力限制和算力闲置的掣肘,推动实现千行百业的大模型应用繁荣。

对文章打分

七种国产AI芯片打通DeepSeek 一条“中国特色”算力路线浮出水面

1 (50%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      Top 10

      招聘

      created by ceallan