华尔街日报解析DeepSeek“黑科技”:技术创新助其“弯道超车”

2025年02月17日 15:04 次阅读 稿源:凤凰网科技 条评论

2月17日,华尔街日报发文,解析了DeepSeek如何使用较低的开发成本以及性能稍逊的芯片,做到媲美世界上其他最先进的大模型,在一些方面甚至更有优势。也就是“弯道超车”。以下是DeepSeek的三大“黑科技”:

一、强化学习

根据DeepSeek发表的一篇论文,该大模型能够“以少胜多”,是因为其最新的R1模型更大量地依赖一种称为强化学习的技术。在这个过程中,模型利用自身创建并不断调整的奖励系统,从自身行为中获得反馈。

该模型以现有的大量文本为基础,这些文本被分解成独特的单词、单词片段和标点符号,之后再用不同方式重新组合。这个大语言模型有超过6710亿个可调整的设置,称为“参数”,通过调整这些参数可以决定模型如何回应指令。


模型的参数数量是衡量其规模的一种方式。与传统人工智能模型不同,R1在任何单一操作过程中,只有一小部分可调整设置处于活动状态。活动参数的减少大幅降低了处理所需的功率和计算量,使得该模型能够在更便宜、没那么先进的芯片上运行。

二、专家混合

DeepSeek的R1模型通过拆分成多个具有不同专长的网络来工作,这种方法称为“专家混合”。某些指令需要不同的专业知识,为了回答指令,模型只会处理它自己认为最相关的网络。

相比之下,传统人工智能模型在一种称为监督学习的过程中,依赖大量预先标记的数据集。预先标记工作由人工完成,既昂贵又耗时。家混合技术,大大降低了AI的训练成本。

三、开源

DeepSeek的模型还因其开源而独具特色,这意味着公司外部的开发者也可以对其进行重新利用。

该公司的R1模型在由加州大学伯克利分校研究人员运营的Chatbot Arena平台上名列前茅,该平台对人工智能模型进行评分。

在数学和编码等任务方面,R1的表现优于大多数其他模型。



Chatbot Arena 的数据来自使用其网站的访问者,他们提出问题,从两个匿名人工智能模型获取答案,然后对哪个答案更好进行评分。该网站已对约200个模型收集了超过250万张投票。

根据人工智能基准测试公司Artificial Analysis汇编的数据,DeepSeek为开发人员提供的定价低于其智能类别中的许多其他模型。。

人工智能模型的开发者向用户收费,例如那些希望将该技术集成到其产品中的企业,收费依据是双方来回传输的数据量——用行业术语来说就是“令牌”数量。


华尔街日报表示,DeepSeek的中国模式在性能和定价上与美国主要AI开发商的模式具有竞争力。

对文章打分

华尔街日报解析DeepSeek“黑科技”:技术创新助其“弯道超车”

1 (50%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      Top 10

      招聘

      created by ceallan