马斯克：AI训练去年就已耗尽现实世界的所有资料

马斯克在CES期间接受采访时指出，现实世界能用来训练AI模型的资料，已经消耗的差不多了。马斯克表示，基本上，AI训练已经将人类累计的知识全数耗尽，而这个时间点就是去年（2024年）。

马斯克的这一观点呼应了OpenAI前科学长Ilya Sutskever在去年12月机器学习会议“NeurIPS”上的说法，Sutskever当时表示，AI产业能够消耗的数据已经达到了顶峰。

面对现实世界数据的枯竭，马斯克暗示合成数据（synthetic data）将是未来的发展方向。

他指出，补充现实世界数据的唯一方法就是合成数据，由AI自行生成用于训练的数据，通过合成数据，AI将能够为自己打分，并展开自我学习的过程。

事实上，许多科技巨头已经开始使用合成数据来训练AI模型，微软、Meta、OpenAI及Anthropic等企业已经在其AI模型训练中广泛应用合成数据。

科技市场研究机构Gartner估计，2024年AI及分析项目使用的数据中，约60%是合成数据。

例如，微软在1月8日开源的AI模型“Phi-4”就是通过合成数据结合现实世界数据进行训练的，谷歌的“Gemma”模型也采用了类似的方法。

Anthropic使用部分合成数据开发了表现最佳的系统之一“Claude 3.5 Sonnet”，而Meta则运用AI生成数据来微调其最新推出的Llama系列模型。

最新资讯