用AI训练AI或导致模型崩溃

ChatGPT、Gemini、Copilot等人工智能（AI）工具可以从简单的一行文本提示中生成令人印象深刻的句子和段落。为了生成这些文本，底层的大语言模型在人类编写的大量文本和从互联网上抓取的内容上进行了训练。

但现在，随着生成式AI工具在互联网上充斥着大量合成内容，这些内容正被用于训练AI的下一代。研究人员表示，如果这种情况持续下去，可能会带来灾难性的后果。

牛津大学的一个计算机科学家团队最近在《自然》（Nature）杂志上指出，用AI自己生成的数据训练大语言模型可能会导致模型崩溃。

该团队采用了一个名为OPT-125m的预训练语言模型，并向其输入了一批维基百科文章来微调其反应。然后，研究小组给这个工具一个文本提示，并要求它预测接下来会发生什么。它的反应被反馈到模型中进行进一步的微调。当每一代都用前一代产生的数据进行训练时，他们发现，到第九代，模型开始胡言乱语了。在另一组实验中，当团队保留了一些原始数据时，模型的退化程度明显较小。

这项研究表明，如果不加控制，利用AI自身生成的数据训练AI将产生严重的后果，包括加剧偏见和将文本变成无意义的废话。大型AI公司确实有办法防止这种崩溃，但随着越来越多的人使用大语言模型来训练自己的聊天机器人和其他AI工具，可能会产生严重的后果。

相关文章:

禁止套娃：专家用AI生成的错误信息为反AI的错误信息法辩护

对文章打分

用AI训练AI或导致模型崩溃

最新资讯

编辑精选

热门评论

相关文章

哈佛大学和Google将发布100万本书籍到公共领域用作AI训练数据集

“AI沙皇”会给奥特曼带来危险吗？

AI革命正在耗尽数据研究人员能做些什么？

ChatGPT突发全球宕机故障持续约2个多小时

Meta AI高管暗批OpenAI：闭源AI是荒谬的开源是唯一出路

微软AI CEO反驳奥特曼：AGI没那么快实现最长还需要10年

Top 10

中国最大沙漠被围起来了

100%国产的麒麟9020和世界最高水平差距还有多大？

解决方案在技术上过于落后中国企业仍然不愿采用国产芯片

中芯国际将继续采用7纳米光刻技术至少到2026年尽管政府的预算几乎无上限

微软：今天起中国区Windows可以直接运行安卓手机App了

幽灵巨狮吃掉35名工人 126年后人们从它的牙缝毛发中发现一份惊人食谱