Google DeepMind 推出评估AI模型危险性的新框架

Google DeepMind 周五发布了一个框架，用于窥视人工智能模型内部，以确定它们是否正在接近危险能力。周五发布的论文描述了这样一个过程：每当用于训练模型的计算能力提高六倍，或者微调三个月，DeepMind 的模型就会被重新评估。在两次评估之间，DeepMind 将设计预警评估。

根据一份与 Semafor 独家分享的声明，DeepMind 将与其他公司、学术界和立法者合作，共同完善该框架。该公司计划在2025年前开始实施其审计工具。

如今，评估功能强大的前沿人工智能模型更像是一个临时过程，随着研究人员开发新技术而不断演变。"红队"会花费数周或数月的时间对其进行测试，尝试可能绕过保障措施的不同提示。然后，公司会采用各种技术，从强化学习到特殊提示，使模型符合要求。

这种方法对现在的模型很有效，因为它们还不够强大，不足以构成太大的威胁，但研究人员认为，随着模型能力的增强，需要一个更强大的过程。批评者担心，当人们意识到这种技术已经走得太远时，为时已晚。

DeepMind 发布的"前沿安全框架"希望解决这个问题。这是包括 Meta、OpenAI 和微软在内的主要科技公司为减轻人们对人工智能的担忧而宣布的几种方法之一。

该公司表示："尽管这些风险超出了现有模型的能力范围，但我们希望实施和改进该框架将有助于我们做好应对这些风险的准备。"

DeepMind 开发人工智能模型"预警"系统已有一年多时间。它还发表了关于评估模型的新方法的论文，这些方法远远超出了目前大多数公司所使用的方法。

前沿模型框架将这些进展纳入一套简洁的协议中，包括对模型的持续评估，以及研究人员在发现所谓"临界能力水平"时应采取的缓解方法。这可能是指模型能够通过操纵人类对其施加意志，在人工智能研究领域被称为"超常代理"，也可能是指模型具有编写复杂恶意软件的能力。

DeepMind 为四个领域设定了具体的关键能力级别：自主、生物安全、网络安全和机器学习研发。

该公司表示："在降低风险与促进获取和创新之间取得最佳平衡，对于负责任地发展人工智能至关重要。"DeepMind 将于下周在首尔举行的人工智能安全峰会上讨论该框架，届时其他行业领袖也将出席。

令人鼓舞的是，DeepMind 的人工智能研究人员正在用更科学的方法确定人工智能模型内部发生了什么，尽管他们还有很长的路要走。

研究人员在能力方面取得突破的同时，也在提高他们理解并最终控制这些软件的能力，这对人工智能安全也很有帮助。

不过，今天发布的论文对如何进行这些评估的技术细节着墨不多。就目前而言，可以说我们还不知道目前的技术是否能让这个框架取得成功。

这其中还有一个有趣的监管因素。由加州参议员斯科特-维纳（Scott Wiener）发起的一项新的人工智能综合法案将要求人工智能公司在训练模型之前对其危险性进行评估。这个框架是目前看到的第一个可能使遵守该法律成为可能的框架。但同样还不清楚技术上是否可行。

还有一点：构建这些技术还有另一种用途：它可以帮助公司预测人工智能模型的能力在未来数月或数年内会发生怎样的变化。这些知识可以帮助产品团队更快地设计出新产品，从而为Google和其他有能力进行这些评估的公司带来优势。

最新资讯