Anthropic 正在启动一项计划,资助开发能够评估人工智能模型性能和影响的新型基准,包括像其Claude这样的生成模型。Anthropic 的计划于本周一公布,将向第三方组织发放补助金,正如该公司在一篇博文中所说的那样,"有效衡量人工智能模型的先进能力"。 有兴趣的机构可以提交申请,接受滚动评估。
"我们对这些评估的投资旨在提升整个人工智能安全领域,提供有益于整个生态系统的宝贵工具,"Anthropic 在其官方博客上写道。"开发高质量、与安全相关的评估仍具有挑战性,而且供不应求。"
正如之前强调过的,人工智能存在基准问题。目前最常引用的人工智能基准并不能很好地反映普通人是如何实际使用所测试的系统的。此外,还有人质疑某些基准,尤其是在现代生成式人工智能诞生之前发布的那些基准,鉴于其年代久远,是否能衡量它们声称要衡量的东西。
Anthropic 提出的解决方案级别非常高,比听起来更难,它正在通过新的工具、基础设施和方法,创建具有挑战性的基准,重点关注人工智能的安全性和社会影响。
该公司特别呼吁进行测试,评估模型完成任务的能力,如实施网络攻击、"增强"大规模杀伤性武器(如核武器)以及操纵或欺骗他人(如通过深度伪造或错误信息)。对于与国家安全和国防有关的人工智能风险,Anthropic 表示将致力于开发一种"早期预警系统",用于识别和评估风险,但在博文中并未透露这种系统可能包含的内容。
Anthropic还表示,它打算在新项目中支持对基准和"端到端"任务的研究,以探究人工智能在协助科学研究、多语言对话、减少根深蒂固的偏见以及自我审查毒性方面的潜力。
为了实现这一切,Anthropic 公司设想建立新的平台,允许主题专家开发自己的评估项目,并对涉及"成千上万"用户的模型进行大规模试验。该公司表示,它已为该计划聘请了一名全职协调员,并可能购买或扩大它认为有潜力扩大规模的项目。
"我们根据每个项目的需求和阶段提供一系列的资助方案,"Anthropic 在帖子中写道,不过 Anthropic 发言人拒绝提供有关这些方案的更多细节。"团队将有机会与Anthropic的前沿红队、微调、信任与安全以及其他相关团队的领域专家直接互动。"
Anthropic 支持新人工智能基准的努力值得称赞--当然,前提是背后有足够的资金和人力支持。但考虑到该公司在人工智能竞赛中的商业野心,要完全相信它可能很难。
在这篇博文中,Anthropic 相当透明地表示,它希望自己资助的某些评估能与自己制定的人工智能安全分类相一致(第三方也提供了一些意见,如非营利性人工智能研究组织 METR)。这完全是公司的特权。但这也可能迫使项目申请者接受他们可能并不完全认同的"安全"或"有风险"的人工智能定义。
人工智能界的一部分人也可能会对《人类学》中提到的"灾难性"和"欺骗性"人工智能风险(如核武器风险)提出异议。许多专家说,几乎没有证据表明,我们所知的人工智能会在短期内(如果有的话)获得毁灭世界、超越人类的能力。这些专家补充说,即将出现"超级智能"的说法只会把人们的注意力从当前紧迫的人工智能监管问题上吸引开,比如人工智能的幻觉倾向。
Anthropic 在帖子中写道,希望自己的项目能成为"推动未来人工智能综合评估成为行业标准的催化剂"。这是许多开放的、与企业无关的、旨在创建更好的人工智能基准的努力所认同的使命。但这些努力是否愿意与一家最终忠于股东的人工智能供应商联手,还有待观察。