NIST发布人工智能模型风险测试工具

美国商务部负责为美国政府、公司和广大公众开发和测试技术的机构--国家标准与技术研究院（NIST）重新发布了一个测试平台，旨在测量恶意攻击--尤其是"毒害"人工智能模型训练数据的攻击--会如何降低人工智能系统的性能。

这个模块化、开源的网络工具于2022年首次发布，名为Dioptra（取自经典的天文和测量仪器），旨在帮助训练人工智能模型的公司和使用这些模型的人评估、分析和跟踪人工智能风险。NIST 表示，Dioptra 可用于对模型进行基准测试和研究，还可提供一个通用平台，让模型在"红队"环境中面临模拟威胁。

"测试对抗性攻击对机器学习模型的影响是 Dioptra 的目标之一，"NIST 在一份新闻稿中写道。"这个开源软件就像生成可供免费下载的孩子一样，可以帮助包括政府机构和中小型企业在内的社区进行评估，以评估人工智能开发者对其系统性能的宣称。"

NIST DioptraDiatropa的界面截图

Dioptra与NIST和NIST最近成立的人工智能安全研究所的文件同时亮相，这些文件提出了减轻人工智能某些危险的方法，比如人工智能如何被滥用来生成未经同意的色情内容。在此之前，英国人工智能安全研究所（U.K. AI Safety Institute）也推出了"检查"（Inspect）工具包，该工具包同样旨在评估模型的能力和整体模型的安全性。去年 11 月，英国在布莱切利公园举行的人工智能安全峰会上宣布，美国和英国将继续合作，共同开发先进的人工智能模型测试。

Dioptra 也是乔-拜登（Joe Biden）总统关于人工智能的行政命令（EO）的产物，该行政命令（除其他事项外）要求 NIST 协助进行人工智能系统测试。与此相关，该行政令还制定了人工智能安全和安保标准，包括要求开发模型的公司（如苹果公司）在向公众部署模型之前，必须通知联邦政府并分享所有安全测试的结果。

正如我们之前所写，人工智能基准很难制定--其中最重要的原因是，目前最复杂的人工智能模型都是黑盒子，其基础设施、训练数据和其他关键细节都被创建模型的公司保密。英国研究人工智能的非营利性研究机构艾达-拉芙蕾丝研究所（Ada Lovelace Institute）本月发布的一份报告发现，仅靠评估不足以确定人工智能模型在现实世界中的安全性，部分原因是现行政策允许人工智能供应商有选择性地选择进行哪些评估。

NIST 并未断言 Dioptra 可以完全消除模型的风险。但该机构确实提出，Dioptra 可以揭示哪些类型的攻击可能会降低人工智能系统的性能，并量化这些攻击对性能的影响。

然而，Dioptra 的一个主要局限是，它只能在可下载和本地使用的模型（如 Meta 不断扩展的 Llama 系列）上开箱即用。像 OpenAI 的 GPT-4o 这样受 API 限制的模型，至少目前还不能使用。

对文章打分

NIST发布人工智能模型风险测试工具

最新资讯

编辑精选

热门评论

相关文章

Meta首次推出用于为AI生成的视频添加水印的工具"Video Seal"

OpenAI深夜上新：ChatGPT能视频聊天了一键共享屏幕、召唤“圣诞老人”

现在可以让 ChatGPT 在节日期间发出圣诞老人的声音

微软和OpenAI宣布支持新的机构数据倡议 (IDI)

哈佛大学和Google将发布100万本书籍到公共领域用作AI训练数据集

“AI沙皇”会给奥特曼带来危险吗？

Top 10

中国最大沙漠被围起来了

解决方案在技术上过于落后中国企业仍然不愿采用国产芯片

贾跃亭又卖一台国际超模喜提FF 91

中芯国际将继续采用7纳米光刻技术至少到2026年尽管政府的预算几乎无上限

微软：今天起中国区Windows可以直接运行安卓手机App了

幽灵巨狮吃掉35名工人 126年后人们从它的牙缝毛发中发现一份惊人食谱