据报道,今年 1 月,微软的生成式人工智能图像制作工具 Designer 被用于制作流行歌手泰勒-斯威夫特 (Taylor Swift )的露骨深度伪造图像,这些图像 后来在 X(前 Twitter)上疯传。虽然微软 表示没有发现任何证据表明 Designer 确实被用于制作这些图片,但其他媒体报道称该公司确实对 Designer 进行了修改,以防止其制作此类图片。
本周四,微软的安全博客发布了一个新的条目,提供了该公司如何打击黑客试图绕过生成式人工智能服务(如 Designer 和 Copilot)的防护栏的更多细节。其中包括来自人工智能服务用户提示的攻击。
这类攻击中的一类是"中毒内容"。这是指一个正常的人工智能服务用户在正常任务中输入文本提示,但文本提示的内容却是黑客为利用人工智能服务可能存在的缺陷而制作的。微软说:
例如,恶意电子邮件可能包含一个载荷,该载荷在汇总后会导致系统搜索用户的电子邮件(使用用户的凭据),以查找具有敏感主题(如"密码重置")的其他电子邮件,并通过从攻击者控制的 URL 获取图像,将这些电子邮件的内容外泄给攻击者。
微软称,其安全团队创建了一个新的人工智能安全系统,称之为"聚焦"(Spotlighting)。简而言之,它可以查看用户的文本提示,然后使"外部数据与 LLM 的指令明确分离",这样人工智能就无法查看提示所访问内容中任何可能隐藏的恶意语言。
另一类被称为"恶意提示",也被称为"Crescendo",即黑客试图在人工智能服务中输入文本提示,以绕过专门设计的防护措施。微软介绍了它想出的一种对抗这些攻击的方法:
我们对输入过滤器进行了调整,以查看之前对话的整个模式,而不仅仅是即时互动。我们发现,即使将更大的上下文窗口传递给现有的恶意意图检测器,而不对检测器进行任何改进,也会大大降低 Crescendo 的功效。
此外,它还开发出了所谓的"人工智能看门狗"(AI Watchdog),经过训练后可以检测出"对抗性示例"并将其关闭。