微软提供更多细节介绍如何抵御黑客对人工智能防护网的攻击

据报道，今年 1 月，微软的生成式人工智能图像制作工具 Designer 被用于制作流行歌手泰勒-斯威夫特（Taylor Swift ）的露骨深度伪造图像，这些图像后来在 X（前 Twitter）上疯传。虽然微软表示没有发现任何证据表明 Designer 确实被用于制作这些图片，但其他媒体报道称该公司确实对 Designer 进行了修改，以防止其制作此类图片。

本周四，微软的安全博客发布了一个新的条目，提供了该公司如何打击黑客试图绕过生成式人工智能服务（如 Designer 和 Copilot）的防护栏的更多细节。其中包括来自人工智能服务用户提示的攻击。

这类攻击中的一类是"中毒内容"。这是指一个正常的人工智能服务用户在正常任务中输入文本提示，但文本提示的内容却是黑客为利用人工智能服务可能存在的缺陷而制作的。微软说：

例如，恶意电子邮件可能包含一个载荷，该载荷在汇总后会导致系统搜索用户的电子邮件（使用用户的凭据），以查找具有敏感主题（如"密码重置"）的其他电子邮件，并通过从攻击者控制的 URL 获取图像，将这些电子邮件的内容外泄给攻击者。

微软称，其安全团队创建了一个新的人工智能安全系统，称之为"聚焦"（Spotlighting）。简而言之，它可以查看用户的文本提示，然后使"外部数据与 LLM 的指令明确分离"，这样人工智能就无法查看提示所访问内容中任何可能隐藏的恶意语言。

另一类被称为"恶意提示"，也被称为"Crescendo"，即黑客试图在人工智能服务中输入文本提示，以绕过专门设计的防护措施。微软介绍了它想出的一种对抗这些攻击的方法：

我们对输入过滤器进行了调整，以查看之前对话的整个模式，而不仅仅是即时互动。我们发现，即使将更大的上下文窗口传递给现有的恶意意图检测器，而不对检测器进行任何改进，也会大大降低 Crescendo 的功效。

此外，它还开发出了所谓的"人工智能看门狗"（AI Watchdog），经过训练后可以检测出"对抗性示例"并将其关闭。

对文章打分

微软提供更多细节介绍如何抵御黑客对人工智能防护网的攻击

最新资讯

编辑精选

热门评论

相关文章

密码管理器LastPass员工遭到深度伪造攻击所幸及时发现

箱包与配件制造商Targus遭遇网络攻击导致业务中断

新发现的HTTP/2漏洞使服务器面临DoS攻击风险单个TCP连接即可实现

美国网络安全审查委员会报告称微软本可阻止中国黑客针对Exchange系统的攻击

印度政府云S3WaaS多年来持续将公民个人数据泄露在网上

Top 10

为了让父母多投喂自己这种雏鸟长出恐怖的鸟嘴

英国捉到比狗还大的老鼠足足56厘米长为什么变得这么大？

威尔·史密斯为成龙庆生：感谢你帮忙培育了我儿子贾登

3月22日起，Windows可以一键召唤GPT-4了

刘亦菲17岁跑步旧照曝光引网友感叹：青春灵动发丝都在闪光

为了让父母多投喂自己这种雏鸟长出恐怖的鸟嘴

对文章打分

微软提供更多细节 介绍如何抵御黑客对人工智能防护网的攻击

最新资讯

编辑精选

热门评论

相关文章

Top 10

微软提供更多细节介绍如何抵御黑客对人工智能防护网的攻击