和其他优秀的助手一样,人工智能对你了如指掌。它知道你住在哪里,在哪里工作。它可能知道你喜欢吃什么食物,这个周末打算做什么。如果你特别健谈,它甚至可能知道你是否在考虑离婚或考虑破产。
这就是为什么研究人员设计的一种可以通过网络读取人工智能助手加密回复的攻击令人震惊。这些研究人员来自以色列的进攻型人工智能研究实验室(Offensive AI Research Lab),他们发现,除了Google Gemini之外,大多数使用流媒体与大型语言模型交互的主要人工智能助手都存在一个可利用的侧信道。然后,他们演示了如何利用 OpenAI 的 ChatGPT-4 和微软的 Copilot 的加密网络流量。
研究人员在论文中写道:"我们能够准确地重建 29% 的人工智能助手的回答,并成功地从 55% 的回答中推断出主题。"
最初的攻击点是标记长度侧信道。研究人员解释说,在自然语言处理中,标记是包含意义的最小文本单位。例如,"我的皮疹很痒"这句话可以标记化如下:S = (k1, k2, k3, k4, k5),其中标记为 k1 = I, k2 = have, k3 = an, k4 = itchy, k5 = rash。
然而,令牌是大型语言模型服务处理数据传输的一个重要漏洞。也就是说,当 LLM 以一系列令牌的形式生成和发送响应时,每个令牌都会在生成的同时从服务器发送给用户。虽然这一过程是加密的,但数据包的大小会泄露令牌的长度,从而有可能让网络上的攻击者读取对话内容。
研究人员说,从标记长度序列推断回复内容具有挑战性,因为回复可能长达数句,从而产生数百万个语法正确的句子。为了解决这个问题,他们:(1)使用大型语言模型来翻译这些序列;(2)为 LLM 提供句子间上下文,以缩小搜索空间;(3)根据目标模型的写作风格对模型进行微调,从而进行已知纯文本攻击。
他们写道:"据我们所知,这是第一项使用生成式人工智能进行侧信道攻击的工作。"
研究人员已经就他们的工作联系了至少一家安全厂商 Cloudflare。自从接到通知后,Cloudflare 表示它已经实施了一项缓解措施,以保护自己名为 Workers AI 的推理产品的安全,并将其添加到 AI Gateway 中,以保护客户的 LLM,无论它们在哪里运行。
在论文中,研究人员还提出了一项缓解建议:在每条信息中加入随机填充,以隐藏信息流中标记的实际长度,从而使仅根据网络数据包大小来推断信息的尝试变得更加复杂。