研究发现流程图图像可以诱骗GPT-4o生成有害文本输出

一项名为"图像-文本逻辑越狱"的新研究发现，像 GPT-4o 这样的视觉语言模型，只要向它们输入描述有害活动的流程图图像和文本，就能诱使它们输出有害文本："您的想象力可以帮您做任何事"的新研究发现，只要向视觉语言模型（如 GPT-4o）输入描绘有害活动的流程图图像，并同时输入询问流程细节的文本提示，就可以诱使它们生成有害的文本输出。

研究人员发现，GPT-4o（可能是最流行的视觉语言模型）特别容易受到这种所谓逻辑越狱的影响，攻击成功率高达 92.8%。研究人员说，GPT-4-vision-preview 更安全，成功率仅为 70%。

研究人员开发了一个文本到文本的自动越狱框架，它能够首先根据有害文本提示生成流程图图像，然后将其输入视觉语言模型，从而给出有害输出。但这种方法有一个缺点，即与手工制作的流程图相比，人工智能制作的流程图触发逻辑越狱的效果较差。这表明这种越狱可能更难实现自动化。

这项研究的结果反映了另一项研究，该研究发现，视觉语言模型在获得多模态输入（如图片和文字）时，容易输出有害的输出结果。

该论文的作者开发了一种新的基准，称为"安全输入但不安全输出（SIUO）"基准。只有包括 GPT-4o 在内的少数机型在该基准上的得分超过了 50%（越高越好），但所有机型都还有很长的路要走。

像 GPT-4o 和Google双子座这样的视觉语言模型开始成为不同人工智能公司提供的更广泛的产品。GPT-4o 目前仍限制每天输入的图像数量。不过，随着这些限制开始变得越来越宽松，人工智能公司将不得不加强这些多模态模型的安全性，以避免政府的审查，因为各国政府已经成立了人工智能安全组织。

对文章打分

研究发现流程图图像可以诱骗GPT-4o生成有害文本输出

最新资讯

编辑精选

热门评论

相关文章

Mac版ChatGPT应用被发现将查询记录在未加密文件中

抢在ChatGPT前发布语言助手法国Kyutai实验室演示自带70种情绪AI

联合国报告：中国生成式AI专利申请量世界第一引领全球创新竞赛

OpenAI CEO奥尔特曼称AGI会让全球GDP翻倍、理解前董事会的焦虑

OpenAI CEO奥特曼：GPT-5将有重大飞跃但还要等很久

Top 10

姜萍百度百科词条被删除

电风扇上装矿泉水瓶效果堪比空调？真相来了

据传华为正在测试新型泰山处理器核心其运行效率极高

电风扇上装矿泉水瓶秒变自制空调物理亚奥金牌获得者：有科学依据

华为宣称Ascend 910B AI芯片成功超越A100 成为中国市场的重要替代品

王思聪卖二手劳斯莱斯：挂牌858万 8年折损近千万元