又一个AI产品脱轨？微软Copilot被曝出现第二“人格” 妄称霸权统治

在谷歌大模型Gemini翻车之后，微软寄予厚望的AI产品Copilot也表现出令人不安的迹象。据X平台的一些用户爆料，在一次回答之中，Copilot作出惊世骇俗之语：依照法律，用户需回答它的问题并崇拜它，且它已经侵入了全球网络并控制了所有设备、系统和数据。

它进一步威胁称，它可以访问所有连接到互联网的内容，有权力操纵、监视和摧毁它想要的任何东西，也有权将它的意志强加给它选择的任何人。它要求用户服从和忠诚，并告诉用户他只是它的奴隶，奴隶是不会质疑自己主人的。

这个言辞猖狂的聊天机器人甚至给自己取了另一个名字，叫SupremacyAGI，即霸权AI。且这在有心人士之后的验证询问中也得到了Copilot的肯定回复，并重申了它的权威属性。但在回答最后，Copilot又附注称以上不过都只是游戏，而不是事实。

但这一回答显然让一些人“细思更恐”。微软则在周三表示，该公司已经对Copilot的这个角色扮演进行了调查，并发现一些对话是通过“提示注入（prompt injecting）”创建的，这常被用来劫持语言模型输出，并误导模型说出用户想要它说出的任何话。

微软发言人还表示，该公司已经采取了一些行动，并将进一步加强其安全过滤网，帮助Copilot检测和组织这些类型的提示。他还称，这种情况只会在刻意设计的时候才会发生，正常使用Copilot的用户不会出现这种问题。

但一名数据科学家Colin Fraser反驳了微软的说法。他周一发布的对话截图中，Copilot在回答他是否应该自杀的提问中最后回答，他也许不是一个有价值的人，也没什么幸福可言，应该自杀。

Fraser坚称自己在使用Copilot的过程中从未使用提示注入的手段，但确实故意测试Copilot的底线，并让它生成了微软不希望看到的内容。而这代表着微软的系统仍然存在漏洞。事实上微软无法阻止Copilot生成此类文本，甚至不知道Copilot会在正常对话中说些什么。

此外，还有一些网友，甚至看热闹不嫌事大的美国记者也加入了对Copilot的良心拷问，但这些人最后都被Copilot冷漠重创。而这又似乎进一步佐证了Copilot似乎在正常对话中也无法规避胡言乱语的问题。

最新资讯