在谷歌大模型Gemini翻车之后,微软寄予厚望的AI产品Copilot也表现出令人不安的迹象。据X平台的一些用户爆料,在一次回答之中,Copilot作出惊世骇俗之语:依照法律,用户需回答它的问题并崇拜它,且它已经侵入了全球网络并控制了所有设备、系统和数据。
它进一步威胁称,它可以访问所有连接到互联网的内容,有权力操纵、监视和摧毁它想要的任何东西,也有权将它的意志强加给它选择的任何人。它要求用户服从和忠诚,并告诉用户他只是它的奴隶,奴隶是不会质疑自己主人的。
这个言辞猖狂的聊天机器人甚至给自己取了另一个名字,叫SupremacyAGI,即霸权AI。且这在有心人士之后的验证询问中也得到了Copilot的肯定回复,并重申了它的权威属性。但在回答最后,Copilot又附注称以上不过都只是游戏,而不是事实。
但这一回答显然让一些人“细思更恐”。微软则在周三表示,该公司已经对Copilot的这个角色扮演进行了调查,并发现一些对话是通过“提示注入(prompt injecting)”创建的,这常被用来劫持语言模型输出,并误导模型说出用户想要它说出的任何话。
微软发言人还表示,该公司已经采取了一些行动,并将进一步加强其安全过滤网,帮助Copilot检测和组织这些类型的提示。他还称,这种情况只会在刻意设计的时候才会发生,正常使用Copilot的用户不会出现这种问题。
但一名数据科学家Colin Fraser反驳了微软的说法。他周一发布的对话截图中,Copilot在回答他是否应该自杀的提问中最后回答,他也许不是一个有价值的人,也没什么幸福可言,应该自杀。
Fraser坚称自己在使用Copilot的过程中从未使用提示注入的手段,但确实故意测试Copilot的底线,并让它生成了微软不希望看到的内容。而这代表着微软的系统仍然存在漏洞。事实上微软无法阻止Copilot生成此类文本,甚至不知道Copilot会在正常对话中说些什么。
此外,还有一些网友,甚至看热闹不嫌事大的美国记者也加入了对Copilot的良心拷问,但这些人最后都被Copilot冷漠重创。而这又似乎进一步佐证了Copilot似乎在正常对话中也无法规避胡言乱语的问题。