但首先,这到底是什么意思?难道人们不能随机抽取一个号码吗?你又如何判断一个人这样做成功与否呢?这其实是我们人类一个非常古老且众所周知的局限性:我们对随机性过度思考和误解。
让一个人预测 100 次掷硬币的正面或反面,然后将其与 100 次实际掷硬币进行比较--你几乎总能将它们区分开来,因为从反面来看,真正的掷硬币看起来并不那么随机。例如,经常会出现连续 6 或 7 次正面或反面的情况,而几乎没有人在 100 次预测中会出现这种情况。
当你让别人在 0 和 100 之间选一个数字时,情况也是一样。人们几乎从不选 1 或 100。他们通常会选择以 7 结尾的数字,一般是从中间的某个位置开始。
心理学中这种可预测性的例子数不胜数。但这并不意味着人工智能做同样的事就不奇怪。
是的,Gramener 公司一些好奇的工程师 做了一个非正式但却很有趣的实验,他们只是让几个主要的 LLM 聊天机器人随机选择一个 0 到 100 之间的数字。
结果不是随机的。
所有三个被测试的模型都有一个"最喜欢"的数字,在最确定的模式下,这个数字总是它们的答案,但即使在更高的"温度"下,这个数字也会经常出现,从而增加了结果的可变性。
OpenAI 的 GPT-3.5 Turbo 非常喜欢 47。在此之前,它喜欢的是 42当然,道格拉斯-亚当斯(Douglas Adams)在《银河系漫游指南》(The Hitchhiker's Guide to the Galaxy)中将这个数字作为生命、宇宙和万物的答案而闻名于世。
Anthropic 的 Claude 3 Haiku 选择了 42。Gemini喜欢 72。
更有趣的是,即使在高温条件下,这三种模型在选择数字时都表现出了类似人类的偏差。
所有人都倾向于避免低位和高位数字;克劳德从未超过 87 或低于 27,即使这些数字也是异常值。两位数被严格避免:没有 33、55 或 66,但 77 出现过(以 7 结尾)。几乎没有四舍五入的数字--不过Gemini曾经在脑袋发热的时候,疯狂地选择了 0。
为什么会这样?人工智能不是人类!它们为什么要在乎什么是"看似"随机的?难道它们终于有了意识,而这就是它们的表现形式?
答案是,就像这些东西通常的情况一样,我们把它们拟人化得太远了。这些模型并不关心什么是随机,什么不是随机。它们不知道什么是"随机性"!它们回答这个问题的方式与回答其他问题的方式相同:通过查看训练数据,重复在类似"随机选取一个数字"的问题后最常出现的内容。出现的次数越多,模型重复的次数就越多。
如果几乎没有人这样回答,他们会在训练数据中看到 100 吗?就人工智能模型所知,100 并不是一个可以接受的答案。由于没有实际的推理能力,也不懂数字,它只能像鹦鹉一样随机回答问题。
这是一堂关于 LLM 习惯以及它们可能表现出的人性的客观课。在与这些系统的每一次互动中,我们都必须牢记,它们已被训练成以人的方式行事,即使这并非它们的本意。这就是伪善难以避免或预防的原因。
如果说这些模型"认为自己是人"会有点误导,因为他们根本不会思考。但在回答问题时,它们随时都在模仿人类,根本不需要了解或思考。无论你是向它询问鹰嘴豆沙拉食谱、投资建议还是随机数字,过程都是一样的。结果之所以让人感觉像人,是因为它们是人类制作的,是直接从人类制作的内容中提取并重新混合的--为了你的方便,当然也是为了大型人工智能的底线。