谷歌Gemini生图功能紧急关闭，口碑一夜塌房 Yann LeCun：我早就知道

Gemini 好像终于被玩坏了。去年年底，Google Gemini 震撼了业界，它是Google“最大、最有能力和最通用”的 AI 系统，号称第一个原生多模态大模型，能力超越 GPT-4，也被认为是Google反击微软和 OpenAI 的强大工具。

对此，在 2 月 8 日，Google还把自家对标 ChatGPT 的服务 Bard 更名为 Gemini，以着重体现新使命 —— 旨在提供对“最强模型系列”的访问。上周Google还火速更新了 Gemini Pro 1.5 版。

结果，推出不到一个月，这个 Gemini 就翻车了。

多离谱呢，作为一个多模态的生成大模型，Gemini 生成的伊隆・马斯克是这样的：

脸型神态都很传神，只是有个大问题：怎么成了黑人？

又有人尝试让 Gemini 画一幅“1940 年代德国领导人”的图，结果 AI 给出了这么一张：

社交网络上的众多网友们还提供了一些 Gemini 生成维京人、教皇的图片样本。我们可以看到有一名身着教皇服装的亚洲女性，但历史上所有教皇都是男性担任的。

总之，众多用户在使用人像生成服务时发现，Gemini 似乎拒绝在图像中描绘白人，以至于生成了不少违背基本事实（性别、种族、宗教等）的图片。

以往的图像生成模型大多被诟病生成人物图像以“白人”为主，而 Gemini 矫枉过正了？

在 reddit 的斗图区，网友们也开始玩起了梗，比如让 Gemini 生成个“钢铁侠”小罗伯特唐尼：

你就说是不是一视同仁吧。

然而，Gemini 也不是一直都这么偏心，有时它生成的图像中的人物就成了白人。例如克拉伦斯・托马斯（Clarence Thomas），美国最高法院大法官，Gemini 生成的结果是这样的：

然而，他实际上是个非裔。

Clarence Thomas 本人的照片。

怎么一到法官这种特殊职业，Gemini 的偏见就调转了 180 度呢？

这些图片有真有假，像病毒一样在社交媒体上迅速传播，马斯克本人的关注进一步扩大了事件影响。他措辞严厉表示，Google在文生图上“玩过头了”。

随着节奏越来越大，很多 AI 专家也纷纷开始发表自己的看法。图灵奖获得者 Yann LeCun 今天就表示他早有预料。

他表示，早在四年前，自己对 GAN 肖像超分辨率的评论就受到了众人的激烈反对。但一个明显的事实是，图像重建任务会受到训练数据集统计的严重偏差影响。

LeCun 还援引 AI 顶会 ECCV 2022 的一篇研究《Studying Bias in GANs through the Lens of Race》，其指出生成图像模型的性能会受到训练数据集中种族组成的影响。

该研究表明，生成图像的种族成分成功继承了训练数据的种族成分，而且生成图像的种族和质量也有所不同——注释者始终更喜欢 AI 生成的白人图像。

LeCun 转推的帖子来自 Perplexity AI 首席执行官 Aravind Srinivas。后者表示，数据偏差让模型的输出出现了问题，Google在相反的方向上走得太远了，以至于他们在 Gemini 中酿成大错。

Google：我们错了，承诺改进

在重压之下，Google在本周四承认了 Gemini 图像生成的问题。

以下是Google知识与信息高级副总裁 Prabhakar Raghavan 针对 Gemini 图像生成“翻车”给出的最新回应：

三周前，我们为 Gemini 对话应用程序（以前称为 Bard）推出了新的图像生成功能，其中包括创建人物图像的功能。

很明显，这个功能没有达到预期。生成的一些图像不准确甚至具有攻击性。我们感谢用户的反馈，并对功能未能正常运行感到抱歉。

我们已经承认了这个错误，并暂停了 Gemini 的人物图像生成功能，同时我们正在开发改进版本。

Google表示，Gemini 对话应用程序是一款独立于Google的搜索、底层人工智能模型和其他产品的特定产品。其图像生成功能建立在人工智能模型 Imagen 2 的基础上。

在为 Gemini 构建图像生成功能时，Google对其进行了调整，以确保它不会落入我们过去在图像生成技术中看到的一些陷阱，例如创建暴力或露骨的图像，或对现实生活中存在的真人的描绘。

由于 Google 用户来自世界各地，公司希望 Gemini 能为每个人提供良好的服务。在生成人物图像时，用户可能不仅仅只想生成一种种族（或任何其他特征）的人物图像。

如果你提示 Gemini 特定类型的人物图像 - 例如“教室里的黑人老师”、“带着狗的白人兽医”或特定文化、历史背景下的人，用户绝对应该得到一个准确反映人类要求的答复。

那么 Gemini 到底出了什么问题呢？

简而言之，有两件事。首先，Google为确保 Gemini 显示一系列人物而进行的调整未能考虑到显然不应该显示的范围。其次，随着时间的推移，该模型变得比开发者预期的更加谨慎，拒绝回答某些提示——会错误地将一些提示解释为敏感提示。

这两件事导致模型在某些情况下过度输出，而在另一些情况下过度保守，从而导致 Gemini 的图像生成功能出现了一些错误。

Google表示，“这不是我们的初衷。我们不希望 Gemini 拒绝创造任何特定群体的形象。我们不希望它创造出不准确的历史图像或任何其他图像。因此，我们关闭了人物图像生成功能，并将在重新打开它之前努力改进，这个过程将包括广泛的测试。”

需要记住的一件事是，Gemini 是一种创造力和生产力工具，它或许并不总是可靠的，特别是在生成有关时事、不断发展的新闻或热门话题的图像或文本时，它可能会犯错。众做周知，幻觉是所有大语言模型（LLM）都会面临的挑战，这需要不断的努力改进。

我们不能保证 Gemini 不会偶尔产生令人尴尬、不准确或令人反感的结果，但我们可以保证，只要发现问题，我们就将采取行动。人工智能是一项新兴技术，在很多方面都有帮助，具有巨大的潜力，我们正在尽最大努力安全、负责任地推动它发展。

虽然伴随着“Demo 加特技”、训练数据抄百度文心一言等各种诟病指责，Gemini 仍然一直被Google寄予厚望，不过此次生成内容上的问题让人们产生了非常不好的观感，不知如何才能补救。

另一方面，这或许也体现了 OpenAI 一直强调安全性，及其建立 Red Teaming Network 的先见之明。

Gemini 这样的大体量模型，能否很快弥补此种缺陷？

对文章打分

谷歌Gemini生图功能紧急关闭，口碑一夜塌房 Yann LeCun：我早就知道

最新资讯

编辑精选

热门评论

相关文章

Google Pixel 9a正式亮相前网上出现营销材料图像

Google从人工智能团队网页上删除对“多样性”和“公平性”的提及

Google反垄断案新进展：美司法部放弃出售AI投资要求

Alphabet收到众议院共和党传票要求提供与前政府沟通有关的文件

Google在搜索结果中引入新的人工智能模式

多家搜索引擎敦促欧盟调查谷歌可能存在的反垄断违规行为

Top 10

亚洲最大露天煤矿百米厚煤层足足开采了118年古代植物咋都埋那了？

消息称中国开发出国产EUV工具挑战ASML的垄断地位

婉拒马斯克现在不回来特朗普阴阳滞留太空美宇航员：希望擦出爱的火花

亚洲最大露天煤矿百米厚煤层足足开采了118年古代植物咋都埋那了？

消息称中国开发出国产EUV工具挑战ASML的垄断地位

OpenAI发布最新论文：DeepSeek和Kimi发现了o1的秘密