研究发现最好的视觉学习模型在最基本的识别测试中也会失败

人工智能系统的最新进展大大提高了它们识别和分析复杂图像的能力。然而，一篇新论文揭示出，许多最先进的视觉学习模型在人类认为容易的简单视觉任务上都很吃力，比如计算网格中的行数或两条线相交的次数。

奥本大学和阿尔伯塔大学的研究人员最近发表了一篇题为"视觉语言模型是盲目的"的论文。该研究使用了八种直接的视敏度测试来突出视觉学习模型（VLM）的缺陷。这些任务包括计算相交线、识别圈出的字母、计算嵌套的形状等。这些测试都有客观明确的答案，除了基本的二维图形外，只需要最低限度的知识。

为了避免模型通过记忆来完成这些任务，研究人员使用自定义代码而不是预先存在的图像来生成测试。他们评估了四种 VLM 模型，包括 GPT-4o、Gemini-1.5 Pro、Sonnet-3 和 Sonnet-3.5。结果表明，没有一个模型能达到完美的准确度，而且根据任务的不同，性能也有很大差异。

例如，表现最好的模型只能数出空白网格中的行和列，准确率不到 60%。相反，Gemini-1.5 Pro 的性能接近人类水平，能在 93% 的情况下正确识别带圈字母。

此外，即使对任务稍作修改，也会导致性能的显著变化。虽然所有模型都能正确识别五个重叠的圆环，但当圆环数量增加到六个或更多时（上图），准确率就会下降到 50%以下。研究人员推测，准确率下降的原因可能是偏向于奥林匹克标志的五环相扣。有些模型甚至提供了无意义的答案，例如"Subdermatoglyphic"（下图）中圈出的字母是"9"、"n"或"©"。

这些发现凸显了 VLM 在处理低级抽象视觉任务能力上的巨大局限性。这种行为让人联想到大型语言模型的类似能力差距，这些模型可以生成连贯的文本摘要，但却无法解决基本的数学和拼写问题。研究人员假设，这些差距可能源于模型无法超越其训练数据。然而，使用其中一项任务（两个圆圈相碰测试）中的特定图像对模型进行微调，准确率仅从17%略微提高到37%，这表明模型过度适应了训练集，但却无法泛化。

研究人员提出，VLMs 的这些能力差距可能是由于将视觉编码器整合到预先训练的语言模型的"后期融合"方法造成的。他们认为，从一开始就将视觉和语言训练结合起来的"早期融合"方法可以提高低级视觉任务的表现。不过，他们没有提供支持这一建议的分析。

您可以在该团队的网站上查看结果和其他示例。

对文章打分

研究发现最好的视觉学习模型在最基本的识别测试中也会失败

最新资讯

编辑精选

热门评论

相关文章

Anthropic称五角大楼“供应链风险”标签对业务影响小于预期

GitHub Copilot仅用数小时完成接入OpenAI最新旗舰模型GPT‑5.4

千问团队多位核心人员接连离职阿里：并非集体辞职

GPT-5.4"原生操控电脑"实测封神 OpenClaw天选模型来了

奥特曼暗讽Anthropic：政府权力本应比私营公司大

美国风投大佬预言：今天的儿童未来将不需要工作

Top 10

极客湾疑似遭"全网封杀"!背后力量深不可测？

苹果升级iPad Air 搭载M4 芯片、支持 Wi‑Fi 7 售价不变

DeepSeek V4 Lite悄然更新：2000亿小参数性能逼近美国顶流

微信新能力上线可查图片使用次数

极客湾疑似遭"全网封杀"!背后力量深不可测？

极客湾遭"封杀"引热议连YouTube视频都下架了