由著名人工智能研究员 François Chollet 共同创立的非营利组织 Arc Prize Foundation 周一在一篇博客文章中宣布,它已经创建了一项新的具有挑战性的测试,以衡量领先人工智能模型的通用智能。到目前为止,名为 ARC-AGI-2 的新测试让大多数模型都难以通过。
根据Arc Prize 排行榜,OpenAI 的 o1-pro 和 DeepSeek 的 R1 等“推理”AI 模型在 ARC-AGI-2 上的得分在 1% 到 1.3% 之间。包括 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Flash 在内的强大的非推理模型得分约为 1%。
ARC-AGI 测试由一些类似拼图的问题组成,其中人工智能必须从一组不同颜色的方块中识别视觉图案,并生成正确的“答案”网格。这些问题旨在迫使人工智能适应它从未见过的新问题。
Arc Prize Foundation 让 400 多人参加了 ARC-AGI-2 测试,以建立人类基准。平均而言,这些人的“小组”答对了 60% 的测试问题——比任何模型的得分都要好得多。
Arc-AGI-2 的一个示例问题(来源:Arc Prize)
在X 上的一篇文章中,Chollet 声称 ARC-AGI-2 比测试的第一次迭代 ARC-AGI-1 更能衡量 AI 模型的实际智能。Arc Prize Foundation 的测试旨在评估 AI 系统是否能够有效地在其训练数据之外获得新技能。
Chollet 表示,与 ARC-AGI-1 不同,新测试阻止 AI 模型依赖“蛮力”——大量计算能力——来寻找解决方案。Chollet 此前承认这是 ARC-AGI-1 的一个重大缺陷。
为了解决第一个测试的缺陷,ARC-AGI-2 引入了一个新指标:效率。它还要求模型能够即时解释模式,而不是依赖记忆。
Arc Prize Foundation 联合创始人 Greg Kamradt 在一篇博客文章中写道:“智能不仅仅由解决问题或取得高分的能力来定义。获取和部署这些能力的效率是一个至关重要的决定性因素。核心问题不仅仅是‘人工智能能否获得解决任务的技能?’,还有‘效率或成本如何?’”
ARC-AGI-1 保持了大约五年的不败战绩,直到 2024 年 12 月,OpenAI 发布了其高级推理模型 o3,该模型的表现优于所有其他 AI 模型,并在评估中与人类表现相当。然而,正如我们当时所指出的,o3 在 ARC-AGI-1 上的性能提升是付出了高昂代价的。
OpenAI 的 o3 模型版本 o3(低)在 ARC-AGI-1 上首次达到新高度,在测试中得分为 75.7%,但在 ARC-AGI-2 上仅获得 4% 的微弱优势,每个任务使用价值 200 美元的计算能力。
Frontier AI 模型在 ARC-AGI-1 和 ARC-AGI-2 上的性能比较(来源:Arc Prize)
ARC-AGI-2 的发布正值科技行业众多人士呼吁建立新的、不饱和的基准来衡量人工智能的进步之际。Hugging Face 的联合创始人托马斯·沃尔夫介绍说,人工智能行业缺乏足够的测试来衡量所谓的通用人工智能的关键特征,包括创造力。
除了新的基准之外,Arc Prize 基金会还宣布了一项新的 Arc Prize 2025 竞赛,要求开发人员在 ARC-AGI-2 测试中达到 85% 的准确率,同时每个任务仅花费 0.42 美元。