《神奇宝贝》是人工智能的一个艰难基准? 一组研究人员认为《超级马里奥兄弟》挑战性更高。加利福尼亚大学圣迭戈分校Hao人工智能实验室(Hao AI Lab)的研究人员周五将人工智能投入到现场直播的《超级马里奥兄弟》游戏中。 Anthropic 的 Claude 3.7 表现最好,其次是 Claude 3.5。 Google的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 则表现不佳。
要知道,《超级马里奥兄弟》的版本与 1985 年发布的原版并不完全相同。 游戏在模拟器中运行,并与 GamingAgent 框架集成,让人工智能控制马里奥。
Hao AI Lab自行开发的 GamingAgent 向人工智能提供了基本指令,如"如果有障碍物或敌人靠近,向左移动/跳跃躲避"以及游戏截图。 然后,人工智能以 Python 代码的形式生成控制马里奥的输入。
不过,Hao说,游戏迫使每个模型"学习"规划复杂的操作和制定游戏策略。 有趣的是,实验室发现,推理模型(如 OpenAI 的 o1 模型,通过一步步"思考"问题来得出解决方案)的表现不如"非推理"模型,尽管它们在大多数基准测试中普遍更强。
研究人员表示,推理模型在玩此类实时游戏时遇到困难的主要原因之一是,它们需要一段时间--通常是几秒钟--来决定行动。 在《超级马里奥兄弟》中,时间就是一切。 一秒钟的时间意味着你是安全跳过还是摔下深渊。
几十年来,游戏一直被用来作为人工智能的基准。 但是一些专家质疑将人工智能的游戏技能与技术进步联系起来是否明智。 与现实世界不同,游戏往往是抽象的、相对简单的,而且从理论上讲,它们为训练人工智能提供了无限量的数据。
最近浮夸的游戏基准表明,OpenAI 的研究科学家和创始成员 Andrej Karpathy 正面临着一场"评估危机"。
他在 X 上的一篇帖子中写道:"我真的不知道现在该看什么 [AI] 指标。TLDR,我的反应是我真的不知道这些模型现在有多好。"
但至少我们可以看人工智能玩马里奥了。