OpenAI实名举报Grok3作弊一题答64次踩着台阶和o3-mini比

2025年02月22日 10:42 次阅读稿源：量子位条评论

Grok-3才发布3天，就陷入作弊风波。隔壁OpenAI应用主管火速掀桌：每次评估中o3-mini都要比Grok-3好，看到Grok团队作弊真是令人失望。咋回事？在Grok-3的Blog中有一张AIME 2025评估图令人印象深刻，两个新版本模型都超过o3-mini高配版。但注意看，Grok-3两个模型的柱状图中都有1段颜色更浅的部分。OpenAI指责的作弊，就是在这里。

浅色部分代表了Grok-3模型在Con@64上的成绩。

即这是模型进行64次答案后的成绩，而不是单次回答。

那么问题就来了，被拿来对比的o3-mini、o1、DeepSeek-R1、Gemini-2 Flash Thinking似乎并没有这部分成绩。

有人就表示，如果真是如此，那么Grok-3推理模型只是和o1相当。OpenAI和xAI之间依旧差了9个月。

OpenAI负责模型设计的研究员Aidan McLaughlin更是激情开麦，表示马斯克发布时说的话极其有误导性，这会让人以为浅蓝色部分是通过推理实现的成绩。

不过值得一提的是，这种模型评估对比方法似乎是OpenAI开了头。o3-mini的Blog中，也看到了类似形式的评估。

所以，为啥这么对比不合理？

采用cons@64，o1都能和o3-mini相当

首先明确概念：

cons@64：让模型生成64个答案，最终采用出现频率最高的回答。

pass@64：如果64个答案中只要有一个答案正确，模型就得分。

所以有人就说了，问题的关键不是xAI不应该使用cons@64;

关键在于，如果其他模型只是尝试了一次，那就不太公平了。

因为blog中并没有说清楚，所以假定是这种情况。

有AI博主也列出了搜集到的相关数据，o3-mini在单次回答上的表现更好。

其次，根据o3-mini的blog，o1模型采用cons@64成绩，甚至可以和o3-mini打个相当。

这意味着采用cons@64成绩是“有优势”的。

有人也揪着这事不放，但是OpenAI确实没让o3-mini用cons@64。

最后，Grok-3发布时的说法似乎有一定误导性。

有人贴出来了原片段。在被问及评估图中的浅色部分是什么时，官方给出的解释是：

这些模型可以推理、可以思考，可以要求模型思考更长、花更多时间进行测试时推理。这种情况下，这些浅色部分意味着我们只是花费更多时间让模型解决同一个问题，然后它才会得出什么是正确的答案。如果这样做，模型甚至可以表现得更好。

OpenAI研究员Aidan觉得这段话极具误导性，他只是说使用更多测试时计算，听起来像是做更多推理，但其实不是如此。

总而言之，Grok团队这么干确实有点不地道。

吃瓜到这，网友们不免开始蛐蛐：

Grok-3不如o3-mini，马斯克就会给团队上压力。然后想出的好办法就是在基准测试上做手脚。

以及为啥都不和Claude做对比呢？

不过也有人觉得这事不能一棒子打死，Grok仍旧有很多值得关注的方面。比如Grok-3一个月前才完成预训练，这只是一个月内基于CoT的后训练结果，模型还有很大的提升空间。此外xAI正在以行业内最快的速度扩展预训练计算能力。

以及Grok-3发布后，开发者们已经火速琢磨出了一些有趣的新玩法。

轻松开发小游戏

这不，有人就晒出了在特斯拉上完用Replit+Grok开发的小游戏。

还有曾在微软深度参与Windows系统开发的大佬Dave Plummer，也用Grok-3复刻了经典的打砖块游戏。

他为Windows创建了任务管理器、为Windows完成了对zip文件的支持。

这一次，他展示了如何只用几句话就让Grok-3开发小游戏。

提示词都很简单：

“来做个彩色版打砖块怎么样”

“让球自动移动，并让球每次从球拍上弹起时速度提高 10%”

“很好，球在垂直弹射时会卡住。一开始游戏是怎么设计的？do the same”

最后得到的效果是这样的：

值得一提的是，马斯克最近证实了成立了AI游戏工作室的消息，他要让游戏再次伟大（doge）。

对文章打分

OpenAI实名举报Grok3作弊一题答64次踩着台阶和o3-mini比

1 (50%)

1 (50%)

已有条意见

最新资讯

加载中...

编辑精选

加载中...

热门评论

相关文章

消息称75%的OpenAI算力将源自星际之门软银贡献今年三成收入
- 6 小时前
OpenAI 禁止用于开发针对西方的中国监控工具的账户
- 7 小时前
朱啸虎谈大模型终局：DeepSeek是核心顶层应用要这样做
- 昨天 22:06
OpenAI 在多个国家推出人工智能代理 Operator
- 昨天 16:35
DeepSeek将于下周开源5个代码库每日解锁新内容
- 昨天 15:31

Top 10

本周本月

招聘