非营利组织人工智能安全中心(CAIS)和提供数据标注和人工智能开发服务的 Scale AI 公司发布了一项具有挑战性的新基准,用于前沿人工智能系统。
该基准名为"人类最后的考试"(Humanity's Last Exam),包含数千个众包问题,涉及数学、人文科学和自然科学等学科。
在一项初步研究中,甚至没有一个公开的旗舰人工智能系统能在 "人类最后的考试 "中获得超过10%的分数。
这项新基准被称为 "人类最后的考试",它评估了人工智能系统是否已经在数学、人文科学和自然科学等广泛领域实现了世界级的专家级推理和知识能力。 整个秋季,CAIS 和 Scale AI 从专家那里收集了大量问题,汇集成最难、最广泛的问题,以难倒人工智能模型。 开发该考试是为了应对"基准饱和"的挑战:模型经常在现有测试中取得接近满分的成绩,但可能无法回答这些测试以外的问题。 基准饱和降低了基准作为未来模型进展精确测量的效用。
CAIS联合创始人兼执行董事丹-亨德里克斯(Dan Hendrycks)说:"我们希望找到能够测试模型在人类知识和推理前沿能力的问题。 我们无法预测模型的发展速度。 当我在 2021 年发布 MATH 基准--一个具有挑战性的竞赛数学数据集时,最好的模型得分还不到 10%;很少有人预测,仅仅三年之后,得分就会超过 90%。 现在,'人类最后的考试'表明,模型仍然无法回答一些专家封闭式问题。"
CAIS 和 Scale AI 表示,他们计划向研究界开放该基准,以便研究人员能够 "深入挖掘变化 "并评估新的人工智能模型。