在硅谷正在进行的开发具有类似人类反应的人工智能模型的竞赛中,Google分享了其 Gemini 1.5 Pro 模型的最新数据。与 ChatGPT 一样,Gemini 也使用人工智能来解决问题,而这一次,Google吹捧的是其产品的数学能力。人工智能模型因其解决大学水平任务的能力而成为衡量其"智力"的标准,Google的研究论文显示该模型提高了数学成绩,并成功解决了国际数学奥林匹克竞赛的部分问题。
上周,双子座人工智能模型的最新技术报告公布了其最新数学成绩的详细信息。这份相当厚重的文件显示,Google打算模仿数学家接受的训练来解决复杂的问题,为了实现这一目标,该公司对其双子座人工智能模型进行了专门的变体训练。
Gemini 1.5 Pro 的数学变体似乎经过了多项基准测试。根据其文件,Google依靠各种基准来评估其最新人工智能数学模型的输出。这些基准包括 MATH 基准、美国数学邀请考试 (American Invitational Mathematics Examination, AIME) 和Google内部的 HiddenMath 基准。
根据Google的数据,数学型 Gemini 1.5 Pro 在数学基准测试中的表现"与人类专家的表现相当",与标准的非数学型 Gemini 1.5 Pro 相比,数学型 Gemini 1.5 Pro 在 AIME 基准测试中解决的问题明显增多,在其他基准测试中的得分也有所提高。
Google还举例说明了 Gemini 1.5 Pro 所解决的问题。根据该文件,这些问题是"Gemini 1.5 Pro、GPT-4 Turbo 和以前所有 Gemini 型号都 没有正确解决的问题",最终提高了Google产品的性能标准。
在它分享的三个示例中,两个是由数学专用的 Gemini 1.5 Pro 解决的,而一个是由标准的 Gemini 1.5 Pro 变体错误解决的。这些问题通常要求解题者回忆代数中的基本数学公式,并依靠它们的分段和其他数学规则得出正确答案。
除了问题之外,Google还分享了 Gemini 1.5 Pro 基准测试的重要细节。这些数据表明,在所有五项基准测试成绩中,Gemini 1.5 Pro 都领先于 GPT-4 Turbo 和亚马逊的 Claude。
据Google公司称,其数学专用变体能够"从单个样本中获得 80.6% 的 MATH 基准准确率,在对 256 个解决方案进行采样并选择一个候选答案时(rm@256),准确率达到91.1%",这一成就使其与人类专家处于同等水平。事实上,根据Google深度思维首席科学家杰夫-迪恩(Jeff Dean)的说法,数学模型91.1%的得分大大高于三年前仅为6.9%的"SOTA"(最先进水平)得分。