智源研究院“百模”评测结果：字节跳动多项第一大厂AI整体领先

近日，智源研究院发布国内外100余个开/闭源语言、视觉语言、文生图、文生视频大模型综合及专项评测结果。评测发现，2024年下半年，大模型发展更聚焦综合能力提升与实际应用。多项评测结果中，字节跳动多项AI能力领先，阿里巴巴、百度等大厂派AI均取得优异表现。

据评测结果，针对一般中文场景的开放式问答或生成任务，语言模型能力已趋于饱和稳定，但是复杂场景任务的表现，国内头部语言模型仍然与国际一流水平存在显著差距。在中文能力理解上，字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二，OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四，阿里巴巴Qwen-Max-0919排名第五。

在视觉语言多模态模型能力评测结果中，一些较好的开源模型在图文理解任务上正在缩小与头部闭源模型的能力差距，而长尾视觉知识与文字识别以及复杂图文数据分析能力仍有提升空间。评测显示，OpenAI GPT-4o-2024-11-20与字节跳动Doubao-Pro-Vision-32k-241028先后领先于Anthropic Claude-3-5-sonnet-20241022，阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro紧随其后。

此外，文生图多模态模型今年上半年参评模型普遍无法生成正确的中文文字，但此次参评的头部模型已经具备中文文字生成能力，但整体普遍存在复杂场景人物变形的情况，针对常识或知识性推理任务，小于3的数量关系任务表现有所提升，大于3的数量关系依然无法处理。评测结果显示，腾讯Hunyuan Image位列第一，字节跳动Doubao image v2.1、Ideogram 2.0分居第二、第三，OpenAI DALL·E 3、快手可图次之。

在文生视频多模态模型，画质进一步提升，动态性更强，镜头语言更丰富，专场更流畅，但普遍存在大幅度动作变形，无法理解物理规律，物体消失、闪现、穿模的情况。评测结果显示，快手可灵1.5（高品质）、字节跳动即梦P2.0 pro、爱诗科技PixVerse V3、MiniMax海螺AI、Pika 1.5位列前五。

据介绍，本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval，经过数次迭代，目前已覆盖全球800多个开闭源模型，包含20多种任务，90多个评测数据集，超200万条评测题目。

对文章打分

智源研究院“百模”评测结果：字节跳动多项第一大厂AI整体领先

最新资讯

编辑精选

热门评论

相关文章

媒体再爆：OpenAI的GPT-5训练遇阻时间延迟且成本高昂

研究认为AI带来的污染可导致美国60万人得哮喘 1300名患者早亡

OpenAI o3是AGI吗？

OpenAI开发其下一个主要模型GPT-5的努力正落后于计划

12天人工智能马拉松式直播结束一口气看完OpenAI所有要点

Top 10

科学家复活了3万年前的种子直到植物开花才发现和现代的不同

进口芯片，都在变成“中国制造”

ASML今年卖了多少光刻机？

幽灵巨狮吃掉35名工人 126年后人们从它的牙缝毛发中发现一份惊人食谱

专家称比亚迪有可能成为下一个恒大

中国最大沙漠被围起来了

对文章打分

智源研究院“百模”评测结果：字节跳动多项第一 大厂AI整体领先

最新资讯

编辑精选

热门评论

相关文章

Top 10

智源研究院“百模”评测结果：字节跳动多项第一大厂AI整体领先