泄露的基准测试表明Meta Llama 3.1 405B模型的性能可能超过OpenAI GPT-4o

2024 年 4 月，Meta 推出了新一代最先进的开源大型语言模型Llama 3。前两个模型 Llama 3 8B 和 Llama 3 70B为同类规模的 LLM 树立了新的基准。然而，在短短三个月内，其他几个 LLM 的性能已经超过了它们。

1721670907_meta_llama_3.1_405b_model.jpg

Meta 已经透露，其最大的 Llama 3 型号将拥有超过 4000 亿个参数，目前仍在训练中。今天，LocalLLaMA 子论坛泄露了即将推出的 Llama 3.1 8B、70B 和 405B 模型的早期基准测试结果。泄露的数据表明，Meta Llama 3.1 405B 可以在几个关键的人工智能基准测试中超越目前的领先者 OpenAI 的 GPT-4o。这对开源人工智能社区来说是一个重要的里程碑，标志着开源模型可能首次击败目前最先进的闭源 LLM 模型。

Meta 在"Llama 3"发布会上表示：

我们致力于开放式人工智能生态系统的持续增长和发展，以负责任的方式发布我们的模型。我们一直坚信，开放会带来更好、更安全的产品、更快的创新和更健康的整体市场。这对 Meta 有利，对社会也有利。

如基准测试所示，Meta Llama 3.1 在 GSM8K、Hellaswag、boolq、MMLU-humanities、MMLU-other、MMLU-stem 和 winograd 等多项测试中均优于 GPT-4。但是，它在 HumanEval 和 MMLU-social sciences 方面却落后于 GPT-4。

值得注意的是，这些数据来自 Llama 3.1 的基本模型。要充分释放模型的潜力，对其进行教学调整非常重要。随着 Llama 3.1 模型指令版本的发布，其中许多结果可能会有所改善。

尽管 OpenAI 即将推出的 GPT-5 预计将具备先进的推理能力，可能会挑战 Llama 3.1 在 LLM 领域的潜在领导地位，但 Llama 3.1 在 GPT-4o 中的强劲表现仍然彰显了开源人工智能开发的力量和潜力。这种持续的进步可能会使获取尖端人工智能技术的途径更加民主化，并加速技术行业的创新。

对文章打分

泄露的基准测试表明Meta Llama 3.1 405B模型的性能可能超过OpenAI GPT-4o

最新资讯

编辑精选

热门评论

相关文章

Manus邀请码炒到千万元“天价” 多位卖家：都是骗人的

Meta开始测试首颗自研AI训练芯片降低对英伟达依赖

福布斯痛批Manus：毫无突破，过度炒作

Manus宣布与阿里通义千问团队达成战略合作

传DeepSeek-R2将于下周一发布在多个关键领域实现突破

李想：通用人工智能近两年不能赚钱但会破坏传统商业赚钱模式

Top 10

亚洲最大露天煤矿百米厚煤层足足开采了118年古代植物咋都埋那了？

消息称中国开发出国产EUV工具挑战ASML的垄断地位

婉拒马斯克现在不回来特朗普阴阳滞留太空美宇航员：希望擦出爱的火花

亚洲最大露天煤矿百米厚煤层足足开采了118年古代植物咋都埋那了？

消息称中国开发出国产EUV工具挑战ASML的垄断地位

OpenAI发布最新论文：DeepSeek和Kimi发现了o1的秘密