2025开年,MiniMax 又上新了。继公布全模态模型家族后,时隔5个月,MiniMax再亮相两大模型,且模型权重完全开源。而且与GPT-4o和Claude-3.5-Sonnet性能平起平坐,尤其在上下文窗口方面表现出色,处理能力甚至达到其他顶尖模型的 20 - 32倍。
更重要的是,这两款全新模型扩展了新型Lightning Attention架构,突破了传统Transformer架构,同时也是线性注意力机制的首次大规模实现。
什么概念?
线性注意力机制是对传统注意力机制的优化升级,即将传统注意力机制的二次计算复杂度转变为线性复杂度,可以降低计算的复杂度,提升模型训练速度。早在2019年就有人提出了这一理论,但从来没有人在大规模的模型上实现过。
如今,MiniMax率先找了解题答案,无疑为处理长文本、大规模数据等复杂任务提供了有力支持,实力证明了线性注意力机制在大规模商用模型中的可行性。
消息一出,网友炸锅了。
有网友表示: 来自中国的AI变革!MiniMax 01成本比GPT-4o 低 10 倍,将引发新一轮AI革命。
也有网友直接上手测评表示:模型不仅好用且成本低廉,简直给2025开源模型之争提高了一个level!
MiniMax连发两款大模型
CSDN了解到,此次MiniMax更新的两大模型基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01进一步拓展了文本和视觉多模态领域的能力。
那么,这两款大模型的实力究竟如何呢?
MiniMax-Text-01
首先来看基础语言大模型MiniMax-Text-01。
评测结果显示,MiniMax-Text-01在大多数任务上成功追平海外最先进的 GPT - 40 - 1120 及 Claude - 3.5 - sonnet - 1022 等顶级闭源模型以及 Qwen2.5、DeepSeek v3、Llama 3.1 等 SOTA 开源模型,甚至在某些特定场景下,其响应速度和准确率更胜一筹,展现出惊人的潜力。
例如,在MMLU基准测试中,MiniMax-Text-01得分与DeepSeek-V3得分相同,均为88.5分;明显高于GPT-4o的85.7分。
在HumanEval上,MiniMax-Text-01 与 Instruct Qwen2.5-72B 相比表现出色。此外,MiniMax-Text-01 在 GPQA Diamond 这样具有挑战性问答的数据集上取得了 54.4 的成绩,超过了大多数开源指令微调的 LLM 以及最新版本的 GPT-4o。
在模型处理能力方面,MiniMax-Text-01表现同样出色,不仅能够高效处理超过百万字符的长文本,且与海外模型相比,延迟更低,稳定性更强,确保了大规模数据处理的高效性和可靠性。
这些成绩表明MiniMax-Text-01不仅在技术层面达到国际领先水平,更在实际应用中展现出高效稳定的性能。
在长上下文理解能力方面,与 Google的 Gemini 模型相比,MiniMax-Text-01在长上下文检索、理解和学习任务中表现出色,在64K输入级别的表现与顶尖模型GPT-4o、Claude-3.5-Sonnet等实力相当,但从128K开始显现出明显的优势,并超越了所有基准模型。
并且随着输入长度的增加,MiniMax-Text-01的性能衰减最慢,这意味着它在处理长文档、长篇对话等场景时,能够更好地保持对信息的理解和处理能力,提供更准确、连贯的输出。
同时,MiniMax-Text-01还构建了一个利用真实数据的助手场景使用的测试集,结果显示,MiniMax-Text-01在多个内部基准任务上与其他模型相比具有竞争力,尤其在创意写作、长上下文和安全等方面表现出色。这一突破性进展,不仅提升了长文任务的效率,也为学术研究、内容创作等领域提供了强大工具,验证了线性注意力机制在处理大规模数据中的实际应用价值。
MiniMax-VL-01
接着我们来聊一聊视觉多模态大模型MiniMax-VL-01。
MiniMax-VL-01是一款将图像编码器和图像适配器集成到MiniMax-Text-01模型基础上开发的多模态模型,采用多模态大语言模型常用的ViT-MLP-LLM框架,具有动态分辨率功能,可以根据预设网格调整输入图像的大小,调整后的图像被分割成大小相同的不重叠块,这些块和缩略图分别编码后组合,形成完整的图像表示。它不仅继承了文本处理的高效性,还具备强大的视觉理解能力,在多种视觉语言任务基准测试中展现出与顶尖模型相媲美的性能。
此外,MiniMax-VL-01进行了四个阶段的训练,处理数据集总量达到5120亿token。
结合评测结果可以看到,经过四个阶段训练,MiniMax-VL-01模型在多个基准测试中均取得了优异成绩。尤其在VQA(视觉问答)任务中表现出色,性能与GPT-4o相当,在长文本理解与检索能力的评估中,MiniMax-VL-01同样表现亮眼,优于多数同类模型。
一直以来,MiniMax给外界的印象是强调技术研发创新和突破,凭借从文本到视觉、从文本到语音、从文本到文本的三大模态基础模型架构,MiniMax在创业公司中已经杀出了一条生路。
在底层技术上,MiniMax的目标是更快更强。
其创始人曾公开表示:大语言模型领域,两个模型性能相似,一定是速度更快的那个模型更容易带来产品数据增长。就好像Scaling Law一样,算法相同情况下,训练数据量更大的模型往往会取得更好的效果。
因此,MiniMax创新性地将MOE架构和Linear Attention相结合,理论上可以处理的token接近无限长,而且模型效率也获得了大幅提升——在处理10万token的时候,速度是其他模型的2-3倍,并且随着长度越长,效率提升越明显。
此次发布的两款大模型更是其理念的集中体现,同时也是业内首次线性注意力机制大规模实现的实例。在架构方面,创新性地采用了混合架构,结合了Lightning Attention、Softmax Attention以及Mixture-of-Experts(MoE),同时通过LASP+、varlen ring attention、ETP等优化的并行策略和高效的计算通信重叠方法,最终模型参数达4560亿,每次激活459亿。
首次开源,模型应用低成本且完全开放
目前,MiniMax 01模型已在海螺AI(国内 APP、hailuoai.com)以及海外平台(hailuo.ai)上线,用户可以通过这些平台便捷地体验 MiniMax 01 的强大功能。无论是文本创作、智能问答,还是多模态交互等场景,用户都能感受到 MiniMax 01 带来的智能体验 。
此外,MiniMax还在开放平台上提供了完整的API,基于Linear Attention架构创新、算力优化,以业内最低价格提供文本和多模态理解API服务。
更重要的是这两款模型的完整权重完全开源,并且MiniMax也承诺后续更新也会及时上传。
下面是开源地址,感兴趣的现在就可以尝尝鲜了。
https://github.com/MiniMax-Al
谈及为何开源,MiniMax也向CSDN表示其有两方面的考量:
其一,开源作为技术交流的重要桥梁,能够让更多的开发者,包括初学者和小型团队,接触和使用先进的模型技术,能够帮助MiniMax更高质量的完成后续的模型研发。同时,这也与MiniMax的初衷不谋而合——Intelligence with Everyone。
其二,MiniMax01提供了一个可参考和借鉴的范例,同时可以启发行业思考,其他企业和开发者可以在其基础上进行二次开发和创新,根据自身业务需求和场景,定制化开发出更符合特定领域的应用和解决方案,进而更快的促进Agent时代的到来。
MiniMax 01模型完全开源的消息也吸引了一大批KOL进行了实测:
CSDN知名KOL博主红目香薰表示:
对于高校的计算机教学工作而言,MiniMax 01的上下文处理能力在实际教学过程中大有益处,并且开源后可用于辅助备课、解答疑问,提升教学效率。简直是福利!
CSDN知名博主申屠鹏会则表示:
MiniMax开源模型带来的好处在我看来主要有以下两点:一是降低了企业入局大模型的门槛,在显卡成本居高不下的现状下,MiniMax 01开源就能为企业节省更多成本,二是参数量增大也意味着能拓展的AI应用范围扩大,更多圈层人群的参与,也有更大的想象空间。
剑指Agent 时代
进入2025年,Agent的时代趋势也愈加明显。
而MiniMax对于Agent时代到来的嗅觉则更为灵敏。2024年,创始人就曾在采访中表示:2025 年是 AI Agent 时代。通用人工智能是技术变革的标志,AI 已成为日常生活的一部分。中外在 AI 领域的差距正在缩小,国内在特定领域如多模态理解和生成已进入全球第一梯队甚至部分领先。
这进一步决定了MiniMax的前进脚步。
截至目前,MiniMax自主研发了文本大模型、语音&音乐大模型、图像大模型以及视频大模型。基于不同模态的通用大模型,MiniMax推出生产力工具海螺AI、AI内容社区星野等原生应用,开放平台为40000+企业和开发者提供API服务。
可以看到,以“全模态模型+APP产品+开放平台”是MiniMax选择的增长飞轮,同时也是MiniMax在AI时代大模型如何实现商业化找到的一条通往AGI的道路。而底层模型的技术创新,为这一切提供了基础。