Mistral发布Codestral Mamba编程模型 实现更快、更长的代码生成

2024年07月17日 07:52 次阅读 稿源:cnBeta.COM 条评论

法国人工智能初创公司Mistral 以其强大的开源人工智能模型而闻名,今天,该公司在其不断壮大的大型语言模型 (LLM) 家族中推出了两个新产品:一个是基于数学的模型,另一个是面向程序员和开发人员的代码生成模型,其基础是去年底由其他研究人员开发的名为Mamba 的新架构。

Mamba 试图通过简化注意力机制来提高大多数领先 LLM 所使用的Transformer架构的效率。与更常见的基于Transformer的模型不同,基于 Mamba 的模型推理时间更快,上下文时间更长。 包括 AI21 在内的其他公司和开发者已经发布了基于 Mamba 的新人工智能模型

现在,Mistral 的Codestral Mamba7B 采用了这种新架构,即使输入文本较长,也能提供快速的响应时间。Codestral Mamba 非常适合代码生产力使用案例,尤其是本地编码项目。

Mistral 对该模型进行了测试,该模型将在 Mistral 的la Plateforme API 上免费使用,可处理多达 256000 个词元的输入,是OpenAI 的 GPT-4o 的两倍

在基准测试中,Mistral 显示 Codestral Mamba 在 HumanEval 测试中的表现优于竞争对手开源模型 CodeLlama 7B、CodeGemma-1.17B 和 DeepSeek。

Screenshot-2024-07-16-at-2.58.53 PM.webp

开发人员可以从 GitHub 存储库或通过 HuggingFace 修改和部署 Codestral Mamba。它将采用开源 Apache 2.0 许可。

Mistral 声称,Codestral 早期版本的性能优于CodeLlama 70B 和 DeepSeek Coder 33B 等其他代码生成器。

代码生成和编码助手已成为人工智能模型的广泛应用,GitHub 的 Copilot(由 OpenAI 提供支持)、亚马逊的 CodeWhisperer 和Codenium等平台越来越受欢迎。

Mistral 推出的第二个模型是Mathstral7B,这是一个专为数学推理和科学发现而设计的人工智能模型。Mistral 与 Numina 项目共同开发了 Mathstral。

Mathstral 的上下文窗口为 32K,将采用 Apache 2.0 开源许可。Mistral 表示,该模型的性能超过了所有为数学推理设计的模型。它可以在推理计算时间更长的基准测试中取得"明显更好的结果"。用户可以按原样使用,也可以对模型进行微调。

Screenshot-2024-07-16-at-2.59.09 PM.webp

"Mathstral 是为特定目的构建模型时实现出色性能/速度权衡的又一范例,这也是我们在 la Plateforme 积极推广的开发理念,尤其是其新的微调功能,"Mistral 在一篇博文中说。

用户可以通过 Mistral's la Plataforme 和 HuggingFace 进入 Mathstral。

Mistral 公司倾向于在开源系统上提供模型,它一直在与 OpenAI 和 Anthropic 等其他人工智能开发商展开激烈竞争。最近,该公司获得了6.4 亿美元的 B 轮融资,估值接近 60 亿美元。该公司还获得了微软和 IBM 等科技巨头的投资

对文章打分

Mistral发布Codestral Mamba编程模型 实现更快、更长的代码生成

1 (50%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      Top 10

      招聘

      created by ceallan