微软发布 Phi-4 多模态和 Phi-4 迷你小语言模型

2024 年 12 月，微软推出了 Phi-4，它是一种小型语言模型 (SLM)，在同类产品中具有最先进的性能。今天，微软将通过两个新模型扩展 Phi-4 系列： Phi-4-multimodal和Phi-4-mini。新的 Phi-4 多模态模型可同时支持语音、视觉和文本，而 Phi-4-mini 则专注于基于文本的任务。

Phi-4-multimodal是一个5.6B参数模型，也是微软首个多模态语言模型，它将语音、视觉和文本处理集成到一个统一的架构中。如下表所示，与Google的 Gemini 2.0 Flash 和 Gemini 2.0 Flash Lite 等其他现有最先进的全方位模型相比，Phi-4-multimodal 在多个基准测试中取得了更好的性能。

在语音相关任务中，Phi-4-multimodal 在自动语音识别（ASR）和语音翻译（ST）方面的表现均优于 WhisperV3 和 SeamlessM4T-v2-Large 等专业语音模型，该模型以 6.14% 的惊人单词错误率在 Hugging Face OpenASR 排行榜上名列前茅。

在视觉相关任务中，Phi-4-multimodal 在数学和科学推理方面表现出色。在常见的多模态能力（如文档和图表理解、OCR 和视觉科学推理）方面，这种新模型可与 Gemini-2-Flash-lite-preview 和 Claude-3.5-Sonnet 等流行模型相媲美，甚至超过它们。

Phi-4-mini 是一个 3.8B 参数模型，在基于文本的任务（包括推理、数学、编码、指令遵循和函数调用）中，其性能优于几种流行的大型 LLM。

为了确保这些新模型的安全性，微软与内部和外部安全专家一起进行了测试、采用Microsoft AI 红队 (AIRT) 制定的策略。 Phi-4-mini 和 Phi-4-multimodal 型号在使用 ONNX Runtime 进行进一步优化以实现跨平台可用性后，均可在设备上部署，从而使其适用于低成本、低延迟的应用场景。

现在，Phi-4-multimodal 和 Phi-4-mini 模型均可在 Azure AI Foundry、Hugging Face 和 NVIDIA API Catalog 中供开发人员使用。开发人员可查阅技术文件，了解推荐模型的用途及其限制。

这些新的 Phi-4 模型代表了高效人工智能的重大进步，为各种人工智能应用带来了强大的多模态和基于文本的功能。

对文章打分

微软发布 Phi-4 多模态和 Phi-4 迷你小语言模型

最新资讯

编辑精选

热门评论

相关文章

微软CEO谈为何不自研大模型：全栈系统与产品落地才是核心

微软推出专为Copilot设计的新广告

微软将于四月在公司总部举行50周年庆典和Copilot相关活动

报告称微软自行研发的AI模型现在可与OpenAI和Anthropic相媲美

微软量子突破引发亚马逊炮轰，量子计算机还有多远？

微软测试DeepSeek等模型欲在Copilot中替代OpenAI

Top 10

亚洲最大露天煤矿百米厚煤层足足开采了118年古代植物咋都埋那了？

消息称中国开发出国产EUV工具挑战ASML的垄断地位

婉拒马斯克现在不回来特朗普阴阳滞留太空美宇航员：希望擦出爱的火花

亚洲最大露天煤矿百米厚煤层足足开采了118年古代植物咋都埋那了？

消息称中国开发出国产EUV工具挑战ASML的垄断地位

OpenAI发布最新论文：DeepSeek和Kimi发现了o1的秘密