法国人工智能初创公司Mistral发布了首款可处理图像和文本的模型。该模型名为 Pixtral 12B,拥有 120 亿个参数,大小约为 24GB。参数大致相当于模型解决问题的能力,参数越多的模型通常比参数越少的模型性能越好。
新模型建立在 Mistral 的文本模型 Nemo 12B 上,可以回答关于任意数量、任意大小的图片的问题,这些图片可以是图片 URL,也可以是使用二进制文本编码方案 base64 编码的图片。与 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4o 等其他多模态模型类似,Pixtral 12B 至少在理论上可以完成为图片添加标题和计算照片中物体数量等任务。
Pixtral 12B 可通过GitHub和人工智能与机器学习开发平台Hugging Face 上的 torrent 链接下载、微调,并根据 Mistral 的标准许可使用。
遗憾的是,在本文发表时,还没有任何可用的网络演示。Mistral 开发者关系主管 Sophia Yang 在 X 上发表文章称,Pixtral 12B 将很快在 Mistral 的聊天机器人和 API 服务平台 Le Chat 和 Le Platforme 上进行测试。
目前还不清楚 Mistral 可能使用了哪些图像数据来开发 Pixtral 12B。
大多数生成式人工智能模型,包括 Mistral 的其他模型,都是在网络上的大量公共数据上训练出来的,而这些数据通常都是受版权保护的。一些模型供应商辩称,"合理使用"权使他们有权采集任何公共数据,但许多版权所有者不同意,并已对 OpenAI 和 Midjourney 等大型供应商提起诉讼,以阻止这种做法。
Pixtral 120 亿美元的融资是在 Mistral 获得由 General Catalyst 领投的 6.45 亿美元融资之后进行的,该轮融资使该公司估值达到 60 亿美元。刚刚成立一年多的 Mistral 被人工智能界的许多人视为欧洲对 OpenAI 的回应。迄今为止,这家年轻公司的战略包括发布免费的"开放"模型,对这些模型的托管版本收费,以及为企业客户提供咨询服务。