苹果公司的研究人员发布了一个新的开源人工智能模型,它能够根据用户的自然语言指令编辑图像。MGIE 是 MLLM-Guided Image Editing 的缩写,它使用多模态大型语言模型 (MLLM) 来解释用户请求并执行像素级操作。
该模型能够编辑图像的各个方面。全局照片增强可包括亮度、对比度或锐利度,或应用素描等艺术效果。局部编辑可以修改图像中特定区域或对象的形状、大小、颜色或纹理,而 Photoshop 风格的修改则包括裁剪、调整大小、旋转和添加滤镜,甚至是更改背景和混合图像。
用户对一张披萨照片的输入可能是"让它看起来更健康"。利用常识推理,模型可以添加蔬菜配料,如西红柿和香草。全局优化输入请求的形式可以是"增加对比度,模拟更多光线",而 Photoshop 风格的修改可以是要求模型将人物从照片背景中移除,将图像的焦点转移到拍摄对象的面部表情上。
苹果公司与加州大学的研究人员合作创建了 MGIE,并在 2024 年国际学习表征会议(ICLR)上发表了一篇论文。该模型可在 GitHub 上获取,包括代码、数据和预训练模型。
这是苹果公司几个月来在人工智能研究领域取得的第二次突破。12 月底,苹果公司透露,通过发明一种创新的闪存利用技术,它在 iPhone 和其他内存有限的苹果设备上部署大型语言模型 (LLM) 方面取得了长足进步。
在过去的几个月里,苹果一直在测试一种可以与 ChatGPT 竞争的"Apple GPT"。据彭博社的马克-古尔曼(Mark Gurman)称,人工智能工作是苹果公司的一个优先事项,该公司正在为大型语言模型设计一个"Ajax"框架。
The Information和分析师杰夫-普(Jeff Pu)都声称,苹果将在2024 年底左右在 iPhone 和 iPad 上推出某种生成式人工智能功能,也就是 iOS 18 上市的时候。据古尔曼称,iOS 18 据说将包括一个增强版 Siri,具有类似 ChatGPT 的生成式人工智能功能,并有可能成为 iPhone 历史上"最大的"软件更新。