苹果发布人工智能模型MGIE 可根据自然语言输入编辑图片

苹果公司的研究人员发布了一个新的开源人工智能模型，它能够根据用户的自然语言指令编辑图像。MGIE 是 MLLM-Guided Image Editing 的缩写，它使用多模态大型语言模型 (MLLM) 来解释用户请求并执行像素级操作。

该模型能够编辑图像的各个方面。全局照片增强可包括亮度、对比度或锐利度，或应用素描等艺术效果。局部编辑可以修改图像中特定区域或对象的形状、大小、颜色或纹理，而 Photoshop 风格的修改则包括裁剪、调整大小、旋转和添加滤镜，甚至是更改背景和混合图像。

用户对一张披萨照片的输入可能是"让它看起来更健康"。利用常识推理，模型可以添加蔬菜配料，如西红柿和香草。全局优化输入请求的形式可以是"增加对比度，模拟更多光线"，而 Photoshop 风格的修改可以是要求模型将人物从照片背景中移除，将图像的焦点转移到拍摄对象的面部表情上。

苹果公司与加州大学的研究人员合作创建了 MGIE，并在 2024 年国际学习表征会议（ICLR）上发表了一篇论文。该模型可在 GitHub 上获取，包括代码、数据和预训练模型。

这是苹果公司几个月来在人工智能研究领域取得的第二次突破。12 月底，苹果公司透露，通过发明一种创新的闪存利用技术，它在 iPhone 和其他内存有限的苹果设备上部署大型语言模型 (LLM) 方面取得了长足进步。

在过去的几个月里，苹果一直在测试一种可以与 ChatGPT 竞争的"Apple GPT"。据彭博社的马克-古尔曼（Mark Gurman）称，人工智能工作是苹果公司的一个优先事项，该公司正在为大型语言模型设计一个"Ajax"框架。

The Information和分析师杰夫-普（Jeff Pu）都声称，苹果将在2024 年底左右在 iPhone 和 iPad 上推出某种生成式人工智能功能，也就是 iOS 18 上市的时候。据古尔曼称，iOS 18 据说将包括一个增强版 Siri，具有类似 ChatGPT 的生成式人工智能功能，并有可能成为 iPhone 历史上"最大的"软件更新。

对文章打分

苹果发布人工智能模型MGIE 可根据自然语言输入编辑图片

最新资讯

编辑精选

热门评论

相关文章

功能延迟后苹果继续删除 iOS 18 有关 Siri 个人语境的引用

苹果因违反欧盟数字市场法案面临"轻微"罚款

苹果的 M4 Ultra 可能因生产难题而无缘面世

传闻中的苹果 Home Hub 据说正在邀请员工内部测试

智能眼镜仍遥遥无期苹果正在考虑可穿戴设备业务的未来

首次基准测试结果显示 M3 Ultra 芯片并不比 M4 Max 快多少

Top 10

亚洲最大露天煤矿百米厚煤层足足开采了118年古代植物咋都埋那了？

消息称中国开发出国产EUV工具挑战ASML的垄断地位

婉拒马斯克现在不回来特朗普阴阳滞留太空美宇航员：希望擦出爱的火花

亚洲最大露天煤矿百米厚煤层足足开采了118年古代植物咋都埋那了？

消息称中国开发出国产EUV工具挑战ASML的垄断地位

OpenAI发布最新论文：DeepSeek和Kimi发现了o1的秘密