Meta Platforms高管在接受路透社采访时表示,该公司使用Facebook和Instagram上的公开帖子来训练其新型Meta人工智能虚拟助手的部分功能,但排除了只与家人和朋友分享的私人帖子,以努力尊重消费者的隐私。
Meta公司全球事务总裁尼克-克莱格(Nick Clegg)在本周举行的公司年度连接会议(Connect conference)间隙表示,Meta公司也没有将其消息服务上的私人聊天作为模型的训练数据,并采取措施从用于训练的公共数据集中过滤私人细节。
克莱格说:"我们已经尝试排除那些个人信息占绝大多数的数据集,"他补充说,Meta 用于培训的"绝大多数"数据都是公开的。
他以 LinkedIn 为例指出,出于隐私考虑,Meta 有意不使用该网站的内容。
在克莱格发表上述评论之际,包括Meta、OpenAI和Alphabet旗下Google在内的科技公司因未经许可使用从互联网上采集的信息来训练它们的人工智能模型而饱受批评。
这两家公司正在权衡如何处理在这一过程中他们的人工智能系统可能复制的私人或受版权保护的资料,同时还要面对作者指控他们侵犯版权的诉讼。
首席执行官马克-扎克伯格(Mark Zuckerberg)周三在Meta公司的年度产品会议"Connect"上发布了公司首批面向消费者的人工智能工具,Meta AI是其中最重要的产品。今年的会议主要讨论人工智能,而不像以往的会议主要关注增强现实和虚拟现实。
Meta表示,该助手使用了一个基于强大的Llama 2大型语言模型的定制模型,该模型已于今年7月公开用于商业用途,同时还使用了一个名为Emu的新模型,该模型可根据文本提示生成图像。
该产品将能生成文本、音频和图像,并能通过与微软必应搜索引擎的合作获取实时信息。用于训练Meta AI的Facebook和Instagram公开帖子还包括文字和照片。
Meta公司的一位发言人告诉路透社,这些帖子被用来训练Emu的图像生成功能,而聊天功能则是在Llama 2的基础上添加了一些公开可用的注释数据集。
该发言人说,与 Meta AI 的互动也可能被用来改进未来的功能。Meta 对 Meta AI 工具可以生成的内容施加了安全限制,比如禁止创建公众人物的逼真图像。
关于受版权保护的材料,克莱格说,他预计会有"相当数量的诉讼",涉及"创意内容是否在现有的合理使用原则范围内",该原则允许出于评论、研究和戏仿等目的有限度地使用受保护的作品。
一些拥有图像生成工具的公司为复制米老鼠等标志性人物提供了便利,而另一些公司则为这些素材支付了费用,或有意避免将其纳入训练数据。
例如,OpenAI 今年夏天与内容提供商 Shutterstock 签订了一份为期六年的协议,使用该公司的图片、视频和音乐库进行训练。
当被问及 Meta 是否采取了任何此类措施来避免复制受版权保护的图片时,Meta 的一位发言人指出,新的服务条款禁止用户生成侵犯隐私权和知识产权的内容。