《连线》网站撰文指出,Facebook名为Rosetta的人工智能技术平常可分析数十亿张包含文本的图像,能够分析表情包,但它能像人类那样理解表情包的内涵吗?以下是文章主要内容:每天都有数十亿的文本帖子、照片和视频被上传到社交媒体上,这是人类审核员无法全面筛选的一个信息量级。因此,Facebook和YouTube等公司长期以来一直依赖人工智能来帮助解决垃圾邮件和色情内容等问题。
不过,对于机器来说,审核像白人至上主义的表情包这样的东西可能更具挑战性,因为这项任务需要同时处理几种不同的视觉元素。自动化系统需要检测和“读取”叠加在照片上的文字,并分析图像本身。表情包也是一种复杂的文化产物,很难脱离语境去理解。尽管它们带来了挑战,但一些社交平台已经在使用人工智能来分析表情包,其中包括社交网络巨头Facebook。Facebook本周分享了它如何使用一种名为Rosetta的工具来分析包含文本的照片和视频的细节。
Facebook表示,它已经在使用Rosetta来自动检测违反其仇恨言论政策等规定的内容。该公司本周还宣布,在该工具的帮助下,它正在扩大其第三方事实核查的努力,纳入照片和视频,而不仅仅是基于文本的文章。Rosetta将自动检查包含文本的图像和视频是否曾被标记为错误,从而帮助完成审查。
Rosetta通过将光学字符识别(OCR)技术与其他机器学习技术相结合来处理照片和视频中的文本。首先,它使用OCR来识别文本在表情包或视频中的位置。你可能以前用过类似OCR的东西;它可以让你快速浏览纸质表单,并将其转换为可编辑的文档。该自动化程序知道文本块的位置,并能将它们与你应该签名的地方区分开来。
一旦Rosetta知道文本在哪里,Facebook就会使用一个神经网络来转录文本并理解其含义。然后,它可以将文本传输到其它的系统,比如一个检查表情包是否与已经被揭穿的病毒骗局有关的系统。
Rosetta的研究人员表示,该工具现在可以实时从公开上传到Facebook的每张图片中提取文本,并且可以“阅读”多种语言的文本,包括英语、西班牙语、德语和阿拉伯语。(Facebook表示,Rosetta不会用于扫描用户在时间轴上私密分享的图像或私信。)
Rosetta可以分析包含多种文本形式的图像,比如抗议标识、餐厅菜单、店面等的照片。在Facebook工作的软件工程师维斯瓦纳斯·西瓦库马尔(Viswanath Sivakumar)在一封电子邮件中说,这个工具既能识别景观中的文本(比如街道标识),也能识别表情包——但后者更具挑战性。他写道,“在主动检测仇恨言论和其他违反政策内容的情况下,分析表情包式的图像是一项更加复杂的人工智能挑战。”
西瓦库马尔指出,与人类不同,人工智能通常需要看到成千上万个例子才能学会完成复杂的任务。但是,即便是对于Facebook而言,表情包方面的例子也不是无穷无尽的,而且在不同的语言上收集足够多的例子也很困难。寻找高质量的训练数据是人工智能研究的一个持续性挑战。数据通常需要花费大量的功夫来进行手工标记,而且许多数据库都受到版权法的保护。
为了训练Rosetta,Facebook的研究人员使用了在网站上公开发布的含有某种文本形式的图片,以及它们的标注和发布地点信息。他们还创建了一个程序来生成额外的示例,这种做法的灵感来自于牛津大学的一个研究团队在2016年设计的一种方法。这意味着整个过程在某种程度上是自动化的:一个程序自动地产生表情包,然后另一个程序试图分析它们。
不同的语言还给Facebook的人工智能团队带来了其它的挑战。例如,研究人员必须找到一种变通方法来使得Rosetta能够用于阿拉伯语等语言。阿拉伯语从右到左阅读,与英语等其他语言相反。Rosetta倒着“阅读”阿拉伯语,经过处理后,Facebook将那些字符颠倒过来。研究人员在他们的博客中写道:“这个技巧的效果出奇的好,让我们有了一个统一的模型,它既适用于从左到右的语言,也适用于从右到左的语言。”
虽然自动化系统在内容审核方面非常有用,但它们并不总是万无一失的。例如,腾讯的微信络使用两个不同的算法来过滤图像,多伦多大学公民实验室的一个研究团队成功地骗过了它们。第一个算法是基于OCR的程序,会过滤含有特定话题文本的照片,而另一个算法则会审查那些看起来与中国政府可能创建的黑名单相似的照片。
研究人员能够通过改变图像的属性,比如颜色或方向,轻易地避开微信的过滤器。虽然Facebook的Rosetta更加先进,但可能也不是完美无缺;该系统可能会受困于难以阅读的文本或扭曲的字体。所有的图像识别算法也仍然可能会受到对抗性的例子的影响,那些经过轻微改动的图像在人类看来是一样的,但会导致人工智能陷入混乱。
在对特定种类的内容的审核方面,Facebook和Twitter、YouTube和Reddit等其他的平台在多个国家都面临着巨大的压力。周三,欧盟提出了一项新的法规,要求社交媒体公司在接到通知后一小时内删除恐怖分子的帖子,否则将面临罚款。Rosetta和其他类似的自动化工具已经在帮助Facebook和其他平台在德国等地遵守类似的法律。
它们在那方面也做得更好了:两年前,Facebook首席执行官马克·扎克伯格(Mark Zuckerberg)曾说,Facebook的人工智能系统只能主动捕捉到该公司所删除内容的一半左右;人们必须先要标记其余要删除的内容。现在,Facebook表示,它的人工智能工具可以检测到几乎100%的垃圾邮件、99.5%的恐怖内容和86%的暴力图片。YouTube等其他平台在利用自动内容检测系统上也取得了同等程度的成功。
然而,这些喜人的数字并不意味着像Rosetta这样的人工智能系统是完美的解决方案,尤其是当涉及到更微妙的表达形式的时候。与餐馆菜单不同的是,如果不知道表情包的发布背景,就很难理解它的含义。这就是为什么有很多网站在致力于解释它们。表情包通常描述的是圈内笑话,或者是针对特定的网络亚文化。人工智能仍然不能像人类那样理解表情包或视频。就目前而言,Facebook仍需要依靠人工审核员来决定是否应该删除某个表情包。