Gmail的AI垃圾邮件检测机制完成多年来最大防御升级 RETVec被引入用于识别特殊字符

2023年12月05日 10:46 次阅读 稿源:cnBeta.COM 条评论

Google安全博客上的最新文章详细介绍了 Gmail 垃圾邮件过滤器的新升级,Google称之为"近年来最大的防御升级之一"。升级的形式是一个名为 RETVec(弹性高效文本矢量器)的新文本分类系统。Google表示,这有助于理解"对抗性文本操作"--即充满特殊字符、表情符号、错别字和其他垃圾字符的电子邮件,这些字符以前人类可以辨认,但机器不容易理解。以前,充满特殊字符的垃圾邮件很容易通过 Gmail 的防御系统。

如果你想了解"对抗性文本处理"是什么样子,下面的邮件就是我的垃圾邮件文件夹中的内容:

floorp_69j3MIP2KP-980x794.png

个人的经验是,在今年上半年,这些邮件曾经是个大问题,我的收件箱里经常出现这样的邮件。不过,这次 RETVec 技术升级似乎确实起了作用,因为在过去几个月里,我完全没有遇到过这样的邮件。

像这样的邮件很难分类,因为任何垃圾邮件过滤器都可能会拦截一封写着"恭喜您!您的中奖账户余额为 1,000 美元",但这封邮件的实际内容并非如此。这里的大部分字母都是"同音字"--通过深入研究 Unicode 标准的无穷无尽的深度,你可以找到一些晦涩难懂的字符,它们看起来像是普通拉丁字母的一部分,但实际上却不是。

例如,主题"Check_Your_Account"被奇怪地加粗,不是因为它有加粗的样式,而是因为它使用了 Unicode 字形,如"数学粗体大写 C"。这是一个数学符号,在人们看来恰好像字母"C",但进行垃圾邮件过滤的机器人却准确地将其视为一个数学符号,而不理解其英语含义。你越仔细看这样的邮件,情况就越糟糕:"CONGRATULATIONS"中的"O"字符被一个 0 取代,"Jackpot"中的下划线字母非常奇怪,甚至在 Unicode 搜索中都找不到,大量空格被换成了句号或下划线。结果,垃圾邮件过滤器看到这些乱七八糟的邮件就缴械投降了。

2023-12-05-image-19.webp2023-12-05-image-4.webp

Google说,RETVec 是来拯救我们的:"RETVec 经过训练,能够抵御字符级操作,包括插入、删除、错别字、同音字、LEET 替代等。RETVec 模型是在新型字符编码器的基础上训练而成的,该编码器可对所有 UTF-8 字符和单词进行高效编码。因此,RETVec 无需查找表或固定词汇量,即可在 100 多种语言上运行。"

效率非常重要。其他使用"固定词汇量"或同音字"查找表"的方法在运行时会耗费大量资源。试想一下,如果将"祝贺"的一个或多个字符换成数字、数学符号、西里尔字母、希伯来语或表情符号,那么所有可能的拼写和拼写错误都会出现在一个列表中,而这个列表几乎是无穷无尽的。Google表示,RETVec 的参数只有 20 万个,"而不是数百万个",因此,虽然Google的垃圾邮件过滤云可能大到足以运行任何东西,但它却小到甚至可以在本地设备上运行。RETVec 是开放源码的,Google希望它能让世界摆脱这种不同编码的同音字攻击。

RETVec 的工作原理似乎与人类的阅读方式很相似: 它是一个机器学习 TensorFlow 模型,利用视觉"相似性"来识别单词的含义,而不是识别单词的实际字符内容。Google的"相似性"演示使用了相同的技术来识别猫的图片,因此将其转化为世界上最先进的光学字符识别系统听起来是可行的。

显然,这种方法已经带来了很大的改进,Google表示"用 RETVec 代替 Gmail 垃圾邮件分类器之前的文本向量器,使我们的垃圾邮件检测率比基线提高了 38%,误报率降低了 19.4%。此外,使用 RETVec 还将模型的 TPU 使用量降低了 83%,使 RETVec 的部署成为近年来最大的防御升级之一。"

Google表示,"在过去的一年里一直在内部测试 RETVec,并已将其推广到你的 Gmail 账户。"

对文章打分

Gmail的AI垃圾邮件检测机制完成多年来最大防御升级 RETVec被引入用于识别特殊字符

1 (50%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      Top 10

      招聘

      created by ceallan