Gmail的AI垃圾邮件检测机制完成多年来最大防御升级 RETVec被引入用于识别特殊字符

Google安全博客上的最新文章详细介绍了 Gmail 垃圾邮件过滤器的新升级，Google称之为"近年来最大的防御升级之一"。升级的形式是一个名为 RETVec（弹性高效文本矢量器）的新文本分类系统。Google表示，这有助于理解"对抗性文本操作"--即充满特殊字符、表情符号、错别字和其他垃圾字符的电子邮件，这些字符以前人类可以辨认，但机器不容易理解。以前，充满特殊字符的垃圾邮件很容易通过 Gmail 的防御系统。

如果你想了解"对抗性文本处理"是什么样子，下面的邮件就是我的垃圾邮件文件夹中的内容：

个人的经验是，在今年上半年，这些邮件曾经是个大问题，我的收件箱里经常出现这样的邮件。不过，这次 RETVec 技术升级似乎确实起了作用，因为在过去几个月里，我完全没有遇到过这样的邮件。

像这样的邮件很难分类，因为任何垃圾邮件过滤器都可能会拦截一封写着"恭喜您！您的中奖账户余额为 1,000 美元"，但这封邮件的实际内容并非如此。这里的大部分字母都是"同音字"--通过深入研究 Unicode 标准的无穷无尽的深度，你可以找到一些晦涩难懂的字符，它们看起来像是普通拉丁字母的一部分，但实际上却不是。

例如，主题"Check_Your_Account"被奇怪地加粗，不是因为它有加粗的样式，而是因为它使用了 Unicode 字形，如"数学粗体大写 C"。这是一个数学符号，在人们看来恰好像字母"C"，但进行垃圾邮件过滤的机器人却准确地将其视为一个数学符号，而不理解其英语含义。你越仔细看这样的邮件，情况就越糟糕："CONGRATULATIONS"中的"O"字符被一个 0 取代，"Jackpot"中的下划线字母非常奇怪，甚至在 Unicode 搜索中都找不到，大量空格被换成了句号或下划线。结果，垃圾邮件过滤器看到这些乱七八糟的邮件就缴械投降了。

Google说，RETVec 是来拯救我们的："RETVec 经过训练，能够抵御字符级操作，包括插入、删除、错别字、同音字、LEET 替代等。RETVec 模型是在新型字符编码器的基础上训练而成的，该编码器可对所有 UTF-8 字符和单词进行高效编码。因此，RETVec 无需查找表或固定词汇量，即可在 100 多种语言上运行。"

效率非常重要。其他使用"固定词汇量"或同音字"查找表"的方法在运行时会耗费大量资源。试想一下，如果将"祝贺"的一个或多个字符换成数字、数学符号、西里尔字母、希伯来语或表情符号，那么所有可能的拼写和拼写错误都会出现在一个列表中，而这个列表几乎是无穷无尽的。Google表示，RETVec 的参数只有 20 万个，"而不是数百万个"，因此，虽然Google的垃圾邮件过滤云可能大到足以运行任何东西，但它却小到甚至可以在本地设备上运行。RETVec 是开放源码的，Google希望它能让世界摆脱这种不同编码的同音字攻击。

RETVec 的工作原理似乎与人类的阅读方式很相似：它是一个机器学习 TensorFlow 模型，利用视觉"相似性"来识别单词的含义，而不是识别单词的实际字符内容。Google的"相似性"演示使用了相同的技术来识别猫的图片，因此将其转化为世界上最先进的光学字符识别系统听起来是可行的。

显然，这种方法已经带来了很大的改进，Google表示"用 RETVec 代替 Gmail 垃圾邮件分类器之前的文本向量器，使我们的垃圾邮件检测率比基线提高了 38%，误报率降低了 19.4%。此外，使用 RETVec 还将模型的 TPU 使用量降低了 83%，使 RETVec 的部署成为近年来最大的防御升级之一。"

Google表示，"在过去的一年里一直在内部测试 RETVec，并已将其推广到你的 Gmail 账户。"

对文章打分

Gmail的AI垃圾邮件检测机制完成多年来最大防御升级 RETVec被引入用于识别特殊字符

最新资讯

编辑精选

热门评论

相关文章

Gmail新增由Gemini驱动的“添加到日历”按钮

Google正在开发邮件盾(Shielded Email) 为用户生成随机邮箱注册账号隐藏真实邮箱

Gmail弃用传统短信验证码后续需使用谷歌应用扫码认证

Gmail或将很快提供临时电子邮件地址功能

网页版Gmail现在可以帮助用户使用AI撰写电子邮件

iOS版Gmail加入基于Gemini的AI助手帮助管理收件箱

Top 10

亚洲最大露天煤矿百米厚煤层足足开采了118年古代植物咋都埋那了？

消息称中国开发出国产EUV工具挑战ASML的垄断地位

婉拒马斯克现在不回来特朗普阴阳滞留太空美宇航员：希望擦出爱的火花

亚洲最大露天煤矿百米厚煤层足足开采了118年古代植物咋都埋那了？

消息称中国开发出国产EUV工具挑战ASML的垄断地位

OpenAI发布最新论文：DeepSeek和Kimi发现了o1的秘密