Meta 公司去年推出的机器学习模型Segment Anything 一炮打响,该模型可以快速、可靠地识别并勾勒出图像中的任何事物。公司首席执行官马克-扎克伯格(Mark Zuckerberg)周一在 SIGGRAPH 大会上首次公布了新版,将该模型应用到了视频领域。
分割是一个专业术语,是指视觉模型观察图片并找出其中的部分:希望是"这是一只狗,狗后面是一棵树",而不是"这是一棵从狗身上长出来的树"。这一过程已经持续了几十年,但最近变得更好更快了,其中"Segment Anything"是一大进步。
Segment Anything 2(SA2)是一个后续模型,因为它不仅适用于静态图像,还适用于视频。"科学家们用这些东西来研究珊瑚礁和自然栖息地之类的东西。"扎克伯格在与 NVIDIA 首席执行官黄仁勋(Jensen Huang)的对话中说:"但是,能够在视频中做到这一点,而且是零拍摄,并告诉它你想要什么,这就很酷了。"
处理视频对计算要求更高,SA2 仍然是一个需要大量硬件才能运行的庞大模型,但快速、灵活的分割在一年前几乎是不可能的。
这种模式将和第一种模式一样,是开放和免费使用的,目前还没有托管版本的消息,而这些人工智能公司有时会提供托管版本。但有一个免费的演示版。
当然,这样的模型需要大量数据来训练,Meta 还发布了一个包含 50000 个视频的大型注释数据库,它就是为此目的而创建的。在描述 SA2 的论文中,另一个包含 10 万多个"内部可用"视频的数据库也被用于训练,但这个数据库并没有公开--我已经要求 Meta 提供更多信息,说明这是什么,以及为什么没有公开。(我们猜测这些视频来自 Instagram 和 Facebook 的公开资料)。
标注训练数据示例
几年来,Meta 一直是"开放"人工智能领域的领军者,尽管事实上(正如扎克伯格在对话中所说),它很早就开始这样做了,并推出了 PyTorch 等工具。但最近,LLaMa、Segment Anything 和它免费发布的其他一些模型,已经成为这些领域人工智能性能的一个相对可及的标准,尽管它们的"开放性"还有待商榷。
扎克伯格还提到了Meta 公司开放技术的意义:"这不仅仅是一个软件,你需要一个围绕它的生态系统。如果我们不开放源代码,它甚至都不会运行得那么好,对吗?我们这么做并不是因为我们是利他主义者,尽管我认为这对生态系统会有帮助,我们这么做是因为我们认为这会让我们正在构建的东西变得最好。"