给我一张脸、视频背景随你换：林黛玉都被清华理工男玩废了

让AI视频中任意主体保持一致！就在刚刚，人人都可轻松做到了。而且只需一张图片，就能实现。您看到的每一段马斯克视频，都来自同一张照片。

想玩的话，只需要用上清华系AI视频玩家生数科技旗下Vidu的最新功能，主体参照（Subject Consistency）。

该功能能够实现对任意主体的一致性生成，让视频生成更加稳定，也更加可控。

“现在生成AI视频内容，想要做到‘言出法随’其实还很难，不确定性让视频内容对运镜、光效等的精细控制还是得不断抽卡。”生数科技CEO唐家渝表示，“角色一致性只能让人脸保持一致，而主体参照让主体整体造型都能保持一致，给了更大的创作空间。”

这是继今年7月，生数Vidu面向全球用户上线文生视频与图生视频能力（单视频最长生成8s）后的再次更新。

这次功能上新依然非常友好：

面向用户免费开放，注册即可体验。

仅需一张图片实现主体可控

先来看看Vidu是怎么定义这个新功能的。

主体参照：允许用户上传任意主体的一张图片，然后由Vidu够锁定该主体形象，通过描述词任意切换场景，输出主体一致的视频。

划重点：任意主体。

也就是说，无论是人还是动物，无论是真人还是动漫形象or虚构主体，无论是家具还是商品，都能通过这个功能在视频生成中实现一致性和可控性。

目前，所有的视频大模型中，仅有Vidu率先支持这种玩法。

不必光说不练，我们来看看真实效果。

人物主体

首先来看看以人物为主体。

上传一张87版《红楼梦》林妹妹的定妆照：

以画面中林妹妹为主体，利用主体参照功能，生成两条视频。

突然，林妹妹上台演讲了：

又一眨眼，妹妹已经坐在星爸爸喝咖啡了：

当然啦，真人可以作为生成视频的主体参照，虚拟角色/动漫人物同样可以。

比如输入一张漫画女孩：

生成视频效果是酱紫的：

这里附上一些官方给的小tips：

如需重点保持主体面容一致，需仅截取单一主体的清晰面容图

如需重点保持主体半身一致（面容+上半身服饰），仅需截取单一主体的清晰半身图

如需重点保持主体全身一致（全身特征），仅需截取单一主体的清晰全身图

动物主体

谁能不爱可爱狗狗！

把这张照片丢给Vidu，就能实现狗狗走草地上，一步一步靠近你。

镜头后拉和主体运动幅度表现都还不错。

商品主体

当把商品作为需要参照的主体时，在生成的视频中，商品外观和细节能在不同于图片的场景中保持一致。

就像下面这样：

沙发所在的场景，说变就变。

上面还能睡一个盖了毯子的小女孩，遮挡住沙发原有部分。

需要注意的是，当前版本仅支持单一主体的可控。

如果上传的图片有多个人物/物体，需要框选出单一主体进行生成。

Be Like：

不再“两步走”了

无论是制作短视频、动画作品还是广告片，“主体一致、场景一致、风格一致”都是共同的追求。

因此，AI视频生成内容想要有叙事效果，就需要不断往三个一致方面尽力靠拢。

尤其是就现实情况而言，实际的视频创作，内容往往围绕特定的对象展开——这往往也是视频生成内容最容易变形、崩坏的一点，尤其在涉及复杂动作和交互的情况下。

挠头，脑阔痛。

业界首先想到的办法是先AI生图、再图生视频。

说人话，就是用Midjourney、SD什么的，生成分镜镜头画面，让每张图里的主体保持一致，然后再进行图生视频，最后把每个视频片段拼接剪辑。

但一听就发现了，这样搞，无论是保持AI画图的一致性，还是后期拼拼剪剪，工作量都很大。

生数Vidu“主体参照”跟这个思路的不一样之处，就是不再两步走了。

而是通过“上传主体图+输入场景描述词”的方式，直接生成视频素材。

最后，我们来厘清以及区分三个概念：

图生视频（Image to Video）

角色一致性（Character to Video）

主体参照（Subject Consistency）

图生视频基本是现在AI视频生成的基操了。

它把输入的图片作为视频首帧，然后基于首帧画面的连续生成。

Bug是无法直接输出目标场景，限制了视频内容的多样性和场景的自由度。

角色一致性，主要集中在人物形象上起效果。

它能保证人物面部特征在动态视频中保持一致，但一般来说“一致性”只顾脸，不顾整体形象。

主体参照，面向任意主体。

同时在面向人物主体时，既可选择保持面部一致，也可选择保持人物整体形象的高度一致。

最后附上生数科技视频试玩链接，感兴趣的朋友可趁排队人不多，赶紧冲一波！

毕竟，免费的就是香，对吧（doge）。

体验直通车：www.vidu.studio

对文章打分

给我一张脸、视频背景随你换：林黛玉都被清华理工男玩废了

最新资讯

编辑精选

热门评论

相关文章

《纽约时报》：当机器人夺人之爱时，会发生什么？

李开复：中国人工智能大模型落后美国同行6至9个月

OpenAI正试图再融资65亿美元估值将达到1500亿美元

GPT“草莓”项目：推理能力翻倍定价200美元？

Mistral 发布首款多模态模型 Pixtral 12B

Top 10

用了这台泰国版的Pura 70 我怀疑华为有事瞒着我们

郑刚晒罗永浩借款聊天记录：十年来的聊天几乎都是要钱

五星级酒店禁止新能源车进地下停车库 “燃油车可以”

用了这台泰国版的Pura 70 我怀疑华为有事瞒着我们

华为纯血鸿蒙微信界面曝光：功能精简页面十分纯净

郑刚晒罗永浩借款聊天记录：十年来的聊天几乎都是要钱