中国版Sora来了?日前,快手推出视频生成大模型——可灵,支持文生视频、图生视频以及视频续写功能。可灵大模型基于Diffusion Transformer架构打造的文本视频语义理解能力,支持输出1080P30帧最长2分钟的视频,生成时长直接赶超Sora。
6月21日,可灵上线的视频续写功能中,支持对已生成的视频一键续写和连续多次续写,单次可让视频延续约5秒,最长可生成约3分钟视频。
快手可灵的内测申请在快手的剪辑软件快影App的“AI创作”功能模块中,财联社记者申请通过后,进行了深入的体验。
目前可灵的生成速度上表现尚可,财联社记者每次文生5s视频基本都能在2–3分钟之内完成。根据公开信息,快手、Sora之外,Luma AI发布了文生成图模型Dream Machine,并开启内测;Adobe的Firefly新增生成式扩展功能,生成音频和视频功能即将推出;美图构建AI短片工作流,开发了AI短片创作工具MOKI,预计将于今年7月31日上线。
有研究机构指出,在当前AI大模型的输出内容不能完全保证正确性与精准度的背景下,对“幻觉”问题不敏感的文生文、文生图、文生视频、数字人等AIGC领域有望率先实现商业化落地。
文生视频更自然,图生视频仍有进步空间
为了展示可灵AI的能力,财联社记者从对于语言的识别精准程度、视频表现精度这两个层面对可灵大模型进行测试。其中在精度层面上,主要从两个层面上进行考虑,首先是光影效果的呈现,其次是物体关系(如人与人互动,人与物体互动)等。
为了便于观看,财联社记者将视频转换成了动图,因此会对视频质量和帧数造成一定的影响,但基本能够展现可灵的视频生成能力。
首先是对文字识别和处理层面上,财联社记者尝试详细描述了一个场景:“满头白发的中年女人,穿着深蓝色西服,向一台佳能相机展示白色瓶身绿色瓶盖的蓝月亮洗衣液,背景是沙滩与海洋的落日场景。”
可灵基本按需复现了描述文字的需求,只是文字描述中的相机并未出现在视频画面中,以及可能是出于版权争议方面的考虑,洗手液的品牌被涂上了马赛克。
接下来记者又尝试了更为简短的描述:“一只比熊犬穿着宇航服和高跟鞋在夜店跳舞。”
虽然比熊犬身上的服装与真实的宇航服尚有差异,但这次的还原度要高不少。
接下来,财联社记者又描述了两个场景,以测试可灵的光影展现效果,以及对于物体关系的还原的程度。
以上的视频描述文本为:“在灯光复杂的深海隧道中,一辆银白色引擎盖加上黑色外观的迈巴赫,开着远光灯,以时速120公里每小时行驶过一摊积水,水花四溅到镜头上。”
以上视频的描述文本为:“荒芜的死亡星球上,一群假面骑士通过光剑进行对战,并砍下了对方的头盔。”
以上视频的描述文本为:“两个壮汉在水立方里互扇巴掌。”
以上视频的描述文本为:“小猫送外卖,抽象风格,把披萨送到人手上。”
以上视频的描述文本为:“小猫用前爪把头上的头盔脱下来,放入到电动车的前框里。”
以上视频的描述文本为:“一个小女孩吃面条”。
以上视频的描述文本为:“女性推着自行车,往后倒退,一片樱花花瓣落到她的头上。”
目前图生视频的功能更多是让画面主体运动起来,通过准确的关键词做动作,但复杂的物体互动,呈现效果不佳。
如小猫咪用前爪脱下头盔,AI并未正确识别图中猫咪的前爪,而是生成了另外的前爪,并且没有脱下头盔的动作,而是将生成的前爪搭在了前框里的头盔上。
小女孩吃面条基本生成了“吃播”效果,五官与食物清晰。
而女子推车倒退变成了骑车倒退,虽然动作方向正确,但花瓣只落到了镜头的前方,并未落到女子的头上。
通过上述的测试,我们基本可以推断出以下几个结论:
可灵对于光影关系,流体与人物的关系呈现大致上是没有问题的,在文生视频的准确度上与sora差别不大。比如,当灯光扫过车顶时,前挡风与引擎盖金属反光变化的差异;车辆驶过积水时溅起的水花等。
可灵对于物体关系的处理仍存在改进的空间。比如决斗时光剑出现了“穿模”的情况。
此外,可灵基本可以做到符合真实的运动规律。在测试中,车辆行驶、女生吃东西等基本符合现实规律与关键词输入要求。
对于有关键词未被识别的问题,有观点认为,造成这种问题的原因在于,目前视频生成大模型基本是直接从视频数据中学习物理知识,但真实视频往往包含很多信息,因此大模型很难精准区分每个物理规律并学习。
财联社记者了解到,快手大模型团队自研了3D VAE网络和全注意力机制(3D Attention),借助多模态技术更好地实现时空建模。
快手视觉生成与互动中心负责人万鹏飞公开表示:“快手是一个拥有海量视频数据的平台,可实现全流程、自动化、高效率的支持模型的训练和评估。”
他还补充道,快手拥有多维度视频标签体系,可精细化的筛选数据,或对数据的分布进行调整。
商用可能性到底在哪?落地场景或更偏商业端
据财联社记者了解,目前可灵内测申请人数已超14万人,有不少创作者都在其中。
有视频内容创作者对财联社记者表示,使用AI工具生成的视频看上去很酷,但这类工具在普通人手中意义不大。AI生成视频的成本也不低,这一点从ChatGPT和Sora的开放程度就能看出来,ChatGPT可以开放给亿级用户,而Sora至今只有少数人试过。”
不过,部分视频平台也不鼓励AI合成内容,这类视频分到的流量不多,有的甚至会被限流。目前,各大内容平台都有相关限制,AI生成内容均会标注 “作品疑似AI合成,请谨慎甄别”。
该名内容创作者补充道,AI视频生成功能的真正意义在于简化了视频制作流程,既可以帮助成熟的内容创造者生成无版权纠纷的素材,加速内容创作,也可以帮助传统的图文创造者基于已有内容视频化,加速内容迁移。
他认为,通过精准描述,内容创作者可以省下挑选合适素材的时间。本身职业内容创作者也会自己购买视频素材,或者开通相应的会员。现在唯一的问题只在于,收费是否合理。
但从长远来看,无论可灵还是sora都不会将C端应用作为未来主要发展方向,根据场景应用落地的能力,才更具想象力。
另一位影视行业的从业者告诉财联社记者,AIGC工具已经被应用在了影视行业了,比如《瞬息全宇宙》里面主角高速穿越多个宇宙的镜头,可以用AI技术快速生成出来,能够降低制作成本。“如果使用传统制作流程,哪怕只是为了制作一分钟的视频,也需要一个庞大的团队工作好几个月才能完成,涉及到脚本、建模和后期渲染等多个过程。”
财联社记者了解到,有部分电影人在接受Luma发布的Dream Machine内测邀请后,使用该款AI工具制作了一些微电影以及预告影片。继生成短剧剧本之后,AI视频生成工具将有可能被用于直接生成短剧,而这一尝试也会让短剧赛道的链路更短。
当下,可灵在B端的商用还未开启,但从此前AIGC技术应用来看,短视频切片、评论区互动、数字人主播等均是内容电商可以落地的场景。
据悉,包括京东、快手、抖音在内的电商平台已经使用AI大模型辅助商家进行运营。比如京东免费数字人代播服务,能24小时不断进行直播;快手的“AI脚本生成+智能高光切片+全模态检索大模型”功能等等。
快手方面提供的数据显示,AIGC技术的应用已经开始提升营销转化效率,通过盘古视频AIGC素材整体提升营销转化率33%。
有业内人认为,未来文生视频工具也有可能被商家应用在产品功能、场景短视频展示上面。“相较于对每个产品进行实际拍摄,直接使用AI工具生成视频的时间成本和人力成本可能会更低。”
对成本端的影响,也能从当前数字人主播应用效果得出一定结果。快手磁力引擎项目招商负责人、磁力学堂负责人王思洵分享了一组数据:“在尽量过滤掉干扰项的前提下,我们测试发现真人直播间和数字人直播间数据表现几乎一样。AIGC技术自动生成直播/短视频素材,使得企业的直播风险可控,运营效率也得到了提升。”
天风证券分析师认为,生成式AI在视频创作和世界模型的大踏步进步将实现对视频/3D/游戏等下游应用场景的渗透。在短视频、创作工具、游戏等下游领域,可灵、Sora等AI原生产品有望融入工作流,增强用户体验、降低用户使用壁垒、进一步降低创作成本,并极大拓展创作者能力边界。
该名证券分析师补充道:“与OpenAI其他产品不同,Sora代表的DiT架构路径复刻难度在算力充足的前提下相对较低,国内互联网头部大厂在生成式视频工具上的布局速度可能会持续超预期。”