不学Sora?这家国产AI搞了个“无限续杯”的视频模型

2025年04月27日 09:50 次阅读 稿源:差评 条评论

这回说个不一样的视频模型:sand.ai的Magi-1。具体有啥不一样?我们先翻了翻sand.ai的资料,发现他们团队还真是有点来头。创始人曹越和联创张拯早在2021年的万引神文Swin Transformer就有合作,都曾就职于科技界的黄埔军校 - 微软亚洲研究院。曹越还是光年之外的创始人之一。


在强强联手的buff加持下,sand.ai创立才一年多就有了自己的第一个视频生成模型 Magi-1。

据说Magi-1是现在市面上唯一一款能进行无限时长视频续写的模型,还能精细化控制到每一秒生成的内容。

要知道现在视频生成模型的极限普遍就几十秒,像可灵那样一分钟以上的都很少见。要生成更长的视频,那是另外的...另外的价钱也不行,这是底层模型的技术问题。

而Magi-1支持无限时长续写,还可以每次同时生成最多16个1s到10s的视频。


不光技术有创新,sand.ai还表示,他们已经在4月21日开源了模型,并同步上线产品 demo。

连业界大佬都发文力挺sand.ai,李开复发帖,这是继 DeepSeek之后又一个开源的世界级模型。


美团创始人王慧文也为sand.ai这波开源发声:“只有科技的不断前行,能挽救人类掉入零和游戏的深坑。”


我们去翻了几个官方的案例,好像确实有点东西啊。

看看这飞快的运动速度!


再看看这丝滑的镜头转换!


这可让世超有点期待了。

不过得先冷静一下。测试下来,感觉想法是很有潜力的,有优势和特色,但是生成的效果还有待提升。

我们先找了个梦中情车的正面特写慢镜头,准备续写接下来世超驾驶Lamborghini秋名山车神再世的画面。

测试的过程中,我们发现Magi-1对于运动速度和镜头的控制确实很优秀。兰博基尼在路上疾驰的效果做出来了,镜头也很有电影感,一直聚焦在跑车上。

还有一个很明显的优点,就是Magi-1对于视频主要物体的保护非常到位。不会在多次续写之后,跑车变身大黄蜂的情况。

它对物理环境的理解也是正确的,车辆一直保持在地面上,没有出现低空飞行之类的骚操作。


不过...Magi-1好像有点健忘。比如前三段生成的视频都知道车后是一面墙,结果第四段直接一个倒车摆尾漂移丝滑上路了。

而且场景理解自从上路就越来越抽象了。除了克苏鲁风绿化带,提示词让它在红灯前刹车,本意遵纪守法,它直接来个交通肇事。

虽然确实是在红灯前刹车,没毛病


但我们接下来的测试发现,效果不好也不能全怪模型,还可能是提示词出了问题。

打开Magi-1的提示词增强,它可以把简单的提示词扩展成更详细、容易让模型理解的指令。但在实际使用的时候,它出现了添油加醋,假传圣旨的现象。

比如这里,我们只想让小鸡玩具跳起来,提示词增强自己给自己上了个难度,还要让小鸡扇动翅膀。


但如果我们把提示词复制一遍,只删掉扇翅膀的要求,关掉提示词增强,生成的视频效果立刻好起来了。

左图有扇翅膀提示词,右图去掉扇翅膀提示词


接下来,我们再对之前的跳跃提示词直接进行修改,变成让镜头逐渐左移。

效果看起来也不错,环境没有崩,小鸡也没有崩,镜头的确移动了。


所以这里有个小小的功能改进建议嗷:

在进入视频生成环节之前,最好让大家伙儿看看增强的提示词对不对,给一个修改提示词的机会。

毕竟生成一次还是要等挺久的,要是最后才发现中间提示词被魔改了,有点搞心态。

这也侧面反映了,Magi-1对于提示词是非常敏感而且要求很高的。想用好它,最好知道什么样的提示词才能让它出好活。

看完测试,你可能觉得,这模型有点拉呀,现在生成效果比这个好的多的是,为啥把它拿出来说?

因为它和我们熟悉的 Sora 等非自回归DiT模型(Diffusion Transformer) 的技术路线完全不一样,是一个自回归生成模型AR(Autoregressive model)。

作为一次创新尝试,它有自己独特的优势和潜力。

AR 模型就像一条环环相扣的锁链,每一次生成视频的新一帧,都在前一帧的基础上。这样生成的视频相邻帧之间就会有强相关性。

而 DiT 模型更像是放在一起伪装成锁链的一堆铁环。它为了效率会同时生成很多帧,但没有办法兼顾到帧与帧之间的关联。


为什么sand.ai要尝试一条新路,选择和主流视频生成都不一样的 AR 模型呢?

我们对sand.ai团队进行了简单的采访,很荣幸得到了对 Magi-1 更专业、长远的解答。

sand.ai表示,他们早在Sora发布前就洞察到了AR模型在视频生成方面的潜力。坚持AR,是因为它在大语言模型上已经被证实是可扩展的(scalable) ,而scalable在很大程度上决定了这个技术在未来的上限。

理论上,AR 模型和语言模型的技术路线更接近,有机会让语言和视频统一建模,使文字和视频之间的关系就像现在文生图一样紧密,效果有可能实现一次跃迁。

另一方面,视频随着时间的推移往往还有物理和逻辑的相关性。比如篮球如果被篮筐拦住,它就不会再掉落了。

下图是用Magi-1生成的


DiT每帧独立生成的方式可能会切断这种关联,没准会让篮球直接魂穿篮筐。而AR会更好地理解视频内容,不仅内容合理,还会在运动幅度、速度上表现得更好。

虽然技术路线目前看还没有完全成熟,但sand.ai相信AR会是未来。随着技术的不断迭代,也许就会找到最合理的 AR 模型视频生成的方式。

于是按照他们的说法,在对技术全面而理性地分析后,sand.ai在AR视频生成上下了注。

其实,在视频生成领域卷到飞起的今天,sand.ai看似迟到了,但在上限更高的AR视频生成上他们却是先发而至。

最重要的是,sand.ai这波开源,属实格局拉满。

科技行业的每一次重大开源,都会带来一场百花齐放。期待sand.ai未来的更多产品,以及更多团队在Magi-1基础上的创新成果。

对文章打分

不学Sora?这家国产AI搞了个“无限续杯”的视频模型

1 (50%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      Top 10

      招聘

      created by ceallan