金磊发自凹非寺
量子位|公众号
看!如今正有四位小妹妹在你面前大秀热舞:
以为是个别主播在短视频平台发布的作品?
No,No,No。
真实答案是:假的,生成的,但是还是只靠了一张图的那个!
真实的打开方法是这样的:
这就是来自澳大利亚国立学院和字节跳动最新的一项研究,名叫。
它的作用简单来说可以总结为一个公式:一张图片+一组动作=毫无违和感的视频。
之后啊,这项技术一经公布,堪称是在科技圈里掀起了不小的波澜量子视频,诸多科技大鳄和极客们纷纷下场耍了上去。
就连CTO都拿自己的头像体验了一把:
顺便还直率地开了句玩笑:
这算是瑜伽了吧?我这周可以不去瑜伽房了。
还有相当与时俱进的网友,拿着刚揭晓的GTA6(侠盗猎车手6)预告片中的人物玩了一把:
甚至就连表情包们也成了网友们pick的对象……
可以说是把科技圈的眼神聚焦到了自己头上,因而也有网友揶揄说:
可以休息一下了。
火,着实是火。

一张图即可生成一段舞
这么这么火热的,该怎么“食用”?
话不多说,我们如今就来手把手地体验一次。
目前项目团队早已在中开放了在线体验的页面:
操作也是十分得简单,只需三步即可:
上传一张静态人物合照上传想要生成的动作demo视频调整参数,点击“”即可
比如下边就是小弟相片和一段近日风靡全球的《科目三》舞蹈片断:
△视频源:抖音(ID:)
也可以选择页面下方提供的模版进行体验:
不过须要注意的是,因为目前过分火热,在生成的过程中可能会出现“宕机”的情况:
虽然成功“食用”,可能也得排支队……
(没错!截止发稿,还是没有等到结果!)
除此之外,在中也给出了本地体验的方法,感兴趣的男子伴可以试试哦~
这么接出来的一个问题便是:
如何做到的?
整体而言,采用的是基于扩散模型()的一个框架,目的就是提高时间一致性、保持参考图象的真实性,并提升动漫保真度。
因此,团队首先开发了一个视频扩散模型()来编码时间信息。
这个模型通过在扩散网路中加入时间注意力模块,来编码时间信息,进而确保动漫中各帧之间的时间一致性。
其次量子视频,为了保持帧间的外形一致性,团队引入了一种新的外型编码器()来保留参考图象的复杂细节。
这个编码器与往年使用CLIP编码的方式不同,才能提取密集的视觉特点来引导动漫,因而更好地保留身分、背景和服饰等信息。
在这两项创新技术的基础之上,团队进一步采用了一种简单的视频融合技术(Video)来推动长视频动漫的平滑过渡。
最终,在两个基准上的实验表明,的结果要远优于往年的方式。
尤其是在具有挑战性的街舞数据集上,在视频保真度方面比最强基线高出38%以上!
团队所给出的定性比较如下:
以及与cross-ID的SOTA基线相比,结果如下:
OneMoreThing
不得不说,例如的项目近来着实是有点火热。
这不,在它“出道”前不久,阿里团队也发布了一个名叫的项目,同样是只要“一张图”和“想要的动作”:
由此,也有网友发出了疑惑:
这其实是和之间的战争。谁更胜一筹?
你感觉呢?
论文地址:
参考链接:
[1]
[2]
[3]
[4]
[5]
—完—
量子位·头条号签约
关注我们,第一时间得知前沿科技动态
