继谷歌和Meta后，阿里达摩院上线文本生成视频大模型-萌头条

封面新闻记者吴雨佳欧阳宏宇

这波AIGC（利用人工智能技术来生成内容）的热潮，已经开卷视频了。近日，阿里达摩院低调地在魔搭社区（ModelScope）放出了“文本生成视频大模型”。

据了解。目前文本生成视频大模型，由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间这3个子网络组成，整体模型参数约17亿。支持英文输入。扩散模型采用Unet3D结构，通过从纯高斯噪声视频中，迭代去噪的过程，实现视频生成的功能。

记者发现，这个模型目前已经开放给用户试玩，只要输入一些简单的描述词，就可以看到生成的视频效果。比如输入“A panda eating bamboo on a rock”，就可以看到一只大熊猫坐在岩石上吃竹子的画面。

不过，目前这个模型还不支持中文输入，而且生成的视频长度多在2-4秒，等待时间从20多秒到1分多钟不等，画面的真实度、清晰度以及长度等方面还有待提升。

不止是阿里达摩院，总部位于纽约的人工智能初创公司Runway也发布了一种从文本到视频转化的AI模型Gen-2。上个月，这家曾参与创建Stable Diffusion的公司推出过模型Gen-1，能通过文本提示或参考图像指定的风格，将现有视频转化为新视频。比如将“街道上的人”变成“粘土木偶”，只需要一行提示词。

早在去年，谷歌和Meta都展示了各自在文本转视频上的尝试，利用AI生成泰迪熊洗碗和在湖上泛舟等视频。但这两家公司都没有宣布将相关技术推进到研究阶段以外的计划。

不过，从目前此类模型生成视频的等待时间，画面的真实度、清晰度以及长度等各方面来看，距离产出令人满意的视频还有很大距离。

未经允许不得转载：萌头条 » 继谷歌和Meta后，阿里达摩院上线文本生成视频大模型

继谷歌和Meta后，阿里达摩院上线文本生成视频大模型

作者：萌头条

相关推荐

萌头条

热门标签

最新文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏