Phenaki 可根据文字提示生成逼真的视频,从而创作出连贯的长篇视觉故事。它可以根据随时间变化的提示序列生成任意长度的视频。Phenaki 利用新颖的编码器-解码器架构和转换器模型,将文本嵌入转化为视频标记,然后对视频标记进行去标记化,从而生成实际视频。
特点
- 根据文字描述生成视频
- 支持长度可变的视频
- 能够处理时间可变的提示(故事)
- 图像文本对和视频文本示例的联合训练
- 使用离散标记的高效视频表示法
- 用于生成视频令牌的双向屏蔽变压器
- 生成视频的高时空质量
- 在开放域中生成视频的能力
使用案例
- 根据脚本开发视觉故事的内容创作者
- 电影制作人根据文字描述制作场景原型
- 教育工作者为教材制作说明性视频
- 营销团队根据简介制作宣传视频
- 艺术家探索视觉叙事的新形式
摘要
Phenaki 能够根据一系列文本提示生成任意长度的视频,这在以前的视频生成模型中是从未有过的。它采用了新颖的视频表示和标记化方法,能根据不同的文本输入生成高质量、连贯的视频。
更多信息