Phenakiは、テキストのプロンプトからリアルなビデオを生成し、首尾一貫した長編のビジュアルストーリーの作成を可能にする。時間と共に変化するプロンプトのシーケンスを条件として、任意の長さのビデオを生成することができる。Phenakiは、新しいエンコーダ・デコーダ・アーキテクチャと変換モデルを利用して、テキスト埋め込みをビデオ・トークンに変換し、それをデトークして実際のビデオを作成する。
特徴
- テキスト説明からのビデオ生成
- 可変長ビデオのサポート
- 時間変動するプロンプト(ストーリー)を処理する能力
- 画像-テキストペアとビデオ-テキスト例の共同学習
- 離散トークンを用いた効率的なビデオ表現
- ビデオ・トークン生成のための双方向マスク変換器
- 生成映像の高い時空間品質
- オープン・ドメインでの動画生成機能
使用例
- 脚本からビジュアルストーリーを開発するコンテンツクリエイター
- テキストを基にシーンをプロトタイピングする映画制作者たち
- 教育関係者が教材用ビデオを作成
- マーケティングチームが概要からプロモーションビデオを作成
- 新しい形のビジュアル・ストーリーテリングを探求するアーティストたち
概要
Phenakiの特長は、一連のテキストプロンプトを条件として任意の長さの動画を生成できることである。ビデオ表現とトークン化への斬新なアプローチにより、多様なテキスト入力から高品質で首尾一貫したビデオを生成します。
もっと読む