Phenaki génère des vidéos réalistes à partir d'invites textuelles, ce qui permet de créer des histoires visuelles cohérentes et de longue durée. Il peut produire des vidéos d'une longueur arbitraire, en fonction d'une séquence d'invites qui peuvent changer au fil du temps. Phenaki utilise une nouvelle architecture d'encodage-décodage et un modèle de transformation pour traduire les enchâssements de texte en jetons vidéo, qui sont ensuite dé-tokénisés pour créer la vidéo proprement dite.
Caractéristiques
- Génération de vidéos à partir de descriptions textuelles
- Prise en charge des vidéos de longueur variable
- Capacité à gérer des messages variables dans le temps (histoires)
- Formation conjointe sur des paires image-texte et des exemples vidéo-texte
- Représentation vidéo efficace avec des jetons discrets
- Transformateur masqué bidirectionnel pour la génération de jetons vidéo
- Haute qualité spatio-temporelle des vidéos générées
- Capacité à générer des vidéos dans des domaines ouverts
Cas d'utilisation
- Créateurs de contenu développant des histoires visuelles à partir de scripts
- Les cinéastes prototypent des scènes à partir de descriptions textuelles
- Éducateurs créant des vidéos illustratives pour le matériel pédagogique
- Les équipes de marketing produisent des vidéos promotionnelles à partir de dossiers
- Des artistes explorent de nouvelles formes de narration visuelle
Résumé
Phenaki se distingue en permettant la génération de vidéos de longueur arbitraire conditionnées par une séquence d'invites textuelles, une capacité qui n'avait pas été explorée auparavant dans les modèles de génération de vidéos. Son approche novatrice de la représentation vidéo et de la symbolisation permet de produire des vidéos cohérentes et de haute qualité à partir d'entrées textuelles diverses.