Outils d'IA > Du texte à la vidéo > Phenaki

Phenaki

Génère des vidéos réalistes à partir d'invites textuelles.

0,0

(0)

Qu'est-ce que Phenaki?

Phenaki génère des vidéos réalistes à partir d'invites textuelles, ce qui permet de créer des histoires visuelles cohérentes et de longue durée. Il peut produire des vidéos d'une longueur arbitraire, en fonction d'une séquence d'invites qui peuvent changer au fil du temps. Phenaki utilise une nouvelle architecture d'encodage-décodage et un modèle de transformation pour traduire les enchâssements de texte en jetons vidéo, qui sont ensuite dé-tokénisés pour créer la vidéo proprement dite.

Caractéristiques

Génération de vidéos à partir de descriptions textuelles
Prise en charge des vidéos de longueur variable
Capacité à gérer des messages variables dans le temps (histoires)
Formation conjointe sur des paires image-texte et des exemples vidéo-texte
Représentation vidéo efficace avec des jetons discrets
Transformateur masqué bidirectionnel pour la génération de jetons vidéo
Haute qualité spatio-temporelle des vidéos générées
Capacité à générer des vidéos dans des domaines ouverts

Cas d'utilisation

Créateurs de contenu développant des histoires visuelles à partir de scripts
Les cinéastes prototypent des scènes à partir de descriptions textuelles
Éducateurs créant des vidéos illustratives pour le matériel pédagogique
Les équipes de marketing produisent des vidéos promotionnelles à partir de dossiers
Des artistes explorent de nouvelles formes de narration visuelle

Résumé

Phenaki se distingue en permettant la génération de vidéos de longueur arbitraire conditionnées par une séquence d'invites textuelles, une capacité qui n'avait pas été explorée auparavant dans les modèles de génération de vidéos. Son approche novatrice de la représentation vidéo et de la symbolisation permet de produire des vidéos cohérentes et de haute qualité à partir d'entrées textuelles diverses.