Herramientas de IA > Texto a vídeo > Phenaki

Phenaki

Genera vídeos realistas a partir de indicaciones textuales.

0,0

(0)

¿Qué es la Phenaki?

Phenaki genera vídeos realistas a partir de instrucciones textuales, lo que permite crear historias visuales coherentes y de larga duración. Puede producir vídeos de longitud arbitraria, condicionados a una secuencia de instrucciones que pueden cambiar con el tiempo. Phenaki utiliza una novedosa arquitectura de codificador-decodificador y un modelo de transformador para traducir las incrustaciones de texto en tokens de vídeo, que luego se de-tokenizan para crear el vídeo real.

Características

Generación de vídeos a partir de descripciones textuales
Soporte para vídeos de longitud variable
Capacidad para manejar indicaciones variables en el tiempo (historias)
Entrenamiento conjunto de pares imagen-texto y ejemplos vídeo-texto
Representación de vídeo eficiente con fichas discretas
Transformador bidireccional enmascarado para la generación de fichas de vídeo
Alta calidad espacio-temporal en los vídeos generados
Capacidad para generar vídeos en dominios abiertos

Casos prácticos

Creadores de contenidos que desarrollan historias visuales a partir de guiones
Los cineastas crean prototipos de escenas a partir de descripciones textuales
Educadores que crean vídeos ilustrativos para materiales didácticos
Los equipos de marketing generan vídeos promocionales a partir de briefings
Artistas exploran nuevas formas de narración visual

Resumen

Phenaki destaca por permitir la generación de vídeos de longitud arbitraria condicionados a una secuencia de instrucciones textuales, una capacidad no explorada anteriormente en los modelos de generación de vídeo. Su novedoso enfoque de la representación de vídeo y la tokenización da lugar a vídeos coherentes y de alta calidad a partir de entradas textuales diversas.

Seguir leyendo