Phenaki genera vídeos realistas a partir de instrucciones textuales, lo que permite crear historias visuales coherentes y de larga duración. Puede producir vídeos de longitud arbitraria, condicionados a una secuencia de instrucciones que pueden cambiar con el tiempo. Phenaki utiliza una novedosa arquitectura de codificador-decodificador y un modelo de transformador para traducir las incrustaciones de texto en tokens de vídeo, que luego se de-tokenizan para crear el vídeo real.
Características
- Generación de vídeos a partir de descripciones textuales
- Soporte para vídeos de longitud variable
- Capacidad para manejar indicaciones variables en el tiempo (historias)
- Entrenamiento conjunto de pares imagen-texto y ejemplos vídeo-texto
- Representación de vídeo eficiente con fichas discretas
- Transformador bidireccional enmascarado para la generación de fichas de vídeo
- Alta calidad espacio-temporal en los vídeos generados
- Capacidad para generar vídeos en dominios abiertos
Casos prácticos
- Creadores de contenidos que desarrollan historias visuales a partir de guiones
- Los cineastas crean prototipos de escenas a partir de descripciones textuales
- Educadores que crean vídeos ilustrativos para materiales didácticos
- Los equipos de marketing generan vídeos promocionales a partir de briefings
- Artistas exploran nuevas formas de narración visual
Resumen
Phenaki destaca por permitir la generación de vídeos de longitud arbitraria condicionados a una secuencia de instrucciones textuales, una capacidad no explorada anteriormente en los modelos de generación de vídeo. Su novedoso enfoque de la representación de vídeo y la tokenización da lugar a vídeos coherentes y de alta calidad a partir de entradas textuales diversas.