O Phenaki gera vídeos realistas a partir de prompts textuais, permitindo a criação de histórias visuais coerentes e longas. Ele pode produzir vídeos de duração arbitrária, condicionados a uma sequência de solicitações que podem mudar com o tempo. O Phenaki utiliza uma nova arquitetura de codificador-decodificador e um modelo de transformador para traduzir incorporação de texto em tokens de vídeo, que são então destokenizados para criar o vídeo real.
Recursos
- Geração de vídeos a partir de descrições textuais
- Suporte para vídeos de duração variável
- Capacidade de lidar com prompts (histórias) variáveis no tempo
- Treinamento conjunto em pares de texto-imagem e exemplos de texto-vídeo
- Representação eficiente de vídeo com tokens discretos
- Transformador com máscara bidirecional para geração de tokens de vídeo
- Alta qualidade espaço-temporal em vídeos gerados
- Capacidade de gerar vídeos em domínios abertos
Casos de uso
- Criadores de conteúdo que desenvolvem histórias visuais a partir de roteiros
- Cineastas criando protótipos de cenas com base em descrições textuais
- Educadores criando vídeos ilustrativos para materiais didáticos
- Equipes de marketing gerando vídeos promocionais a partir de briefs
- Artistas que exploram novas formas de contar histórias visuais
Resumo
A Phenaki se destaca por permitir a geração de vídeos arbitrariamente longos condicionados a uma sequência de solicitações textuais, um recurso não explorado anteriormente em modelos de geração de vídeo. Sua nova abordagem de representação e tokenização de vídeo resulta em vídeos coerentes e de alta qualidade a partir de diversas entradas textuais.