Phenaki genera video realistici a partire da richieste testuali, consentendo la creazione di storie visive coerenti e di lunga durata. Può produrre video di lunghezza arbitraria, condizionati da una sequenza di suggerimenti che possono cambiare nel tempo. Phenaki utilizza una nuova architettura di encoder-decoder e un modello di trasformatore per tradurre le incorporazioni di testo in token video, che vengono poi de-tokenizzati per creare il video vero e proprio.
Caratteristiche
- Generazione di video da descrizioni testuali
- Supporto per video di lunghezza variabile
- Capacità di gestire richieste variabili nel tempo (storie)
- Addestramento congiunto su coppie immagine-testo ed esempi di video-testo
- Rappresentazione video efficiente con token discreti
- Trasformatore mascherato bidirezionale per la generazione di token video
- Alta qualità spazio-temporale nei video generati
- Capacità di generare video in domini aperti
Casi d'uso
- Creatori di contenuti che sviluppano storie visive a partire da sceneggiature
- I registi prototipano le scene sulla base di descrizioni testuali
- Educatori che creano video illustrativi per i materiali didattici
- Team di marketing che generano video promozionali a partire da brief
- Artisti che esplorano nuove forme di narrazione visiva
Sintesi
Phenaki si distingue per la possibilità di generare video arbitrariamente lunghi condizionati a una sequenza di richieste testuali, una capacità non esplorata in precedenza nei modelli di generazione video. Il suo approccio innovativo alla rappresentazione video e alla tokenizzazione consente di ottenere video coerenti e di alta qualità da input testuali diversi.