Phenaki generiert realistische Videos aus Textaufforderungen und ermöglicht so die Erstellung von zusammenhängenden, langen visuellen Geschichten. Es kann Videos beliebiger Länge produzieren, die von einer Folge von Aufforderungen abhängen, die sich im Laufe der Zeit ändern können. Phenaki nutzt eine neuartige Encoder-Decoder-Architektur und ein Transformer-Modell, um Texteinbettungen in Video-Token zu übersetzen, die dann de-tokenisiert werden, um das eigentliche Video zu erstellen.
Eigenschaften
- Generierung von Videos aus textlichen Beschreibungen
- Unterstützung für Videos mit variabler Länge
- Fähigkeit, mit zeitlich variablen Aufforderungen (Geschichten) umzugehen
- Gemeinsames Training auf Bild-Text-Paaren und Video-Text-Beispielen
- Effiziente Videodarstellung mit diskreten Token
- Bidirektionaler maskierter Transformator für die Erzeugung von Videotoken
- Hohe räumlich-zeitliche Qualität der erzeugten Videos
- Fähigkeit zur Erstellung von Videos in offenen Bereichen
Anwendungsfälle
- Inhaltsersteller, die visuelle Geschichten aus Drehbüchern entwickeln
- Filmemacher erstellen Prototypen von Szenen auf der Grundlage von Textbeschreibungen
- Pädagogen erstellen anschauliche Videos für Unterrichtsmaterialien
- Marketingteams, die Werbevideos auf der Grundlage von Briefings erstellen
- Künstler erforschen neue Formen des visuellen Geschichtenerzählens
Zusammenfassung
Phenaki zeichnet sich dadurch aus, dass es die Generierung beliebig langer Videos ermöglicht, die auf einer Abfolge von Textaufforderungen beruhen - eine Fähigkeit, die bisher in Modellen zur Videogenerierung nicht untersucht wurde. Sein neuartiger Ansatz zur Videodarstellung und Tokenisierung führt zu hochwertigen, kohärenten Videos aus verschiedenen Texteingaben.