AI & VIDEO

Google offentliggör Lumiere – generativ AI för video

Google Lumiere.

Google Research förenklar skapandet av generativ AI-video med sin nya modell – tränad på 30 miljoner videoklipp.

Precis som många andra satsar Google en hel del på AI, och nu meddelar de att det är dags att ta nästa steg och utveckla möjligheterna till generativ AI när det gäller rörligt – video som är skapat ur beskrivande text.

Google Research har släppt ett dokument med beskrivningen av utvecklingen av Lumiere, och i samband med detta presenterat en demo som visar hur text kan skapa objekt som både rör sig och ändras, exempelvis djur som byter färg och utseende, men även människor som byter färg och klädstil. 

In- och utdata för Lumiere vid skapandet av "cinemagraphs".

Allt beskrivs genom en prompt där man skriver in text för vad videon ska innehålla, vilket innebär att det handlar om så kallad generativ AI då modellen inte utgår från några användarinmatade förlagor utan skapas av själva modellen – även om det också går att ladda upp en bild för att göra den rörlig.

Google Lumiere.

Modellen har även funktionen "video stylization", vilket innebär att vissa element också kan justeras i detalj. Funktioner för "cinemagraphs" finns också, något som vi sett tidigare som att en del av bilden är frusen medan vissa delar rör sig, exempelvis ett vattenfall vars vatten flödar medan en person står stilla och tittar, i en oändlig loop.

Exakt på vilket material som modellen har tränats avslöjas inte, men i dokumentet skriver Google att 30 miljoner videos har använts: 

“We train our T2V [text to video] model on a dataset containing 30M videos along with their text caption. The videos are 80 frames long at 16 fps (5 seconds). The base model is trained at 128×128.”

Skapad med AI-modellen Stable Diffusion.

Kamera & Bild har tidigare skrivit om skapandet av en 8 minuter lång film om regnskog med hjälp av modellen Stable Diffusion, som visar fåglar, vatten, växter och vegetation med hög detaljåtergivning.

Dessutom har modellerna för vanliga bilder också snabbt blivit bättre, något vi kunde se i Adobes nysläppta Firefly Image 2 med mer naturtrogna bilder på människor. Samtidigt har även Getty Images satsat på generativ AI genom att erbjuda det i sin bildtjänst "Generative AI by iStock".