OpenAI:s senaste modell tar textmeddelanden och förvandlar dem till “komplexa scener med flera karaktärer, specifika typer av rörelse” och mer.
OpenAI lanserar en ny videogenerationsmodell, och den heter Sora. AI -företaget säger att Sora “kan skapa realistiska och fantasifulla scener från textinstruktioner.” Text-till-video-modellen tillåter användare att skapa fotorealistiska videor upp till en minut långa – allt baserat på uppmaningar de har skrivit.
Sora kan skapa “komplexa scener med flera karaktärer, specifika typer av rörelser och exakta detaljer om motivet och bakgrunden”, enligt OpenAI:s inledande blogginlägg. Företaget noterar också att modellen kan förstå hur objekt “finns i den fysiska världen”, såväl som “exakt tolka rekvisita och generera övertygande karaktärer som uttrycker livfulla känslor.”
Modellen kan även generera en video baserad på en stillbild, samt fylla i saknade bildrutor på en befintlig video eller utöka den. De Sora-genererade demos som ingår i OpenAI:s blogginlägg inkluderar en flygscen av Kalifornien under guldrushen, en video som ser ut som om den var tagen från insidan av ett Tokyo-tåg och andra. Många har vissa tecken på AI – som ett misstänkt rörligt golv i en video av ett museum – och OpenAI säger att modellen “kan kämpa med att exakt simulera fysiken i en komplex scen”, men resultaten är överlag ganska imponerande.
För ett par år sedan var det text-till-bild-generatorer som Midjourney som låg i framkant när det gäller modellers förmåga att förvandla ord till bilder. Men nyligen har video börjat förbättras i en anmärkningsvärd takt: företag som Runway och Pika har visat sina egna imponerande text-till-video-modeller, och Googles Lumiere siffror att vara en av OpenAI:s främsta konkurrenter på detta område också. I likhet med Sora ger Lumiere användarna text-till-video-verktyg och låter dem också skapa videor från en stillbild.
Sora är för närvarande endast tillgängligt för “red teamers” som bedömer modellen för potentiella skador och risker. OpenAI erbjuder också tillgång till vissa bildkonstnärer, designers och filmskapare för att få feedback. Den noterar att den befintliga modellen kanske inte exakt simulerar fysiken i en komplex scen och kanske inte korrekt tolkar vissa fall av orsak och verkan.
Tidigare denna månad meddelade OpenAI att de lägger till vattenstämplar till sitt text-till-bild-verktyg DALL-E 3, men noterar att de “lätt kan tas bort.” Precis som sina andra AI-produkter kommer OpenAI att behöva kämpa med konsekvenserna av att falska, AI-fotorealistiska videor förväxlas med den äkta varan .