OpenAIs nyeste modell tar tekstmeldinger og gjør dem om til “komplekse scener med flere karakterer, spesifikke typer bevegelse” og mer.
Åpen kunstig intelligens lanserer en ny videogenereringsmodell, og den heter Sora. AI-selskapet sier at Sora “kan lage realistiske og fantasifulle scener fra tekstinstruksjoner”. Tekst-til-video-modellen lar brukere lage fotorealistiske videoer opptil ett minutt lange – alt basert på instruksjoner de har skrevet.
Sora kan skapa “komplexa scener med flera karaktärer, specifika typer av rörelser och exakta detaljer om motivet och bakgrunden”, enligt Åpen kunstig intelligens:s inledande blogginlägg. Företaget noterar också att modellen kan förstå hur objekt “finns i den fysiska världen”, såväl som “exakt tolka rekvisita och generera övertygande karaktärer som uttrycker livfulla känslor.”
Modellen kan også generere en video basert på et stillbilde, samt fylle ut manglende bilder i en eksisterende video eller utvide den. De Sora-genererte demoene som er inkludert i OpenAI blogginlägg inkluderar en flygscen av Kalifornien under guldrushen, en video som ser ut som om den var tagen från insidan av ett Tokyo-tåg och andra. Många har vissa tecken på AI – som ett misstänkt rörligt golv i en video av ett museum – och OpenAI säger att modellen “kan kämpa med att exakt simulera fysiken i en komplex scen”, men resultaten är överlag ganska imponerande.
För ett par år sedan var det text-till-bild-generatorer som Midjourney som låg i framkant när det gäller modellers förmåga att förvandla ord till bilder. Men nyligen har video börjat förbättras i en anmärkningsvärd takt: företag som Runway och Pika har visat sina egna imponerande text-till-video-modeller, och Googles Lumiere siffror att vara en av OpenAI:s främsta konkurrenter på detta område också. I likhet med Sora ger Lumiere användarna text-till-video-verktøy og lar dem også lage videoer fra et stillbilde.
Sora er for øyeblikket bare tilgjengelig for “røde teammedlemmer” som vurderer modellen for potensiell skade og risiko. OpenAI tilbyr også tilgang til tilbakemeldinger for utvalgte visuelle kunstnere, designere og filmskapere. Den bemerker at den eksisterende modellen kanskje ikke simulerer fysikken i en kompleks scene nøyaktig, og kanskje ikke tolker noen tilfeller av årsak og virkning riktig.
Tidligere denne måneden annonserte OpenAI at de legger til vannmerker i tekst-til-bilde-verktøyet DALL-E 3, men bemerker at de “enkelt kan fjernes”. I likhet med sine andre AI-produkter må OpenAI håndtere konsekvensene av at falske, AI-genererte fotorealistiske videoer blir forvekslet med ekte vare. .







