OpenAIs nyeste modell tar tekstmeldinger og gjør dem om til “komplekse scener med flere karakterer, spesifikke typer bevegelse” og mer.
Åpen kunstig intelligens lanserer en ny videogenereringsmodell, og den heter Sora. AI-selskapet sier at Sora “kan lage realistiske og fantasifulle scener fra tekstinstruksjoner”. Tekst-til-video-modellen lar brukere lage fotorealistiske videoer opptil ett minutt lange – alt basert på instruksjoner de har skrevet.
Sora kan lage “komplekse scener med flere karakterer, spesifikke typer bevegelser og presise detaljer om motivet og bakgrunnen”, ifølge Åpen kunstig intelligens:s innledende blogginnlegg. Selskapet bemerker også at modellen kan forstå hvordan objekter “eksisterer i den fysiske verden”, samt “tolke rekvisitter nøyaktig og generere fengslende karakterer som uttrykker levende følelser”.”
Modellen kan også generere en video basert på et stillbilde, samt fylle ut manglende bilder i en eksisterende video eller utvide den. De Sora-genererte demoene som er inkludert i OpenAI Blogginnleggene inkluderer et luftfoto av California under gullrushet, en video som ser ut som den ble tatt fra innsiden av et tog i Tokyo, og andre. Mange har noen tegn på AI – som et mistenkelig bevegelig gulv i en video av et museum – og OpenAI sier at modellen “kan slite med å simulere fysikken i en kompleks scene nøyaktig”, men resultatene er generelt ganske imponerende.
For noen år siden var tekst-til-bilde-generatorer som Midjourney i forkant av modellers evne til å gjøre ord om til bilder. Men nylig har video begynt å forbedre seg i et bemerkelsesverdig tempo: selskaper som Runway og Pika har vist frem sine egne imponerende tekst-til-video-modeller, og Googles Lumiere ser ut til å være en av OpenAIs hovedkonkurrenter også på dette området. I likhet med Sora tilbyr Lumiere brukere tekst-til-videoverktøy og lar dem også lage videoer fra et stillbilde.
Sora er for øyeblikket bare tilgjengelig for “røde teammedlemmer” som vurderer modellen for potensiell skade og risiko. OpenAI tilbyr også tilgang til tilbakemeldinger for utvalgte visuelle kunstnere, designere og filmskapere. Den bemerker at den eksisterende modellen kanskje ikke simulerer fysikken i en kompleks scene nøyaktig, og kanskje ikke tolker noen tilfeller av årsak og virkning riktig.
Tidligere denne måneden annonserte OpenAI at de legger til vannmerker i tekst-til-bilde-verktøyet DALL-E 3, men bemerker at de “enkelt kan fjernes”. I likhet med sine andre AI-produkter må OpenAI håndtere konsekvensene av at falske, AI-genererte fotorealistiske videoer blir forvekslet med ekte vare. .







