Videogenerator Sora levert haarscherpe, levensechte video’s af op basis van tekstprompts. — Videogenerator Sora levert haarscherpe, levensechte video’s af op basis van tekstprompts. — © OpenAI

Dit is nog nooit vertoond: bedrijf achter ChatGPT verbluft met levensechte video’s uit generator

Bijna een jaar na de lancering van GPT-4 verbaast OpenAI opnieuw zowel het grote publiek als AI-experts. Zijn Sora videogenerator levert haarscherpe, levensechte video’s af op basis van tekstprompts.

Dominique Deckmyn

Dinsdag 20 februari 2024 om 15:47

De voorbije dagen is er druk gespeculeerd over Sora. OpenAI heeft vorige week tientallen video’s gedeeld die met zijn nieuwe AI-systeem zouden zijn gegenereerd, maar het bedrijf deelt amper details over de onderliggende technologie.

Zelf uitproberen kan nog niet. Volgens OpenAI-baas Sam Altman op X is dat omdat het bedrijf nog bezig is met het zogenoemde red teaming: medewerkers proberen zelf alle manieren uit waarop ze het systeem kunnen misbruiken of laten ontsporen.

OpenAI heeft wel vrijgegeven dat Sora, net zoals de beeldgenerator Dall-E 3, werkt op basis van diffusie: elke video begint met willekeurige ruis, die stapje voor stapje wordt gefilterd. Dat betekent ook dat je weinig controle hebt over hoe de uiteindelijke video eruitziet en dat dezelfde tekstprompt elke keer een totaal ander resultaat zal opleveren. Het model zou daarnaast ook in staat zijn om een bestaande foto om te zetten in bewegend beeld of om een vervolg te maken op een videofragment.

Levensechte mammoeten, door AI gegenereerd — Levensechte mammoeten, door AI gegenereerd — © OpenAI

De video’s zien er spectaculair uit. Vooral als je ze plaatst tegenover vergelijkbare technologie van amper enkele maanden geleden. Een model als Runway Gen-2 genereert heel korte clips waarin menselijke figuren weinig of heel onnatuurlijk bewegen, als in een nachtmerrie. Bij kunstmatig gegenereerde video’s zie je ook vaak objecten of lichaamsdelen die plots verdwijnen of onrealistisch vervormen.

OpenAI maakt duidelijk dat Sora dat soms ook nog doet, maar hoe vaak weten we niet. In één video zien we in de achtergrond iemands hoofd van zijn schouders rollen. Het bedrijf deelde ook een video van een glas dat omvalt, waarbij de vloeistof uit het glas ontsnapt en op de tafel spat nog voor het glas neerkomt.

Fysica

Andere video’s geven de indruk dat Sora op een of andere manier een begrip heeft van hoe mensen en dieren bewegen én van ingewikkelde fysica, zoals hoe licht invalt of hoe water golft. Vooral dat verbluft AI-experts.

LEES OOK. Truiense Debby Termonia fotografeert absurde wereldrecords: maar zijn ze waar of niet?

Links rolt plots een hoofd van een romp. — Links rolt plots een hoofd van een romp. — © OpenAI

Professionele videomakers zijn dan weer ontsteld dat wat al kon met foto’s – een knap beeld creëren voor bijvoorbeeld een reclamecampagne, zonder dat daar een fotograaf of een model aan te pas hoeft te komen – nu ook in video kan. “Het was fijn jullie gekend te hebben”, schrijft Joanna Stern, videojournalist en columnist bij The Wall Street Journal, op X. “Vertel je kleinkinderen over mijn video’s en hoeveel werk er nodig was om die in het echt te filmen.”

Sora creëert video vanuit het niets en kan dus niet worden vergeleken met ‘deepfake’-video’s waarin bestaande videobeelden en/of 3D-modellen van acteurs worden gemanipuleerd. Op de voorbeeldvideo’s zie je mensen die niet bestaan op een schijnbaar natuurlijke manier bewegen, met realistische belichting. Dat is nog nooit vertoond, zeker niet in deze beeldkwaliteit.

De snelheid waarmee de figuren bewegen, voelt vreemd aan. — De snelheid waarmee de figuren bewegen, voelt vreemd aan. — © OpenAI

Een grote onbekende is voorlopig het trainingsmateriaal. Heeft OpenAI massaal video’s van YouTube gehaald? Enkele experts speculeerden de voorbije dagen dat OpenAI grote hoeveelheden kunstmatige video moet hebben gegenereerd met een 3D-engine zoals Unreal, de software die wordt gebruikt voor 3D-games als Fortnite maar ook steeds vaker voor speciale effecten in films. Hoeveel data en rekenkracht nodig waren om het model te trainen en hoeveel rekenwerk elke video vraagt, is onbekend.

Geen geluid

De beperkingen van Sora moeten nog blijken als meer gebruikers toegang krijgen. De eerste gedeelde video’s lijken alvast geen geluid te hebben.

LEES OOK. Wat is de link tussen The Beatles en een pater in Congo? Belpop Bonanza Superstar zocht het uit

© OpenAI

Wie alle voorbeeldvideo’s bekijkt, ziet dat er niet veel bij zijn waarin je mensen met een normale snelheid ziet bewegen – in veel gevallen zijn het beelden in slow motion. Bij de weinige fragmenten in normaal tempo lijken de bewegingen toch wat traag en ongewoon, alsof de mensen zich onder water bevinden.

Google stelde in januari zijn eigen videogenerator Lumiere voor. De clips die daarvan al zijn gedeeld, zijn korter en veel minder scherp. Met zijn Gemini-taalmodellen lijkt Google OpenAI min of meer bijgebeend te hebben, maar op het vlak van video neemt OpenAI duidelijk een voorsprong.

© OpenAI