3 min Analytics

Onduidelijkheid over trainingsdata Sora-model voor genereren video’s

Onduidelijkheid over trainingsdata Sora-model voor genereren video’s

Update 15/03/2024 – Een maand na de onthulling van Sora heeft OpenAI-CTO Mira Murati een interview gegeven over het nieuwe model. Het interview onthult iets meer over de trainingsdata, maar schept tegelijkertijd veel onduidelijkheid.

Op de vraag van Wall Street Journal naar welke data gebruikt is voor het trainen van het model, antwoordt Murati: “We gebruikten publiekelijk beschikbare en gelicentieerde data”. Vervolgens wordt bevestigd dat het om Shutterstock-content gaat, waar OpenAI een samenwerking mee heeft. WSJ vraagt echter door of ook content van YouTube, Facebook en Instagram is gebruikt. Op dat moment ontstaat de onduidelijkheid.

“Daar ben ik eigenlijk niet zeker van”, reageert Murati op de vraag over YouTube-video’s. Over het gebruik van Facebook en Instagram zegt ze dat, als de video’s publiekelijk beschikbaar zijn, ze mogelijk gebruikt zijn. Daar is ze echter niet zeker over, ze kan er niet met vertrouwen antwoord op geven. Vervolgens wil ze de discussie stoppen. “Ik ga gewoon niet in op de details van de gebruikte data, maar het waren openbaar beschikbare of gelicentieerde data”, sluit de CTO af.

Origineel – De maker van ChatGPT heeft een model ontwikkeld dat op basis van tekst video’s van een minuut lang kan maken.

Sora is in staat om op basis van een tekstuele prompt of een stilstaand beeld een video te creëren van maximaal een minuut, met een videokwaliteit van 1080p. De prompt van de gebruiker wordt nauwkeurig gevolgd. In het gegenereerde filmpje kunnen meerdere karakters en achtergronddetails worden opgenomen. Het model is tevens in staat bestaande videoclips uit te breiden door missende details toe te voegen.

“Het model heeft een diep begrip van taal, waardoor het aanwijzingen nauwkeurig kan interpreteren en boeiende karakters kan genereren die levendige emoties uitdrukken. Sora kan ook meerdere shots maken binnen één enkele gegenereerde video, waarbij de karakters en visuele stijl nauwkeurig worden weergegeven”, licht OpenAI toe. Op de website van OpenAI zijn ook video’s te zien die Sora gegenereerd heeft.

Optimaliseren Sora

OpenAI geeft aan dat Sora niet perfect is. Zo kan het model moeite hebben met het nauwkeurig simuleren van de fysica van een complexe scène. Ook begrijpt het mogelijk sommige gevallen van oorzaak en gevolg niet goed. Een voorbeeld: een persoon neemt een hap uit een koek, maar daarna is het mogelijk dat de koek geen bijtafdruk heeft.

OpenAI blijft het model verder ontwikkelen, waardoor bovenstaande beperkingen mogelijk op termijn verdwijnen. Sora vertrouwt ook op onderzoek van OpenAI uit DALL-E, het model van het bedrijf dat afbeeldingen kan genereren op basis van prompts.

Vooralsnog is Sora beperkt beschikbaar. Red teams kunnen ermee aan de slag om mogelijke problemen op te sporen. Daarnaast krijgt een beperkt aantal visuele professionals, designers en filmmakers toegang, zodat zij feedback kunnen geven over het verder geschikt maken van het model voor creatievelingen.

Tip: Gemini 1.5 is veel meer dan een nieuw foundation model