OpenAI trainde GPT-4 op miljoenen uren aan audio van YouTube-video’s

OpenAI heeft GPT-4 getraind op een miljoen uur aan audio van YouTube-video’s. De AI-gigant vroeg hiervoor geen toestemming van Google. Die laatste maakte echter geen bezwaar omdat het zelf ook YouTube gebruikt voor het trainen van zijn eigen LLM’s.

In 2021 had OpenAI een gebrek aan online beschikbare, betrouwbare Engelstalige data voor het trainen van zijn destijds nieuwste LLM, GPT-4. OpenAI besloot daarop nieuwe databronnen aan te boren, in het bijzonder YouTube-video’s, schrijft The New York Times.

OpenAI ontwikkelde hiervoor zijn audiotranscriptiemodel Whisper voor het scrapen van ongeveer een miljoen uur aan audio van YouTube-video’s. Deze tekstgebaseerde data werd vervolgens in GPT-4 geladen om het LLM te trainen.

Scrapen was ‘fair use’

Het team van OpenAI voor deze specifieke dataverzameling uit YouTube-video’s bestond onder meer uit Greg Brockman, medeoprichter en president van de AI-bedrijf. Hoewel verschillende medewerkers bezwaar toonden tegen deze ‘illegale’ vorm van dataverzameling, ging het team toch door.

Als excuus gaf OpenAI dat, ondanks dat het scrapen van YouTube-video’s tegen de copyright- en gebruiksvoorwaarden van Google inging, het toch ‘fair use’ was en daarmee toegestaan, aldus bronnen tegenover de Amerikaanse krant.

Geen bezwaar van Google

Google zelf heeft opmerkelijk geen bezwaar gemaakt tegen het gebruik van YouTube voor het trainen van GPT-4. Dit hoewel het onlangs wel aangaf dat het gebruik van YouTube-video’s voor het trainen van het AI-videomodel Sora zeer zeker in strijd zou zijn met de gebruiksvoorwaarden van de videodienst.

Tip: Onduidelijkheid over trainingsdata Sora-model voor genereren video’s

Volgens de New York Times komt dit doordat de techgigant ook zelf data van YouTube gebruikt voor het trainen van zijn eigen modellen. Google zou recent zelfs de gebruiksvoorwaarden van verschillende diensten hebben opgerekt, waardoor het toegang tot publiek materiaal zou hebben voor het trainen van zijn eigen LLM’s. Denk hierbij aan openbare documenten in Google Docs, recensies van restaurants op Google Maps en bijvoorbeeld YouTube-video’s.

Race naar nieuwe databronnen

Het scrapen van YouTube-video’s voor het trainen van LLM’s toont aan dat de grote AI-aanbieders drastisch op zoek zjjn naar nieuwe trainingsdata en daarvoor steeds creatiever te werk gaan. Zo zou Meta hebben overwogen de grote Amerikaanse uitgeverij Simon & Schuster over te nemen voor het verkrijgen van data uit diens portfolio en zou het bedrijf ook overal op internet copyrighted data verzamelen, ook al kan dit tot rechtszaken leiden.

Google zelf heeft verder een deal gesloten met Reddit voor het gebruik van de content op diens platform voor het trainen van zijn AI-modellen.

Lees ook: Google betaalt via AI-deal jaarlijks 60 miljoen dollar voor content op Reddit

Lees meer over Analytics

Progress koopt AI- en dataplatform Domo voor 400 miljoen

Progress Software legt 400 miljoen dollar op tafel voor Domo. De overname moet de AI- en datamogelijkheden va...

Berry Zwets 24 juli 2026

Topartikel

VS blokkeert AI-model Anthropic Fable: wat betekent dit voor Europa?

De Verenigde Staten hebben voor het eerst een geavanceerd AI-model geblokkeerd voor niet-Amerikaanse gebruike...

Coen van Eenbergen 23 juni 2026

Topartikel

DevRev daagt SaaS uit: AI data-integratie moet (en kan) beter

De 'SaaSpocalypse' zou wel eens vanuit de SaaS-laag zelf kunnen komen

Sander Almekinders 23 juli 2026

Snowflake Cortex AI Gateway moet AI-agents in toom houden

Snowflake introduceert Cortex AI Gateway, een centrale laag waarmee bedrijven zowel eigen als externe AI-agen...

Berry Zwets 17 uren geleden

Expert aan het woord

Tech calendar

OpenAI trainde GPT-4 op miljoenen uren aan audio van YouTube-video’s

Scrapen was ‘fair use’

Geen bezwaar van Google

Race naar nieuwe databronnen

Blijf op de hoogte, abonneer!

Helios: AMD groeit naar rack-scale AI-systeem

AI een topprioriteit, maar ook wantrouwen in cybersecurity

CPU’s beleven eindelijk hun AI-doorbraak

Het water- en energieverbruik van datacenters in de juiste context

How Nutanix is tackling multi-cloud Kubernetes and AI workloads

No backdoors, no excuses: Cisco bets big on sovereign infrastructure

From edge nodes to 256-GPU clusters: HPE's private cloud explained

The power revolution coming to AI data centers

Liquid cooling dwingt datacenters tot andere ontwerpkeuzes

Slimmer vergaderen begint met het juiste ecosysteem

Ondersteun kritieke workloads met all-NVMe active-active storage voor non-stop bedrijfsvoering

Datasoevereiniteit begint bij grip: niet alleen op databases, maar óók op data zelf

Dreamforce

GOTO Copenhagen 2026

NetApp INSIGHT 2026

Manhattan EMEA Exchange

Klarrio: Architectuur is grootste knelpunt of grootste versneller

Hoe je stap voor stap een AI-gedreven kennisapplicatie bouwt

Waarom automatisering onmisbaar is in moderne cybersecurity