OpenAI neemt een langzame start bij het verbeteren van ChatGPT's stem

OpenAI geeft ChatGPT een ‘realistische’ stem. Het is een tweede kans voor het bedrijf, nadat de eerste voice-assistent moest worden ingetrokken na kritiek.

Advanced Voice Mode is sinds kort tot uitwerking gekomen. De functie geeft ChatGPT een stem en kan de antwoorden van de AI-assistent voorlezen aan gebruikers. Het LLM waar dat de stem ondersteunt, is GPT-4o.

De nieuwe stem-functie is geavanceerder doordat GPT-4o meerdere taken kan combineren in één model (multimodaal), waardoor output sneller wordt gegenereerd en de stem dus natuurlijker klinkt. De beschikbare Voice Mode in de AI-tool heeft voor het spreken drie modellen nodig: één om je stem naar tekst om te zetten, één om de boodschap te verwerken en een laatste om de tekst terug naar spraak te brengen.

Gezien het gaat om een Advanced-modus, zal de stem alleen beschikbaar zijn voor betalende gebruikers. In de herfst van 2024 zullen alle Plus-gebruikers van de AI-tool de spraakfunctie krijgen. De recente uitrol is alleen gemaakt naar een beperkte groep uit de pool van Plus-gebruikers, de alpha-groep.

Nieuwe poging

De lancering van GPT-4o had een totaalpakket moeten zijn waarin ChatGPT voor het eerst een stem kreeg. De o in de naam is daar een verwijzing naar en staat voor “Omnimodel”. Het was OpenAI in eerste instantie ook gelukt om dat voor elkaar te krijgen.

Vijf stemmen -Sky, Breeze, Cove, Juniper, Ember- werden gelanceerd. Voordat de uitrol finaliseerde, besloot OpenAI de stem Sky echter weer in te trekken. Aanleiding was een beschuldiging van actrice Scarlett Johansson over het kopiëren van haar stem, terwijl ze daar expliciet niet mee instemde. Dat zorgde voor ongenoegen bij gebruikers van de AI-tool die Sky veruit de meest “volwassen en intelligent” klinkende stem vonden.

OpenAI lanceert voor de geavanceerde optie geen nieuwe stem. Breeze, Cove, Juniper en Ember blijven de enige beschikbare stemmen.

Beperkingen

De uitrol van Advanced Voice Mode nu, gebeurt veel voorzichtiger. GPT-4o rolde na de aankondiging in mei onmiddellijk uit naar alle gebruikers, ook niet-betalende. OpenAI kiest er nu voor een beperkte groep te laten experimenteren, maar ook dat komt met beperkingen. Zo zijn de opties voor video en schermdelen nog niet beschikbaar. Deze functies toonde OpenAI in mei en maken de chatbot in staat om live beelden te bekijken en als tolk te functioneren en naar wens de eigen intonatie aan te passen.

Lees ook: OpenAI maakt miniversie van krachtig GPT-4o beschikbaar

Lees meer over Applications

Expert aan het woord

Tech calendar

OpenAI neemt een langzame start bij het verbeteren van ChatGPT’s stem

Nieuwe poging

Beperkingen

Blijf op de hoogte, abonneer!

De Digital Workforce vraagt om een nieuwe CISO

Zscaler optimaliseert Zero Trust voor agentic AI-security

Scaling at speed: Hoe AI de blauwdruk van het moderne datacenter herschrijft

GitHub Copilot, AI-assistent van het eerste uur, staat zwaar onder druk

Your network isn't ready for AI: Here's what needs to change

Why observability is critical for AI code generation success

How to migrate from Redis to Valkey with zero downtime

ServiceNow unveils Action Fabric AI platform architecture

Liquid cooling dwingt datacenters tot andere ontwerpkeuzes

Slimmer vergaderen begint met het juiste ecosysteem

Ondersteun kritieke workloads met all-NVMe active-active storage voor non-stop bedrijfsvoering

Datasoevereiniteit begint bij grip: niet alleen op databases, maar óók op data zelf

VivaTech

GITEX AI EUROPE 2026

GOTO Copenhagen 2026

Klarrio: Architectuur is grootste knelpunt of grootste versneller

Hoe je stap voor stap een AI-gedreven kennisapplicatie bouwt

Waarom automatisering onmisbaar is in moderne cybersecurity