OpenAI geeft ChatGPT een ‘realistische’ stem. Het is een tweede kans voor het bedrijf, nadat de eerste voice-assistent moest worden ingetrokken na kritiek.
Advanced Voice Mode is sinds kort tot uitwerking gekomen. De functie geeft ChatGPT een stem en kan de antwoorden van de AI-assistent voorlezen aan gebruikers. Het LLM waar dat de stem ondersteunt, is GPT-4o.
De nieuwe stem-functie is geavanceerder doordat GPT-4o meerdere taken kan combineren in één model (multimodaal), waardoor output sneller wordt gegenereerd en de stem dus natuurlijker klinkt. De beschikbare Voice Mode in de AI-tool heeft voor het spreken drie modellen nodig: één om je stem naar tekst om te zetten, één om de boodschap te verwerken en een laatste om de tekst terug naar spraak te brengen.
Gezien het gaat om een Advanced-modus, zal de stem alleen beschikbaar zijn voor betalende gebruikers. In de herfst van 2024 zullen alle Plus-gebruikers van de AI-tool de spraakfunctie krijgen. De recente uitrol is alleen gemaakt naar een beperkte groep uit de pool van Plus-gebruikers, de alpha-groep.
Nieuwe poging
De lancering van GPT-4o had een totaalpakket moeten zijn waarin ChatGPT voor het eerst een stem kreeg. De o in de naam is daar een verwijzing naar en staat voor “Omnimodel”. Het was OpenAI in eerste instantie ook gelukt om dat voor elkaar te krijgen.
Vijf stemmen -Sky, Breeze, Cove, Juniper, Ember- werden gelanceerd. Voordat de uitrol finaliseerde, besloot OpenAI de stem Sky echter weer in te trekken. Aanleiding was een beschuldiging van actrice Scarlett Johansson over het kopiëren van haar stem, terwijl ze daar expliciet niet mee instemde. Dat zorgde voor ongenoegen bij gebruikers van de AI-tool die Sky veruit de meest “volwassen en intelligent” klinkende stem vonden.
OpenAI lanceert voor de geavanceerde optie geen nieuwe stem. Breeze, Cove, Juniper en Ember blijven de enige beschikbare stemmen.
Beperkingen
De uitrol van Advanced Voice Mode nu, gebeurt veel voorzichtiger. GPT-4o rolde na de aankondiging in mei onmiddellijk uit naar alle gebruikers, ook niet-betalende. OpenAI kiest er nu voor een beperkte groep te laten experimenteren, maar ook dat komt met beperkingen. Zo zijn de opties voor video en schermdelen nog niet beschikbaar. Deze functies toonde OpenAI in mei en maken de chatbot in staat om live beelden te bekijken en als tolk te functioneren en naar wens de eigen intonatie aan te passen.
Lees ook: OpenAI maakt miniversie van krachtig GPT-4o beschikbaar