OpenAI’s nieuwe Advanced Voice Mode stelt ChatGPT in staat om te praten en te luisteren, waardoor de gebruikersinteractie aanzienlijk wordt verbeterd. Zoals TechCrunch meldt, belooft deze nieuwe functie natuurlijkere, realtime gesprekken met de AI. Zo kan deze modus een zin onderbreken en emotionele intonaties detecteren.
Op 30 juli 2024 introduceerde OpenAI de alpha-versie van Advanced Voice Mode aan een selecte groep ChatGPT Plus-abonnees. Deze nieuwe functie, aangedreven door het GPT-4o model, vertegenwoordigt een significante sprong voorwaarts in AI-menselijke interactie en biedt hyperrealistische audiorespons en realtime conversaties. In tegenstelling tot de vorige spraakmodus, die afhankelijk was van aparte modellen voor spraak-naar-tekst en tekst-naar-spraak conversies, kan GPT-4o dankzij zijn multimodale mogelijkheden audiotaken naadloos verwerken, wat resulteert in een aanzienlijk lagere latentie. Het bedrijf is van plan om de toegang geleidelijk uit te breiden naar alle Plus-gebruikers tegen de herfst van 2024, zodat er tijd is om de technologie grondig te testen en te verfijnen.
Belangrijkste functies
- Hyperrealistische audiorespons
Advanced Voice Mode produceert menselijke audio uit tekstinvoer. Het imiteert menselijke stemmen met hoge nauwkeurigheid en emotionele tonen, waardoor een natuurlijke gesprekservaring ontstaat. - Multimodale verwerking
Het GPT-4o model ondersteunt rechtstreeks audio-, beeld- en tekstinvoer. Gebruikers kunnen bijvoorbeeld in realtime spreken, zien en lezen zonder vertragingen zoals bij oudere modellen. - Emotionele intonatie
De geavanceerde spraakmodus detecteert en reageert op emotionele signalen in de stem van gebruikers. De modus begrijpt gevoelens als verdriet of opwinding en past de reacties daarop aan. Als een gebruiker blij klinkt, kan de modus die emotie weerspiegelen in zijn antwoord. - Vooraf ingestelde stemmen
OpenAI biedt vier voorgeprogrammeerde stemmen die de veiligheid garanderen en zorgen over deepfakes voorkomen. Deze stemmen zijn gemaakt door professionele stemacteurs en bieden betrouwbare output van hoge kwaliteit. - Realtime interacties
De modus verwerkt spraakinvoer snel voor realtime interacties. Het ondersteunt dynamische gespreksstromen, zodat gebruikers op een natuurlijke manier kunnen onderbreken en reageren.
Vanaf wanneer is de functie beschikbaar?
Hoewel sommige Plus-abonnees al uitnodigingen hebben ontvangen, wil het bedrijf de functie aan het eind van de herfst van 2024 beschikbaar maken voor alle Plus-gebruikers, zodat er tijd is om de technologie te verfijnen en eventuele problemen op te lossen.
Bron: TechCrunch