Chatgpt home page

OpenAI lanceert hyperrealistische spraakfunctie voor ChatGPT Plus-gebruikers

Sureshni
Bijgewerkt op:

OpenAI’s nieuwe Advanced Voice Mode stelt ChatGPT in staat om te praten en te luisteren, waardoor de gebruikersinteractie aanzienlijk wordt verbeterd. Zoals TechCrunch meldt, belooft deze nieuwe functie natuurlijkere, realtime gesprekken met de AI. Zo kan deze modus een zin onderbreken en emotionele intonaties detecteren.

Op 30 juli 2024 introduceerde OpenAI de alpha-versie van Advanced Voice Mode aan een selecte groep ChatGPT Plus-abonnees. Deze nieuwe functie, aangedreven door het GPT-4o model, vertegenwoordigt een significante sprong voorwaarts in AI-menselijke interactie en biedt hyperrealistische audiorespons en realtime conversaties. In tegenstelling tot de vorige spraakmodus, die afhankelijk was van aparte modellen voor spraak-naar-tekst en tekst-naar-spraak conversies, kan GPT-4o dankzij zijn multimodale mogelijkheden audiotaken naadloos verwerken, wat resulteert in een aanzienlijk lagere latentie. Het bedrijf is van plan om de toegang geleidelijk uit te breiden naar alle Plus-gebruikers tegen de herfst van 2024, zodat er tijd is om de technologie grondig te testen en te verfijnen.

Belangrijkste functies

  • Hyperrealistische audiorespons
    Advanced Voice Mode produceert menselijke audio uit tekstinvoer. Het imiteert menselijke stemmen met hoge nauwkeurigheid en emotionele tonen, waardoor een natuurlijke gesprekservaring ontstaat. 
  • Multimodale verwerking
    Het GPT-4o model ondersteunt rechtstreeks audio-, beeld- en tekstinvoer. Gebruikers kunnen bijvoorbeeld in realtime spreken, zien en lezen zonder vertragingen zoals bij oudere modellen.
  • Emotionele intonatie
    De geavanceerde spraakmodus detecteert en reageert op emotionele signalen in de stem van gebruikers. De modus begrijpt gevoelens als verdriet of opwinding en past de reacties daarop aan. Als een gebruiker blij klinkt, kan de modus die emotie weerspiegelen in zijn antwoord.
  • Vooraf ingestelde stemmen
    OpenAI biedt vier voorgeprogrammeerde stemmen die de veiligheid garanderen en zorgen over deepfakes voorkomen. Deze stemmen zijn gemaakt door professionele stemacteurs en bieden betrouwbare output van hoge kwaliteit. 
  • Realtime interacties
    De modus verwerkt spraakinvoer snel voor realtime interacties. Het ondersteunt dynamische gespreksstromen, zodat gebruikers op een natuurlijke manier kunnen onderbreken en reageren.

Vanaf wanneer is de functie beschikbaar?

Hoewel sommige Plus-abonnees al uitnodigingen hebben ontvangen, wil het bedrijf de functie aan het eind van de herfst van 2024 beschikbaar maken voor alle Plus-gebruikers, zodat er tijd is om de technologie te verfijnen en eventuele problemen op te lossen.

Bron: TechCrunch

Tags

Tags:

Sureshni

Sureshni

Sureshni is een deskundig schrijfster met meer dan tien jaar ervaring in de game-industrie. Ze is niet alleen zelf een fervent gamer, maar is ook gepassioneerd door schrijven. Ze brengt graag verslag uit over het laatste nieuws, recensies en trends in de videogame-industrie - waardoor ze een expert is in deze branche. Als ze niet met het laatste nieuws en gamereleases bezig is, bezoekt ze verschillende steden en woont ze gameconventies over de hele wereld bij.

Alle artikelen door Sureshni

Populaire artikelen

Populaire categorieën