AI text to speech is niets nieuws. Wil je een youtube carrière opbouwen met filmpjes waarin Donald Trump, Joe Biden en Barack Obama op elkaar lopen te haten terwijl ze Minecraft spelen? Het kan! Vooralsnog is het een vereiste dat de stem die je wenst te gebruiken er een van een beroemd persoon is. AI software heeft namelijk nogal wat data nodig om een stem enigszins accuraat na te bootsen. Zolang je geen uren en uren aan audiomateriaal van jezelf online had staan, viel je dus buiten de gevarenzone voor dit soort grappen. Als het aan Apple ligt komt daar nu dus verandering in. Je vraagt je af waarom het in godsnaam nodig is.
Apple kondigt nieuwe features aan
Afgelopen dinsdag kwam Apple met een lijst aan nieuwe toegankelijkheidsfuncties. Waaronder dus een tool voor zowel iPhones als iPads waarmee men met 15 minuten aan geluid een AI elke tekst in audio om kan zetten. Hiermee moet het bijvoorbeeld mogelijk zijn om tijdens het facetimen een bericht uit te typen wat vervolgens wordt voorgelezen door de software.
De doelgroep zijn mensen die geleidelijk hun stem verliezen, zoals mensen met de ziekte ALS. Wanneer zij hun stemgeluid definitief verliezen, blijft de mogelijkheid bestaan om, via een omweggetje, toch te kunnen blijven converseren. “Toegankelijkheid is onderdeel van alles wat we hier doen bij Apple”, aldus Sarah Herrlinger, senior director van wereldwijd toegankelijkheidsbeleid en initiatieven. Nogal een titel. De boodschap mag sympathiek klinken, uiteindelijk heeft een bedrijf als Apple maar één reden om zo veel mogelijk mensen toegang tot hun apparaten te bieden. Volgens Apple moet de feature later dit jaar beschikbaar zijn.
Zorgen rondom AI
Laten we voorop stellen, er zullen zeker mensen zijn waarvoor dit soort functionaliteit een verbetering van de levenskwaliteit zal betekenen. En dat is vooral heel erg fijn voor die mensen. Toch is het maar zeer de vraag of het wenselijk is dat commercieel beschikbare software straks met zo weinig materiaal een stem kan nabootsen. Niet voor niets uiten steeds meer mensen uit de AI wereld hun zorgen over de technologie.
Het zal niemand zijn ontgaan, zogenoemde ‘deepfakes’ vormen een probleem. AI gegenereerde stemmen, soms vergezeld door evenzo gegenereerde beelden worden steeds moeilijker van echt te onderscheiden. Oplichters over heel de wereld kijken watertandend naar de ontwikkelingen. Autoriteitsfiguren van alles in de mond leggen heeft nou eenmaal vele malafide applicaties. Dat de huidige technologieën hier al te veel mogelijkheden voor bieden staat vast. Maar met de huidige techniek is erg veel beeld en/of geluidsmateriaal nodig om een AI te ‘trainen’. Met als gevolg dat de slachtoffers momenteel overwegend mensen zijn die veel online of op TV te zien zijn. Een overwegend tech-savvy en welvarende demografie.
Ouderen die reeds en masse worden opgelazerd met zoiets simpels als mailtjes zijn nog veel kwetsbaarder. Ga maar eens na: wanneer jouw grootmoeder een belletje krijgt van een AI bot die met jouw stem vraagt geld over te maken naar een bepaald rekeningnummer, zou ze het dan doen?
Volgens Apple geen veiligheidsrisico’s
Volgens Apple gebruikt Personal Voice, zoals de software gaat heten, “on-device machine learning” om gegevens van gebruikers veilig en dus privé te houden.” Verder dan die belofte gaat Apple niet in het bericht. Wellicht wordt later nog bekend gemaakt hoe de specifieke systemen die moeten voorkomen dat de stemprofielen in de handen van oplichters vallen werken. De vraag is of je een bedrijf dat voorop loopt in een sector waar het motto “move fast and break things” is, op hun woord wenst te geloven.
Apple is overigens niet het enige bedrijf dat werkt aan soortgelijke functionaliteit. Ook Amazon kondigde vorig jaar aan te werken aan software die het mogelijk maakt met zeer beperkte audiobestanden een AI stemprofiel te genereren. Als voorbeeld van de toepassingen noemde Amazon de mogelijkheid je Alexa te laten spreken met de stem van een overleden dierbare. Tsjah…