Niets kan tippen aan een menselijke stem? Integendeel: AI-stem is duidelijker

2 dagen geleden 3

Je zou denken dat niets kan tippen aan de menselijke stem en dat alle namaak een slap aftreksel is. Maar het tegenovergestelde blijkt waar: kunstmatig nagemaakte stemmen, zogeheten voice clones, zijn in veel situaties juist beter te verstaan dan echte mensen.

AI-stemmen blijken vooral in een rumoerige omgeving een streepje voor te hebben. Zelfs een paar seconden audio is tegenwoordig al genoeg om een overtuigende en verrassend duidelijke kopie van iemands stem te maken.

Alexa

Kunstmatige stemmen zijn al jaren onderdeel van ons dagelijks leven. Zo ongeveer iedereen kent de stem van digitale assistenten zoals Siri. Maar waar traditionele systemen uren aan opnames vereisen, werkt de nieuwste generatie heel anders. Met generatieve AI zijn we in staat om een stemkloon te maken op basis van slechts tien seconden spraak. En dat maakt de weg vrij voor talloze interessante technologische toepassingen. Zo doken er de afgelopen maanden overal hoogwaardige gepersonaliseerde assistenten en automatische klantenservicesystemen op.

Verrassend duidelijk

Onderzoekers Patti Adank en Han Wang besloten uit te zoeken hoe goed die stemmen nu eigenlijk zijn. Ze lieten proefpersonen luisteren naar zowel echte stemmen als AI-klonen en vroegen deze mensen hoe goed ze die konden verstaan. Het team had de verwachting dat mensen moeite zouden hebben met de kunstmatige varianten. Maar niets van dat al. “Ik dacht dat stemklonen minder goed verstaanbaar zouden zijn omdat ze onbekend zijn”, zegt Adank. “Maar ze bleken tot wel 20 procent beter te begrijpen. Dat was echt schokkend voor ons. Een klein deel van onze studie beschrijft dat experiment en daarna zijn we vooral druk bezig geweest om uit te zoeken waarom die stemklonen zo duidelijk zijn.”

Om zeker te weten dat het geen toeval was, herhaalden de onderzoekers hun experiment onder verschillende omstandigheden. Oudere deelnemers, mensen met gehoorproblemen, proefpersonen met een andere moedertaal. Het team zette zelfs simulaties van cochleaire implantaten in. Maar telkens kwamen de AI-stemmen als winnaar uit de bus. Blijkbaar zit er iets fundamenteels in de manier waarop deze stemmen worden opgebouwd, dat ze extra helder maakt.

Raadsel

Maar wat maakt die stemmen dan zo goed verstaanbaar? Helaas moeten we het antwoord op die vraag op dit moment schuldig blijven. Zelfs na het analyseren van meer dan honderd akoestische eigenschappen konden de onderzoekers geen duidelijke verklaring vinden. Volgens Adank moeten we het waarschijnlijk in de techniek achter de schermen zoeken. “Ik ga nu proberen dit effect na te bootsen door te bestuderen hoe spraaksynthese werkt en hoe digitale signaalverwerking wordt gebruikt om die stemmen te genereren, zodat we beter begrijpen wat hier precies gebeurt.”

Het onderzoek werpt een nieuw licht op de rol van AI in communicatie. Waar kunstmatige stemmen ooit houterig en onnatuurlijk klonken, lijken ze nu juist extra duidelijk over te komen. Dat is handig om in te zetten bij technologische toepassingen, maar roept ook nieuwe vragen op. Want als een nepstem niet alleen overtuigend klinkt, maar ook beter te begrijpen is dan een echte, wie of wat willen we straks dan nog horen?

We schreven vaker over dit onderwerp, lees bijvoorbeeld ook We besteden massaal denkwerk uit aan AI. Dit is wat dat doet met ons zelfvertrouwen en Maar liefst een kwart van de mensen vraagt AI om medisch advies, maar er is een gekke paradox. Of lees dit artikel: Meer tieners dan je denkt gebruiken AI om naaktbeelden te maken.

Uitgelezen? Luister ook eens naar de Scientias Podcast:

Lees het hele artikel