Spraaktechnologie: zo veel meer dan een voice assistant
Datum: | 01 juni 2021 |
Auteur: | Team Industry Relations |
“Hey Google! Vertel me een mop.” Spraaktechnologie is in toenemende mate onderdeel van ons dagelijks leven. Voor veel mensen is het een leuke gimmick, ingebouwd in een telefoon of virtuele assistent. De technologie hierachter heeft echter wel degelijk heel serieuze toepassingen in bijvoorbeeld de medische wereld, of bij het behoud van taal en cultuur.
Matt Coler is een universitair hoofddocent in taal en technologie bij Campus Fryslân van de Rijksuniversiteit Groningen (RUG). Coler werkt met zijn onderzoeksgroep op het gebied van cultuur, taal en technologie. Deze groep onderzoekt verschillende aspecten van spraaktechnologie. Bij spraaktechnologie wordt kunstmatige intelligentie ingezet om geautomatiseerd spraak naar tekst om te zetten, om geschreven tekst in gesproken tekst om te zetten, of om bepaalde spraak- of stemkenmerken automatisch te herkennen. Coler is de begeleider van promovendi Vass Verkhodanova en Phat Do die onderzoek doen binnen dit thema.
Parkinson herkennen aan spraak
Verkhodanova onderzoekt hoe neurologen neurodegeneratieve ziektes, zoals de ziekte van Parkinson, kunnen herkennen aan het stemgebruik en de manier van spreken. Sommige doktoren zijn bijvoorbeeld heel goed in het herkennen van dysartrie, een stoornis op het gebied van articulatie. Zij hebben daar geen tests voor nodig, maar herkennen de stoornis meteen wanneer zij een patiënt horen spreken. Coler vergelijkt dit met het staan in een heel drukke metro in een Spaanstalig land. Wanneer je daar iemand Nederlands zou horen praten, kun je dat makkelijk filteren en springt dat geluid eruit, terwijl dat akoestisch gezien waarschijnlijk niet per se zo is. Dit komt doordat de hersenen bepaalde signalen uit het geluid halen, waardoor er extra nadruk op die informatie gelegd wordt.
Ziekte monitoren via telefoongesprek
Verkhodanova doet onderzoek naar hoe deze signalen in stem- en spraakgeluid zich bij verschillende ziektebeelden ontwikkelen, en hoe we kunstmatige intelligentie hierbij in kunnen zetten om de herkenning te automatiseren. Doktoren zouden dan in een volgend stadium van het onderzoek via bijvoorbeeld een telefoongesprek de ontwikkeling van een ziekte bij de patiënt al kunnen monitoren. Dat maakt de zorg voor veel mensen bereikbaarder en makkelijker. Iemand met een hoger risico op een bepaalde neurodegeneratieve ziekte kan dan bijvoorbeeld automatisch gescreend worden met een kort telefoongesprek.
Computerstem voor de Friese taal
Phat Do, de andere promovendus, doet onderzoek naar spraaksynthese en werkt aan een computerstem voor de Friese taal. Bij de ontwikkeling van een computerstem moet het programma gebruik maken van een grote hoeveelheid spraakdata van die taal. Sommige kleinere talen hebben slechts enkele (kleine) spraakcorpora en het is niet altijd mogelijk om meer data te verzamelen. Daarom gebruikt Do voor het trainen van zijn Friese computerstem een Friestalige dataset, die hij uitbreidt met anderstalige spraakdata waarbij de focus ligt op het 'namaken' van een natuurlijke melodie en klank. Met deze bijzondere techniek ontwikkelt Do een kunstmatige ‘stem’ die niet alleen Fries kan spreken, maar ook heel natuurlijk klinkt.
Geen gadgets
De onderzoekers bij Campus Fryslân werken interdisciplinair, waarbij de samenwerking tussen onderzoekers, het bedrijfsleven en maatschappelijke partners een grote rol speelt. De onderzoeksgroep van Coler, met een toepassingsgerichte focus, is hierop zeker geen uitzondering. Coler: “Als je je afvraagt wat het nut is van dit soort applicaties, is het goed om je te realiseren dat we hier geen onderzoek doen om gadgets te maken. Er zijn zeer belangrijke real-life toepassingen, denk bijvoorbeeld aan patiënten met keelkanker, die niet meer op een gezonde manier kunnen praten, of die afwijkingen hebben in hun taalproductie. In dit soort gevallen verbetert een natuurlijk klinkende kunstmatige stem hun kwaliteit van leven aanzienlijk.”
Maatschappelijke verantwoordelijkheid
Coler vertelt dat grote techbedrijven ook veel werken met kunstmatige spraak. Denk hierbij aan Siri van Apple of Alexa van Amazon. “Dit soort bedrijven hebben een verdienmodel als doel. Zij zullen niet snel dialecten of minderheidstalen doorontwikkelen in hun techniek, puur omdat er geen markt voor is. Dit betekent echter niet dat er geen behoefte aan is.” Hij vervolgt: “Universiteiten hebben de verantwoordelijkheid om in dit soort gevallen tussen de markt en de samenleving in te werken door technieken te ontwikkelen en klaar te stomen voor verschillende gebruiksvormen. In plaats van concurreren met grote bedrijven in basistoepassingen van spraaktechnologie, probeert onze onderzoeksgroep het veld te diversifiëren door te focussen op toepassingen die de kwaliteit van leven verbeteren.”
Een veld met potentie
De ontwikkeling van spraaktechnologie heeft dus in potentie veel sociale impact en relevantie, die op dit moment nog niet maximaal benut wordt. Spraaktechnologische toepassingen kunnen zelfs een rol spelen bij rechtszaken. Zo werd bijvoorbeeld de verdachte in de rechtszaak over de dood van de Amerikaanse tiener Trayvon Martin vrijgesproken, mede vanwege zijn claim dat in een telefoongesprek met de alarmcentrale te horen zou zijn dat hij om hulp riep. Er werd echter vanuit meerdere hoeken betwist of deze stem daadwerkelijk van de verdachte was. Stemherkenning zou in dit soort gevallen een cruciale en doorslaggevende rol kunnen spelen in de rechtspraak. Daarnaast is er vanuit de medische wereld veel vraag naar toepassingen voor patiënten. Ook kan spraaksynthese een bijdrage leveren aan het beschermen en behouden van bedreigde talen.