Hoe check je of de betekenis van een vertaling behouden blijft?
Datum: | 20 augustus 2019 |
Auteur: | Team Industry Relations |
Hoe controleer je of de betekenis van een vertaling behouden blijft?
Bij het vertalen van een tekst mag de betekenis eigenlijk niet veranderen. Gebeurt dat toch, dan kan dit grote gevolgen hebben. Automatische vertaalprogramma’s zijn er genoeg, maar hoe kunnen we op een automatische manier controleren of de betekenis behouden blijft? Hoogleraar Johan Bos, werkzaam aan de Faculteit der Letteren van de Rijksuniversiteit Groningen (RUG), doet hier onderzoek naar.
‘Automatische vertaalprogramma’s worden steeds beter doordat de modellen die hieraan ten grondslag liggen ook steeds beter worden’, vertelt Bos. ‘Toch blijft de betekenis van de tekst soms niet behouden, wat grote gevolgen kan hebben. Denk maar eens aan de instructie voor het gebruik van een parachute. Slechts een kleine betekenisverandering bij het vertalen kan in zo’n geval fataal zijn.’ Om dit soort problemen te voorkomen hebben Bos en zijn team het project Lost in Translation – Found in Meaning opgezet. Zij ontwikkelen modellen die weergeven waar in een tekst problemen optreden bij het vertalen. Daarnaast levert het project een database met teksten en hun geanalyseerde vertalingen.
Betekenisleer
Om te controleren of de betekenis van een tekst behouden blijft na een vertaling is het van belang om te weten wat er in een tekst gebeurt. ‘We willen weten wie wat doet, en ook waar, wanneer, hoe en waarom. Voor een mens is dat vrij makkelijk, maar voor een computermodel is dat ontzettend ingewikkeld’, legt Bos uit. Laten we een simpele voorbeeldzin gebruiken: Jan koopt een fiets. Het model moet allereerst in staat zijn om het concept ‘een fiets kopen’ te herkennen en af te bakenen. Vervolgens moet het weten dat ‘Jan’ de koper is en ‘de fiets’ het gekochte voorwerp. Woorden als ‘misschien’ of ‘geen’ kunnen in dit voorbeeld nog weer voor een totaal andere betekenis zorgen. ‘En dit is slechts één zin; in een tekst hebben meerdere zinnen ook weer verband met elkaar. Zo zie je maar dat deze zogeheten betekenisleer ontzettend complex is.’
Computer laten leren
Maar hoe zorgen Bos en zijn team ervoor dat een computermodel de betekenisleer toch onder de knie krijgt? Bos: ‘We maken een model gebaseerd op gelabelde data: teksten die door onderzoekers met de hand zijn geanalyseerd. Steeds wordt de niet-geanalyseerde tekst aangeboden als invoer en de geanalyseerde tekst als uitvoer. Het model leert hiervan en is na enige tijd bijvoorbeeld zelf in staat om de naam ‘Koen’ te duiden als persoonsnaam. Bij een nieuwe invoer kan het dan zelf een betekenisanalyse uitvoeren.’ De onderzoekers controleren en corrigeren vervolgens het resultaat en bieden dit opnieuw als in- en uitvoer aan. Dit proces, in vaktermen ook wel bootstrapping genoemd, zorgt ervoor dat het computermodel steeds beter gaat werken en uiteindelijk zelf kan aangeven waar in de tekst een probleem optreedt bij het vertalen.
Samenwerken
Op dit moment zijn de computermodellen beschikbaar voor het Engels, Duits, Nederlands en Italiaans. Bos wil ze ook voor andere talen ontwikkelen: ‘Daarbij maken we zoveel mogelijk gebruik van de bestaande modellen. Maar dat is een uitdaging omdat veel talen bijvoorbeeld verschillen qua woordvolgorde binnen een zin. Mogelijk kunnen andere wetenschappers ons helpen, vandaar dat we onze modellen ook aan hen beschikbaar stellen.’ En dat is niet de enige samenwerking die mogelijkheden biedt voor Bos en zijn team. ‘We zien dat taaltechnologische applicaties steeds belangrijker worden. Neem Facebook: dit bedrijf verzamelt alle berichten die op zijn internetpagina’s worden geplaatst. Bij het vertalen ervan komen de applicaties echter niet verder dan de analyse van woorden. Om ook de betekenis te snappen zijn modellen zoals wij die ontwikkelen, onmisbaar. Daarmee kun je automatische vertaalsystemen verbeteren of tekstvertalingen controleren op betekenis. Op dat vlak behoort samenwerking met bedrijven dus zeker ook tot de mogelijkheden.’