HAICu wil een betrouwbare gids zijn binnen het rijke Nederlandse erfgoed

31 oktober 2023

foto Lambert Schomaker — Lambert Schomaker

Beeld en Geluid, het Geheugen van Nederland, Beeldbank Groningen: erfgoedcollecties zijn massaal online beschikbaar. Het zijn cruciale informatiebronnen voor allerlei verhalen. Wat nou als je die collecties met één zoekterm door kunt spitten en daarbij noodzakelijke context krijgt om een goed verhaal te vertellen? Daar wil onderzoeksproject HAICu met behulp van kunstmatige intelligentie(KI)-tools voor zorgen. Ook moet het project een belangrijke bijdrage leveren aan de verdere ontwikkeling van KI. Hoogleraar Lambert Schomaker leidt de operatie, waarvoor de Nationale Wetenschapsagenda de komende jaren maar liefst 10,3 miljoen euro vrijmaakt .

_{Tekst: Thomas Vos / Foto's: Henk Veenstra}

Wetenschappelijke as

‘Eigenlijk is het lastig om dit verhaal te vertellen. Veel wetenschappelijke verhalen moeten tegenwoordig een duidelijk maatschappelijk nut hebben. Dat is bij ons ook wel zo, maar we werken met dit project tegelijkertijd aan een belangrijke theoretische basis voor KI en informatica. Want onder de motorkap van taalmodellen als Chat GPT is veel nog niet in orde,’ vertelt Schomaker, hoogleraar KI bij de Faculty of Science and Engineering van de RUG.

Verschillende disciplines

Schomaker vertelt het verhaal van onderzoeksproject HAICu vanuit zijn kantoor in de Bernoulliborg, het hart van KI bij de universiteit. Samen met onderzoekers uit verschillende disciplines, waaronder KI, informatica en de digitale geesteswetenschappen, werkt hij aan een belangrijke theoretische én praktische basis om digitaal erfgoed te ontsluiten, verbinden en contextualiseren. In de uitvoering werken Schomaker en collega’s nauw samen met experts van diverse erfgoedinstellingen. Vanuit de Nationale Wetenschapsagenda is er de komende jaren 10,3 miljoen euro beschikbaar voor het project.

Noodzaak

Schomaker schetst hoe hij en zijn collega’s de subsidieaanvraag aanpakten: ‘We hebben eerst een probleemanalyse opgesteld. Het algemeen publiek vindt het moeilijk om zijn weg te vinden in de zee van multimodale en heterogene data van erfgoedinstellingen zoals Beeld en Geluid. Dat is echter wel belangrijk in een tijd waarin we er extreme standpunten op na houden die we als waarheid verkondigen en in onze eigen bubbels leven. De archieven van erfgoedinstellingen leggen juist een grote meerstemmigheid bloot. Er is niet één waarheid, blijkt daaruit. Bij maatschappelijke processen zijn de perspectieven en belangen immers uiteenlopend.’

foto van Schomaker in de bilbiotheek — 'Te midden van de huidige informatie-explosie moeten we allemaal leren om zaken op waarheid te beoordelen. . . . Het is heel moeilijk voor de doorsnee internetgebruiker om te achterhalen wat fake is, of om buiten de eigen bubbel te treden'

Wat is fake?

Vervolgens stelden Schomaker en collega’s zich de vraag: hoe kunnen we KI gebruiken om mensen te helpen meerdere perspectieven in beeld te brengen, inclusief de bronvermelding en een bredere context? Schomaker: ‘Te midden van de huidige informatie-explosie moeten we allemaal leren om zaken op waarheid te beoordelen. Nu zitten we vaak in afzonderlijke bubbels met een eigen perspectief. Het is heel moeilijk voor de doorsnee internetgebruiker om te achterhalen wat fake is, of om buiten de eigen bubbel te treden. Ook journalisten worstelen met dit probleem. Wij willen ernaartoe dat de gebruiker straks allerlei bronnen kan doorzoeken en beoordelen met behulp van KI, om tot een gebalanceerd verhaal of narratief te komen.’

Taalgericht

Schomaker beschrijft nog een tweede probleem. Dit heeft te maken met de taalgerichtheid van KI-modellen zoals ChatGPT. Schomaker: ‘Taal is heel belangrijk, maar het is een instrument om met tekens naar fenomenen uit de werkelijkheid te verwijzen. Natuurlijke waarneming en cognitie zijn veel rijker. ChatGPT kan niet goed ruimtelijk denken. Je kunt ChatGPT niet vragen om op basis van een tekstuele omschrijving een plattegrond van jouw huis te maken. Om de menselijke waarneming enigszins te benaderen, moeten KI-modellen ook leren op basis van foto’s, video, audio en 3D-modellen. Daar hebben wij binnen HAICu expliciet aandacht voor.’

Blijven leren

En dan is er nog het punt dat KI-modellen continu moeten blijven leren. ‘Het kostte 100 miljoen dollar om ChatGPT te laten leren. Maar het model is gebaseerd op een selectie van tekstdocumenten op internet van een aantal jaren geleden. Je moet eigenlijk doorlopend blijven investeren om up-to-date te blijven, maar dat kost veel en is slecht voor de planeet. Dit is nog niet opgelost en is voor ons een belangrijk aandachtspunt. Daarnaast moeten we KI-modellen leren hoe ze moeten omgaan met ruwe data in tabelvorm van bijvoorbeeld bedrijven maar ook historici. Dat is belangrijk, omdat kwantitatieve gegevens vaak nuttige bewijzen opleveren.’

Weinig voorbeelden

Toch wil Schomaker beginnen met KI-modellen die op basis van een beperkt aantal bronnen tóch een gedegen analyse kunnen uitvoeren. Hij noemt eerder onderzoek naar de Dode Zeerollen waarbij hij betrokken was en waarvoor hij met andere onderzoekers handschriftherkenning en meetkunde toepaste: ‘We moesten daar, je zou bijna zeggen jammer genoeg, traditionele technieken gebruiken om de zeer beperkte hoeveelheid bronnen te onderzoeken. Moderne technieken konden we niet goed toepassen. Met HAICu kijken we of we door middel van innovaties in machinaal leren de KI-modellen wél kunnen inzetten als er maar weinig leervoorbeelden zijn. We hebben hier in Groningen veel geleerd van de problemen die de computer tegenkomt bij het leren van exotische historische manuscripten.’

Foto van Schomaker op de computer in de UB — 'Met HAICu kijken we of we door middel van innovaties in machinaal leren de KI-modellen wél kunnen inzetten als er maar weinig leervoorbeelden zijn.'

Onderzoeksgroepen

Bij de uitvoering van HAICu zijn veel groepen betrokken. Inter- en multidisciplinaire onderzoeksgroepen werken aan thema’s als KI en machinaal leren, en ontwikkelen tools. Junior-onderzoekers gaan aan de slag met de multimodale (tekst, beeld, geluid) bronnen van erfgoedinstellingen om problemen te identificeren. Rond die erfgoedinstellingen worden innovatielabs opgezet, waarin zowel een breed publiek als specifieke doelgroepen (waaronder journalisten) de door de onderzoekers ontwikkelde tools testen. Schomaker: ‘Zo laten we mensen niet alleen kennismaken met de tools, maar maken we ze ook bewust van de valkuilen die er zijn bij de interpretatie van data en bronnen. Bovendien helpen hun input en leervoorbeelden om de KI-tools continu te trainen.’

Mammoetbotten

Een voorbeeld vanuit HAICu dat Schomaker noemt is Naturalis Biodiversity Center: ‘Een van de deelprojecten is het ontwikkelen van een tool voor mensen die op de Maasvlakte op zoek gaan naar botten, bijvoorbeeld van mammoeten of sabeltandtijgers. Vervolgens kun je met een soort Google Lens zo’n bot scannen met de camera van je telefoon om allerlei relevante informatie te achterhalen.’

Bruikbaar

Kan Jan en alleman straks dan ook echt zo’n bot scannen? Schomaker: ‘We moeten realistisch blijven. Er zullen veel kleine tools ontstaan tijdens het proces, maar niet alles zal bruikbaar zijn. Het zal veel uitproberen worden. Wat belangrijk blijft, is multimodaliteit. We moeten de tools voor verschillende typen bronnen tegelijk kunnen inzetten om zo een complex verhaal te kunnen vertellen. Die multimodale verhalen ontbreken vandaag de dag bijvoorbeeld op televisie. Daar zie je vooral veel talking heads, met een grote simplificatie van de onderliggende werkelijkheid en de verschillende mogelijke perspectieven.’

Infoclips

Volgens Schomaker is daar ruimte voor verbetering: ‘Je ziet zelden iemand op een whiteboard een grafiek tekenen. Ik vind het een beetje arrogant van de traditionele media om te veronderstellen dat al die goed opgeleide Nederlanders geen grafiek of tabelletje kunnen begrijpen in een uitleg. Je ziet nu al dat verschillende nieuwsplatforms op internet uitstekende infoclips maken die voor iedereen toegankelijk zijn. Dit is echter heel veel werk, als je het goed wilt doen. Ik verwacht dat de tools van HAICu het construeren hiervan aanzienlijk zullen vergemakkelijken.’

Waarheid

Hoewel HAICu nog aan het begin staat, heeft Schomaker wel een duidelijke visie voor de toekomst: ‘Wij hebben in Nederland al een voorsprong op het gebied van KI en cultureel erfgoed op basis van eerdere projecten. Ik hoop dat we dat kunnen uitbouwen en dat Nederland binnen de wereld van KI een prominente plaats krijgt. Een heleboel ontdekkingen komen al uit Nederland. Google en Meta kijken bijvoorbeeld hoe wij het hier aanpakken. En binnen Nederland zou het natuurlijk helemaal mooi zijn als we Groningen nog meer op de kaart kunnen zetten. We timmeren hier best goed aan de weg, en dat mag meer bekendheid krijgen.’

Jantina Tammes School

Voor de Jantina Tammes School of Digital Society, Technology & AI is het HAICu-project bovenal een voorbeeld, zegt operational director Gerlof Lodewijk. Volgens hem is de multidisciplinaire manier van samenwerken binnen het project precies wat de Schools voor Wetenschap & Samenleving van de RUG beogen. ‘Voor ons is HAICu als groot consortium met 39 leden exemplarisch voor de manier waarop we willen werken. Dit zijn de complexe, multidisciplinaire projecten waar wij als Schools voor in het leven zijn geroepen.’

Jantina Tammes en de andere Schools bouwen aan gemeenschappen, waaruit grote consortia zoals HAICu kunnen ontstaan, vervolgt Lodewijk. Hij benadrukt dat de rol van Jantina Tammes bij HAICu vooral faciliterend is geweest. ‘Wij konden meehelpen bij de resubmission van het project. Daar hebben we overigens al veel van geleerd, en deze kennis kunnen we meenemen naar nieuwe, vergelijkbare projecten. Ik zie HAICu als ons voorland, waar we met andere onderzoeksprojecten ook naartoe willen.’

Meer informatie

Lambert Schomaker

Laatst gewijzigd:

03 november 2023 14:50

Deel dit Facebook LinkedIn

View this page in: English

Meer nieuws

25 april 2025

Topwetenschapper Arnold Driessen gelauwerd

Op 25 april 2025 ontving Arnold Driessen (Horst, 1958) een Koninklijke Onderscheiding. Driessen is hoogleraar Moleculaire Microbiologie en voorzitter van de onderzoeks- en basiseenheid Moleculaire Microbiologie bij de Faculteit Science & Engineering...
24 april 2025

Uitgelichte publicaties april 2025

Het malaria-geneesmiddel mefloquine kan ook helpen tegen genetische ziekten zoals taaislijmziekte, Duchenne spierdystrofie of sommige vormen van kanker.
22 april 2025

Microplastics: wat doen ze met ons?

Prof. Barbro Melgert heeft ontdekt hoe microplastics de longen aantasten en kan uitleggen hoe we onze blootstelling kunnen verkleinen.