Instagram leert KI-systeem om kamers te herkennen

26 januari 2022

Voor mensen is het eenvoudig om binnenruimtes te herkennen voor wat ze zijn, maar het is lastig om kunstmatige intelligentie (KI) het verschil tussen een kantoor en een bibliotheek te leren. Zulke KI systemen worden doorgaans alleen met beelden getraind, en het herkennen van een ruimte aan de hand van de objecten die erin staan gaat gemakkelijk mis. Daarom heeft RUG computerwetenschapper Estefanía Talavera Martínez extra data toegevoegd aan het trainingsmateriaal, namelijk spraak. Hierdoor was het systeem vaker succesvol bij het herkennen van een binnenruimte. Bovendien leverde het onderzoek een nieuwe dataset op van Instagramvideo’s. Haar onderzoek is op 22 januari gepubliceerd in het tijdschrift Neural Computing and Applications.

De belangstelling van Estefanía Talavera Martínez gaat uit naar de ontwikkeling van algoritmes die menselijk gedrag kunnen analyseren. In eerder werk gebruikte zij fotoreeksen gemaakt met draagbare camera’s om inzicht te krijgen in wat mensen door de dag heen doen. Die beelden werden allereerst door een KI systeem geanalyseerd. De volgende stap was om videobeelden te gaan analyseren, wat meer mogelijkheden biedt. ‘Met zo’n systeem zouden robots kunnen zien waar ze zich bevinden, of je zou er kwetsbare ouderen mee kunnen monitoren’, legt Talavera Martínez uit. Maar dan moet het KI systeem wel in staat zijn binnenruimtes te herkennen.

Eerdere pogingen om zo’n systeem te ontwikkelen leverden matige resultaten op. ‘Een reden daarvoor is dat de meeste systemen met maar één soort gegevens worden getraind, doorgaans de herkenning van objecten in een kamer.’ Daarom besloot Talavera Martínez een tweede modaliteit toe te voegen: de getranscribeerde tekst van spraak die in de video’s is opgenomen.

Om haar KI systeem te trainen gebruikte zij beeld en spraak van video’s die ze op Instagram vond. De spraak is met behulp van standaard spraakherkenningssoftware van Google omgezet in geschreven tekst. Talavera Martínez en haar (toenmalige) masterstudent Andreea Glavan testten verschillende manieren om de informatie uit beeld en geluid te combineren, totdat zij de beste methode hadden gevonden. Het resultaat is een systeem dat video’s van negen verschillende soorten binnenruimtes kan herkennen met een nauwkeurigheid van 70 procent, wat beter is dan eerder beschreven systemen. ‘Tests die wij uitvoerden bevestigden dat de combinatie een beter prestatie opleverde dan het trainen van een systeem met alleen beeld of alleen spraak’, vertelt Talavera Martínez.

Schema van de multimodale aanpak voor het herkennen van videobeelden: uit de video wordt informatie over beeld en spraak gehaald, die wordt verwerkt en samengevoegd voor de classificatie van de beelden in negen verschillende soorten binnenruimtes. | Illustratie Estefanía Talavera Martínez

Als niet onbelangrijke bonus heeft het onderzoek een dataset opgeleverd van 3788 Instagram video’s uit negen verschillende typen binnenruimte. Daarnaast is een selectie van negenhonderd YouTube video’s gebruikt om de resultaten te bevestigen. ‘We hebben beide datasets, de eerste in deze vorm, beschikbaar gesteld voor andere onderzoekers.’

Talavera Martínez wil haar nieuwe systeem gaan gebruiken voor de verdere analyse van menselijk gedrag dat is vastgelegd in video’s: ‘Die bevatten een schat aan informatie, zowel in de losse frames als in de beeldsequenties. En ons nieuwe systeem kan herkennen in welk soort omgeving de beelden zijn gemaakt.’

Naast dit soort onderzoek is het systeem ook te gebruiken om bijvoorbeeld patiënten in de gaten te houden. Een andere toepassing zou het monitoren van veroudering kunnen zijn. Ook is het bruikbaar om mensen positieve ervaringen opnieuw te laten beleven. ‘We weten dat mensen vaak een heel gekleurd beeld hebben van hun eigen leven. Ons systeem kan ze een objectieve registratie en analyse geven.’

Referentie: Andreea Glavan & Estefanía Talavera: InstaIndoor and multi-modal deep learning for indoor scene recognition. Neural Computing and Applications, 22 januari 2022.

Laatst gewijzigd:

07 februari 2025 12:07

Deel dit Facebook LinkedIn

View this page in: English

Meer nieuws

01 april 2025

Nieuw kiesstelsel NSC kan ongewenste gevolgen hebben

Het nieuwe kiesstelsel, voorgesteld door minister Uitermark (NSC), kan mogelijk het fundamentele principe van evenredige vertegenwoordiging ondermijnen. Dat stelt hoogleraar Davide Grossi van de Rijksuniversiteit Groningen.
01 april 2025

‘Diversiteit maakt wetenschap beter’

Hannah Dugdale doet niet alleen biologisch onderzoek naar veroudering, ze brengt ook in kaart hoe het is gesteld met de diversiteit in de wetenschap. Voor dat laatste kreeg ze eind 2024 een van de twee jaarlijkse Athena Awards toegekend, een...
01 april 2025

‘AiNed’ Groeifonds subsidie voor versnellen invoering AI bij mkb-bedrijven

Professor Ming Cao ontvangt een Groeifondssubsidie van EUR 2,4 miljoen voor onderzoek dat bij gaat dragen aan het sneller invoeren van AI bij mkb-bedrijven in de technische industrie in Nederland.

Instagram leert KI-systeem om kamers te herkennen

Meer nieuws

Nieuw kiesstelsel NSC kan ongewenste gevolgen hebben

‘Diversiteit maakt wetenschap beter’

‘AiNed’ Groeifonds subsidie voor versnellen invoering AI bij mkb-bedrijven