Skip to ContentSkip to Navigation
Onderdeel van Rijksuniversiteit Groningen
Science LinX Science LinX nieuws

Instagram leert KI-systeem om kamers te herkennen

26 januari 2022

Voor mensen is het eenvoudig om binnenruimtes te herkennen voor wat ze zijn, maar het is lastig om kunstmatige intelligentie (KI) het verschil tussen een kantoor en een bibliotheek te leren. Zulke KI systemen worden doorgaans alleen met beelden getraind, en het herkennen van een ruimte aan de hand van de objecten die erin staan gaat gemakkelijk mis. Daarom heeft RUG computerwetenschapper Estefanía Talavera Martínez extra data toegevoegd aan het trainingsmateriaal, namelijk spraak. Hierdoor was het systeem vaker succesvol bij het herkennen van een binnenruimte. Bovendien leverde het onderzoek een nieuwe dataset op van Instagramvideo’s. Haar onderzoek is op 22 januari gepubliceerd in het tijdschrift Neural Computing and Applications.

De belangstelling van Estefanía Talavera Martínez gaat uit naar de ontwikkeling van algoritmes die menselijk gedrag kunnen analyseren. In eerder werk gebruikte zij fotoreeksen gemaakt met draagbare camera’s om inzicht te krijgen in wat mensen door de dag heen doen. Die beelden werden allereerst door een KI systeem geanalyseerd. De volgende stap was om videobeelden te gaan analyseren, wat meer mogelijkheden biedt. ‘Met zo’n systeem zouden robots kunnen zien waar ze zich bevinden, of je zou er kwetsbare ouderen mee kunnen monitoren’, legt Talavera Martínez uit. Maar dan moet het KI systeem wel in staat zijn binnenruimtes te herkennen.

Estefanía Talavera Martínez | Foto RUG
Estefanía Talavera Martínez | Foto RUG

Eerdere pogingen om zo’n systeem te ontwikkelen leverden matige resultaten op. ‘Een reden daarvoor is dat de meeste systemen met maar één soort gegevens worden getraind, doorgaans de herkenning van objecten in een kamer.’ Daarom besloot Talavera Martínez een tweede modaliteit toe te voegen: de getranscribeerde tekst van spraak die in de video’s is opgenomen.

Om haar KI systeem te trainen gebruikte zij beeld en spraak van video’s die ze op Instagram vond. De spraak is met behulp van standaard spraakherkenningssoftware van Google omgezet in geschreven tekst. Talavera Martínez en haar (toenmalige) masterstudent Andreea Glavan testten verschillende manieren om de informatie uit beeld en geluid te combineren, totdat zij de beste methode hadden gevonden. Het resultaat is een systeem dat video’s van negen verschillende soorten binnenruimtes kan herkennen met een nauwkeurigheid van 70 procent, wat beter is dan eerder beschreven systemen. ‘Tests die wij uitvoerden bevestigden dat de combinatie een beter prestatie opleverde dan het trainen van een systeem met alleen beeld of alleen spraak’, vertelt Talavera Martínez.

Schema van de multimodale aanpak voor het herkennen van videobeelden: uit de video wordt informatie over beeld en spraak gehaald, die wordt verwerkt en samengevoegd voor de classificatie van de beelden in negen verschillende soorten binnenruimtes. | Illustratie Estefanía Talavera Martínez
Schema van de multimodale aanpak voor het herkennen van videobeelden: uit de video wordt informatie over beeld en spraak gehaald, die wordt verwerkt en samengevoegd voor de classificatie van de beelden in negen verschillende soorten binnenruimtes. | Illustratie Estefanía Talavera Martínez

Als niet onbelangrijke bonus heeft het onderzoek een dataset opgeleverd van 3788 Instagram video’s uit negen verschillende typen binnenruimte. Daarnaast is een selectie van negenhonderd YouTube video’s gebruikt om de resultaten te bevestigen. ‘We hebben beide datasets, de eerste in deze vorm, beschikbaar gesteld voor andere onderzoekers.’

Talavera Martínez wil haar nieuwe systeem gaan gebruiken voor de verdere analyse van menselijk gedrag dat is vastgelegd in video’s: ‘Die bevatten een schat aan informatie, zowel in de losse frames als in de beeldsequenties. En ons nieuwe systeem kan herkennen in welk soort omgeving de beelden zijn gemaakt.’

Naast dit soort onderzoek is het systeem ook te gebruiken om bijvoorbeeld patiënten in de gaten te houden. Een andere toepassing zou het monitoren van veroudering kunnen zijn. Ook is het bruikbaar om mensen positieve ervaringen opnieuw te laten beleven. ‘We weten dat mensen vaak een heel gekleurd beeld hebben van hun eigen leven. Ons systeem kan ze een objectieve registratie en analyse geven.’

Referentie: Andreea Glavan & Estefanía Talavera: InstaIndoor and multi-modal deep learning for indoor scene recognition. Neural Computing and Applications, 22 januari 2022.

Laatst gewijzigd:28 november 2024 15:33
View this page in: English

Meer nieuws