Instagram leert KI-systeem om kamers te herkennen
Voor mensen is het eenvoudig om binnenruimtes te herkennen voor wat ze zijn, maar het is lastig om kunstmatige intelligentie (KI) het verschil tussen een kantoor en een bibliotheek te leren. Zulke KI systemen worden doorgaans alleen met beelden getraind, en het herkennen van een ruimte aan de hand van de objecten die erin staan gaat gemakkelijk mis. Daarom heeft RUG computerwetenschapper Estefanía Talavera Martínez extra data toegevoegd aan het trainingsmateriaal, namelijk spraak. Hierdoor was het systeem vaker succesvol bij het herkennen van een binnenruimte. Bovendien leverde het onderzoek een nieuwe dataset op van Instagramvideo’s. Haar onderzoek is op 22 januari gepubliceerd in het tijdschrift Neural Computing and Applications.
De belangstelling van Estefanía Talavera Martínez gaat uit naar de ontwikkeling van algoritmes die menselijk gedrag kunnen analyseren. In eerder werk gebruikte zij fotoreeksen gemaakt met draagbare camera’s om inzicht te krijgen in wat mensen door de dag heen doen. Die beelden werden allereerst door een KI systeem geanalyseerd. De volgende stap was om videobeelden te gaan analyseren, wat meer mogelijkheden biedt. ‘Met zo’n systeem zouden robots kunnen zien waar ze zich bevinden, of je zou er kwetsbare ouderen mee kunnen monitoren’, legt Talavera Martínez uit. Maar dan moet het KI systeem wel in staat zijn binnenruimtes te herkennen.
Eerdere pogingen om zo’n systeem te ontwikkelen leverden matige resultaten op. ‘Een reden daarvoor is dat de meeste systemen met maar één soort gegevens worden getraind, doorgaans de herkenning van objecten in een kamer.’ Daarom besloot Talavera Martínez een tweede modaliteit toe te voegen: de getranscribeerde tekst van spraak die in de video’s is opgenomen.
Om haar KI systeem te trainen gebruikte zij beeld en spraak van video’s die ze op Instagram vond. De spraak is met behulp van standaard spraakherkenningssoftware van Google omgezet in geschreven tekst. Talavera Martínez en haar (toenmalige) masterstudent Andreea Glavan testten verschillende manieren om de informatie uit beeld en geluid te combineren, totdat zij de beste methode hadden gevonden. Het resultaat is een systeem dat video’s van negen verschillende soorten binnenruimtes kan herkennen met een nauwkeurigheid van 70 procent, wat beter is dan eerder beschreven systemen. ‘Tests die wij uitvoerden bevestigden dat de combinatie een beter prestatie opleverde dan het trainen van een systeem met alleen beeld of alleen spraak’, vertelt Talavera Martínez.
Als niet onbelangrijke bonus heeft het onderzoek een dataset opgeleverd van 3788 Instagram video’s uit negen verschillende typen binnenruimte. Daarnaast is een selectie van negenhonderd YouTube video’s gebruikt om de resultaten te bevestigen. ‘We hebben beide datasets, de eerste in deze vorm, beschikbaar gesteld voor andere onderzoekers.’
Talavera Martínez wil haar nieuwe systeem gaan gebruiken voor de verdere analyse van menselijk gedrag dat is vastgelegd in video’s: ‘Die bevatten een schat aan informatie, zowel in de losse frames als in de beeldsequenties. En ons nieuwe systeem kan herkennen in welk soort omgeving de beelden zijn gemaakt.’
Naast dit soort onderzoek is het systeem ook te gebruiken om bijvoorbeeld patiënten in de gaten te houden. Een andere toepassing zou het monitoren van veroudering kunnen zijn. Ook is het bruikbaar om mensen positieve ervaringen opnieuw te laten beleven. ‘We weten dat mensen vaak een heel gekleurd beeld hebben van hun eigen leven. Ons systeem kan ze een objectieve registratie en analyse geven.’
Referentie: Andreea Glavan & Estefanía Talavera: InstaIndoor and multi-modal deep learning for indoor scene recognition. Neural Computing and Applications, 22 januari 2022.
Laatst gewijzigd: | 28 november 2024 15:33 |
Meer nieuws
-
20 december 2024
NWO M1-subsidie voor drie FSE-onderzoekers
Dr. Antonija Grubišić-Čabo, dr. Robbert Havekes en prof. dr. ir. Jan Komdeur ontvangen een NWO M1-subsidie.
-
19 december 2024
NWO ENW-XL-miljoenenbeurzen voor onderzoeksprojecten RUG
Vier onderzoekers van de Faculty of Science and Engineering (RUG) ontvangen NWO beurzen van 3 miljoen euro voor hun onderzoeksprojecten.
-
19 december 2024
Jacquelien Scherpen geëerd met Hendrik W. Bode Lecture Prize 2025
Vanwege haar verdiensten voor de wetenschappelijke ontwikkelingen van regelsystemen en -techniek heeft Rector Magnificus Jacquelien Scherpen de 2025 Hendrik W. Bode Lecture prijs ontvangen van de IEEE Control Systems Society (CSS).