Zoeken naar de naald in een hooiberg van hoogdimensionale data
Een van de uitdagingen in dit tijdperk van ‘Big Data’ is wat te doen met de vele onafhankelijke variabelen, iets dat bekend staat als de ‘vloek van de dimensionaliteit’. Daarom is het nodig om algoritmes te ontwikkelen die relevante kenmerken kunnen vinden met een hoge voorspellende waarde. Hiervoor is door computerwetenschappers van de RUG een nieuwe selectief algoritme gemaakt. De beschrijving en validatie van hun methode is op 16 september gepubliceerd in het tijdschrift Expert Systems with Applications.
Het vermogen om de kleinste en beste subset van kenmerken waarmee een algoritme een specifieke naald kan vinden in een hooiberg van data is om verschillende reden wenselijk. Allereerst maakt het snellere en daarmee ook beter schaalbare analyse mogelijk. Ten tweede, het drukt de kosten van dataverzameling en -opslag. En als derde zorgt het ervoor dat de verwerking van kenmerken door het algoritme beter te begrijpen is. ‘Het is een misverstand dat je door meer kenmerken toe te voegen ook meer informatie hebt om een betere beoordeling te maken’, zegt George Azzopardi, assistent professor Computerwetenschappen aan de RUG. ‘Er zijn situaties waarin kenmerken totaal irrelevant blijken, of overbodig zijn.’ Bovendien is het lastiger uit te leggen hoe het algoritme tot een resultaat is gekomen naar mate het aantal onafhankelijke variabelen toeneemt.
‘Kenmerk selectie is wijdverbreid, en er zijn allerlei methoden voor bedacht’, zegt Ahmad Alsahaf, postdoc aan het UMCG en eerste auteur van het artikel. Het vinden van de juiste kenmerken is een uitdaging. De eenvoudigste manier om de beste subset te vinden is om alle mogelijke combinaties van kenmerken door te rekenen. ‘Maar die aanpak werkt niet meer als je veel kenmerken hebt’, zegt Alsahaf. Andere manieren gebruiken bijvoorbeeld statistische methoden om het belang van individuele kenmerken op een bepaalde variabele te bepalen.
Azzopardi: ‘Die methoden zijn zeer snel, maar ze houden geen rekening met de mogelijke interacties tussen variabelen. Het kan bijvoorbeeld zo zijn dat twee onafhankelijke variabelen elk een lage voorspellende waarde hebben, maar een veel sterkere wanneer je ze samen weegt.’ En Alsahaf vult aan: ‘Een bekend voorbeeld is de interactie tussen verschillende genen, waar de aanwezigheid van het ene gen de activiteit van het andere gen beïnvloedt. Algoritmes voor kenmerk selectie moeten dat kunnen oppikken.’
De computerwetenschappers ontwierpen een nieuw selectie algoritme voor kenmerken dat werkt volgens het zogeheten “boosting” principe. Alsahaf: ‘We gebruiken een model gebaseerd op beslisbomen om de meest relevante kenmerken te selecteren. Daarna maken en evalueren we een classificatiemodel op basis van deze kenmerken. De gegevens die hiermee onjuist worden geclassificeerd krijgen meer gewicht bij het bepalen van de volgende set met relevante kenmerken, een proces dat “boosting” heet. Deze stappen herhalen we totdat de prestaties van het model niet verder verbeteren.’
In hun artikel laten de wetenschappers zien dat hun algoritme effectief is op basis van verschillende standaard datasets met verschillende eigenschappen. Ook laten ze zien dat het beter presteert dan bekende methoden voor kenmerk-selectie, zoasl Boruta en ReliefF. Hun algoritme presteert beter met minder kenmerken op de meeste datasets die zijn gebruikt om het te testen.
De broncode van het algoritme is online gepubliceerd.
Referentie: Ahmad Alsahaf, Nicolai Petkov, Vikram Shenoy, George Azzopardi, A framework for feature selection through boosting, Expert Systems with Applications, 16 september 2021.
Laatst gewijzigd: | 23 september 2021 15:54 |
Meer nieuws
-
10 juni 2024
Om een wolkenkrabber heen zwermen
In Makers van de RUG belichten we elke twee weken een onderzoeker die iets concreets heeft ontwikkeld: van zelfgemaakte meetapparatuur voor wetenschappelijk onderzoek tot kleine of grote producten die ons dagelijks leven kunnen veranderen. Zo...
-
21 mei 2024
Uitslag universitaire verkiezingen 2024
De stemmen zijn geteld en de uitslag van de universitaire verkiezingen is binnen!