Skip to ContentSkip to Navigation
Onderdeel van Rijksuniversiteit Groningen
Science LinX Science LinX nieuws

Zoeken naar de naald in een hooiberg van hoogdimensionale data

23 september 2021

Een van de uitdagingen in dit tijdperk van ‘Big Data’ is wat te doen met de vele onafhankelijke variabelen, iets dat bekend staat als de ‘vloek van de dimensionaliteit’. Daarom is het nodig om algoritmes te ontwikkelen die relevante kenmerken kunnen vinden met een hoge voorspellende waarde. Hiervoor is door computerwetenschappers van de RUG een nieuwe selectief algoritme gemaakt. De beschrijving en validatie van hun methode is op 16 september gepubliceerd in het tijdschrift Expert Systems with Applications.

Het vermogen om de kleinste en beste subset van kenmerken waarmee een algoritme een specifieke naald kan vinden in een hooiberg van data is om verschillende reden wenselijk. Allereerst maakt het snellere en daarmee ook beter schaalbare analyse mogelijk. Ten tweede, het drukt de kosten van dataverzameling en -opslag. En als derde zorgt het ervoor dat de verwerking van kenmerken door het algoritme beter te begrijpen is. ‘Het is een misverstand dat je door meer kenmerken toe te voegen ook meer informatie hebt om een betere beoordeling te maken’, zegt George Azzopardi, assistent professor Computerwetenschappen aan de RUG. ‘Er zijn situaties waarin kenmerken totaal irrelevant blijken, of overbodig zijn.’ Bovendien is het lastiger uit te leggen hoe het algoritme tot een resultaat is gekomen naar mate het aantal onafhankelijke variabelen toeneemt.

George Azzopardi | Foto RUG
George Azzopardi | Foto RUG

‘Kenmerk selectie is wijdverbreid, en er zijn allerlei methoden voor bedacht’, zegt Ahmad Alsahaf, postdoc aan het UMCG en eerste auteur van het artikel. Het vinden van de juiste kenmerken is een uitdaging. De eenvoudigste manier om de beste subset te vinden is om alle mogelijke combinaties van kenmerken door te rekenen. ‘Maar die aanpak werkt niet meer als je veel kenmerken hebt’, zegt Alsahaf. Andere manieren gebruiken bijvoorbeeld statistische methoden om het belang van individuele kenmerken op een bepaalde variabele te bepalen.

Azzopardi: ‘Die methoden zijn zeer snel, maar ze houden geen rekening met de mogelijke interacties tussen variabelen. Het kan bijvoorbeeld zo zijn dat twee onafhankelijke variabelen elk een lage voorspellende waarde hebben, maar een veel sterkere wanneer je ze samen weegt.’ En Alsahaf vult aan: ‘Een bekend voorbeeld is de interactie tussen verschillende genen, waar de aanwezigheid van het ene gen de activiteit van het andere gen beïnvloedt. Algoritmes voor kenmerk selectie moeten dat kunnen oppikken.’

Ahmed Alsahaf | Foto UMCG
Ahmed Alsahaf | Foto UMCG

De computerwetenschappers ontwierpen een nieuw selectie algoritme voor kenmerken dat werkt volgens het zogeheten “boosting” principe. Alsahaf: ‘We gebruiken een model gebaseerd op beslisbomen om de meest relevante kenmerken te selecteren. Daarna maken en evalueren we een classificatiemodel op basis van deze kenmerken. De gegevens die hiermee onjuist worden geclassificeerd krijgen meer gewicht bij het bepalen van de volgende set met relevante kenmerken, een proces dat “boosting” heet. Deze stappen herhalen we totdat de prestaties van het model niet verder verbeteren.’

In hun artikel laten de wetenschappers zien dat hun algoritme effectief is op basis van verschillende standaard datasets met verschillende eigenschappen. Ook laten ze zien dat het beter presteert dan bekende methoden voor kenmerk-selectie, zoasl Boruta en ReliefF. Hun algoritme presteert beter met minder kenmerken op de meeste datasets die zijn gebruikt om het te testen.

De broncode van het algoritme is online gepubliceerd.

Referentie: Ahmad Alsahaf, Nicolai Petkov, Vikram Shenoy, George Azzopardi, A framework for feature selection through boosting, Expert Systems with Applications, 16 september 2021.

Diagram met de werking van het algoritme | Illustratie Azzopardi / Alsahaf
Diagram met de werking van het algoritme | Illustratie Azzopardi / Alsahaf
Laatst gewijzigd:23 september 2021 15:54
View this page in: English

Meer nieuws

  • 16 december 2024

    Jouke de Vries: ‘De universiteit zal wendbaar moeten zijn’

    Aan het einde van 2024 blikt collegevoorzitter Jouke de Vries terug op het afgelopen jaar. Daarbij gaat hij in op zijn persoonlijke hoogte- en dieptepunten en kijkt hij vooruit naar de toekomst van de universiteit in financieel moeilijke tijden.

  • 10 juni 2024

    Om een wolkenkrabber heen zwermen

    In Makers van de RUG belichten we elke twee weken een onderzoeker die iets concreets heeft ontwikkeld: van zelfgemaakte meetapparatuur voor wetenschappelijk onderzoek tot kleine of grote producten die ons dagelijks leven kunnen veranderen. Zo...

  • 24 mei 2024

    Lustrum 410 in beeld

    Lustrum 410 in beeld: Een fotoverslag van het lustrum 2024