Is meer data altijd beter?
Door de toenemende beschikbaarheid van experimentele en observationele gegevens is er een aanzienlijke opeenstapeling van informatie binnen het wetenschappelijk onderzoek ontstaan. Deze big data wordt gebruikt om waardevolle inzichten en patronen te onttrekken aan uitgebreide en ingewikkelde datasets, waardoor datagestuurde besluitvorming mogelijk wordt dankzij tijdige en nauwkeurige informatie. De exponentiële groei van data is echter ook een reden voor bezorgdheid over de mogelijke gevaren. Xiaoyao Han onderzoekt de toegevoegde waarde van big data.
Door Xiaoyao Han, promovendus bij RUG/Campus Fryslân
Mijn onderzoek gaat over de toegevoegde waarde van big data en bestudeert hoe de opeenstapeling van gegevens ons wetenschappelijk inzicht verrijkt. Ik probeer te achterhalen hoe we de omvang van data beoordelen vanuit een wetenschappelijk perspectief. Ook probeer ik erachter te komen hoe we daar door middel van interdisciplinair onderzoek een kader voor kunnen ontwikkelen om bij te dragen aan een beter begrip van de waarde van data in wetenschap.
Wat is big data en waar komt het vandaan?
Kort gezegd, wanneer data te omvangrijk wordt om op effectieve wijze te beheren, wordt het geclassificeerd als big data. Er zijn verschillende definities van big data, maar een officiële consensus daarover ontbreekt tot op heden. De meest gangbare definitie gaat uit van drie dimensies: omvang, snelheid en verscheidenheid. Omvang verwijst naar de grote hoeveelheid data en wordt meestal gemeten in exabytes (1018), zettabytes (1021) en yottabytes (1024). Snelheid verwijst naar de zeer hoge snelheid waarmee data gegenereerd kan worden. Met een gemiddelde van 500 miljoen tweets per dag is Twitter een sprekend voorbeeld van deze snelheid. Verscheidenheid verwijst naar de verschillende datatypes en -formats die worden gegenereerd en verzameld. In tegenstelling tot traditionele gegevensbronnen die voornamelijk bestaan uit gestructureerde data die is opgeslagen in relationele databases, bestaat big data uit een breed scala aan datatypes, waaronder gestructureerde databases, teksten, afbeeldingen en video´s. In alle drie de dimensies is big data met recht groot te noemen, en het wordt alleen maar groter.
Big data is in verschillende wetenschapsgebieden terug te vinden. Binnen de astronomie worden grote hoeveelheden data verzameld door beelden en spectra van hemellichamen vast te leggen met telescopen. Op een soortgelijke manier genereert DNA-sequencing binnen de bio-informatica enorme datasets. In de ecologie wordt big data afgeleid van remote sensing-technologie om vegetatiedynamica te monitoren en te analyseren op grote ruimtelijke en tijdelijke schalen. Om zulke grote datasets te beheren, op te slaan en te analyseren zijn geavanceerde computernetwerken en bio-informatische methoden nodig. Onderzoekers maken gebruik van innovatieve algoritmes en technieken om deze grootschalige datasets effectief te kunnen analyseren.
Big data stelt onderzoekers in staat om omvangrijke datasets van meerdere bronnen te analyseren en zo een volledig beeld te krijgen van de verschillende factoren in een situatie of probleem. Bovendien kan onderzoek door middel van machine learning en AI-modellen organisaties helpen bij het maken van slimme beslissingen die gebaseerd zijn op data in plaats van simpelweg op gevoel of eerdere ervaringen af te gaan. Ondanks dat big data veel inzichten geeft, roept het ook kritische vragen op over de wetenschappelijke validiteit ervan. In hoeverre bevordert de massa aan data ons inzicht in complexe wetenschappelijke kwesties en faciliteert het geïnformeerde besluitvorming op verschillende terreinen? Welke implicaties vloeien voort uit het streven naar meer dataverzameling en het veelvuldig gebruik van deze datasets in de wetenschap?
Hoe groter, hoe beter?
De algemene overtuiging dat ‘groter beter is’, heeft het enthousiasme voor big data aangewakkerd, waarbij de voorstanders de potentie ervan zien voor baanbrekend onderzoek. Van oudsher ontwikkelen onderzoekers hypotheses die zijn gebaseerd op bestaande theorieën, en voeren ze experimenten uit om deze hypotheses te testen. Met de komst van big data kunnen onderzoekers nu verborgen patronen, associaties, correlaties en trends binnen grote datasets ontdekken die met traditionele, hypothese-gedreven methode waarschijnlijk niet aan het licht waren gekomen. In de gezondheidszorg bijvoorbeeld kunnen onderzoekers zich met behulp van big data verdiepen in datasets van patiëntgegevens. Op deze manier kunnen verbanden worden gelegd tussen medische aandoeningen, behandelingen en uitkomsten en effectievere preventiemaatregelen worden ingevoerd. In transportsystemen kunnen aan de hand van big data op een vergelijkbare manier verbanden worden ontdekt tussen verkeerspatronen, weersomstandigheden en voertuigbewegingsdata om zo verkeersstromen te optimaliseren en openbaar vervoerroutes te verbeteren. Klimaatwetenschappers gebruiken big data om enorme datasets van satellieten, weerstations en omgevingssensoren te bestuderen. Door verschillende klimaatvariabelen zoals temperatuur, neerslag en broeikasgasconcentraties te correleren, krijgen onderzoekers een beter beeld van de trends in klimaatverandering en zijn ze in staat om extreme weersomstandigheden te voorspellen.
Er zijn echter ook ernstige zorgen over de wetenschappelijke validiteit van big data. Critici zijn van mening dat de nadruk op correlatie boven causaliteit het doel van bigdataonderzoek ondermijnt. Zonder een solide theoretische onderbouwing kunnen correlaties tot verkeerde interpretaties leiden en mogelijk onjuiste conclusies tot gevolg hebben. In de gezondheidszorg bijvoorbeeld zijn er soms grote verschillen tussen onderzoeken met individuele patiënten enerzijds en grote databanken anderzijds. Dit kan ertoe leiden dat de resultaten moeilijk te vertrouwen zijn, vooral wanneer je verschillende onderzoeken met elkaar probeert te vergelijken of wanneer je de resultaten probeert aan te passen op basis van factoren zoals leeftijd of gezondheidsproblemen. Er worden ook ethische bezwaren van big data aan de orde gesteld, vooral met betrekking tot privacy, consent en algoritmische vertekening. Onderzoek naar het coronavirus, bijvoorbeeld, roept vragen op over ethische kwesties met betrekking tot privacy, het gebruik van persoonlijke gegevens om de virusverspreiding te beperken en de noodzaak van beveiliging om data te beschermen tegen overmatig gebruik van technologie. Terwijl het verzamelen van gegevens alleen maar toeneemt, rijzen er vragen over het eigendom van en de controle over informatie en de rol ervan bij het vormgeven van de besluitvorming.
Tot dusver wordt big data algemeen erkend als een positieve bijdrage aan de verdere ontwikkeling van de wetenschap door de diepgaande onderzoeken en inzichten die het te bieden heeft. Het is echter van cruciaal belang om het met een kritische houding te benaderen en je bewust te zijn van de mogelijke gevaren en ethische bezwaren die het met zich meebrengt. Mijn onderzoek laat zien dat het beschikken over enorme hoeveelheden gegevens weliswaar nuttig kan zijn, maar niet automatisch zorgt voor nauwkeurige en betrouwbare resultaten. Onderzoekers moeten solide theoretische kaders opstellen om de wetenschappelijke validiteit en interpreteerbaarheid van resultaten afgeleid van big data te garanderen. Het gebruik van persoonlijke gegevens vraagt bovendien om nauwkeurig vastgelegde regelgeving om de voordelen van datagebruik in evenwicht te brengen met de bescherming van de privacy van het individu. Aangezien de omvang en complexiteit van data blijft toenemen, wordt het steeds belangrijker om op een verantwoordelijke en ethische wijze met deze uitdagingen om te gaan.
Dit artikel is gepubliceerd in samenwerking met MindMint.
Meer informatie
Laatst gewijzigd: | 03 april 2024 10:49 |
Meer nieuws
-
27 mei 2024
Symposium 'From Tensions to Opportunities'
Op 20 juni 2024 vindt een symposium plaats rondom de vraag 'Hoe kunnen we effectief en zinvol werken met internationalisering en diversiteit in opleidingen en studierichtingen?'. Het symposium bouwt voort op het proefschrift van Franka van den...
-
22 mei 2024
RUG reikt verschillende prijzen uit tijdens Ceremony of Merits
De RUG heeft verschillende prijzen uitgereikt aan excellente onderzoekers en studenten tijdens de Ceremony of Merits op 21 mei 2024. De Wierenga-Rengerink PhD prijs voor de beste RUG-dissertatie ging naar dr. Bram van Vulpen (Campus Fryslân). De...
-
29 januari 2024
Duurzaam gedrag? Informatie alleen is niet genoeg
In haar functie als sociaal - en omgevingspsycholoog onderzoekt Josefine Geiger wat mensen motiveert om milieuvriendelijk te handelen. Volgens haar kunnen we als individu veel invloed hebben als we erin slagen om de drempels die we soms ervaren, te...