Skip to ContentSkip to Navigation
Onderdeel van Rijksuniversiteit Groningen
Science LinX Science LinX nieuws

Welke apps overtreden de regels van Google Play?

13 oktober 2022

Een aanzienlijk deel van de nieuwe apps in Google Play verdwijnt na enige tijd weer, in sommige gevallen omdat ze de richtlijnen overtreden. Verwijdering is vervelend voor gebruikers die daardoor gegevens kunnen kwijtraken. Computerwetenschappers van de RUG hebben met behulp van machine learning twee modellen ontwikkeld die voorspellen hoe groot de kans is dat een app verwijderd wordt, zowel voor als na plaatsing in Google Play. De modellen zijn daardoor nuttig voor ontwikkelaars en gebruikers. De details van de modellen zijn beschreven in een artikel dat op 29 september is gepubliceerd in het tijdschrift Soft Computing.

Google Play heeft richtlijnen opgesteld voor gebruikers, die ze moeten volgen. Maar wanneer een app in deze winkel wordt geplaatst vindt pas na enige tijd controle plaats. Wanneer dan blijkt dat een app de regels overtreedt wordt deze verwijderd. Ontwikkelaars van wie bij herhaling apps zijn verwijderd kunnen uit Google Play worden geweerd.

Fadi Mohsen
Fadi Mohsen

Consequenties

‘Mijn belangstelling gaat uit naar digitale privacy en veiligheid’, vertelt Fadi Mohsen, assistent hoogleraar in de Information Systems groep van het Bernoulli Instituut voor Wiskunde, Computerwetenschap en Kunstmatige Intelligentie van de RUG. Gezien de consequenties van het verwijderen van apps voor ontwikkelaars en gebruikers wilde hij een systeem bouwen dat zou kunnen voorspellen welke nieuwe apps in Google Play blijven staan, of juist niet.

‘Er zijn al eerder pogingen gedaan zoiets te doen, maar die richtten zich vooral op bepaalde soorte apps, die om heel specifieke redenen zijn verwijderd. Bijvoorbeeld omdat ze malware bevatten’, legt Mohsen uit. ‘Wij wilden een algemeen model maken dat de kans dat een willekeurige app wordt verwijderd zou voorspellen, los van de reden daarvoor.’ Bovendien waren alle eerdere pogingen gericht op gebruikers, terwijl Mohsen ook goedwillende ontwikkelaars wil helpen die per ongeluk de regels overtreden.

Broncode

De eerste stap was om met behulp van een crawler een grote dataset te maken van apps die al dan niet zijn verwijderd. ‘We verzamelden metadata, inclusief de beschrijving die ontwikkelaars maakten voor Google Play, van ongeveer twee miljoen apps. Vervolgens hebben we de broncode van ongeveer de helft daarvan gedownload.’ Daarna hebben Mohsen en zijn collega’s zes maanden lang in de gaten gehouden welke er verwijderd werden. ‘In onze selectie ging dat om 56 procent.’ Het kostte 26 maanden om alle gegevens te verzamelen die nodig waren om de modellen te maken via machine learning.

.
Foto ScienceLinX, RUG

Risico

De onderzoekers gebruikten hiervoor een algoritme met de naam Extreme Gradient Boosting. ‘Dit is het beste algoritme voor dit soort problemen’, aldus Mohsen. Het algoritme is gebruikt om twee voorspellende modellen te genereren: voor ontwikkelaars en gebruikers. Het model voor gebruikers is gebaseerd op 47 kenmerken en in een test dataset kon het de verwijdering van een willekeurige app voorspellen met 79,2 procent zekerheid. Omdat sommige kenmerken (zoals het aantal sterren in Google Play) niet beschikbaar zijn voor plaatsing was het model voor ontwikkelaars gebaseerd op 37 kenmerken zodat de nauwkeurigheid van de voorspelling iets lager was: 76,9 procent.

‘We kunnen nu met redelijke nauwkeurigheid de toekomst van een app voorspellen ‘, zegt Mohsen. De volgende stap is om software te schrijven waarmee iedereen het risico van een app die ze willen downloaden kunnen inschatten. ‘Dat is nuttig voor ontwikkelaars omdat ze het risico lopen op een schorsing door Google Play wanneer ze vaker de richtlijnen overtreden’, aldus Mohsen. ‘En gebruikers produceren allerlei gegevens met de apps, die ze kwijt kunnen raken als deze verdwijnen.’

Dataset

Zijn collega’s kunnen ook profiteren van dit onderzoek: ‘De verrijkte dataset die we voor ons onderzoek hebben geproduceerd is vrij beschikbaar gesteld via het Nederlandse Dataverse.nl.’ Iedereen kan daarmee proberen om de score van Mohsen en zijn team te verbeteren. ‘We zien uit naar de competitie, en zijn benieuwd of iemand ons kan verslaan. Want dat zou het nut voor gebruikers en ontwikkelaars nog verder vergroten.’

Referentie: Fadi Mohsen, Dimka Karastoyanova and GeorgeAzzopardi: Early detection of violating Mobile Apps: A data-driven predictive model approach. Systems and Soft Computing, 29 September 2022.

Zie ook: Apps gerangschikt op respect voor privacy

Laatst gewijzigd:28 november 2024 15:33
View this page in: English

Meer nieuws