Niet iedereen is enthousiast over ‘big data’. Voor sommigen betekenen big data vooral de pretentie van objectiveit op basis van gemanipuleerde gegevens. First Monday wijdt een speciaal nummer aan big data.

 

Het Internet-tijdschrift First Monday publiceert een speciaal nummer over de mogelijkheden, de gevaren en de beperkingen van ‘big data’. Big data worden veelal met gejuich ontvangen, maar de auteurs in deze collectie zijn tamelijk sceptisch. Het woord ‘data’ suggereert objectiviteit, maar onderzoeksdata worden gemaakt, nooit zomaar aangetroffen. Meerdere artikelen halen de definitie van boyd en Crawford aan, waarin wordt gewezen op een mythologiserend aspect van big data: ‘the widespread belief that large data sets offer a higher form of intelligence and knowledge that can generate insights that were previously impossible, with the aura of truth, objectivity, and accuracy’. Uit dergelijke woorden spreekt eerder wantrouwen dan enthousiasme, en een paar van de, soms erg theoretische, artikelen lijken voornamelijk door dat wantrouwen gemotiveerd.

Uit de inleiding op het speciale nummer: ‘The contributors take big data and other characteristic features of the digital media environment as an opportunity to revisit classic issues concerning data — big and small, fast and slow, experimental and naturalistic, quantitative and qualitative, found and made.’

Dat er reden genoeg is om zogenaamd empirische gegevens met gezonde skepsis te benaderen blijkt onder andere in een mooi artikel van Nancy Baym (Data not seen: The uses and shortcomings of social media metrics) over de waarde van bijvoorbeeld getallen over aantallen volgers op Twitter. Ze richt zich specifiek op de populariteit van musici, en laat zien hoe het meten van publieksaandacht al in de tijd van de single-verkoop twijfelachtige cijfers opleverde. En wat dat betreft is er niets veranderd: de meeste getallen die aandacht in sociale media meten worden beïnvloed door fake-gebruikers, de algoritmes van het platform, het actief zoeken en belonen van ‘likes’, en meer van dergelijke factoren. En de voor een musicus belangrijkste vormen van waardering (bv. een mail van iemand die de muziek heeft gekozen voor een begrafenis) blijken sowieso niet uit cijfers. Baym: ‘Now, more than ever, we need qualitative sensibilities and methods to help us see what numbers cannot’.

Het artikel van Halavais (Home made big data‽ Challenges and opportunities for participatory social research) geeft een op zich interessante beschrijving van discussies op het Reddit platform, de manier waarop mensen daar argumenteren, en het soort argumenten dat wordt aangedragen. Het is de vraag in hoeverre deze beschrijving relevant is voor de grote issues die het essay aansnijdt: de mogelijkheid van samenwerking tussen ‘citizen scientists’, zoals Halavais de participanten in de discussie hoopvol beschrijft, en onderzoekers werkzaam aan de academie. De relatie met big data is twijfelachtig.

Farida Vis (A critical reflection on Big Data: Considering APIs, researchers and tools as data makers) schrijft over de hulpmiddelen waarmee data geproduceerd worden. Maar misschien is haar belangrijkste bijdrage dat ze wijst op het toenemende belang van afbeeldingen. Bij big data denkt iedereen aan tekst, maar inmiddels heeft een groot deel van de online communicatie plaats door middel van afbeeldingen en video, en we hebben geen tools ter beschikking  die afbeeldingen kunnen ‘minen’ zoals we dat doen met tekst.

Het laatste artikel dat ik wil noemen is dat van Axel Bruns (Faster than the speed of print: Reconciling ‘big data’ social media analysis and academic scholarship), die de consequenties van big data voor wetenschappelijke publicatie bekijkt. Is de traditionele manier van publiceren wel geschikt voor onderzoek gebaseerd op big data? Is er ruimte om de omgang met de data voldoende te documenteren? Werkt het peer-review systeem niet veel te traag? Is er niet veel meer interactieve visualisatie nodig in publicaties die op big data zijn gebaseerd? En heeft trouwens de academisch onderzoeker, die door een smalle beurs vaak is aangewezen op gegevens die vrij toegankelijk zijn, eigenlijk wel de beschikking over  alle relevante gegevens? Dat laatste punt is in deze collectie van artikelen wel een heel centraal onderwerp. Steeds meer is de onderzoeker afhankelijk van publieke interfaces die de grote dataverzamelaars (Facebook, Twitter, Google) aanbieden, en die interfaces worden gestuurd door commerciële belangen.

 

Peter Boot

Geplaatst in e-tijdschrift, Recensies, Signalementen, weblog digital humanities

Reageer