Big data is een hype. Iedere stad wil slim zijn. Iedere overheid wil de volgende terroristische aanslag aan zien komen. Ieder bedrijf wil de berg aan data waar ze op zit te gelde maken. Hoewel in specifieke gevallen het met beleid verzamelen en analyseren van data extreem nuttig en waardevol kan zijn, kleven er grote risico’s aan het zonder nadenken toepassen van big data.

Big data staat voor het verzamelen, combineren, interpreteren en analyseren van grote hoeveelheden data (die vaak, maar niet altijd, persoonlijk zijn) uit verschillende bronnen, om zinvolle patronen te ontdekken en op basis daarvan beslissingen te nemen. De toepassing van slimme algoritmen is daarbij essentieel. Zonder kunstmatige intelligentie, zonder slimme zelflerende algoritmen, zouden we verzuipen in big data en zouden die data waardeloos zijn. Deze algoritmen leren beslissingen te nemen of patronen te herkennen door een grote hoeveelheid bestaande beslissingen of patronen te analyseren. Zo kan een slim algoritme leren kattenfoto’s te herkennen door het te ‘trainen’ met een grote verscheidenheid aan kattenfoto’s als voorbeeld.

Maar wat zijn de risico’s dan? Ik noem er vier:

Correlatie is niet hetzelfde als causaliteit. Patronen die je ontdekt in de data, het feit dat een bepaalde gebeurtenis vaak optreedt als een andere gebeurtenis ook optreedt, zijn nog geen reden om aan te nemen dat de ene gebeurtenis de oorzaak is en de andere gebeurtenis het gevolg. Dergelijke patronen laten enkel een correlatie zien. Het is geen bewijs van een oorzakelijk verband. Het klassieke voorbeeld is dat in steden met veel kerken de criminaliteit hoog is. Geloof is niet de oorzaak van criminaliteit — iets wat we de laatste tijd lijken te vergeten. Grote steden hebben veel kerken en veel inwoners, waarvan een vast percentage crimineel is. Het slopen van kerken zal de criminaliteit niet doen afnemen.

Data zijn altijd vertekend, vervormd. Hoe goed je ook je best doet, de data die je verzamelt zijn nooit helemaal neutraal. De vraag die je wilt beantwoorden, en de belangen die spelen, sturen dit proces. Een farmaceutisch bedrijf dat de werking van een medicijn bevestigd wil zien, verzamelt andere data dan een kritische groep patiënten. Als je wilt kun je manipuleren of liegen met big data. De keuze van je bronnen is ook van invloed, en ook de manier waarop je binnen de bronnen je data verzamelt. Als je data met een app verzamelt, kan het ontwerp van je app de antwoorden sturen, en ook bepaalde groepen mensen uitsluiten. De data die je verzamelt worden dus vertekend door wat je verzamelt, van wie en hoe.

De integriteit en authenticiteit van de data is ook van belang. Een slim algoritme dat is getraind met slechte data zal domme antwoorden geven: garbage in, garbage out. Pas in deze context dus op met gegevens uit secundaire bronnen die al door een of meerdere partijen zijn verwerkt, en op een bepaalde manier zijn geïnterpreteerd. De werkelijke betekenis kan in de vertaling verloren zijn gegaan. Soms zijn als gevolg hiervan de algoritmen discriminerend of ronduit racistisch.

Redeneer vanuit het probleem, niet vanuit de data. Big data-toepassingen draaien vaak de volgorde om. In plaats van te beginnen met het bestuderen van een probleem, en zich af te vragen of het een belangrijk probleem is dat opgelost moet worden, redeneert men vaak vanuit de data: welke gegevens zijn makkelijk te verkrijgen? Welke problemen kunnen we daar mee oplossen? Als gevolg daarvan worden belangrijke problemen — waar geen data over zijn — niet opgelost en wordt soms onnodige energie verspild aan non-problems: sommigen aspecten van het leven zijn nu eenmaal inefficiënt. Helemaal problematisch wordt het als voor het oplossen van een probleem niet de moeite genomen wordt om de echt relevante data te verzamelen, maar simpelweg de data die voor het grijpen liggen.

Pas op voor big data intermediairs. Vanwege de gigantische omvang vergt big data veel opslag- en verwerkingscapaciteit. Slechts een klein aantal partijen beschikt daar over. Dit maakt kleinere bedrijven en overheden sterk afhankelijk van dergelijke big data-intermediairs. Je moet er maar op vertrouwen dat ze met het juiste antwoord of het juiste algoritme op de proppen komen — dat is zelden controleerbaar.

Deze column verscheen op 4 februari 2017 in het Morgen katern van het FD

In case you spot any errors on this page, please notify me!
Or, leave a comment.
Henk van Cann
, 2017-02-06 09:17:56
(reply)

Jaap-Henk, helder verhaal, zou je een voorbeeld kunnen geven dat je bent tegen gekomen van ‘Redeneer vanuit het probleem, niet vanuit de data.’ in een situatie waar men een non-problem aan het oplossen was? Handig om te weten.