Anonieme telecomdata in de strijd tegen Corona?

June 15, 2020

Het kabinet wil telecommunicatiegegevens gebruiken in de strijd tegen de verspreiding van het corona virus. Hiertoe heeft het ministerie van Economische Zaken en Klimaat heeft een voorstel voor een "Tijdelijke wet informatieverstrekking RIVM i.v.m. COVID-19" ingediend. Na kritiek van de Autoriteit Persoonsgegevens (AP) is het voorstel aangepast. Maar ik maak me nog steeds zorgen.

In de wet krijgen de aanbieders van mobiele telefonie in Nederland de opdracht om iedere dag informatie over de locatie van mobiele telefoons (en andere apparaten met een SIM kaart, zoals tablets, of auto's met of zonder navigatiesysteem, autotelefoon of eCall) door te geven aan het het Centraal Bureau voor de Statistiek (CBS).

Gepoogd wordt deze informatie te anonimiseren door mobiele telefonieaanbieders niet de exacte locatie van ieder mobiel apparaat door te laten geven, maar per uur per gemeente aan te geven hoeveel mobiele apparaten daar aanwezig zijn, uitgesplitst naar gemeente van herkomst (waarbij aantallen kleiner dan 15 niet worden doorgegeven). Zo kan het RIVM zien dat in Roosendaal tussen 9 en 10 uur op zondagochtend 14 juni er, zeg, 36 mobiele apparaten aanwezig waren die zich normaal gesproken in Bergen op Zoom bevinden. Een uur later blijken dat er nog maar 21 te zijn. Per 1 januari 2019 had Nederland 355 gemeenten. Het CBS combineert die gegevens en stuurt de resulterende 24 tabellen (voor ieder uur van de dag), van 355 rijen bij 355 kolommen, door aan het Rijksinstituut voor Volksgezondheid en Milieuhygiëne (RIVM).

In het oorspronkelijke wetsvoorstel waren de gegevens aanmerkelijk gedetailleerder: in plaats van gemeenten werd de exact mobiele telecommunicatiemast waarmee een telefoon verbonden was doorgegeven: daarvan zijn er ettelijke duizenden in Nederland. Ook was niet duidelijk vastgelegd dat deze gegevens enkel per uur verzameld mochten worden, en was de bewaartermijn niet beperkt. In het huidige wetsvoorstel mogen het CBS en het RIVM de gecombineerde data uiterlijk één jaar bewaren, en moeten de telecom aanbieders de data direct na levering aan het CBS verwijderen. Dit is allemaal aangepast op basis van het advies van de AP.

Dat is een verbetering, maar of dat genoeg is, is maar de vraag. Anonimiseren van data is moeilijk of zelfs onmogelijk, zie bijvoorbeeld ook het proefschrift van Matthijs Koot of deze opinie van de Article 29 Working Party. Nader onderzoek is zeker nodig, omdat het verleden vaak genoeg heeft aangetoond dat data die anoniem leek dat in de praktijk niet bleek te zijn. De dataset die het CBS en de RIVM ter beschikking krijgen is daarbij bijzonder omdat niet alleen het aantal maar ook de herkomst van de aanwezige mobiele apparaten wordt doorgegeven. Een gemeente als Schiermonnikoog had bijvoorbeeld maar 932 inwondes op 1 januari 2019. Gegevens over Schiermonnikoog hebben dus betrekking op één van die 932 inwoners. (In het hoogseizoen verblijven er natuurlijk veel meer mensen op het eiland.)

Instructief is een eerder onderzoek van het CBS naar de bruikbaarheid van locatiegegevens van mobiele telefoons voor het soort onderzoek dat CBS normaal gesproken doet. In dit specifieke onderzoek werd gebruik gemaakt van locatiedata die ter beschikking werd gesteld door Vodafone. Deze data werd nauwkeuriger gemaakt door speciaal voor dat doel ontwikkelde algoritmen van het Nederlandse bedrijf Mezuro. Dat bedrijf gebruikt al langer locatiegegevens van Vodafone (en ander aanbieders van mobiele telefonie?) om het succes van een toerisme campagne van de gemeente Utrecht te meten, of om te kijken waar de bezoekers van het Glow festival in Eindhoven vandaan komen. (Hier kom ik in de epiloog nog op terug.)

Het onderzoek van het CBS laat bijvoorbeeld zien dat het vaststellen van de locatie van een mobiele telefoon niet zo eenvoudig is als op het eerste gezicht lijkt: vandaar dat de algoritmes van Mezuro nodig zijn om enigszins accurate en ook stabiele locatiegegevens te verkrijgen. Onduidelijk of Mezuro ook in de bij deze noodwet geregelde gegevensstroom betrokken is (en zo niet, hoe nauwkeurig de gegevens dan wel zijn). Bepaalde gegevens, zoals bijvoorbeeld het aantal unieke actieve toestellen per woonplaats per tijdsinterval is voor een tijdsinterval van 1 uur vaak te laag om de drempelwaarde van 15 te halen. (Merk op dat dit precies het soort gegeven is waar de wet om vraagt.) Data uit dunbevolkte gebieden (zoals de provincies Groningen en Friesland) zijn onbetrouwbaar, omdat daar relatief weinig masten staan en dus de afstand tussen een mobiele telefoon en een mast erg groot kan zijn. Tenslotte springen ook in dergelijke anonieme datasets opvallende gebeurtenissen in het oog. Het rapport noemt als voorbeeld de opvallend grote hoeveelheid SMSjes die vanuit Workum werden verzonden op 7 december en (vooral) 15 december 2012.

Maar de vraag of deze data al dan niet te anonimiseren zijn leidt de aandacht af van de werkelijke vraag waar het om zou moeten gaan: wat is het doel van het verzamelen van deze gegevens door het RIVM, gaan deze gegevens daar ook werkelijk bij helpen, en wat zijn de nadelen? Met andere woorden, is de maatregel proportioneel? De memorie van toelichting bij de wet zegt daar het volgende over:

De totaalaantallen telefoons per gemeente per uur, gegroepeerd naar afgeleide herkomst, is belangrijke informatie voor het RIVM om de effectiviteit van de maatregelen te toetsen. Met de gegevens kan het RIVM bij een opleving van het aantal besmettingen sneller handelen, dat wil zeggen GGD'en waarschuwen en adviseren over handelingsperspectief voor landelijk en lokaal bestuur. Het "mengen" van groepen personen tussen gemeenten kan worden vastgesteld. Dit is relevant om dat dit een belangrijke voorspeller vormt voor hoe de epidemie zich kan verspreiden en lokale signalen aan de GGD'en gegeven kunnen worden. Uit de tellingen die eenmaal per 24 uur aan het CBS worden verstrekt, wordt door het CBS dagelijks een matrix gedestilleerd, die door het RIVM gebruikt kan worden om een schatting te maken in welke gemeenten besmettingen zouden plaatsvinden. Die schattingen kunnen door het RIVM worden gebruikt om lokale signalen af te geven aan de GGD'en om transmissie te stoppen. Tenslotte is de effectiviteit van maatregelen in verband met mobiliteit goed te zien (drukte is uit de data af te leiden). Hierdoor kunnen de maatregelen worden geoptimaliseerd en waar mogelijk versoepeld. Denk daarbij aan regionale of lokale acties. Het gaat er om een algemeen beeld te krijgen van de effecten van maatregelen.

Kennelijk is de gevraagde informatie belangrijk om lokaal maatregelen te nemen of juist te versoepelen. Anders gesteld: als de regering niet van plan is om maatregelen tegen de verspreiding van de pandemie op lokaal niveau te variëren dan is de door de 'noodwet' gevraagde informatie niet relevant. En tot nu toe zijn de afgekondigde maatregelen landelijk en sectoraal van aard, en is er steeds gezegd dat er naar gestreefd wordt om geen onderscheid naar regio's te maken. Gedetailleerde informatie per gemeente lijkt dan niet noodzakelijk om de effectiviteit van 'de maatregelen' te kunnen toetsen. Tenzij het kabinet van zins is een majeure beleidswijzing door te voeren. (Persoonlijk zou ik daar wel voor zijn overigens, gezien het feit dat hier in Groningen al weken geen nieuwe besmettingen zijn aangetoond of mensen met corona zijn opgenomen in het ziekenhuid. Het lijkt hier Nieuw-Zeeland wel ;-)

Een voorbeeld kan het nut van verkrijgen van deze informatie voor het RIVM verduidelijken. Als bekend is dat er veel meer mensen dan normaal op eenzelfde tijdstip uit Bergen op Zoom in Roosendaal zijn geweest op een zaterdagmiddag, en als de gegevens voor de rest van Nederland normaal zijn, dan kan dit voor het RIVM aanleiding zijn om het signaal te geven aan de GGD West-Brabant dat als er COVID19 patiënten in Roosendaal worden gevonden, er ook een verhoogd risico is geweest op transmissie van COVID19 voor inwoners in Bergen op Zoom. Dit maakt het mogelijk om regionaal maatwerk te leveren; als alleen mensen uit Bergen op Zoom en Roosendaal veel meer elkaars gemeenten bezoeken is dit een punt voor alleen die gemeenten en de GGD West- Brabant, niet voor Friesland, Groningen of Limburg. Ook bij het geleidelijk versoepelen van de maatregelen ter voorkoming van de verspreiding van het virus kan het noodzakelijk zijn inzicht te krijgen in toenemende drukte, om zo het effect van de versoepeling te monitoren en waar nodig met maatwerk bij te sturen.

Dit voorbeeld slaat de plank volkomen mis. Op de vraag of er een verhoogd risico op overdracht van het virus is (geweest) is de context van belang. Zijn mensen langdurig te dicht bij elkaar in de buurt geweest in een slecht geventileerde ruimte, zonder de nodige voorzorgsmaatregelen te nemen? Als je alleen maar weet dat mensen uit Bergen op Zoom in Roosendaal zijn geweest weet je nog steeds niet waar precies ze in Roosendaal zijn geweest, en of ze toen überhaupt dicht in de buurt zijn geweest van die mensen in Roosendaal waarvan later is vastgesteld dat ze besmet zijn geweest. (En die, overigens, niet wetende dat ze besmet waren ook best net toevallig een weekendje naar de Friese meren gegaan kunnen zijn.)

Als dergelijke grofmazige informatie wel significant van belang is voor de modellenmakers van het RIVM (en laat ze dat vooral goed uitleggen als dat inderdaad zo is), dan heeft dat meteen consequenties voor de vooronderstelde anonimiteit van de verzamelde gegevens: kennelijk zit er dan meer informatie 'verstopt' in de gegevens dan we in eerste instantie kunnen voorzien.

Verplaatsingsgegevens geven het meest direct inzicht in hoeveel bewegingen er plaatsvinden tussen gemeenten. Deze data zeggen niets over de verspreiding van het virus zelf, maar wel over het potentiële risico van virusoverdracht tussen personen. Daarmee kunnen ze een eerste signaal geven aan het RIVM dat er sprake kan zijn van een risico op het opleven van het virus.

Dat deze gegevens iets zeggen over 'potentiële risico van virusoverdracht tussen personen' is tot zover niet onderbouwd. Sterker nog, gezien de granulariteit van de gegevens en het totaal ontbreken van context, lijkt me dat erg onwaarschijnlijk. Intuïtief snap ik dat verplaatsingsgegevens iets kunnen zeggen over de kans van verspreiding van het virus: hoe meer verplaatsingen, hoe groter de kans op verspreiding. Maar hoeveel meer inzicht geven deze cijfers ten opzichte van een veel globaler inzicht van de hoeveelheid verplaatsingen per dag? Bij de beantwoording van de vraag of een maatregel proportioneel is, zijn juist dat soort zaken van belang.

Waarom maak ik juist zo'n punt van de nut en noodzaak van deze maatregelen? Om één simpele reden: omdat deze 'noodwet' surveillance normaliseert. Nu nog voor de bestrijding van corona, en op basis van tamelijk grofmazige gegevens. Later? wie weet. Maar als we nu niet heel erg streng zijn, is er een precedent geschapen waardoor het later nog lastiger zal zijn om ons te verzetten tegen andere, gerelateerde, surveillance maatregelen. "We deden het toen ook, weet je nog? En dat was eigenlijk hetzelfde. Waarom doe je dan nu zo moeilijk?".

Een noodwet is precies dat: een wet uit nood geboren. Die je uitvaardigt als je echt niet anders kan; als de noodzaak daartoe als een paal boven water staat.

Daarnaast kan ik mij niet aan de indruk onttrekken dat dit kabinet, in haar streven daadkrachtig over te komen, snel naar een digitaal placebo grijpt om haar falen op andere domeinen te maskeren. Bezuinigingen op de GGD hebben hen uitgeput, terwijl ze o zo noodzakelijk zijn voor het corona-bron- en contactonderzoek. Eerst was er te weinig testcapaciteit en vervolgens is de beschikbare testcapaciteit onvoldoende benut. De centrale inkoop van mondkapje en andere medicinale benodigdheden was bij tijd en wijle chaotisch. En een nieuw softwaresysteem 2Twnty4 (omgeven door een zweem van belangenverstrengeling) voor de registratie van IC capaciteit werd opgedrongen terwijl het niet werkte.

Kabinet: trap niet in de valkuil van technological solutionism, maar investeer in het betere handwerk waarvan we weten dat het werkt.

P.S.: In dit artikel focus ik even op het gebruik van locatiegegevens voor het bestrijden van de huidige corona pandemie. Ik moet eerlijk zeggen dat, terwijl ik met dit stuk bezig was, het mij verbaasd heeft te ontdekken dat een bedrijf als Mezuro dit soort gegevens als jaren verzameld, verwerkt en doorverkoopt zonder dat er een haan naar kraait. Dit soort praktijken ondermijnt het vertrouwen in het gebruik van digitale technologie, zoals mobiele telefoons, juist terwijl we in de huidige situatie waarin we verkeren nog sterker afhankelijk zijn geworden van de technologie om überhaupt nog te kunnen functioneren. Maar dat is misschien een onderwerp voor een volgend artikel.

In case you spot any errors on this page, please notify me!
Or, leave a comment.
Nevernown
, 2020-06-15 10:39:44
(reply)

het verbaasd me niks dat er bedrijven zijn zoals Mezuro. Van Have I Been Pwned weten we al langer dat er oo kgenoeg data-aggregator bedrijven zijn, die pas naar de oppervlakte komen als ze een breach hebben.

Wettelijk gezien tikken ze alle boxjes (of komen ze weg met bijna conform zijn) maar ze gaan door de mazen heen tegen de geest van de wet in.

Ik had zelf ook al het idee dat normaliseren (en mogelijk stigmatiseren?) van monitoring het doel was. Als genoeg mensen ook hier het “ik heb niets te verbergen” en “zo is het veiliger” in hun hoofd krijgen, dan is de waarschuwing van 1984 krachteloos geworden omdat de context anders lijkt.

Peter
, 2020-06-15 17:30:58
(reply)

De Autoriteit Persoonsgegevens schrijft: “De AP adviseert duidelijker uiteen te zetten wat het doel van de informatie is en in relatie tot dat doel de noodzaak voor de maatregel nader te onderbouwen in het licht van de zware eisen die het Europees recht daar aan in dit geval stelt.”

Waarom niet gewoon gezegd dat deze maatregel gewoon niet kan, als er geen duidelijk doel is geformuleerd? Waarom zo diplomatiek? Ik hoop dat de Autoriteit Persoonsgegevens wat meer helder is in wat niet kan en wat wel kan.

Bedankt voor je artikel, en ook goed dat je de context en situatie meegeeft waarin het kabinet zich bevindt. Het kunnen inderdaad juist de verkeerde motieven zijn, die het kabinet bewegen tot dit soort maatregelen.