Metadata: veelzeggender dan je denkt.

January 9, 2014
1

Als je met iemand belt, mailt, of het web surft, wissel je niet alleen maar de woorden uit die je zegt, schrijft of leest (de inhoud van de communicatie), maar ook gegevens over die communicatie. Denk aan het telefoonnummer dat je belt, het emailadres dat je mailt, of de website die je bezoekt. Die gegevens noemt men communicatiegegevens, in het engels metadata. In veel wetten wordt een onderscheid gemaakt tussen metadata en de inhoud van de communicatie zelf. De wet op de bewaarplicht telecommunicatiegegevens verplicht telefoonmaatschappijen en Internet Service Providers deze metadata zes tot twaalf maanden te bewaren, maar niet de inhoud van de communicatie. De wetgever maakt dat onderscheid uit de overtuiging dat metadata veel minder persoonsgevoelig zijn dan de inhoud van de gesprekken zelf. De vraag is of dat terecht is

De Correspondent legde onlangs al kort uit dat het belang van metadata niet onderschat moet worden. Terecht zegt Bits of Freedom dat metadata eigenlijk een verhullend woord is voor gedragsgegevens. En die zijn juist uitermate gevoelig en persoonlijk. En wel om een aantal redenen.

Ten eerste zijn metadata veel makkelijker te analyseren en te doorzoeken dan de communicatie. Een telefoongesprek moet eerst van spraak in tekst omgezet worden, vervolgens vertaald worden, en dan nog semantisch geanalyseerd worden. Voor email of chats kan alleen de eerste stap overgeslagen worden. Metadata zijn kort, to the point en volgens een vast gestructureerd formaat opgeslagen. Bij metadata is meteen duidelijk wat elk stukje informatie precies betekent. Patroonherkenning, en het correleren met andere gebeurtenissen is veel makkelijker met metadata.

Ten tweede heeft metadata een veel grotere informatiedichtheid. Gesprekken bevatten immers veel zinloos gebabbel, stopwoordjes, sommige mensen spreken langzaam, de plaatjes in reclame op websites die je bezoekt zijn niet relevant, en grote email attachments zijn misschien ook niet belangrijk. Metadata neemt ook veel minder opslagruimte in dan de communicatie zelf. Je kunt er dus veel meer van bewaren. Gekoppeld aan het vorige punt betekent dit dat als je metadata bewaart, je veel meer bruikbare informatie per gigabyte schijfruimte kunt opslaan, dan als je de hele communicatie opslaat.

Ten derde is metadata een veel directere bron van informatie: metadata, gedragsgegevens dus, zeggen iets over wat je doet. En niet over wat je zegt. Ze vertellen wie je mailt, waarvandaan je belt, hoe laat, en hoe vaak. De websites die je bezoekt vertellen iets over je werkelijke interesses, vooral als men kan zien hoe lang je op een bepaalde pagina blijft hangen, of hoe vaak je terugkomt bij een website.

Dit verschil is belangrijk, omdat we ons met ons gedrag onbewust en direct uitdrukken. Veel directer en impulsiever dan we gewoonlijk in woorden doen. Woorden worden gewogen, maar veel handelingen verrichten we automatisch, zonder dat we ons daar van bewust zijn. Gedrag zegt, verraad, zo iets over onze diepste verlangens, drijfveren en emoties. We zeggen niet voor niets "Geen woorden maar daden".

Merk overigens op dat sommige websites nog veel meer metadata over je verzamelen dan je zou verwachten. Zo hield Facebook voor een onderzoek over zelfcensuur van gebruikers bij of ze een ingetypt bericht uiteindelijk al dan niet of Facebook plaatsten. Massive Open Online Courses verzamelen ook op grote schaal vergelijkbare metadata (over studiegedrag). Ook dit soort ongemerkt verzamelde gegevens zijn metadata.

Merk het verschil op van dit soort impliciet gedrag dat op deze manier verzameld wordt, met expliciet gedrag en expliciete communicatie. Een vergelijkbaar verschil is er ook tussen sommige vormen van 'traditionele' metadata: de websites die je bezoekt en de nummers die je belt heb je expliciet gekozen. Maar de plaats waarvandaan je belt vaak niet. Naarmate er meer sensoren komen die ons gedrag in real-time kunnen meten zal er veel meer van dit soort impliciete metadata verzameld (kunnen) worden. Mobiele telefoons bevatten steeds meer sensoren, die nu al gebruikt worden voor allerlei toepassingen, variërend van Quantified Self tot het meten van allerlei vormen van milieu vervuiling en geluidsoverlast.

Als laatste punt dient opgemerkt te worden dat metadata niet een strikte deelverzameling van de informatie bevatten die je uit de onderliggende communicatie zou kunnen afleiden. Het zal bijvoorbeeld lang niet altijd duidelijk zijn uit een gesprek waar iemand zich bevindt, of met wie hij daar is. Metadata uit sensoren kan een schat van informatie geven over de gemoedsgesteldheid van de persoon in kwestie. Denk maar aan een leugendetector!

Metadata zijn gedragsgegevens. En als zodanig dus lang niet zo onschuldig als ze een eerste instantie lijken. Of, zoals Bruce Schneier en Eben Moglen zeggen: "Metadata equals surveillance".

In case you spot any errors on this page, please notify me!
Or, leave a comment.
De week in 411 woorden « Bits of Freedom
, 2014-01-11 11:10:30
(reply)

[…] 
Een goed stuk van security-onderzoeker Jaap-Henk Hoepman over metadata. […]