|
Informatie Professional
14 (2010) nr. 9 (september) blz. 11 |
Giga veel gegevensterug |
|
|||||
|
Begin juli heb ik de leeftijd van 2 gigaseconde bereikt. Jammer genoeg had ik het toen te druk daar een feestje van te maken. Nu is dit ook geen gebruikelijke mijlpaal, waarvan vrienden je verwijten het niet gevierd te hebben. Maar het is wel een aardig moment om gevoel te krijgen hoeveel 2 miljard eigenlijk is. Voor een PC is 2 gigabyte intern geheugen erg krap bemeten. De mijlpaal van 2 miljard doorzoekbare webpagina's had Google acht jaar geleden al bereikt. Maar na 2 miljard seconde moet de mens al bijna met pensioen. Begin juli werd in het kader van Linked Data initiatieven gemeld dat in de Verenigde Staten intussen meer dan 6 miljard computerleesbare overheidsgegevens online staan, in de vorm van zogenaamde RDF-tripels. Is dat veel? Dat lijkt inderdaad giga veel. Als je al die gegevens zou willen bekijken, daar een seconde per stuk voor uittrekt en dag en nacht zou doorgaan, dan heb je immers bijna drie mensenlevens nodig voor je ze allemaal gezien hebt. Bij dit soort berichten (en aantallen) komt de vraag op hoe het eigenlijk met de Nederlandse overheid zit. Hoeveel gegevens heeft die online, liefst ook als Linked Data, als RDF-tripels? Daar lees je eigenlijk nauwelijks iets over. In elk geval bestaat de indruk dat we nog aanzienlijk achterlopen. Mederedacteur Jos van Dijk klaagde onlangs op IP's redactieblog al over de gebrekkige openbaarheid van Nederlandse overheidsinformatie. |
Daarbij ging het Jos overigens ook om informatie die je niet zo makkelijk als ŽdataŽ in RDF-tripels kunt weergeven. We mogen dus wel een voorbeeld nemen aan de VS. En aan Britse initiatieven, want ook daar is men erg actief op dit terrein. In de VS lijkt het overigens niet eens zo zeer de overheid zelf te zijn die data als RDF beschikbaar stelt. Een heleboel is het resultaat van door de overheid gesteunde universitaire projecten, onder meer bij RPI, Renselaer Polytechnic Institute, de oudste technische universiteit van de VS in Troy. Bij mij roept die naam onverwachte herinneringen op, want in 1978 (1 gigaseconde geleden!) kwam ik regelmatig op de fiets door dat oude industriestadje ten noorden van New York. Toch zijn aantallen niet alleenzaligmakend. Immers ook allerlei geografische en meteorologische gegevens behoren tot overheidsverzamelingen. En dan gaat het hard. Je hoeft maar gegevens van 4 meteorologische grootheden van 1000 plaatsen (voor de VS niet uitzonderlijk veel), op 24 tijdstippen per dag, gedurende 60 jaar verzameld te hebben en je zit al dik boven de 2 miljard gegevens. Veel hoeft dus niet altijd lekker te zijn. Het gaat ook om de aard van de gegevens die overheden publiekelijk beschikbaar maken. Maar dat is zeker geen argument om giga weinig te doen. |
||||
|
|
|||
| © |
Informatie Professional (Otto Cramwinckel Uitgever, Amsterdam)
en Eric Sieverts
Voor een abonnement op Informatie Professional:
|
||