Tekst Pieter Verbeek
Foto Michel Mees

Sinds eind september heeft het Centraal Bureau Statistiek (CBS) haar beschermde data ontsloten via het platform Data.overheid.nl, waar ze al sinds 2015 haar open data deelt. Het is de eerste stap naar een Beschermde Data Catalogus, een centrale vindplaats voor de beschermde data van alle overheidsorganisaties. Die data zijn immers hard nodig voor zowel de Data Governance Act (DGA) als de Interbestuurlijke Datastrategie (IBDS). 

Beschermde data zijn de data die de overheidsorganisaties zelf gebruiken en afkomstig zijn uit de eigen operationele processen. Het gaat om zogeheten microdata, data op persoonsniveau. Maar dan op meta-niveau dus een beschrijving van de data.

Een integraal overzicht van zulke overheidsdatabronnen ontbreekt nog, maar de behoefte eraan is groot, stelt Erwin van Mierlo, beleidsadviseur en Data Officer bij CBS. “Ze zijn essentieel om datagedreven te werken. Een centrale datacatalogus waarin overheidsorganisaties hun data vindbaar maken, helpt mee om meer transparantie bij de overheid te krijgen. Welke data hebben wij als overheid allemaal in huis? Waar is die data te vinden?"

"De uitwisseling van beschermde data komt ten goede aan kennisdeling en dus een meer efficiënte overheid. Onze hoop en wens is dan ook dat andere overheidspartijen ook hun beschermde data in die catalogus gaan plaatsen. Met de metadata die we nu beschikbaar stellen kan iedereen zien welke data er beschikbaar is, wat er in die data zit en waar die data is opgeslagen.”  

Strikte voorwaarden

Die microdata kun je overigens alleen onder strikte voorwaarden inzien, legt John Kartopawiro, manager Data Service Centrum (DSC) bij het CBS, uit. “Het DSC is het centraal knooppunt, waarin we al onze belangrijke statistische microdata borgen, maar ook ontsluiten voor onderzoekers, zowel intern als extern. Wie gebruik wil maken van de beschermde data kan een aanvraag indienen bij Microdata services van het CBS. Wij aggregeren die data tot data over groepspatronen en dus statistieken. Zo zijn ze niet herleidbaar tot een persoon of een bedrijf.” 

Europese wetgeving

Met de Data Governance Act (DGA) en andere Europese wetgeving die eraan komt, wordt ook van de Nederlandse overheid steeds meer transparantie vereist. “Die vereist ook meer hergebruik van zowel overheidsdata als van particuliere data”, legt Van Mierlo uit. “Zodat we daar met elkaar beter mee kunnen samenwerken en het efficiënter en goedkoper wordt. Daar heb je dus overzicht voor nodig. Op data.overheid.nl kun je zien wat open en wat beschermde data zijn. Het blijft één portal, één ingang. Wil je gebruikmaken van de beschermde data van het CBS? Dan kun je doorklikken naar de site van onze Microdata services. Daar staat precies uitgelegd onder welke strikte voorwaarden een instelling zelf statistisch onderzoek kan doen in de beveiligde microdata-omgeving van het CBS, de Remote-Access-omgeving (RA-omgeving).” 

"De grote sprong voorwaarts komt pas op het moment dat we van alle overheidsinstellingen die beschermde en open data bij elkaar hebben staan op data.overheid.nl.”

Gepseudonimiseerd

En dat wordt ook getoetst, voegt Kartopawiro toe. “We checken voor welke doeleinden je die data wil gaan gebruiken. Ook medewerkers van het CBS krijgen alleen maar de data waar ze strikt noodzakelijk toegang toe hebben. De beveiliging van die data is echt het allerbelangrijkste voor het CBS. En dat moet ook wel, want het gaat om hele privacy gevoelige data, zoals informatie over bijstandsuitkeringen, lonen, maar ook waar je woont, waar je werkt, welke diploma’s je hebt, wat je burgerlijke status is of hoeveel kinderen je hebt. Deze gegevens zijn heel belangrijk om statistieken mee te maken. Al die data zijn gepseudonimiseerd. Alle identificerende variabelen zijn eruit gehaald en vervangen door een betekenisloze koppelsleutel, waardoor je de bestanden nog wel elkaar kunt koppelen. Zo zijn gegevens uit bestanden niet direct meer herleidbaar tot een persoon.” 

Wat is de toegevoegde waarde van de beschermde data? Van Mierlo: “Met de metadata kunnen overheden zien welke data er bij het CBS beschikbaar zijn. Via een authenticatie bij het CBS kunnen ze onderzoek doen met deze data en ze dus koppelen aan hun eigen data via onze Microdata services. Als bijvoorbeeld een gemeente een eigen wetenschappelijke afdeling heeft, hoeft deze dus die data niet zelf nog eens een keer ergens op te gaan halen. Op het moment dat alle overheidspartijen dit inzichtelijk maken op één plek hoeven we met elkaar ook niet dubbel die data op te halen. We kunnen de data bij de bron laten en makkelijker hergebruiken.” 

Sociaalwetenschappelijke data  

Ook nieuw op Data.overheid.nl is de koppeling met een ander portal, namelijk ODISSEI (Open Data Infrastructure for Social Science and Economic Innovations), een samenwerkingsverband van zo'n veertig onderzoeksinstituten en planbureaus op het gebied van sociale wetenschappen, waar het CBS deel van uitmaakt.

Doel van deze samenwerking is om een infrastructuur te maken voor data-uitwisseling ter bevordering van sociaalwetenschappelijk onderzoek. “Als je onderzoek wilt gaan verrichten met data, moeten die data ook vindbaar zijn”, licht Kartopawiro toe. “Samen met ODISSEI kwamen wij daarom op het idee om een portal op te zetten met metadata, zodat onderzoekers met de data van het CBS en de andere onderzoeksinstituten kunnen werken. Dan kun je zoeken op basis van metadata en een verzoek indienen bij die organisaties om met de data te werken. We hebben het nu zo geregeld dat de CBS metadata wordt aangeleverd bij ODISSEI. Dan haalt Logius, die data.overheid.nl faciliteert, ze daar weer op. Zo blijft alles steeds in sync en hebben we altijd op hetzelfde momentum dezelfde metadata beschikbaar.” 

John Kartopawiro (l) en Erwin van Mierlo

Hergebruik stimuleren

De nieuwe beschermde datacatalogus helpt de Interbestuurlijke Datastrategie weer een stap verder, stelt Kartopawiro. “Het zal in ieder geval het hergebruik van data binnen de overheid stimuleren. Ook zal het data delen moeten vergemakkelijken, versnellen en veiliger maken.”

Daarnaast is inzicht in welke data er zijn heel belangrijk voor de IBDS, voegt Van Mierlo toe. “Op het moment dat we het Federatief Datastelsel willen gaan uitbreiden met alle andere overheidsregistraties die er zijn, wordt het steeds interessanter. Dan komen de vragen niet meer bij een willekeurige overheidspartij binnen, maar gaan mensen meteen kijken waar de gevraagde data staan. Dan kun je veel gerichter vragen stellen. In plaats van heel algemeen een Woo-verzoek te sturen naar een overheidsorganisatie, ga je gerichter naar de desbetreffende organisatie toe, die daadwerkelijk de data in huis heeft. Maar zo ver zijn we nog niet. De grote sprong voorwaarts komt pas op het moment dat we van alle overheidsinstellingen die beschermde en open data bij elkaar hebben staan op Data.overheid.nl.” 

Momenteel werken overheden nog te veel volgens het ‘open, tenzij…’ principe, vindt Van Mierlo. “Veel organisaties gebruiken nog vooral die tenzij, omdat ze het lastig vinden, omdat het een hoop geld kost, of bang zijn dat ze door het delen van data er nog meer vragen of Woo-verzoeken binnenkomen. We hopen dat we als overheidspartijen met elkaar gaan samenwerken en dat we transparant maken welke data waar te vinden zijn. Vervolgens kunnen we dan kijken wat er nodig is om de data van elkaar te kunnen gaan gebruiken. Dus eerst moet je inzicht geven in welke data er zijn. Vervolgens komt de vraag wat dan de juridische grondslagen zijn om die data te kunnen hergebruiken. We hebben echt de hoop dat we dat met elkaar inzichtelijk gaan krijgen.” 

Daarom roepen Kartopawiro en Van Mierlo andere overheidspartijen op om metadata te delen. “Dat is verschrikkelijk belangrijk”, stelt Kartopawiro. “Als jij niet weet wat je precies met die data kan, en wat de mogelijkheden zijn, en je maakt het ook niet vindbaar via je metadata, dan heeft een onderzoeker er ook weinig aan.”

‘Een Gouden Gids voor data’ 

Willem ter Berg, adviseur bedrijfsvoering bij Logius, is al vijf jaar betrokken bij het portaal Data.overheid.nl, en stemt continu af met leveranciers die data in het portaal hebben, zoals het CBS. “Dat er nu beschermde data vanuit het CBS binnenstroomt, verandert niet heel veel aan ons werk, vertelt Ter Berg. “De gebruikte standaarden zijn al ver genoeg ontwikkeld dat die het meeste al konden dekken. Ik hoop dan ook dat we kunnen laten zien hoe goed het delen van beschermde data nu gaat. Het is tijd om meer partijen aan te wijzen. Dit portaal moet uiteindelijk dé plek worden om toegang te krijgen tot alle overheidsdata, van waterschappen tot rijk. Wij zijn eigenlijk een soort Gouden Gids. Wij bieden zelf niet echt de data aan, maar laten zien waar je deze data kunt vinden en onder welke voorwaarden je erbij kan. Het liefste hebben we natuurlijk dat we van alle gemeentes, provincies en waterschappen alle databeschrijvingen hebben. Maar daarvoor hebben we nog een hele lange weg te gaan.”

Een van de ontwikkelingen die Ter Berg nog hoopt te maken met het portaal is een meer gestandaardiseerde manier van ontsluiten van de toegangsvoorwaarden van de data. “Stel je logt in als gebruiker namens de gemeente Amsterdam. Dan kun je als gebruiker in de voorwaarden van een beschermde dataset meteen al zien of je toegang hebt tot die data.” Ter Berg ziet de IBDS en het Federatief Datastelsel als een belangrijke stimulans. “Er is nu een wettelijke grondslag om beschermde data te delen. Dit is extra stimulans voor een organisatie om goed na te denken over hoe ze data verzamelen en hoe ze het beschrijven. Wie weet wat voor een inzicht en overzicht dit gaat creëren voor iedereen.”