In deze IT community column gaat Willem Sloet tot Everlo dieper in op de ethiek rondom het verzamelen van data. Wat zijn bijvoorbeeld de problemen die in het vak zich voordoen en welke verantwoordelijkheid de data professional moet nemen om op een ethische manier met de data van anderen om te gaan.
Het gebruik en de verzameling van gegevens is in onze huidige maatschappij een wijdverbreid fenomeen, maar dit is niet altijd zo geweest. Lang hebben organisaties en overheden weinig zicht gehad op mensen en wat zij nou eigenlijk deden. In Nederland hebben we tegenwoordig het Centraal Bureau voor de Statistiek, maar dat hebben we pas sinds 1899. 1899 klinkt lang geleden, maar in de gehele geschiedenis daarvoor waren veel cijfers die we nu bijna dagelijks gebruiken niet beschikbaar. Het was bijvoorbeeld niet mogelijk om even op te zoeken hoeveel eenpersoonshuishoudens er zijn in Nederland, dat moest eerst handmatig geteld worden als je dat had willen weten. Overheden wisten eigenlijk niets vergeleken met wat we nu weten.
Het verzamelen van gegevens heeft veel deuren geopend om meer transparantie te krijgen in onze samenleving, maar gegevensverzameling is maar een deel van het hele proces. Daarmee bedoel ik dat het hebben van gegevens niet direct leidt tot het hebben van overzicht. Er lijkt een soort illusie te ontstaan bij het hebben van gegevens, een illusie van het hebben van overzicht. Echter moet er vaak nog wel wat gebeuren voordat dat overzicht er is en voordat de voordelen kunnen worden geoogst. Twee voorbeelden die ik in dit stuk wil uitlichten hebben betrekking op transparantie van gegevens en gegevensverwerking (voorbeeld 1), en op ontwijken van bias (voorbeeld 2). Met deze voorbeelden wil ik beargumenteren dat een data professional een belangrijke rol heeft binnen een organisatie om te voorkomen dat een organisatie in de valkuilen trapt die ik hieronder beschrijf.
Schijntransparantie in de zorg
Het eerste voorbeeld dat ik wil belichten heb ik opgepikt uit het boek “Beter Dokteren”. De auteurs beschrijven hoe de wens van de overheid om patiënten de mogelijkheid te geven om hun zorgaanbieder te kiezen heeft geleid tot het openbaar maken van prestatiegegevens van zorgaanbieders. Via verschillende websites van bijvoorbeeld de Inspectie Gezondheidszorg en Jeugd, kiesbeter en ziekenhuischeck.nl kan een patient informatie vinden over het presteren van een ziekenhuis in de buurt. Ondanks dit soort websites is het als patiënt veel zoek- en uitzoekwerk voordat je werkelijk betekenisvolle informatie hebt.
Een voorbeeld: stel dat ik voor een operatie aan mijn keelamandelen naar het Diakonessenhuis in Utrecht wil. Dan kan ik op de website ziekenhuischeck.nl het volgende vinden ten tijde van schrijven: “In 2021 heeft 2,48% van de patiënten in het Diakonessenhuis binnen 14 dagen na de operatie aan de amandelen opnieuw een operatie gehad vanwege een nabloeding.” Ten opzichte van de landelijke norm van 1,70%. Wat betekent dit, is dit een significant of relevant verschil? Is een nabloeding ernstig of vervelend?
De auteurs van “Beter Dokteren” leggen uit dat de openbaarheid van deze gegevens daarom niet direct leidt tot het mogelijk maken van keuzevrijheid voor de patiënt. Ik zou daaraan willen toevoegen dat een data professional een belangrijke rol heeft als gegevensexpert om het ontsluiten van gegevens tot een succes te brengen. De expert heeft namelijk de kennis van het koppelen en integreren van gegevens waarmee de vragen van een patiënt kan worden beantwoord. Zo zou het verder uitsplitsen naar verschillende demografieen kunnen helpen meer betekenis te geven aan deze statistiek. Daarnaast zou een uitleg over nabloeding ook kunnen helpen.
Schijnneutraliteit van sneeuwruimen
Het tweede voorbeeld wat ik belicht komt uit het boek “Invisible Women. Exposing data bias in a world designed for men”. In Zweden werd er door een gemeente eens goed gekeken naar hun beleid, er werd naar aanleiding van een gender-neutraliteitsinitiatief gecontroleerd op gender discriminatie in ieder beleid. Er werd door een beleidsmedewerker gegrapt dat in ieder geval het sneeuwruimen niet gender biased is. Ze gingen toch kijken en wat blijkt? Er is wel een verschil tussen mannen en vrouwen als het gaat om sneeuwruimen.
Dit komt doordat de levens van deze twee groepen heel verschillend zijn. Mannen namen gemiddeld vaker de auto om naar het werk te gaan en gebruikten daarvoor de grote wegen, maar vrouwen hadden gemiddeld meer te doen rondom het huis en gingen te voet of met de fiets. Het bleek dat er bij het sneeuwruimen meer prioriteit lag op de grote wegen, die mannen gebruikten, dan op de kleine wegen, die vrouwen gebruikten. Dit kon ook worden teruggezien in de cijfers van de eerste hulp, namelijk dat er als er sneeuw lag, gemiddeld meer vrouwen op de eerste hulp terechtkwamen met verwondingen door de sneeuw.
De gemeente heeft hun beleid aangepast, waardoor dit terug te zien is in die zorgcijfers. Wat daarbij een voordeel is, is omdat de grote wegen zoveel gebruikt worden, wordt de sneeuw weggereden door het verkeer en is er netto een daling in sneeuwongevallen te zien. In dit voorbeeld heeft de data professional een duidelijke rol gehad in het inzichtelijk maken van de root cause, door dieper in de gegevens te duiken dan voorheen werd gedaan.
Wat kunnen we leren van deze twee voorbeelden?
Deze voorbeelden laten zien hoe gegevens mee en tegen kunnen werken en hoe meer gegevens niet direct zoveel transparantie biedt als wordt gedacht. Het eerste voorbeeld laat zien hoe het openbaar maken van statistieken en rapporten niet direct leidt tot grotere keuzevrijheid van patiënten. Het tweede voorbeeld laat zien dat kleine verschillen tussen twee groepen kunnen leiden tot grote gevolgen, die niet altijd zichtbaar zijn. Het is uiteindelijk van belang, naar mijn mening, om te onderzoeken wie de ‘eindgebruiker’ is van de gegevens.
In het eerste voorbeeld is dat de potentiële patiënt en in het tweede de mensen die gebruikmaken van de infrastructuur in een gemeente. Ik zie de oplossing in het verder uitsplitsen van de data in groepen en categorieën. Het werken met gemiddelden en geaggregeerde gegevens is goed om een overzicht te krijgen, maar het werkt niet altijd voor een individu, hoewel het uiteindelijk wel gaat om dat individu. Iedereen is een gebruiker van iets waarbij gegevensverzameling belangrijk is voor het product, het is daarom belangrijk om hierop te letten. Heb je een ander goed voorbeeld zoals bovenstaande? Stuur een e-mail.
Ook de volgende stap in je carrière willen zetten?Meld je aan voor de data science traineeship