In deze IT community column gaat Willem Sloet tot Everlo dieper in op de ethiek rondom het verzamelen van data. Wat zijn bijvoorbeeld de problemen die in het vak zich voordoen en welke verantwoordelijkheid de data professional moet nemen om op een ethische manier met de data van anderen om te gaan.
Van Orwell tot Kafka
Ik heb de laatste jaren meerdere keren op social media gelezen hoe mensen bang zijn voor een Orwelliaanse dystopie, waar de overheid zich als een alwetende Big Brother tiran opstelt tegenover haar burgers. Deze term verwijst naar het boek 1984, waar een dergelijke overheid wordt beschreven door George Orwell. Ik moet toegeven dat ik ook weleens heb gedacht dat dit werkelijkheid kon worden. Maar hoe meer ik leer over AI en nieuwe technologieen, hoe meer ik het idee heb dat dit niet snel zal gebeuren. Tegenwoordig, daarentegen, bekruipt mij wel een andere angst, niet die van een alwetende overheid, maar die van een bureaucratische hel, zoals die door Franz Kafka is beschreven. Die hel is overigens niet uitsluitend door een overheid te realiseren, maar door praktisch iedereen die veel data heeft, veel gebruikers en weinig weet heeft van de juistheid van die data. Hieronder twee voorbeelden die laten zien wat ik bedoel: situaties waarbij de foutieve data de werkelijkheid wordt, in plaats van dat data een representatie is van de werkelijkheid waar soms fouten in zitten.
No-Fly lists
Stel je voor dat je wil vliegen, je staat bij de douane en je wordt plots meegenomen door Air Marshalls. Je wordt ondervraagd door hen over waar je bent geweest, of je ooit in het Midden-Oosten bent geweest, waar en wanneer je bepaalde documenten hebt ingevuld en ga zo maar door. Nadat je hebt uigelegd dat dit alles een misverstand is en je mocht instappen wordt je nog een keer ondervraagd als je bent geland. Er wordt je verteld dat je even niks meer mag, ook niet bellen. Je schrikt je natuurlijk een ongeluk en je bent blij dat alles goedgekomen is. Maar dit is niet het verhaal van iemand die ciminele activiteiten heeft uitgevoerd in het buitenland. Dit is het verhaal van iemand waarbij er fouten stonden in de databases van veiligheidsdiensten. Deze man is meerdere keren verhoord over banden met het Midden Oosten die hij niet heeft en gelukkig na veel uitleggen toch vliegen. Er zijn echter ook gevallen bekend van mensen die niet meer terug mochten vliegen naar hun thuisland en jaren hebben moeten wachten.
In 2005 bijvoorbeeld, of eigenlijk moet ik zeggen vanaf 2005, kwam een Maleisische intellectuele vrouw op de No-Fly list terecht van de VS. Ze zou er niet meer vanaf komen, ondanks meerdere rechtzaken, meerdere beloftes dat ze ervanaf is gehaald. Waarom wilde ze naar de VS? Ze is een van de leiders wereldwijd op gebied van affordable housing en wil naar de VS voor conferenties. Niemand weet in dit geval wat de fout precies is, maar waarschijnlijk halen ze een organisatie waar de vrouw lid van is in de war met een andere. Namelijk Jemaah Islam Malaysia waar ze lid van is, een organisatie voor studenten die in de VS hebben gestudeerd, en Jemaah Islamiyah, een terroristen groep. Dit is precies het probleem van een fout in een database waar vanuit wordt gegaan dat het wel de waarheid is. Het moet de andere kant op gaan: de werkelijkheid moet gerepresenteerd worden in een database, niet andersom.
Je toekomst bepaald door een algoritme
Tijdens de corona crisis werden op Engelse scholen een aantal examens geschrapt, om zoveel mogelijk de kans op besmettingen te verkleinen. Er werd toen een algoritme ingezet om cijfers automatisch toe te kennen aan leerlingen, op basis van de resultaten van de desbetreffende leerling en de andere leerlingen op de school. Dit betekent dat een leerling met hoge cijfers die op een school zat met gemiddeld lage cijfers een lager cijfer kreeg dan wanneer die leerling op een ‘goede’ school zou zitten. Je kan je voorstellen dat dit algoritme de bestaande verschillen uitvergrootte tussen scholen en daarmee dus ook de kansen beinvloedde van leerlingen. Na veel geprotesteer (met de leus ‘f*ck the algorithm’) is het systeem uiteindelijk aangepast. Een algoritme kan worden ingezet om dit soort problemen op te lossen, het gevaar is wel dat deze oplossingen kunnen leiden tot het vergroten van bestaande problematiek. Als er wordt uitgegaan van bepaalde historie blijft de status quo de status quo, er moet wel worden nagedacht over de oorzaak van een verschil en over een oplossing daarvoor. Een goede dataset helpt veel bij het onderzoeken van de oorzaak, maar helpt niet bij het zoeken naar een oplossing. Daarvoor moeten mensen zelf blijven nadenken.
Wat leren we hiervan?
Wat deze twee voorbeelden laten zien is dat er misstanden kunnen ontstaan zodra er vanuit wordt gegaan dat wat er in een database staat ook echt waar is. Hierdoor ontstaat een bureaucratische situatie waar een mens niet altijd meer uit kan komen. Deze twee voorbeelden laten zien dat een database wordt gezien als de bron van waarheid, in plaats van een representatie van werkelijkheid. Onjuiste data kan leiden tot moeilijkheden voor verschillende individuen of zelfs groepen mensen. Daarnaast kunnen bestaande verschillen tussen groepen mensen worden uitvergroot door gebruik van data en algoritmes. Deze problemen kunnen echter worden opgelost door hierover na te denken, door te blijven controleren op fouten in de data en te blijven controleren op mogelijke uitvergrotingen van bestaande verschillen. Ook werkt het goed door te blijven herhalen dat de data niet de werkelijkheid is, maar een voorstelling ervan, zoals een schilderij niet het landschap is, maar een voorstelling ervan.