De menselijke beslisser wordt geteisterd door vele denkfouten. De teller van cognitieve biasen die ons denken – en onze besluiten – beïnvloeden staat inmiddels bijna op een ontnuchterende 200.
Geen wonder dat de hoop gevestigd is op een nieuwe speler: het algoritme. Het idee is dat met name met machine learning onze beslissingen zullen verbeteren, aangezien deze software zich niet laat leiden door emoties, vooroordelen of sociale druk.
Toch woedt inmiddels op verschillende blogs een discussie over hoe objectief machine learning is sinds de uitkomsten van algoritmes die gebruikt worden in het rechtssysteem van de Verenigde Staten racistisch blijken. De voorspelling in hoeverre een crimineel opnieuw de fout in zal gaan, die is gebaseerd op machine learning, blijkt met name nadelig voor zwarte wetsovertreders.
Een andere algoritmische bias kwam aan het licht toen schrijver Alex Shams woorden vanuit de Turkse taal naar het Engels vertaalde met Google Translate. Ondanks dat Turkse taal volgens de schrijver sekseneutraal is (‘Er bestaat geen hij of zij – alles is slechts “o”’), kwam het algoritme automatisch met vertalingen als: ‘Zij is een kok’, ‘hij is een ingenieur’, ‘hij is een dokter’, ‘zij is een verpleger’, ‘hij werkt hard’, ‘zij is lui’, ‘zij is getrouwd’, ‘hij is single’.
Hoe kan dat? Hoe leggen die algoritmes een verband tussen huidskleur en de kans op recidive? En hoe weten ze dat het heersende stereotype is dat mannen dokter worden en vrouwen verpleger? Om dat soort racistische en seksistische verbanden te leggen heb je ervaringen nodig waarin deze relaties kunnen worden gelegd.
En daar zit precies de crux: bij machine learning is van essentieel belang welke data wordt gebruikt om het algoritme te laten oefenen, én op welke kenmerken het algoritme wordt gericht – oftewel welke data het algoritme mag gebruiken om tot de beslissing te komen. Dat is mensenwerk – en daar hebben onze denkfouten alsnog invloed op het algoritme en de uitkomsten.
Wanneer je bijvoorbeeld probeert te voorspellen wat de kans is dat iemand succesvol is in een bepaalde baan, zou je als oefendata voor het algoritme kunnen kiezen voor de werknemers die nu goed presteren in een vergelijkbare rol. De kenmerken van de werknemer (de features die je het algoritme meegeeft) zouden bijvoorbeeld kunnen zijn: jaren ervaring, opleiding, IQ, relationele status, geslacht of afkomst.
Nu ligt het voor de hand dat wanneer je als kenmerk ‘afkomst’ meegeeft, dit kan leiden tot een racistische bias. Maar zelfs als je dat kenmerk eruit haalt, kan het systeem nog steeds ogenschijnlijk willekeurig mensen clusteren naar huidskleur op basis van andere factoren, zoals woonplaats of IP adres. Een onderzoek aan Harvard concludeerde bijvoorbeeld dat Google advertenties de verbinding tussen zwart klinkende namen en criminele activiteiten versterken. Bij de zoekopdracht met een zwart klinkende naam als Trevon Jones kwam vaker dan bij een wit klinkende naam een advertentie die een criminele activiteit suggereerde: ‘Trevon Jones, gearresteerd?’
De mens beïnvloedt elk machine learning project – in het geven van de oefendata en het selecteren van de kenmerken waarop wordt geselecteerd. Vandaar dat de Indiase onderzoeker Rahul Barghava liever spreekt van ‘machine teaching’ in plaats van ‘machine learning’. ‘Dit legt de verantwoordelijkheid waar het hoort, bij de leraar. (...) Met “machine teaching” ben je vooral geïnteresseerd in wat je de machine leert om te doen.’
‘De verantwoordelijkheid bij de leraar leggen helpt ons ook te realiseren hoe bedrieglijk dit proces is,’ schrijft Barghava. Het algoritme dat recidive voorspelde was racistisch omdat het had geoefend met data van veroordelingen van het Amerikaanse rechtssysteem, en daar zit de negatieve bias ten opzichte van zwarte Amerikaanse mannen al in. En het seksistische vertalingsalgoritme van Google heeft waarschijnlijk geoefend met teksten uit het nieuws of de literatuur, waarvan we weten dat het is doordrenkt met gedateerde sekserollen en -normen.
Barghava concludeert: ‘Het bepalen van een beslissing aan de hand van een algoritme maakt het niet automatisch betrouwbaar; net zoals het kwantificeren van iets met data het niet automatisch waar maakt.’