-
-
De kwaliteit van machine learning
staat of valt met de trainingsdata.
-
Het is dus uitermate belangrijk
om veel hoogwaardige data te gebruiken.
-
Maar als trainingsdata zo belangrijk is,
moet je je afvragen waar die vandaan komt.
-
Computers verzamelen vaak
trainingsdata van mensen zoals jij en ik,
-
zonder dat wij iets hoeven te doen.
-
Zo kan een videostreamingdienst
bijhouden waar je naar kijkt,
-
en vervolgens patronen herkennen
in die data
-
om jou suggesties te geven
waar je naar kunt kijken.
-
In andere gevallen wordt er
rechtstreeks om jouw hulp gevraagd.
-
Als een website je bijvoorbeeld vraagt
om verkeersborden te zien op foto's,
-
geef je misschien wel trainingsdata
om een machine te leren zien,
-
en op een dag een auto te besturen.
-
Medisch onderzoekers kunnen
medische afbeeldingen gebruiken
-
als trainingsdata om computers te leren
ziektes te herkennen en diagnoses te stellen.
-
Machine learning heeft honderden en
duizenden afbeeldingen nodig,
-
met daarbij aanwijzingen van een arts
-
die weet waar je naar moet kijken,
voordat het ziektes juist herkent.
-
Zelfs met duizenden voorbeelden
-
kunnen er problemen zijn
met de computervoorspellingen.
-
Met röntgenfoto's van alleen mannen
-
werken de computervoorspellingen
misschien alleen bij mannen.
-
Wellicht worden ziektes niet herkend
-
als de computer kijkt naar
de röntgenfoto van een vrouw.
-
Deze blinde vlek in de trainingsdata
levert een vertekening op, ofwel bias.
-
Databias bevoordeelt het ene, en geeft
het andere minder of helemaal geen prioriteit.
-
Afhankelijk van hoe
trainingsdata wordt verzameld,
-
door wie,
en hoe de computer de data krijgt,
-
is er een kans dat de data
menselijke bias bevat.
-
Als de computer leert van zulke data,
doet hij misschien vertekende voorspellingen,
-
of de mensen
die de computer trainen
-
het nu merken of niet.
-
Dus stel jezelf twee vragen
bij het bekijken van trainingsdata.
-
Is dit voldoende data
om een computer goed te trainen?
-
En is dit data zonder bias over
alle mogelijke scenario's en gebruikers?
-
Hier kun je als menselijke trainer
een cruciale rol spelen.
-
Jij bent degene die jouw machine
data zonder bias moet geven.
-
Dat betekent vele voorbeelden verzamelen,
uit heel veel bronnen.
-
Als je data kiest voor machine leren
ben je in feite bezig
-
met het programmeren van het algoritme,
met trainingsdata in plaats van code.
-
De data ís de code.
-
Hoe beter de data die je levert,
hoe beter de computer leert.