Kunstmatige intelligentie Trainingsgegevens en vooringenomenheid Machinaal leren is maar zo goed als de trainingsgegevens die je erin stopt. Dus is het superbelangrijk om gegevens van hoge kwaliteit te gebruiken, en veel ervan. Maar als gegevens belangrijk zijn, dan is het de moeite waard om te vragen "Waar komen de trainingsgegevens vandaan?" Vaak verzamelen computers trainings- gegevens van mensen zoals jij en ik, zonder enige inspanning van onze kant. Een video-streamingdienst kan bijhouden wat je bekijkt, dan kan hij patronen herkennen in die gegevens om aan te bevelen wat je als volgende zou willen bekijken. Andere keren wordt je expliciet gevraagd om te helpen, zoals wanneer een website je vraagt om straatnaamborden in foto's te spotten, Je verstrekt dan trainingsgegevens om een machine te leren zien, en misschien op een dag zelfs te rijden. Medische onderzoekers kunnen medische beelden gebruiken als trainingsgegevens om computers te leren hoe ze ziektes kunnen herkennen en diagnosticeren. Machinaal leren heeft honderd en duizenden beelden nodig, en trainingsaanwijzingen van een arts die weet waar hij naar moet zoeken, voordat hij de ziekte correct kan identificeren. Zelfs met duizenden voorbeelden kunnen er problemen zijn met de voorspellingen van de computer. Als er alleen röntgengegevens van mannen worden verzameld, dan kunnen de voorspellingen van de computer alleen voor mannen werken. Het kan zijn dat het geen ziektes herkent als het gevraagd wordt om de röntgenfoto's van een vrouw te bekijken. Deze blinde vlek in de trainingsgegevens creëert iets wat bias (vooringenomenheid) wordt genoemd. Vooringenomen gegevens geven de voorkeur aan sommige dingen, en sluiten andere uit. Afhankelijk van de manier waarop de trainingsgegevens worden verzameld, wie het verzameld en hoe de gegevens worden ingevoerd, is er een kans dat de gegevens menselijke vooringenomenheid bevatten. Door te leren van bevooroordeelde gegevens kan het zijn dat de computer vooringenomen voorspellingen doen, Ongeacht of de mensen die de computer trainen er wel of niet van op de hoogte zijn. Dus als je zelf naar de trainingsgegevens kijkt, stel jezelf dan twee vragen: Zijn dit genoeg gegevens om een computer nauwkeurig te trainen? En, vertegenwoordigen deze gegevens alle mogelijke scenario's en gebruikers zonder vooringenomenheid? Hier speel jij als de menselijke trainer een cruciale rol. Het is aan jou om je machine onbevooroordeelde gegevens te geven. Dat betekent het verzamelen van tonnen voorbeelden, vaak uit vele bronnen. Vergeet niet, wanneer je gegevens kiest voor machinaal leren, programmeer je eigenlijk het algoritme, met behulp van trainingsgegevens in plaats van code. De gegevens ZIJN de code. Hoe beter de gegevens zijn die je invoert, hoe beter de computer zal leren.