-
Maskininlärning är så bra som den
träningsdata som du matat den med.
-
Det är därför jätteviktigt att använda högkvalitativ data, massor av data.
-
Men om data är viktigt, då är det viktigt att fråga sig
var datan kommer ifrån?
-
Ofta är det datorer som samlar datan från folk som dig och mig
-
utan att vi lägger ner någon mödan.
-
En videostreamingstjänst kan samla data om vad du tittar på för att känna igen ett mönster
-
i datan för ge rekommendationer om vad du vill se härnäst.
-
Andra gånger blir du frågad direkt om hjälp,
som när du blir ombedd att identifiera gatuskyltar och foton.
-
Du bidrar med träningsdata för att hjälpa
en maskin att se, och kanske en dag köra bil.
-
Medicinska forskare kanske använder
medicinska bilder som träningsdata för att lära
-
datorer att känna igen och diagnosera sjukdomar.
-
Maskininlärning behöver hundratusentals av bilder, samt träningsdirektiv från en läkare
-
som vet vad man ska leta efter, före datorn korrekt kan identifiera sjukdomar.
-
Det kan uppstå problem med diagnostiken, även om tusentals exempel används.
-
Om röntgenbilder bara samlas från män kan
datorns diagnostik kanske bara användas i mäns fall.
-
Den kanske inte känner igen sjukdomar när
man använder den för att analysera röntgenbilder av kvinnor.
-
Blindfläcken som uppstår från träningsdatan
kallas för systematiska fel eller biases.
-
Systematiska fel i data gynnar vissa saker och exkluderar andra.
-
Allt beror på hur träningsdatan är samlats, vem som
samlar datan och hur datan matas.
-
Det finns en risk att
människans partiskhet finns med i datan.
-
Genom att lära sig av partisk data kan datorn komma att göra partisk diagnostik,
-
varse sig människan är medveten om
det eller inte.
-
När du ser över träningsdata bör du fråga dig två frågor:
-
Är det tillräckligt med data för att träna datorn?
-
Och, representerar datan alla möjliga scenarion och användare utan partiskhet?
-
Det är där du, människan som tränar datorn, spelar en nyckelroll.
-
Det är upp till dig att ge din maskin opartisk data.
-
Det betyder att du måste samla massor med exempel från olika källor.
-
Kom ihåg att när du väljer och samlar data för maskininlärning,
-
så programmerar du faktiskt algoritmen med hjälp av träningsdata i stället för kod.
-
Datan ÄR koden.
-
Desto bättre data som du förser, desto bättre kommer datorn att lära sig.