WEBVTT

00:00:07.360 --> 00:00:11.760
Maskininlärning är så bra som den 
träningsdata som du matat den med.

00:00:11.800 --> 00:00:15.820
Det är därför jätteviktigt att använda högkvalitativ data, massor av data.

00:00:16.760 --> 00:00:21.960
Men om data är viktigt, då är det viktigt att fråga sig 
var datan kommer ifrån?

00:00:22.280 --> 00:00:26.260
Ofta är det datorer som samlar datan från folk som dig och mig

00:00:26.260 --> 00:00:27.860
utan att vi lägger ner någon mödan.

00:00:28.440 --> 00:00:31.480
En videostreamingstjänst kan samla data om vad du tittar på för att känna igen ett mönster

00:00:31.660 --> 00:00:36.000
i datan för ge rekommendationer om vad du vill se härnäst.

00:00:37.420 --> 00:00:43.200
Andra gånger blir du frågad direkt om hjälp,
som när du blir ombedd att identifiera gatuskyltar och foton.

00:00:43.780 --> 00:00:49.280
Du bidrar med träningsdata för att hjälpa 
en maskin att se, och kanske en dag köra bil.

00:00:52.320 --> 00:00:56.440
Medicinska forskare kanske använder 
medicinska bilder som träningsdata för att lära

00:00:56.520 --> 00:00:59.900
datorer att känna igen och diagnosera sjukdomar.

00:01:00.300 --> 00:01:05.560
Maskininlärning behöver hundratusentals av bilder, samt träningsdirektiv från en läkare

00:01:05.640 --> 00:01:09.920
som vet vad man ska leta efter, före datorn korrekt kan identifiera sjukdomar.

00:01:10.520 --> 00:01:15.540
Det kan uppstå problem med diagnostiken, även om tusentals exempel används.

00:01:15.880 --> 00:01:20.660
Om röntgenbilder bara samlas från män kan 
datorns diagnostik kanske bara användas i mäns fall.

00:01:21.880 --> 00:01:26.300
Den kanske inte känner igen sjukdomar när 
man använder den för att analysera röntgenbilder av kvinnor.

00:01:26.620 --> 00:01:30.820
Blindfläcken som uppstår från träningsdatan 
kallas för systematiska fel eller biases.

00:01:31.260 --> 00:01:36.420
Systematiska fel i data gynnar vissa saker och exkluderar andra. 

00:01:36.780 --> 00:01:41.800
Allt beror på hur träningsdatan är samlats, vem som 
samlar datan och hur datan matas.

00:01:41.800 --> 00:01:45.340
Det finns en risk att 
människans partiskhet finns med i datan.

00:01:45.880 --> 00:01:50.700
Genom att lära sig av partisk data kan datorn komma att göra partisk diagnostik,

00:01:50.780 --> 00:01:54.320
varse sig människan är medveten om 
det eller inte.

00:01:54.760 --> 00:01:58.400
När du ser över träningsdata bör du fråga dig två frågor:

00:01:58.640 --> 00:02:01.600
Är det tillräckligt med data för att träna datorn?

00:02:02.320 --> 00:02:06.860
Och, representerar datan alla möjliga scenarion och användare utan partiskhet?

00:02:07.460 --> 00:02:11.040
Det är där du, människan som tränar datorn, spelar en nyckelroll.

00:02:11.160 --> 00:02:14.500
Det är upp till dig att ge din maskin opartisk data.

00:02:14.500 --> 00:02:18.160
Det betyder att du måste samla massor med exempel från olika källor.

00:02:19.300 --> 00:02:22.580
Kom ihåg att när du väljer och samlar data för maskininlärning, 

00:02:22.580 --> 00:02:26.660
så programmerar du faktiskt algoritmen med hjälp av träningsdata i stället för kod.

00:02:27.100 --> 00:02:29.780
Datan ÄR koden.

00:02:30.180 --> 00:02:34.680
Desto bättre data som du förser, desto bättre kommer datorn att lära sig.