WEBVTT 00:00:07.360 --> 00:00:11.760 Maskininlärning är så bra som den träningsdata som du matat den med. 00:00:11.800 --> 00:00:15.820 Det är därför jätteviktigt att använda högkvalitativ data, massor av data. 00:00:16.760 --> 00:00:21.960 Men om data är viktigt, då är det viktigt att fråga sig var datan kommer ifrån? 00:00:22.280 --> 00:00:26.260 Ofta är det datorer som samlar datan från folk som dig och mig 00:00:26.260 --> 00:00:27.860 utan att vi lägger ner någon mödan. 00:00:28.440 --> 00:00:31.480 En videostreamingstjänst kan samla data om vad du tittar på för att känna igen ett mönster 00:00:31.660 --> 00:00:36.000 i datan för ge rekommendationer om vad du vill se härnäst. 00:00:37.420 --> 00:00:43.200 Andra gånger blir du frågad direkt om hjälp, som när du blir ombedd att identifiera gatuskyltar och foton. 00:00:43.780 --> 00:00:49.280 Du bidrar med träningsdata för att hjälpa en maskin att se, och kanske en dag köra bil. 00:00:52.320 --> 00:00:56.440 Medicinska forskare kanske använder medicinska bilder som träningsdata för att lära 00:00:56.520 --> 00:00:59.900 datorer att känna igen och diagnosera sjukdomar. 00:01:00.300 --> 00:01:05.560 Maskininlärning behöver hundratusentals av bilder, samt träningsdirektiv från en läkare 00:01:05.640 --> 00:01:09.920 som vet vad man ska leta efter, före datorn korrekt kan identifiera sjukdomar. 00:01:10.520 --> 00:01:15.540 Det kan uppstå problem med diagnostiken, även om tusentals exempel används. 00:01:15.880 --> 00:01:20.660 Om röntgenbilder bara samlas från män kan datorns diagnostik kanske bara användas i mäns fall. 00:01:21.880 --> 00:01:26.300 Den kanske inte känner igen sjukdomar när man använder den för att analysera röntgenbilder av kvinnor. 00:01:26.620 --> 00:01:30.820 Blindfläcken som uppstår från träningsdatan kallas för systematiska fel eller biases. 00:01:31.260 --> 00:01:36.420 Systematiska fel i data gynnar vissa saker och exkluderar andra. 00:01:36.780 --> 00:01:41.800 Allt beror på hur träningsdatan är samlats, vem som samlar datan och hur datan matas. 00:01:41.800 --> 00:01:45.340 Det finns en risk att människans partiskhet finns med i datan. 00:01:45.880 --> 00:01:50.700 Genom att lära sig av partisk data kan datorn komma att göra partisk diagnostik, 00:01:50.780 --> 00:01:54.320 varse sig människan är medveten om det eller inte. 00:01:54.760 --> 00:01:58.400 När du ser över träningsdata bör du fråga dig två frågor: 00:01:58.640 --> 00:02:01.600 Är det tillräckligt med data för att träna datorn? 00:02:02.320 --> 00:02:06.860 Och, representerar datan alla möjliga scenarion och användare utan partiskhet? 00:02:07.460 --> 00:02:11.040 Det är där du, människan som tränar datorn, spelar en nyckelroll. 00:02:11.160 --> 00:02:14.500 Det är upp till dig att ge din maskin opartisk data. 00:02:14.500 --> 00:02:18.160 Det betyder att du måste samla massor med exempel från olika källor. 00:02:19.300 --> 00:02:22.580 Kom ihåg att när du väljer och samlar data för maskininlärning, 00:02:22.580 --> 00:02:26.660 så programmerar du faktiskt algoritmen med hjälp av träningsdata i stället för kod. 00:02:27.100 --> 00:02:29.780 Datan ÄR koden. 00:02:30.180 --> 00:02:34.680 Desto bättre data som du förser, desto bättre kommer datorn att lära sig.