-
Învățarea automată este la fel de bună ca
datele de instruire pe care le-ai introdus
-
Deci, e important să folosești date de
calitate superioară și multe dintre ele.
-
Dar dacă datele sunt importante, merită să
întrebăm de unde vin datele de instruire?
-
Adesea, computerele colectează date de
instruire la la oameni ca time și ca mine,
-
fără niciun efort din partea noastră.
-
Un serviciu de difuzare poate urmări ce ai
văzut, atunci ar putea recunoaște tipare
-
în aceledate să recomande ce ai putea dori
să vezi mai departe.
-
Alteori, ești rugat în mod direct
să identifici semne și poze de străzi.
-
Oferi date de instruire să ajuți o mașină
să învețe să vadă, și poate să conducă.
-
Cercetătorii medicali pot folosi imaginile
medicale ca date de instruire ca să învețe
-
computerele cum să recunoască și să
diagnosticheze bolile.
-
Învățarea Automată necesită sute și mii
de imagini și instructajul unui doctor
-
care știe ce să caute, înainte să poată
identifica corect boala.
-
Chiar cu mii de exemple, pot fi probleme
la predicțiile computerelor.
-
Dacă datele RX pot fi adunate doar de la
bărbați, atunci predicțiile sunt pentru ei
-
S-ar putea să nu recunoască boli când i se
cere să diagnosticheze RX ale unei femei.
-
Această lacună a datelor de instruire
creează ceea ce se numește părtinire.
-
Datele părtinitoare sunt favorabile unor
lucruri și le exclud pe altele.
-
În funcție de cum sunt colectate datele,
cine face colectarea și cum sunt furnizate
-
datele, există șansa ca părtinirea umană
să fie inclusă în date.
-
Învățând din datele părtinitoare, un
computer poate face predicții părtinitoare
-
dacă cei care au instruit computerul sunt
conștienți de asta sau nu.
-
Când te uiți la datele de instruire,
pune-ți două întrebări:
-
Sunt aceste date suficiente să instruiască
un computer?
-
Și, reprezintă datele toate scenariile și
utilizatorii fără părtinire?
-
Aici tu, instructorul uman, joci un
rol crucial.
-
Depinde de tine să dai mașinii
date nepărtinitoare.
-
Asta înseamnă să colectezi tone de exemple
din tone de surse.
-
Nu uita, când culegi și alegi date pentru
învățarea automată, de fapt
-
programezi algoritmul, folosind datele de
instruire în locul codului.
-
Datele SUNT codul.
-
Cu cât furnizezi date mai bune,
cu atât mai bine le va învăța computerul.