-
Ang machine learning ay kasing husay din
lang ng training data na inilalagay mo dito.
-
Kaya't lubhang napakahalaga na gumamit ng
mataas na kalidad na data, at maraming-marami nito.
-
Ngunit kung ang data ay mahalaga, may saysay
na magtanong kung saan nanggagaling ang training data?
-
Kadalasan, ang mga kompyuter ay kumokolekta ng
training data mula sa mga taong tulad mo at tulad ko,
-
nang walang anumang hirap sa bahagi natin.
-
Ang isang serbisyo sa video streaming ay maaaring masubaybayan
kung ano ang pinanonood mo, pagkatapos ay nakikilala nito ang mga pattern
-
sa data na yon para irekomenda kung sakaling ano
ang gusto mong panoorin sa susunod.
-
Sa ibang pagkakataon, direkta kang sinasabihan na tumulong, tulad kapag
ang isang website ay sinabihan kang maghanap ng mga karatula at larawan ng kalye.
-
Nagkakaloob ka ng training data upang tulungan ang isang makinarya
na matutong makita, at siguro ay mag-drive isang araw.
-
Ang mga medikal na mananaliksik ay makakagamit ng mga
medikal na imahe bilang training data upang turuan
-
ang mga kompyuter na makilala at ma-diagnose ang mga sakit.
-
Ang machine learning ay nangangailangan ng libo-libong
imahe, at training direction mula sa isang doktor
-
na alam kung ano ang hahanapin, bago nito
tukuyin nang tama ang sakit.
-
Kahit na may libong mga halimbawa, maaaring
may problema sa mga prediksyon ng kompyuter.
-
Kung ang x-ray data ay kinokolekta lamang mula sa mga lalake,sa gayon
ang mga prediksyon ng kompyuter at maaaring para sa mga lalake lamang.
-
Hindi nito maaaaring makilala ang mga sakit kapag
sinabihang i-diagnose ang x-ray ng isang babae.
-
Ang blind spot na ito sa training data ay lumilikha
ng isang bagay na tinatawag na pagkiling o bias
-
Ang may kinikilingang data ay pumapabor sa ilang mga bagay,
at hindi binibigyang prayoridad o isinasantabi ang iba pa.
-
Depende sa kung paano kinokolekta ang training data, kung
sino ang nangongolekta, at kung paano isinusubo ang data,
-
may tiyansa na ang pagkiling sa tao
ay kasama sa data.
-
Sa pag-aaral mula sa bias data, ang kompyuter
ay maaaring gumawa ng may kinikilingang prediksyon,
-
anuman kung nalalaman o hindi ng mga taong
nagte-train sa kompyuter.
-
Kapag ikaw ay tumitingin sa training data, tanungin
ang sarili mo ng dalawang katanungan:
-
Sapat ba ang data na ito para tumpak na i-train ang isang kompyuter?
-
At ang data bang ito ay kumakatawan sa lahat ng posibleng
mga senaryo at user nang walang pagkiling?
-
ito yong kung saan, bilang ang human training,
ay gumaganap ng mahalagang papel.
-
Nasasaiyo na yan para bigyan ang iyong makinarya
ng walang kinikilingang data.
-
Nangangahulugan yan ng pagkolekta ng tone-toneladang halimbawa,
mula sa napakaraming mapagkukunan.
-
Tandaan, kapag ikaw ay kumukuha at namimili ng data
para sa machine learning,
-
aktwal mong pinoprograma ang algoritmo, gamit ang
training data sa halip na code.
-
Ang data AY ang code.
-
Ang mas mahusay na data na iyong ibinibigay,
mas maganda ang matututunan ng kompyuter.