-
Ang pag-aaral ng machine ay kasing ganda lang
ng data ng pagsasanay na inilalagay mo rito.
-
Kaya, napakahalagang gumamit ng
mataas na kalidad na data, at marami nito.
-
Ngunit kung mahalaga ang data, dapat tanungin
kung saan nanggagaling ang data ng pagsasanay?
-
Kadalasan, nangongolekta ng data ang mga computer
ng pagsasanay sa mga taong tulad mo at ako,
-
nang walang anumang pagsisikap sa bahagi natin.
-
Maaaring subaybayan ng video streaming service ang
pinapanood mo, pagkatapos ay makikilala nito ang mga pattern
-
sa data na iyon para irekomenda kung ano
ang gusto mong panoorin sa susunod.
-
Sa ibang pagkakataon, direktang hihilingin sa iyo na tumulong, tulad ng kapag
hiniling sa iyo ng website na hanapin ang mga karatula at larawan sa kalye,
-
Nagbibigay ka ng data ng pagsasanay upang matulungan ang machine
na matutong makakita, at marahil isang araw ay magmaneho.
-
Pwedeng gumamit ang mga mananaliksik sa medisina ng mga
medikal na larawan bilang data ng pagsasanay upang turuan
-
ang mga computer kung paano
makilala at matukoy ang mga sakit.
-
Ang Pag-aaral ng Machine ay nangangailangan ng daan-daan
at libu-libong larawan, at direksiyon ng pagsasanay mula sa doktor
-
na nakakaalam kung ano ang hahanapin,
bago matukoy nito nang tama ang sakit.
-
Kahit na may libu-libong mga halimbawa, maaaring
magkaroon ng mga problema sa mga hula ng computer.
-
Kung kinokolekta lang ang data ng X-ray mula sa mga lalaki, kung gayon
ang mga hula ng computer ay maaaring gumana lang sa mga lalaki
-
Maaaring hindi nito makilala ang mga sakit kapag
hiniling na i-diagnose ang X-ray ng isang babae.
-
Ang blind spot na ito sa data ng pagsasanay
ay lumilikha ng tinatawag na bias.
-
Pinapaboran ng bias na data ang ilang bagay,
at inaalis ang priyoridad o hindi sinasama ang iba.
-
Depende sa kung paano kinokolekta ang data ng pagsasanay, sino ang
gumagawa ng pagkolekta, at kung paano ipinapasok ang data,
-
may pagkakataon na ang pagiging bias
ng tao ay kasama sa data.
-
Sa pamamagitan ng pag-aaral mula sa bias data, ang
computer ay maaaring gumawa ng mga bias na hula,
-
alam man ito ng mga taong
nagsasanay sa computer o hindi.
-
Kapag tumitingin ka sa data ng pagsasanay,
tanungin ang sarili mo ng dalawang tanong:
-
Ito ba ay sapat na data upang tumpak
na sanayin ang computer?
-
At, kinakatawan ba ng data na ito ang lahat
ng posibleng senaryo at user na walang bias?
-
Ito ay kung saan ikaw, bilang pagsasanay
ng tao, ay gumaganap ng mahalagang papel.
-
Ikaw ang bahalang magbigay sa machine
mo ng walang pinapanigan na data.
-
Nangangahulugan iyon ng pagkolekta ng toneladang
mga halimbawa, mula sa maraming mga mapagkukunan.
-
Tandaan, kapag kumuha at pumili ka ng
data para sa pag-aaral ng machine,
-
pinoprogram mo ang algorithm, gamit ang
data ng pagsasanay sa halip na code.
-
Ang data AY ang code.
-
Kung mas mahusay ang data na ibibigay mo,
mas mahusay na matututo ang computer.