Ang pag-aaral ng machine ay kasing ganda lang
ng data ng pagsasanay na inilalagay mo rito.
Kaya, napakahalagang gumamit ng
mataas na kalidad na data, at marami nito.
Ngunit kung mahalaga ang data, dapat tanungin
kung saan nanggagaling ang data ng pagsasanay?
Kadalasan, nangongolekta ng data ang mga computer
ng pagsasanay sa mga taong tulad mo at ako,
nang walang anumang pagsisikap sa bahagi natin.
Maaaring subaybayan ng video streaming service ang
pinapanood mo, pagkatapos ay makikilala nito ang mga pattern
sa data na iyon para irekomenda kung ano
ang gusto mong panoorin sa susunod.
Sa ibang pagkakataon, direktang hihilingin sa iyo na tumulong, tulad ng kapag
hiniling sa iyo ng website na hanapin ang mga karatula at larawan sa kalye,
Nagbibigay ka ng data ng pagsasanay upang matulungan ang machine
na matutong makakita, at marahil isang araw ay magmaneho.
Pwedeng gumamit ang mga mananaliksik sa medisina ng mga
medikal na larawan bilang data ng pagsasanay upang turuan
ang mga computer kung paano
makilala at matukoy ang mga sakit.
Ang Pag-aaral ng Machine ay nangangailangan ng daan-daan
at libu-libong larawan, at direksiyon ng pagsasanay mula sa doktor
na nakakaalam kung ano ang hahanapin,
bago matukoy nito nang tama ang sakit.
Kahit na may libu-libong mga halimbawa, maaaring
magkaroon ng mga problema sa mga hula ng computer.
Kung kinokolekta lang ang data ng X-ray mula sa mga lalaki, kung gayon
ang mga hula ng computer ay maaaring gumana lang sa mga lalaki
Maaaring hindi nito makilala ang mga sakit kapag
hiniling na i-diagnose ang X-ray ng isang babae.
Ang blind spot na ito sa data ng pagsasanay
ay lumilikha ng tinatawag na bias.
Pinapaboran ng bias na data ang ilang bagay,
at inaalis ang priyoridad o hindi sinasama ang iba.
Depende sa kung paano kinokolekta ang data ng pagsasanay, sino ang
gumagawa ng pagkolekta, at kung paano ipinapasok ang data,
may pagkakataon na ang pagiging bias
ng tao ay kasama sa data.
Sa pamamagitan ng pag-aaral mula sa bias data, ang
computer ay maaaring gumawa ng mga bias na hula,
alam man ito ng mga taong
nagsasanay sa computer o hindi.
Kapag tumitingin ka sa data ng pagsasanay,
tanungin ang sarili mo ng dalawang tanong:
Ito ba ay sapat na data upang tumpak
na sanayin ang computer?
At, kinakatawan ba ng data na ito ang lahat
ng posibleng senaryo at user na walang bias?
Ito ay kung saan ikaw, bilang pagsasanay
ng tao, ay gumaganap ng mahalagang papel.
Ikaw ang bahalang magbigay sa machine
mo ng walang pinapanigan na data.
Nangangahulugan iyon ng pagkolekta ng toneladang
mga halimbawa, mula sa maraming mga mapagkukunan.
Tandaan, kapag kumuha at pumili ka ng
data para sa pag-aaral ng machine,
pinoprogram mo ang algorithm, gamit ang
data ng pagsasanay sa halip na code.
Ang data AY ang code.
Kung mas mahusay ang data na ibibigay mo,
mas mahusay na matututo ang computer.