WEBVTT 00:00:07.360 --> 00:00:11.760 Ang pag-aaral ng machine ay kasing ganda lang ng data ng pagsasanay na inilalagay mo rito. 00:00:11.800 --> 00:00:15.820 Kaya, napakahalagang gumamit ng mataas na kalidad na data, at marami nito. 00:00:16.760 --> 00:00:21.960 Ngunit kung mahalaga ang data, dapat tanungin kung saan nanggagaling ang data ng pagsasanay? 00:00:22.280 --> 00:00:26.260 Kadalasan, nangongolekta ng data ang mga computer ng pagsasanay sa mga taong tulad mo at ako, 00:00:26.260 --> 00:00:27.860 nang walang anumang pagsisikap sa bahagi natin. 00:00:28.440 --> 00:00:31.480 Maaaring subaybayan ng video streaming service ang pinapanood mo, pagkatapos ay makikilala nito ang mga pattern 00:00:31.660 --> 00:00:36.000 sa data na iyon para irekomenda kung ano ang gusto mong panoorin sa susunod. 00:00:37.420 --> 00:00:43.200 Sa ibang pagkakataon, direktang hihilingin sa iyo na tumulong, tulad ng kapag hiniling sa iyo ng website na hanapin ang mga karatula at larawan sa kalye, 00:00:43.780 --> 00:00:49.280 Nagbibigay ka ng data ng pagsasanay upang matulungan ang machine na matutong makakita, at marahil isang araw ay magmaneho. 00:00:52.320 --> 00:00:56.440 Pwedeng gumamit ang mga mananaliksik sa medisina ng mga medikal na larawan bilang data ng pagsasanay upang turuan NOTE Paragraph 00:00:56.520 --> 00:00:59.900 ang mga computer kung paano makilala at matukoy ang mga sakit. 00:01:00.300 --> 00:01:05.560 Ang Pag-aaral ng Machine ay nangangailangan ng daan-daan at libu-libong larawan, at direksiyon ng pagsasanay mula sa doktor 00:01:05.640 --> 00:01:09.920 na nakakaalam kung ano ang hahanapin, bago matukoy nito nang tama ang sakit. 00:01:10.520 --> 00:01:15.540 Kahit na may libu-libong mga halimbawa, maaaring magkaroon ng mga problema sa mga hula ng computer. 00:01:15.880 --> 00:01:20.660 Kung kinokolekta lang ang data ng X-ray mula sa mga lalaki, kung gayon ang mga hula ng computer ay maaaring gumana lang sa mga lalaki 00:01:21.880 --> 00:01:26.300 Maaaring hindi nito makilala ang mga sakit kapag hiniling na i-diagnose ang X-ray ng isang babae. 00:01:26.620 --> 00:01:30.820 Ang blind spot na ito sa data ng pagsasanay ay lumilikha ng tinatawag na bias. 00:01:31.260 --> 00:01:36.420 Pinapaboran ng bias na data ang ilang bagay, at inaalis ang priyoridad o hindi sinasama ang iba. 00:01:36.780 --> 00:01:41.800 Depende sa kung paano kinokolekta ang data ng pagsasanay, sino ang gumagawa ng pagkolekta, at kung paano ipinapasok ang data, 00:01:41.800 --> 00:01:45.340 may pagkakataon na ang pagiging bias ng tao ay kasama sa data. 00:01:45.880 --> 00:01:50.700 Sa pamamagitan ng pag-aaral mula sa bias data, ang computer ay maaaring gumawa ng mga bias na hula, 00:01:50.780 --> 00:01:54.320 alam man ito ng mga taong nagsasanay sa computer o hindi. 00:01:54.760 --> 00:01:58.400 Kapag tumitingin ka sa data ng pagsasanay, tanungin ang sarili mo ng dalawang tanong: 00:01:58.640 --> 00:02:01.600 Ito ba ay sapat na data upang tumpak na sanayin ang computer? 00:02:02.320 --> 00:02:06.860 At, kinakatawan ba ng data na ito ang lahat ng posibleng senaryo at user na walang bias? 00:02:07.460 --> 00:02:11.040 Ito ay kung saan ikaw, bilang pagsasanay ng tao, ay gumaganap ng mahalagang papel. 00:02:11.160 --> 00:02:14.500 Ikaw ang bahalang magbigay sa machine mo ng walang pinapanigan na data. 00:02:14.500 --> 00:02:18.160 Nangangahulugan iyon ng pagkolekta ng toneladang mga halimbawa, mula sa maraming mga mapagkukunan. 00:02:19.300 --> 00:02:22.580 Tandaan, kapag kumuha at pumili ka ng data para sa pag-aaral ng machine, 00:02:22.580 --> 00:02:26.660 pinoprogram mo ang algorithm, gamit ang data ng pagsasanay sa halip na code. 00:02:27.100 --> 00:02:29.780 Ang data AY ang code. 00:02:30.180 --> 00:02:34.680 Kung mas mahusay ang data na ibibigay mo, mas mahusay na matututo ang computer.