WEBVTT 00:00:06.070 --> 00:00:07.120 Magandang araw, ako si John. 00:00:07.510 --> 00:00:10.140 PInangungunahan ko ang mga team ng search at machine learning sa Google. 00:00:12.130 --> 00:00:14.230 Sa tingin ko kamangha-manghang nakakahikayat 00:00:14.230 --> 00:00:16.214 na ang mga tao sa buong mundo 00:00:16.215 --> 00:00:19.160 ay bumabaling sa mga search engine upang magtanong ng mga walang kuwentang bagay 00:00:19.160 --> 00:00:20.930 at mga hindi kapani-paniwalang mahalagang tanong. 00:00:20.930 --> 00:00:23.450 Kaya ito'y malaking responsibilidad na bigyan sila 00:00:23.450 --> 00:00:24.864 ng mga pinakamagaling na sagot na magagawa natin. 00:00:26.710 --> 00:00:30.610 Magandang araw, ako si Akshaya at nagtatrabaho ako sa Bing search team. 00:00:30.910 --> 00:00:33.190 May napakaraming pagkakataon kung saan magsisimula kami sa pagtingin 00:00:33.190 --> 00:00:35.800 sa artificial intelligence at machine learning, 00:00:35.830 --> 00:00:39.010 pero kailangan naming tingnan kung paano gagamitin ng mga gumagamit ito, 00:00:39.140 --> 00:00:42.390 dahil sa katapusan ng araw, gusto nating gumawa ng epekto sa lipunan. 00:00:43.780 --> 00:00:45.400 Magtanong tayo ng simpleng tanong. 00:00:45.820 --> 00:00:48.070 Gaano katagal aabutin ang biyahe sa Mars? 00:00:49.330 --> 00:00:50.950 Saan nanggaling ang mga resultang ito 00:00:51.370 --> 00:00:54.100 at bakit nakalista ito bago ng iba? 00:00:55.700 --> 00:00:58.150 Okey, sisid tayo at tingnan kung paano ginawa 00:00:58.150 --> 00:00:59.860 ng search engine ang hiling mo bilang resulta. 00:01:00.690 --> 00:01:03.360 Ang unang bagay na kailangan mong malaman ay kapag ginawa mo ang paghahanap, 00:01:03.430 --> 00:01:06.480 ang search engine ay hindi tunay na tumutungo sa World Wide Web 00:01:06.480 --> 00:01:08.010 upang paandarin ang paghahanap mo sa totoong oras. 00:01:08.140 --> 00:01:10.610 At iyan ay dahil may mahigit isang bilyong website 00:01:10.610 --> 00:01:14.140 sa internet at daan-daan pa ay ginagawa sa bawat minuto. 00:01:14.140 --> 00:01:16.210 Kaya kailangang maghanap ang search engine sa 00:01:16.240 --> 00:01:18.690 bawat isang site upang hanapin ang gusto mo, 00:01:18.690 --> 00:01:20.120 aabutin lang ito magpakailanman. 00:01:20.500 --> 00:01:21.940 Kaya upang gawing mas mabilis ang paghahanap, 00:01:21.970 --> 00:01:24.940 ang mga search engine ay panay na ini-scan ang web nang maaga 00:01:25.420 --> 00:01:28.560 upang irekord ang impormasyon na maaaring makatulong sa iyong paghahanap sa kinalaunan. 00:01:28.930 --> 00:01:31.270 Sa paraang iyan, kapag naghanap ka tungkol sa biyahe sa Mars, 00:01:31.630 --> 00:01:33.700 ang search engine ay mayroon na ng kung ano ang kailangan nito 00:01:33.700 --> 00:01:35.728 upang bigyan ka ng sagot sa totoong oras. 00:01:36.250 --> 00:01:37.540 Narito kung paano ito gumagana. 00:01:37.900 --> 00:01:42.010 Ang internet ay isang web ng mga page na konektado sa isa't isa sa pamamagitan ng mga hyperlink. 00:01:42.400 --> 00:01:44.680 Ang mga search engine ay panay na nagpapatakbo ng isang program 00:01:44.680 --> 00:01:47.380 na tinatawag na Spider (Gagamba) na tumatawid sa mga web page na ito 00:01:47.380 --> 00:01:49.040 upang kolektahin ang impormasyon tungkol sa kanila. 00:01:49.780 --> 00:01:51.550 Sa bawat pagkakataon na nakahahanap ito ng hyperlink, 00:01:52.090 --> 00:01:55.000 sinusundan nito ito hanggang nabisita nito ang bawat page 00:01:55.030 --> 00:01:57.240 na mahahanap nito sa buong internet. 00:01:57.335 --> 00:01:59.170 Sa bawat page na binibisita ng spider, 00:01:59.200 --> 00:02:02.320 inirerekord nito ang anumang impormasyon na maaaring kailangan nito sa paghahanap 00:02:02.500 --> 00:02:05.650 sa pamamagitan ng pagdaragdag dito sa isang espesyal na database na tinatawag na search index. 00:02:07.166 --> 00:02:09.530 Ngayon, balik tayo sa paghahanap na nauna 00:02:09.590 --> 00:02:11.990 at tingnan kung malalaman natin kung paano ginawa 00:02:11.990 --> 00:02:13.333 ng search engine ang mga resulta. 00:02:13.640 --> 00:02:16.460 Kapag tinanong kung gaano katagal aabutin ang biyahe sa Mars, 00:02:16.640 --> 00:02:18.860 tinitingnan ng search engine ang bawat isa sa mga katagang iyon 00:02:18.920 --> 00:02:21.410 sa search index upang kaagad na kumuha ng isang listahan 00:02:21.410 --> 00:02:24.500 ng lahat ng mga page sa internet na naglalaman ng mga katagang iyon. 00:02:24.890 --> 00:02:26.870 Pero sa pagtingin lang sa mga search item na ito 00:02:26.870 --> 00:02:28.760 ay maaaring umani ng milyon-milyong page 00:02:28.760 --> 00:02:31.110 na kailangan ng search engine upang malaman 00:02:31.110 --> 00:02:33.120 ang mga magaling na resulta upang ipakita muna sa iyo. 00:02:33.340 --> 00:02:36.010 Dito nagiging mahirap dahil maaaring mangailangan 00:02:36.010 --> 00:02:38.040 ang search engine na hulaan kung ano ang hinahanap mo. 00:02:38.930 --> 00:02:41.360 Bawat search engine ay gumagamit ng sarili nitong algoritmo 00:02:41.360 --> 00:02:44.230 upang i-rank ang mga page base sa kung ano ang iniisip nito na gusto mo. 00:02:44.930 --> 00:02:47.660 Ang algoritmo sa pag-rank ng search engine ay magtse-check 00:02:47.990 --> 00:02:50.360 kung ang search term mo ay lumalabas sa page title, 00:02:50.900 --> 00:02:53.820 maaari nitong i-check kung ang lahat ng mga kataga ay lumalabas na magkakasunod sa isa't isa, 00:02:54.520 --> 00:02:57.020 o anumang numero ng ibang mga kalkulasyon 00:02:57.020 --> 00:02:58.610 na tumutulong dito na mas mahusay na malaman 00:02:58.670 --> 00:03:01.420 kung aling mga page ang gugustuhin mong makita at alin ang hindi. 00:03:02.960 --> 00:03:04.960 Inimbento ng Google ang pinaka sikat na algoritmo 00:03:04.960 --> 00:03:08.530 sa pagpili ng mga pinaka naaayong resulta ng paghahanap sa pamamagitan ng pagsasaalang-alang 00:03:08.560 --> 00:03:11.230 kung ilang ibang Web page ay naka-link sa ibinigay na page. 00:03:11.830 --> 00:03:14.140 Ang ideya ay kung maraming website ay nag-iisip 00:03:14.140 --> 00:03:15.660 na ang isang web page ay interesante, 00:03:15.660 --> 00:03:17.940 kung gayon malamang ito ang hinahanap mo. 00:03:18.190 --> 00:03:20.020 Ang algoritmong ito ay tinatawag na page rank, 00:03:20.590 --> 00:03:22.330 hindi dahil inira-rank nito ang mga web page, 00:03:22.570 --> 00:03:25.210 pero dahil ipinangalan ito sa imbentor nito, si Larry Page, 00:03:25.480 --> 00:03:27.333 na isa sa mga pundador ng Google. 00:03:27.940 --> 00:03:30.520 Dahil ang isang website ay madalas gumagawa ng pera kapag binibisita mo ito, 00:03:30.820 --> 00:03:32.950 panay na sinusubukan ng mga spammer na maghanap ng mga paraan 00:03:32.950 --> 00:03:35.741 upang manipulahin ang algoritmo ng paghahanap para ang kanilang mga page 00:03:35.742 --> 00:03:37.931 ay nakalistang mas mataas sa mga resulta. 00:03:38.260 --> 00:03:40.750 Regular na ina-update ng mga search engine ang kanilang mga algoritmo 00:03:40.750 --> 00:03:44.296 upang iwasan ang mga peke o hindi mapagkakatiwalaang site na umabot sa tuktok. 00:03:44.680 --> 00:03:47.350 Sa kahulihulihan, nasa sa iyo na magmatyag 00:03:47.500 --> 00:03:49.450 sa mga page na ito na hindi mapagkakatiwalaan 00:03:49.690 --> 00:03:52.990 sa pamamagitan ng pagtingin sa web address at paniniguro na maaasahang batis ito. 00:03:53.680 --> 00:03:55.390 Palaging nagbabago ang mga search program 00:03:55.420 --> 00:03:58.420 upang mapabuti ang mga algoritmo na bumabalik na may mga mas mahusay na resulta, 00:03:58.540 --> 00:04:00.460 mas mabilis na resulta kaysa kanilang kakumpetensiya. 00:04:01.000 --> 00:04:03.100 Ang mga search engine sa ngayon ay gumagamit pa rin ng impormasyon 00:04:03.100 --> 00:04:06.820 na hindi mo hayagang ibinibigay upang tulungan ka na pakitirin ang paghahanap mo. 00:04:07.150 --> 00:04:10.120 Kaya, halimbawa, kung naghanap ka ng mga parke ng aso, 00:04:10.240 --> 00:04:12.190 maraming search engine ay magbibigay sa iyo ng mga resulta 00:04:12.190 --> 00:04:13.840 para sa lahat ng mga parke ng aso na malapit, 00:04:14.080 --> 00:04:16.260 bagaman hindi mo nai-type ang lokasyon mo. 00:04:17.800 --> 00:04:20.530 Nauunawaan din ng mga modernong search engine na higit 00:04:20.530 --> 00:04:22.060 kaysa sa mga kataga lang sa isang page, 00:04:22.300 --> 00:04:24.970 pero ano ang tunay na kahulugan nila para malaman ang pinakamagaling 00:04:24.970 --> 00:04:26.750 na tumutugma sa kung ano ang hinahanap mo. 00:04:27.130 --> 00:04:29.980 Halimbawa, kung naghahanap ka ng mabilis na pitcher, 00:04:30.280 --> 00:04:32.300 malalaman nito na naghahanap ka ng isang atleta. 00:04:32.500 --> 00:04:34.450 Pero kung naghahanap ka ng malaking pitcher, 00:04:34.450 --> 00:04:36.730 hahanapan ka nito ng mga opsiyon para sa kusina mo. 00:04:38.420 --> 00:04:41.910 Upang mas mahusay na maunawaan ang mga kataga, gumagamit kami ng ilang bagay na tinatawag na machine learning, 00:04:41.910 --> 00:04:43.985 isang uri ng artificial intelligence. 00:04:43.985 --> 00:04:46.050 Ginagawa nito ang mga algoritmo ng paghahanap na hanapin 00:04:46.090 --> 00:04:48.400 hindi lang ang mga indibidwal na titik o kataga sa page, 00:04:48.400 --> 00:04:51.280 pero para maunawaan ang nakatagong kahulugan ng mga kataga. 00:04:53.690 --> 00:04:55.850 Lumalagong exponential ang internet, 00:04:56.210 --> 00:04:59.810 pero kung ang mga team na nagdidisenyo ng mga search engine ay ginagawa nang tama ang ating mga trabaho, 00:05:00.080 --> 00:05:04.090 ang impormasyon na gusto mo ay dapat palaging aabot ng ilang keystroke lang.