WEBVTT 00:00:06.070 --> 00:00:07.120 Ahoj, som John. 00:00:07.510 --> 00:00:10.140 Vediem tímy vyhľadávania a strojového učenia v Google. 00:00:12.130 --> 00:00:14.230 Myslím, že je úžasne inšpirujúce, 00:00:14.230 --> 00:00:16.214 že ľudia na celom svete 00:00:16.215 --> 00:00:19.160 sa obracajú na vyhľadávače, aby kládli triviálne otázky 00:00:19.160 --> 00:00:20.930 aj neuveriteľne dôležité otázky. 00:00:20.930 --> 00:00:23.450 Je preto obrovskou zodpovednosťou poskytnúť im 00:00:23.450 --> 00:00:24.864 najlepšie možné odpovede. 00:00:26.710 --> 00:00:30.610 Ahoj, volám sa Akshaya a pracujem v tíme Bing Search. 00:00:30.910 --> 00:00:33.190 Mnohokrát sa zaoberáme 00:00:33.190 --> 00:00:35.800 umelou inteligenciou a strojovým učením, 00:00:35.830 --> 00:00:39.010 musíme sa však zamerať na to, ako ho používatelia používajú, 00:00:39.140 --> 00:00:42.390 pretože chceme mať pozitívny vplyv na našu spoločnosť. 00:00:43.780 --> 00:00:45.400 Položme si jednoduchú otázku. 00:00:45.820 --> 00:00:48.070 Ako dlho trvá cesta na Mars? 00:00:49.330 --> 00:00:50.950 Odkiaľ pochádzajú tieto výsledky 00:00:51.370 --> 00:00:54.100 a prečo jedno bolo uvedené pred tým druhým? 00:00:55.700 --> 00:00:58.150 Dobre, poďme do toho a uvidíme, ako vyhľadávač 00:00:58.150 --> 00:00:59.860 spraví z vašej požiadavky výsledok. 00:01:00.690 --> 00:01:03.360 Prvá vec, ktorú potrebujete vedieť pri vyhľadávaní, je, 00:01:03.430 --> 00:01:06.480 že vyhľadávač v skutočnosti nechodí na web, aby vykonal 00:01:06.480 --> 00:01:08.010 vyhľadávanie v reálnom čase. 00:01:08.140 --> 00:01:10.610 Je to preto, že na internete existuje viac ako 00:01:10.610 --> 00:01:14.140 miliarda webových stránok a každú minútu pribudnú stovky ďalších. 00:01:14.140 --> 00:01:16.210 Ak by vyhľadávač musel prehľadávať všetky 00:01:16.240 --> 00:01:18.690 jednotlivé stránky, aby našiel tú, ktorú hľadáte, 00:01:18.690 --> 00:01:20.120 trvalo by to večnosť. 00:01:20.500 --> 00:01:21.940 Na urýchlenie vyhľadávania 00:01:21.970 --> 00:01:24.940 vyhľadávače neustále prehľadávajú web, aby vopred zaznamenali 00:01:25.420 --> 00:01:28.560 informácie, ktoré by vám pomohli pri ďalšom vyhľadávaní. 00:01:28.930 --> 00:01:31.270 Pri vyhľadávaní informácií o ceste na Mars má teda 00:01:31.630 --> 00:01:33.700 vyhľadávač všetko, čo potrebuje, aby vám 00:01:33.700 --> 00:01:35.728 mohol poskytnúť odpoveď v reálnom čase. 00:01:36.250 --> 00:01:37.540 Takto nejak to funguje. 00:01:37.900 --> 00:01:42.010 Internet je sieť stránok, ktoré sú prepojené hypertextovými odkazmi. 00:01:42.400 --> 00:01:44.680 Vo vyhľadávačoch je neustále spustený program 00:01:44.680 --> 00:01:47.380 s názvom Spider, ktorý prehľadáva tieto webové stránky 00:01:47.380 --> 00:01:49.040 a zhromažďuje o nich informácie. 00:01:49.780 --> 00:01:51.550 Vždy keď nájde hypertextový odkaz, 00:01:52.090 --> 00:01:55.000 sleduje ho, až kým nenavštívi každú stránku, 00:01:55.030 --> 00:01:57.240 ktorú nájde, na celom internete. 00:01:57.245 --> 00:01:59.170 Na každej stránke, ktorú Spider navštívi, 00:01:59.200 --> 00:02:02.320 zaznamená všetky informácie potrebné na vyhľadávanie tak, 00:02:02.500 --> 00:02:05.650 že ich pridá do špeciálnej databázy nazvanej index vyhľadávania. 00:02:07.166 --> 00:02:09.530 Vráťme sa späť k vyhľadávaniu vyššie 00:02:09.590 --> 00:02:11.990 a uvidíme, či môžeme zistiť, ako sa vyhľadávač 00:02:11.990 --> 00:02:13.333 dopátral k výsledkom. 00:02:13.640 --> 00:02:16.460 Keď sa spýtate, ako dlho trvá cesta na Mars, 00:02:16.640 --> 00:02:18.860 vyhľadávač vyhľadá každé z týchto slov 00:02:18.920 --> 00:02:21.410 v indexe vyhľadávania, aby okamžite získal zoznam 00:02:21.410 --> 00:02:24.500 všetkých stránok na internete, ktoré tieto slová obsahujú. 00:02:24.890 --> 00:02:26.870 Len hľadaním týchto výrazov vyhľadávania 00:02:26.870 --> 00:02:28.760 by sa mohli vrátiť milióny stránok, 00:02:28.760 --> 00:02:31.110 preto vyhľadávač musí byť schopný určiť 00:02:31.110 --> 00:02:33.120 najlepšie zhody, ktoré sa zobrazia prvé. 00:02:33.340 --> 00:02:36.010 Tu je to zložitejšie, pretože vyhľadávač 00:02:36.010 --> 00:02:38.040 bude možno musieť uhádnuť, čo hľadáte. 00:02:38.930 --> 00:02:41.360 Každý vyhľadávač používa svoj vlastný algoritmus 00:02:41.360 --> 00:02:44.230 na hodnotenie stránok podľa toho, čo si myslí, že chcete. 00:02:44.930 --> 00:02:47.660 Algoritmus hodnotenia vyhľadávača môže skontrolovať, 00:02:47.990 --> 00:02:50.360 či sa hľadaný výraz zobrazuje v názve stránky, 00:02:50.900 --> 00:02:53.820 skontroluje, či sa všetky slová zobrazujú vedľa seba, 00:02:54.520 --> 00:02:57.020 alebo ľubovoľný počet ďalších výpočtov, 00:02:57.020 --> 00:02:58.610 ktoré mu pomôžu lepšie určiť, 00:02:58.670 --> 00:03:01.420 ktoré stránky budete či nebudete chcieť vidieť. 00:03:02.960 --> 00:03:04.960 Google vynašiel najslávnejší algoritmus 00:03:04.960 --> 00:03:08.530 na výber najrelevantnejších výsledkov vyhľadávania, pričom zohľadnil, koľko 00:03:08.560 --> 00:03:11.230 ďalších webových stránok je s danou stránkou prepojených. 00:03:11.830 --> 00:03:14.140 Ide o to, že ak si veľa webových stránok myslí, 00:03:14.140 --> 00:03:15.660 že je webová stránka zaujímavá, 00:03:15.660 --> 00:03:17.940 pravdepodobne ide o stránku, ktorú hľadáte. 00:03:18.190 --> 00:03:20.020 Tento algoritmus má názov page rank, 00:03:20.590 --> 00:03:22.330 ale nie preto, že hodnotí weby, 00:03:22.570 --> 00:03:25.210 ale preto, že je ho vytvoril Larry Page, 00:03:25.480 --> 00:03:27.333 jeden zo zakladateľov Google. 00:03:27.940 --> 00:03:30.520 Pretože webová stránka pri návštevách často zarába, 00:03:30.820 --> 00:03:32.950 spammeri sa neustále snažia nájsť spôsob, 00:03:32.950 --> 00:03:35.741 ako vymyslieť vyhľadávací algoritmus tak, aby ich stránky 00:03:35.742 --> 00:03:37.931 boli vo výsledkoch uvedené vyššie. 00:03:38.260 --> 00:03:40.750 Vyhľadávače pravidelne aktualizujú svoje algoritmy, 00:03:40.750 --> 00:03:44.296 aby zabránili falošným alebo nedôveryhodným webom dostať sa na vrchol. 00:03:44.680 --> 00:03:47.350 Nakoniec je to na vás, aby ste si dali pozor na tieto 00:03:47.500 --> 00:03:49.450 stránky, ktoré sú nedôveryhodné, 00:03:49.690 --> 00:03:52.990 a pri ohľade na webovú adresu sa uistili, že je to spoľahlivý zdroj. 00:03:53.680 --> 00:03:55.390 Programy vyhľadávania sa stále 00:03:55.420 --> 00:03:58.420 vyvíjajú, aby vylepšili algoritmy, ktoré prinášajú lepšie 00:03:58.540 --> 00:04:00.460 a rýchlejšie výsledky ako ich konkurenti 00:04:01.000 --> 00:04:03.100 Dnešné vyhľadávače používajú aj informácie, 00:04:03.100 --> 00:04:06.820 ktoré ste výslovne neposkytli, na spresnenie vyhľadávania. 00:04:07.150 --> 00:04:10.120 Napríklad, ak by ste hľadali parky pre psov, veľa 00:04:10.240 --> 00:04:12.190 vyhľadávačov by vám poskytlo výsledky 00:04:12.190 --> 00:04:13.840 pre všetky parky pre psov v okolí, 00:04:14.080 --> 00:04:16.260 aj keď ste nezadali svoju polohu. 00:04:17.800 --> 00:04:20.530 Moderné vyhľadávače rozumejú viac 00:04:20.530 --> 00:04:22.060 ako len slovám na stránke, 00:04:22.300 --> 00:04:24.970 ale aj tomu, čo v skutočnosti znamenajú, aby našli tú 00:04:24.970 --> 00:04:26.750 najlepšiu zhodu s tým, čo hľadáte. 00:04:27.130 --> 00:04:29.980 Napríklad, ak vyhľadávate „rýchly nadhadzovač“, 00:04:30.280 --> 00:04:32.300 bude vedieť, že hľadáte športovca. 00:04:32.500 --> 00:04:34.450 Ale ak vyhľadávate veľký džbán, 00:04:34.450 --> 00:04:36.730 nájde vám možnosti pre vašu kuchyňu. 00:04:38.420 --> 00:04:41.910 Aby sme lepšie porozumeli slovám, používame niečo, čo sa nazýva strojové 00:04:41.910 --> 00:04:43.985 učenie, druh umelej inteligencie. 00:04:43.985 --> 00:04:46.050 Umožňuje algoritmom vyhľadávania 00:04:46.090 --> 00:04:48.400 vyhľadávať nielen jednotlivé písmená či slová 00:04:48.400 --> 00:04:51.280 na stránke, ale porozumieť základnému významu slov. 00:04:53.690 --> 00:04:55.850 Internet rastie exponenciálne, 00:04:56.210 --> 00:04:59.810 ale ak tímy, ktoré navrhujú vyhľadávače, vykonávajú naše zadania správne, 00:05:00.080 --> 00:05:04.090 požadované informácie by mali byť vždy dostupné len po pár kliknutiach.