WEBVTT 00:00:06.070 --> 00:00:07.120 Cześć, nazywam się John. 00:00:07.510 --> 00:00:10.140 Kieruję zespołami ds. nauki wyszukiwania i maszyn w Google. 00:00:12.130 --> 00:00:14.230 Fakt, że ludzie na całym świecie 00:00:14.230 --> 00:00:16.214 sięgają po wyszukiwarki, aby stawiać 00:00:16.215 --> 00:00:19.160 proste pytania i pytania ogromnej wagi, 00:00:19.160 --> 00:00:20.930 niezwykle mnie inspiruje. 00:00:20.930 --> 00:00:23.450 Udzielenie im najlepszej odpowiedzi 00:00:23.450 --> 00:00:24.864 z możliwych to wielka odpowiedzialność. 00:00:26.710 --> 00:00:30.610 Cześć, nazywam się Akshaya i pracuję w zespole badan firmy Bing. 00:00:30.910 --> 00:00:33.190 Wielokrotnie zastanawiamy się nad sztuczną 00:00:33.190 --> 00:00:35.800 inteligencją i nauką maszynową, 00:00:35.830 --> 00:00:39.010 należy wziąć jednak pod uwagę to, jak będą z tego korzystać użytkownicy, 00:00:39.140 --> 00:00:42.390 ponieważ, w szerszym ujęciu, chcemy wywierać jakiś wpływ na społeczeństwo. 00:00:43.780 --> 00:00:45.400 Zadajmy proste pytanie. 00:00:45.820 --> 00:00:48.070 Ile trwa lot na Marsa? 00:00:49.330 --> 00:00:50.950 Skąd pochodzą wyniki 00:00:51.370 --> 00:00:54.100 i dlaczego konkretna pozycja pojawia się przed inną? 00:00:55.700 --> 00:00:58.150 Zgłębmy temat i zobaczcie jak wyszukiwarka 00:00:58.150 --> 00:00:59.860 przekształca zapytanie w wynik. 00:01:00.690 --> 00:01:03.360 Po pierwsze trzeba wiedzieć, że podczas wyszukiwania 00:01:03.430 --> 00:01:06.480 wyszukiwarka nie wchodzi do Internetu, 00:01:06.480 --> 00:01:08.010 aby poprowadzić wyszukiwanie w czasie rzeczywistym. 00:01:08.140 --> 00:01:10.610 Wynika to faktu istnienia ponad miliarda stron internetowych 00:01:10.610 --> 00:01:14.140 w Internecie, a w każdej minucie powstają setki nowych. 00:01:14.140 --> 00:01:16.210 Jeśli taka wyszukiwarka miała przejrzeć każdą, pojedynczą 00:01:16.240 --> 00:01:18.690 stronę, aby znaleźć to, czego ktoś szuka, 00:01:18.690 --> 00:01:20.120 trwałoby to w nieskończoność. 00:01:20.500 --> 00:01:21.940 Aby przyspieszyć wyszukiwanie, 00:01:21.970 --> 00:01:24.940 wyszukiwarki nieustannie przeglądają internet z wyprzedzeniem, 00:01:25.420 --> 00:01:28.560 aby zapisywać informacje, które mogą się przydać do wyszukiwania w przyszłości. 00:01:28.930 --> 00:01:31.270 Z tego powodu, gdy szukamy informacji o locie na Marsa, 00:01:31.630 --> 00:01:33.700 wyszukiwarka już posiada informacje potrzebne 00:01:33.700 --> 00:01:35.728 do udzielenia odpowiedzi w czasie w czasie rzeczywisym. 00:01:36.250 --> 00:01:37.540 A działa to w sposób następujący. 00:01:37.900 --> 00:01:42.010 Internet jest siecią stron połączonych ze sobą hiperłączami. 00:01:42.400 --> 00:01:44.680 Wyszukiwarki pracują przez cały czas korzystając z programu 00:01:44.680 --> 00:01:47.380 Spider, który przegląda te strony, 00:01:47.380 --> 00:01:49.040 aby zbierać informacje na ich temat. 00:01:49.780 --> 00:01:51.550 Za każdym razem, gdy znajdzie hiperłącze 00:01:52.090 --> 00:01:55.000 śledzi je, aż do momentu, gdy wejdzie na każdą stronę, 00:01:55.030 --> 00:01:57.240 jaką może znaleźć w całym Internecie. 00:01:57.335 --> 00:01:59.170 Z każdej strony, na którą wejdzie, 00:01:59.200 --> 00:02:02.320 Spider ewidencjonuje informacje, których może potrzebować do wyszukiwania, 00:02:02.500 --> 00:02:05.650 dodając specjalną bazę danych zwaną indeksem wyszukiwania. 00:02:07.166 --> 00:02:09.530 Wróćmy zatem do wcześniejszego wyszukiwania i sprawdźmy, 00:02:09.590 --> 00:02:11.990 czy jesteśmy w stanie dojść do tego, jak wyszukiwarka 00:02:11.990 --> 00:02:13.333 uzyskuje wyniki. 00:02:13.640 --> 00:02:16.460 Gdy padnie pytanie ile trwa lot na Marsa, 00:02:16.640 --> 00:02:18.860 wyszukiwarka sprawdza każde z słów 00:02:18.920 --> 00:02:21.410 w indeksie wyszukiwarki, aby natychmiast otrzymać wykaz 00:02:21.410 --> 00:02:24.500 wszystkich stron w Internecie, w których one występują. 00:02:24.890 --> 00:02:26.870 Szukanie terminów wyszukiwania 00:02:26.870 --> 00:02:28.760 może spowodować uzyskanie milionów stron, 00:02:28.760 --> 00:02:31.110 więc wyszukiwarka musi być w stanie zdecydować, 00:02:31.110 --> 00:02:33.120 co pasuje najlepiej i to pokazać na początku. 00:02:33.340 --> 00:02:36.010 I tutaj pojawia się pierwsza pułapka, ponieważ wyszukiwarka 00:02:36.010 --> 00:02:38.040 będzie musiała zgadywać, czego ktoś szuka. 00:02:38.930 --> 00:02:41.360 Każda wyszukiwarka posiada własny algorytm, 00:02:41.360 --> 00:02:44.230 porządkujący strony według tego, co według niej ma być znalezione. 00:02:44.930 --> 00:02:47.660 Algorytm rankingu wyszukiwarki jest w stanie sprawdzić, 00:02:47.990 --> 00:02:50.360 czy termin wyszukiwany pojawia się na stronie tytułowej, 00:02:50.900 --> 00:02:53.820 jest w stanie sprawdzić, czy wszystkie słowa pokazują się obok siebie, 00:02:54.520 --> 00:02:57.020 albo dowolną liczbę innych obliczeń, 00:02:57.020 --> 00:02:58.610 które pomagają określić, 00:02:58.670 --> 00:03:01.420 które strony szukający chce obejrzeć, a których nie. 00:03:02.960 --> 00:03:04.960 Google opracował najsłynniejszy algorytm 00:03:04.960 --> 00:03:08.530 wybierania najtrafniejszych wyników wyszukiwania z uwzględnieniem 00:03:08.560 --> 00:03:11.230 liczby innych stron internetowych powiązanych z daną stroną. 00:03:11.830 --> 00:03:14.140 Koncepcja polega na tym, że wiele witryn internetowych uzna, 00:03:14.140 --> 00:03:15.660 że strona internetowa jest ciekawa, 00:03:15.660 --> 00:03:17.940 zatem prawdopodobnie o tę chodzi szukającemu. 00:03:18.190 --> 00:03:20.020 Ten algorytm nosi nazwę "ranking Page'a", 00:03:20.590 --> 00:03:22.330 nie ze względu na to, że ustala kolejność stron, "page", po angielsku "strona", 00:03:22.570 --> 00:03:25.210 ale z uwagi na nazwisko twórcy, Larry'ego Page'a, 00:03:25.480 --> 00:03:27.333 który jest jednym z założycieli Google. 00:03:27.940 --> 00:03:30.520 Ponieważ często strona zarabia, gdy się na nią wchodzi, 00:03:30.820 --> 00:03:32.950 spamerzy nieustannie szukają sposobów 00:03:32.950 --> 00:03:35.741 złamania algorytmu wyszukiwania, aby ich stony 00:03:35.742 --> 00:03:37.931 plasowały się wyżej na liście wyników. 00:03:38.260 --> 00:03:40.750 Wyszukiwarki nieustannie aktualizują swoje algorytmy, 00:03:40.750 --> 00:03:44.296 aby nie dopuścić na miejsca czołowe podejrzanych stron. 00:03:44.680 --> 00:03:47.350 Ostatecznie jednak, to użytkownik musi uważać, czy 00:03:47.500 --> 00:03:49.450 takie strony nie są podejrzane 00:03:49.690 --> 00:03:52.990 sprawdzając adres internetowy i sprawdzając, czy jest to rzetelne źródło. 00:03:53.680 --> 00:03:55.390 Takie programy zawsze starają się 00:03:55.420 --> 00:03:58.420 doskonalić swoje algorytmy tak, aby uzyskiwać lepsze wyniki, 00:03:58.540 --> 00:04:00.460 szybciej od konkurencji. 00:04:01.000 --> 00:04:03.100 Obecnie wyszukiwarki korzystają nawet z takich informacji, 00:04:03.100 --> 00:04:06.820 których wyszukujący nie podał, aby pomóc zawęzić zakres wyszukiwania. 00:04:07.150 --> 00:04:10.120 Na przykład, jeśli ktoś szuka parku, do którego można wchodzić z psem, 00:04:10.240 --> 00:04:12.190 wiele wyszukiwarek podaje wyniki 00:04:12.190 --> 00:04:13.840 w postaci wszystkie parki w pobliżu. do których można wchodzić z psem, 00:04:14.080 --> 00:04:16.260 mimo, że szukający nie wpisał swojej lokalizacji. 00:04:17.800 --> 00:04:20.530 Nowoczesne wyszukiwarki rozumieją również więcej, 00:04:20.530 --> 00:04:22.060 niż podają słowa na stronie, 00:04:22.300 --> 00:04:24.970 czyli co one rzeczywiście oznaczają, aby uzyskać wyniki, które najlepiej 00:04:24.970 --> 00:04:26.750 pasują do kryteriów wyszukiwania. 00:04:27.130 --> 00:04:29.980 Przykładowo, jeśli ktoś poszukuje szybkiego miotacza - po angielsku "pitcher", 00:04:30.280 --> 00:04:32.300 wyszukiwarka wie, że szukany jest sportowiec. 00:04:32.500 --> 00:04:34.450 Ale gdy szukamy wielkiego dzbana, po angielsku również "pitcher", 00:04:34.450 --> 00:04:36.730 znajdzie opcje wyposażenia kuchni. 00:04:38.420 --> 00:04:41.910 Aby lepiej rozumieć słowa korzystamy z tzw, uczenia maszynowego, 00:04:41.910 --> 00:04:43.985 rodzaju sztucznej inteligencji. 00:04:43.985 --> 00:04:46.050 Umożliwia to algorytmom wyszukiwania szukać 00:04:46.090 --> 00:04:48.400 już nie pojedynczych liter lub słów na stronie, 00:04:48.400 --> 00:04:51.280 ale rozumie znaczenie, jakie kryje się za parawanem słów. 00:04:53.690 --> 00:04:55.850 Internet rozrasta się w postępie geometrycznym, 00:04:56.210 --> 00:04:59.810 ale jeśli zespoły odpowiadające za wyszukiwarki będą się przykładać do pracy, 00:05:00.080 --> 00:05:04.090 potrzebne nam informacje znajdą się zawsze w odległości "kilku uderzeń klawiszy".