1 00:00:00,000 --> 00:00:05,970 ИНТЕРНЕТ КАК РАБОТАЕТ ПОИСК 2 00:00:05,970 --> 00:00:07,855 Привет, меня зовут Джон. 3 00:00:07,855 --> 00:00:10,824 Я руковожу командой поиска и машинного обучения в Google 4 00:00:12,100 --> 00:00:14,231 Меня очень вдохновляет то, 5 00:00:14,231 --> 00:00:16,363 что люди по всему миру 6 00:00:16,363 --> 00:00:17,850 обращаются к поисковым системам, 7 00:00:17,850 --> 00:00:19,159 чтобы получить ответы 8 00:00:19,159 --> 00:00:20,158 на тривиальные 9 00:00:20,158 --> 00:00:21,704 и на очень важные вопросы. 10 00:00:21,704 --> 00:00:23,338 Это большая ответственность — 11 00:00:23,338 --> 00:00:24,972 дать им лучшие ответы. 12 00:00:26,725 --> 00:00:28,971 Привет, меня зовут Акшая. 13 00:00:28,971 --> 00:00:31,218 Я работаю в команде поиска в Bing. 14 00:00:31,499 --> 00:00:33,399 Мы часто используем 15 00:00:33,399 --> 00:00:34,769 искусственный интеллект 16 00:00:34,769 --> 00:00:35,860 и машинное обучение. 17 00:00:35,885 --> 00:00:37,535 Нам также нужно выяснить, 18 00:00:37,535 --> 00:00:39,485 как это будут использовать пользователи, 19 00:00:39,485 --> 00:00:40,721 потому что мы хотим внести 20 00:00:40,721 --> 00:00:42,257 свой вклад в общество. 21 00:00:43,267 --> 00:00:45,833 Зададим простой вопрос: 22 00:00:45,833 --> 00:00:49,406 Сколько времени займет путешествие к Марсу? 23 00:00:49,406 --> 00:00:51,507 Откуда берутся эти результаты? 24 00:00:51,507 --> 00:00:54,835 И почему эти ответы показаны первыми? 25 00:00:55,875 --> 00:00:57,434 Давайте посмотрим, 26 00:00:57,434 --> 00:00:58,914 как поисковая система превращает 27 00:00:58,914 --> 00:01:00,234 ваш запрос в результат. 28 00:01:00,474 --> 00:01:02,549 Первое, что нужно знать — 29 00:01:02,549 --> 00:01:04,138 когда вы задаете вопрос, 30 00:01:04,138 --> 00:01:05,723 поисковый движок не уходит в Интернет 31 00:01:05,723 --> 00:01:07,341 чтобы искать информацию на сайтах 32 00:01:07,341 --> 00:01:08,479 в режиме реального времени. 33 00:01:08,479 --> 00:01:11,173 Сейчас существуют миллиарды сайтов, 34 00:01:11,173 --> 00:01:14,378 и ежеминутно создаются сотни новых. 35 00:01:14,378 --> 00:01:16,344 Если бы поисковой системе пришлось 36 00:01:16,344 --> 00:01:17,747 пересматривать каждый из них 37 00:01:17,747 --> 00:01:18,670 при каждом запросе 38 00:01:18,670 --> 00:01:20,489 это заняло бы вечность. 39 00:01:20,689 --> 00:01:22,418 Поэтому для ускорения поиска 40 00:01:22,418 --> 00:01:23,907 поисковые системы постоянно 41 00:01:23,907 --> 00:01:25,202 сканируют интернет заранее 42 00:01:25,202 --> 00:01:26,458 и записывают информацию, 43 00:01:26,458 --> 00:01:27,726 которая может позже помочь 44 00:01:27,726 --> 00:01:28,864 ответить на ваш вопрос. 45 00:01:28,984 --> 00:01:30,852 То есть, когда вы ищете информацию 46 00:01:30,852 --> 00:01:31,946 о путешествии на Марс, 47 00:01:31,946 --> 00:01:33,101 поисковая система 48 00:01:33,101 --> 00:01:34,659 уже имеет нужную информацию, 49 00:01:34,659 --> 00:01:35,867 чтобы дать вам ответ. 50 00:01:36,518 --> 00:01:37,926 Вот как это работает. 51 00:01:38,609 --> 00:01:40,294 Интернет — это сеть страниц, 52 00:01:40,294 --> 00:01:42,240 связанных между собой гиперссылками. 53 00:01:42,240 --> 00:01:43,565 Поисковые движки постоянно 54 00:01:43,565 --> 00:01:44,740 запускают программы, 55 00:01:44,740 --> 00:01:46,301 которые называются "пауками". 56 00:01:46,315 --> 00:01:47,989 Они перемещаются по страницам 57 00:01:47,989 --> 00:01:49,537 и собирают информацию о них. 58 00:01:49,537 --> 00:01:51,944 Найдя гиперссылки, 59 00:01:51,944 --> 00:01:53,673 паук переходит по ним, 60 00:01:53,673 --> 00:01:55,519 пока не просмотрит все страницы, 61 00:01:55,519 --> 00:01:57,450 которые сможет найти во всем интернете. 62 00:01:57,450 --> 00:01:59,142 О каждой посещенной странице 63 00:01:59,142 --> 00:02:00,663 паук записывает всю информацию, 64 00:02:00,663 --> 00:02:02,489 которая может понадобиться для поиска, 65 00:02:02,489 --> 00:02:03,805 в специальную базу данных, 66 00:02:03,805 --> 00:02:05,110 которая называется 67 00:02:05,110 --> 00:02:06,316 "поисковый индекс". 68 00:02:07,626 --> 00:02:09,716 Вернемся к предыдущему запросу, 69 00:02:09,716 --> 00:02:11,807 и посмотрим, как поисковая система 70 00:02:11,807 --> 00:02:13,417 получает результаты. 71 00:02:13,417 --> 00:02:14,851 Когда вы спросили, 72 00:02:14,851 --> 00:02:17,036 сколько времени занимает путешествие к Марсу, 73 00:02:17,036 --> 00:02:18,100 поисковая машина ищет 74 00:02:18,100 --> 00:02:19,280 каждое из этих слов 75 00:02:19,280 --> 00:02:20,381 в поисковом индексе 76 00:02:20,381 --> 00:02:21,508 и сразу получает список 77 00:02:21,508 --> 00:02:23,253 всех страниц в Интернете, 78 00:02:23,253 --> 00:02:25,326 которые содержат эти слова. 79 00:02:25,326 --> 00:02:27,261 Но простое совпадение 80 00:02:27,261 --> 00:02:29,289 возвращает миллионы страниц, 81 00:02:29,289 --> 00:02:30,673 поэтому поисковой системе 82 00:02:30,673 --> 00:02:32,187 нужно найти лучшее соответствие 83 00:02:32,187 --> 00:02:33,479 и показать его первым. 84 00:02:33,479 --> 00:02:35,101 Здесь все становится сложнее, 85 00:02:35,101 --> 00:02:36,617 потому что поисковая система 86 00:02:36,617 --> 00:02:38,464 должна угадать, что именно вы ищете. 87 00:02:39,344 --> 00:02:40,572 Каждая поисковая система 88 00:02:40,572 --> 00:02:41,716 использует собственный алгоритм 89 00:02:41,716 --> 00:02:42,733 для построения рейтинга страниц, 90 00:02:42,733 --> 00:02:44,120 основываясь на предположении 91 00:02:44,120 --> 00:02:45,343 о том, что вам нужно. 92 00:02:45,343 --> 00:02:48,170 Например, алгоритм может проверять, 93 00:02:48,170 --> 00:02:49,583 содержатся ли искомые слова 94 00:02:49,583 --> 00:02:50,997 в заголовке страницы, 95 00:02:50,997 --> 00:02:54,599 или эти слова находятся рядом друг с другом, 96 00:02:54,599 --> 00:02:56,750 или использовать другие расчеты, 97 00:02:56,750 --> 00:02:58,902 которые помогут лучше определить, 98 00:02:58,902 --> 00:03:00,995 какие страницы вы бы хотели бы видеть, 99 00:03:00,995 --> 00:03:03,089 а какие — нет. 100 00:03:03,089 --> 00:03:05,516 Google изобрел самый известный алгоритм 101 00:03:05,516 --> 00:03:07,944 выбора наиболее подходящих результатов поиска. 102 00:03:07,944 --> 00:03:10,055 Он учитывает, сколько других веб-страниц 103 00:03:10,055 --> 00:03:12,166 содержат ссылку на эту страницу. 104 00:03:12,166 --> 00:03:13,484 Идея заключается в том, 105 00:03:13,484 --> 00:03:15,348 что если многие другие сайты считают 106 00:03:15,348 --> 00:03:16,763 эту страницу интересной, 107 00:03:16,763 --> 00:03:18,399 то, возможно, вам она тоже подойдет. 108 00:03:18,399 --> 00:03:21,099 Этот алгоритм называется Пейдж Рэнк (Рейтинг страницы). 109 00:03:21,099 --> 00:03:23,009 Но не потому, что он создает рейтинг страниц, 110 00:03:23,009 --> 00:03:25,293 а потому, что назван в честь 111 00:03:25,293 --> 00:03:28,007 его автора и соучредителя Google — Ларри Пейджа. 112 00:03:28,007 --> 00:03:30,169 Поскольку сайты могут зарабатывать деньги 113 00:03:30,169 --> 00:03:31,535 за посещение пользователями, 114 00:03:31,535 --> 00:03:32,971 спамеры пытаются найти способы, 115 00:03:32,971 --> 00:03:35,819 чтобы обмануть поисковые алгоритмы, и сделать так, чтобы 116 00:03:35,819 --> 00:03:38,521 их страницы показывались выше в результатах. 117 00:03:38,521 --> 00:03:39,901 Поисковые системы регулярно 118 00:03:39,901 --> 00:03:41,242 обновляют алгоритмы, 119 00:03:41,242 --> 00:03:42,523 чтобы не дать фейковым 120 00:03:42,523 --> 00:03:43,555 и ненадежным сайтам 121 00:03:43,555 --> 00:03:45,097 добраться до вершины результатов поиска. 122 00:03:45,097 --> 00:03:47,750 Но, в конце концов, вы сами должны следить, 123 00:03:47,750 --> 00:03:49,647 насколько надежным является сайт, 124 00:03:49,647 --> 00:03:51,574 проверяя его адрес 125 00:03:51,574 --> 00:03:54,014 и убеждаясь, что это надежный источник. 126 00:03:54,014 --> 00:03:56,181 Поисковые программы постоянно совершенствуются, 127 00:03:56,181 --> 00:03:58,308 улучшая алгоритмы, чтобы выдавать 128 00:03:58,308 --> 00:04:01,231 результаты лучше и быстрее, чем конкуренты. 129 00:04:01,231 --> 00:04:02,707 Современные поисковые движки 130 00:04:02,707 --> 00:04:04,245 используют даже ту информацию, 131 00:04:04,245 --> 00:04:05,773 которую вы не давали явным образом, 132 00:04:05,773 --> 00:04:07,463 чтобы сузить результаты поиска. 133 00:04:07,463 --> 00:04:09,180 Например, если Вы будете искать 134 00:04:09,180 --> 00:04:10,897 "площадки для выгула собак", 135 00:04:10,897 --> 00:04:12,976 многие поисковые системы выдадут результаты 136 00:04:12,976 --> 00:04:14,575 с площадками неподалеку от вас, 137 00:04:14,575 --> 00:04:17,533 даже если вы не указали свое местоположение. 138 00:04:17,823 --> 00:04:19,352 Современные поисковые системы 139 00:04:19,352 --> 00:04:20,742 понимают больше, 140 00:04:20,742 --> 00:04:22,481 чем просто слова на страницах. 141 00:04:22,481 --> 00:04:24,524 Они анализируют их значение, 142 00:04:24,524 --> 00:04:26,988 чтобы показать вам именно то, что вы ищете. 143 00:04:26,988 --> 00:04:29,372 Например, если вы ищете 144 00:04:29,372 --> 00:04:31,036 "fast pitcher" 145 00:04:31,036 --> 00:04:33,400 Вы получите информацию о спортсмене. 146 00:04:33,467 --> 00:04:35,516 Если же вы ищете "large pitcher", 147 00:04:35,516 --> 00:04:37,840 то получите информацию о кувшине. 148 00:04:38,954 --> 00:04:40,484 Чтобы лучше понимать слова, 149 00:04:40,484 --> 00:04:42,083 мы используем машинное обучение. 150 00:04:42,083 --> 00:04:44,097 Это вид искусственного интеллекта, 151 00:04:44,097 --> 00:04:46,533 который помогает поисковым алгоритмам 152 00:04:46,533 --> 00:04:48,673 не только находить отдельные слова или фразы на страницах, 153 00:04:48,673 --> 00:04:51,793 но и понимать значение этих слов. 154 00:04:53,777 --> 00:04:55,604 Интернет растет экспоненциально, 155 00:04:55,604 --> 00:04:57,432 но если команды, которые 156 00:04:57,432 --> 00:04:59,243 разрабатывают поисковые алгоритмы, 157 00:04:59,243 --> 00:05:00,674 хорошо выполнять свою работу, 158 00:05:00,674 --> 00:05:02,270 нужная вам информация 159 00:05:02,270 --> 00:05:03,428 всегда будет доступна 160 00:05:03,428 --> 00:05:04,706 за несколько кликов.