0:00:00.000,0:00:05.970 ИНТЕРНЕТ[br]КАК РАБОТАЕТ ПОИСК 0:00:05.970,0:00:07.855 Привет, меня зовут Джон. 0:00:07.855,0:00:10.824 Я руковожу командой поиска[br]и машинного обучения в Google 0:00:12.100,0:00:14.231 Меня очень вдохновляет то, 0:00:14.231,0:00:16.363 что люди по всему миру 0:00:16.363,0:00:17.850 обращаются к поисковым системам, 0:00:17.850,0:00:19.159 чтобы получить ответы 0:00:19.159,0:00:20.158 на тривиальные 0:00:20.158,0:00:21.704 и на очень важные вопросы. 0:00:21.704,0:00:23.338 Это большая ответственность — 0:00:23.338,0:00:24.972 дать им лучшие ответы. 0:00:26.725,0:00:28.971 Привет, меня зовут Акшая. 0:00:28.971,0:00:31.218 Я работаю в команде поиска в Bing. 0:00:31.499,0:00:33.399 Мы часто используем 0:00:33.399,0:00:34.769 искусственный интеллект 0:00:34.769,0:00:35.860 и машинное обучение. 0:00:35.885,0:00:37.535 Нам также нужно выяснить, 0:00:37.535,0:00:39.485 как это будут использовать пользователи, 0:00:39.485,0:00:40.721 потому что мы хотим внести 0:00:40.721,0:00:42.257 свой вклад в общество. 0:00:43.267,0:00:45.833 Зададим простой вопрос: 0:00:45.833,0:00:49.406 Сколько времени [br]займет путешествие к Марсу? 0:00:49.406,0:00:51.507 Откуда берутся эти результаты? 0:00:51.507,0:00:54.835 И почему эти ответы показаны первыми? 0:00:55.875,0:00:57.434 Давайте посмотрим, 0:00:57.434,0:00:58.914 как поисковая система превращает 0:00:58.914,0:01:00.234 ваш запрос в результат. 0:01:00.474,0:01:02.549 Первое, что нужно знать — 0:01:02.549,0:01:04.138 когда вы задаете вопрос, 0:01:04.138,0:01:05.723 поисковый движок не уходит в Интернет 0:01:05.723,0:01:07.341 чтобы искать информацию на сайтах 0:01:07.341,0:01:08.479 в режиме реального времени. 0:01:08.479,0:01:11.173 Сейчас существуют миллиарды сайтов, 0:01:11.173,0:01:14.378 и ежеминутно создаются сотни новых. 0:01:14.378,0:01:16.344 Если бы поисковой системе пришлось 0:01:16.344,0:01:17.747 пересматривать каждый из них 0:01:17.747,0:01:18.670 при каждом запросе 0:01:18.670,0:01:20.489 это заняло бы вечность. 0:01:20.689,0:01:22.418 Поэтому для ускорения поиска 0:01:22.418,0:01:23.907 поисковые системы постоянно 0:01:23.907,0:01:25.202 сканируют интернет заранее 0:01:25.202,0:01:26.458 и записывают информацию, 0:01:26.458,0:01:27.726 которая может позже помочь 0:01:27.726,0:01:28.864 ответить на ваш вопрос. 0:01:28.984,0:01:30.852 То есть, когда вы ищете информацию 0:01:30.852,0:01:31.946 о путешествии на Марс, 0:01:31.946,0:01:33.101 поисковая система 0:01:33.101,0:01:34.659 уже имеет нужную информацию, 0:01:34.659,0:01:35.867 чтобы дать вам ответ. 0:01:36.518,0:01:37.926 Вот как это работает. 0:01:38.609,0:01:40.294 Интернет — это сеть страниц, 0:01:40.294,0:01:42.240 связанных между собой гиперссылками. 0:01:42.240,0:01:43.565 Поисковые движки постоянно 0:01:43.565,0:01:44.740 запускают программы, 0:01:44.740,0:01:46.301 которые называются "пауками". 0:01:46.315,0:01:47.989 Они перемещаются по страницам 0:01:47.989,0:01:49.537 и собирают информацию о них. 0:01:49.537,0:01:51.944 Найдя гиперссылки, 0:01:51.944,0:01:53.673 паук переходит по ним, 0:01:53.673,0:01:55.519 пока не просмотрит все страницы, 0:01:55.519,0:01:57.450 которые сможет найти во всем интернете. 0:01:57.450,0:01:59.142 О каждой посещенной странице 0:01:59.142,0:02:00.663 паук записывает всю информацию, 0:02:00.663,0:02:02.489 которая может понадобиться для поиска, 0:02:02.489,0:02:03.805 в специальную базу данных, 0:02:03.805,0:02:05.110 которая называется 0:02:05.110,0:02:06.316 "поисковый индекс". 0:02:07.626,0:02:09.716 Вернемся к предыдущему запросу, 0:02:09.716,0:02:11.807 и посмотрим, как поисковая система 0:02:11.807,0:02:13.417 получает результаты. 0:02:13.417,0:02:14.851 Когда вы спросили, 0:02:14.851,0:02:17.036 сколько времени занимает [br]путешествие к Марсу, 0:02:17.036,0:02:18.100 поисковая машина ищет 0:02:18.100,0:02:19.280 каждое из этих слов 0:02:19.280,0:02:20.381 в поисковом индексе 0:02:20.381,0:02:21.508 и сразу получает список 0:02:21.508,0:02:23.253 всех страниц в Интернете, 0:02:23.253,0:02:25.326 которые содержат эти слова. 0:02:25.326,0:02:27.261 Но простое совпадение 0:02:27.261,0:02:29.289 возвращает миллионы страниц, 0:02:29.289,0:02:30.673 поэтому поисковой системе 0:02:30.673,0:02:32.187 нужно найти лучшее соответствие 0:02:32.187,0:02:33.479 и показать его первым. 0:02:33.479,0:02:35.101 Здесь все становится сложнее, 0:02:35.101,0:02:36.617 потому что поисковая система 0:02:36.617,0:02:38.464 должна угадать, что именно вы ищете. 0:02:39.344,0:02:40.572 Каждая поисковая система 0:02:40.572,0:02:41.716 использует собственный алгоритм 0:02:41.716,0:02:42.733 для построения рейтинга страниц, 0:02:42.733,0:02:44.120 основываясь на предположении 0:02:44.120,0:02:45.343 о том, что вам нужно. 0:02:45.343,0:02:48.170 Например, алгоритм может проверять, 0:02:48.170,0:02:49.583 содержатся ли искомые слова 0:02:49.583,0:02:50.997 в заголовке страницы, 0:02:50.997,0:02:54.599 или эти слова находятся рядом друг с другом, 0:02:54.599,0:02:56.750 или использовать другие расчеты, 0:02:56.750,0:02:58.902 которые помогут лучше определить, 0:02:58.902,0:03:00.995 какие страницы вы бы хотели бы видеть, 0:03:00.995,0:03:03.089 а какие — нет. 0:03:03.089,0:03:05.516 Google изобрел самый известный алгоритм 0:03:05.516,0:03:07.944 выбора наиболее подходящих [br]результатов поиска. 0:03:07.944,0:03:10.055 Он учитывает, сколько других веб-страниц 0:03:10.055,0:03:12.166 содержат ссылку на эту страницу. 0:03:12.166,0:03:13.484 Идея заключается в том, 0:03:13.484,0:03:15.348 что если многие другие сайты считают 0:03:15.348,0:03:16.763 эту страницу интересной, 0:03:16.763,0:03:18.399 то, возможно, вам она тоже подойдет. 0:03:18.399,0:03:21.099 Этот алгоритм называется [br]Пейдж Рэнк (Рейтинг страницы). 0:03:21.099,0:03:23.009 Но не потому, что он создает рейтинг страниц, 0:03:23.009,0:03:25.293 а потому, что назван в честь 0:03:25.293,0:03:28.007 его автора и соучредителя Google —[br]Ларри Пейджа. 0:03:28.007,0:03:30.169 Поскольку сайты могут зарабатывать деньги 0:03:30.169,0:03:31.535 за посещение пользователями, 0:03:31.535,0:03:32.971 спамеры пытаются найти способы, 0:03:32.971,0:03:35.819 чтобы обмануть поисковые алгоритмы, [br]и сделать так, чтобы 0:03:35.819,0:03:38.521 их страницы показывались [br]выше в результатах. 0:03:38.521,0:03:39.901 Поисковые системы регулярно 0:03:39.901,0:03:41.242 обновляют алгоритмы, 0:03:41.242,0:03:42.523 чтобы не дать фейковым 0:03:42.523,0:03:43.555 и ненадежным сайтам 0:03:43.555,0:03:45.097 добраться до вершины[br]результатов поиска. 0:03:45.097,0:03:47.750 Но, в конце концов, [br]вы сами должны следить, 0:03:47.750,0:03:49.647 насколько надежным является сайт, 0:03:49.647,0:03:51.574 проверяя его адрес 0:03:51.574,0:03:54.014 и убеждаясь, что это надежный источник. 0:03:54.014,0:03:56.181 Поисковые программы [br]постоянно совершенствуются, 0:03:56.181,0:03:58.308 улучшая алгоритмы, чтобы выдавать 0:03:58.308,0:04:01.231 результаты лучше и быстрее, чем конкуренты. 0:04:01.231,0:04:02.707 Современные поисковые движки 0:04:02.707,0:04:04.245 используют даже ту информацию, 0:04:04.245,0:04:05.773 которую вы не давали явным образом, 0:04:05.773,0:04:07.463 чтобы сузить результаты поиска. 0:04:07.463,0:04:09.180 Например, если Вы будете искать 0:04:09.180,0:04:10.897 "площадки для выгула собак", 0:04:10.897,0:04:12.976 многие поисковые системы [br]выдадут результаты 0:04:12.976,0:04:14.575 с площадками неподалеку от вас, 0:04:14.575,0:04:17.533 даже если вы не указали [br]свое местоположение. 0:04:17.823,0:04:19.352 Современные поисковые системы 0:04:19.352,0:04:20.742 понимают больше, 0:04:20.742,0:04:22.481 чем просто слова на страницах. 0:04:22.481,0:04:24.524 Они анализируют их значение, 0:04:24.524,0:04:26.988 чтобы показать вам именно то, [br]что вы ищете. 0:04:26.988,0:04:29.372 Например, если вы ищете 0:04:29.372,0:04:31.036 "fast pitcher" 0:04:31.036,0:04:33.400 Вы получите информацию о спортсмене. 0:04:33.467,0:04:35.516 Если же вы ищете "large pitcher", 0:04:35.516,0:04:37.840 то получите информацию о кувшине. 0:04:38.954,0:04:40.484 Чтобы лучше понимать слова, 0:04:40.484,0:04:42.083 мы используем машинное обучение. 0:04:42.083,0:04:44.097 Это вид искусственного интеллекта, 0:04:44.097,0:04:46.533 который помогает поисковым алгоритмам 0:04:46.533,0:04:48.673 не только находить отдельные слова[br]или фразы на страницах, 0:04:48.673,0:04:51.793 но и понимать значение этих слов. 0:04:53.777,0:04:55.604 Интернет растет экспоненциально, 0:04:55.604,0:04:57.432 но если команды, которые 0:04:57.432,0:04:59.243 разрабатывают поисковые алгоритмы, 0:04:59.243,0:05:00.674 хорошо выполнять свою работу, 0:05:00.674,0:05:02.270 нужная вам информация 0:05:02.270,0:05:03.428 всегда будет доступна 0:05:03.428,0:05:04.706 за несколько кликов.