WEBVTT 00:00:00.000 --> 00:00:05.970 ИНТЕРНЕТ КАК РАБОТАЕТ ПОИСК 00:00:05.970 --> 00:00:07.855 Привет, меня зовут Джон. 00:00:07.855 --> 00:00:10.824 Я руковожу командой поиска и машинного обучения в Google 00:00:12.100 --> 00:00:14.231 Меня очень вдохновляет то, 00:00:14.231 --> 00:00:16.363 что люди по всему миру 00:00:16.363 --> 00:00:17.850 обращаются к поисковым системам, 00:00:17.850 --> 00:00:19.159 чтобы получить ответы 00:00:19.159 --> 00:00:20.158 на тривиальные 00:00:20.158 --> 00:00:21.704 и на очень важные вопросы. 00:00:21.704 --> 00:00:23.338 Это большая ответственность — 00:00:23.338 --> 00:00:24.972 дать им лучшие ответы. 00:00:26.725 --> 00:00:28.971 Привет, меня зовут Акшая. 00:00:28.971 --> 00:00:31.218 Я работаю в команде поиска в Bing. 00:00:31.499 --> 00:00:33.399 Мы часто используем 00:00:33.399 --> 00:00:34.769 искусственный интеллект 00:00:34.769 --> 00:00:35.860 и машинное обучение. 00:00:35.885 --> 00:00:37.535 Нам также нужно выяснить, 00:00:37.535 --> 00:00:39.485 как это будут использовать пользователи, 00:00:39.485 --> 00:00:40.721 потому что мы хотим внести 00:00:40.721 --> 00:00:42.257 свой вклад в общество. 00:00:43.267 --> 00:00:45.833 Зададим простой вопрос: 00:00:45.833 --> 00:00:49.406 Сколько времени займет путешествие к Марсу? 00:00:49.406 --> 00:00:51.507 Откуда берутся эти результаты? 00:00:51.507 --> 00:00:54.835 И почему эти ответы показаны первыми? 00:00:55.875 --> 00:00:57.434 Давайте посмотрим, 00:00:57.434 --> 00:00:58.914 как поисковая система превращает 00:00:58.914 --> 00:01:00.234 ваш запрос в результат. 00:01:00.474 --> 00:01:02.549 Первое, что нужно знать — 00:01:02.549 --> 00:01:04.138 когда вы задаете вопрос, 00:01:04.138 --> 00:01:05.723 поисковый движок не уходит в Интернет 00:01:05.723 --> 00:01:07.341 чтобы искать информацию на сайтах 00:01:07.341 --> 00:01:08.479 в режиме реального времени. 00:01:08.479 --> 00:01:11.173 Сейчас существуют миллиарды сайтов, 00:01:11.173 --> 00:01:14.378 и ежеминутно создаются сотни новых. 00:01:14.378 --> 00:01:16.344 Если бы поисковой системе пришлось 00:01:16.344 --> 00:01:17.747 пересматривать каждый из них 00:01:17.747 --> 00:01:18.670 при каждом запросе 00:01:18.670 --> 00:01:20.489 это заняло бы вечность. 00:01:20.689 --> 00:01:22.418 Поэтому для ускорения поиска 00:01:22.418 --> 00:01:23.907 поисковые системы постоянно 00:01:23.907 --> 00:01:25.202 сканируют интернет заранее 00:01:25.202 --> 00:01:26.458 и записывают информацию, 00:01:26.458 --> 00:01:27.726 которая может позже помочь 00:01:27.726 --> 00:01:28.864 ответить на ваш вопрос. 00:01:28.984 --> 00:01:30.852 То есть, когда вы ищете информацию 00:01:30.852 --> 00:01:31.946 о путешествии на Марс, 00:01:31.946 --> 00:01:33.101 поисковая система 00:01:33.101 --> 00:01:34.659 уже имеет нужную информацию, 00:01:34.659 --> 00:01:35.867 чтобы дать вам ответ. 00:01:36.518 --> 00:01:37.926 Вот как это работает. 00:01:38.609 --> 00:01:40.294 Интернет — это сеть страниц, 00:01:40.294 --> 00:01:42.240 связанных между собой гиперссылками. 00:01:42.240 --> 00:01:43.565 Поисковые движки постоянно 00:01:43.565 --> 00:01:44.740 запускают программы, 00:01:44.740 --> 00:01:46.301 которые называются "пауками". 00:01:46.315 --> 00:01:47.989 Они перемещаются по страницам 00:01:47.989 --> 00:01:49.537 и собирают информацию о них. 00:01:49.537 --> 00:01:51.944 Найдя гиперссылки, 00:01:51.944 --> 00:01:53.673 паук переходит по ним, 00:01:53.673 --> 00:01:55.519 пока не просмотрит все страницы, 00:01:55.519 --> 00:01:57.450 которые сможет найти во всем интернете. 00:01:57.450 --> 00:01:59.142 О каждой посещенной странице 00:01:59.142 --> 00:02:00.663 паук записывает всю информацию, 00:02:00.663 --> 00:02:02.489 которая может понадобиться для поиска, 00:02:02.489 --> 00:02:03.805 в специальную базу данных, 00:02:03.805 --> 00:02:05.110 которая называется 00:02:05.110 --> 00:02:06.316 "поисковый индекс". 00:02:07.626 --> 00:02:09.716 Вернемся к предыдущему запросу, 00:02:09.716 --> 00:02:11.807 и посмотрим, как поисковая система 00:02:11.807 --> 00:02:13.417 получает результаты. 00:02:13.417 --> 00:02:14.851 Когда вы спросили, 00:02:14.851 --> 00:02:17.036 сколько времени занимает путешествие к Марсу, 00:02:17.036 --> 00:02:18.100 поисковая машина ищет 00:02:18.100 --> 00:02:19.280 каждое из этих слов 00:02:19.280 --> 00:02:20.381 в поисковом индексе 00:02:20.381 --> 00:02:21.508 и сразу получает список 00:02:21.508 --> 00:02:23.253 всех страниц в Интернете, 00:02:23.253 --> 00:02:25.326 которые содержат эти слова. 00:02:25.326 --> 00:02:27.261 Но простое совпадение 00:02:27.261 --> 00:02:29.289 возвращает миллионы страниц, 00:02:29.289 --> 00:02:30.673 поэтому поисковой системе 00:02:30.673 --> 00:02:32.187 нужно найти лучшее соответствие 00:02:32.187 --> 00:02:33.479 и показать его первым. 00:02:33.479 --> 00:02:35.101 Здесь все становится сложнее, 00:02:35.101 --> 00:02:36.617 потому что поисковая система 00:02:36.617 --> 00:02:38.464 должна угадать, что именно вы ищете. 00:02:39.344 --> 00:02:40.572 Каждая поисковая система 00:02:40.572 --> 00:02:41.716 использует собственный алгоритм 00:02:41.716 --> 00:02:42.733 для построения рейтинга страниц, 00:02:42.733 --> 00:02:44.120 основываясь на предположении 00:02:44.120 --> 00:02:45.343 о том, что вам нужно. 00:02:45.343 --> 00:02:48.170 Например, алгоритм может проверять, 00:02:48.170 --> 00:02:49.583 содержатся ли искомые слова 00:02:49.583 --> 00:02:50.997 в заголовке страницы, 00:02:50.997 --> 00:02:54.599 или эти слова находятся рядом друг с другом, 00:02:54.599 --> 00:02:56.750 или использовать другие расчеты, 00:02:56.750 --> 00:02:58.902 которые помогут лучше определить, 00:02:58.902 --> 00:03:00.995 какие страницы вы бы хотели бы видеть, 00:03:00.995 --> 00:03:03.089 а какие — нет. 00:03:03.089 --> 00:03:05.516 Google изобрел самый известный алгоритм 00:03:05.516 --> 00:03:07.944 выбора наиболее подходящих результатов поиска. 00:03:07.944 --> 00:03:10.055 Он учитывает, сколько других веб-страниц 00:03:10.055 --> 00:03:12.166 содержат ссылку на эту страницу. 00:03:12.166 --> 00:03:13.484 Идея заключается в том, 00:03:13.484 --> 00:03:15.348 что если многие другие сайты считают 00:03:15.348 --> 00:03:16.763 эту страницу интересной, 00:03:16.763 --> 00:03:18.399 то, возможно, вам она тоже подойдет. 00:03:18.399 --> 00:03:21.099 Этот алгоритм называется Пейдж Рэнк (Рейтинг страницы). 00:03:21.099 --> 00:03:23.009 Но не потому, что он создает рейтинг страниц, 00:03:23.009 --> 00:03:25.293 а потому, что назван в честь 00:03:25.293 --> 00:03:28.007 его автора и соучредителя Google — Ларри Пейджа. 00:03:28.007 --> 00:03:30.169 Поскольку сайты могут зарабатывать деньги 00:03:30.169 --> 00:03:31.535 за посещение пользователями, 00:03:31.535 --> 00:03:32.971 спамеры пытаются найти способы, 00:03:32.971 --> 00:03:35.819 чтобы обмануть поисковые алгоритмы, и сделать так, чтобы 00:03:35.819 --> 00:03:38.521 их страницы показывались выше в результатах. 00:03:38.521 --> 00:03:39.901 Поисковые системы регулярно 00:03:39.901 --> 00:03:41.242 обновляют алгоритмы, 00:03:41.242 --> 00:03:42.523 чтобы не дать фейковым 00:03:42.523 --> 00:03:43.555 и ненадежным сайтам 00:03:43.555 --> 00:03:45.097 добраться до вершины результатов поиска. 00:03:45.097 --> 00:03:47.750 Но, в конце концов, вы сами должны следить, 00:03:47.750 --> 00:03:49.647 насколько надежным является сайт, 00:03:49.647 --> 00:03:51.574 проверяя его адрес 00:03:51.574 --> 00:03:54.014 и убеждаясь, что это надежный источник. 00:03:54.014 --> 00:03:56.181 Поисковые программы постоянно совершенствуются, 00:03:56.181 --> 00:03:58.308 улучшая алгоритмы, чтобы выдавать 00:03:58.308 --> 00:04:01.231 результаты лучше и быстрее, чем конкуренты. 00:04:01.231 --> 00:04:02.707 Современные поисковые движки 00:04:02.707 --> 00:04:04.245 используют даже ту информацию, 00:04:04.245 --> 00:04:05.773 которую вы не давали явным образом, 00:04:05.773 --> 00:04:07.463 чтобы сузить результаты поиска. 00:04:07.463 --> 00:04:09.180 Например, если Вы будете искать 00:04:09.180 --> 00:04:10.897 "площадки для выгула собак", 00:04:10.897 --> 00:04:12.976 многие поисковые системы выдадут результаты 00:04:12.976 --> 00:04:14.575 с площадками неподалеку от вас, 00:04:14.575 --> 00:04:17.533 даже если вы не указали свое местоположение. 00:04:17.823 --> 00:04:19.352 Современные поисковые системы 00:04:19.352 --> 00:04:20.742 понимают больше, 00:04:20.742 --> 00:04:22.481 чем просто слова на страницах. 00:04:22.481 --> 00:04:24.524 Они анализируют их значение, 00:04:24.524 --> 00:04:26.988 чтобы показать вам именно то, что вы ищете. 00:04:26.988 --> 00:04:29.372 Например, если вы ищете 00:04:29.372 --> 00:04:31.036 "fast pitcher" 00:04:31.036 --> 00:04:33.400 Вы получите информацию о спортсмене. 00:04:33.467 --> 00:04:35.516 Если же вы ищете "large pitcher", 00:04:35.516 --> 00:04:37.840 то получите информацию о кувшине. 00:04:38.954 --> 00:04:40.484 Чтобы лучше понимать слова, 00:04:40.484 --> 00:04:42.083 мы используем машинное обучение. 00:04:42.083 --> 00:04:44.097 Это вид искусственного интеллекта, 00:04:44.097 --> 00:04:46.533 который помогает поисковым алгоритмам 00:04:46.533 --> 00:04:48.673 не только находить отдельные слова или фразы на страницах, 00:04:48.673 --> 00:04:51.793 но и понимать значение этих слов. 00:04:53.777 --> 00:04:55.604 Интернет растет экспоненциально, 00:04:55.604 --> 00:04:57.432 но если команды, которые 00:04:57.432 --> 00:04:59.243 разрабатывают поисковые алгоритмы, 00:04:59.243 --> 00:05:00.674 хорошо выполнять свою работу, 00:05:00.674 --> 00:05:02.270 нужная вам информация 00:05:02.270 --> 00:05:03.428 всегда будет доступна 00:05:03.428 --> 00:05:04.706 за несколько кликов.