WEBVTT 00:00:02.535 --> 00:00:05.970 ИНТЕРНЕТ КАК РАБОТАЕТ ПОИСК 00:00:05.970 --> 00:00:07.855 Привет, меня зовут Джон. 00:00:07.855 --> 00:00:10.824 Я руковожу командой поиска и машинного обучения в Google 00:00:12.100 --> 00:00:14.231 Меня очень вдохновляет то, 00:00:14.231 --> 00:00:16.363 что люди по всему миру 00:00:16.363 --> 00:00:17.850 обращаются к поисковым машинам, 00:00:17.850 --> 00:00:19.159 чтобы получить ответы 00:00:19.159 --> 00:00:20.158 на тривиальные 00:00:20.158 --> 00:00:21.704 и на очень важные вопросы. 00:00:21.704 --> 00:00:23.338 Это большая ответственность — 00:00:23.338 --> 00:00:24.972 дать им лучшие ответы. 00:00:26.725 --> 00:00:28.971 Привет, меня зовут Акшая. 00:00:28.971 --> 00:00:31.218 Я работаю в команде поиска в Bing. 00:00:31.499 --> 00:00:33.399 Мы часто используем 00:00:33.399 --> 00:00:34.769 искусственный интеллект 00:00:34.769 --> 00:00:35.860 и машинное обучение. 00:00:35.885 --> 00:00:37.535 Нам также нужно выяснить, 00:00:37.535 --> 00:00:39.485 как это будут использовать пользователи, 00:00:39.485 --> 00:00:40.721 потому что мы хотим внести 00:00:40.721 --> 00:00:42.257 свой вклад в общество. 00:00:43.267 --> 00:00:45.833 Зададим простой вопрос: 00:00:45.833 --> 00:00:49.406 Сколько времени займет путешествие к Марсу? 00:00:49.406 --> 00:00:51.507 Откуда берутся эти результаты? 00:00:51.507 --> 00:00:54.835 И почему эти ответы выведены в начале? 00:00:55.875 --> 00:00:57.434 Давайте посмотрим, 00:00:57.434 --> 00:00:58.914 как поисковая машина превращает 00:00:58.914 --> 00:01:00.234 ваш запрос в результат. 00:01:00.474 --> 00:01:02.549 Первое, что нужно знать — 00:01:02.549 --> 00:01:04.138 когда вы задаете вопрос, 00:01:04.138 --> 00:01:05.723 поисковый движок не уходит в Интернет 00:01:05.723 --> 00:01:07.341 чтобы искать информацию на сайтах 00:01:07.341 --> 00:01:08.479 в режиме реального времени. 00:01:08.479 --> 00:01:11.173 Сейчас существуют миллиарды сайтов, 00:01:11.173 --> 00:01:14.378 и ежеминутно создаются сотни новых. 00:01:14.378 --> 00:01:16.344 Если бы поисковой машине пришлось 00:01:16.344 --> 00:01:17.747 пересматривать каждый из них 00:01:17.747 --> 00:01:18.670 при каждом запросе 00:01:18.670 --> 00:01:20.489 это занимало бы вечность. 00:01:20.689 --> 00:01:22.418 Поэтому для ускорения поиска 00:01:22.418 --> 00:01:23.907 поисковые движки постоянно 00:01:23.907 --> 00:01:25.202 сканируют интернет заранее 00:01:25.202 --> 00:01:26.458 и записывают информацию, 00:01:26.458 --> 00:01:27.726 которая может позже помочь 00:01:27.726 --> 00:01:28.864 ответить на ваш вопрос. 00:01:28.984 --> 00:01:30.852 Так, если вы ищете информацию 00:01:30.852 --> 00:01:31.946 о путешествии на Марс, 00:01:31.946 --> 00:01:33.101 поисковый движок 00:01:33.101 --> 00:01:34.659 уже имеет нужную информацию, 00:01:34.659 --> 00:01:35.867 чтобы дать вам ответ. 00:01:36.518 --> 00:01:37.926 Вот как это работает. 00:01:38.609 --> 00:01:40.294 Интернет — это сеть страниц, 00:01:40.294 --> 00:01:42.240 связанных между собой гиперссылками. 00:01:42.240 --> 00:01:43.565 Поисковые движки постоянно 00:01:43.565 --> 00:01:44.740 запускают программы, 00:01:44.740 --> 00:01:46.301 которые называются пауками. 00:01:46.315 --> 00:01:47.989 Они перемещаются по страницам 00:01:47.989 --> 00:01:49.537 и собирают информацию о них. 00:01:49.537 --> 00:01:51.944 Найдя гиперссылки, 00:01:51.944 --> 00:01:53.673 паук переходит по ним, 00:01:53.673 --> 00:01:55.519 пока не просмотрит все страницы, 00:01:55.519 --> 00:01:57.450 которые сможет найти во всем интернете. 00:01:57.450 --> 00:01:59.142 О каждой посещенной странице 00:01:59.142 --> 00:02:00.663 паук записывает всю информацию, 00:02:00.663 --> 00:02:02.489 которая может понадобиться для поиска, 00:02:02.489 --> 00:02:03.805 в специальную базу данных, 00:02:03.805 --> 00:02:05.060 которая называется 00:02:05.060 --> 00:02:06.316 поисковым индексом. 00:02:07.626 --> 00:02:09.716 Вернемся к предыдущему запросу, 00:02:09.716 --> 00:02:11.807 и посмотрим, как поисковый движок 00:02:11.807 --> 00:02:13.417 получает результаты. 00:02:13.417 --> 00:02:14.851 Когда вы спросили, 00:02:14.851 --> 00:02:17.036 сколько времени занимает путешествие к Марсу, 00:02:17.036 --> 00:02:18.100 поисковая машина ищет 00:02:18.100 --> 00:02:19.007 каждое из этих слов 00:02:19.007 --> 00:02:19.921 в поисковом индексе 00:02:19.921 --> 00:02:21.075 и сразу получает список 00:02:21.075 --> 00:02:23.253 всех страниц в Интернете, 00:02:23.253 --> 00:02:25.326 которые содержат эти слова. 00:02:25.326 --> 00:02:27.261 Но простое совпадение 00:02:27.261 --> 00:02:29.289 возвращает миллионы страниц, 00:02:29.289 --> 00:02:30.673 поэтому поисковому движку 00:02:30.673 --> 00:02:32.187 нужно найти лучшее соответствие 00:02:32.187 --> 00:02:33.479 и показать его в начале. 00:02:33.479 --> 00:02:35.101 Здесь все становится сложнее, 00:02:35.101 --> 00:02:36.617 потому что поисковый движок 00:02:36.617 --> 00:02:38.464 должен угадать, что именно вы ищете. 00:02:39.344 --> 00:02:40.572 Каждый поисковый движок 00:02:40.572 --> 00:02:41.716 имеет собственный алгоритм 00:02:41.716 --> 00:02:42.733 для построения рейтинга страниц, 00:02:42.733 --> 00:02:44.120 основываясь на предположении 00:02:44.120 --> 00:02:45.343 о том, что вам нужно. 00:02:45.343 --> 00:02:50.997 Например, алгоритм может проверять, поисковые слова содержатся в заголовке страницы, 00:02:50.997 --> 00:02:58.902 или эти слова размещены рядом, или любые другие расчеты, которые помогут лучше 00:02:58.902 --> 00:03:03.089 определить, какие страницы Вы бы хотели увидеть, а какие - нет. 00:03:03.089 --> 00:03:07.944 Google изобрел самый известный алгоритм показа наиболее подходящих результатов поиска. 00:03:07.944 --> 00:03:12.166 Он учитывает, сколько других веб-страниц содержат ссылку на эту страницу. 00:03:12.166 --> 00:03:15.783 Идея заключается в том, что если многие другие сайты считает, что эта страница является интересной, 00:03:15.783 --> 00:03:18.399 то возможно Вам она тоже подойдет. 00:03:18.399 --> 00:03:22.579 Этот алгоритм называется Page Rank. Но не потому, что он строит рейтинг страниц, 00:03:22.579 --> 00:03:28.007 а потому, что он назван в честь его автора и соучредителя Google - Ларри Пейджа. 00:03:28.007 --> 00:03:31.471 Поскольку сайты могут зарабатывать деньги за посещение пользователями, спамеры 00:03:31.471 --> 00:03:35.819 пытаются найти все лучшие способы обыграть поисковые алгоритмы, чтобы их 00:03:35.819 --> 00:03:38.521 страницы показывались выше в результатах. 00:03:38.521 --> 00:03:40.342 Поисковые машины регулярно обновляют алгоритмы, 00:03:40.342 --> 00:03:42.163 чтобы не дать фейковым 00:03:42.163 --> 00:03:44.767 и ненадежным сайтам добраться до вершины результатов поиска. 00:03:44.767 --> 00:03:50.164 Но в конце концов, Вы сами должны учитывать, насколько сайт является надежным, проверяя 00:03:50.164 --> 00:03:54.014 его адрес и убеждаясь, что это надежный источник. 00:03:54.014 --> 00:03:56.548 Поисковые программы постоянно совершенствуются, чтобы улучшить алгоритмы и давать 00:03:56.548 --> 00:04:01.231 лучшие результаты, и быстрее, чем конкуренты. 00:04:01.231 --> 00:04:04.943 Современные поисковые машины даже используют информацию, которую Вы явно не давали, чтобы 00:04:04.943 --> 00:04:07.463 сузить результаты поиска. 00:04:07.463 --> 00:04:10.897 Например, если Вы будете искать "площадки для выгула собак" 00:04:10.897 --> 00:04:14.155 много поисковых машин выдаст результаты по площадок неподалеку 00:04:14.155 --> 00:04:18.233 даже если Вы не указали свое местоположение. 00:04:18.233 --> 00:04:22.481 Современные поисковые машины понимают больше, чем просто слова на страницах. 00:04:22.481 --> 00:04:27.348 Но и их значение, чтобы показать именно то, что Вы ищете. 00:04:27.348 --> 00:04:31.756 Например, если Вы ищете "найшдвиший питчер" 00:04:31.756 --> 00:04:34.590 Вы получите информацию о спортсмене. 00:04:34.680 --> 00:04:37.840 Если же Вы ищете "самый питчер", то получите информацию о кувшин. 00:04:39.474 --> 00:04:42.435 Чтобы лучше понимать слова, мы используем так называемое машинное обучение. 00:04:42.435 --> 00:04:44.539 Это вид искусственного интеллекта, который помогает поисковым алгоритмам не только находить 00:04:47.257 --> 00:04:50.993 отдельные слова или фразы на страницах, но и понимать значение этих слов. 00:04:50.993 --> 00:04:57.432 Интернет экспоненциально растет, но если команды, которые соответствуют 00:04:57.432 --> 00:05:00.234 за разработку поисковых машин, хорошо выполнять свою работу, 00:05:00.234 --> 00:05:04.306 то информация, которая Вам нужна, всегда будет доступна за несколько кликов.