WEBVTT 00:00:05.970 --> 00:00:12.100 Привет, меня зовут Джон. Я руковожу командой поиска и машинного обучения в Google 00:00:12.100 --> 00:00:16.363 Меня очень вдохновляет то, что люди по всему миру 00:00:16.363 --> 00:00:19.758 обращаются к поисковым машинам, чтобы найти ответы на тривиальные вопросы 00:00:19.758 --> 00:00:21.704 и на очень важные вопросы. 00:00:21.704 --> 00:00:24.972 Это большая ответственность - предоставить как можно лучшие ответы. 00:00:26.725 --> 00:00:31.218 Привет, меня зовут Акшая. Я работаю в команде поиска в Bing. 00:00:31.499 --> 00:00:35.860 Иногда, когда мы рассматриваем проблемы искусственного интеллекта и машинного обучения, 00:00:35.885 --> 00:00:39.185 нам также нужно выяснить, как это будут использовать, 00:00:39.185 --> 00:00:42.257 потому что в действительности мы хотим внести свой вклад в общество. 00:00:43.267 --> 00:00:45.833 Зададим простой вопрос: 00:00:45.833 --> 00:00:49.406 Сколько времени занимает путешествие к Марсу? 00:00:49.406 --> 00:00:51.507 Откуда берутся эти результаты? 00:00:51.507 --> 00:00:55.895 И почему эти ответы выведены в начале? 00:00:55.895 --> 00:01:00.234 ОК, давайте посмотрим, как поисковая машина превращает Ваш запрос на результаты. 00:01:00.234 --> 00:01:06.213 Первое, что нужно знать - когда Вы задаете поиск, поисковая машина не уходит в Интернет 00:01:06.213 --> 00:01:09.029 чтобы поискать информацию на сайтах в режиме реального времени. 00:01:09.029 --> 00:01:14.978 Потому что сейчас существуют миллиарды сайтов, и ежеминутно создаются сотни новых. 00:01:14.978 --> 00:01:18.670 Поэтому если бы поисковой машине пришлось пересматривать каждый из них при каждом запросе 00:01:18.670 --> 00:01:20.689 это бы занимало вечность. 00:01:20.689 --> 00:01:25.767 Поэтому для ускорения поиска, поисковые машины постоянно сканируют Интернет заранее 00:01:25.767 --> 00:01:28.984 И записывают информацию, которая может позже помочь Вашему запросу. 00:01:28.984 --> 00:01:32.721 Так, если Вы будете искать завтрашнюю путешествие, поисковая машина 00:01:32.721 --> 00:01:36.597 уже имеет нужную информацию, чтобы выдать ее сразу. 00:01:36.988 --> 00:01:39.046 Вот как это работает. 00:01:39.234 --> 00:01:41.980 Интернет - это сеть страниц, связанных между собой гиперссылками. 00:01:41.980 --> 00:01:46.301 Поисковые машины должны постоянно запущены программы, которые называются пауками. 00:01:46.795 --> 00:01:50.724 Они перемещаются между страницами и собирают информацию о них. 00:01:50.724 --> 00:01:55.519 Найдя гиперссылки паук переходит по нему, пока не пересмотрит все страницы, 00:01:55.519 --> 00:01:59.382 которые сможет найти во всем Интернете. Для каждой посещенной страницы 00:01:59.382 --> 00:02:03.805 паук записывает всю информацию, которая может понадобиться для поиска, в специальную 00:02:03.805 --> 00:02:06.316 базу данных, которая называется поисковым индексом. 00:02:06.316 --> 00:02:11.807 Вернемся к предыдущему запросу, и посмотрим, как поисковая машина 00:02:11.807 --> 00:02:13.417 получает результаты. 00:02:13.417 --> 00:02:17.286 Когда Вы спросили Сколько времени занимает путешествие к Марсу? 00:02:17.286 --> 00:02:21.075 поисковая машина ищет каждое из этих слов в поисковом индексе и сразу 00:02:21.075 --> 00:02:25.432 имеет список всех страниц в Интернете, которые содержат эти слова. 00:02:25.432 --> 00:02:31.437 Но простое совпадение возвращает миллионы страниц, нужно еще найти наилучшее соответствие 00:02:31.437 --> 00:02:33.576 и показать ее в начале. 00:02:33.576 --> 00:02:39.344 Здесь все становится сложнее, потому что поисковая машина время должен угадать, что именно Вы ищете. 00:02:39.344 --> 00:02:43.560 Каждая поисковая машина имеет собственный алгоритм для построения рейтинга страниц, основываясь 00:02:43.560 --> 00:02:45.343 на предположении о том, что Вам нужно. 00:02:45.343 --> 00:02:50.997 Например, алгоритм может проверять, поисковые слова содержатся в заголовке страницы, 00:02:50.997 --> 00:02:58.902 или эти слова размещены рядом, или любые другие расчеты, которые помогут лучше 00:02:58.902 --> 00:03:03.089 определить, какие страницы Вы бы хотели увидеть, а какие - нет. 00:03:03.089 --> 00:03:07.944 Google изобрел самый известный алгоритм показа наиболее подходящих результатов поиска. 00:03:07.944 --> 00:03:12.166 Он учитывает, сколько других веб-страниц содержат ссылку на эту страницу. 00:03:12.166 --> 00:03:15.783 Идея заключается в том, что если многие другие сайты считает, что эта страница является интересной, 00:03:15.783 --> 00:03:18.399 то возможно Вам она тоже подойдет. 00:03:18.399 --> 00:03:22.579 Этот алгоритм называется Page Rank. Но не потому, что он строит рейтинг страниц, 00:03:22.579 --> 00:03:28.007 а потому, что он назван в честь его автора и соучредителя Google - Ларри Пейджа. 00:03:28.007 --> 00:03:31.471 Поскольку сайты могут зарабатывать деньги за посещение пользователями, спамеры 00:03:31.471 --> 00:03:35.819 пытаются найти все лучшие способы обыграть поисковые алгоритмы, чтобы их 00:03:35.819 --> 00:03:38.521 страницы показывались выше в результатах. 00:03:38.521 --> 00:03:42.163 Поисковые машины регулярно обновляют свои алгоритмы, чтобы не дать фейковых 00:03:42.163 --> 00:03:44.767 и ненадежным сайтам добраться до вершины результатов поиска. 00:03:44.767 --> 00:03:50.164 Но в конце концов, Вы сами должны учитывать, насколько сайт является надежным, проверяя 00:03:50.164 --> 00:03:54.014 его адрес и убеждаясь, что это надежный источник. 00:03:54.014 --> 00:03:56.548 Поисковые программы постоянно совершенствуются, чтобы улучшить алгоритмы и давать 00:03:56.548 --> 00:04:01.231 лучшие результаты, и быстрее, чем конкуренты. 00:04:01.231 --> 00:04:04.943 Современные поисковые машины даже используют информацию, которую Вы явно не давали, чтобы 00:04:04.943 --> 00:04:07.463 сузить результаты поиска. 00:04:07.463 --> 00:04:10.897 Например, если Вы будете искать "площадки для выгула собак" 00:04:10.897 --> 00:04:14.155 много поисковых машин выдаст результаты по площадок неподалеку 00:04:14.155 --> 00:04:18.233 даже если Вы не указали свое местоположение. 00:04:18.233 --> 00:04:22.481 Современные поисковые машины понимают больше, чем просто слова на страницах. 00:04:22.481 --> 00:04:27.348 Но и их значение, чтобы показать именно то, что Вы ищете. 00:04:27.348 --> 00:04:31.756 Например, если Вы ищете "найшдвиший питчер" 00:04:31.756 --> 00:04:34.590 Вы получите информацию о спортсмене. 00:04:34.680 --> 00:04:37.840 Если же Вы ищете "самый питчер", то получите информацию о кувшин. 00:04:39.474 --> 00:04:42.435 Чтобы лучше понимать слова, мы используем так называемое машинное обучение. 00:04:42.435 --> 00:04:44.539 Это вид искусственного интеллекта, который помогает поисковым алгоритмам не только находить 00:04:47.257 --> 00:04:50.993 отдельные слова или фразы на страницах, но и понимать значение этих слов. 00:04:50.993 --> 00:04:57.432 Интернет экспоненциально растет, но если команды, которые соответствуют 00:04:57.432 --> 00:05:00.234 за разработку поисковых машин, хорошо выполнять свою работу, 00:05:00.234 --> 00:05:04.306 то информация, которая Вам нужна, всегда будет доступна за несколько кликов.