1 00:00:05,970 --> 00:00:12,100 Привет, меня зовут Джон. Я руковожу командой поиска и машинного обучения в Google 2 00:00:12,100 --> 00:00:16,363 Меня очень вдохновляет то, что люди по всему миру 3 00:00:16,363 --> 00:00:19,758 обращаются к поисковым машинам, чтобы найти ответы на тривиальные вопросы 4 00:00:19,758 --> 00:00:21,704 и на очень важные вопросы. 5 00:00:21,704 --> 00:00:24,972 Это большая ответственность - предоставить как можно лучшие ответы. 6 00:00:26,725 --> 00:00:31,218 Привет, меня зовут Акшая. Я работаю в команде поиска в Bing. 7 00:00:31,499 --> 00:00:35,860 Иногда, когда мы рассматриваем проблемы искусственного интеллекта и машинного обучения, 8 00:00:35,885 --> 00:00:39,185 нам также нужно выяснить, как это будут использовать, 9 00:00:39,185 --> 00:00:42,257 потому что в действительности мы хотим внести свой вклад в общество. 10 00:00:43,267 --> 00:00:45,833 Зададим простой вопрос: 11 00:00:45,833 --> 00:00:49,406 Сколько времени занимает путешествие к Марсу? 12 00:00:49,406 --> 00:00:51,507 Откуда берутся эти результаты? 13 00:00:51,507 --> 00:00:55,895 И почему эти ответы выведены в начале? 14 00:00:55,895 --> 00:01:00,234 ОК, давайте посмотрим, как поисковая машина превращает Ваш запрос на результаты. 15 00:01:00,234 --> 00:01:06,213 Первое, что нужно знать - когда Вы задаете поиск, поисковая машина не уходит в Интернет 16 00:01:06,213 --> 00:01:09,029 чтобы поискать информацию на сайтах в режиме реального времени. 17 00:01:09,029 --> 00:01:14,978 Потому что сейчас существуют миллиарды сайтов, и ежеминутно создаются сотни новых. 18 00:01:14,978 --> 00:01:18,670 Поэтому если бы поисковой машине пришлось пересматривать каждый из них при каждом запросе 19 00:01:18,670 --> 00:01:20,689 это бы занимало вечность. 20 00:01:20,689 --> 00:01:25,767 Поэтому для ускорения поиска, поисковые машины постоянно сканируют Интернет заранее 21 00:01:25,767 --> 00:01:28,984 И записывают информацию, которая может позже помочь Вашему запросу. 22 00:01:28,984 --> 00:01:32,721 Так, если Вы будете искать завтрашнюю путешествие, поисковая машина 23 00:01:32,721 --> 00:01:36,597 уже имеет нужную информацию, чтобы выдать ее сразу. 24 00:01:36,988 --> 00:01:39,046 Вот как это работает. 25 00:01:39,234 --> 00:01:41,980 Интернет - это сеть страниц, связанных между собой гиперссылками. 26 00:01:41,980 --> 00:01:46,301 Поисковые машины должны постоянно запущены программы, которые называются пауками. 27 00:01:46,795 --> 00:01:50,724 Они перемещаются между страницами и собирают информацию о них. 28 00:01:50,724 --> 00:01:55,519 Найдя гиперссылки паук переходит по нему, пока не пересмотрит все страницы, 29 00:01:55,519 --> 00:01:59,382 которые сможет найти во всем Интернете. Для каждой посещенной страницы 30 00:01:59,382 --> 00:02:03,805 паук записывает всю информацию, которая может понадобиться для поиска, в специальную 31 00:02:03,805 --> 00:02:06,316 базу данных, которая называется поисковым индексом. 32 00:02:06,316 --> 00:02:11,807 Вернемся к предыдущему запросу, и посмотрим, как поисковая машина 33 00:02:11,807 --> 00:02:13,417 получает результаты. 34 00:02:13,417 --> 00:02:17,286 Когда Вы спросили Сколько времени занимает путешествие к Марсу? 35 00:02:17,286 --> 00:02:21,075 поисковая машина ищет каждое из этих слов в поисковом индексе и сразу 36 00:02:21,075 --> 00:02:25,432 имеет список всех страниц в Интернете, которые содержат эти слова. 37 00:02:25,432 --> 00:02:31,437 Но простое совпадение возвращает миллионы страниц, нужно еще найти наилучшее соответствие 38 00:02:31,437 --> 00:02:33,576 и показать ее в начале. 39 00:02:33,576 --> 00:02:39,344 Здесь все становится сложнее, потому что поисковая машина время должен угадать, что именно Вы ищете. 40 00:02:39,344 --> 00:02:43,560 Каждая поисковая машина имеет собственный алгоритм для построения рейтинга страниц, основываясь 41 00:02:43,560 --> 00:02:45,343 на предположении о том, что Вам нужно. 42 00:02:45,343 --> 00:02:50,997 Например, алгоритм может проверять, поисковые слова содержатся в заголовке страницы, 43 00:02:50,997 --> 00:02:58,902 или эти слова размещены рядом, или любые другие расчеты, которые помогут лучше 44 00:02:58,902 --> 00:03:03,089 определить, какие страницы Вы бы хотели увидеть, а какие - нет. 45 00:03:03,089 --> 00:03:07,944 Google изобрел самый известный алгоритм показа наиболее подходящих результатов поиска. 46 00:03:07,944 --> 00:03:12,166 Он учитывает, сколько других веб-страниц содержат ссылку на эту страницу. 47 00:03:12,166 --> 00:03:15,783 Идея заключается в том, что если многие другие сайты считает, что эта страница является интересной, 48 00:03:15,783 --> 00:03:18,399 то возможно Вам она тоже подойдет. 49 00:03:18,399 --> 00:03:22,579 Этот алгоритм называется Page Rank. Но не потому, что он строит рейтинг страниц, 50 00:03:22,579 --> 00:03:28,007 а потому, что он назван в честь его автора и соучредителя Google - Ларри Пейджа. 51 00:03:28,007 --> 00:03:31,471 Поскольку сайты могут зарабатывать деньги за посещение пользователями, спамеры 52 00:03:31,471 --> 00:03:35,819 пытаются найти все лучшие способы обыграть поисковые алгоритмы, чтобы их 53 00:03:35,819 --> 00:03:38,521 страницы показывались выше в результатах. 54 00:03:38,521 --> 00:03:42,163 Поисковые машины регулярно обновляют свои алгоритмы, чтобы не дать фейковых 55 00:03:42,163 --> 00:03:44,767 и ненадежным сайтам добраться до вершины результатов поиска. 56 00:03:44,767 --> 00:03:50,164 Но в конце концов, Вы сами должны учитывать, насколько сайт является надежным, проверяя 57 00:03:50,164 --> 00:03:54,014 его адрес и убеждаясь, что это надежный источник. 58 00:03:54,014 --> 00:03:56,548 Поисковые программы постоянно совершенствуются, чтобы улучшить алгоритмы и давать 59 00:03:56,548 --> 00:04:01,231 лучшие результаты, и быстрее, чем конкуренты. 60 00:04:01,231 --> 00:04:04,943 Современные поисковые машины даже используют информацию, которую Вы явно не давали, чтобы 61 00:04:04,943 --> 00:04:07,463 сузить результаты поиска. 62 00:04:07,463 --> 00:04:10,897 Например, если Вы будете искать "площадки для выгула собак" 63 00:04:10,897 --> 00:04:14,155 много поисковых машин выдаст результаты по площадок неподалеку 64 00:04:14,155 --> 00:04:18,233 даже если Вы не указали свое местоположение. 65 00:04:18,233 --> 00:04:22,481 Современные поисковые машины понимают больше, чем просто слова на страницах. 66 00:04:22,481 --> 00:04:27,348 Но и их значение, чтобы показать именно то, что Вы ищете. 67 00:04:27,348 --> 00:04:31,756 Например, если Вы ищете "найшдвиший питчер" 68 00:04:31,756 --> 00:04:34,590 Вы получите информацию о спортсмене. 69 00:04:34,680 --> 00:04:37,840 Если же Вы ищете "самый питчер", то получите информацию о кувшин. 70 00:04:39,474 --> 00:04:42,435 Чтобы лучше понимать слова, мы используем так называемое машинное обучение. 71 00:04:42,435 --> 00:04:44,539 Это вид искусственного интеллекта, который помогает поисковым алгоритмам не только находить 72 00:04:47,257 --> 00:04:50,993 отдельные слова или фразы на страницах, но и понимать значение этих слов. 73 00:04:50,993 --> 00:04:57,432 Интернет экспоненциально растет, но если команды, которые соответствуют 74 00:04:57,432 --> 00:05:00,234 за разработку поисковых машин, хорошо выполнять свою работу, 75 00:05:00,234 --> 00:05:04,306 то информация, которая Вам нужна, всегда будет доступна за несколько кликов.