0:00:02.535,0:00:05.970 ИНТЕРНЕТ[br]КАК РАБОТАЕТ ПОИСК 0:00:05.970,0:00:07.855 Привет, меня зовут Джон. 0:00:07.855,0:00:10.824 Я руковожу командой поиска[br]и машинного обучения в Google 0:00:12.100,0:00:14.231 Меня очень вдохновляет то, 0:00:14.231,0:00:16.363 что люди по всему миру 0:00:16.363,0:00:17.850 обращаются к поисковым машинам, 0:00:17.850,0:00:19.159 чтобы получить ответы 0:00:19.159,0:00:20.158 на тривиальные 0:00:20.158,0:00:21.704 и на очень важные вопросы. 0:00:21.704,0:00:23.338 Это большая ответственность — 0:00:23.338,0:00:24.972 дать им лучшие ответы. 0:00:26.725,0:00:28.971 Привет, меня зовут Акшая. 0:00:28.971,0:00:31.218 Я работаю в команде поиска в Bing. 0:00:31.499,0:00:33.399 Мы часто используем 0:00:33.399,0:00:34.769 искусственный интеллект 0:00:34.769,0:00:35.860 и машинное обучение. 0:00:35.885,0:00:37.535 Нам также нужно выяснить, 0:00:37.535,0:00:39.485 как это будут использовать пользователи, 0:00:39.485,0:00:40.721 потому что мы хотим внести 0:00:40.721,0:00:42.257 свой вклад в общество. 0:00:43.267,0:00:45.833 Зададим простой вопрос: 0:00:45.833,0:00:49.406 Сколько времени [br]займет путешествие к Марсу? 0:00:49.406,0:00:51.507 Откуда берутся эти результаты? 0:00:51.507,0:00:54.835 И почему эти ответы выведены в начале? 0:00:55.875,0:00:57.434 Давайте посмотрим, 0:00:57.434,0:00:58.914 как поисковая машина превращает 0:00:58.914,0:01:00.234 ваш запрос в результат. 0:01:00.474,0:01:02.549 Первое, что нужно знать — 0:01:02.549,0:01:04.138 когда вы задаете вопрос, 0:01:04.138,0:01:05.723 поисковый движок не уходит в Интернет 0:01:05.723,0:01:07.341 чтобы искать информацию на сайтах 0:01:07.341,0:01:08.479 в режиме реального времени. 0:01:08.479,0:01:11.173 Сейчас существуют миллиарды сайтов, 0:01:11.173,0:01:14.378 и ежеминутно создаются сотни новых. 0:01:14.378,0:01:16.344 Если бы поисковой машине пришлось 0:01:16.344,0:01:17.747 пересматривать каждый из них 0:01:17.747,0:01:18.670 при каждом запросе 0:01:18.670,0:01:20.489 это занимало бы вечность. 0:01:20.689,0:01:22.418 Поэтому для ускорения поиска 0:01:22.418,0:01:23.907 поисковые движки постоянно 0:01:23.907,0:01:25.202 сканируют интернет заранее 0:01:25.202,0:01:26.458 и записывают информацию, 0:01:26.458,0:01:27.726 которая может позже помочь 0:01:27.726,0:01:28.864 ответить на ваш вопрос. 0:01:28.984,0:01:30.852 Так, если вы ищете информацию 0:01:30.852,0:01:31.946 о путешествии на Марс, 0:01:31.946,0:01:33.101 поисковый движок 0:01:33.101,0:01:34.659 уже имеет нужную информацию, 0:01:34.659,0:01:35.867 чтобы дать вам ответ. 0:01:36.518,0:01:37.926 Вот как это работает. 0:01:38.609,0:01:40.294 Интернет — это сеть страниц, 0:01:40.294,0:01:42.240 связанных между собой гиперссылками. 0:01:42.240,0:01:43.565 Поисковые движки постоянно 0:01:43.565,0:01:44.740 запускают программы, 0:01:44.740,0:01:46.301 которые называются пауками. 0:01:46.315,0:01:47.989 Они перемещаются по страницам 0:01:47.989,0:01:49.537 и собирают информацию о них. 0:01:49.537,0:01:51.944 Найдя гиперссылки, 0:01:51.944,0:01:53.673 паук переходит по ним, 0:01:53.673,0:01:55.519 пока не просмотрит все страницы, 0:01:55.519,0:01:57.450 которые сможет найти во всем интернете. 0:01:57.450,0:01:59.142 О каждой посещенной странице 0:01:59.142,0:02:00.663 паук записывает всю информацию, 0:02:00.663,0:02:02.489 которая может понадобиться для поиска, 0:02:02.489,0:02:03.805 в специальную базу данных, 0:02:03.805,0:02:05.060 которая называется 0:02:05.060,0:02:06.316 поисковым индексом. 0:02:07.626,0:02:09.716 Вернемся к предыдущему запросу, 0:02:09.716,0:02:11.807 и посмотрим, как поисковый движок 0:02:11.807,0:02:13.417 получает результаты. 0:02:13.417,0:02:14.851 Когда вы спросили, 0:02:14.851,0:02:17.036 сколько времени занимает [br]путешествие к Марсу, 0:02:17.036,0:02:18.100 поисковая машина ищет 0:02:18.100,0:02:19.007 каждое из этих слов 0:02:19.007,0:02:19.921 в поисковом индексе 0:02:19.921,0:02:21.075 и сразу получает список 0:02:21.075,0:02:23.253 всех страниц в Интернете, 0:02:23.253,0:02:25.326 которые содержат эти слова. 0:02:25.326,0:02:27.261 Но простое совпадение 0:02:27.261,0:02:29.289 возвращает миллионы страниц, 0:02:29.289,0:02:30.673 поэтому поисковому движку 0:02:30.673,0:02:32.187 нужно найти лучшее соответствие 0:02:32.187,0:02:33.479 и показать его в начале. 0:02:33.479,0:02:35.101 Здесь все становится сложнее, 0:02:35.101,0:02:36.617 потому что поисковый движок 0:02:36.617,0:02:38.464 должен угадать, что именно вы ищете. 0:02:39.344,0:02:40.572 Каждый поисковый движок 0:02:40.572,0:02:41.716 имеет собственный алгоритм 0:02:41.716,0:02:42.733 для построения рейтинга страниц, 0:02:42.733,0:02:44.120 основываясь на предположении 0:02:44.120,0:02:45.343 о том, что вам нужно. 0:02:45.343,0:02:50.997 Например, алгоритм может проверять, поисковые слова[br]содержатся в заголовке страницы, 0:02:50.997,0:02:58.902 или эти слова размещены рядом, или любые другие[br]расчеты, которые помогут лучше 0:02:58.902,0:03:03.089 определить, какие страницы Вы бы хотели увидеть, а[br]какие - нет. 0:03:03.089,0:03:07.944 Google изобрел самый известный алгоритм показа[br]наиболее подходящих результатов поиска. 0:03:07.944,0:03:12.166 Он учитывает, сколько других веб-страниц содержат[br]ссылку на эту страницу. 0:03:12.166,0:03:15.783 Идея заключается в том, что если многие другие сайты[br]считает, что эта страница является интересной, 0:03:15.783,0:03:18.399 то возможно Вам она тоже подойдет. 0:03:18.399,0:03:22.579 Этот алгоритм называется Page Rank. Но не потому,[br]что он строит рейтинг страниц, 0:03:22.579,0:03:28.007 а потому, что он назван в честь его автора и[br]соучредителя Google - Ларри Пейджа. 0:03:28.007,0:03:31.471 Поскольку сайты могут зарабатывать деньги за посещение[br]пользователями, спамеры 0:03:31.471,0:03:35.819 пытаются найти все лучшие способы обыграть поисковые[br]алгоритмы, чтобы их 0:03:35.819,0:03:38.521 страницы показывались выше в результатах. 0:03:38.521,0:03:40.342 Поисковые машины регулярно [br]обновляют алгоритмы, 0:03:40.342,0:03:42.163 чтобы не дать фейковым 0:03:42.163,0:03:44.767 и ненадежным сайтам добраться до вершины результатов[br]поиска. 0:03:44.767,0:03:50.164 Но в конце концов, Вы сами должны учитывать, насколько[br]сайт является надежным, проверяя 0:03:50.164,0:03:54.014 его адрес и убеждаясь, что это надежный источник. 0:03:54.014,0:03:56.548 Поисковые программы постоянно совершенствуются,[br]чтобы улучшить алгоритмы и давать 0:03:56.548,0:04:01.231 лучшие результаты, и быстрее, чем конкуренты. 0:04:01.231,0:04:04.943 Современные поисковые машины даже используют[br]информацию, которую Вы явно не давали, чтобы 0:04:04.943,0:04:07.463 сузить результаты поиска. 0:04:07.463,0:04:10.897 Например, если Вы будете искать "площадки для выгула[br]собак" 0:04:10.897,0:04:14.155 много поисковых машин выдаст результаты по площадок[br]неподалеку 0:04:14.155,0:04:18.233 даже если Вы не указали свое местоположение. 0:04:18.233,0:04:22.481 Современные поисковые машины понимают больше, чем[br]просто слова на страницах. 0:04:22.481,0:04:27.348 Но и их значение, чтобы показать именно то, что Вы[br]ищете. 0:04:27.348,0:04:31.756 Например, если Вы ищете "найшдвиший питчер" 0:04:31.756,0:04:34.590 Вы получите информацию о спортсмене. 0:04:34.680,0:04:37.840 Если же Вы ищете "самый питчер", то получите информацию[br]о кувшин. 0:04:39.474,0:04:42.435 Чтобы лучше понимать слова, мы используем так[br]называемое машинное обучение. 0:04:42.435,0:04:44.539 Это вид искусственного интеллекта, который помогает[br]поисковым алгоритмам не только находить 0:04:47.257,0:04:50.993 отдельные слова или фразы на страницах, но и понимать[br]значение этих слов. 0:04:50.993,0:04:57.432 Интернет экспоненциально растет, но если команды,[br]которые соответствуют 0:04:57.432,0:05:00.234 за разработку поисковых машин, хорошо выполнять свою[br]работу, 0:05:00.234,0:05:04.306 то информация, которая Вам нужна, всегда будет[br]доступна за несколько кликов.