ИНТЕРНЕТ
КАК РАБОТАЕТ ПОИСК
Привет, меня зовут Джон.
Я руковожу командой поиска
и машинного обучения в Google
Меня очень вдохновляет то,
что люди по всему миру
обращаются к поисковым системам,
чтобы получить ответы
на тривиальные
и на очень важные вопросы.
Это большая ответственность —
дать им лучшие ответы.
Привет, меня зовут Акшая.
Я работаю в команде поиска в Bing.
Мы часто используем
искусственный интеллект
и машинное обучение.
Нам также нужно выяснить,
как это будут использовать пользователи,
потому что мы хотим внести
свой вклад в общество.
Зададим простой вопрос:
Сколько времени
займет путешествие к Марсу?
Откуда берутся эти результаты?
И почему эти ответы показаны первыми?
Давайте посмотрим,
как поисковая система превращает
ваш запрос в результат.
Первое, что нужно знать —
когда вы задаете вопрос,
поисковый движок не уходит в Интернет
чтобы искать информацию на сайтах
в режиме реального времени.
Сейчас существуют миллиарды сайтов,
и ежеминутно создаются сотни новых.
Если бы поисковой системе пришлось
пересматривать каждый из них
при каждом запросе
это заняло бы вечность.
Поэтому для ускорения поиска
поисковые системы постоянно
сканируют интернет заранее
и записывают информацию,
которая может позже помочь
ответить на ваш вопрос.
То есть, когда вы ищете информацию
о путешествии на Марс,
поисковая система
уже имеет нужную информацию,
чтобы дать вам ответ.
Вот как это работает.
Интернет — это сеть страниц,
связанных между собой гиперссылками.
Поисковые движки постоянно
запускают программы,
которые называются "пауками".
Они перемещаются по страницам
и собирают информацию о них.
Найдя гиперссылки,
паук переходит по ним,
пока не просмотрит все страницы,
которые сможет найти во всем интернете.
О каждой посещенной странице
паук записывает всю информацию,
которая может понадобиться для поиска,
в специальную базу данных,
которая называется
"поисковый индекс".
Вернемся к предыдущему запросу,
и посмотрим, как поисковая система
получает результаты.
Когда вы спросили,
сколько времени занимает
путешествие к Марсу,
поисковая машина ищет
каждое из этих слов
в поисковом индексе
и сразу получает список
всех страниц в Интернете,
которые содержат эти слова.
Но простое совпадение
возвращает миллионы страниц,
поэтому поисковой системе
нужно найти лучшее соответствие
и показать его первым.
Здесь все становится сложнее,
потому что поисковая система
должна угадать, что именно вы ищете.
Каждая поисковая система
использует собственный алгоритм
для построения рейтинга страниц,
основываясь на предположении
о том, что вам нужно.
Например, алгоритм может проверять,
содержатся ли искомые слова
в заголовке страницы,
или эти слова находятся рядом друг с другом,
или использовать другие расчеты,
которые помогут лучше определить,
какие страницы вы бы хотели бы видеть,
а какие — нет.
Google изобрел самый известный алгоритм
выбора наиболее подходящих
результатов поиска.
Он учитывает, сколько других веб-страниц
содержат ссылку на эту страницу.
Идея заключается в том,
что если многие другие сайты считают
эту страницу интересной,
то, возможно, вам она тоже подойдет.
Этот алгоритм называется
Пейдж Рэнк (Рейтинг страницы).
Но не потому, что он создает рейтинг страниц,
а потому, что назван в честь
его автора и соучредителя Google —
Ларри Пейджа.
Поскольку сайты могут зарабатывать деньги
за посещение пользователями,
спамеры пытаются найти способы,
чтобы обмануть поисковые алгоритмы,
и сделать так, чтобы
их страницы показывались
выше в результатах.
Поисковые системы регулярно
обновляют алгоритмы,
чтобы не дать фейковым
и ненадежным сайтам
добраться до вершины
результатов поиска.
Но, в конце концов,
вы сами должны следить,
насколько надежным является сайт,
проверяя его адрес
и убеждаясь, что это надежный источник.
Поисковые программы
постоянно совершенствуются,
улучшая алгоритмы, чтобы выдавать
результаты лучше и быстрее, чем конкуренты.
Современные поисковые движки
используют даже ту информацию,
которую вы не давали явным образом,
чтобы сузить результаты поиска.
Например, если Вы будете искать
"площадки для выгула собак",
многие поисковые системы
выдадут результаты
с площадками неподалеку от вас,
даже если вы не указали
свое местоположение.
Современные поисковые системы
понимают больше,
чем просто слова на страницах.
Они анализируют их значение,
чтобы показать вам именно то,
что вы ищете.
Например, если вы ищете
"fast pitcher"
Вы получите информацию о спортсмене.
Если же вы ищете "large pitcher",
то получите информацию о кувшине.
Чтобы лучше понимать слова,
мы используем машинное обучение.
Это вид искусственного интеллекта,
который помогает поисковым алгоритмам
не только находить отдельные слова
или фразы на страницах,
но и понимать значение этих слов.
Интернет растет экспоненциально,
но если команды, которые
разрабатывают поисковые алгоритмы,
хорошо выполнять свою работу,
нужная вам информация
всегда будет доступна
за несколько кликов.