[Себастьян Тран] Как ты думаешь, как написать поисковую машину ты ведь создал уже одну раньше, так ведь? [Сергей Брин, сооснователь Google] Да, я думаю, что самая важная вещь, если ты собираешся создать поисковую машину, это иметь хорошую базу с которой начнёшь В нашем случае мы использовали всемирную паутину, которая в то время была, конечно, меньше, чем сегодня Но она была также новой и захватывающей Были всякие неожиданные вещи. [David Evans] Итак, цель наших трех первых разделов курса в создании этой базы И мы собираемся создать базу для нашего поисковой машины сканируя сеть, это то, что делает сетевой "паук". Сетевой паук - это программа, которая собирает содержание сети. Если представить веб-страницу которую ты видишь в браузере, у тебя есть страница наподобие этой. Рассмотрим сайт udacity как пример веб-страницы На ней много информации, в виде картинок, в виде текта Все это получает твой браузер, когда запрашивает страницу Важная вещь это ссылки Ссылка это что-то, что ссылается на другую страницу Так у нас есть ссылка на часто задаваемые вопросы есть ссылка на страницу CS101 И ещё несколько остальных ссылок И эта ссылка может быть показана в браузере с подчёркиванием или нет, в зависимости от настроек браузера Но важная вещь это то, что они указывают на какие-то другие страницы И эти страницы могут тоже содеражить ссылки так у нас есть другая ссылка на эту страницу Может быть с моим именем, ты можешь попасть на мою домашную страницу И все страницы, которые мы можем найти нашим пауком находятся по переходу по ссылкам. Так, что нам не нужно искать каждую страницу в сети Если мы начнем с хорошей начальной страницы мы найдем множество страниц. И всё что паук будет делать, это начинать с одной страницы, находить на ней все ссылки и переходить по ним, находя другие страницы и затем на других страницах он перейдет по следующим ссылкам обнаруживая другие страницы и на этих страницах будет ещё больше ссылок И в конце концов у нас будет коллекция множества страниц в сети. Вот что мы хотим делать, создавая веб паука. Мы собираемся каким-либо образом начать с первоначальной страницы выделить ссылки на ней, перейти по этим ссылкам на другие страницы, затем собрать ссылки с этих других страниц, переходя по ним, собирая всё содеражние Похоже чтобы реализовать это, нужно много работы Мы не собираемся делать это всё в первом разделе Всё что мы собираемся сделать в первом разделе, просто выделить ссылку. Итак, мы начнем с отрывка текста. Он будет иметь ссылки с URL. Всё что мы хотим найти это этот URL, так чтобы мы могли запросить следующую страницу. Цель второго раздела возможность продолжить дальше, если на странице много ссылок, ты захочешь найти их все. Это то, чем мы займемся во втором разделе, выяснить, как продолжить, чтобы выделить все эти ссылки В третьем разделе, мы хотим выйти за рамки только одной страницы. Так что к концу раздела 2 мы сможем вывести все ссылки с одной страницы Для третьего раздела нам нужно собрать всё эти ссылки, так что мы можем продолжить, чтобы в конечном итоге, наш паук собрал много страниц. Так что к концу третьего раздела мы доделаем веб паука. У нас будет возможность сделать базу. Тогда в оставшихся трёх разделах взглянем на то, как отвечать на запросы. Таким образом в четвертом разделе подумаем над тем как получить хороший отклик. Если ты ищешь какое-либо слово, ты хочешь получить в ответ список страниц, где встречается это слово. И в 5 разделе мы найдём способ сделать это, если у нас очень большая база. Затем в шестом разделе, что мы хотим сделать, это не просто найти список страниц, мы хотим найти наиболее подходящую. Мы подумаем над тем, как расставить страницы, где это слово встречается. Но мы сейчас немного забежали вперед, потому что всё что мы собираемся сделать в первом разделе, это выяснить как извлечь ссылку со страницы. И поисковая машина, которую мы создадим в конце будет вполне действующей поисковой машиной. Она будет содержать такие же главные компоненты, как и у поисковой машину Google. Она определенно не будет такой же мощной, как Google, мы не хотим всё сильно усложнять. Нам нужно будет написать не так много кода. Мы хотим напомнить, что наша настоящая цель не сколько написать поисковую машину, а сколько воспользоваться необходимостью написания поисковой машины для того, чтобы изучить информатику и программирование так, что вещи, которые мы изучим, делая поисковую машину позволят нам в дальнейшем решить много других проблем.