0:00:00.000,0:00:02.018 [Себастьян Тран] Как ты думаешь, как написать поисковую машину 0:00:02.018,0:00:03.077 ты ведь создал уже одну раньше, так ведь? 0:00:03.077,0:00:06.008 [Сергей Брин, сооснователь Google] Да, я думаю, что самая важная вещь, 0:00:06.008,0:00:08.013 если ты собираешся создать поисковую машину, 0:00:08.013,0:00:12.051 это иметь хорошую базу с которой начнёшь 0:00:12.051,0:00:19.020 В нашем случае мы использовали всемирную паутину, которая в то время была, конечно, меньше, чем сегодня 0:00:19.020,0:00:21.036 Но она была также новой и захватывающей 0:00:21.036,0:00:23.081 Были всякие неожиданные вещи. 0:00:23.081,0:00:26.099 [David Evans] Итак, цель наших трех первых разделов курса в создании этой базы 0:00:27.003,0:00:30.009 И мы собираемся создать базу для нашего поисковой машины 0:00:30.009,0:00:32.090 сканируя сеть, это то, что делает сетевой "паук". 0:00:32.090,0:00:36.038 Сетевой паук - это программа, которая собирает содержание сети. 0:00:36.038,0:00:40.054 Если представить веб-страницу которую ты видишь в браузере, у тебя есть страница наподобие этой. 0:00:40.054,0:00:43.099 Рассмотрим сайт udacity как пример веб-страницы 0:00:43.099,0:00:47.097 На ней много информации, в виде картинок, в виде текта 0:00:47.097,0:00:51.038 Все это получает твой браузер, когда запрашивает страницу 0:00:51.038,0:00:53.066 Важная вещь это ссылки 0:00:53.066,0:00:57.093 Ссылка это что-то, что ссылается на другую страницу 0:00:57.093,0:01:00.050 Так у нас есть ссылка на часто задаваемые вопросы 0:01:00.050,0:01:02.046 есть ссылка на страницу CS101 0:01:02.046,0:01:04.043 И ещё несколько остальных ссылок 0:01:04.043,0:01:07.054 И эта ссылка может быть показана в браузере с подчёркиванием 0:01:07.054,0:01:09.094 или нет, в зависимости от настроек браузера 0:01:09.094,0:01:11.095 Но важная вещь это то, 0:01:11.095,0:01:13.088 что они указывают на какие-то другие страницы 0:01:13.088,0:01:16.043 И эти страницы могут тоже содеражить ссылки 0:01:16.043,0:01:19.073 так у нас есть другая ссылка на эту страницу 0:01:19.073,0:01:23.052 Может быть с моим именем, ты можешь попасть на мою домашную страницу 0:01:23.052,0:01:26.091 И все страницы, которые мы можем найти нашим пауком 0:01:26.091,0:01:29.009 находятся по переходу по ссылкам. 0:01:29.009,0:01:31.067 Так, что нам не нужно искать каждую страницу в сети 0:01:31.067,0:01:33.059 Если мы начнем с хорошей начальной страницы 0:01:33.059,0:01:35.003 мы найдем множество страниц. 0:01:35.003,0:01:37.050 И всё что паук будет делать, это начинать с одной страницы, 0:01:37.050,0:01:41.056 находить на ней все ссылки и переходить по ним, находя другие страницы 0:01:41.056,0:01:45.013 и затем на других страницах он перейдет по следующим ссылкам 0:01:45.013,0:01:48.031 обнаруживая другие страницы и на этих страницах будет ещё больше ссылок 0:01:48.031,0:01:51.043 И в конце концов у нас будет коллекция множества страниц в сети. 0:01:51.043,0:01:54.007 Вот что мы хотим делать, создавая веб паука. 0:01:54.007,0:01:56.095 Мы собираемся каким-либо образом начать с первоначальной страницы 0:01:56.095,0:01:59.056 выделить ссылки на ней, 0:01:59.056,0:02:01.078 перейти по этим ссылкам на другие страницы, 0:02:01.078,0:02:03.067 затем собрать ссылки с этих других страниц, 0:02:03.067,0:02:05.024 переходя по ним, собирая всё содеражние 0:02:05.024,0:02:07.038 Похоже чтобы реализовать это, нужно много работы 0:02:07.038,0:02:09.014 Мы не собираемся делать это всё в первом разделе 0:02:09.014,0:02:12.072 Всё что мы собираемся сделать в первом разделе, просто выделить ссылку. 0:02:12.072,0:02:14.058 Итак, мы начнем с отрывка текста. 0:02:14.058,0:02:17.033 Он будет иметь ссылки с URL. 0:02:17.033,0:02:19.064 Всё что мы хотим найти это этот URL, 0:02:19.064,0:02:21.089 так чтобы мы могли запросить следующую страницу. 0:02:21.089,0:02:23.082 Цель второго раздела 0:02:23.082,0:02:25.016 возможность продолжить дальше, 0:02:25.016,0:02:28.049 если на странице много ссылок, ты захочешь найти их все. 0:02:28.049,0:02:30.014 Это то, чем мы займемся во втором разделе, 0:02:30.014,0:02:32.069 выяснить, как продолжить, чтобы выделить все эти ссылки 0:02:32.069,0:02:36.061 В третьем разделе, мы хотим выйти за рамки только одной страницы. 0:02:36.061,0:02:40.033 Так что к концу раздела 2 мы сможем вывести все ссылки с одной страницы 0:02:40.033,0:02:44.002 Для третьего раздела нам нужно собрать всё эти ссылки, так что мы можем продолжить, 0:02:44.002,0:02:47.018 чтобы в конечном итоге, наш паук собрал много страниц. 0:02:47.018,0:02:50.013 Так что к концу третьего раздела мы доделаем веб паука. 0:02:50.013,0:02:52.033 У нас будет возможность сделать базу. 0:02:52.033,0:02:57.079 Тогда в оставшихся трёх разделах взглянем на то, как отвечать на запросы. 0:02:57.079,0:03:01.034 Таким образом в четвертом разделе подумаем над тем как получить хороший отклик. 0:03:01.034,0:03:08.022 Если ты ищешь какое-либо слово, ты хочешь получить в ответ список страниц, 0:03:08.022,0:03:10.063 где встречается это слово. 0:03:10.063,0:03:15.090 И в 5 разделе мы найдём способ сделать это, если у нас очень большая база. 0:03:15.090,0:03:19.083 Затем в шестом разделе, что мы хотим сделать, это не просто найти список страниц, 0:03:19.083,0:03:21.069 мы хотим найти наиболее подходящую. 0:03:21.069,0:03:24.084 Мы подумаем над тем, как расставить страницы, где это слово встречается. 0:03:24.084,0:03:27.068 Но мы сейчас немного забежали вперед, 0:03:27.068,0:03:30.035 потому что всё что мы собираемся сделать в первом разделе, 0:03:30.035,0:03:32.064 это выяснить как извлечь ссылку со страницы. 0:03:32.064,0:03:35.073 И поисковая машина, которую мы создадим в конце 0:03:35.073,0:03:37.034 будет вполне действующей поисковой машиной. 0:03:37.034,0:03:40.061 Она будет содержать такие же главные компоненты, как и у поисковой машину Google. 0:03:40.061,0:03:43.014 Она определенно не будет такой же мощной, как Google, 0:03:43.014,0:03:44.029 мы не хотим всё сильно усложнять. 0:03:44.029,0:03:46.060 Нам нужно будет написать не так много кода. 0:03:46.060,0:03:48.010 Мы хотим напомнить, что наша настоящая цель 0:03:48.010,0:03:50.024 не сколько написать поисковую машину, 0:03:50.024,0:03:52.078 а сколько воспользоваться необходимостью 0:03:52.078,0:03:55.018 написания поисковой машины для того, 0:03:55.018,0:03:56.075 чтобы изучить информатику и программирование 0:03:56.075,0:03:58.018 так, что вещи, которые мы изучим, делая поисковую машину 0:03:58.018,9:59:59.000 позволят нам в дальнейшем решить много других проблем.