A coisa importante que ele tem são os links.
A meta para a segunda unidade
Ao final da unidade 3 teremos contruído um web crawler.
Descobriremos na unidade 5 uma forma de fazer isso, dimensionando, caso tenhamos um grande corpus.
E esse link pode ser exibido no seu navegador com um sublinhado,
E o motor de busca que construiremos até o final,
E o que o rastreador vai fazer é começar com uma página,
E o que um link é? É algo que aponta para outra página.
E queremos construir o corpus para o nosso motor de busca
E, finalmente vamos ter uma coleção de várias páginas da web.
Ele certamente não será poderoso como Google,
Ele terá os principais componentes que um motor de busca como o Google possui.
Então isso parece um monte de coisa pra fazer.
Então nós temos um link para as perguntas frequentes (FAQ),
Então é isso que nós queremos fazer para construir um web crawler.
Então, compreenderemos como classificar todas as páginas que a palavra chave aparece.
Então, estamos nos adiantando um pouco,
Então, nas três unidades restantes veremos como responder às solicitações.
Então, não necessariamante encontraremos cada página da web
Então, perto do fim da Unidade 2 podemos imprimir todos os links de uma página.
Então, se você pesquisar por uma palavra chave, você precisa de uma resposta com a lista de paginas
Então, vamos começar com um monte de texto.
Havia todo o tipo de coisa inesperada lá.
Há alguns outros links na página.
Já ma unidade 6, nós não queremos apenas encontrar uma lista,
Mas era algo muito novo e excitante.
Mas o importante é o que ele faz,
Na Unidade 3, queremos ir mais além de uma página.
Na unidade 4, descobriremos como dar uma boa resposta.
No nosso caso, usamos a web (www), que na época certamente era menor do que é hoje.
Nós não trataremos de tudo isto na primeira aula.
Nós teremos um pouco de código a escrever
Nós usaremos o site da Udacity como exemplo.
Nós vamos ter uma forma de construir o nosso corpus.
O que queremos é encontrar essa URL,
O que um web crawler é? é um programa que coleta conteúdos da web.
O que vamos fazer na primeira unidade, é só extrair um link.
Para unidade 3 queremos coletar todos esses links, então podemos continuar,
Queremos encontrar uma maneira de começar a partir de uma página semente (inicial),
Se começarmos com uma boa página semente (inicial)
Se você pensar em uma página web que você vê no seu navegador, você tem uma página como esta.
Talvez com o meu nome e você pode seguir para a minha home page.
Tem muito conteúdo, tem algumas imagens, tem algum texto.
Todas as páginas que nós podemos procurar com nosso web crawler
Tudo isso surge no seu navegador quando você solicitar a página.
Vai ter um link nele com uma URL.
[David Evans] Então a meta para as três primeiras unidades do curso é construir esse corpus.
[Sebastian Thrun] Então, qual é sua opinião sobre como construir um motor de busca,
[Sergey Brin - Co-Fundador, Google] Sim. Acho que a coisa mais importante
e então nestas outras páginas ele seguirá os links destas páginas
e estas outras páginas web talvez tenham links também
e nós devemos nos lembrar do nosso real objetivo,
e sobre programação.
entender como continuar a extrair todos estes links.
então coletar os links destas outras páginas,
então nós temos outro link nesta página.
então podemos solicitar a próxima página.
então, o que aprenderemos fazendo isto
extrair os links desta página,
já que precisamos mante-lo simples.
já que tudo que vamos fazer na unidade 1,
mas usar esta contrução como veiculo
nos permitirá resolver muitos e muitos outros problemas.
nós queremos encontrar a melhor.
ou não, dependendo de como seu navegador está definido.
para aprender sobre ciência da computação
para encontrar outras páginas e haverão muito mais links sobre essas páginas.
procurar todos os links desta página, seguindo-os para encontrar outras páginas
que a palavra chave aparece.
que não é contruir um motor de busca,
que é apontar para outra página web.
rastreando a web e é isso que um web crawler faz.
se há muitos links em uma página, você vai querer encontrar todos eles.
se você estiver indo construir um motor de busca
segui-las e coletar tudo.
seguindo o nosso rastreador na coleta de muitas e muitas páginas.
seguir os links para outras páginas,
será totalmente funcional.
são encontradas seguindo os links.
temos um link para a página CS 101.
vamos encontrar muitas páginas.
você construiu um antes, certo?
É isso o que faremos na Unidade 2,
é compreender como extrair um link da página.
é ser capaz de continuar.
é ter um bom "corpus" para começar.