[Sebastian Thrun] Entonces, ¿cuál es tu visión de cómo construir un motor de búsqueda?

has construido uno antes, ¿verdad?

[Sergey Brin - co-fundador, Google] Sí. Creo que lo más importante,

si vas a construir un buscador,

es tener un corpus realmente bueno para comenzar.

En nuestro caso, utilizamos la World Wide Web, que a su tiempo era sin duda más pequeño de lo que es hoy.

Pero también era muy nuevo y excitante.

Hubo todo tipo de cosas inesperadas allí.

[David Evans] Entonces, la meta para las tres primeras unidades del curso es construir ese corpus.

Y queremos construir el corpus de nuestro buscador

rastreando la web y es lo que hace un rastreador de web.

Lo que un rastreador de web es, es un programa que recopila el contenido de la web.

Si piensas en una página web que ves en tu explorador, tienes una página como esta.

Y utilizaremos el sitio de udacity como ejemplo de página web.

Tiene un montón de contenido, tiene algunas imágenes, tiene algo de texto.

Todo esto entra en el navegador cuando tu solicitas la página.

Lo importante que tiene es enlaces.

Y lo que un enlace es, es algo que va a otra página.

Así que tenemos un enlace a las preguntas frecuentes,

tenemos un vínculo a la página de CS 101.

Hay algún otro enlace en la página.

Y ese enlace puede aparecer subrayado en tu navegador ,

o no, dependiendo de cómo tu navegador está configurado.

Pero lo mas importante que hace,

es apuntar a alguna otra página web.

Y esas otras páginas también pueden tener enlaces,

así que tenemos otro enlace en esta página.

Tal vez es mi nombre, puedes seguir a mi página de inicio.

Y todas las páginas que podemos encontrar con nuestro rastreador web

se encuentran siguiendo los enlaces.

Por lo que no necesariamente encontrará todas las páginas en la web

Sin embargo, si empezamos con una buena página inicial

encontraremos montones de páginas.

Y lo que el Rastreador va a hacer es empezar con una página,

encontrar todos los enlaces en esa página, seguirlos para encontrar otras páginas

y, a continuación, en esas otras páginas seguirá los vínculos en esas páginas

para encontrar otras páginas y habrá muchos más vínculos en esas páginas.

Y finalmente tendremos una colección de muchas páginas en la web.

Así que eso es lo que queremos hacer para construir un rastreador web.

Queremos encontrar alguna manera para empezar por una página inicial.

extraer los enlaces en esa página,

Seguir los vínculos a otras páginas,

luego recoger los enlaces en esas otras páginas,

seguirlos, recoger todo eso.

Así que eso suena como mucho por hacer.

No lo vamos a hacer todo eso esta primera clase.

Lo que vamos a hacer en esta primera unidad, es simplemente extraer un vínculo.

Así que vamos a empezar con una porción de texto.

Va a tener un vínculo en ella con una dirección URL.

Lo que queremos encontrar es esa URL,

por lo tanto podemos solicitar la página siguiente.

El objetivo de la segunda unidad

es ser capaz de seguir adelante.

Si hay muchos enlaces en una página, querrás poder encontrarlos todos.

y lo que haremos en la unidad 2,

es averiguar cómo seguir adelante para extraer todos esos enlaces.

En la unidad tres, bueno, queremos ir más allá de una sola página.

Así que al final de la unidad dos podremos imprimir todos los enlaces en una página.

Unidad 3 queremos reunir todos esos vínculos, para poder seguir adelante,

siguiendo nuestro rastreador para recopilar muchas, muchas páginas.

Por lo que al final de la unidad tres habremos construido un rastreador de web.

Tendremos un modo de construir nuestro corpus.

A continuación, las otras tres unidades verán la forma de responder efectivamente a las consultas.

Así que en la unidad cuatro comprenderemos la manera de dar una buena respuesta.

Si buscas una cierta palabra clave, quieres obtener una respuesta que es una lista de las páginas

donde aparece esa palabra clave.

Y descubriremos, en la unidad cinco, una manera de hacerlo, que escala, si tenemos un gran corpus.

Y a continuación, en la unidad seis lo que queremos hacer es, bueno, no queremos solo encontrar una lista

queremos encontrar la mejor.

Así que descubriremos cómo clasificar todas las páginas donde aparece esa palabra clave.

Así que nos estamos adelantando ahora,

porque todo lo que vamos a hacer en la unidad uno

es averiguar cómo extraer un vínculo de la página.

Y el motor de búsqueda que nosotros construiremos al final de esto

será un motor de búsqueda funcional.

Contará con los principales componentes que tiene un motor de búsqueda como Google.

Sin duda no será tan poderoso como Google será,

queremos mantener las cosas simples.

Queremos tener una pequeña cantidad de código para escribir.

Y debemos recordar que nuestro verdadero objetivo

no es tanto construir un motor de búsqueda

sino utilizar la meta de construir un motor de búsqueda como vehículo

para aprender sobre ciencia de la computación

y aprender acerca de programación

por lo que las cosas que aprendamos haciendo esto

nos permitirán resolver gran cantidad de distintos problemas .