1 00:00:00,000 --> 00:00:02,018 [Sebastian Thrun] Entonces, ¿cuál es tu visión de cómo construir un motor de búsqueda? 2 00:00:02,018 --> 00:00:03,077 has construido uno antes, ¿verdad? 3 00:00:03,077 --> 00:00:06,008 [Sergey Brin - co-fundador, Google] Sí. Creo que lo más importante, 4 00:00:06,008 --> 00:00:08,013 si vas a construir un buscador, 5 00:00:08,013 --> 00:00:12,051 es tener un corpus realmente bueno para comenzar. 6 00:00:12,051 --> 00:00:19,020 En nuestro caso, utilizamos la World Wide Web, que a su tiempo era sin duda más pequeño de lo que es hoy. 7 00:00:19,020 --> 00:00:21,036 Pero también era muy nuevo y excitante. 8 00:00:21,036 --> 00:00:23,081 Hubo todo tipo de cosas inesperadas allí. 9 00:00:23,081 --> 00:00:26,099 [David Evans] Entonces, la meta para las tres primeras unidades del curso es construir ese corpus. 10 00:00:27,003 --> 00:00:30,009 Y queremos construir el corpus de nuestro buscador 11 00:00:30,009 --> 00:00:32,090 rastreando la web y es lo que hace un rastreador de web. 12 00:00:32,090 --> 00:00:36,038 Lo que un rastreador de web es, es un programa que recopila el contenido de la web. 13 00:00:36,038 --> 00:00:40,054 Si piensas en una página web que ves en tu explorador, tienes una página como esta. 14 00:00:40,054 --> 00:00:43,099 Y utilizaremos el sitio de udacity como ejemplo de página web. 15 00:00:43,099 --> 00:00:47,097 Tiene un montón de contenido, tiene algunas imágenes, tiene algo de texto. 16 00:00:47,097 --> 00:00:51,038 Todo esto entra en el navegador cuando tu solicitas la página. 17 00:00:51,038 --> 00:00:53,066 Lo importante que tiene es enlaces. 18 00:00:53,066 --> 00:00:57,093 Y lo que un enlace es, es algo que va a otra página. 19 00:00:57,093 --> 00:01:00,050 Así que tenemos un enlace a las preguntas frecuentes, 20 00:01:00,050 --> 00:01:02,046 tenemos un vínculo a la página de CS 101. 21 00:01:02,046 --> 00:01:04,043 Hay algún otro enlace en la página. 22 00:01:04,043 --> 00:01:07,054 Y ese enlace puede aparecer subrayado en tu navegador , 23 00:01:07,054 --> 00:01:09,094 o no, dependiendo de cómo tu navegador está configurado. 24 00:01:09,094 --> 00:01:11,095 Pero lo mas importante que hace, 25 00:01:11,095 --> 00:01:13,088 es apuntar a alguna otra página web. 26 00:01:13,088 --> 00:01:16,043 Y esas otras páginas también pueden tener enlaces, 27 00:01:16,043 --> 00:01:19,073 así que tenemos otro enlace en esta página. 28 00:01:19,073 --> 00:01:23,052 Tal vez es mi nombre, puedes seguir a mi página de inicio. 29 00:01:23,052 --> 00:01:26,091 Y todas las páginas que podemos encontrar con nuestro rastreador web 30 00:01:26,091 --> 00:01:29,009 se encuentran siguiendo los enlaces. 31 00:01:29,009 --> 00:01:31,067 Por lo que no necesariamente encontrará todas las páginas en la web 32 00:01:31,067 --> 00:01:33,059 Sin embargo, si empezamos con una buena página inicial 33 00:01:33,059 --> 00:01:35,003 encontraremos montones de páginas. 34 00:01:35,003 --> 00:01:37,050 Y lo que el Rastreador va a hacer es empezar con una página, 35 00:01:37,050 --> 00:01:41,056 encontrar todos los enlaces en esa página, seguirlos para encontrar otras páginas 36 00:01:41,056 --> 00:01:45,013 y, a continuación, en esas otras páginas seguirá los vínculos en esas páginas 37 00:01:45,013 --> 00:01:48,031 para encontrar otras páginas y habrá muchos más vínculos en esas páginas. 38 00:01:48,031 --> 00:01:51,043 Y finalmente tendremos una colección de muchas páginas en la web. 39 00:01:51,043 --> 00:01:54,007 Así que eso es lo que queremos hacer para construir un rastreador web. 40 00:01:54,007 --> 00:01:56,095 Queremos encontrar alguna manera para empezar por una página inicial. 41 00:01:56,095 --> 00:01:59,056 extraer los enlaces en esa página, 42 00:01:59,056 --> 00:02:01,078 Seguir los vínculos a otras páginas, 43 00:02:01,078 --> 00:02:03,067 luego recoger los enlaces en esas otras páginas, 44 00:02:03,067 --> 00:02:05,024 seguirlos, recoger todo eso. 45 00:02:05,024 --> 00:02:07,038 Así que eso suena como mucho por hacer. 46 00:02:07,038 --> 00:02:09,014 No lo vamos a hacer todo eso esta primera clase. 47 00:02:09,014 --> 00:02:12,072 Lo que vamos a hacer en esta primera unidad, es simplemente extraer un vínculo. 48 00:02:12,072 --> 00:02:14,058 Así que vamos a empezar con una porción de texto. 49 00:02:14,058 --> 00:02:17,033 Va a tener un vínculo en ella con una dirección URL. 50 00:02:17,033 --> 00:02:19,064 Lo que queremos encontrar es esa URL, 51 00:02:19,064 --> 00:02:21,089 por lo tanto podemos solicitar la página siguiente. 52 00:02:21,089 --> 00:02:23,082 El objetivo de la segunda unidad 53 00:02:23,082 --> 00:02:25,016 es ser capaz de seguir adelante. 54 00:02:25,016 --> 00:02:28,049 Si hay muchos enlaces en una página, querrás poder encontrarlos todos. 55 00:02:28,049 --> 00:02:30,014 y lo que haremos en la unidad 2, 56 00:02:30,014 --> 00:02:32,069 es averiguar cómo seguir adelante para extraer todos esos enlaces. 57 00:02:32,069 --> 00:02:36,061 En la unidad tres, bueno, queremos ir más allá de una sola página. 58 00:02:36,061 --> 00:02:40,033 Así que al final de la unidad dos podremos imprimir todos los enlaces en una página. 59 00:02:40,033 --> 00:02:44,002 Unidad 3 queremos reunir todos esos vínculos, para poder seguir adelante, 60 00:02:44,002 --> 00:02:47,018 siguiendo nuestro rastreador para recopilar muchas, muchas páginas. 61 00:02:47,018 --> 00:02:50,013 Por lo que al final de la unidad tres habremos construido un rastreador de web. 62 00:02:50,013 --> 00:02:52,033 Tendremos un modo de construir nuestro corpus. 63 00:02:52,033 --> 00:02:57,079 A continuación, las otras tres unidades verán la forma de responder efectivamente a las consultas. 64 00:02:57,079 --> 00:03:01,034 Así que en la unidad cuatro comprenderemos la manera de dar una buena respuesta. 65 00:03:01,034 --> 00:03:08,022 Si buscas una cierta palabra clave, quieres obtener una respuesta que es una lista de las páginas 66 00:03:08,022 --> 00:03:10,063 donde aparece esa palabra clave. 67 00:03:10,063 --> 00:03:15,090 Y descubriremos, en la unidad cinco, una manera de hacerlo, que escala, si tenemos un gran corpus. 68 00:03:15,090 --> 00:03:19,083 Y a continuación, en la unidad seis lo que queremos hacer es, bueno, no queremos solo encontrar una lista 69 00:03:19,083 --> 00:03:21,069 queremos encontrar la mejor. 70 00:03:21,069 --> 00:03:24,084 Así que descubriremos cómo clasificar todas las páginas donde aparece esa palabra clave. 71 00:03:24,084 --> 00:03:27,068 Así que nos estamos adelantando ahora, 72 00:03:27,068 --> 00:03:30,035 porque todo lo que vamos a hacer en la unidad uno 73 00:03:30,035 --> 00:03:32,064 es averiguar cómo extraer un vínculo de la página. 74 00:03:32,064 --> 00:03:35,073 Y el motor de búsqueda que nosotros construiremos al final de esto 75 00:03:35,073 --> 00:03:37,034 será un motor de búsqueda funcional. 76 00:03:37,034 --> 00:03:40,061 Contará con los principales componentes que tiene un motor de búsqueda como Google. 77 00:03:40,061 --> 00:03:43,014 Sin duda no será tan poderoso como Google será, 78 00:03:43,014 --> 00:03:44,029 queremos mantener las cosas simples. 79 00:03:44,029 --> 00:03:46,060 Queremos tener una pequeña cantidad de código para escribir. 80 00:03:46,060 --> 00:03:48,010 Y debemos recordar que nuestro verdadero objetivo 81 00:03:48,010 --> 00:03:50,024 no es tanto construir un motor de búsqueda 82 00:03:50,024 --> 00:03:52,078 sino utilizar la meta de construir un motor de búsqueda como vehículo 83 00:03:52,078 --> 00:03:55,018 para aprender sobre ciencia de la computación 84 00:03:55,018 --> 00:03:56,075 y aprender acerca de programación 85 00:03:56,075 --> 00:03:58,018 por lo que las cosas que aprendamos haciendo esto 86 00:03:58,018 --> 99:59:59,999 nos permitirán resolver gran cantidad de distintos problemas .