1 00:00:00,000 --> 00:00:02,018 [Sebastian Thrun] Miten hakukone pitäisi sinun mielestäsi tehdä, 2 00:00:02,018 --> 00:00:03,077 olet tehnyt sellaisen aiemmin, eikö totta? 3 00:00:03,077 --> 00:00:06,008 [Sergey Brin - yksi Googlen perustajista] Kyllä. Minusta tärkein asia 4 00:00:06,008 --> 00:00:08,013 hakukonetta rakentaessa 5 00:00:08,013 --> 00:00:12,051 on aloittaa todella hyvän kieliaineiston kanssa. 6 00:00:12,051 --> 00:00:19,020 Me käytimme WWW:tä, joka siihen aikaan todella oli pienempi, mitä nykyään. 7 00:00:19,020 --> 00:00:21,036 Mutta se oli myös hyvin uusi ja jännittävä. 8 00:00:21,036 --> 00:00:23,081 Siellä oli kaikenlaisia yllättäviä asioita. 9 00:00:23,081 --> 00:00:26,099 [David Evans] Joten ensimmäisen kolmen oppitunnin aiheena on rakentaa tämä kieliaineisto. 10 00:00:27,003 --> 00:00:30,009 Haluamme rakentaa tämän aineiston hakukonettamme varten 11 00:00:30,009 --> 00:00:32,090 käymällä verkkoa läpi, mikä on hakurobotin tehtävä. 12 00:00:32,090 --> 00:00:36,038 Hakurobotti on ohjelma, joka kerää verkkosivuilta sisältöä. 13 00:00:36,038 --> 00:00:40,054 Ajattele webbisivua selaimessasi, se näyttää tältä. 14 00:00:40,054 --> 00:00:43,099 Käytämme udacityn sivustoa esimerkkinä webbisivusta. 15 00:00:43,099 --> 00:00:47,097 Siellä on paljon sisältöä, muutamia kuvia ja jonkin verran tekstiä. 16 00:00:47,097 --> 00:00:51,038 Kaikki tämä tulee selaimeesi, kun pyydät sivua. 17 00:00:51,038 --> 00:00:53,066 Tärkeä asia on, että sivulla on linkkejä. 18 00:00:53,066 --> 00:00:57,093 Linkki view toiselle sivulle. 19 00:00:57,093 --> 00:01:00,050 Joten meillä on linkki usein kysyttyihin kysymyksiin, 20 00:01:00,050 --> 00:01:02,046 ja linkki CS 101 sivulle. 21 00:01:02,046 --> 00:01:04,043 Ja myös joitain muita linkkejä. 22 00:01:04,043 --> 00:01:07,054 Linkki voi näkyä selaimessasi alleviivattuna, 23 00:01:07,054 --> 00:01:09,094 tai ei, riippuen selaimesi asetuksista. 24 00:01:09,094 --> 00:01:11,095 Mutta tärkeintä on, 25 00:01:11,095 --> 00:01:13,088 että se ohjaa jollekin toiselle sivulle. 26 00:01:13,088 --> 00:01:16,043 Ja noilla muilla sivuilla voi myös olla linkkejä, 27 00:01:16,043 --> 00:01:19,073 joten meillä on uusi linkki. 28 00:01:19,073 --> 00:01:23,052 Se on ehkä nimeni, jota voit seurata kotisivulleni. 29 00:01:23,052 --> 00:01:26,091 Ja kaikki sivut mitä löydämme hakurobotillamme 30 00:01:26,091 --> 00:01:29,009 löytyvät linkkejä seuraamalla. 31 00:01:29,009 --> 00:01:31,067 Ei ole tarpeen löytää jokaista sivua webistä. 32 00:01:31,067 --> 00:01:33,059 Jos aloitamme hyvällä siemensivulla, 33 00:01:33,059 --> 00:01:35,003 löydämme kuitenkin paljon sivuja. 34 00:01:35,003 --> 00:01:37,050 Ja robotti aloittaa yhdeltä sivulta, 35 00:01:37,050 --> 00:01:41,056 etsii kaikki linkit sillä sivulla, seuraa niitä muille sivuille 36 00:01:41,056 --> 00:01:45,013 ja etsii niillä olevat linkit 37 00:01:45,013 --> 00:01:48,031 löytääkseen taas uusia sivuja, joilla on paljon lisää linkkejä. 38 00:01:48,031 --> 00:01:51,043 Ja lopulta meillä on suuri kokoelma sivuja webissä. 39 00:01:51,043 --> 00:01:54,007 Tämän me haluamme tehdä rakentamalla hakurobotin. 40 00:01:54,007 --> 00:01:56,095 Haluamme keksiä jonkin tavan aloittaa siemensivulta, 41 00:01:56,095 --> 00:01:59,056 erottaa sivun linkit, 42 00:01:59,056 --> 00:02:01,078 seurata noita linkkejä muille sivuille, 43 00:02:01,078 --> 00:02:03,067 sitten kerätä linkit näiltä sivuilta, 44 00:02:03,067 --> 00:02:05,024 seurata niitä, kerätä tämä kaikki. 45 00:02:05,024 --> 00:02:07,038 Tämä kuulostaa isolta tehtävältä. 46 00:02:07,038 --> 00:02:09,014 Emme käy kaikkea läpi tällä ensimmäisellä oppitunnilla. 47 00:02:09,014 --> 00:02:12,072 Tällä kertaa vain erottelemme yhden linkin. 48 00:02:12,072 --> 00:02:14,058 Joten aloitetaan tekstinpätkällä. 49 00:02:14,058 --> 00:02:17,033 Siinä on linkki URL:n kera. 50 00:02:17,033 --> 00:02:19,064 Haluamme löytää tämän URL:n, 51 00:02:19,064 --> 00:02:21,089 jotta voimme pyytää seuraavaa sivua. 52 00:02:21,089 --> 00:02:23,082 Toisen oppitunnin tavoite 53 00:02:23,082 --> 00:02:25,016 on pystyä jatkamaan tästä. 54 00:02:25,016 --> 00:02:28,049 Jos yhdellä sivulla on monta linkkiä, haluat pystyä löytämään ne kaikki. 55 00:02:28,049 --> 00:02:30,014 Joten sen teemme toisella oppitunnilla. 56 00:02:30,014 --> 00:02:32,069 Keksimme miten voimme jatkaa kaikkien keräämiseksi. 57 00:02:32,069 --> 00:02:36,061 Kolmannella tunnilla jatkamme yhdestä sivusta eteenpäin. 58 00:02:36,061 --> 00:02:40,033 Toisen oppitunnin jälkeen voimme tulostaa kaikki linkit yhdellä sivulla. 59 00:02:40,033 --> 00:02:44,002 Kolmannella keräämme kaikki nämä linkit jatkaaksemme, 60 00:02:44,002 --> 00:02:47,018 ja päädymme keräämään, monia, monia sivuja. 61 00:02:47,018 --> 00:02:50,013 Joten kolmannen oppitunnin jälkeen olemme rakentaneet hakurobotin. 62 00:02:50,013 --> 00:02:52,033 Meillä on keino kieliaineiston rakentamiseksi. 63 00:02:52,033 --> 00:02:57,079 Loppujen kolmen oppitunnin aikana tutkimme miten vastata kyselyihin. 64 00:02:57,079 --> 00:03:01,034 Joten neljännen tunnin jälkeen mietimme miten antaa hyvä vastaus. 65 00:03:01,034 --> 00:03:08,022 Joten jos etsit hakusanalla, haluat vastauksen joka on lista sivuja, 66 00:03:08,022 --> 00:03:10,063 joilla tämä hakusana esiintyy. 67 00:03:10,063 --> 00:03:15,090 Viidennellä oppitunnilla mietimme miten voimme tehdä tämän laajemmin, jos meillä on iso aineisto. 68 00:03:15,090 --> 00:03:19,083 Ja kuudennella tunnilla haluamme, no, emme halua vain listan, 69 00:03:19,083 --> 00:03:21,069 vaan haluamme parhaan vastauksen. 70 00:03:21,069 --> 00:03:24,084 Joten meidän pitää miettiä miten voimme järjestää kaikki sivut, joilla hakusana esiintyy. 71 00:03:24,084 --> 00:03:27,068 Edistämme nyt vähän tässä, 72 00:03:27,068 --> 00:03:30,035 koska kaikki mitä teemme tällä tunnilla, 73 00:03:30,035 --> 00:03:32,064 on miettiä miten saamme erotettua yhden linkin sivulta. 74 00:03:32,064 --> 00:03:35,073 Kaiken lopuksi rakentamamme hakukone 75 00:03:35,073 --> 00:03:37,034 tulee olemaan toimiva. 76 00:03:37,034 --> 00:03:40,061 Siinä on kaikki samat osat mitä Googlen kaltaisessa hakukoneessa on. 77 00:03:40,061 --> 00:03:43,014 Se ei tule kylläkään olemaan yhtä tehokas kuin Google, 78 00:03:43,014 --> 00:03:44,029 koska haluamme pitää asiat yksinkertaisina. 79 00:03:44,029 --> 00:03:46,060 Haluamme kirjoittaa vain pienen määrän koodia. 80 00:03:46,060 --> 00:03:48,010 Ja meidän pitää muistaa, että päämäärämme 81 00:03:48,010 --> 00:03:50,024 ei ole hakukoneen rakentaminen, 82 00:03:50,024 --> 00:03:52,078 vaan tietojenkäsittelyn oppiminen 83 00:03:52,078 --> 00:03:55,018 rakentamisen ohessa. 84 00:03:55,018 --> 00:03:56,075 Ja ohjelmoinnin opettelu, 85 00:03:56,075 --> 00:03:58,018 jotta tekemällä oppimamme asiat 86 00:03:58,018 --> 99:59:59,999 antavat meille kyvyn ratkaista monia, monia muita ongelmia.