1 00:00:06,070 --> 00:00:07,510 Hei, nimeni on John. 2 00:00:07,510 --> 00:00:10,520 Johdan hakua ja koneen oppimistiimejä Googlella. 3 00:00:12,130 --> 00:00:14,230 Minusta on hyvin inspiroivaa, 4 00:00:14,230 --> 00:00:16,214 että ihmiset ympäri maailmaa 5 00:00:16,215 --> 00:00:19,160 käyttävät hakukoneita kysyäkseen 6 00:00:19,160 --> 00:00:20,930 erilaisia kysymyksiä. 7 00:00:20,930 --> 00:00:23,450 Parhaan mahdollisen vastauksen 8 00:00:23,450 --> 00:00:25,054 antaminen on suuri vastuu. 9 00:00:26,710 --> 00:00:30,910 Olen Akshaya ja teen töitä Bingin hakutiimissä. 10 00:00:30,910 --> 00:00:36,020 Aloitamme tekoälyn ja koneopin tutkimuksen useita kertoja, 11 00:00:36,020 --> 00:00:39,680 mutta meidän on pohdittava, miten käyttäjät aikovat käyttää niitä, 12 00:00:39,680 --> 00:00:42,560 koska haluamme päivän päätteeksi vaikuttaa yhteiskuntaan. 13 00:00:43,780 --> 00:00:45,820 Kysytään yksinkertainen kysymys. 14 00:00:45,820 --> 00:00:48,646 Kuinka kauan matka Marsiin kestää? 15 00:00:49,330 --> 00:00:51,370 Mistä nämä vastaukset tulivat 16 00:00:51,370 --> 00:00:54,100 ja miksi tämä on listattu ennen muita vastauksia? 17 00:00:55,700 --> 00:00:58,520 Okei, sukelletaan hakukoneiden sisälle ja katsotaan miten ne 18 00:00:58,520 --> 00:01:00,640 kääntävät hakusi tuloksiksi. 19 00:01:00,690 --> 00:01:03,430 Ensimmäinen asia mikä sinun tulee tietää on, että kun etsit jotain 20 00:01:03,430 --> 00:01:06,480 hakukone ei mene joka kerta Maailman Laajuiseen Verkkoon 21 00:01:06,480 --> 00:01:08,010 haun työstämiseksi reaaliajassa. 22 00:01:08,140 --> 00:01:11,360 Tämä on sen takia, koska internetissä on olemassa yli mirjardi nettisivua 23 00:01:11,360 --> 00:01:14,140 ja satoja uusia luodaan joka minuutti. 24 00:01:14,140 --> 00:01:17,240 Joten jos hakukoneen tulisi selata jokaisen sivun läpi 25 00:01:17,240 --> 00:01:18,690 löytääkseen haluamasi, 26 00:01:18,690 --> 00:01:20,120 siinä kestäisi ikuisuus. 27 00:01:20,500 --> 00:01:22,460 Tehdäkseen hakusi nopeammaksi 28 00:01:22,460 --> 00:01:25,420 hakukoneet skannaavat internettiä jatkuvasti 29 00:01:25,420 --> 00:01:28,560 auttaakseen sinua tulevissa hauissasi. 30 00:01:28,930 --> 00:01:31,630 Tällä tavoin, kun etsit tietoa Marssista, 31 00:01:31,630 --> 00:01:33,700 hakukonella on jo haluamasi tieto saatavilla 32 00:01:33,700 --> 00:01:35,728 reaaliajassa. 33 00:01:36,250 --> 00:01:37,540 Se toimii näin. 34 00:01:37,900 --> 00:01:42,400 Internet on sivujen verkko, jotka liittyvät toisiinsa hyperlinkkien avulla. 35 00:01:42,400 --> 00:01:44,680 hakukoneet suorittavat jatkuvasti ohjelmistoa 36 00:01:44,680 --> 00:01:47,380 nimeltä Spider, mikä kulkee nettisivuilla 37 00:01:47,380 --> 00:01:49,040 keräten tietoa. 38 00:01:49,780 --> 00:01:51,550 Joka kerta kun Spider löytää hyperlinkin, 39 00:01:52,090 --> 00:01:55,030 ase seuraa linkkiä kunnes se on vieraillut 40 00:01:55,030 --> 00:01:57,240 kaikissa internetin sivustoissa. 41 00:01:57,240 --> 00:02:00,770 Spider tallettaa mahdollisesti myöhemmin tarvitsemaansa hakutietoa 42 00:02:00,770 --> 00:02:02,500 jokaiselle vierailemalleen sivustolle 43 00:02:02,500 --> 00:02:06,089 lisäämällä sen tietokantaan nimeltä hakuhakemisto. 44 00:02:07,166 --> 00:02:09,590 Palataan takaisin aiempaan hakuun 45 00:02:09,590 --> 00:02:11,280 ja katsotaan, jos ymmärrämme 46 00:02:11,280 --> 00:02:13,333 miten hakukone löysi vastauken. 47 00:02:13,640 --> 00:02:16,640 Kun kysyt kuinka kauan matka Marsiin kestää, 48 00:02:16,640 --> 00:02:18,920 hakukone katsoo niistä jokaiseen hakusanaan 49 00:02:18,920 --> 00:02:21,410 hakuhakemistossa saadakseen listan 50 00:02:21,410 --> 00:02:24,500 kaikista sivuista, joissa kyseisiä sanoja käytetään. 51 00:02:24,890 --> 00:02:26,870 Mutta vain tarkastelemalla näitä vastauksia, 52 00:02:26,870 --> 00:02:28,760 voimme saada vastaukseksi miljoonia sivuja, 53 00:02:28,760 --> 00:02:31,110 joten hakukoneen tulee osata määrittää 54 00:02:31,110 --> 00:02:33,340 hakuusi parhaiten sopivat vastaukset ensin. 55 00:02:33,340 --> 00:02:36,010 Tämä on hankalaa, koska hakukoneen 56 00:02:36,010 --> 00:02:38,040 saattaa täytyä arvata mitä etsit. 57 00:02:38,930 --> 00:02:41,360 Jokainen hakukone käyttää omia algoritmejaan 58 00:02:41,360 --> 00:02:44,930 sivujen järjestämiseksi tavalla, minkä se uskoo olevan sinulle paras. 59 00:02:44,930 --> 00:02:47,990 Hakukoneiden sijoitusalgoritmi saattaa tarkistaa, 60 00:02:47,990 --> 00:02:50,900 näkyykö hakutermi sivun otsikossa, 61 00:02:50,900 --> 00:02:53,820 jos kaikki sanat löytyvät antamassasi järjestyksessä, 62 00:02:54,290 --> 00:02:57,020 tai muilla mielestään oikeilla tavoilla 63 00:02:57,020 --> 00:02:58,930 mitkä auttavat sitä määrittämään 64 00:02:58,930 --> 00:03:01,420 mitä sivuja haluat nähdä. 65 00:03:02,960 --> 00:03:04,960 Google loi kuuluisimman algoritmin 66 00:03:04,960 --> 00:03:07,490 oleellisimman vastauksen valitsemiseen, 67 00:03:07,490 --> 00:03:10,030 ottamalla huomioon kuinka monta nettisivua 68 00:03:10,030 --> 00:03:11,910 on linkitetty jokaiselle sivulle. 69 00:03:11,910 --> 00:03:14,880 Ajatuksena on, että jos useat nettisivut ajattelevat sivun 70 00:03:14,880 --> 00:03:16,250 olevan mielenkiintoinen, 71 00:03:16,250 --> 00:03:18,240 sen täytyy olla etsimäsi sivu. 72 00:03:18,240 --> 00:03:20,520 Tätä algoritmiä kutsutaan nimellä "page rank" ei sen takia, 73 00:03:20,520 --> 00:03:22,700 että se luokittelee nettisivuja, 74 00:03:22,700 --> 00:03:25,403 vaan koska se nimettiin keksijänsä, Larry Pagen mukaan, 75 00:03:25,403 --> 00:03:27,983 joka on yksi Googlen perustajista. 76 00:03:27,983 --> 00:03:30,996 Koska nettisivut tekevät usein rahaa kun vierailet niissä, 77 00:03:30,996 --> 00:03:34,404 roskapostittajat yrittävät jatkuvasti löytää tavan hakualgoritmien 78 00:03:34,404 --> 00:03:38,123 huijaamiseksi, jotta heidän sivunsa luokiteltaisi paremmiksi. 79 00:03:38,123 --> 00:03:44,136 Hakukoneet päivittävät algoritmejaan usein huijaussuvujen estämiseksi. 80 00:03:44,489 --> 00:03:47,549 Viime kädessä on sinun vastuullasi olla valppaana 81 00:03:47,549 --> 00:03:50,509 näiden epäluotettavien sivujen huomaamisessa tarkastamalla 82 00:03:50,509 --> 00:03:53,599 nettisivun osoite ja varmistamalla, että se on luotettavasta lähteestä. 83 00:03:53,599 --> 00:03:57,249 Hakuohjelmat kehittyvät jatkuvasti algoritmien ja vastausten 84 00:03:57,249 --> 00:04:00,779 parantamiseksi sekä nopeuttamiseksi kilpailijoitaan paremmaksi. 85 00:04:00,779 --> 00:04:03,142 Tämän päivän hakukoneet käyttävät informaatiota, 86 00:04:03,142 --> 00:04:07,089 jota et ole niille välttämättä edes antanut hakusi supistamiseksi. 87 00:04:07,089 --> 00:04:10,661 Esimerkiksi, jos hakusananasi oli "koirapuisto", 88 00:04:10,661 --> 00:04:13,840 monet hakukoneet antavat sinulle tiedot kaikista sinua 89 00:04:13,840 --> 00:04:17,370 lähimpänä olevista koirapuistoista vaikka et kirjoittaisi olinpaikkaasi. 90 00:04:17,680 --> 00:04:21,120 Modernit hakukoneet ymmärtävät enemmän, kun vain nettisivulle 91 00:04:21,120 --> 00:04:25,480 kirjoitettuja sanoja. Mutta mitä ne tekevät parhaiden hakutulosten 92 00:04:25,480 --> 00:04:27,010 löytämiseksi? 93 00:04:27,010 --> 00:04:30,273 Jos hakusanasi on "kurkku" 94 00:04:30,273 --> 00:04:33,223 hakukone tietää automaattisesti, että etsit vihannesta. 95 00:04:33,223 --> 00:04:37,310 Mutta jos etsit sanalla "kipeä kurkku", se löytää sinulle jotain muuta. 96 00:04:38,520 --> 00:04:41,475 Sanoje ymmärtämiseksi paremmin, käytämme koneoppimista, 97 00:04:41,475 --> 00:04:43,750 mikä on tietynlainen tekoäly. 98 00:04:43,750 --> 00:04:47,260 Tämän avulla hakualgoritmit eivät vain etsi yksittäisiä kirjaimia 99 00:04:47,260 --> 00:04:51,750 tai sanoja, vaan ne ymmärtävät sanojen taustalla olevan merkityksen. 100 00:04:53,750 --> 00:04:57,520 Internet kasvaa räjähdysmäisesti, mutta jos hakukoneita suunnittelevat 101 00:04:57,520 --> 00:05:02,470 tiimit tekevät hakumme oikein, haluamiesi tietojen tulisi aina olla 102 00:05:02,470 --> 00:05:05,540 vain muutaman painalluksen päässä.