WEBVTT 00:00:06.070 --> 00:00:07.510 Hei, nimeni on John. 00:00:07.510 --> 00:00:10.520 Johdan hakua ja koneen oppimistiimejä Googlella. 00:00:12.130 --> 00:00:14.230 Minusta on hyvin inspiroivaa, 00:00:14.230 --> 00:00:16.214 että ihmiset ympäri maailmaa 00:00:16.215 --> 00:00:19.160 käyttävät hakukoneita kysyäkseen 00:00:19.160 --> 00:00:20.930 erilaisia kysymyksiä. 00:00:20.930 --> 00:00:23.450 Parhaan mahdollisen vastauksen 00:00:23.450 --> 00:00:25.054 antaminen on suuri vastuu. 00:00:26.710 --> 00:00:30.910 Olen Akshaya ja teen töitä Bingin hakutiimissä. 00:00:30.910 --> 00:00:36.020 Aloitamme tekoälyn ja koneopin tutkimuksen useita kertoja, 00:00:36.020 --> 00:00:39.680 mutta meidän on pohdittava, miten käyttäjät aikovat käyttää niitä, 00:00:39.680 --> 00:00:42.560 koska haluamme päivän päätteeksi vaikuttaa yhteiskuntaan. 00:00:43.780 --> 00:00:45.820 Kysytään yksinkertainen kysymys. 00:00:45.820 --> 00:00:48.646 Kuinka kauan matka Marsiin kestää? 00:00:49.330 --> 00:00:51.370 Mistä nämä vastaukset tulivat 00:00:51.370 --> 00:00:54.100 ja miksi tämä on listattu ennen muita vastauksia? 00:00:55.700 --> 00:00:58.520 Okei, sukelletaan hakukoneiden sisälle ja katsotaan miten ne 00:00:58.520 --> 00:01:00.640 kääntävät hakusi tuloksiksi. 00:01:00.690 --> 00:01:03.430 Ensimmäinen asia mikä sinun tulee tietää on, että kun etsit jotain 00:01:03.430 --> 00:01:06.480 hakukone ei mene joka kerta Maailman Laajuiseen Verkkoon 00:01:06.480 --> 00:01:08.010 haun työstämiseksi reaaliajassa. 00:01:08.140 --> 00:01:11.360 Tämä on sen takia, koska internetissä on olemassa yli mirjardi nettisivua 00:01:11.360 --> 00:01:14.140 ja satoja uusia luodaan joka minuutti. 00:01:14.140 --> 00:01:17.240 Joten jos hakukoneen tulisi selata jokaisen sivun läpi 00:01:17.240 --> 00:01:18.690 löytääkseen haluamasi, 00:01:18.690 --> 00:01:20.120 siinä kestäisi ikuisuus. 00:01:20.500 --> 00:01:22.460 Tehdäkseen hakusi nopeammaksi 00:01:22.460 --> 00:01:25.420 hakukoneet skannaavat internettiä jatkuvasti 00:01:25.420 --> 00:01:28.560 auttaakseen sinua tulevissa hauissasi. 00:01:28.930 --> 00:01:31.630 Tällä tavoin, kun etsit tietoa Marssista, 00:01:31.630 --> 00:01:33.700 hakukonella on jo haluamasi tieto saatavilla 00:01:33.700 --> 00:01:35.728 reaaliajassa. 00:01:36.250 --> 00:01:37.540 Se toimii näin. 00:01:37.900 --> 00:01:42.400 Internet on sivujen verkko, jotka liittyvät toisiinsa hyperlinkkien avulla. 00:01:42.400 --> 00:01:44.680 hakukoneet suorittavat jatkuvasti ohjelmistoa 00:01:44.680 --> 00:01:47.380 nimeltä Spider, mikä kulkee nettisivuilla 00:01:47.380 --> 00:01:49.040 keräten tietoa. 00:01:49.780 --> 00:01:51.550 Joka kerta kun Spider löytää hyperlinkin, 00:01:52.090 --> 00:01:55.030 ase seuraa linkkiä kunnes se on vieraillut 00:01:55.030 --> 00:01:57.240 kaikissa internetin sivustoissa. 00:01:57.240 --> 00:02:00.770 Spider tallettaa mahdollisesti myöhemmin tarvitsemaansa hakutietoa 00:02:00.770 --> 00:02:02.500 jokaiselle vierailemalleen sivustolle 00:02:02.500 --> 00:02:06.089 lisäämällä sen tietokantaan nimeltä hakuhakemisto. 00:02:07.166 --> 00:02:09.590 Palataan takaisin aiempaan hakuun 00:02:09.590 --> 00:02:11.280 ja katsotaan, jos ymmärrämme 00:02:11.280 --> 00:02:13.333 miten hakukone löysi vastauken. 00:02:13.640 --> 00:02:16.640 Kun kysyt kuinka kauan matka Marsiin kestää, 00:02:16.640 --> 00:02:18.920 hakukone katsoo niistä jokaiseen hakusanaan 00:02:18.920 --> 00:02:21.410 hakuhakemistossa saadakseen listan 00:02:21.410 --> 00:02:24.500 kaikista sivuista, joissa kyseisiä sanoja käytetään. 00:02:24.890 --> 00:02:26.870 Mutta vain tarkastelemalla näitä vastauksia, 00:02:26.870 --> 00:02:28.760 voimme saada vastaukseksi miljoonia sivuja, 00:02:28.760 --> 00:02:31.110 joten hakukoneen tulee osata määrittää 00:02:31.110 --> 00:02:33.340 hakuusi parhaiten sopivat vastaukset ensin. 00:02:33.340 --> 00:02:36.010 Tämä on hankalaa, koska hakukoneen 00:02:36.010 --> 00:02:38.040 saattaa täytyä arvata mitä etsit. 00:02:38.930 --> 00:02:41.360 Jokainen hakukone käyttää omia algoritmejaan 00:02:41.360 --> 00:02:44.930 sivujen järjestämiseksi tavalla, minkä se uskoo olevan sinulle paras. 00:02:44.930 --> 00:02:47.990 Hakukoneiden sijoitusalgoritmi saattaa tarkistaa, 00:02:47.990 --> 00:02:50.900 näkyykö hakutermi sivun otsikossa, 00:02:50.900 --> 00:02:53.820 jos kaikki sanat löytyvät antamassasi järjestyksessä, 00:02:54.290 --> 00:02:57.020 tai muilla mielestään oikeilla tavoilla 00:02:57.020 --> 00:02:58.930 mitkä auttavat sitä määrittämään 00:02:58.930 --> 00:03:01.420 mitä sivuja haluat nähdä. 00:03:02.960 --> 00:03:04.960 Google loi kuuluisimman algoritmin 00:03:04.960 --> 00:03:07.490 oleellisimman vastauksen valitsemiseen, 00:03:07.490 --> 00:03:10.030 ottamalla huomioon kuinka monta nettisivua 00:03:10.030 --> 00:03:11.910 on linkitetty jokaiselle sivulle. 00:03:11.910 --> 00:03:14.880 Ajatuksena on, että jos useat nettisivut ajattelevat sivun 00:03:14.880 --> 00:03:16.250 olevan mielenkiintoinen, 00:03:16.250 --> 00:03:18.240 sen täytyy olla etsimäsi sivu. 00:03:18.240 --> 00:03:20.520 Tätä algoritmiä kutsutaan nimellä "page rank" ei sen takia, 00:03:20.520 --> 00:03:22.700 että se luokittelee nettisivuja, 00:03:22.700 --> 00:03:25.403 vaan koska se nimettiin keksijänsä, Larry Pagen mukaan, 00:03:25.403 --> 00:03:27.983 joka on yksi Googlen perustajista. 00:03:27.983 --> 00:03:30.996 Koska nettisivut tekevät usein rahaa kun vierailet niissä, 00:03:30.996 --> 00:03:34.404 roskapostittajat yrittävät jatkuvasti löytää tavan hakualgoritmien 00:03:34.404 --> 00:03:38.123 huijaamiseksi, jotta heidän sivunsa luokiteltaisi paremmiksi. 00:03:38.123 --> 00:03:44.136 Hakukoneet päivittävät algoritmejaan usein huijaussuvujen estämiseksi. 00:03:44.489 --> 00:03:47.549 Viime kädessä on sinun vastuullasi olla valppaana 00:03:47.549 --> 00:03:50.509 näiden epäluotettavien sivujen huomaamisessa tarkastamalla 00:03:50.509 --> 00:03:53.599 nettisivun osoite ja varmistamalla, että se on luotettavasta lähteestä. 00:03:53.599 --> 00:03:57.249 Hakuohjelmat kehittyvät jatkuvasti algoritmien ja vastausten 00:03:57.249 --> 00:04:00.779 parantamiseksi sekä nopeuttamiseksi kilpailijoitaan paremmaksi. 00:04:00.779 --> 00:04:03.142 Tämän päivän hakukoneet käyttävät informaatiota, 00:04:03.142 --> 00:04:07.089 jota et ole niille välttämättä edes antanut hakusi supistamiseksi. 00:04:07.089 --> 00:04:10.661 Esimerkiksi, jos hakusananasi oli "koirapuisto", 00:04:10.661 --> 00:04:13.840 monet hakukoneet antavat sinulle tiedot kaikista sinua 00:04:13.840 --> 00:04:17.370 lähimpänä olevista koirapuistoista vaikka et kirjoittaisi olinpaikkaasi. 00:04:17.680 --> 00:04:21.120 Modernit hakukoneet ymmärtävät enemmän, kun vain nettisivulle 00:04:21.120 --> 00:04:25.480 kirjoitettuja sanoja. Mutta mitä ne tekevät parhaiden hakutulosten 00:04:25.480 --> 00:04:27.010 löytämiseksi? 00:04:27.010 --> 00:04:30.273 Jos hakusanasi on "kurkku" 00:04:30.273 --> 00:04:33.223 hakukone tietää automaattisesti, että etsit vihannesta. 00:04:33.223 --> 00:04:37.310 Mutta jos etsit sanalla "kipeä kurkku", se löytää sinulle jotain muuta. 00:04:38.520 --> 00:04:41.475 Sanoje ymmärtämiseksi paremmin, käytämme koneoppimista, 00:04:41.475 --> 00:04:43.750 mikä on tietynlainen tekoäly. 00:04:43.750 --> 00:04:47.260 Tämän avulla hakualgoritmit eivät vain etsi yksittäisiä kirjaimia 00:04:47.260 --> 00:04:51.750 tai sanoja, vaan ne ymmärtävät sanojen taustalla olevan merkityksen. 00:04:53.750 --> 00:04:57.520 Internet kasvaa räjähdysmäisesti, mutta jos hakukoneita suunnittelevat 00:04:57.520 --> 00:05:02.470 tiimit tekevät hakumme oikein, haluamiesi tietojen tulisi aina olla 00:05:02.470 --> 00:05:05.540 vain muutaman painalluksen päässä.