Sziasztok! John vagyok.
Én vezetem a keresővel és gépi tanulással
foglalkozó csapatokat a Google-nél.
Szerintem elképesztően inspiráló,
hogy az emberek szerte a világon
a keresőmotorokhoz folyamodnak, hogy
pofonegyszerű
és hihetetlenül fontos kérdéseket
tegyenek fel.
Hatalmas tehát a felelősségünk, hogy
a lehető legjobb válaszokat adjuk.
Sziasztok! Akshaya vagyok, és a Bing
kereső csapatában dolgozom.
Sokszor előfordul, hogy ha elkezdjük
vizsgálni
a mesterséges intelligenciát és
a gépi tanulást
de azon is gondolkoznunk kell, hogyan
fogják hasznosítani ezt a felhasználók,
mert végül is a társadalomra akarunk
hatást gyakorolni.
Tegyünk fel egy egyszerű kérdést.
Mennyi ideig tart eljutni a Marsra?
Honnan származnak ezek az eredmények
és miért került ez a másik elé?
Oké, merüljünk bele, és lássuk,
hogyan alkotta meg a keresőmotor
a kérdésünkből az eredményt.
Az első dolog, amit tudnunk kell,
hogy amikor elindítunk egy keresést,
a keresőmotor ténylegesen nem megy ki
a világhálóra, hogy
valós időben lefolytassa a keresésünket.
Ez azért van így, mert több mint egymilliárd
honlap van az interneten,
és percenként több száz újat hoznak létre.
Ha tehát a keresőmotornak
végig kellene néznie
minden egyes honlapot ahhoz, hogy
megtalálja, amit keresünk,
az örökké tartana.
Ezért, hogy felgyorsítsa a keresésünket,
a keresőmotor már előre folyamatosan
pásztázza a netet,
hogy rögzítse az információkat, amelyek
később segíthetnek a keresésben.
Így amikor a Marsra utazással
kapcsolatban keresünk,
a keresőmotornak már
rendelkezésére áll az, amivel
meg tudja adni a választ valós időben.
A következőképp működik.
Az internet oldalak hálózata, amelyet
hiperhivatkozások kötnek össze.
A keresőmotor folyamatosan futtat
egy Spider nevű programot,
amely keresztülhalad ezeken
a honlapokon,
hogy információkat gyűjtsön róluk.
Valahányszor hiperhivatkozást talál,
követi azt, amíg meg nem látogatott
minden honlapot,
amit a teljes interneten talál.
Minden lapról, amit a Spider meglátogat,
rögzíti azokat az információkat,
amelyekre szüksége lehet a kereséshez úgy,
hogy hozzáadja őket egy különleges
adatbázishoz, amit keresőindexnek hívnak.
Most lépjünk vissza a korábbi
keresésünkhöz,
és nézzük meg, ki tudjuk-e találni,
hogyan állt elő a motor
az eredménnyel.
Amikor megkérdezzük,mennyi ideig tart
az utazás a Marsra,
a keresőmotor mindezeket a szavakat
megkeresi
a keresőindexben,
így azonnal van egy listája
mindazokról a lapokról az interneten,
amelyek tartalmazzák e szavakat.
De ha csak ezeket a keresőszavakat nézi,
az eredmény több millió honlap lenne,
ezért a keresőmotornak képesnek kell
lennie meghatározni,
a legjobb egyezéseket,
hogy azokat mutassa először.
A dolog itt kezd trükkös lenni,
mert a keresőmotornak
lehet, hogy találgatnia kell,
mi az amit keresünk.
Minden keresőmotor
a saját algoritmusát alkalmazza
a lapok rangsorolásánál annak alapján,
hogy szerinte mit akarunk.
A keresőmotor rangsoroló
algoritmusa ellenőrizheti,
hogy a keresett kifejezés
szerepel-e a lap címében,
ellenőrizheti, hogy a szavak előfordulnak-e
egymás mellett,
vagy végezhet másféle számítást,
amivel jobban meghatározhatja
melyik lapot szeretnénk látni,
és melyiket nem.
A Google találta fel a
leghíresebb algoritmust
a legrelevánsabb találatok kiválasztásához
egy keresésben, amely számításba veszi,
hány további honlap kapcsolódik
egy adott oldalhoz.
Az elképzelés az, hogy ha sok
webhely véli úgy,
hogy egy weblap érdekes,
akkor valószínű ez az,
amit keresünk.
Ezt az algoritmust "page rank"-nek nevezik,
de nem azért, mert rangsorolja a lapokat (szó
szerinti jelentés),
hanem azért, mert a feltalálójáról,
Larry Page-ről nevezték el,
aki a Google egyik alapítója.
Mivel a honlap gyakran pénzt keres azzal,
ha meglátogatják,
spammerek állandóan
próbálnak módot találni arra,
hogy kijátsszák a kereső
algoritmust, és oldalaik
jobb helyezést érjenek el
a keresési eredményekben.
A keresőmotorok rendszeresen frissítik
algoritmusukat,
hogy megelőzzék hamis és megbízhatatlan
lapok előre kerülését.
Végül is a mi feladatunk,
hogy figyeljünk
ezekre a a nem megbízható lapokra úgy,
hogy megnézzük a webcímet, és
és meggyőződünk róla,
hogy megbízható forrás-e.