Valaha, ha azt akartuk, hogy
a számítógép
csináljon meg valamit, előtte
be kellett rá programoznunk.
Azoknak, akik sohasem programoztak:
a programozás
annyit tesz, hogy célunk érdekében
aprólékosan, lépésenként
részletesen közölni kell a géppel,
mikor mit csináljon.
De ha olyat akarunk tenni,
amiről mi sem tudjuk, miként kell,
az ám az igazi kunszt!
Ilyen feladattal találkozott
Arthur Samuel.
1956-ban szerette volna,
ha a számítógép legyőzi dámajátékban.
Hogy lehet megírni egy programot
minden apró részletében,
hogy a számítógép győzzön?
Támadt egy ötlete:
A gépet önmaga ellen játszatta
több ezerszer,
hogy a gép tanulja, hogyan kell játszani.
A dolog sikerült, és 1962-re
a számítógép legyőzte
Connecticut állam bajnokát.
Úgyhogy Samuelt a gépi
tanulás atyjának nevezhetjük.
Le vagyok kötelezve neki,
mert gépi tanulással foglalkozom.
A Kaggle elnöke voltam, a közösségé,
ahol 200.000-nél többen foglalkoznak
gépi tanulással.
A Kaggle versenyeket
szervez nekik,
hogy oldjanak meg eddig
megoldatlan problémákat,
s ezek több száz alkalommal
bizonyultak sikeresnek.
Ebből a pozícióból
rá tudtam jönni sok mindenre:
mire volt képes a gépi tanulás
a múltban, mire a jelenben
és mit fog tudni a jövőben.
Valószínűleg az első üzleti siker a
gépi tanulásban a Google volt.
A Google bizonyította, hogy lehet
gépi algoritmus alapján
adatokhoz jutni, és
ez az algoritmus
gépi tanuláson alapul.
Azóta sok, gépi tanuláson alapuló
üzleti sikertörténetet ismerünk.
Olyan cégek, mint az Amazon
és a Netflix a gépi tanulás módszerével
ajánlják termékeiket megvételre
illetve filmjeiket megnézésre.
Néha ez, mondhatni, elég ijesztő.
Mások, mint a LinkedIn és a Facebook
néha megmondják, kik lehetnének
a barátaink,
és fogalmunk sincs, hogy csinálják.
A gépi tanulásban rejlő
lehetőségeket használják.
Ezek az algoritmusok sokkal inkább
az adatokból tanulnak,
semmint a kézzel írt programokból.
Így lett sikeres az IBM is: Watson
nevű gépe legyőzte
a "Jeopardy" kvízműsor
két világbajnokát,
mert válaszolt körmönfont
és bonyolult kérdésekre; pl.
[Ennek a városnak a múzeumából tűnt el
az ókori Nimród oroszlánja 2003-ban]
Így jelentek meg az első,
vezető nélküli autók.
Elég fontos, hogy
meg tudjuk mondani, mi a különbség,
mondjuk, egy fa és egy gyalogos között.
Nem tudjuk, hogyan kell manuálisan
megírni a programokat,
de gépi tanulással erre
most megvan a lehetőség.
Tény, hogy ez a kocsi már
több millió kilométert tett meg
baleset nélkül átlagos utakon.
Tudjuk tehát, hogy a számítógépek
tudnak tanulni, és képesek megtanulni,
hogyan végezzenek el feladatokat,
amelyeknél néha mi magunk
tanácstalanok vagyunk,
vagy talán ügyesebben végzik el nálunk.
A gépi tanulás egyik legpompásabb
példáját
egy általam irányított Kaggle-
projektnél tapasztaltam,
ahol a Torontói Egyetem csoportja,
amelyet Geoffrey Hinton vezetett,
megnyert
egy automatizált
gyógyszer-kifejlesztési versenyt.
Nemcsak az volt rendhagyó,
hogy legyőzték a Merck
és más nemzetközi tudóscsoportok
algoritmusait,
hanem hogy egyikük sem volt járatos
a kémiában, a biológiában
vagy az élettudományokban, s
mindezt két hét alatt!
Hogy sikerült nekik?
Rendhagyó algoritmust
alkalmaztak, az ú.n. mély tanulást.
Annyira fontos eredmény volt ez,
hogy a The New York Times
címoldalon tudósított róla pár hét múlva.
Balra látható Geoffrey Hinton.
A mély tanulás olyan algoritmus,
amelyet az emberi agy működése ihletett.
Az algoritmusnak nincs
elméleti korlátja
abból a szempontból, hogy
mi mindenre lehet képes.
Minél több adatot és gépidőt
adunk neki,
annál jobbak lesznek az eredmények.
A The New York Times írt cikkében
a mély tanulás
egy másik rendkívüli eredményéről is,
amelyről rögtön szólni fogok.
Ez azt mutatja, hogy a számítógépek
képesek hangot érzékelni és értelmezni.
(Video) Richard Rashid:
Az utolsó lépés, s ezt szeretném,
hogy hozzá tudjam tenni a folyamathoz:
kínaiul beszélni önökhöz.
Ennek kulcsa, hogy képesek voltunk
nagy mennyiségű információt
átvenni sok kínai beszédjéből,
létrehozni egy "szövegből beszédet"
rendszert, amely
a kínai szöveget átalakítja
kínai beszéddé.
Azután az én hangmintámból felvettünk
egy órányit,
s ezzel moduláltuk a szokásos
"szövegből beszédet" rendszert,
amely aztán az én hangomon szólalt meg.
Az eredmény nem tökéletes.
Tény, hogy elég sok a hiba.
(kínaiul)
(taps)
Elég sok feladat van még ezen a területen.
(kínaiul)
(taps)
Howard: Ez egy gépi tanulási
konferencián történt, Kínában.
Valóban ritka, hogy egy
tudományos tanácskozáson
spontán tapsot hall az ember,
bár néha TEDx konferenciákon igen.
Amit itt láttak, mind a mély tanulással
kapcsolatos.
(taps) Köszönöm.
A fonetikus átírás angolra
mély tanulás volt.
A kínaira fordítás és a szöveg
a jobb fölső sarokban szintén,
és a hangképzés úgyszintén
mély tanulás volt.
Úgy hogy a mély tanulás különleges dolog.
Egyszerű algoritmus, de úgy látszik,
majdnem mindenre alkalmas,
erre tavaly jöttem rá.
Látni is megtanult már.
Egy kevéssé ismert német versenyen,
amely a közlekedési jelzések
felismerésére irányul,
a mély tanulás megtanulta fölismerni
a közlekedési jelzéseket.
Nemcsak jobban ismeri föl
őket,
mint bármely más algoritmus,
az eredményjelző kimutatta,
hogy az embernél is jobban,
kb. kétszer jobban mint az ember.
2011-re megvolt az első példány az
embernél is jobban látó
számítógépből.
Azóta sok minden történt.
2012-ben a Google közölte,
hogy van egy mély tanuló algoritmusuk,
amely figyeli a YouTube videókat, és
egy hónap alatt átrágta magát
16.000 gép adatain,
és a gép önállóan megtanult olyan
fogalmakat mint "ember", vagy
"macska", csupán csak a videókat figyelve.
Az emberek nagyon hasonlóan tanulnak.
Az emberek nem úgy tanulnak,
hogy megmondják nekik, mit látnak,
hanem maguknak tanítják meg,
mik ezek a dolgok.
2012-ben az említett Geoffrey Hinton
megnyert egy nagyon népszerű
ImageNet versenyt, ahol
másfél millió képről kellett
eldönteni, melyik mit ábrázol.
2014-re elértük a képfelismerésben
a 6%-os hibaszintet.
Ez megint az emberekénél jobb eredmény.
Tehát a gépek ebben rendkívül
jó munkát végeznek, és
az eredményeket ma
az iparban is hasznosítják.
Például a Google tavaly bejelentette,
hogy két óra alatt feltérképezte
egész Franciaországot,
mindezt úgy, hogy betáplálták
az utcai látképeket egy
mélyen tanuló algoritmusba,
az fölismerte és beolvasta
a házszámokat.
Korábban meddig tartott volna!
Tucatnyi ember, több év.
Ez történik most Kínában is.
A Baidu olyasmi, mint egy kínai Google,
és a bal fölső sarokban látható
egy kép, amelyet
feltöltöttem a Baidu mély tanuló
rendszerébe,
alatta pedig látják, hogy a rendszer
megértette, mi ez a kép,
és talált hasonló képeket.
A hasonló képnek egyébként
hasonló a háttere,
az állatok pofája egyfelé fordul,
némelyik még a nyelvét is kiölti.
Ez nem ugyanaz,
mint egy szöveg a weboldalon.
Mindössze egy képet töltöttem föl.
Tehát a mai számítógépeink
tényleg értik, amit látnak,
és százmilliónyi képet tartalmazó
adatbázist nézhetnek át valós időben.
De mit jelent az, hogy
a számítógépek látnak?
Nos, nemcsak, hogy látnak.
Valójában a mély tanulás
ennél többet ért el.
Az összetett, finoman árnyalt
mondatok mint ez,
mély tanuló algoritmusokkal
ma már érthetők.
A felül látható piros pöttyel
ez a stanfordi rendszer jelzi,
hogy ez a mondat
negatív érzelmet fejez ki.
A mély tanulás ma már tényleg
megközelíti az emberi teljesítményt abban,
miről szól a mondat, és
mit állít ezekről a dolgokról.
A mély tanulás révén olvasunk kínaiul,
kb. egy született kínai szintjén.
Ez az algoritmus svájci,
s akik kifejlesztették,
nem beszélnek, és nem értenek kínaiul.
A mély tanulás alkalmazása
erre talán a világ legjobb rendszere,
akár összevetve a természetes
emberi megértéssel.
Ezt a rendszert raktuk össze
a cégemnél, mely
megmutatja, hogyan kell ezeket összerakni.
Ezekhez a képekhez nem társul szöveg,
és ahogy mondatokat írok be ide,
ez valós időben megérti ezeket a képeket, és
kitalálja, miről szólnak, és
talál a beírt szöveghez hasonló képeket.
Ez azt jelenti, hogy valójában
érti a mondataimat,
és valójában érti a képeket.
Tudom, hogy hasonlót
már láttak a Google-on,
ahol beírják a szavakat,
és megjelennek a képek,
de az úgy működik, hogy a gép
a weboldalon szöveget keres.
Az teljesen más, mint
képeket fölismerni.
Ilyesmit számítógépek csak
az utóbbi hónapokban
voltak képesek első ízben megcsinálni.
A számítógépek nemcsak
látnak, hanem olvasnak is,
megmutattuk:
értik is, amit hallanak.
Talán nem meglepő, ha elmondom,
hogy írni is tudnak.
Itt egy szöveg, amelyet tegnap egy
mély tanuló algoritmussal írattam.
Itt egy szöveg,
melyet a stanfordi algoritmus írt.
Minden mondatot mély tanuló algoritmus
állított elő a képek leírása céljából.
Az algoritmus korábban soha nem látott
fekete inges, gitározó embert.
Látott korábban embert,
látott fekete színt,
látott korábban gitárt,
de önállóan állította elő
a kép új leírását.
Ez még nem üti meg az
emberi teljesítmény szintjét, de közelíti.
A tesztekben az esetek negyedében
jobban tetszik az embernek
a számítógép-generálta képaláírás.
Nos, ez a rendszer csupán kéthetes,
tehát valószínűleg egy éven belül
a számítógépes algoritmus
felülmúlja az emberi teljesítményt.
Tehát a számítógép írni is tud.
Ha mindent összerakunk,
ez izgalmas lehetőségekhez vezet.
Például a gyógyításban,
egy bostoni csoport bejelentette,
hogy felfedeztek
több tucat klinikailag fontos
daganat-jellemzőt,
amelyek segítenek az orvosoknak
a rák előrejelzésében.
Hasonlóképpen, Stanfordban
bejelentették, hogy kifejlesztettek
egy gépi tanuló rendszert,
amely a szöveteket nagyításban vizsgálva
a rákosok túlélési esélyeinek
előrejelzésében
tényleg jobban teljesít,
mint a patológusok.
Mindkét esetben az előrejelzések
nemcsak pontosabbak voltak,
hanem új tudományos eredményt hoztak.
A radiológia esetében
ezek új klinikai mutatók, amelyeket
az ember képes értelmezni.
A patológiai esetben
a számítógépes rendszer végeredményben
felfedezte, hogy
a rák körüli sejtek a diagnózis
fölállításában
ugyanolyan fontosak, mint maguk
a rákos sejtek.
A patológusoknak évtizedeken át
pont az ellenkezőjét tanították.
Mindkét esetben ezek olyan
rendszerek, melyeket
az orvos és a gépi tanulás
szakértők együtt
fejlesztettek ki. Tavaly óta
ezt is túlhaladtuk.
Itt egy példa arra, ahogyan
mikroszkóp alatt azonosítják
az emberi szövet rákos területét.
A bemutatott rendszer pontosabban vagy kb.
ugyanolyan pontossággal tudja azonosítani
azokat a területeket, mint egy patológus.
Mély tanulással alakították ki
a rendszert, orvosi szakértelem nélkül,
olyanok, akiknek nincs semmi hátterük
a témában.
Azután itt van az idegsejtek
szelvényezése. Már majdnem
olyan precízen tudjuk szelvényezni
az idegsejteket, mint az emberek,
és a rendszert mély tanulással
azok alakították ki,
akiknek nem volt előzetes
orvosi tapasztalatuk.
Úgy éreztem, hogy
orvosi háttér nélkül is
eléggé képzett vagyok, hogy
orvosi céget alapítsak.
Meg is tettem.
Kissé féltem tőle,
de az elmélet azt sugallta,
hogy hasznára válhatnánk a gyógyításnak
csupán ilyen adatelemző módszerek
alkalmazásával.
Hálás vagyok a fantasztikus fogadtatásért,
nemcsak a média, hanem
az orvosi közösség részéről is,
akik nagyon támogattak.
Az elmélet szerint a gyógyítás
folyamatában a középső részt lecseréljük
adatelemzésre lehetőség szerint, és
azt hagyjuk az orvosokra,
amihez legjobban értenek.
Mondok rá példát. Ma 15 perc
egy új diagnosztikai teszt kidolgozása.
Megmutatom ezt önöknek valós
időben, de én három percbe
sűrítettem be, mert elhagytam
egyes elemeit.
Ahelyett, hogy megmutatnám, hogy
készül egy diagnosztikai teszt,
lássuk inkább autót ábrázoló képek
diagnosztikai tesztjét,
mert azt mindenki érteni fogja.
Kb. másfél millió, autót
ábrázoló képpel kezdünk,
és szeretnék létrehozni valamit,
ami aszerint rendezi őket,
hogy milyen szögből készült a felvétel.
A képek címkézetlenek, ezért
az alapoktól kell kezdenem.
Mély tanuló algoritmusunkkal
azonosítani lehet
az egyes részekhez tartozó területeket.
Az ember és a gép pompásan
együtt tud működni.
Az ember, ahogy itt látható,
megmondja a gépnek, mely
területek érdeklik,
melyeken szeretné, hogy próbáljon
javítani a gép az algoritmusa szerint.
Ezek a mély tanuló rendszerek egy
16.000-dimenziós térben vannak,
látják, ahogy a gép ezt pörgeti
azon a téren keresztül,
és próbál új területeket találni.
Amint eredményt ér el,
az őt irányító ember
megjelölheti az érdekes területeket.
A gépnek sikerült területeket találnia,
például sarkokat.
Ahogy végigvisszük a folyamatot,
fokozatosan egyre többet közlünk
a géppel arról,
miféle struktúrát keresünk.
Képzeljenek el egy diagnosztikai tesztben
egy patológust, amint meghatározza
a patologikus részeket,
vagy egy radiológust,
amint kimutatja a gócokat.
Néha nehéz az algoritmus számára.
Most egy kissé összezavarodott.
Összekeveri a kocsik elejét a hátuljával.
Egy kicsit jobban kell vigyáznunk, és
nekünk kell előbb különválogatnunk
a kocsik elejét és a hátulját,
azután megmondjuk a gépnek,
hogy ez a csoport érdekes
nekünk.
Ez eltart egy ideig, ugrunk egyet,
és okítjuk a párszáz dologra támaszkodó
gépi tanuló algoritmust,
és reméljük, hogy erősen följavul.
Látják, kezd elhalványulni egy néhány kép,
tehát már felismeri, ezek hogyan értendők.
Majd alkalmazhatjuk ezt az elvet
hasonló képekre,
és a hasonló képeknél, látják,
már képes a kocsiknak az elejét
hibátlanul megtalálni.
Itt az ember mondhatja a gépnek:
OK, jó munkát végeztél.
Persze, néha még itt is
bonyolult szétválasztani a csoportokat,
esetünkben, bár hagytuk a
gépet egy ideig pörögni,
mégis találunk összekeveredve
jobb és bal oldalas képeket.
Adhatunk további útbaigazításokat
a gépnek,
mondhatjuk, hogy próbálkozz, és találj
olyan szempontot, ami
minél jobban szétválogatja
a jobb és bal oldalakat
mély tanuló algoritmussal.
S lám, a tanácsunk --
OK, sikeres volt.
Sikerült olyan szempontok szerint
vizsgálni a tárgyakat,
amelyek alkalmasak szétválogatásukra.
S eszünkbe jut egy gondolat.
Esetünkben a gép
nem helyettesíti az embert,
hanem együtt munkálkodnak.
Ami egy 5-6 fős csoportnak
kb. hét évébe tellett volna korábban,
azt ezzel az eszközzel
15 perc alatt
egyetlen személy elvégezi egyedül.
Ez a folyamat 4-5 közelítő lépésből áll.
Látják, hogy a gép a másfél millió kép
62%-át helyesen osztályozta.
Most kezdhetjük gyorsan
nagy vonalakban
átnézni, nincs-e hiba valahol.
Ahol hiba van, közölhetjük a géppel.
Minden elkülönített csoportra alkalmazva
valami ilyen eljárást
most a 80%-os helyességi aránynál tartunk
a másfél millió kép osztályozásakor.
Most még találunk egynéhány
eltévedt képet,
és megpróbáljuk megérteni,
mi ennek az oka.
Ugyanazzal a módszerrel
15 perc alatt 97%-os helyességi arányt
érünk el.
Az ilyen technika lehetővé tenné, hogy
kezelni tudjunk egy jelentős problémát,
azt, hogy hiány van orvosi szakértelemből
a világban.
A Világgazdasági Fórumon elhangzott,
hogy a fejlődő országokban
10-20-szoros az orvoshiány,
és mintegy 300 évbe telne,
hogy a gond megoldására elég
orvost képezzenek ki.
Képzeljék csak el, milyen jó lenne,
ha a mély tanulás módszerével
növelhetnénk az orvosok hatékonyságát?
Egészen fölvillanyoznak a lehetőségek.
Engem is aggaszt ez a gond.
Az a probléma, hogy
a kékkel jelölt területek ott vannak,
ahol a szolgáltatások aránya
80% fölötti a foglalkoztatottságban.
Mik is kellenek a szolgáltatásokhoz?
[Írás-olvasás, Beszéd-figyelem],
[Szemlélet, Tudás összegzése]
Pont e dolgokkal épp most tanult meg
a gép bánni.
Tehát a fejlett világ dolgozóinak
80%-a olyan munkát végez,
amire épp most vált képessé a számítógép.
Mit jelent ez?
Minden rendben lesz.
A régiek helyett új állások keletkeznek.
Például több állás lesz az
adattudósok számára.
Nem igazán.
Nem tart soká a számukra
kifejleszteni ezeket a dolgokat.
Például, e négy algoritmust
ugyanaz a fickó hozta létre.
Ha azt hiszik: ó, régen is megtörtént,
láttunk már ilyet, hogy új dolgok jönnek,
és a régieket új állások váltják föl,
no de milyenek lesznek az új állások?
Nagyon nehezen tudjuk megítélni,
mert az emberi teljesítmény
fokozatosan nő,
de most itt van a mély tanulás rendszere,
tudjuk róla, hogy a teljesítménye
rohamosan nő.
Itt tartunk.
Mostanában a dolgok láttán
sokan azt mondják:
"Ó, a számítógépek még mindig elég
ostobák." Igaz?
De öt éven belül a helyzet megváltozik.
Már most el kell kezdenünk
gondolkozni a gépek képességeiről.
Ilyet már tapasztaltunk,
az ipari forradalom idején,
ahogy a gépek megjelenésével
lépést kellett váltani.
De egy idő után a dolgok elsimultak,
Megzavarta a társadalmat,
de amikor energiatermelésre
már mindenütt gépeket használtak,
a dolgok lecsillapodtak.
A "gépi tanulás forradalma"
egészen más lesz, mint az
ipari forradalom,
mert a "gépi tanulás forradalma"
soha nem csillapodik le.
Minél többet tudnak a számítógépek,
annál jobb képességű
számítógépeket tudnak megépíteni,
ez olyan váltás lesz, amit a világ eddig
még soha nem tapasztalt, ezért
korábbi fogalmaik arról,
hogy mi a lehetséges,
teljesen megváltoznak.
Mindez már hatással van ránk.
Az utóbbi 25 évben a tőke
termelékenysége nőtt,
a munka termelékenysége maradt,
sőt, valamit csökkent is.
Szeretném, ha már elkezdenénk
ezt az eszmecserét.
Amikor a jelen helyzetről
beszélgetek emberekkel,
gyakran teljesen elutasítók.
Jó, a számítógépek valójában
nem tudnak gondolkodni,
nem fejeznek ki érzelmeket,
nem értik a költészetet,
mi igazából nem értjük,
hogyan működnek.
Na és?
A számítógépek már most
meg tudnak tenni dolgokat,
amelyek az emberek munkaidejének
nagy részét kitöltik.
Ideje elkezdeni a gondolkodást:
hogyan igazítsuk át a társadalom
és a gazdaság szerkezetét
az új realitások fényében.
Köszönöm
(taps)