Valaha, ha azt akartuk, hogy a számítógép csináljon meg valamit, előtte be kellett rá programoznunk. Azoknak, akik sohasem programoztak: a programozás annyit tesz, hogy célunk érdekében aprólékosan, lépésenként részletesen közölni kell a géppel, mikor mit csináljon. De ha olyat akarunk tenni, amiről mi sem tudjuk, miként kell, az ám az igazi kunszt! Ilyen feladattal találkozott Arthur Samuel. 1956-ban szerette volna, ha a számítógép legyőzi dámajátékban. Hogy lehet megírni egy programot minden apró részletében, hogy a számítógép győzzön? Támadt egy ötlete: A gépet önmaga ellen játszatta több ezerszer, hogy a gép tanulja, hogyan kell játszani. A dolog sikerült, és 1962-re a számítógép legyőzte Connecticut állam bajnokát. Úgyhogy Samuelt a gépi tanulás atyjának nevezhetjük. Le vagyok kötelezve neki, mert gépi tanulással foglalkozom. A Kaggle elnöke voltam, a közösségé, ahol 200.000-nél többen foglalkoznak gépi tanulással. A Kaggle versenyeket szervez nekik, hogy oldjanak meg eddig megoldatlan problémákat, s ezek több száz alkalommal bizonyultak sikeresnek. Ebből a pozícióból rá tudtam jönni sok mindenre: mire volt képes a gépi tanulás a múltban, mire a jelenben és mit fog tudni a jövőben. Valószínűleg az első üzleti siker a gépi tanulásban a Google volt. A Google bizonyította, hogy lehet gépi algoritmus alapján adatokhoz jutni, és ez az algoritmus gépi tanuláson alapul. Azóta sok, gépi tanuláson alapuló üzleti sikertörténetet ismerünk. Olyan cégek, mint az Amazon és a Netflix a gépi tanulás módszerével ajánlják termékeiket megvételre illetve filmjeiket megnézésre. Néha ez, mondhatni, elég ijesztő. Mások, mint a LinkedIn és a Facebook néha megmondják, kik lehetnének a barátaink, és fogalmunk sincs, hogy csinálják. A gépi tanulásban rejlő lehetőségeket használják. Ezek az algoritmusok sokkal inkább az adatokból tanulnak, semmint a kézzel írt programokból. Így lett sikeres az IBM is: Watson nevű gépe legyőzte a "Jeopardy" kvízműsor két világbajnokát, mert válaszolt körmönfont és bonyolult kérdésekre; pl. [Ennek a városnak a múzeumából tűnt el az ókori Nimród oroszlánja 2003-ban] Így jelentek meg az első, vezető nélküli autók. Elég fontos, hogy meg tudjuk mondani, mi a különbség, mondjuk, egy fa és egy gyalogos között. Nem tudjuk, hogyan kell manuálisan megírni a programokat, de gépi tanulással erre most megvan a lehetőség. Tény, hogy ez a kocsi már több millió kilométert tett meg baleset nélkül átlagos utakon. Tudjuk tehát, hogy a számítógépek tudnak tanulni, és képesek megtanulni, hogyan végezzenek el feladatokat, amelyeknél néha mi magunk tanácstalanok vagyunk, vagy talán ügyesebben végzik el nálunk. A gépi tanulás egyik legpompásabb példáját egy általam irányított Kaggle- projektnél tapasztaltam, ahol a Torontói Egyetem csoportja, amelyet Geoffrey Hinton vezetett, megnyert egy automatizált gyógyszer-kifejlesztési versenyt. Nemcsak az volt rendhagyó, hogy legyőzték a Merck és más nemzetközi tudóscsoportok algoritmusait, hanem hogy egyikük sem volt járatos a kémiában, a biológiában vagy az élettudományokban, s mindezt két hét alatt! Hogy sikerült nekik? Rendhagyó algoritmust alkalmaztak, az ú.n. mély tanulást. Annyira fontos eredmény volt ez, hogy a The New York Times címoldalon tudósított róla pár hét múlva. Balra látható Geoffrey Hinton. A mély tanulás olyan algoritmus, amelyet az emberi agy működése ihletett. Az algoritmusnak nincs elméleti korlátja abból a szempontból, hogy mi mindenre lehet képes. Minél több adatot és gépidőt adunk neki, annál jobbak lesznek az eredmények. A The New York Times írt cikkében a mély tanulás egy másik rendkívüli eredményéről is, amelyről rögtön szólni fogok. Ez azt mutatja, hogy a számítógépek képesek hangot érzékelni és értelmezni. (Video) Richard Rashid: Az utolsó lépés, s ezt szeretném, hogy hozzá tudjam tenni a folyamathoz: kínaiul beszélni önökhöz. Ennek kulcsa, hogy képesek voltunk nagy mennyiségű információt átvenni sok kínai beszédjéből, létrehozni egy "szövegből beszédet" rendszert, amely a kínai szöveget átalakítja kínai beszéddé. Azután az én hangmintámból felvettünk egy órányit, s ezzel moduláltuk a szokásos "szövegből beszédet" rendszert, amely aztán az én hangomon szólalt meg. Az eredmény nem tökéletes. Tény, hogy elég sok a hiba. (kínaiul) (taps) Elég sok feladat van még ezen a területen. (kínaiul) (taps) Howard: Ez egy gépi tanulási konferencián történt, Kínában. Valóban ritka, hogy egy tudományos tanácskozáson spontán tapsot hall az ember, bár néha TEDx konferenciákon igen. Amit itt láttak, mind a mély tanulással kapcsolatos. (taps) Köszönöm. A fonetikus átírás angolra mély tanulás volt. A kínaira fordítás és a szöveg a jobb fölső sarokban szintén, és a hangképzés úgyszintén mély tanulás volt. Úgy hogy a mély tanulás különleges dolog. Egyszerű algoritmus, de úgy látszik, majdnem mindenre alkalmas, erre tavaly jöttem rá. Látni is megtanult már. Egy kevéssé ismert német versenyen, amely a közlekedési jelzések felismerésére irányul, a mély tanulás megtanulta fölismerni a közlekedési jelzéseket. Nemcsak jobban ismeri föl őket, mint bármely más algoritmus, az eredményjelző kimutatta, hogy az embernél is jobban, kb. kétszer jobban mint az ember. 2011-re megvolt az első példány az embernél is jobban látó számítógépből. Azóta sok minden történt. 2012-ben a Google közölte, hogy van egy mély tanuló algoritmusuk, amely figyeli a YouTube videókat, és egy hónap alatt átrágta magát 16.000 gép adatain, és a gép önállóan megtanult olyan fogalmakat mint "ember", vagy "macska", csupán csak a videókat figyelve. Az emberek nagyon hasonlóan tanulnak. Az emberek nem úgy tanulnak, hogy megmondják nekik, mit látnak, hanem maguknak tanítják meg, mik ezek a dolgok. 2012-ben az említett Geoffrey Hinton megnyert egy nagyon népszerű ImageNet versenyt, ahol másfél millió képről kellett eldönteni, melyik mit ábrázol. 2014-re elértük a képfelismerésben a 6%-os hibaszintet. Ez megint az emberekénél jobb eredmény. Tehát a gépek ebben rendkívül jó munkát végeznek, és az eredményeket ma az iparban is hasznosítják. Például a Google tavaly bejelentette, hogy két óra alatt feltérképezte egész Franciaországot, mindezt úgy, hogy betáplálták az utcai látképeket egy mélyen tanuló algoritmusba, az fölismerte és beolvasta a házszámokat. Korábban meddig tartott volna! Tucatnyi ember, több év. Ez történik most Kínában is. A Baidu olyasmi, mint egy kínai Google, és a bal fölső sarokban látható egy kép, amelyet feltöltöttem a Baidu mély tanuló rendszerébe, alatta pedig látják, hogy a rendszer megértette, mi ez a kép, és talált hasonló képeket. A hasonló képnek egyébként hasonló a háttere, az állatok pofája egyfelé fordul, némelyik még a nyelvét is kiölti. Ez nem ugyanaz, mint egy szöveg a weboldalon. Mindössze egy képet töltöttem föl. Tehát a mai számítógépeink tényleg értik, amit látnak, és százmilliónyi képet tartalmazó adatbázist nézhetnek át valós időben. De mit jelent az, hogy a számítógépek látnak? Nos, nemcsak, hogy látnak. Valójában a mély tanulás ennél többet ért el. Az összetett, finoman árnyalt mondatok mint ez, mély tanuló algoritmusokkal ma már érthetők. A felül látható piros pöttyel ez a stanfordi rendszer jelzi, hogy ez a mondat negatív érzelmet fejez ki. A mély tanulás ma már tényleg megközelíti az emberi teljesítményt abban, miről szól a mondat, és mit állít ezekről a dolgokról. A mély tanulás révén olvasunk kínaiul, kb. egy született kínai szintjén. Ez az algoritmus svájci, s akik kifejlesztették, nem beszélnek, és nem értenek kínaiul. A mély tanulás alkalmazása erre talán a világ legjobb rendszere, akár összevetve a természetes emberi megértéssel. Ezt a rendszert raktuk össze a cégemnél, mely megmutatja, hogyan kell ezeket összerakni. Ezekhez a képekhez nem társul szöveg, és ahogy mondatokat írok be ide, ez valós időben megérti ezeket a képeket, és kitalálja, miről szólnak, és talál a beírt szöveghez hasonló képeket. Ez azt jelenti, hogy valójában érti a mondataimat, és valójában érti a képeket. Tudom, hogy hasonlót már láttak a Google-on, ahol beírják a szavakat, és megjelennek a képek, de az úgy működik, hogy a gép a weboldalon szöveget keres. Az teljesen más, mint képeket fölismerni. Ilyesmit számítógépek csak az utóbbi hónapokban voltak képesek első ízben megcsinálni. A számítógépek nemcsak látnak, hanem olvasnak is, megmutattuk: értik is, amit hallanak. Talán nem meglepő, ha elmondom, hogy írni is tudnak. Itt egy szöveg, amelyet tegnap egy mély tanuló algoritmussal írattam. Itt egy szöveg, melyet a stanfordi algoritmus írt. Minden mondatot mély tanuló algoritmus állított elő a képek leírása céljából. Az algoritmus korábban soha nem látott fekete inges, gitározó embert. Látott korábban embert, látott fekete színt, látott korábban gitárt, de önállóan állította elő a kép új leírását. Ez még nem üti meg az emberi teljesítmény szintjét, de közelíti. A tesztekben az esetek negyedében jobban tetszik az embernek a számítógép-generálta képaláírás. Nos, ez a rendszer csupán kéthetes, tehát valószínűleg egy éven belül a számítógépes algoritmus felülmúlja az emberi teljesítményt. Tehát a számítógép írni is tud. Ha mindent összerakunk, ez izgalmas lehetőségekhez vezet. Például a gyógyításban, egy bostoni csoport bejelentette, hogy felfedeztek több tucat klinikailag fontos daganat-jellemzőt, amelyek segítenek az orvosoknak a rák előrejelzésében. Hasonlóképpen, Stanfordban bejelentették, hogy kifejlesztettek egy gépi tanuló rendszert, amely a szöveteket nagyításban vizsgálva a rákosok túlélési esélyeinek előrejelzésében tényleg jobban teljesít, mint a patológusok. Mindkét esetben az előrejelzések nemcsak pontosabbak voltak, hanem új tudományos eredményt hoztak. A radiológia esetében ezek új klinikai mutatók, amelyeket az ember képes értelmezni. A patológiai esetben a számítógépes rendszer végeredményben felfedezte, hogy a rák körüli sejtek a diagnózis fölállításában ugyanolyan fontosak, mint maguk a rákos sejtek. A patológusoknak évtizedeken át pont az ellenkezőjét tanították. Mindkét esetben ezek olyan rendszerek, melyeket az orvos és a gépi tanulás szakértők együtt fejlesztettek ki. Tavaly óta ezt is túlhaladtuk. Itt egy példa arra, ahogyan mikroszkóp alatt azonosítják az emberi szövet rákos területét. A bemutatott rendszer pontosabban vagy kb. ugyanolyan pontossággal tudja azonosítani azokat a területeket, mint egy patológus. Mély tanulással alakították ki a rendszert, orvosi szakértelem nélkül, olyanok, akiknek nincs semmi hátterük a témában. Azután itt van az idegsejtek szelvényezése. Már majdnem olyan precízen tudjuk szelvényezni az idegsejteket, mint az emberek, és a rendszert mély tanulással azok alakították ki, akiknek nem volt előzetes orvosi tapasztalatuk. Úgy éreztem, hogy orvosi háttér nélkül is eléggé képzett vagyok, hogy orvosi céget alapítsak. Meg is tettem. Kissé féltem tőle, de az elmélet azt sugallta, hogy hasznára válhatnánk a gyógyításnak csupán ilyen adatelemző módszerek alkalmazásával. Hálás vagyok a fantasztikus fogadtatásért, nemcsak a média, hanem az orvosi közösség részéről is, akik nagyon támogattak. Az elmélet szerint a gyógyítás folyamatában a középső részt lecseréljük adatelemzésre lehetőség szerint, és azt hagyjuk az orvosokra, amihez legjobban értenek. Mondok rá példát. Ma 15 perc egy új diagnosztikai teszt kidolgozása. Megmutatom ezt önöknek valós időben, de én három percbe sűrítettem be, mert elhagytam egyes elemeit. Ahelyett, hogy megmutatnám, hogy készül egy diagnosztikai teszt, lássuk inkább autót ábrázoló képek diagnosztikai tesztjét, mert azt mindenki érteni fogja. Kb. másfél millió, autót ábrázoló képpel kezdünk, és szeretnék létrehozni valamit, ami aszerint rendezi őket, hogy milyen szögből készült a felvétel. A képek címkézetlenek, ezért az alapoktól kell kezdenem. Mély tanuló algoritmusunkkal azonosítani lehet az egyes részekhez tartozó területeket. Az ember és a gép pompásan együtt tud működni. Az ember, ahogy itt látható, megmondja a gépnek, mely területek érdeklik, melyeken szeretné, hogy próbáljon javítani a gép az algoritmusa szerint. Ezek a mély tanuló rendszerek egy 16.000-dimenziós térben vannak, látják, ahogy a gép ezt pörgeti azon a téren keresztül, és próbál új területeket találni. Amint eredményt ér el, az őt irányító ember megjelölheti az érdekes területeket. A gépnek sikerült területeket találnia, például sarkokat. Ahogy végigvisszük a folyamatot, fokozatosan egyre többet közlünk a géppel arról, miféle struktúrát keresünk. Képzeljenek el egy diagnosztikai tesztben egy patológust, amint meghatározza a patologikus részeket, vagy egy radiológust, amint kimutatja a gócokat. Néha nehéz az algoritmus számára. Most egy kissé összezavarodott. Összekeveri a kocsik elejét a hátuljával. Egy kicsit jobban kell vigyáznunk, és nekünk kell előbb különválogatnunk a kocsik elejét és a hátulját, azután megmondjuk a gépnek, hogy ez a csoport érdekes nekünk. Ez eltart egy ideig, ugrunk egyet, és okítjuk a párszáz dologra támaszkodó gépi tanuló algoritmust, és reméljük, hogy erősen följavul. Látják, kezd elhalványulni egy néhány kép, tehát már felismeri, ezek hogyan értendők. Majd alkalmazhatjuk ezt az elvet hasonló képekre, és a hasonló képeknél, látják, már képes a kocsiknak az elejét hibátlanul megtalálni. Itt az ember mondhatja a gépnek: OK, jó munkát végeztél. Persze, néha még itt is bonyolult szétválasztani a csoportokat, esetünkben, bár hagytuk a gépet egy ideig pörögni, mégis találunk összekeveredve jobb és bal oldalas képeket. Adhatunk további útbaigazításokat a gépnek, mondhatjuk, hogy próbálkozz, és találj olyan szempontot, ami minél jobban szétválogatja a jobb és bal oldalakat mély tanuló algoritmussal. S lám, a tanácsunk -- OK, sikeres volt. Sikerült olyan szempontok szerint vizsgálni a tárgyakat, amelyek alkalmasak szétválogatásukra. S eszünkbe jut egy gondolat. Esetünkben a gép nem helyettesíti az embert, hanem együtt munkálkodnak. Ami egy 5-6 fős csoportnak kb. hét évébe tellett volna korábban, azt ezzel az eszközzel 15 perc alatt egyetlen személy elvégezi egyedül. Ez a folyamat 4-5 közelítő lépésből áll. Látják, hogy a gép a másfél millió kép 62%-át helyesen osztályozta. Most kezdhetjük gyorsan nagy vonalakban átnézni, nincs-e hiba valahol. Ahol hiba van, közölhetjük a géppel. Minden elkülönített csoportra alkalmazva valami ilyen eljárást most a 80%-os helyességi aránynál tartunk a másfél millió kép osztályozásakor. Most még találunk egynéhány eltévedt képet, és megpróbáljuk megérteni, mi ennek az oka. Ugyanazzal a módszerrel 15 perc alatt 97%-os helyességi arányt érünk el. Az ilyen technika lehetővé tenné, hogy kezelni tudjunk egy jelentős problémát, azt, hogy hiány van orvosi szakértelemből a világban. A Világgazdasági Fórumon elhangzott, hogy a fejlődő országokban 10-20-szoros az orvoshiány, és mintegy 300 évbe telne, hogy a gond megoldására elég orvost képezzenek ki. Képzeljék csak el, milyen jó lenne, ha a mély tanulás módszerével növelhetnénk az orvosok hatékonyságát? Egészen fölvillanyoznak a lehetőségek. Engem is aggaszt ez a gond. Az a probléma, hogy a kékkel jelölt területek ott vannak, ahol a szolgáltatások aránya 80% fölötti a foglalkoztatottságban. Mik is kellenek a szolgáltatásokhoz? [Írás-olvasás, Beszéd-figyelem], [Szemlélet, Tudás összegzése] Pont e dolgokkal épp most tanult meg a gép bánni. Tehát a fejlett világ dolgozóinak 80%-a olyan munkát végez, amire épp most vált képessé a számítógép. Mit jelent ez? Minden rendben lesz. A régiek helyett új állások keletkeznek. Például több állás lesz az adattudósok számára. Nem igazán. Nem tart soká a számukra kifejleszteni ezeket a dolgokat. Például, e négy algoritmust ugyanaz a fickó hozta létre. Ha azt hiszik: ó, régen is megtörtént, láttunk már ilyet, hogy új dolgok jönnek, és a régieket új állások váltják föl, no de milyenek lesznek az új állások? Nagyon nehezen tudjuk megítélni, mert az emberi teljesítmény fokozatosan nő, de most itt van a mély tanulás rendszere, tudjuk róla, hogy a teljesítménye rohamosan nő. Itt tartunk. Mostanában a dolgok láttán sokan azt mondják: "Ó, a számítógépek még mindig elég ostobák." Igaz? De öt éven belül a helyzet megváltozik. Már most el kell kezdenünk gondolkozni a gépek képességeiről. Ilyet már tapasztaltunk, az ipari forradalom idején, ahogy a gépek megjelenésével lépést kellett váltani. De egy idő után a dolgok elsimultak, Megzavarta a társadalmat, de amikor energiatermelésre már mindenütt gépeket használtak, a dolgok lecsillapodtak. A "gépi tanulás forradalma" egészen más lesz, mint az ipari forradalom, mert a "gépi tanulás forradalma" soha nem csillapodik le. Minél többet tudnak a számítógépek, annál jobb képességű számítógépeket tudnak megépíteni, ez olyan váltás lesz, amit a világ eddig még soha nem tapasztalt, ezért korábbi fogalmaik arról, hogy mi a lehetséges, teljesen megváltoznak. Mindez már hatással van ránk. Az utóbbi 25 évben a tőke termelékenysége nőtt, a munka termelékenysége maradt, sőt, valamit csökkent is. Szeretném, ha már elkezdenénk ezt az eszmecserét. Amikor a jelen helyzetről beszélgetek emberekkel, gyakran teljesen elutasítók. Jó, a számítógépek valójában nem tudnak gondolkodni, nem fejeznek ki érzelmeket, nem értik a költészetet, mi igazából nem értjük, hogyan működnek. Na és? A számítógépek már most meg tudnak tenni dolgokat, amelyek az emberek munkaidejének nagy részét kitöltik. Ideje elkezdeni a gondolkodást: hogyan igazítsuk át a társadalom és a gazdaság szerkezetét az új realitások fényében. Köszönöm (taps)