< Return to Video

Ljubav za sendviče | Mihailo Isakov | TEDxNoviSadSalon

  • 0:05 - 0:07
    Ćao ljudi, ja sam Mihailo.
  • 0:09 - 0:12
    Nisam bio siguran kako ovo da nazovem
    pa će imati dva naslova.
  • 0:12 - 0:14
    [Kako biti dobar internet komentator]
  • 0:14 - 0:17
    Poslednjih par godina,
    recimo poslednje četiri godine,
  • 0:17 - 0:20
    dosta često viđamo pojavu
    ovakvih komentara na netu.
  • 0:20 - 0:23
    Kaže Maša: "Sve pohvale za vredne neimare.
  • 0:23 - 0:26
    I naravno za premijera koji je neumoran."
  • 0:26 - 0:29
    I Kikica kaže: "Nema razloga
    da ne budemo ponosni
  • 0:29 - 0:33
    na ovo građevinsko čudo
    koje će krasiti našu prestonicu.
  • 0:33 - 0:35
    To će biti novi napredak
    za naše građevinske firme
  • 0:35 - 0:38
    koje su do sada bile bez posla
    kao i napredak cele industrije."
  • 0:40 - 0:43
    I hajde što vređaju inteligenciju,
    nego šta mi više smeta
  • 0:43 - 0:46
    jeste [to] što pokušavaju
    da lažiraju javno mnjenje.
  • 0:47 - 0:49
    Pokušavaju da nas ubede
    da ih je mnogo više
  • 0:49 - 0:52
    nego što stvarno jeste,
    da postoji podrška za neke projekte.
  • 0:52 - 0:56
    I onda razmišljam:
    OK, bavim se mašinskim učenjem.
  • 0:57 - 1:01
    I obično probleme koje ja mogu
    očigledno jako lako da rešim,
  • 1:01 - 1:03
    da ne moram preterano da razmišljam,
  • 1:03 - 1:05
    mogu mašinom da rešim.
  • 1:06 - 1:08
    Pa sam razmišljao: kako bismo mogli
  • 1:08 - 1:11
    da krenemo da prepoznajemo
    plaćene komentare -
  • 1:11 - 1:14
    komentare plaćene
    od strane političkih partija u Srbiji,
  • 1:14 - 1:17
    na neki automatizovan način.
  • 1:17 - 1:19
    Pre jedno 30-40 godina,
    kako bismo [to] radili
  • 1:19 - 1:20
    jeste pisali bismo pravila:
  • 1:20 - 1:22
    ukoliko vidiš ovu reč -
    veća je šansa da jeste.
  • 1:22 - 1:25
    Ukoliko vidiš onu reč -
    veća je šansa da jeste.
  • 1:25 - 1:27
    Danas to radimo malo drugačije.
  • 1:27 - 1:30
    Radimo [tako] što prikupimo
    ogromnu količinu podataka,
  • 1:30 - 1:37
    obeležimo, recimo, 10.000 komentara
    i onda pokušamo da izvučemo
  • 1:37 - 1:39
    neka pravila iz tih podataka.
  • 1:39 - 1:42
    Znači, da bih uopšte pokušao da prepoznam
  • 1:42 - 1:45
    šta je plaćen komentar -
    šta je bot, na internetu,
  • 1:45 - 1:50
    ja moram prvo da ih imam mnogo
    u nekoj bazi, recimo u jednom fajlu.
  • 1:51 - 1:53
    Sada, kako ću to da nabavim?
  • 1:54 - 1:57
    Pa hajde da kažemo
    da mi treba 10.000 komada.
  • 1:57 - 1:59
    To nije velik broj.
  • 1:59 - 2:01
    Mogu da pokušam ručno to da radim,
  • 2:01 - 2:04
    skinem 10.000 i idem jedan po jedan
  • 2:04 - 2:08
    i kažem: ovo je plaćeno - ja mislim -
    ovo, verovatno nije.
  • 2:09 - 2:12
    I ako mi treba 30 sekundi po komadu,
    to mi je nekih 100 sati posla
  • 2:12 - 2:17
    što nisam baš preterano spreman
    da uložim toliko.
  • 2:17 - 2:19
    Pa onda jasno - treba mi više ljudi.
  • 2:19 - 2:22
    Mogao bih da napravim anketu, recimo.
  • 2:22 - 2:24
    1000 anketa sa po 10 komentara,
  • 2:24 - 2:28
    svakog da pitam: "Da li misliš da je ovo
    plaćen komentar, da li misliš da nije?"
  • 2:28 - 2:30
    S tim da ljudi nisu bili preterano veseli
  • 2:30 - 2:32
    da mi odgovaraju na ankete
  • 2:32 - 2:35
    pa sam morao da nađem
    malo bolji način za to.
  • 2:37 - 2:41
    Znači, treba mi ogromna količina ljudi
    koja će obeležavati komentare
  • 2:41 - 2:43
    i treba da to rade na jednostavan način,
  • 2:43 - 2:46
    na način koji im ne kvari dan.
  • 2:47 - 2:49
    To izgleda otprilike ovako:
  • 2:49 - 2:54
    napravili smo Chrome aplikaciju,
    aplikaciju za vaš pretraživač,
  • 2:54 - 2:57
    zove se "Lovac na sendviče",
    i izgleda ovako nekako;
  • 2:57 - 3:02
    odete na Blic i ona ugradi
    dva dugmeta u svaki komentar:
  • 3:02 - 3:04
    "Bot" i "Nije bot".
  • 3:05 - 3:08
    I bilo ko, ko koristi aplikaciju,
    treba samo da klikne na jedan od njih,
  • 3:08 - 3:10
    pocrveni komentar i on meni
    pošalje na server:
  • 3:10 - 3:14
    "Hej, ja mislim da je ovo
    plaćen komentar."
  • 3:15 - 3:17
    I to je dalo dosta dobre rezultate.
  • 3:17 - 3:20
    Na period od tri nedelje
    dobio sam 500 korisnika,
  • 3:21 - 3:27
    koji su napravili 13.000 reakcija -
    13.000 "bot" ili "nije bot" reakcija
  • 3:27 - 3:29
    na nekih 8.000 komentara.
  • 3:29 - 3:32
    Sada ima možda malo više od toga.
  • 3:32 - 3:35
    Izvinjavam se inženjerima "Blica",
    ali trebalo mi je više komentara
  • 3:35 - 3:39
    pa sam u jednom trenutku skinuo
    sve komentare sa Blica u periodu
  • 3:39 - 3:44
    između 2013. i 2016. godine,
    što je nekih šest miliona.
  • 3:47 - 3:49
    Oni nisu obeleženi -
    za njih ne znam ništa.
  • 3:49 - 3:52
    Imam samo tekst i ime ko ih je pisao,
  • 3:52 - 3:56
    eventualno kako su ocenjeni,
    ali [to su] goli podaci bez obeležja.
  • 3:57 - 3:59
    I šta sada ja mogu da radim sa njima?
  • 3:59 - 4:02
    Mogu da uradim neke osnovne
    datamining tehnike, mogu da vidim:
  • 4:02 - 4:04
    koja je prosečna dužina
    bot komentara,
  • 4:04 - 4:06
    koja je prosečna dužina ne-bot komentara.
  • 4:06 - 4:08
    Mogu videti: ako je komentar duži
  • 4:08 - 4:11
    od recimo 300 slova - verovatno nije bot.
  • 4:12 - 4:15
    Ako je kratak, onda postoji
    dosta dobra šansa da jeste bot.
  • 4:15 - 4:19
    Barem tako kažu ljudi
    koji su ocenjivali te komentare.
  • 4:19 - 4:24
    Ovo je grafik koliko je svaki korisnik
    ostavio reakcija na komentare.
  • 4:25 - 4:28
    Vidimo da je ogromna količina ljudi
    došla jednom, kliknula nešto i otišla,
  • 4:28 - 4:30
    nikad više se nisu vratili.
  • 4:30 - 4:32
    Ali zahvalan sam za ovih
    par desetina korisnika
  • 4:32 - 4:34
    koji su dali preko 10, 15.
  • 4:34 - 4:38
    Ovo je moja majka koja je verovatno
    ubedljivo najviše koristila aplikaciju.
  • 4:38 - 4:40
    (Smeh)
  • 4:42 - 4:44
    Možemo da uporedimo
    korisnike na neki način,
  • 4:44 - 4:46
    možemo da vidimo: "Hej, ova dva korisnika
  • 4:46 - 4:49
    slično ocenjuju neke komentare,
    ova dva različito..."
  • 4:49 - 4:51
    Vidimo da u principu postoji konsenzus.
  • 4:51 - 4:54
    Niko mi nije kvario sem jedne osobe.
  • 4:55 - 4:57
    I možemo da napravimo nešto ovako;
  • 4:57 - 5:00
    da vidimo sličnost između korisnika
    na neki grafički način.
  • 5:00 - 5:03
    Da vidim: "Neko je malo hakovao servis
    pa je napunio glupostima",
  • 5:03 - 5:05
    ali dobro, to možemo,
  • 5:05 - 5:07
    čim vidimo na ovakav način,
    lako da odstranimo.
  • 5:07 - 5:10
    I možemo da krenemo da radimo
    nešto pametno, konačno.
  • 5:11 - 5:14
    Baza tih podataka, svi ocenjeni komentari,
  • 5:14 - 5:16
    svi ti neocenjeni komentari,
    koje sam skinuo,
  • 5:16 - 5:18
    kod za aplikaciju, kod za obradu toga,
  • 5:18 - 5:20
    su dostupni ovde.
  • 5:21 - 5:23
    Ako neko hoće da se zeza,
    MIT je licenca, što znači -
  • 5:23 - 5:24
    radite šta god hoćete.
  • 5:24 - 5:27
    [https:github.com/MiahiloIsakov/
    love-for-sandwiches]
  • 5:27 - 5:29
    I dobro, hajde, konačno - posao.
  • 5:29 - 5:30
    Kako da ih prepoznamo?
  • 5:30 - 5:33
    U mašinskom učenju,
    u poslednjih par godina,
  • 5:33 - 5:34
    pojavilo se jako mnogo tehnika
  • 5:34 - 5:38
    koje jako dobro rade na videu,
    na slikama, na zvuku.
  • 5:38 - 5:40
    Zašto? Zato što njih
    obično snimaju senzori.
  • 5:40 - 5:42
    Senzori koji su savršeni.
  • 5:42 - 5:46
    Ne možete da uradite
    mnogo bolje od kamere -
  • 5:46 - 5:48
    kamere ne prave greške.
  • 5:48 - 5:52
    Ljudi prave greške.
    Ljudi jako mnogo grešaka prave.
  • 5:52 - 5:56
    Pored toga, srpski je dosta težak
    i jako je nezahvalan jezik za rad.
  • 5:56 - 6:02
    Hajde gramatičke greške.
    Nego, što se ovakve stvari pojavljuju.
  • 6:03 - 6:07
    Imamo jednu reč
    koja ima X različitih sufiksa.
  • 6:08 - 6:13
    Moj računar ne može da ih razlikuje,
    ne može da shvati da sve imaju isti koren.
  • 6:13 - 6:17
    Ja bih hteo da svaku od ovih reči
    zamenim sa "kuć",
  • 6:17 - 6:20
    da znam da se uvek radi o kućama.
  • 6:20 - 6:23
    Taj proces zovemo "stemovanje"
    i, nažalost, srpski jezik
  • 6:23 - 6:26
    nema još zvaničan stemer,
    tako da sada pokušavamo
  • 6:26 - 6:29
    da ga razvijemo zvanično na srpski.
  • 6:30 - 6:34
    Drugi problem jeste što ljudi prave
    ogromnu količinu gramatičkih grešaka.
  • 6:35 - 6:39
    Mi ne znamo da radimo sa tekstom
    tako da se svaki naš pokušaj svodi na:
  • 6:39 - 6:41
    "Hajde uzmi taj tekst pa ga transformiši
  • 6:41 - 6:42
    u nešto u realnom vremenu."
  • 6:42 - 6:44
    To su brojke.
  • 6:44 - 6:47
    Koristimo neke tehnike [za to],
    jedna od glavnih je TF-IDF,
  • 6:47 - 6:52
    koja pokušava da neki komentar
    pretvori u niz brojeva, gde će reći:
  • 6:54 - 6:57
    "Ja brojim koliko se koja reč pojavljuje.
  • 6:57 - 7:00
    Reč koja se češće pojavljuje
    imaće veće vrednosti,
  • 7:00 - 7:02
    reč koja se ne pojavljuje imaće nule.
  • 7:02 - 7:04
    Zanimaju me najviše reči
    koje se pojavljuju, recimo
  • 7:04 - 7:07
    samo u botovima,
    a nigde drugde i obrnuto -
  • 7:07 - 7:11
    reči koje se pojavljuju
    u ne-botovima, a retko u botovima."
  • 7:11 - 7:15
    To su nam dobri pokazatelji
    da li je nešto bot ili nije bot.
  • 7:15 - 7:18
    Šta nas ne zanima jeste
    ogromna količina rečnika
  • 7:18 - 7:22
    koja se pojavljuje apsolutno svugde
    i samo nam pravi đubre.
  • 7:22 - 7:24
    Zovemo ih "stop reči", obično želimo
  • 7:24 - 7:27
    da ih izbacimo odmah u startu
    jer nam neće ni oko čega pomoći.
  • 7:28 - 7:30
    I onda pozovemo čika Bajesa
  • 7:30 - 7:34
    koji je imao pre nekih 300 godina
    jednu fantastičnu ideju, a to jeste:
  • 7:34 - 7:37
    Ako ja znam koja je šansa
    da ako je komentar bot,
  • 7:37 - 7:40
    da se pojavi reč "premijer" -
  • 7:40 - 7:43
    a znam zato što sam
    prebrojao sve bot komentare
  • 7:43 - 7:48
    i prebrojao sam koliko puta
    se u njima pojavila reč "premijer",
  • 7:48 - 7:51
    koja je šansa da se pojavi
    u bot komentaru "premijer" -
  • 7:51 - 7:54
    ja mogu da utvrdim,
    uz pomoć Bajesove teoreme,
  • 7:54 - 7:56
    ukoliko vidim reč "premijer"
    koja je šansa da je bot.
  • 7:56 - 7:58
    Znači da obrnem logiku.
  • 7:58 - 8:02
    Znao sam, ukoliko je komentar bot,
    koja je šansa da se pojavi reč,
  • 8:02 - 8:04
    e hoću obrnuto; ukoliko vidim reč,
  • 8:04 - 8:07
    koja je šansa da je to stvarno bot.
  • 8:07 - 8:12
    I to je jedna od najlošijih tehnika
    u mašinskom učenju.
  • 8:13 - 8:16
    Zovemo je naivna zato što
    pravi neke pretpostavke
  • 8:16 - 8:18
    koje očigledno nisu tačne.
  • 8:18 - 8:23
    A to je da "premijer" i "vlada"
    nemaju nikakve veze jedno sa drugim.
  • 8:24 - 8:27
    Ali često ćete videti -
    ako vidim jednu, daleko je veća šansa
  • 8:27 - 8:29
    da ću videti i drugu reč.
  • 8:30 - 8:34
    Dakle, postoji veza između njih
    i pretpostavimo da su nezavisne.
  • 8:35 - 8:40
    I poteramo mi tog Bajesa
    na celom skupu od 8.000 komentara
  • 8:40 - 8:43
    i on kaže: "Ovo su reči
    koje mi mnogo znače.
  • 8:43 - 8:45
    Ako vidim ovo, ako vidim nešto od ovoga,
  • 8:45 - 8:47
    govori mi da je to
    verovatno u pitanju bot.
  • 8:47 - 8:49
    Ako vidim komentar koji kaže:
  • 8:49 - 8:55
    "Srbiji treba Vučić, Pajtić nije premijer,
    narod neka radi brutalno."
  • 8:56 - 9:01
    To će biti jako bot komentar.
    Barem je on to zaključio.
  • 9:02 - 9:05
    I sada, šta želimo da radimo
    jeste da iskoristimo
  • 9:05 - 9:08
    i onih 6 miliona komada,
    6 miliona neobeleženih komentara.
  • 9:08 - 9:09
    Kako ćemo to uraditi?
    Pitaćemo ga:
  • 9:09 - 9:12
    "Hajde nađi očigledne
    botove i ne-botove iz tog skupa."
  • 9:12 - 9:15
    Kaže: "Ja mogu da ti dam
    nekih 10.000 komada
  • 9:15 - 9:17
    za koje sam 100% siguran.
    Za ostale nisam."
  • 9:17 - 9:20
    I onda uzmemo tih 10.000,
    ubacimo ih na onih starih 8.000
  • 9:20 - 9:23
    i ponovo ga pitamo:
    "Hajde sad sa ovih 18.000 nađi još."
  • 9:23 - 9:26
    Pa onda on nađe još
    10.000 i tako ponavljamo to
  • 9:26 - 9:29
    dok ne dobijemo algoritam
    koji postane malo sigurniji u sebe.
  • 9:29 - 9:33
    To se zove "Iterativna klasifikacija",
    ne radi toliko dobro koliko bih hteo
  • 9:34 - 9:36
    ali se pokazalo da je korisno.
  • 9:36 - 9:38
    I onda vidimo: mi ne možemo
    da podignemo preciznost
  • 9:38 - 9:40
    više od nekih 90%.
  • 9:41 - 9:43
    U 10% komentara će stalno grešiti,
    šta god mi uradili,
  • 9:43 - 9:46
    kakve god parametre postavili.
  • 9:46 - 9:49
    I onda je klasično rešenje:
    pa hajde da vidimo koji su to komentari
  • 9:49 - 9:52
    gde grešiš,
    pokaži mi šta ti pravi problem.
  • 9:52 - 9:55
    I on kaže: "Ovo mi pravi problem.
  • 9:55 - 9:58
    Ovo je meni u bazi obeleženo kao ne-bot."
  • 9:58 - 10:01
    Neko je došao i rekao da ovo nije bot.
  • 10:01 - 10:04
    Algoritam kaže: "Ja se ne slažem."
  • 10:04 - 10:09
    Ja mislim da algoritam ne greši ovde,
    nego je neko namerno hteo da kvari bazu.
  • 10:11 - 10:13
    Ovde se isto ne slažu.
  • 10:15 - 10:18
    I ovde se isto ne slažu.
    Ima ih još mnogo.
  • 10:20 - 10:23
    Pa smo onda shvatili
    da je moguće da su ljudi došli
  • 10:23 - 10:27
    i namerno labelirali komentare
    ali dobro, nije to tako strašno.
  • 10:29 - 10:31
    Uspemo da prepoznamo dovoljno.
  • 10:31 - 10:37
    I na tih 6 miliona komentara
    nađemo 80.000 koji su očigledni.
  • 10:37 - 10:39
    Što zvuči kao jako veliki broj
    ali računajte:
  • 10:39 - 10:43
    ako neko u poslednjih hiljadu dana,
    što je malo manje od četiri godine,
  • 10:43 - 10:46
    svaki dan napiše 100 komentara,
    to je taman to.
  • 10:47 - 10:51
    I pogledamo tih 80.000
    i ja mislim da ovo izgleda sasvim OK.
  • 10:52 - 10:54
    Slažem se sa njima.
  • 10:57 - 10:59
    Često vidite te neke reči,
    kao što su "budućnost",
  • 10:59 - 11:04
    to jako vole da koriste,
    i "pravu odluku", "privreda Srbije"...
  • 11:08 - 11:12
    Osnovna ideja iza ovoga je bila;
    hoću da koristim duboke neuralne mreže.
  • 11:12 - 11:16
    To je jako "hot" sada, jako popularno
    i pokazuju da su sposobne da rešavaju
  • 11:16 - 11:19
    jako velik broj problema.
  • 11:20 - 11:22
    Kada sam došao do ovoga, već sam shvatio
  • 11:22 - 11:25
    da možda i nema potrebe,
    ovo nam radi dovoljno dobro.
  • 11:25 - 11:26
    Ali, hajde, idemo do kraja.
  • 11:26 - 11:29
    I koristimo nešto što se zove
    rekurentne neuralne mreže
  • 11:29 - 11:31
    koje su sposobne da shvataju vreme.
  • 11:31 - 11:34
    Da shvataju sekvence,
    da razumeju video, a ne samo slike,
  • 11:34 - 11:36
    da razumeju tekst, muziku.
  • 11:38 - 11:40
    Stoje za "Long Short-Term Memory",
  • 11:40 - 11:42
    i daju fantastične rezultate.
  • 11:42 - 11:45
    Zašto želimo njih da koristimo,
    a ne naivnog Bajesa
  • 11:45 - 11:48
    jeste zato što naivni Bajes
    gleda samo frekvenciju pojavljivanja reči.
  • 11:48 - 11:51
    Što znači da ako ja uzmem
    i ispreturam komentar:
  • 11:51 - 11:56
    "Hag je doneo jednu pravu odluku"
    u "jednu odluku pravu Hag doneo je",
  • 11:56 - 11:58
    jednako će biti klasifikovana.
  • 11:58 - 12:00
    Bajes ne uzima u obzir
  • 12:00 - 12:04
    redosled reči u rečenici,
    [već] samo pojavljivanje tih reči.
  • 12:04 - 12:10
    LSTM gleda kontekst,
    gleda sekvence i razume redosled.
  • 12:11 - 12:14
    I u stanju je da nauči
    daleko bolji model samog jezika.
  • 12:15 - 12:16
    Koristimo ga za jako mnogo stvari.
  • 12:16 - 12:19
    Klasične neuralne mreže
    smo pre koristili za ovako nešto.
  • 12:19 - 12:22
    Damo sliku mačke i on kaže "mačka".
  • 12:22 - 12:25
    Ali LSTM-ovi su sposobni
    da uvedu vreme u ceo taj proces
  • 12:25 - 12:29
    gde bih mu ja dao sliku
    galeba koji leti nad vodom
  • 12:29 - 12:34
    i, fantastičan primer iz 2012,
    gde su uspeli da naprave duboki LSTM
  • 12:34 - 12:39
    koji kaže "generiši opis slike":
    "A seagull flying on a body of water".
  • 12:39 - 12:43
    Opisuje sliku
    dosta kompleksnim rečenicama.
  • 12:43 - 12:45
    Ovo je arhitektura koju
    bismo mi hteli da koristimo,
  • 12:45 - 12:48
    tj. dam ti reč po reč, po reč, po reč...
  • 12:48 - 12:53
    i kad stanem, kažem "tačka" i sad
    mi kažeš da li misliš da je bot ili nije.
  • 12:53 - 12:55
    Ostale arhitekture nas ne zanimaju toliko.
  • 12:55 - 12:59
    Ovu bismo koristili za prevođenje
    sa englekog na francuski jezik.
  • 12:59 - 13:02
    To je postala jako zanimljiva tema
    u poslednjih godinu dana:
  • 13:02 - 13:05
    da naučite prevodioca
    samo [tako] što ćete mu
  • 13:05 - 13:07
    baciti ogromnu količinu knjiga,
    na engleskom i francuskom,
  • 13:07 - 13:09
    pa nek shvati vezu.
  • 13:09 - 13:11
    I ovu četvrtu obično za muziku koristimo,
  • 13:11 - 13:15
    da generišete muziku na osnovu
    muzike koju ste pre čuli.
  • 13:16 - 13:21
    LSTM-ovi su me kupili u jednom trenutku
    kada sam video da su u stanju
  • 13:21 - 13:25
    da odgovaraju na pitanja, tj.
    date mu sliku i pitate pitanje:
  • 13:25 - 13:27
    "Šta je na tanjiru?"
    a on kaže: "Brokoli".
  • 13:27 - 13:30
    Ili "Koji je ono sport?"
    i on kaže: "Bejzbol".
  • 13:30 - 13:33
    Vidite da su u stanju da shvate
    dosta kompleksne stvari
  • 13:33 - 13:37
    i da samo treba
    da im bacimo dovoljno podataka.
  • 13:37 - 13:39
    Pa sam to uradio.
  • 13:39 - 13:42
    Bacio sam onih 80.000 botova
    koje sam pronašao naivnim Bajesom,
  • 13:42 - 13:46
    onda imam problem:
    nisam bio siguran oko ne-botova.
  • 13:46 - 13:48
    Gde da nađem ne-botove?
  • 13:48 - 13:52
    Srećom, uzmem par desetina hiljada
    komentara iz kategorije
  • 13:52 - 13:56
    "Blic Sport", "Blic Žena", "Svet i vreme"
  • 13:57 - 14:00
    i tu mogu da pretpostavim
    da botovi ne dolaze
  • 14:00 - 14:02
    na članke kao [što su]: "Da li možete
  • 14:02 - 14:05
    da rešite zadatak koji mali Tajvanac
    od sedam godina može da reši?"
  • 14:05 - 14:07
    ili tako nešto.
    (Smeh)
  • 14:07 - 14:12
    Računam da ih neće biti tu
    tako da mogu da ih ručno labeliram sve
  • 14:12 - 14:14
    iz cuga, da nisu botovi.
  • 14:14 - 14:16
    I dobijem nešto
    što može da prepoznaje botove.
  • 14:16 - 14:20
    I da prepoznaje botove
    sa ogromnom preciznošću, bar mislim.
  • 14:20 - 14:24
    Ovo je preciznost na skupu
    koji on nikada nije video.
  • 14:24 - 14:29
    Ovo je preciznost na onim podacima
    koje mu nikad nisam dao mogućnost da vidi,
  • 14:29 - 14:31
    da bi naučio na njima.
  • 14:31 - 14:33
    To se zove "kros-validacija",
    dosta je zgodna stvar,
  • 14:33 - 14:37
    i mogu da budem siguran
    da nisam mnogo uspeo da zeznem ovo.
  • 14:37 - 14:41
    I sad se nađem u situaciji:
    imam mrežu koja prepoznaje botove.
  • 14:41 - 14:44
    Nisam mislio da ću doći dovde.
  • 14:44 - 14:45
    Šta dalje?
  • 14:45 - 14:47
    Mogu da pokušam
    da generišem komentare
  • 14:47 - 14:51
    koji zvuče botovski ali ne ispadne
    toliko dobro koliko sam hteo.
  • 14:51 - 14:54
    Ali biće bolje kad mu budem dao
    jedno nedelju dana
  • 14:54 - 14:57
    da krčka i da sluša šta to botovi govore.
  • 14:57 - 15:01
    Još nije uspeo sintaksu
    najbolje da provali ali polako.
  • 15:01 - 15:04
    Postavila su se dva pitanja:
    šta ću dalje i šta je bot?
  • 15:04 - 15:09
    Ja ne znam šta je bot,
    bez da sedim u centrali
  • 15:09 - 15:12
    neke političke partije
    i gledam šta su stvarno komentarisali.
  • 15:12 - 15:15
    Inače nikad neću biti siguran.
    Imam ono što ljudi misle.
  • 15:15 - 15:18
    Tako da sam napravio
    neki kompromis i rekao sam:
  • 15:18 - 15:21
    "OK, ovaj moj sistem ne prepoznaje botove,
  • 15:21 - 15:24
    prepoznaje šta ljudi misle da su botovi."
  • 15:25 - 15:28
    Pa sada - nisam ja kriv,
    vi ste, koji ste koristili aplikaciju.
  • 15:28 - 15:28
    (Smeh)
  • 15:28 - 15:31
    Tako da, ako nekog vređa...
  • 15:32 - 15:36
    Drugo pitanje:
    šta da radim dalje s ovim?
  • 15:36 - 15:41
    U narednih nedelju dana će se pojaviti
    jedan tviter profil "NESHA_BG"
  • 15:41 - 15:46
    koji će da ostavi, jednom dnevno,
    komentar neki nalik onome
  • 15:46 - 15:48
    što se nalazilo u onih 80.000.
  • 15:48 - 15:50
    [Pitanja? @mihailo_isakov]
  • 15:50 - 15:52
    To bi bilo to.
    Hvala puno.
  • 15:52 - 15:55
    (Aplauz)
Title:
Ljubav za sendviče | Mihailo Isakov | TEDxNoviSadSalon
Description:

Često se na internetu susrećemo sa plaćenim komentarima na vesti, koji ne samo da vređaju našu inteligenciju, nego stvaraju lažno javno mnjenje. Da li računar može da se isprogramira da prepozna takve komentare i jednog dana ne dozvoli njihovo objavljivanje na medijskim sajtovima? Mihailo kaže da može, i objašnjava kako.

Mihailo Isakov je master student i asistent na Fakultetu tehničkih nauka u Novom Sadu. Polje njegovog naučnog istraživanja je mašinsko učenje i duboke neuralne mreže. Interesuje ga preduzetništvo, veštačka inteligencija i edukacija.

Ovaj govor je održan na TEDx događaju koji koristi format TED konferencije, ali ga nezavisno organizuje lokalna zajednica. Saznajte više na http://ted.com/tedx

more » « less
Video Language:
Serbian
Team:
closed TED
Project:
TEDxTalks
Duration:
16:01

Serbian subtitles

Revisions