Më lejoni t'ju tregoj dicka.

(Video) Vajza: Kjo është një 
mace e ulur në krevat.

Djali po përkëdhel elefantin.

Janë njerëz që po shkojnë drejt 
një aeroplani.

Eshtë një aeroplan i madh.

Fei-Fei Li: Ky është një fëmijë 
tre-vjeçar

duke përshkruar atë që sheh
në një seri fotosh.

Ajo mund të ketë ende shumë 
për të mësuar rreth botës,

por ajo është tashmë mjeshtre
në një detyrë shumë të rëndësishme:

të kuptojë se çfarë po sheh.

Shoqëria jonë është më shumë se kurrë e 
avancuar teknologjikisht.

Ne dërgojmë njerëz në hënë, 
i bëjmë telefonat të komunikojnë me ne

apo i përshtasim stacionet e radios
të luajnë muzikën që na pëlqen.

Prapë, makinat dhe kompjuterët tanë 
më të avancuar

e kanë të vështirë këtë punë.

Jam sot këtu t'ju jap 
një raport të ecurisë

mbi zhvillimet më të fundit
në kërkimet tona në vizionin kompjuterik,

një nga teknologjitë më të reja
dhe potencialisht revolucionare

në shkencat kompjuterike.

Po, kemi krijuar prototipe të makinave
që vetë-drejtohen

por pa një vizion inteligjent,
ato nuk mund ta gjejnë ndryshimin

midis një qese letre të zhubrosur
në rrugë, mbi të cilën mund të kalosh,

dhe një guri po të të njejtave përmasa,
i cili duhet shmangur.

Ne kemi krijuar kamera 
me rezolucion të lartë,

por nuk i kemi dhënë shikim të verbërve.

Avionët e telekomanduar fluturojnë gjatë
dhe mbi hapsira masive toke,

por teknologjia vizive
nuk është e mjaftueshme

për të monitoruar ndryshimet
e pyjeve tropikale.

Kamerat e sigurisë janë kudo,

por nuk na lajmërojnë kur një fëmijë
është duke u mbytur në pishinë.

Fotot dhe videot po bëhen një pjesë
e pandashme e jetës globale.

Ata po gjenerohen me një ritëm aq të 
shpejtë, sa është e pamundur që

një individ, apo një grup individësh 
t'i shohë të gjitha,

dhe unë bashkë me ju po kontribojmë
për këtë qëllim në TED.

Megjithatë, programet tona më të avancuara
e kanë të vështirë ta kuptojnë

dhe menaxhojnë këtë sasi kaq të madhe
informacioni.

Pra, me fjalë të tjera, 
bashkarisht si shoqëri,

ne jemi disi të verbër,

pasi makinat tona më inteligjente
janë akoma të verbra.

"Pse është kaq e vështirë?" 
do të pyesnit ju.

Kamerat mund të kapin foto si kjo këtu

duke i shndërruar dritat në 
një matricë numrash

të njohura si piksela,

por këto janë thjesht numra pa jetë.

Nuk mbartin ndonjë kuptim në vetvete.

Njësoj si të dëgjuarit nuk është njësoj 
si ta kuptosh atë që dëgjon,

ashtu dhe të kapësh foto nuk është
njësoj si të shohësh,

dhe me shikimin, ne nënkuptojmë 
dhe të kuptuarin e asaj që shohim.

Në fakt, Nënës Natyrë iu deshën 
540 milionë vjet

për ta bërë këtë gjë,

dhe pjesa më e madhe e mundit

shkoi për zhvillimin e aparatit të
përpunimit vizual në trurin tonë,

e jo vetëm për sytë.

Pra shikimi fillon me sytë,

por në të vërtetë zhvillohet në tru.

Kështu për 15 vjet, duke filluar me 
doktoraturën në Caltech

dhe më pas në krye të Vision Lab 
në Stanford,

kam punuar me mentorët, bashkëpunuesit
dhe studentët e mi

për t'i mësuar kompjuterat të shohin.

Fusha jonë kërkimore quhet
computer vision dhe machine learning.

Është pjesë e fushës së përgjithshme të 
inteligjencës artificiale.

Përfundimisht, ne duam t'i bëjmë 
kompjuterat të shohin ashtu si vetë ne:

të emërtojnë objekte, të identifikojnë 
njerëz, t'i shohin gjërat me 3 dimensione,

të kuptojnë marrdhëniet, emocionet,
veprimet dhe qëllimet.

Ne thurim së bashku histori të tëra
mbi njerëz, vende dhe sende

momentin e parë kur i hedhim një vështrim.

Hapi i parë drejt këtij qëllimi është 
t'i mësojmë kompjuterat të shohin objekte,

baza për ndërtimin e botës vizuale.

Në kushtet më të thjeshta,
imagjinojeni këtë proces

si t'i tregosh kompjuterave
disa imazhe të një objekti të caktuar

për shembull, imazhe te maceve,

dhe të ndërtosh një model që trajnohet
dhe mëson nga këto imazhe.

Sa e vështirë mund të jetë?

Në fund të fundit, një mace është thjesht
një grumbull formash dhe ngjyrash,

dhe me këtë mendim ecëm në ditët e hershme
të modelimit të objekteve.

Ne do të përdornim matematikën 
për t'i treguar algoritmit kompjuterik

se një mace ka fytyrë të rrumbullakët,
një trup topolak,

dy veshë me majë, dhe një bisht të gjatë,

dhe çdo gjë dukej mirë.

Po a do të funksiononte me këtë mace?

(Të qeshura)

Është komplet e ngatërruar.

Në këtë rast duhet t'i shtojmë një formë
dhe këndvështrim tjetër modelit të objektit.

Po nëqoftëse macet janë të fshehura?

Po këto mace qesharake?
(Të qeshura)

Tani besoj se e kuptoni ku e kam fjalën.

Edhe diçka kaq e thjeshtë
sa një kafshë shtëpiake

përfaqësohet nga variacione të panumërta
për të krijuar modelin e objektit,

dhe ky është vetëm një rast.

Pra rreth tetë vjet më parë,

një vrojtim mjaft i thjeshtë dhe i thellë
ndryshoi mënyrën time të të menduarit.

Një fëmije askush nuk i mëson si të shohë,

veçanërisht në vitet e para të jetës.

Ato mësojnë përmes eksperiencave 
dhe shembujve.

Nëse i mendojmë sytë e një fëmije

si aparate fotografike biologjike,

ato kapin një foto çdo 200 millisekonda,

që është shpejtësia mesatare e 
lëvizjes së syrit.

Kështu deri në moshën tre-vjeçare, 
një fëmijë ka parë qindra miliona foto

të botës reale.

Këto janë shumë shembuj trajnues.

Pra, në vënd që të fokusohemi vetëm te
përmirësimi i algoritmave,

ideja ime ishte t'i ushqenim dhe trajnonim
algoritmat me atë tip të dhënash

që një fëmijë merr përmes eksperiences

në cilësi dhe sasi.

Me këtë ide,

e dinim se na duhej të mblidhnim 
një grup të dhënash

që përmban shumë më tepër imazhe 
seç mund të kemi patur ndonjëherë,

ndoshta njëmijë herë më shumë,

dhe së bashku me Profesorin
Kai Li të Universitetit Princeton,

ne nisëm projektin ImageNet në 2007.

Për fat të mirë, nuk na u desh të montonim
një aparat fotografik në kokë

dhe të prisnim për shumë vite.

Ne iu drejtuam internetit,

thesari më i madh i fotove
që njerëzit kanë krijuar ndonjëherë.

Shkarkuam rreth një bilion imazhe

dhe përdorëm crowdsourcing, teknologjinë 
e kontributit të përbashkët online

si platformën Amazon Mechanical Turk, për 
të na ndihmuar në etiketimin e imazheve.

Në majat e veta, ImageNet ishte një nga
punëdhënësit më të mëdhenj

të punonjësve të Amazon Mechanical Turk:

së bashku, gati 50,000 punonjës

nga 167 shtete nga e gjithë bota

na ndihmuan të përzgjidhnim, 
të klasifikonim dhe të etiketonim

rreth nje bilion imazhe potenciale.

Kjo ishte puna që u desh

për kapjen e çdo fraksioni të
shëmbëlltyrës

që mendja e një fëmije regjistron 
në vitet e para të zhvillimit

Në retrospektivë, ideja e përdorimit 
të "big data"

për trajnimin e algoritmave kompjuterikë
mund të duket e qartë tani,

por vite më parë, në 2007, 
nuk ishte kaq e qartë.

Ne ishim vërtet vetëm në këtë rrugëtim
për mjaft kohë.

Disa kolegë të mitë, miqësisht më 
këshilluan të bëja diçka më të vlefshme,

dhe vazhdimisht luftonim
për financimin e kërkimeve.

Njëherë madje, unë bëra shaka 
me studentët e diplomuar

se do të hapja sërish dyqanin tim të 
pastrimit kimik për të financuar ImageNet.

Në fund të fundit, ashtu arrita
të financoj dhe studimet e mia.

Pra ne vazhduam.

Në 2009-n, projekti ImageNet paraqiti

një databazë me 15 milion imazhe

të klasifikuara në 22,000 klasa
objektesh dhe gjërash

të organizuara sipas fjalëve të përdorura 
në Anglishten e përditshme.

Si në cilësi, ashtu dhe në sasi,

kjo ishte një arritje e paparë.

Si shembull, në rastin e maceve,

kemi më shumë se 62,000 mace

të të gjitha pamjeve, pozicioneve

dhe llojeve të maceve shtëpiake 
apo të egra.

Ne ishim të ngazëllyer
nga puna e bërë me ImageNet,

dhe donim që e gjithë bota kërkimore
të përfitonte nga rezultatet,

kështu në një mënyrë të ngjashme me TED,
ne ia ofruam të dhënat falas

komunitetit kërkimor në të gjithë botën.

(Duartrokitje)

Tani që i kemi të dhënat
për të ushqyer trurin e kompjuterit,

jemi gati t'i rikthehemi algoritmeve.

Rezultoi se, pasuria informative e ofruar
nga ImageNet

përkonte në mënyrë të përkryer me një
kategori të veçantë algoritmesh

të machine learning, që quhen 
convolutional neural network,

të aplikuar fillimisht nga Kunihiko 
Fukushima, Geoff Hinton, dhe Yann LeCun

ne vitet '70 dhe '80.

Ashtu si truri që përbëhet nga miliarda
neurone të lidhura ngushtë,

njësia baze operative e një rrjeti 
neuronesh (neural network)

është një nyje e ngjashme me neuronin.

Ajo merr të dhëna nga nyjet e tjera

dhe i dërgon rezultatin e përpunimit 
të tjerave.

Për më tepër, këto qindra mijra 
madje edhe miliona nyje

janë të organizuara në shtresa hierarkike,

gjithashtu të ngjashme me trurin.

Në një rrjet tipik neuronesh për të 
trajnuar modelin për njohjen e objekteve,

ndodhen 24 milion nyje,

140 milion parametra,

dhe 15 miliardë lidhje.

Ky është një model gjigand.

Falë të dhënave masive ofruar nga ImageNet

dhe CPU-të dhe GPU-të moderne
për trajnimin e nje modeli kaq të madh,

rrjeti konvolucional i neuroneve
(convolutional neural network)

lulëzoi në një mënyrë që askush se priste.

U kthye në një arkitekturë fitimtare

për gjenerimin e rezultateve të reja
në identifikimin e objekteve.

Ky është një kompjuter duke na treguar

se ky imazh përmban një mace

dhe vendin ku macja ndodhet.

Sigurisht ekzistojnë dhe gjëra të tjera
përvec maceve,

pra ja një algoritëm komjuterik 
duke na treguar

se imazhi përmban nje djalë 
dhe një arush teddy;

një qen, një person, dhe një balonë 
të vogël në sfond;

apo një imazh shumë i ngarkuar me objekte

si një burrë, një skateboard, 
kangjella, e kështu me rradhë.

Ndonjëherë, kur kompjuteri nuk është
mjaft i sigurt për atë që sheh,

ne e kemi mësuar të tregohet i zgjuar

e të na jap nje përgjigje të vagët por 
më të sigurt, në vend që t'ia fusë kot

sic bëjmë ne,

por në raste të tjera, algoritmi ynë është
i jashtëzakonshëm kur na tregon

saktësisht se me cilin objekt 
kemi të bëjmë,

si përbërjen, modelin, vitin e prodhimit 
të makinave.

Ne e aplikuam këtë algoritëm në miliona
imazhe të Google Street View

të qindra qyteteve amerikane,

dhe mësuam dicka shumë interesante:

së pari, konfirmoi atë qe na 
thotë dhe logjika

cmimet e makinave janë 
në përpjestim të drejtë

me të ardhurat familjare.

Por per cudi, ato lidhen

dhe me shkallën e krimit në qytete,

apo mënyrën e votimit 
sipas kodeve postare.

Prit një minutë. Kaq ishte?

Arriti kompjuteri tashmë në të njejtin 
nivel madje dhe më lart se njeriu?

Jo kaq shpejt.

Deri tani, i kemi mësuar kompjuterit
të shohë objekte.

Si të jetë një fëmijë i vogël
duke mësuar ca emra.

është një arritje e pabesueshme,

por është vetëm hapi i parë.

Së shpejti do të hidhet një hap 
tjetër i madh zhvillimi,

dhe fëmijët do të fillojnë të flasin 
me fjali.

Kështu në vënd që të thonë
se këtu në foto është një mace,

ju e dëgjuat tashmë vajzën e vogël duke na
treguar se macja është shtrirë në krevat.

Pra, për t'i mësuar kompjuterit
të shohë një foto dhe të gjenerojë fjali,

bashkimi i ngushtë mes të dhënave 
dhe algoritmit

duhet të hedhë një hap tjetër.

Tani, kompjuteri duhet të mësojë
edhe nga imazhet

edhe nga gjuha natyrore

e folur nga njerëzit.

Ashtu sic truri integron 
shikimin me gjuhën,

ne zhvilluam një model
që lidh pjesë vizuale të objekteve

si copëza vizuale

me fjalë dhe shprehje në fjali.

Rreth katër muaj më parë,

më në fund i bashkuam të gjitha

dhe prodhuam një nga modelet e para 
të vizionit kompjuterik

që bën të mundur gjenerimin e fjalive
të ngjashme me ato që thonë njerëzit

kur shohin një foto për herë të parë.

Tani, jam gati t'ju tregoj
se cfare thotë kompjuteri

kur sheh të njëjtën foto

që vajza e vogël po shihte 
në fillim të kësaj bisede.

(Video) Kompjuteri: Një njeri po qëndron
pranë një elefanti.

Një avjon i madh duke qëndruar
në një pistë aeroporti.

FFL: Patjeter, ne po punojmë ende fort
për përmirësimin e algoritmave tanë,

dhe kemi ende shumë për t'i mësuar.

(Duartrokitje)

Dhe kompjuteri prapë bën gabime.

(Video) Kompjuteri: Një mace e shtrirë
në një krevat në një batanije.

FFL: Sigurisht, kur sheh kaq shumë mace,

mendon pastaj që cdo gjë 
mund të duket si mace.

(Video) Kompjuteri: Një djalë i vogël 
duke mbajtur një shkop bejzbolli.

(Të qeshura)

FFL: Nëse s'ka parë kurrë furcë dhëmbësh,
e ngatërron atë me një shkop bejzbolli

(Video) Kompjuteri: Një burrë hipur 
mbi kalë në një rrugë pranë një ndërtese.

(Të qeshura)

FFL: Ende nuk i kemi mësuar art 
kompjuterave.

(Video) Kompjuteri: Një zebra duke 
qëndruar në një fushë me bar

FFL: Dhe ende nuk ka mësuar të çmojë
bukurinë mahnitëse të natyrës

ashtu siç bëjmë ne.

Pra ka qenë një udhëtim i gjatë.

Ishte mjaft vështirë të shkonim 
nga mosha zero në tre.

Sfida e vërtetë është të shkojmë
nga tre në 13 e më tej.

Më lini t'ju risjell këtë foto
të djalit me tortën.

Deri tani, ne i kemi mësuar kompjuterave
të shohin sende

madje dhe të na tregojnë histori
të thjeshta duke parë një foto.

(Video) Kompjuteri: Nje person i ulur 
pranë tavolinës me një tortë.

FFL: Por ka shumë më tepër në këtë foto

sesa thjesht një person dhe një tortë.

Kompjuteri nuk mund të shohë
se kjo është një tortë e vecantë italiane

që shërbehet vetëm në kohën e Pashkëve.

Djali ka veshur bluzën e tij të preferuar

të cilën ia ka dhuruar i ati,
pas një udhëtimi ne Sidney,

dhe ne mund ta shohim
se sa i lumtur është ai

dhe cfarë i kalon nëpër mend
në ato momente.

Ky është im bir, Leo.

Në kërkimin tim për inteligjencë vizuale,

mendoj për Leon vazhdimisht

dhe për botën e së ardhmes 
ku ai do të jetojë.

Kur një makineri do të mund të shohë,

doktorët dhe infermjerët do të kenë
një palë sy të palodhur shtesë

për t'i ndihmuar të përcaktojnë diagnoza
dhe të kujdesen për pacientët.

Makinat do të vozitin në mënyrë 
më inteligjente dhe më të sigurtë

Robotët, jo vetëm njerëzit,

do të na ndihmojnë të deportojmë në zonat
e fatkeqësive, të shpëtojmë të plagosurit

Ne do të zbulojmë specie të reja,
materiale më të mira,

dhe do të eksplorojmë kufij të padukshëm
me ndihmën e kompjuterave

Dalë ngadalë, po i japim kompjuterit
aftësinë për të parë.

Në fillim i mësojmë të shohin.

Më pas, ata na ndihmojnë ne të shohim 
më mirë.

Për herë të parë, sytë njerëzorë, 
nuk do të jenë të vetmit

që do të shohin dhe eksplorojnë botën.

Nuk do t'i përdorim kompjuterat
vetëm për inteligjencën,

por do të bashkëpunojmë me to
në mënyra që as nuk mund t'i imagjinojmë.

Ky është qëllimi im:

t'i japim kompjuterave 
inteligjencë vizuale

dhe të krijojmë një të ardhme më të mirë
për Leon dhe botën.

Faleminderit.

(Duartrokitje)