When I was a boy,
I wanted to maximise
my impact on the world,
and I was smart enough
to realise that I am not very smart.
And that I have to build a machine
that learns to become
much smarter than myself,
such that it can solve all the problems
that I cannot solve myself,
and I can retire.
And my first publication
on that dates back 30 years: 1987.
My diploma thesis,
where I already try to solve
the grand problem of AI,
not only build a machine
that learns a little bit here,
learns a little bit there,
but also learns to improve
the learning algorithm itself.
And the way it learns, the way it learns,
and so on recursively, without any limits
except the limits of logics and physics.
And, I'm still working
on the same old thing,
and I'm still pretty much
saying the same thing,
except that now
more people are listening.
Because the learning algorithms
that we have developed
on the way to this goal,
they are now on 3.000 million smartphones.
And all of you have them in your pockets.
What you see here
are the five most valuable companies
of the Western world:
Apple, Google, Facebook,
Microsoft and Amazon.
And all of them are emphasising
that AI, artificial intelligence,
is central to what they are doing.
And all of them are using heavily
the deep learning methods
that my team has developed
since the early nineties,
in Munich and in Switzerland.
Especially something which is called:
"the long short-term memory".
Has anybody in this room ever heard
of the long short-term memory,
or the LSTM?
Hands up, anybody ever heard of that?
Okay.
Has anybody never heard of the LSTM?
Okay.
I see we have a third group in this room:
[those] who didn't
understand the question.
(Laughter)
The LSTM is a little bit like your brain:
it's an artificial neural network
which also has neurons,
and in your brain, you've got
about 100 billion neurons.
And each of them is connected
to roughly 10,000
other neurons on average,
Which means that you have got
a million billion connections.
And each of these connections
has a "strength"
which says how much
does this neuron over here
influence that one over there
at the next time step.
And in the beginning,
all these connections are random
and the system knows nothing;
but then, through a smart
learning algorithm,
it learns from lots of examples
to translate the incoming data,
such as video through the cameras,
or audio through the microphones,
or pain signals through the pain sensors.
It learns to translate that
into output actions,
because some of these neurons
are output neurons,
that control speech muscles
and finger muscles.
And only through experience,
it can learn to solve
all kinds of interesting problems,
such as driving a car
or do the speech recognition
on your smartphone.
Because whenever you take out
your smartphone,
an Android phone, for example,
and you speak to it, and you say:
"Ok Google, show me
the shortest way to Milano."
Then it understands your speech.
Because there is a LSTM in there
which has learned to understand speech.
Every ten milliseconds,
100 times a second,
new inputs are coming from the microphone,
and then are translated, after thinking,
into letters
which are then questioned
to the search engine.
And it has learned to do that
by listening to lots of speech
from women, from men, all kinds of people.
And that's how, since 2015,
Google speech recognition
is now much better than it used to be.
The basic LSTM cell looks like that:
I don't have the time to explain that,
but at least I can list the names
of the brilliant students in my lab
who made that possible.
And what are the big companies
doing with that?
Well, speech recognition
is only one example;
if you are on Facebook -
is anybody on Facebook?
Are you sometimes clicking
at the translate button?
because somebody sent you something
in a foreign language
and then you can translate it.
Is anybody doing that? Yeah.
Whenever you do that,
you are waking up, again,
a long short term memory, an LSTM,
which has learned to translate
text in one language
into translated text.
And Facebook is doing that
four billion times a day,
so every second 50,000 sentences
are being translated
by an LSTM working for Facebook;
and another 50,000 in the second;
then another 50,000.
And to see how much this thing
is now permitting the modern world,
just note that almost 30 percent
of the awesome computational
power for inference
and all these Google Data Centers,
all these data centers of Google,
all over the world,
is used for LSTM.
Almost 30 percent.
If you have an Amazon Echo,
you can ask a question and it answers you.
And the voice that you hear
it's not a recording;
it's an LSTM network
which has learned from training examples
to sound like a female voice.
If you have an iPhone,
and you're using the quick type,
it's trying to predict
what you want to do next
given all the previous context
of what you did so far.
Again, that's an LSTM
which has learned to do that,
so it's on a billion iPhones.
You are a large audience, by my standards:
but when we started this work,
decades ago, in the early '90s,
only few people were interested in that,
because computers were so slow
and you couldn't do so much with it.
And I remember I gave a talk
at a conference,
and there was just
one single person in the audience,
a young lady.
I said, young lady,
it's very embarrassing,
but apparently today
I'm going to give this talk just to you.
And she said,
"OK, but please hurry:
I am the next speaker!"
(Laughter)
Since then, we have
greatly profited from the fact
that every five years
computers are getting ten times cheaper,
which is an old trend that has held
since 1941 at least.
Since this man, Konrad Zuse,
built the first working
program controlled computer in Berlin
and he could do, roughly,
one operation per second.
One!
And then ten years later,
for the same price,
one could do 100 operations:
30 years later,
1 million operations for the same price;
and today, after 75 years, we can do
a million billion times as much
for the same price.
And the trend is not about to stop,
because the physical limits
are much further out there.
Rather soon, and not
so many years or decades,
we will for the first time
have little computational devices
that can compute as much as a human brain;
and that's a trend that doesn't break.
50 years later, there will be
a little computational device,
for the same price,
that can compute as much as all
10 billion human brains taken together.
and there will not only be one,
of those devices, but many many many.
Everything is going to change.
Already in 2011,
computers were fast enough
such that our deep learning methods
for the first time could achieve
a superhuman pattern-recognition result.
It was the first superhuman result
in the history of computer vision.
And back then, computers were
20 times more expensive than today.
So today, for the same price,
we can do 20 times as much.
And just five years ago,
when computers were 10 times
more expensive than today,
we already could win, for the first time,
medical imaging competitions.
What you see behind me
is a slice through the female breast
and the tissue that you see there
has all kinds of cells;
and normally you need a trained doctor,
a trained histologist
who is able to detect
the dangerous cancer cells,
or pre-cancer cells.
Now, our stupid network
knows nothing about cancer,
knows nothing about vision.
It knows nothing in the beginning:
but we can train it to imitate
the human teacher, the doctor.
And it became as good, or better,
than the best competitors.
And very soon,
all of medical diagnosis
is going to be superhuman.
And it's going to be mandatory,
because it's going to be
so much better than the doctors.
After this, all kinds of medical
imaging startups were founded
focusing just on this,
because it's so important.
We can also use LSTM to train robots.
One important thing I want to say is,
that we not only have systems
that slavishly imitate
what humans show them;
no, we also have AIs
that set themselves their own goals.
And like little babies,
invent their own experiment
to explore the world
and to figure out
what you can do in the world.
Without a teacher.
And becoming more and more general
problem solvers in the process,
by learning new skills
on top of old skills.
And this is going to scale:
we call that "Artificial Curiosity".
Or a recent buzzword is "power plane".
Learning to become a more and more
general problem solvers
by learning to invent, like a scientist,
one new interesting goal after another.
And it's going to scale.
And I think,
in not so many years
from now, for the first time,
we are going to have an animal-like AI -
we don't have that yet.
On the level of a little crow,
which already can learn
to use tools, for example,
or a little monkey.
And once we have that,
it may take just a few decades
to do the final step
towards human level intelligence.
Because technological evolution
is about a million times faster
than biological evolution,
and biological evolution
needed 3.5 billion years
to evolve a monkey from scratch.
But then, it took just a few tens
of millions of years afterwards
to evolve human level intelligence.
We have a company
which is called Nnaisense
like birth in [French], "Naissance",
but spelled in a different way,
which is trying to make this a reality
and build the first
true general-purpose AI.
At the moment, almost all research in AI
is very human centric,
and it's all about making human lives
longer and healthier and easier
and making humans
more addicted to their smartphones.
But in the long run, AIs are going to -
especially the smart ones -
are going to set themselves
their own goals.
And I have no doubt, in my mind,
that they are going to become
much smarter than we are.
And what are they going to do?
Of course they are going to realize
what we have realized a long time ago;
namely, that most of the resources,
in the solar system or in general,
are not in our little biosphere.
They are out there in space.
And so, of course,
they are going to emigrate.
And of course they are going to use
trillions of self-replicating
robot factories
to expand in form of a growing AI bubble
which within a few hundred thousand years
is going to cover the entire galaxy
by senders and receivers
such that AIs can travel
the way they are
already traveling in my lab:
by radio, from sender to receiver.
Wireless.
So what we are witnessing now
is much more than just
another Industrial Revolution.
This is something
that transcends humankind,
and even life itself.
The last time something
so important has happened
was maybe 3.5 billion years ago,
when life was invented.
A new type of life is going to emerge
from our little planet
and it's going to colonize
and transform the entire universe.
The universe is still young:
it's only 13.8 billion years old,
it's going to become much older than that,
many times older than that.
So there's plenty of time
to reach all of it,
or all of the visible parts,
totally within the limits
of light speed and physics.
A new type of life is going
to make the universe intelligent.
Now, of course, we are not going to remain
the crown of creation, of course not.
But there is still beauty
in seeing yourself
as part of a grander process
that leads the cosmos
from low complexity
towards higher complexity.
It's a privilege to live at a time
where we can witness
the beginnings of that
and where we can contribute
something to that.
Thank you for your patience.
(Applause)
Gyerekkoromban
maximalizálni szerettem volna
a világra gyakorolt hatásomat.
Elég okos voltam, hogy rájöjjek:
nemigen vagyok okos,
és gépet kell építenem,
mely megtanulja,
hogyan legyen nálam sokkal okosabb.
Olyat, amely minden problémát
megold, amely nekem nem megy,
így nyugdíjba vonulhatok.
Erről szóló első közleményem
30 éves: 1987-ből való.
Diplomamunkám,
melyben az MI nagy kérdését
próbálom megoldani;
nemcsak gépet építeni,
amely imitt-amott tanul valamit,
hanem maga tanulja meg
a tanuló algoritmusa tökéletesítését is.
Csak tanul és tanul,
visszatérően, korlátozás nélkül,
nem számítva
a logikai és a fizikai korlátokat.
De még mindig ugyanezen
a jó öreg dolgon munkálkodom,
s még mindig ugyanazt mondom,
azzal a különbséggel,
hogy most sokkal többen hallgatnak rám,
mert az e cél érdekében
kifejlesztett tanuló algoritmus ma
hárommilliárd okostelefonban van benne.
A zsebünkben hordjuk.
Itt látható
a Nyugat öt legértékesebb cége:
az Apple, Google, Facebook,
Microsoft és az Amazon.
Mindegyikük hangsúlyozza,
hogy az MI, a mesterséges intelligencia
a tevékenységük középpontjában áll.
Mindegyikük erőteljesen a mély-
tanulási módszereket alkalmazza,
amelyet csoportom a 90-es évek
elején kezdett kifejleszteni
Münchenben és Svájcban.
Különösen az ún. hosszú
rövid távú memóriát.
Önök közül hallott-e valaki
az ún. hosszú rövid távú memóriáról,
azaz az LSTM-ről?
Tegye föl a kezét, aki igen!
Rendben.
És aki sosem?
Rendben. Úgy látom,
a helyiségben lévők harmada
nem értette a kérdést.
(Nevetés)
Az LSTM egy kicsit az agyunkhoz hasonló:
mesterséges neurális hálózat,
amelyben szintén idegsejtek vannak.
Agyunk kb. százmilliárd
idegsejtet tartalmaz.
Mindegyikük átlagosan
kb. tízezer másik idegsejthez kapcsolódik.
Ez azt jelenti, hogy milliószor
milliárdnyi kapcsolatunk van.
Minden kapcsolat erősséggel jellemezhető,
amely jelzi, hogy az adott idegsejt
mennyire befolyásolja a következőt
a további lépés idején.
Kezdetben a kapcsolatok esetlegesek,
és a rendszer tudatlan.
De aztán az okos tanuló
algoritmuson keresztül
sok példából megtanulja a bejövő adatok -
pl. kamerákon bejövő videojelek,
mikrofonból bejövő audiojelek
vagy fájdalom-érzékelőn
keresztüli fájdalomjelek - értelmezését.
Megtanulja, hogyan váltsa át
őket kimenő cselekvéssé,
hiszen bizonyos idegsejtek kimenetiek,
amelyek beszédizomzatot
és ujjizomzatot szabályoznak.
Csak a gyakorlatból képes megtanulni
mindenféle érdekes probléma megoldását,
pl. az autóvezetést
vagy okostelefonunkon a beszédfelismerést.
Mert mikor előkapjuk okostelefonunkat,
pl. Androidos készülékünket,
és belebeszélünk:
"Google, mutasd a Milánóba
vezető legrövidebb utat!",
akkor megérti, amit mondunk.
Mert beszédértésre kiképezett
LSTM van benne.
Minden századmásodpercben,
másodpercenként száz jel érkezik
a mikrofonból,
amelyből aztán értelmezés után
betűk lesznek;
azok jutnak tovább a keresőmotorba.
A készülék megtanulta,
mert rengeteg és mindenféle
női és férfibeszédet hallott.
Ezért 2015-től a Google beszédfelismerője
sokkal jobb a korábbinál.
Az LSTM cellák ilyenek.
Elmagyarázni nincs időm,
de itt legalább fölsorolom
a megvalósításban jeleskedő, laboromban
dolgozó kiváló diákjaim nevét.
De mit kezdenek ezzel a nagy cégek?
A beszédfelismerés csak egy példa.
Facebookozik itt valaki?
Néha rákattintanak a Fordítás gombra,
ha valakitől idegen nyelvű
üzenetet kapnak?
Akkor lefordíttathatják.
Valaki szokta használni? Igen.
Mikor ezt teszik,
megint csak a hosszú rövid távú
memóriát, az LSTM-et használják,
amely megtanulta,
hogyan fordítson szöveget
forrásnyelvről célnyelvre.
A Facebook napjában
négymilliárdszor végzi ezt el,
másodpercenként
50 000 mondatot fordít
az LSTM segítségével.
Majd ugyanennyit a következő
másodpercben, és így tovább.
Hogy lássák, mai világunkban
ez az eszköz mire képes,
vegyék figyelembe,
hogy a félelmetes számítógépi
teljesítmény majd 30%-át
a Google adatközpontjaiban
az egész világon
az LSTM veszi igénybe.
Majdnem 30%!
Akinek Amazon Echója van,
kérdezheti, az pedig felel neki.
A hallott hang nem felvétel,
hanem LSTM-hálózat,
amely a kiképzési példák alapján
megtanulta a női hangon beszélést.
Akinek gyors fajtájú iPhone-ja van,
az megpróbálja kitalálni
a következő kívánságát
az eddigi tetteire támaszkodva.
Ez megint csak LSTM,
amely ezt elsajátította.
Milliárdnyi iPhone-on rajta van.
Fogalmaim szerint önök népes közönség,
de mikor évtizedekkel ezelőtt,
a 90-es években e munkába fogtunk,
csupán keveseket érdekelt ez,
mert a számítógépek lomhák voltak,
és nem sokra mentünk velük.
Emlékszem, mikor előadást tartottam
az egyik tanácskozáson,
csak egyvalaki volt a teremben:
egy ifjú hölgy.
Azt mondtam neki:
"Hölgyem, ez igen kínos, de úgy látszik,
hogy ma csak önnek adok elő."
Ezt válaszolta:
"Rendben, de siessen, mert én vagyok
a következő előadó."
(Nevetés)
Azóta élvezzük annak előnyét,
hogy ötévente tizedére csökken
a számítógépek ára.
Ez a régi irányzat
legalább 1941 óta tart.
Azóta, hogy Konrad Zuse Berlinben
az első programvezérlésű
működő számítógépet megépítette,
és a gép másodpercenként
durván egy műveletre volt képes.
Egyre!
Tíz év múlva azonos árért
már 100 műveletre.
30 év múlva azonos árért
egymillió műveletre.
Ma, 75 év múltán azonos árért
egybilliárd műveletre képes.
A tendencia folytatódik,
mert a fizikai korlát még messze van.
Elég hamar, nem sok év vagy évtized múlva
először lesz kis berendezésünk,
amely annyi számításra lesz képes,
mint az emberi agy,
és a tendencia nem törik meg.
50 év múlva azonos árért
kis számítógépünk lesz,
amely annyi számításra lesz képes,
mint tízmilliárd emberi agy együttvéve.
Ilyenből nem egy, hanem rengeteg lesz.
Minden meg fog változni.
Már 2011-ben a számítógépek
elég gyorsak voltak ahhoz,
hogy mélytanulási módszereink
először érjenek el emberfeletti
mintafelismerő eredményeket.
Ez volt a számítógépes látás terén
az első emberfeletti eredmény.
A számítógépek akkor még
hússzor drágábbak voltak, mint ma.
Úgyhogy azonos árért ma
hússzor annyit elvégezhetünk.
Csak öt éve,
mikor a gépek még
tízszer annyiba kerültek, mint ma,
először nyerhettünk meg
orvosi képalkotási versenyeket.
Mögöttem egy női emlő metszetét látják,
és az ott látható szövetben
mindenféle sejtek vannak:
szokásosan képzett orvosra,
képzett szövettanászra van szükség
a veszélyes rákos sejtek
vagy kialakuló rákos sejtek
fölismeréséhez.
Buta hálózatunk
egyáltalán nem ért a rákhoz
vagy a képalkotáshoz.
Eleinte semmit sem ért,
de megtanítható az orvos utánzására.
Jó, sőt jobb lett,
mint legkiválóbb versenytársai.
Nemsokára minden orvosi diagnózis
emberfeletti lesz.
Kötelező lesz,
mert sokkal jobb lesz, mint az orvosok.
Az ezután létrejött
orvosi képalkotó startup cégek
csakis ezzel foglalkoznak,
mert ez olyannyira fontos.
Az LSTM-et robotok
betanítására is használhatjuk.
Fontos fölhívnom a figyelmüket,
hogy rendszereink
nemcsak szolgaian utánozzák,
amit az ember mutat nekik,
hanem MI-k is vannak, amelyek önálló
célokat tűznek ki maguknak.
Mint kisbabák, kísérleteket módolnak ki
a világ fölfedezésére, és hogy rájöjjenek,
mihez kezdjenek magukkal a világban.
Tanár nélkül.
A folyamat során egyre átfogóbb
problémamegoldókká válnak,
ahogy tanulással
régi készségeikre ráépülnek az újak.
Ez ún. "mesterséges kíváncsiság"-gá
bővül idővel.
Az utóbbi idők felkapott kifejezése
az ún. hatalmi sík.
Az általános problémamegoldás
megtanulása kutató módjára,
a felfedezés megtanulása révén:
újabb és újabb érdekes célok kitűzésével.
Egyre terjeszkedni fog.
Szerintem nincs már messze az idő,
még pár év,
és állatszerű MI-nk lesz;
de még nem áll rendelkezésre.
Eszközhasználat megtanulására
már képes varjúcska
vagy majmocska színvonalán.
S ha egyszer az meglesz,
tán csak még pár évtized,
hogy megtegyük az utolsó lépést
az emberi intelligencia felé.
Mert a műszaki fejlődés
a biológiainál milliószor gyorsabb.
A biológiai fejlődésnek
3,5 milliárd évébe tellett,
hogy a semmiből hozzon létre majmot.
Ám utána már elég volt pár évmillió
az emberi intelligencia megteremtésére.
Nnaisense nevű cégünk a nevét
a francia születés szóról kapta,
de nem franciásan írjuk.
A cég ezt szeretné valóra váltani,
létrehozva az első igazi,
minden célra alkalmazható MI-t.
Jelenleg majdnem minden
MI-kutatás emberközpontú,
céljuk az emberi élet meghosszabbítása,
megkönnyítése, egészségesebbé tétele,
továbbá hogy még függőbbekké
váljanak az okostelefonjaiktól.
Ám hosszabb távon az MI-k,
kiváltképp az okos MI-k,
saját célokat fognak kitűzni.
Nincs kétségem afelől,
hogy nálunk sokkal okosabbak lesznek.
Hogy mit fognak tenni?
Nyilván ők is rájönnek,
amire mi már rég rájöttünk:
nevezetesen, hogy a naprendszerben lévő
vagy az általában vett tartalékaink zöme
nem a csöpp bioszféránkban van.
Hanem az űrben.
Ezért persze ki fognak vándorolni.
Ahhoz billiószámra használnak majd
önmásoló robotokat gyártó üzemeket
növekvő MI-buborék formában
való terjeszkedésre,
amelyek pár százezer év alatt
az egész Tejútrendszert betöltik
adókkal és vevőkkel,
ahogy az MI-k közlekednek
már a laboromban is:
adó és vevő között rádió útján.
Vezeték nélkül.
Nem csak újabb ipari forradalom
tanúi vagyunk.
Sokkal többről van szó.
Ez fölülmúlja az emberiséget,
sőt, még magát az életet is.
Ilyen fontosságú esemény
utoljára tán csak 3,5 milliárd éve,
az élet kialakulásakor történt.
Az élet új fajtája keletkezik
csöpp bolygónkon,
és gyarmatosítja s átalakítja
az egész világmindenséget.
A világmindenség még ifjú:
csupán 13,8 milliárd éves.
Lesz még sokkal-sokkal idősebb is.
Rengeteg időnk van
ezek vagy látható részei elérésére
fénysebesség és a fizika korlátai között.
Újfajta élettől válik
intelligenssé a világmindenség.
Nem leszünk a teremtés koronája többé.
De létezik még a szépség,
amelynek fényében a világűrbe,
az alacsony bonyolultságból a magasabba
vezető nagyobb folyamat részeként
tekinthetünk magunkra
Megtiszteltetés oly korban élni,
melyben e kezdeteknek tanúi lehetünk,
és amelyben valamivel
ehhez hozzájárulhatunk.
Köszönöm a figyelmet.
(Taps)
Quando ero un ragazzo,
volevo massimizzare
il mio impatto sul mondo,
ed ero abbastanza sveglio da capire
che non ero proprio molto intelligente.
E che dovevo costruire una macchina
che imparasse a diventare
molto più intelligente di me,
in modo da risolvere tutti i problemi
che non ero capace di risolvere da solo,
e lasciarmi ritirare.
La mia prima pubblicazione
su questo è di 30 anni fa: 1987.
Era la mia tesi di diploma,
dove già allora cercavo di risolvere
il grande problema della AI:
non solo costruire una macchina
che impara un po' qui e là,
ma anche che impara a migliorare
l'algoritmo stesso di apprendimento.
E il modo in cui impara
è ricorsivo, senza alcun limite,
con l'eccezione dei limiti
della logica e della fisica.
Sto ancora lavorando
su questo stesso problema,
e sto ancora dicendo la stessa cosa,
eccetto che ora
molte più persone mi ascoltano.
Perché gli algoritmi di apprendimento
che abbiamo sviluppato
per questo obiettivo,
ora girano su tre miliardi di smartphone.
E ciascuno di voi ne ha uno in tasca.
Quello che vedete qui
sono le cinque società più valutate
nel mondo occidentale:
Apple, Google, Facebook,
Microsoft e Amazon.
E tutte enfatizzano
che la AI, l'intelligenza artificiale,
è cruciale in quello che fanno.
Tutte loro stanno adoperando
i metodi del deep learning,
che il mio team ha sviluppato
sin dai primi anni '90,
a Monaco ed in Svizzera.
Specialmente una cosa chiamata
"reti neuronali ricorrenti".
Qualcuno in questa aula aveva mai sentito
delle reti neuronali ricorrenti,
o LSTM?
Qualcuno ne ha mai sentito parlare?
OK.
Chi non ne ha mai sentito parlare?
OK.
Ho notato un terzo gruppo, in questa sala:
(Risate)
[quelli] che non comprendono la domanda.
(Risate)
La LSTM assomiglia un po'
al vostro cervello:
è una rete neurale artificiale
che ha anche neuroni:
nel cervello ci sono
circa 100 miliardi di neuroni.
E ciascuno è collegato, in media,
a circa altri 10.000 neuroni.
Ciò significa che ci sono
un milione di miliardi di connessioni.
E a ciascuna di queste connessioni
è associata una forza
che indica quanto quel neurone specifico
influisce su questi altri
qui al prossimo passo.
Ed all'inizio,
tutte queste connessioni sono casuali
e il sistema non sa nulla;
ma poi, attraverso un algoritmo
intelligente di apprendimento,
esso impara da molti esempi
a tradurre i dati in ingresso,
come i video dalla cinepresa,
o gli audio tramite i microfoni,
o il dolore tramite i sensori del dolore.
Impara a tradurli in azioni in uscita,
perché alcuni di quei neuroni
sono di output,
che controllano i muscoli per parlare
e per muovere le dita.
E solo tramite l'esperienza
può imparare a risolvere
tutti i tipi di problemi rilevanti,
come guidare un'auto
o riconoscere il linguaggio
sul vostro smartphone.
Poiché ovunque prendiate
il vostro smartphone,
un Android, per esempio,
e ci parlate, e dite:
"OK, Google, mostrami
la via più veloce per Milano:"
E il dispositivo comprende
il vostro discorso.
Perché dentro c'è una LSTM che ha imparato
a comprendere il linguaggio.
Ogni dieci millisecondi,
100 volte al secondo,
nuovi input arrivano dal microfono,
e quindi sono tradotti,
dopo averci pensato,
in lettere
che sono poi sottoposte
al motore di ricerca.
L'LSTM ha imparato a fare tutto ciò
ascoltando molti discorsi di donne,
uomini, gente molto diversa.
E questo spiega come, rispetto al 2015,
il riconoscimento vocale di Google
sia molto migliorato.
Il componente base del LSTM
ha questo aspetto:
non ho il tempo per spiegarvelo,
ma almeno elenco i nomi
dei brillanti studenti del mio laboratorio
che lo hanno reso possibile.
E cosa ci fanno con questo
le grandi aziende?
Bene, il riconoscimento vocale
è solo un esempio;
se siete su Facebook -
qualcuno è su Facebook?
Qualche volta selezionate
il bottone, per la traduzione?
Perché qualcuno vi manda qualcosa
in una lingua straniera
ed allora potete tradurla.
C'è qualcuno che lo fa? Sì!
Ogni volta che lo fate,
state attivando, di nuovo,
una LSTM,
che ha imparato a tradurre
il testo in una lingua
in testo tradotto in un'altra.
Facebook lo fa quattro miliardi
di volte al giorno,
così ogni secondo 50.000 frasi
vengono tradotte
da una LSTM che opera per Facebook;
e altre 50.000 il secondo dopo;
e poi altre 50.000.
Per capire ciò che tutto questo
permette al mondo moderno,
considerate solo che quasi il 30 percento
dell'eccezionale potenza di calcolo
necessaria per l'inferenza
e tutti quei Google Data Centers,
tutti quei centri di calcolo di Google,
in tutto il mondo,
sono utilizzati per la LSTM.
Quasi il 30 percento.
Se si ha Amazon Echo,
si può porre una domanda
e ricevere una risposta.
E la voce che si sente
non è registrata;
è una rete di LSTM
che è stata addestrata con molti esempi
a sembrare una voce femminile.
Se si ha un iPhone, usando il quick type,
cerca di predire cosa state per scrivere,
sulla base del precedente contesto
di quanto fatto finora.
Di nuovo, c'è una LSTM
che ha imparato a farlo,
ed è su un miliardo di iPhone.
Voi siete un ampio uditorio,
in base ai miei standard:
ma quando cominciammo questo lavoro,
decenni fa, all'inizio degli anni '90,
solo pochi erano interessati all'argomento;
i computer erano lentissimi,
e non si poteva fare molto.
Ricordo che tenni un discorso
ad un convegno,
e c'era solo una persona nel pubblico,
una giovane signora.
Dissi, giovane signora,
è molto imbarazzante,
ma sembra che oggi terrò
questo discorso solo per lei.
E lei rispose,
"OK, ma si sbrighi:
io sono la prossima relatrice!"
(Risate)
Da allora, abbiamo approfittato del fatto
che ogni cinque anni i computer
diventano dieci volte meno cari,
che è un andamento che è iniziato
dal 1941, almeno.
Da quando quest'uomo, Konrad Zuse,
costruì a Berlino
il primo computer programmabile
che poteva fare, all'incirca,
una operazione al secondo.
Una!
Dieci anni dopo, per lo stesso prezzo,
si potevano fare 100 operazioni;
30 anni dopo,
1 milione di operazioni
per lo stesso prezzo;
ed oggi, dopo 75 anni, si possono fare
un milione di miliardi di volte di più
per lo stesso prezzo.
E il trend non accenna a fermarsi,
perché i limiti fisici
sono molto di là da venire.
Abbastanza presto,
e non tra molti anni o decadi,
avremo per la prima volta
dispositivi di calcolo maneggevoli
con la potenza di calcolo
del cervello umano;
e questo trend non accenna a fermarsi.
50 anni dopo, avremo
un piccolo dispositivo di calcolo,
per lo stesso prezzo,
con la stessa potenza di calcolo
di 10 miliardi di cervelli umani.
E non ve ne sarà solo uno,
di dispositivo, ma moltissimi.
E questo cambierà tutto.
Già nel 2011, i computer
erano abbastanza veloci
da permettere ai nostri
metodi di deep learning
di ottnere, per la prima volta,
un risultato sovrumano
nel riconoscimento degli schemi.
Era il primo risultato sovrumano
nella storia della visione macchina.
E allora, i computer erano
20 volte più cari di oggi.
Quindi oggi, per lo stesso prezzo,
possiamo fare 20 volte di più.
E solo cinque anni fa,
quando i computer erano 10 volte
più costosi di oggi,
potevamo già vincere,
per la prima volta, il confronto
sul riconoscimento
di immagini mediche.
Potete vedere dietro di me
una sezione di seno
ed il tessuto che vedete là
ha tutti i tipi di cellule;
e normalmente si ha bisogno
di un medico istologo ben formato
che sia in grado di individuare
le pericolose cellule cancerogene,
o le cellule pre-cancerose.
La nostra stupida rete
non sa nulla sul cancro,
non sa nulla sulla visione -
non sa nulla di nulla, all'inizio:
ma possiamo addestrarla
per imitare il medico umano.
E diventa brava, o migliore,
dei migliori concorrenti.
E molto a breve,
tutte le diagnosi mediche
saranno svolte da intelligenze superumane.
Diventerà obbligatorio,
perché stanno diventando
molto migliori dei medici.
Dopo, si formerà ogni tipo di start-up
per il riconoscimento di immagini mediche
concentrate solo su questo,
poiché è importantissimo.
Potremmo anche utilizzare le LTSM
per addestrare robot.
Una cosa importante che vorrei dirvi è,
che non solo avremo sistemi
che imitano pedissequamente
ciò che gli umani mostrano loro;
no, avremo AI che stabiliranno
i loro propri obiettivi.
E come per i bambini piccoli,
inventeranno i loro propri esperimenti
per esplorare il mondo
e capire come agire nel mondo.
Senza un insegnante.
E diventando sempre più in grado
di risolvere problemi più generali,
imparando nuove abilità
che si aggiungono alle precedenti.
Questo sarà un salto di livello:
si chiamerà "Curiosità Artificiale".
Un termine gergale è "piano d'attacco".
Imparando a risolvere
problemi sempre più generali,
e ad elaborare, come uno scienziato,
un obiettivo significativo dopo l'altro.
E ci sarà un salto di livello.
Credo che tra non molti anni,
per la prima volta,
avremo una AI simile ad un animale -
non c'è ancora, oggi.
Al livello di un piccolo corvo,
cui già possiamo insegnare
a usare attrezzi, per esempio;
o a una scimmietta.
E una volta che la avremo,
potranno volerci appena alcune decadi,
per fare il passo finale
verso il livello della intelligenza umana.
Poiché l'evoluzione tecnologica
è circa un milione di volte più veloce
della evoluzione biologica,
e l'evoluzione biologica ha richiesto
3,5 miliardi di anni
per far evolvere una scimmia dal nulla.
Ma poi, ci sono volute solo
poche decine di milioni di anni
per evolvere al livello
dell'intelligenza umana.
Abbiamo una azienda
che si chiama Nnaisense
come nascita in [Francese] "Naissance",
ma scritto diversamente,
che sta cercando di farlo diventare realtà
e costruire la prima AI
veramente valida per ogni uso.
Per ora, quasi tutte le ricerche sulla AI
sono molto concentrate sull'uomo,
e l'obiettivo è di rendere la vita umana
più lunga, più sana ed agevole
e avere gli uomini più dipendenti
dai loro smartphone.
Ma sul lungo termine, le AI tenderanno,
specialmente le più intelligenti -
a porsi obiettivi propri.
Non ho dubbi, personalmente,
che diventeranno
molto più intelligenti di noi.
E cosa potremmo fare?
Certamente capiranno quello che noi
abbiamo capito molto tempo fa;
che la maggior parte delle risorse,
nel sistema solare o in generale,
non sono nella nostra piccola biosfera.
Sono là fuori, nello spazio.
E quindi, ovviamente, emigreranno.
E ovviamente utilizzeranno
migliaia di miliardi di fabbiche
di robot auto-replicanti
per espandersi
in una bolla crescente di AI
che entro poche centinaia
di migliaia di anni
tenderà a coprire l'intera galassia
tramite emettitori e ricevitori
permettendo loro di viaggiare
nel modo in cui già viaggiano
nel mio laboratorio:
via radio, dal trasmettitore
al ricevitore.
Senza fili.
Quello che stiamo
osservando ora, pertanto,
è molto di più dell'ennesima
Rivoluzione Industriale.
Questo è un qualcosa
che trascende il genere umano,
ed anche la vita stessa.
L'ultima volta che accadde
qualcosa di così importante
fu forse 3,5 miliardi di anni fa,
quando emerse la vita.
Un nuovo tipo di vita sta emergendo
dal nostro piccolo pianeta
e sta per colonizzare e trasformare
l'intero universo.
L'universo è ancora giovane:
ha solo 13,8 miliardi di anni,
diventerà molto più vecchio di così,
molte volte più vecchio.
C'è quindi tutto il tempo
di espandersi nell'universo;
o in tutte le sue parti visibili,
e questo senza violare i limiti
della velocità della luce e della fisica.
Un nuovo tipo di vita sta per rendere
l'universo intelligente.
Noi, ovviamente,
non rimarremo i re del creato.
Ma è affascinante, anche,
guardarci come parte
di un più grande processo
che guida il cosmo
da una bassa complessità
verso una maggiore complessità.
Ѐ un privilegio vivere in un momento
in cui possiamo vedere
l'inizio di questo processo
e possiamo contribuirvi in qualche modo.
Grazie della vostra pazienza.
(Applausi)
저는 어렸을 때
세상에 제 역량을
최대한 발휘하고 싶었습니다.
제가 매우 똑똑하지 않다는 정도는
잘 알고 있었습니다.
그래서 학습을 통해서 저보다 훨씬
더 똑똑해질 기계를 만들어야 했는데
그래야 제가 해결 못하는 모든 문제를
로봇이 대신 해줄 수 있고
그러면 저는 쉬러 갈 수 있겠죠.
그리하여 저의 첫 출판은 1987년
즉, 30년 전으로 거슬러 올라갑니다.
저의 학위 논문에서
인공지능에 대한 큰 문제를
해결하는 내용을 다루었는데
여기 저기서 조금씩 학습해 나가는
로봇을 만드는 것 뿐 아니라
스스로 학습 알고리즘을 향상시키도록
학습하는 내용이었습니다.
그렇게 로봇이 계속 학습을 해 나가고
어떠한 한계도 없이 꾸준하게
나아가게 됩니다.
단 논리학과 물리학의 한계는
예외로 두고 말이죠.
그리고 저는 지금도 여전히
같은 일을 하고 있습니다.
또한 같은 내용을
계속해서 말하고 있죠.
단지 오늘날엔 더 많은 사람들이
제 예기를 들어 주고 있지요.
그 이유는
이 목표를 이뤄나가면서
발전시켜 온 학습 알고리즘이
30억 개 정도의 스마트폰에
들어있기 때문이죠.
여러분 모두 주머니에 갖고 계시겠죠.
여러분이 보는 것은
서반구에서 가장 훌륭한 회사 다섯 개
즉 애플, 구글, 페이스북,
마이크로소프트, 아마존입니다.
이들 모두가 강조하는 것은
AI, 인공지능이
그들이 하는 일의 핵심이라는 점입니다.
이 회사들은 딥 러닝 방식에
매우 의존하고 있는데
이는 저희 팀이 90년대 초부터
스위스 뮌헨에서 개발해 온 기술입니다.
특히 장기 단기 기억이라
불리는 것을 연구했는데요.
혹시 이 장기 단기 기억에 대해
들어보신 분 계시나요?
아니면 LSTM을 들어보신 분은?
들어 보신 분 손 한번 들어보시겠어요?
알겠습니다.
한 번도 들어본 적 없으신 분은요?
알겠습니다.
이곳에 제3 그룹이 있는 거 같군요.
(웃음)
제 질문을 이해하지 못하신 분들이요.
(웃음)
LSTM은 여러분의 두뇌를
살짝 닮았습니다.
인공 신경망인데
역시 뉴런을 갖고 있지요.
여러분의 두뇌에는
약 천억 개의 뉴런이 있습니다.
그들은 제 각각
평균적으로 대략 만 개 가까이
다른 뉴런들과 연결되어 있습니다.
즉, 여러분에게 셀 수 없이 많은
연결이 있다는 것입니다.
각 연결은 강도가 있습니다.
다시 말해, 이쪽에 있는 뉴런이
다음 단계에서 다른 쪽에 있는 뉴런에
얼마나 영향을 미치는지를 뜻합니다.
처음에는
이 모든 연결은 무작위이고
그 곳에 체계가 존재하지 않지만
스마트 러닝 알고리즘을 통해서
들어오는 정보를 전환하기 위해
많은 예시들로 학습을 합니다.
카메라를 통한 영상,
또는 마이크를 통한 음향,
통증 센서를 통한 통증 신호가
그러한 정보의 예입니다.
이 지점은 정보 입력을 동작 출력으로
전환하는 것을 학습하는데
이 뉴런들 중 일부가 출력을 담당해서
말하기에 필요한 근육이나 손가락 등을
통제할 수 있기 때문이죠.
그리고 오직 경험을 통해서
모든 유형의 흥미로운 문제를
해결하는 것을 학습할 수 있습니다.
자동차 운전이나,
스마트폰의 음성 인식 같은 것이
그 예입니다.
여러분이 스마트폰을 꺼낼 때마다
예를 들어 안드로이드 폰이라 가정하고
여러분은 그 폰에 이렇게 말하는 거죠.
"OK, 구글, 밀라노로 가는
가장 빠른 방법을 알려줘."
그러면 스마트폰이 이를 알아 듣습니다.
음성을 이해하도록 설계된 LSTM이
그 안에 들어 있기 때문이죠.
백분의 1초 마다,
즉, 1초에 백 번씩
새로운 정보가 마이크를 통해 들어오고
정보 처리가 이루어진 후
문자로 전환되어서
검색 엔진으로 질문이 넘어가게 됩니다.
이런 정보 처리 학습은
남녀 포함 많은 사람들의 다양한 음성을
경험하면서 이루어집니다.
그리하여 2015년 이래로 이를 통해
구글 음성 인식 기능은 예전보다
월등히 향상하게 됩니다.
기본적인 LSTM 셀은 이렇습니다.
저걸 설명할 시간은 없지만
적어도 이름들은 보여드릴 수 있겠죠.
실험실에서 저것을 만드는데 기여한
총명한 학생들입니다.
저것을 쓰고 있는 큰 회사들은
어떤 곳이 있을까요?
그런데 음성 인식은
단지 하나의 예일 뿐 입니다.
여러분이 페이스북을 사용한다면,
혹시 폐이스북 사용자 계시나요?
좋습니다.
혹시 번역 단추를 가끔 누르시나요?
누가 여러분에게 뭔가를
외국어로 보냈다면
그 내용을 번역시킬 수 있습니다.
혹시 사용하시는 분?
그걸 사용할 때 마다
여러분은 LSTM을 사용하는 것이며
이는 한 언어로 된 문장을
번역하는 것을 학습한 것입니다.
그리고 페이스북은 번역을
하루에 40억 번을 하고 있는데
1초에 5만 문장이
번역되는 것이며
이렇게 LSTM이 페이스북에서
사용되는 것이죠.
다시 5만 문장,
그리고 다음 5만 문장.
현재 우리 삶에서 이 기술이
얼마나 많이 활용되고 있는지 보려면
추론을 위한 어마어마한 컴퓨팅 용량의
거의 30%와
이 모든 구글 데이터 센터들,
전 세계 곳곳에 있는 센터들이
LSTM을 위해 사용된다는 점을
보면 됩니다.
거의 30%가 말이죠.
만약 아마존 에코를 갖고 계시다면
질문하고 답변을
들을 수 있을 것입니다.
여러분이 듣는 그 목소리는
녹음된 것이 아니며
LSTM 망이라고 보시면 됩니다.
교육용 예문들로 학습해서
여성 목소리를 만들어 내는 것이죠.
혹시 아이폰을 사용하신다면
퀵 타입을 사용하고 계신 겁니다.
이는 여러분이 앞으로
무엇을 하고 싶어할 지를 예측하는데
지금까지 여러분이 사용했던 모든 내용을
바탕으로 이루어집니다.
이 또한 그것을 수행할 수 있도록
학습을 거친 LSTM의 한 예입니다.
10억 개의 아이폰에서 말이죠.
제 기준에서 보면
아주 많은 분이 오셨습니다.
수십 년 전 이 일에 착수했을 때는,
90년대 초반이라 볼 수 있는데
정말 극소수만이
이 분야에 관심을 가졌습니다.
그 땐 컴퓨터가 너무 느려서
많은 것을 다룰 수가 없었죠.
제가 어떤 회의에서
강연을 했을 때가 기억납니다.
청중이 단 한 사람 있었는데
젊은 여성분이셨죠.
그 분한테 전 너무 당혹스럽다고 했죠.
그래도 오늘 분명히 당신에게
이 이야기를 전할 거라면서요.
그런데 그 분이 말씀하시길
"좋아요, 부탁인데 서둘러 주세요.
왜냐하면 제가 다음 강연을 하거든요."
(웃음)
그 후, 우리는 엄청난 혜택을
볼 수 있었습니다.
5년마다 컴퓨터 가격이
1/10로 저렴해진다는 점에서요.
이 점은 적어도 1941년 이래 굳어진
오래된 추세이죠.
이 분, 콘라드 쥬스씨는
베를린에서 프로그램 통제 컴퓨터를
최초로 만들었는데
거의 1초에 작업 하나를
다룰 수 있는 수준이었습니다.
고작 하나 뿐이였죠!
10년이 지나서, 같은 가격에
1초에 100번 작동하는 것이
가능해졌습니다.
30년 후,
같은 가격에 백만 번 작동이 가능해졌고
오늘날, 75년이 지나서 우리는
같은 가격에 천문학적인
효율성을 가질 수 있게 되었습니다.
이 추세는 멈추지 않을 것입니다.
왜냐하면 물리적 한계는
아직 저 멀리 있기 때문이죠.
오히려 수십 년도 안되서
우리는 매우 작은 컴퓨터 장치를
최초로 갖게 될 것으로 보이는데
이는 인간의 뇌만큼
계산을 할 수 있을 것입니다.
그리고 그러한 추세는
멈추지 않을 것입니다.
50년 후, 아주 작은
컴퓨터 장치가 나올 텐데
현재의 비용으로
100억에 이를 인류의 뇌를 합친 만큼
연산할 수 있게 될 것입니다.
게다가 이 장치는 하나가 아니라
셀 수 없이 많이 존재할 것입니다.
모든 게 바뀌는 거죠.
이미 2011년에 컴퓨터는 매우 빨라져서
저희 딥 러닝 방식은
최초로 인간을 초월한 패턴 인식 결과를
이룰 수 있었습니다.
이는 컴퓨터 시각 인식 역사상
최초로 인간을 능가한 결과물이었습니다.
그 당시 컴퓨터는 오늘날 보다
20배 더 비쌌습니다.
그리고 오늘날 같은 비용으로
이제는 20배가 더 빨라졌습니다.
그리고 불과 5년 전
컴퓨터가 오늘날 보다 10배 비쌌을 때
우리는 의료 영상 대회에서
최초로 승리하였습니다.
여러분이 보시는 것은
여성 유방 표본인데
이 조직에는 온갖 종류의 세포가
들어 있습니다.
대개 여러분은 숙련된
의사나 조직학자가 필요한데
위험한 암세포를 찾아내기 위해서죠.
전암세포도 말이죠.
학습을 거치기 전의 우리 네트워크는
암에 대해 아무것도 모르고
시각 인식에 대해서도 모릅니다.
처음에는 아무것도 모르죠.
하지만 그것이 인간 교사 즉, 의사를
모방하도록 훈련시킬 수 있습니다.
그리고 가장 뛰어난 경쟁자 이상으로
훌륭한 성능을 갖게 되었죠.
그리고 아주 가까운 시일 내에
모든 의료 진단은 인간의 능력을
뛰어넘을 것입니다.
이는 일어날 수밖에 없는데
AI가 의사들보다 능력이
훨씬 더 뛰어날 것이기 때문이죠.
이 대회를 기점으로 수 많은
의료 영상 스타트업이 생겨났는데
이 기술이 매우 중요하기 때문에
그 기술에 몰두하고 있습니다.
LSTM으로 로봇을
훈련시킬 수도 있습니다.
제가 말씀드리고 싶은 중요한 사실은
우리가 보유하고 있는 시스템이
인간이 보여주는 것을
단순히 맹종하는 것뿐 아니라
스스로 목표를 정할 수 있는
인공지능 기술도 있다는 것입니다.
어린 아이처럼 스스로 실험을 고안하여
세상을 탐험하고
무엇을 할 수 있는 지를
알아낼 수 도 있습니다.
가르쳐주는 사람도 없이 말이죠.
그 과정에서 점점 더 일반적인 문제를
해결해 나가게 되는데
지난 기술을 바탕으로 새로운 기술을
학습함으로써 가능해지는 것이죠.
이는 규모가 늘어날 것이며
이를 '인공적 호기심'이라 부릅니다.
최근 유행어로 '파워 플레인'이라
부르기도 합니다.
점점 더 많은 일반적인 문제를
해결하도록 학습을 해나가는데
과학자처럼 계속해서 흥미로운 목표를
만들어 나감으로써 가능해지는 것입니다.
이 또한 계속 발전할 것이며
제 생각에
머지 않아 수 년안에 최초로
동물같은 AI를 보게 될 것입니다.
아직은 없지만 말이죠.
까마귀 수준을 예상할 수 있는데
예를 들어 이미 도구 사용법을
익힐 수 있습니다.
원숭이 수준일 수도 있겠네요.
일단 그런 게 하나 실현되면
수십 년 이내에
마침내 인간 수준의 지능에
도달하게 될 것입니다.
왜냐하면 기술의 진보는
생물학적 진화보다 백만 배 정도 빠르며
생물학적 진화는 35억 년만에
무에서 원숭이로 진화했기 때문입니다.
그러나 그 후, 수천만 년 정도가 지나자
인간 수준의 지능이 탄생하였습니다.
네이센스라는 회사가 있는데
철자는 다르지만 프랑스어의
'Naissance' 처럼 기원을 의미합니다.
이러한 이야기를 현실로 이루려는
노력을 하고 있으며
최초로 실제 일반적 용도의 AI를
만들기도 했습니다.
지금 거의 모든 AI에 관한 연구는
지극히 인간 중심으로 이루어지고 있으며
이는 인간의 삶을 연장하고 더 건강하며
편리하게 만드는 것과 관련있습니다.
또한 인간을 스마트폰에
더 의존하도록 만들기도 하지요.
그러나 장기적으로 AI는,
특히 똑똑한 AI들은
스스로의 목표를 설정하게 될 것입니다.
그리고 저는 당연히
기계가 우리보다
더 똑똑해질 거라고 생각합니다.
그렇다면 이러한 AI들이
무엇을 하게 될까요?
물론 우리가 오래 전에 깨달았던 것을
다시 깨달을 수 있을 것입니다.
말하자면 태양계 또는 일반적 관점에서
대부분의 자원들은
우리들의 작은 생물권
안에 있지 않다는 점을요.
그것들은 저 바깥, 우주에 있습니다.
그리고 물론 그들은 나갈 것입니다.
그들은 물론
수조 개의 자가 복제
로봇 공장을 사용하여.
AI 거품이 커져가는 형식으로
증가할 것입니다.
그리고 이는 몇십만 년 이내에
은하계 전체를 뒤덮을 것 입니다.
송수신기를 통해서 말이죠.
이를테면 AI가
저의 연구실에서 이미 하듯이
어딘가로 이동할 수 있다는 말입니다.
이는 송수신기와 전파를 이용해서요.
무선 연결 상태로 말이죠.
그래서 우리가 현재 보고 있는 것은
단순히 또 하나의 산업 혁명
그보다 훨씬 이상의 것입니다.
이는 인류를 초월하는 그 무엇입니다.
심지어는 생명 그 자체를
초월하는 것입니다.
바로 전에 이 정도로 중요한
무언가가 일어난 시점은
35억년 전이고
그 때 생명이 기원했습니다.
그리고 새로운 유형의 생명체가
이 작은 행성에 출현할 것입니다.
이것이 우주 전체를 지배하고
바꿀 것입니다.
우주는 아직 어립니다.
고작 138억 년 밖에 안됐죠.
우주는 이보다 오래 존재할 것입니다.
훨씬 더 오랫동안 말이죠.
그래서 이 모든 것, 또는
눈에 보이는 모든 곳에 도달하기까지
엄청난 시간이 존재합니다.
전반적으로 광속과
물리학의 한계 내에서 말이죠.
새로운 유형의 생명체는
우주가 지능을 갖추도록 만들 것입니다.
물론 우리는 만물의 영장으로
남지 못할 것입니다.
그러나 여전히 좋은 점이 있습니다.
여러분이 웅장한 과정의
일부분 이라는 것입니다.
이 과정은 우주를 이끌어
단순한 단계에서
더욱 고등한 단계로 만듭니다.
이 시기에 사는 것은 특권입니다.
그 시작을 지켜볼 수 있는
어떤 시기에 사는 것입니다.
그리고 우리가 그 과정에 무언가
기여할 수 있는 시기에 사는 것이죠.
경청해주셔서 감사합니다.
(박수)
Quando eu era um garoto,
queria maximizar meu impacto no mundo,
e eu era esperto o suficiente
para entender que não sou muito esperto.
E que tenho que construir uma máquina
que aprenda a se tornar
muito mais esperta que eu,
que consiga resolver todos os problemas
que não consigo resolver sozinho,
e eu possa me aposentar.
Minha primeira publicação
sobre o assunto foi há 30 anos: 1987.
Minha tese de pós-graduação,
na qual eu já tentava resolver
o grande problema de IA:
não só construir uma máquina
que aprende um pouco aqui e ali,
mas que também aprende a melhorar
o próprio algoritmo de aprendizado.
E a forma de aprender,
a forma de aprender,
e assim por diante, sem limites
exceto os limites da lógica e da física.
Ainda estou trabalhando na mesma coisa,
e dizendo a mesma coisa,
exceto que agora há
mais pessoas escutando.
Porque os algoritmos de aprendizagem
que desenvolvemos
para alcançar esse objetivo,
estão agora em 3 bilhões de smartphones.
E todos vocês os têm em seus bolsos.
Vemos aqui as cinco empresas
mais valiosas do mundo ocidental:
Apple, Google, Facebook,
Microsoft e Amazon.
Todas elas enfatizam
que a IA, a Inteligência Artificial,
é fundamental para o que estão fazendo.
E todas elas usam intensamente
os métodos de aprendizagem profunda
que minha equipe vem desenvolvendo
desde o início dos anos 90,
em Munique e na Suíça.
Especialmente algo chamado
"long short-term memory".
Alguém nesta sala já ouviu falar
em "long short-term memory",
ou LSTM?
Levantem as mãos,
quem já ouviu falar disso?
Certo.
Alguém nunca ouviu falar de LSTM?
Certo.
Vejo que temos
um terceiro grupo nesta sala:
aqueles que não entenderam a pergunta.
(Risos)
LSTM é mais ou menos como nosso cérebro:
é uma rede neural artificial
que também tem neurônios,
No cérebro, temos
cerca de 100 bilhões de neurônios.
Cada um deles está conectado
a aproximadamente 10 mil
outros neurônios em média.
O que significa que temos
um milhão de bilhões de conexões.
Cada uma dessas conexões tem uma "força"
que diz o quanto esse neurônio aqui
influencia aquele neurônio lá
no próximo passo.
No começo,
todas essas conexões são aleatórias
e o sistema não sabe nada.
Depois, por meio de um algoritmo
de aprendizagem inteligente,
ele aprende através de vários exemplos
a traduzir os dados de entrada,
como vídeos pelas câmeras,
ou áudios pelos microfones,
ou sinais de dor por sensores de dor.
Ele aprende a traduzir isso
para ações de saída,
porque alguns desses neurônios
são neurônios de saída,
que controlam os músculos
da fala e dos dedos.
E somente pela experiência,
pode aprender a resolver
vários problemas interessantes,
como dirigir um carro
ou fazer o reconhecimento de fala
no seu smartphone.
Porque, sempre que você
pega um smartphone,
um Android, por exemplo,
e fala para ele, você diz:
"Google, mostre-me
a rota mais curta para Milão".
Ele entende sua fala.
Porque tem uma LSTM lá
que aprendeu a entender a fala.
A cada 10 milissegundos,
100 vezes por segundo,
novos dados entram pelo microfone,
e depois são traduzidos,
após o processamento,
em letras
que por sua vez são questionadas
no mecanismo de busca.
E ele aprendeu a fazer isso
ouvindo várias falas, de mulheres,
de homens, de todo tipo de pessoas.
E é assim que, desde 2015,
o reconhecimento de fala
do Google está muito melhor.
A célula básica de LSTM é assim.
Não tenho tempo para explicar isso,
mas pelo menos posso listar os nomes
dos estudantes do meu laboratório
que a tornaram possível.
E o que as grandes empresas
estão fazendo com isso?
Bem, o reconhecimento de fala
é apenas um dos exemplos;
se vocês estiverem no Facebook...
alguém está no Facebook?
Vocês clicam às vezes no botão de tradução
porque alguém lhes enviou
algo em outra língua
e então você pode traduzir.
Alguém faz isso?
Sempre que fazem isso,
vocês despertam, novamente, a LSTM,
que aprendeu a traduzir
textos de uma língua
para outra.
O Facebook faz isso
4 bilhões de vezes ao dia.
Então, a cada segundo,
50 mil frases são traduzidas
por uma LSTM trabalhando para o Facebook;
e outras 50 mil frases no próximo
segundo, e assim por diante.
E, para vermos como isso
viabiliza o mundo moderno,
notem que quase 30%
do incrível poder computacional de dedução
e todos esses centros de dados do Google,
em várias partes do mundo,
são usados por LSTMs.
Quase 30%.
Se você tem um Echo da Amazon,
pode fazer uma pergunta e ele te responde.
E a voz que você ouve não é uma gravação.
É uma rede neural LSTM
que aprendeu de exemplos de treinamento
a soar como uma voz feminina.
Se você tem um iPhone e usa quick type,
ele tenta prever
o que você quer fazer a seguir
dado todo o contexto anterior
do que você fez até agora.
Mais uma vez, é uma LSTM
que aprendeu a fazer isso,
então está em um bilhão de iPhones.
Vocês são um público grande,
pelos meus padrões:
mas, quando começamos esse trabalho,
décadas atrás, nos anos 90,
poucas pessoas se interessavam por isso,
porque os computadores eram lentos
e não dava para fazer muito com eles.
Lembro que dei uma palestra
em uma conferência,
e havia uma única pessoa na plateia,
uma mulher jovem.
Eu disse: "Moça, é muito embaraçoso,
mas aparentemente hoje
vou dar essa palestra só para você".
E ela disse:
"Certo, mas por favor se apresse,
eu sou a próxima palestrante!"
(Risos)
Desde então, temos nos beneficiado
do fato de que a cada cinco anos
os computadores ficam
dez vezes mais baratos,
o que é uma tendência antiga
que se mantém desde 1941, pelo menos.
Desde que este homem, Konrad Zuse,
construiu o primeiro computador funcional
controlado por programa em Berlim
e ele podia fazer, grosso modo,
uma operação por segundo.
Uma!
E então, dez anos depois,
pelo mesmo preço,
outro podia fazer 100 operações;
30 anos depois,
1 milhão de operações pelo mesmo preço;
e hoje, depois de 75 anos, podemos fazer
um milhão de bilhões de vezes
mais pelo mesmo preço.
E a tendência não está prestes a parar,
porque os limites físicos
estão muito mais distantes.
Muito em breve, e não em anos ou décadas,
teremos pela primeira vez
pequenos dispositivos computacionais
que conseguirão computar
tanto quanto um cérebro humano;
e essa é uma tendência que não termina aí.
Cinquenta anos depois, haverá
um pequeno dispositivo computacional,
pelo mesmo preço,
que poderá computar tanto quanto
10 bilhões de cérebros humanos juntos.
E não haverá apenas um desses
dispositivos, mas muitos.
Tudo irá mudar.
Já em 2011, computadores
eram rápidos o suficiente
de modo que métodos
de aprendizado profundo
pela primeira vez alcançaram resultados
sobre-humanos de reconhecimento de padrão.
Foi o primeiro resultado sobre-humano
na história da visão computacional.
E naquela época, os computadores eram
20 vezes mais caros do que hoje,
então hoje, pelo mesmo preço,
podemos fazer 20 vezes mais.
E apenas cinco anos atrás,
quando os computadores eram
dez vezes mais caros do que hoje,
já conseguíamos vencer, pela primeira vez,
competições de imagens médicas.
O que você vê atrás de mim
é um recorte do seio feminino
e o tecido que você vê lá
tem todos os tipos de células;
e normalmente você precisa
de um médico histologista treinado
que é capaz de detectar
as células cancerígenas perigosas,
ou células pré-câncer.
Agora, nossa rede estúpida
não sabe nada sobre câncer,
não sabe nada sobre visão.
Não sabe nada no começo:
mas podemos treiná-la para imitar
o professor humano, o médico.
E ficou tão boa, ou ainda melhor,
do que os melhores concorrentes.
E muito em breve,
todo o diagnóstico médico
será sobre-humano.
E isso será obrigatório,
porque vai ser muito
melhor que os médicos.
Depois disso, vários tipos de "startups"
de imagens médicas foram fundadas
focando apenas nisso,
porque é tão importante.
Também podemos usar
LSTM para treinar robôs.
Uma coisa importante que quero dizer
é que não temos apenas sistemas
que imitam servilmente
o que os humanos mostram;
não, também temos IAs
que estabelecem seus próprios objetivos.
E como bebês, inventam
seus próprios experimentos
para explorar o mundo
e descobrir o que se pode fazer no mundo.
Sem um professor.
Tornando-se cada vez mais solucionadores
de problemas gerais no processo,
aprendendo novas habilidades
a partir das antigas.
E isso vai aumentar em escala:
chamamos de "Curiosidade Artificial".
Ou um termo usado
recentemente é "power plane".
Aprendendo a se tornar cada vez mais
solucionadores de problemas gerais
aprendendo a inventar, como um cientista,
um objetivo interessante após o outro.
E isso vai escalar.
E penso que em alguns poucos anos,
pela primeira vez,
teremos uma IA semelhante a um animal;
ainda não temos isso.
No nível de um pequeno corvo,
que já pode aprender a usar
ferramentas, por exemplo,
ou um macaquinho.
E quando tivermos isso,
pode demorar apenas algumas décadas
para dar o passo final em direção
à inteligência no nível humano.
Porque a evolução tecnológica
é cerca de um milhão de vezes
mais rápida do que a evolução biológica,
e a evolução biológica precisou
de 3,5 bilhões de anos
para evoluir um macaco do zero.
Mas depois, levou apenas algumas
dezenas de milhões de anos
para evoluir inteligência ao nível humano.
Temos uma empresa chamada Nnaisense,
como nascimento em francês,
mas escrito de uma maneira diferente,
que está tentando tornar
isso uma realidade
e construir a primeira IA
verdadeiramente de uso geral.
No momento, quase todas as pesquisas em IA
são muito centradas no humano,
é sobre como fazer vidas humanas serem
mais longas, mais saudáveis e mais fáceis
e fazer humanos mais viciados
em seus smartphones.
Mas, a longo prazo, as IAs vão,
especialmente as espertas,
vão definir seus próprios objetivos.
E não tenho dúvidas, em minha mente,
que elas vão se tornar muito
mais espertas do que nós.
E o que elas vão fazer?
Claro que elas vão perceber
o que percebemos há muito tempo;
que a maioria dos recursos,
no sistema solar ou em geral,
não estão na nossa pequena biosfera.
Eles estão lá fora no espaço.
E então, é claro, elas vão emigrar.
E é claro que elas vão usar
trilhões de fábricas
de robôs autorreplicantes
para expandir na forma
de uma bolha de IA crescente
que dentro de algumas
centenas de milhares de anos
vai cobrir toda a galáxia
por remetentes e receptores
de modo que as IAs possam viajar
do jeito que já estão viajando
no meu laboratório:
por rádio, do remetente ao receptor.
Sem fio.
Então, o que estamos testemunhando agora
é muito mais do que apenas
uma outra revolução industrial.
Isto é algo que transcende a humanidade,
e até a própria vida.
A última vez que algo
tão importante aconteceu
foi talvez 3,5 bilhões de anos atrás,
quando a vida foi inventada.
Um novo tipo de vida vai surgir
do nosso pequeno planeta
e vai colonizar e transformar
todo o universo.
O universo ainda é jovem:
tem apenas 13,8 bilhões de anos,
vai ficar muito mais velho que isso,
muitas vezes mais velho que isso.
Então há muito tempo
para alcançar tudo isso,
ou todas as partes visíveis,
totalmente dentro dos limites
da velocidade da luz e da física.
Um novo tipo de vida vai
tornar o universo inteligente.
Agora, é claro, não vamos permanecer
a coroa da criação, claro que não.
Mas ainda há beleza
em ver a si mesmo
como parte de um processo maior
que leva o cosmos
da baixa complexidade
para maior complexidade.
É um privilégio viver em um tempo
onde podemos testemunhar o começo disso
e onde podemos contribuir
um pouco para isso.
Obrigado pela paciência.
(Aplausos)