Google'da makine zekâsı üzerine çalışan
bir takımı yönetiyorum;
yani, bilgisayar ve
makineleri yapan mühendislik disiplini
beynin yaptığı bazı şeyleri yapabiliyor.
Bu da bizim gerçek beyinlere
ve nörolojiye de
ve özellikle bilgisayarların
performansından hâlâ üstün olan
beynimizin yaptığı şeylere
ilgi duymamızı sağlıyor.
Tarihsel olarak bu
alanlardan biri algıdır,
dünyada algılanarak var olan şeyler --
sesler ve resimler gibi --
zihinde kavramlara dönüşebilir.
Bu beynimiz için vazgeçilmezdir
ve bir bilgisayarda da oldukça
kullanışlıdır.
Takımımın yaptığı makine
algı algoritmaları örneğin,
Google Fotoğraflar'da resimlerinizdeki
şeyleri baz alarak onların aranabilir
olmasını sağlıyor.
Algının diğer yüzü yaratıcılık:
Bir kavramı dünyadaki bir nesneye
dönüştürmektir.
Geçen yıl boyunca makine algısı üzerine
yaptığımız çalışmalar da
beklenmedik bir şekilde makine
yaratıcılığı ve makine sanatı dünyasıyla
bağlandı.
Bence Michelangelo algı ve yaratıcılık
arasındaki ikili ilişkiye
dair keskin bir bakış açısına sahipti.
Onun ünlü bir sözüdür:
"Her bir taş blok içinde bir heykel
barındırır ve
heykeltraşın görevi bunu ortaya
çıkarmaktır."
Yani bence
Michelangelo'nun anlatmak istediği
algılayarak yaratırız,
algının kendisi hayal gücümüzün
bir eylemi ve
yaratıcılığın malzemesidir.
Düşünmeyi, algılamayı ve hayal etmeyi
sağlayan organımız
tabii ki de beynimizdir.
Beyinler hakkında bildiğimiz şeylerin
kısa bir tarihiyle başlamak istiyorum.
Çünkü kalp ya da bağırsakların aksine
en azından çıplak gözle
bakarak bir beyin hakkında
çok bir şey söyleyemezsin.
Beyni inceleyen ilk anatomi uzmanları
beynin yüzeysel yapılarına, "denizatı"
anlamına gelen hipokampüs gibi
birçok tuhaf isim vermişler.
Fakat bu bize aslında içinde ne olduğu
hakkında pek bir şey ifade etmiyor.
Bence beyinde ne olduğuna dair gerçekten
bir bakış açısı geliştiren ilk kişi,
19. yüzyılda beyindeki bireysel hücrelerin
morfolojilerini (yapı) anlamaya
başlamak için
mikroskop ve
bu hücreleri yüksek kontrastta
titizlikle doldurabilen ya da
eritebilen özel kimyasallar kullanan,
büyük İspanyol nöro-anatomist
Santiago Ramón y Cajal'dır.
Bunlar da 19. yy'da nöronlardan
(sinir hücresi) yaptığı
çizimler.
Bir kuş beyninden alıntı.
Bu inanılmaz farklı çeşitlikteki
hücreleri görüyorsunuz,
hücre teorisi bile o zaman çok yeniydi.
Bu yapılar,
dallanmaların olduğu hücreler,
çok çok uzağa gidebilen dallar
o zamanlar çok yeniydi.
Tabii ki de kabloları andırıyorlar.
19. yy'da bu bazı insanlar
için açık ve netti;
kabloların ve elektriğin devrimi
yeni bir yolculuğa başlıyordu.
Fakat birçok açıdan
örnekteki gibi Ramón y Cajal'ın
mikroanatomik çizimleri
hâlâ bazı açılardan emsalsiz.
Ramón y Cajal'ın başladığı işi bitirmeye
çabalarken hâlâ yüzyıl
sonrasından daha uzağız.
Bunlar Max Planck Sinirbilim
Enstitüsü'ndeki
ortaklarımızdan gelen ham verilerdir.
Ortaklarımızın yaptığı şey
beyin dokusunun küçük parçalarını
hayal etmekti.
Buradaki tüm örnek boyutun yaklaşık
bir milimetre kübü ve
size bunun çok ama çok küçük
bir parçasını gösteriyorum.
Sol taraftaki çizgi yaklaşık bir mikron.
Gördüğünüz yapılar bakteri boyutundaki
mitokondriler.
Bunlar çok çok ince olan
doku bloklarındaki
ard arda gelen dilimler.
Sadece karşılaştırmak amacıyla,
ortalama bir saç telinin çapı
yaklaşık 100 mikron.
Yani tek bir saç telinden çok çok
küçük bir şey arıyoruz.
Bir bilim insanı bu çeşit seri
elektron mikroskopi dilimlerinden
bunlara benzeyen üç boyutlu nöronlarda
yeniden yapılandırmaya başlayabilir.
Sonucunda bunlar Ramón y Cajal'la
aynı tarzda.
Sadece birkaç nöron parlıyor,
yoksa burada hiçbir şey göremezdik.
Çok kalabalık olurdu,
bir nöronu diğer bir nörona
bağlayan yapılarla dolu.
Ramón y Cajal zamanının biraz
ilerisindeydi
ve beyni anlamadaki ilerlemesini
önündeki birkaç 10 yıl boyunca sürdürdü.
Nöronların elektrik kullandığını
biliyorduk ve
2. Dünya Savaşı'yla teknolojimiz nasıl
çalıştıklarını daha iyi
anlamak için canlı nöronlarda gerçek
elektrikli deneyleri
yapmaya başlayacak kadar gelişmişti.
Bu tam da bilgisayarların;
bilgisayar biliminin fikir
öncülerinden biri olan
Alan Turing'in deyimiyle
beyin modelleme fikrine dayanan
"akıllı makinelerin"
icadıyla aynı dönemdi.
Warren McCulloch ve Walter Pitts,
Ramón y Cajal'ın burada gösterdiğim
görme korteksinin (merkezi)
çizimlerine baktı.
Bu korteks gözden gelen
görüntüleri işliyor.
Onlar için bu devre şeması gibiydi.
Bu yüzden McCulloch ve Pitts'in
devre şemasında
tamamen doğru olmayan
birçok detay bulunmakta.
Ama bu temel
görme korteksinin hesaplama
elemanları serisi gibi
çalışarak sonrakine
ard arda bilgi aktarması fikri
temelde doğrudur.
Biraz görsel bilgi işleme için modelin
ne yapması gerektiğinden bahsedelim.
Algının temel görevi
bu gibi bir resme bakıp şöyle demektir,
"Bu bir kuş."
ki bu bizim beyinlerimizle
yaptığımız çok kolay bir şeydir.
Ama şunu anlamalısınız ki
bilgisayar için,
birkaç yıl önce neredeyse imkânsızdı.
Klasik hesaplama paradigması
bu işi kolay yapanlardan
biri değil.
Pikseller arasında,
kuş resmi ve "kuş" kelimesi
arasında olan,
temelde sinir ağında birbirine bağlı
nöronlar kümesidir,
burada şemalaştırdığım gibi.
Bu sinir ağı, görme kortekslerimizin
içerisinde, biyolojik olabilir
veya günümüzde, bu gibi
sinir ağları modelleme
kapasitesine sahip olmaya
başladık bilgisayarlarda.
Size gerçekte nasıl
göründüğünü açıklayacağım.
Pikselleri nöronların ilk
katmanı gibi düşünebilirsiniz
ve aslında gözde de
bu şekilde işler --
bunlar retinadaki nöronlar.
İleri beslenir
bir katmandan diğer katmana,
ardından diğer farklı ağırlıklı
sinapslarla birbirine bağlı
olan nöronlar katmanına.
Bu ağın davranışı
tüm bu sinapsların gücü ile
karakterize edilir.
Ağın hesaplama gücün özelliklerini
karakterize ederler.
Günün sonunda,
tek bir nöron veya küçük bir
nöron grubunuz olur,
"Kuş" sözü ile parlayan.
Şimdi şu üç şeyi tasvir edeceğim--
giriş pikselleri ve
sinir ağındaki sinapslar
ve kuş yani çıktı verisi --
şu üç değişkenle: x, w ve y.
Belki de bir milyon
ya da civarında x --
o görüntüde bir milyon piksel var.
Milyarlarca ya da trilyonlarca w'lar var
sinir ağındaki tüm bu sinapsların
ağırlıklarını gösteren.
Az sayıda y'ler var,
ağın çıktısı olarak.
"Kuş" (Bird) sadece 4 harfli değil mi?
Bunun basit bir formül olduğunu
farz edelim:
x "x" w = y.
Çarpım işaretini tırnak
arasına aldım çünkü
orada tam olarak olan, şüphesiz,
matematiksel operasyonların
çok karmaşık serileridir.
Bu, bir denklem.
Üç değişken var.
Hepimizin bildiği gibi
eğer bir denklemin varsa,
diğer ikisini bilerek, bir değişkeni
bulabilirsin.
Çıkarım sorunu ise
kuş resminde kuş olduğunu çıkarmakta.
Bu ise:
y bilinmeyen, w ve x biliniyor.
Sinir ağını biliyorsunuz,
pikselleri biliyorsunuz.
Görüldüğü gibi nispeten
anlaşılır bir problem.
3 ile 2'yi çarpıyorsunuz ve bitiyor.
Geçenlerde oluşturduğumuz,
aynısını yapan
yapay bir sinir ağı göstereceğim size.
Gerçek zamanlı olarak
cep telefonunda işletiliyor
ve elbette başlı başına harika,
cep telefonlarının saniyede
milyarlarca ve trilyonlarca işlemi
yapabiliyor olması.
Seyrettiğiniz, art arda
kuş resimlerinin olduğu bir telefon
ve aslında sadece "Evet, bu bir kuş,"
demekle kalmıyor
hatta ağ ile kuşun
cinsini de tanımlıyor.
Resimde,
x ve w biliniyor,
y bilinmiyor.
Zor kısmını gizliyorum, tabii ki,
w'yi nasıl hesaplayabiliriz,
beyin böyle bir şeyi nasıl yapabilir?
Böyle bir modeli nasıl öğrenebiliriz?
Bu öğrenme, w'yi
hesaplama sürecinde
sayı olarak düşündüğümüz o
basit denklemdeki gibi yapsaydık,
kesin olarak yapılışını bilirdik: 6=2 x w,
2'ye böleriz ve biter.
Problem bu işaret ile.
Bölme --
bölmeyi kullandık çünkü
çarpmanın tersi,
ama bahsettiğim gibi
buradaki çarpma biraz göstermelik.
Bu oldukça karmaşık, doğrusal
olmayan bir işlem;
tersi yok.
Denklemi çözmek için
bir yol bulmalıyız
bölme işlemi olmadan.
Ve bunu yapmanın yolu gayet açık.
Biraz cebir hilesi yapalım diyebiliriz
ve 6'yı denklemin
sağ tarafına taşıyalım.
Hâlâ çarpma işlemini kullanıyoruz.
0'ı hata olarak düşünelim.
Yani, w'yi doğru bulursak
hata 0 olacaktır.
Doğru bulamazsak,
hata 0'dan büyük olacaktır.
Şimdi hatayı minimize etmek için
tahminlerde bulunabiliriz
ki bu da bilgisayarların iyi
olduğu bir alan.
Başka bir tahminde bulundunuz:
Farz edelim w=0 olsun.
O zaman hata 6 olur.
Ya w=1 olursa?
Hata 4 olur.
O zaman bilgisayar bir çeşit
körebe (Marco Polo)
oynayabilir ve hatayı
0'a yakınlaştırabilir.
Bunu yaparken de w
için ardışık yaklaşıklama elde eder.
Genellikle tam olarak ulaşamaz
ama bir düzine aşamadan sonra
w=2,999 'e kadar geldik
ki bu da yeterince yakın.
Bu öğrenme süreci.
Unutmayın, burada yaptığımız;
birçok bilinen x ve y ile
ortadaki w'yi yinelemeli
süreç boyunca çözüyoruz.
Öğrenirken yaptıklarımızla
tamamen aynı.
Bebekliğimizden birçok anımız vardır,
bize "Bu kuş; bu kuş değil." denen.
Ve zamanla, yinelemeler boyunca
w'yi çözüyoruz, sinirsel bağlantıları
çözüyoruz.
Şimdi, y'yi çözmek için
sabit x ve w'ye sahibiz
ki bu da her gün, hızlı algılama.
W'yi nasıl çözebileceğimizi buluyoruz
ki bu da çok daha zor olan öğrenmedir,
çünkü hata küçültme yapmamız gerekir,
birçok eğitim örnekleri kullanarak.
Yaklaşık bir yıl önce,
ekibimizden Alex Mordvintsev
bilinen bir w ve y ile x'i
çözmeye çalışırsak ne olacağını
görmek için deney yapmaya karar verdi.
Diğer bir deyişle,
kuş olduğunu biliyorsunuz
ve kuşlar üzerine eğitilen sinir ağınızda
zaten bulunmakta,
ancak kuşun resmi nedir?
Aynı hata küçültme işlemini kullanarak,
kuşları tanımlamak
için eğitilen ağ ile
yapılabileceği sonucu ortaya çıkar,
ve sonuç ise ...
kuş resmi olur.
Yani bu, tamamen kuşları tanımlamak üzere
eğitilen sinir ağı
tarafından üretilen kuşların resmidir,
özyinelemeli olarak yalnızca
y'yi hesaplamak yerine
x'in hesaplanmasıyla.
Bir diğer enteresan örnek.
Ekibimizden Mike Tyka
tarafından yapılan bir çalışma,
"Hayvan Defilesi" olarak adlandırdığı.
Bana biraz William Kentridge'in
çalışmalarını hatırlatıyor,
eskizleri yapıp sildiği,
yapıp sildiği
ve bu şekilde film yaptığı.
Bu durumda,
Mike, farklı hayvanların üzerindeki
boşluklarda y'yi değiştiriyor,
farklı hayvanları birbirinden
ayırmak ve onları
tanımlamak için tasarlanmış bir ağda.
Bu tuhaf, Escher'imsi bir hayvandan
diğerine biçimler elde edilir.
Burada o ve Alex birlikte y'leri yalnızca
iki boyutlu uzaya indirgemeye çalıştı,
ağ tarafından tanımlanan
boşluklarıyla planlama yaparak.
Bu şekilde tüm yüzey üzerinde
bir sentez ya da imgelem kuşağıyla,
yüzey üzerinde değişen y ile
bir çeşit harita yapıyorsunuz,
ağın nasıl tanımlayacağını bildiği
her şeyin görsel bir haritası.
Bütün hayvanlar burada;
"armadillo" tam bu noktada.
Bunu diğer ağlarla da yapabilirsiniz.
Bu ağ yüzleri tanımlamak
için tasarlanmış,
yüzleri birbirinden ayırt edebilmek için.
Buraya "ben" olarak y'yi koyuyoruz,
kendi yüz parametrelerim.
X'i hesapladığında
bu oldukça çılgın,
kübist gibi, gerçeküstü,
psikedelik resmimi üretiyor,
birdenbire, çoklu görüş açılarından.
Çoklu görüş açılı gibi görünmesinin
sebebi ise ağın,
yüzün şu pozda ya da bu
pozda ya da şu veya
bu şekilde aydınlatmada
olmasındaki anlaşmazlıktan
kurtulmak için tasarlanmış olması.
Bu tarz bir restorasyon yapacaksanız,
kılavuz resim ya da istatistikler
kullanmazsanız,
farklı görüş açılarında
bir tür bozulma elde edersiniz,
çünkü belirsizdir.
Benim yüzümü iyileştirme sürecinde
Alex kendi yüzünü
kılavuz resim olarak
kullandığında böyle oluyor.
Gördüğünüz gibi mükemmel değil.
Hâlâ optimizasyon sürecini
iyileştirmemiz için yapmamız
gereken çok iş var.
Ama daha tutarlı bir yüze
erişmeye başlıyorsunuz yorumlamada
model olarak benim yüzüm kullanıldığında.
Siyah bir tuvalle ya da beyaz gürültüyle
başlamak zorunda değilsiniz.
X'i bulmak için
başka bir resimdeki x
ile başlayabilirsiniz.
Bu küçük gösterim de bununla ilgili.
Bu ise her türden, birbirinden
farklı nesneleri kategorize etmek
için tasarlanmış bir ağ,
insan yapımı yapılar, hayvanlar gibi...
Burada sadece bir bulut
resmi ile başlıyoruz
ve optimize ettikçe,
temel olarak bu ağ,
bulutlarda gördüklerini çözüyor.
Buna bakarak ne kadar
uzun süre harcarsanız,
o kadar fazlasını göreceksiniz bulutlarda.
Aynı zamanda bulandırmak için
yüz ağını kullanabilir
ve oldukça çılgın şeyler yapabilirsiniz.
(Gülüşmeler)
Veya Mike başka denemeler de yaptı,
denemelerde bulut resmini alıyor,
bulandırıyor, yakınlaştırıyor,
bulandırıyor, yakınlaştırıyor,
bulandırıyor, yakınlaştırıyor.
Bu şekilde,
ağın bir çeşit füj evresini elde
edersiniz sanırım
ya da bir çeşit serbest çağrışım
ağın kendi kuyruğunu yediği.
Yani şu an her resim
zemin oluşturmakta,
"Bir sonrakinde ne
yapmayı düşünüyorum?"
"Bir sonrakinde ne yapmayı düşünüyorum?"
Bunu ilk kez alenen,
Seattle'da bir gruba "Yüksek Öğrenim"
adlı derste gösterdim
tam da esrarın
yasallaştırılmasından sonraydı.
(Gülüşmeler)
Hızla bitirmek istiyorum,
bu teknolojinin engellenmediğini
not ederek.
Tamamen görsel örnekler gösterdim,
çünkü bakması gerçekten eğlenceli.
Tamamen görsel bir teknoloji değil.
Ressam ortağımız, Ross Goodwin,
resim çeken bir kamera ile
deneyler yaptı,
resmin içeriğine bağlı olarak
sırtında sinir ağı kullanarak
şiir yazan bir bilgisayarla.
O sinir ağı şiiri, büyük 20. yüzyıl
şiir külliyatı üzerinde eğitilmiştir.
Şiir, bence,
çok da kötü değil açıkcası.
(Gülüşmeler)
Kapanış olarak,
bence Michelangelo,
bence haklıydı;
algı ve yaratıcılık
derinlemesine bağlıdır.
Gördüklerimiz tamamen ayırt etmek
ya da dünyadaki farklı şeyleri
tanılamak için
tam tersi yönde çalışmak
ya da üretmek üzere eğitilmiştir.
Aklıma gelenlerden bir tanesi ise
Michelangelo gerçekten taş
içindeki bloklarda
heykeli gördü, üstelik
algısal davranışlar yapabilen
herhangi bir yaratık, varlık
ya da uzaylı da
keza üretebilir,
çünkü iki durumda da kullanılan
tamamen aynı düzenek.
Aynı zamanda bence algı
ve yaratıcılık kesinlikle
eşsiz olarak insani değil.
Bu tarz şeyleri yapabilecek bilgisayar
modellerine sahip olmaya başladık.
Şaşırtıcı olmayan bir şekilde,
beyin hesaba dayalıdır.
Son olarak,
programlama akıllı makineleri
tasarlama alıştırmaları olarak başladı.
Makineleri nasıl akıllı yapabiliriz
fikrinden sonra modellendi.
Ve nihayet artık bazı o eski öncü
vaatleri gerçekleştirmeye başlıyoruz,
Turing'in, von Neumann'nın,
McCulloch'ın ve Pitts'in.
Ve bence programlama
sadece hesaplama
ya da Candy Crush oynama değildir.
Başından beri,
onları zihnimize benzer modelledik.
Onlar da bize hem kendi
zihinlerimizi anlama, hem de
geliştirme kabiliyetini verdiler.
Çok teşekkürler.
(Alkışlar)