Erez Lieberman Aiden: Herkes bilir ki
bir resim 1000 kelimeye değerdir.
Ama Harvard'daki bizler
bunun gerçekten doğru olup olmadığını merak ediyorduk.
(Gülüşmeler)
Böylece, Harvard, MIT,
American Heritage Sözlüğü, Britannica Ansiklopedisi,
ve gururlu sponsorlarımız Google'ın da arasında bulunduğu
uzmanlardan oluşan
bir ekip hazırladık.
ve 4 yıl kadar
bunun üzerinde düşündük.
Ve şaşırtıcı bir sonuca vardık.
Bayanlar baylar, bir resim 1000 kelimeye değer değil.
Hatta, biz 500 milyar kelimeye değer
resimler bulduk.
Jean-Baptiste Michel: peki bu sonuca nasıl vardık?
Erez ve ben, insan kültürünün ve insanlık tarihinin
zamanla değişiminin
genel bir tablosunu oluşturmak istiyorduk.
Yıllar içinde o kadar çok kitap yazılmış ki.
Biz de düşündük ki. onlardan öğrenmenin en iyi yolu
tüm bu milyonlarca kitapları okumak.
Tabiki eğer bunun ne kadar süper bir şey olduğunu gösteren bir grafik varsa,
bu çok çok yüksek bir sıralamaya sahip olmalı.
Problem şu ki, bir de X ekseni var,
ki o da kullanışlılık ekseni.
Bu da çok çok düşük bir seviyede.
(Alkışlar)
Şimdi insanlar alternatif bir yaklaşım kullanmaya meyilli,
bu da bir kaç kaynağı almak ve onlar dikkatlice okumak.
Bu inanılmaz kullanışlı, ama o kadar süper değil.
Gerçekte yapmak istediğiniz şey
süper ama kullanışlı olan bu alana gelmek.
Öğrendik ki bir kaç sene önce bir dijitalizasyon projesi başlatan
bu yaklaşımı mümkün kılabilecek
nehrin ötesinde Google adında bir şirket varmış.
Mİlyonlarca kitabı dijitalize hale getirdiler.
Yani bu şu anlama geliyor: biri bu kitapların hepsini okumak için
bir klikle bilgisayarlı methodları kullanabilir.
Bu çok kullanışlı ve inanılmaz süper.
ELA: Sizlere biraz kitapların nereden geldiğinden bahsedeyim.
Zamanın başlangıcından beri, yazarlar vardı.
Bu yazarlar kitap yazmak için çabalayıp durdular.
Bir kaç yüzyıl önce matbaa makinesinin geliştirilmesiyle
bu gittikçe kolaylaştı.
O zamandan beri, 129 milyon farklı vesilelerle
kitaplar yayınlayarak,
yazarlar kazandı.
Şimdi ise bu kitaplar tarih arasında kaybolup gitmediyse
bir kütüphanenin tekinde
ve bu kitapların çoğu kütüphanelerden getirtiliyor,
ve günümüze kadar 15 milyon kitabı taramış olan,
Google tarafından dijitalize hale getiriliyorlar.
Şimdi Google bir kitabı dijitalize hale getirdiğinde, onu çok güzel bir formatla sunuyorlar.
Şimdi elimizde veri var ve meta veri var.
Kitabın nerede basıldığı, yazarın kim olduğu
ne zaman basıldığı gibi şeyler hakkında bilgimiz var.
Yaptığımız ise bütün bu bilgileri taramak
ve yüksek kaliteli olmayan tüm verileri ayıklamak.
Elimizde kalan şey ise
5 milyon kitabın
500 milyar kelimenin toplamı,
kültürel genomumuzun gerçek bir parçası,
açık açık yazıldığında,
buradan aya kadar,
10 kez gidip gelebilecek,
insan genomundan 1000 kere daha uzun olan
bir karakterler dizisi.
Böyle aşırı abartılı bir durumla karşı karşıya kaldığımızda
yaptığımız şey
(Gülüşmeler)
kendine saygısı olan her araştırmacının
yapacağı şeydi.
XKDC'den bir sayfayı aldık,
ve "Sıkı durun, bilim yapmayı deneyeceğiz"
dedik.
(Gülüşmeler)
JM: Tabii ki, şöyle düşündük,
bilimle ilgilenen insanlar için
elimizdeki datayı ortaya koyalım.
Düşünmeye başladık, hangi datayı yayınlayabiliriz?
Tabii ki, bu kitapları alıp
bu 5 milyon kitabın tam metinlerini yayınlamak istiyorsunuz.
Google'dakiler, özellikle Jon Orwant,
bize öğrenmemiz gereken bir denklemden bahsettiler.
Şimdi elinizde 5 milyon yazar var
ve 5 milyon davacı devasa bir toplu dava demek.
Yani bu her ne kadar çok çok süper bir şey olsa da,
tekrar edelim, çok ama çok kullanışsız.
(Gülüşmeler)
Ve tekrardan, boyun eğdik,
ve o kadar süper olmayan kullanışlı yaklaşımı kullandık.
Tam metini yayınlamak yerine,
kitaplar hakkında istatistikleri yayınlayalım dedik.
"Bir Pırıltı Mutluluk" 'u ele alalım.
3 kelime; biz buna üç-gram dedik.
Size bu üç-gram'ın 1801, 1802, 1803 ten baslayip
2008'e kadar olan kitaplarda kaç defa
geçtiğini söyleyeceğiz.
Bu, bize bu cümlenin zaman içinde
kaç defa tekrarladığını gösteren bir zaman dizini sunacak.
Bu yöntemi, bu kitaplardaki tüm kelime ve deyimlere uygularsak
sonunda elimizde kültürümüzün ne şekilde değistigini gösteren
iki milyar satırlık bir tablo ortaya çıkacak.
ELA: Peki, bu iki milyar satır,
bunlara iki milyar n-gram diyelim.
Bize ne söylüyorlar?
Yalın n-gramlar, kültürel trendleri ölçmeye yarıyor.
Bir örnek vermeme izin verin.
Diyelim ki ben çok başarılı oldum.
ve ertesi gün size ne kadar başarılı olduğumu söylemek istedim.
Diyebilirim ki, ben dün "başardım." (throve)
Ya da diyebilirim ki "başardım". (thrived)
Hangisini kullanmalıyım?
Nasıl bileceğiz?
Bundan yaklaşık altı ay önce
bu sorunun yanıtını öğrenmek için
mesela bu muhteşem saçlara sahip
psikoloğa gider ve derdiniz ki,
"Steve, sen düzensiz fiil çekimi konusunda
tam bir uzmansın. Hangisini ( throve veya thrived)
kullanmam gerekir?"
O da size derdi ki "Bak insanların çoğu 'thrived' diyor,
ama bazıları 'thrıve' da diyorlar."
Ve şunu da biliyorsunuz ki,
eğer bundan 200 yıl önceye gidebiliyor olsanız
ve aynı derece müthiş saçlara sahip bu devlet adamına aynı soruyu sorsanız,
(Gülüşmeler)
"Tom, hangisini kullanmalıyım?" deseniz
O size " Bak, benim zamanımda çoğu insan 'throve' diyordu,
ama bazıları 'thrived' da der." diyecektir.
Öylese şimdi sizle ham veriyi paylaşacağım.
Bu tablodaki iki sıra, iki milyar kayıt demek.
Burada gördüğünüz zaman içinde "thrived" ve "throve"
kelimelerinin yıllık frekansı.
Burada gördüğünüz, iki milyar satırdan
sadece iki tanesi.
Yani aslında veri setinin tamamı
bu slaytta gördüşünüzden milyar kez daha müthiş.
(Gülüşmeler)
(Alkışlar)
JM: Şimdi, 500 milyar kelime eden çok farklı başka resimler de var.
mesela bu gördüğünüz.
Eğer sadece grip virüsünü alırsanız,
dünyada insanların ölümüne neden olan bir grip salgını
olduğu zamanlarda pik yaptığını görürsünüz.
ELA: Eğer hala deniz seviyesinin
yükseldiğine ve atmosferik CO2 ve
yerkürenin ısısının arttığına ikna olmadıysanız buna bakabilirsiniz.
JM: Ya da bu diğer n-grama bakarsanız,
Nietzsche'ye Tanrıinın ölmediğini söyleyebilirsiniz,
ama siz de kabul edeceksiniz ki daha iyi bir halkla ilişkiler uzmanına ihtiyacı var.
(Gülüşmeler)
ELA: Bu tip birşeyi kullanarak epey soyut kavramlara varabilirsiniz.
mesela izin verin size 1950 yılının hikayesini
anlatayım.
Tarih boyunca 1950 yılı
kimsenin pek de umrunda olmadı.
1700'ler, 1800'ler veya 1900'lerde
kimsenin umrunda değildi.
30'lar ve 40'larda da öyle.
Kimse takmadı.
Birden, 40'lı yılların ortasında,
bir uğultu ortaya çıkmaya başladı.
İnsanlar 1950'nin yaklaştığını fark ettiler,
ve bu büyük bir olaydı.
(Gülüşmeler)
Ama 1950'lerde hiçbir şey insanları 1950 yılı
kadar çok ilgilendirmedi.
(Gülüşmeler)
İnsanlar kafayı yemişlerdi, 1950'de yaptıkları
şeykeri anlatmaktan başka hiçbir şey yapmadan
ortalıkta dolanıyorladı,
1950'de yapmayı planladıkları şeyler,
1950'de kavuşmayı umdukları bütün hayalleri.
Aslında, 1950 öylesine inanılmazdı ki,
geçtikten yıllarca sonra bile,
bu müthiş yıl ve onda olup bitenlerden bahsettiler.
1951, 52, 53 yıllarında.
Sonunda 1954 yılında biri uyandı ve
nihayet insanlar 1950'nin
geçip gitmiş olduğunu fark ettiler.
(Gülüşmeler)
Birdenbire, patlayan bir balon gibi.
(Gülüşmeler)
Ve 1950 yılının hikayesi aslında
yaşadığımız her yılın hikayesi.
Ufak tefek farklılıklar, çünkü artık bu güzel grafiklere sahibiz.
Bunlara sahip olduğumuz için bazı şeyleri ölçümleyebiliyoruz.
Böylece şunu sorabiliyoruz, "Balonun patlaması ne kadar sürer?"
ve görünen o ki artık bunu oldukça hassas şekilde ölçebiliyoruz.
Formüller yazıyor, grafikler çiziyoruz,
ve net sonuç şu ki
her geçen yıl bu baloncuklar daha kolay sönüyor.
Her geçen yıl geçmişe olan ilgimizi
daha büyük bir hızla kaybediyoruz.
JM: Siz ufak bir kariyer önerisi.
Eğer aranızda ünlü olmayı planlayanlar varsa,
bu 25 ünlü politik figürden, yazardan ve aktörden
birşeyler öğrenebilirsiniz.
Eğer genç yaşta ünlü olmak isterseniz, aktör olmalısınız,
çünkü onlar 20'li yaşların sonunda ünlü olmaya başlıyorlar --
hala genç bir yaş, süper.
Eğer biraz daha bekleyecek olursanız, o zaman yazar olmalısınız,
çünkü o zaman çok ama çok ünlü olabilirsiniz.
Mark Twain gibi mesela: çok çok ünlü.
Ama en tepeye ulaşmak istiyorsanız,
o zaman ünlü olmak için daha beklemeli ve
elbette ki poitikacı olmalısınız.
Böylece 50 yaş civarında ünlü olabilir, ve hayatınızın
sonrasını çok ama çok ünlü geçirebilirsiniz.
Bilimadamlar çok daha geç yaşlarda ünlü oluyorlar.
Mesela biyologlar ve fizikçiler neredeyse
aktörler kadar ünlü olabilirler.
Ama yapacağınız en büyük hata Matematikçi olmak olacaktır.
(Gülüşmeler)
Eğer bunu yaparsanız,
şöyle düşünebilirsiniz, " Şahane, 20'li yaşlarda en önemli çalışmalarımı yapacağım."
Ama bilin bakalım ne olacak: kimse sizi umursamayacak.
(Gülüşmeler)
ELA: n-gramlardan elde edebileceğiniz
daha fena veriler de var.
Mesela, Marc Chagall'ın trajedisini ele alalım.
1887 yılında doğmuş bir sanatçı.
Bu gördüğünüz ünlü bir insanın normal grafiğini gösteriyor.
her geçen gün daha ünlü oluyor,
ama eğer Almanca kayıtlara bakarsanız,
Almanca kayıtlarda çok acaip birşey göreceksiniz,
daha önce pek görmediğiniz birşey.
Çok çok ünlü olurken, birden bire
adeta yok oluyor.
1933-1945 yılları arasında birden bire düşüyor,
daha sonra da tekrar yükseliyor.
Ve burada gördüğümz şeyin açıklaması da
Marc Chagall'ın Nazi Almanyası'nda Yahudi bir
sanatçı olmaından kaynaklanıyor.
Bu işaretler
öylesine güçlü ki
birinin sansürlendiğini önceden bilmenize gerek yok.
Bunu basit veri işleme yolu ile
kendiniz bulabilirsiniz.
İşte bunu yapmanın basit bir yolu.
Bir kimsenin herhangi bir zamandaki
ün miktarı, kabaca ünlü olmadan önceki ve
ünlü olduktan sonraki ün miktarlarının
ortalaması olmalıdır.
Görmeyi beklediğimiz şey budur.
Ve bu veriyi gözlemlediğimiz ünle karşılaştırırız.
Sonra bunları birbirine bölerek
baskılama indeksi dediğimiz bir rakam buluruz.
Eğer baskılama indeksi çok çok küçük bir rakamsa,
baskılanmış olma ihtimaliniz çok yüksektir.
Eğer çok büyükse o zaman da propogandayla pomplanmış olma ihtimaliniz vardır.
JM: Şimdi, eğer toplumların genel baskılanma indekslerinin
dağılımına bakacak olursanız,
mesela burada --
5000 kişinin baskılama indeksleri var,
bilinen bir baskılama olmayan İngilizce kitaplar bunlar --
buna benzer birşey olacaktır, ortada yoğunlaşıyor.
Kısaca görmeyi beklediğiniz şey ile gördüşünüz aynıdır.
Almanya'da gördüğümüz dağılım ise bu --
çok farklı, sola doğru kaymış durumda.
İnsanlar bunlar hakkında konuşmuş olmaları gerekenin yarısı kadar konuşmuşlar,
daha da önemlisi, dağılım çok daha geniş.
Dağılımın en solunda yer alan pek çok insan var,
bunlar haklarında beklenenden 10 kat daha az konuşulmuş olan insanlar.
Ama en sağda da başkaları var.
Bunlar da propoganda'dan faydalanmış kimseler.
Bu şekil, kitaplardaki sansürün fotoğrafı.
ELA: Biz bu yönteme Kültüromik
adını verdik.
Biraz Genomik gibi.
Ancak genomik insan genomundaki baz dizilimi
aracılığı ile biyoloji bilimine bir pencere açıyor.
Kültüromik de buna benziyor.
İnsan kültrünü incelemek için yapılan çok yoğun bir
veri toplama analizi uygulaması.
Burada, genomdaki pencere yerine
dijital hale getirilmiş tarihsel verilerin penceresinden bakıyoruz.
Kültüromik ile ilgili müthiş olan şey
bunu herkesin yapabiliyor olması.
Nasıl herkes yapabilir?
herkes yapabilir, çünkü üç kişi
Google'da çalışan Jon Orwant, Matt Gray ve Wıll Brockman,
Ngram prototipine baktılar ve dediler ki,
" Bu çok eğlenceli birşey.
Bunu herkesin ulaşabileceği hale getirmemiz lazım."
Ve iki hafta içinde -- bizim makalemiz yayınlanmadan iki hafta önce --
herkesin kullanımına açık bir Ngram versiyonu programladılar.
ve artık siz de ilginizi çeken bir kelime ya da deyim yazarak
ona ait n-gramı hemen görebilirsiniz --
ve sizin n-gramınızın yer aldığı kitapları
tarayabilirsiniz.
JM: Bu uygulama, hayata geçtiği ilk gün ir milyonda defadan fazla kullanıldı,
ve bu bence en güzel sorgulardan biri.
İnsanlar iyi bir şey yapmak istediklerinde "ellerinden geleni yaptılar"
ama görünen o ki, 18. yüzyılda bunu pek umursamıyorlardı.
O zaman "ellerinden geleni" değil, "evlerinden geleni" yapmak istediler.
Aslında olan şu, be elbette bir hata.
Gayret etmeyi bırakmadılar, sadece
o dönemde L harfi daha farklı yazılıyordu, V'ye beziyordu biraz.
Elbette, Google bunu o zaman yakalayamadı,
bu nedenle bunu yazdığımız makaleye ekledik.
Ama görünen o ki, bu her ne kadar eğlenceli birşey
olsa da, bize şunu anımsattı
bu grafikleri anlamlandırırken çok dikkatli olmanız gerekiyor.
ve mutlaka bilimsel yöntemdeki temel standartları gözetmelisiniz.
ELA: İnsanlar bunu her türlü eğlenceli şey için kullanıyorlar.
(Gülüşmeler)
Aslında bundan sonra konuşmamız gereksiz,
size sadece bazı slaytları üzerinde konuşmaksızın göstereceğiz.
Bu kişi, düşkırıklığının, sıkıntının tarihçesi ile ilgileniyormuş.
Düşkırıklığının birkaç çeşidi vardır.
Eğer ayak parmağınızı bir yere çarpacak olursanız bu tek A harfli bir "Ah" demek.
Eğer gezegenimiz dünya gezegenler arası otoyol yapmak isteyen
Vogonlar tarafından işgal edilecek olursa,
bu sekiz A değerinde bir "Aaaaaaaah" eder.
Bu kişi bütün "Ahéları incelemiş.
Tek A'lıdan sekiz A'lısına dek.
Ve görmüş ki,
daha can sıkıcı şeylere ait "Ah"lar
daha az sıklıkla ortaya çıkıyor,
ama 80'li yılların başları hariç.
Biz bu durumun Reagan ile ilgili olduğunu düşünüyoruz.
(Gülüşmeler(
JM: Bu verilerin pek çok kullanım alanı var
ama nihayetinde, bunlar tarihsel kayıtların dijital veriler hakine çevrilmesi.
Google, 15 milyon kitabı dijital hale getirdi.
Bu, bugüne dek basılmış kitapların %12'si demek.
İnsanlığa ait kültür birikimin kayda değer bir kısmı.
Kültüre ait daha pek çok veri var: yazmalar, gazeteler,
yazılı olmayan şeyler, sanat ve tablolar gibi.
Bunların hepsi dünyanın dört bir yanındaki
bilgisayarlarımıza geçebilir.
Ve bu olduğunda, insanlığın geçmişi, bu günü ve
tüm yarattığı kültüre bakış açımız tamamen değişecek.
Çok teşekkürler.
(Alkışlar)