Έρεζ Λίμπερμαν Έιντεν: Είναι γνωστό ότι μια εικόνα αξίζει χίλιες λέξεις. Αλλά εμείς στο Χάρβαρντ αναρωτιόμασταν αν αυτό αληθεύει. (Γέλια) Έτσι, μαζέψαμε μια ομάδα ειδικών από το Χαρβαρντ, το ΜΙΤ, το Λεξικό Αμερικανικής Κληρονομιάς, την εγκυκλοπαίδεια Μπριτάνικα και τους περήφανους χορηγούς μας, την Google. Και πέσαμε σε βαθιά περισυλλογή για περίπου τέσσερα χρόνια. Καταλήξαμε σε ένα τρομακτικό συμπέρασμα. Κυρίες και κύριοι, μια εικόνα δεν αξίζει 1.000 λέξεις. Πράγματι, βρήκαμε εικόνες που αξίζουν 500 δις λέξεις. Ζαν-Μπατίστ Μισέλ: Πώς καταλήξαμε σε αυτό το συμπέρασμα; Ο Έρεζ και εγώ σκεφτόμασταν τρόπους για να δούμε μία συνολική εικόνα του ανθρώπινου πολιτισμού και της ανθρώπινης ιστορίας: αλλαγή μέσα στον χρόνο. Πάρα πολλά βιβλία γράφτηκαν στη διάρκεια των χρόνων Έτσι σκεφτήκαμε ότι ο καλύτερος τρόπος να μάθουμε κάτι από αυτά είναι να τα διαβάσουμε όλα. Τώρα βέβαια, αν υπάρχει μια κλίμακα για το πόσο "φανταστικό" είναι αυτό τότε πρέπει να φιγουράρει πολύ ψηλά. Τώρα το πρόβλημα εδώ είναι ότι υπάρχει ο άξονας του χ, ο οποίος είναι ο άξονας της πρακτικότητας. Αυτή βρίσκεται πολύ, πολύ χαμηλά. (Χειροκρότημα) Τώρα ο κόσμος τείνει να έχει μια διαφορετική προσέγγιση, η οποία είναι να παίρνεις μόνο μερικές πηγές και να τις διαβάζεις πολύ προσεκτικά. Αυτό είναι πολύ πρακτικό αλλά όχι "φανταστικό" Αυτό που πραγματικά θέλουμε να κάνουμε είναι να φτάσουμε στο πρακτικό και "φανταστικό" κομμάτι αυτού του μέρους. Λοιπόν, υπάρχει μια εταιρεία στην άλλη μεριά του ποταμού που λέγεται Google™ η οποία πριν από μερικά χρόνια ξεκίνησε ένα έργο ψηφιοποίησης το οποιό θα επέτρεπε αυτή την προσέγγιση. Ψηφιοποίησαν εκατομμύρια βιβλία. Αυτό σημαίνει ότι κάποιος θα μπορούσε να χρησιμοποιήσει υπολογιστικές μεθόδους για να διαβάσει όλα τα βιβλία με το πάτημα ενός κουμπιού. Αυτό είναι πολύ πρακτικό και πάρα πολύ "φανταστικό". ΕΛΕ: Επιτρέψτε μου να σας μιλήσω λίγο για την προέλευση των βιβλίων. Οι συγγραφείς υπάρχουν από αμνημονεύτων χρόνων. Αυτοί οι συγγραφείς προσπαθούσαν να γράψουν βιβλία. Αυτό έγινε πολύ ευκολότερο με την ανακάλυψη της τυπογραφίας πριν από μερικους αιώνες. Από τότε οι συγγραφείς κατάφεραν, σε 129 εκ. ξεχωριστές περιπτώσεις, να εκδώσουν βιβλία Αν τώρα, αυτά τα βιβλία δεν χάθηκαν κάπου μέσα στην ιστορία, τότε είναι σε κάποια βιβλιοθήκη και πολλά από αυτά τα βιβλία η Google τα πήρε από τη βιβλιοθήκη και τα ψηφιοποίησε, σαρώνοντας μέχρι σήμερα 15 εκατομμύρια βιβλία. Όταν η Google ψηφιοποιεί ένα βιβλίο, το μετατρέπει σε μια πολύ όμορφη μορφή. Έχουμε τα δεδομένα (data) και τα μεταδεδομένα (metadata) Έχουμε πληροφορίες για πράγματα όπως, τον τόπο έκδοσης, το συγγραφέα, την ημερομηνία έκδοσης. Και αυτό που κάνουμε είναι να περνάμε από όλα αυτα τα αρχεία και να αποκλείουμε οποιοδήποτε δεδομένο δεν είναι υψηλής ποιότητας. Στο τέλος μας μένει μια συλλογή από 5 εκατομμύρια βιβλία, 500 δισεκατομμύρια λέξεις, μια αλυσίδα χαρακτήρων χίλιες φορές μεγαλύτερη από το ανθρώπινο γονιδίωμα. Ένα κείμενο το οποίο γραμμένο θα έφτανε από εδώ μέχρι το φεγγάρι και πάλι πίσω πάνω από 10 φορές -- ένα αληθινό κομμάτι του πολιτιστικού μας γονιδιώματος Βέβαια αυτό που κάναμε, όταν βρεθήκαμε αντιμέτωποι με μια τέτοια υπερβολή... (Γέλια) ήταν αυτό που θα έκανε οποιοσδήποτε ερευνητής σέβεται τον εαυτό του Διαλέξαμε μια σελιδα απο το XKCD, και είπαμε, "Σταθείτε. Θα εφαρμόσουμε επιστήμη." (Γέλια) ΖΜ: Βέβαια, σκεφτήκαμε, ας διαθέσουμε πρώτα τα δεδομένα σε όλους για να μπορέσουν να τα επεξεργαστούν επιστημονικά. Μετά σκεφτήκαμε, τι δεδομένα μπορούμε να διαθέσουμε; Αυτό που θέλεις να κάνεις, είναι να πάρεις τα βιβλία½ και να διαθέσεις το πλήρες κείμενο και των 5 εκ. βιβλίων Τώρα η Google, και συγκεκριμένα ο Τζον Όργουαντ, μας είπαν μια εξίσωση που έπρεπε να μάθουμε. Έχεις 5 εκατομμύρια βιβλία, δηλαδή 5 εκατομμύρια συγγραφείς και 5 εκατομμύρια ενάγοντες που σημαίνει μια τεράστια αγωγή. Έτσι, παρ' ότι αυτό θα ήταν πολύ, μα πολύ "φανταστικό" δεν θα ήταν καθόλου μα καθόλου πρακτικό. (Γέλια) Για άλλη μια φορά βεβαια, σχεδόν υποκύψαμε, και διαλέξαμε την πολύ πρακτική προσέγγιση, που ήταν λίγο λιγότερο "φανταστική". Είπαμε ότι αντί να διαθέσουμε το πλήρες κείμενο, θα διαθέσουμε στατιστικά για τα βιβλία. Έτσι για παράδειγμα, η φράση "A gleam of happiness." Έχει τέσσερεις λέξεις; το ονομάζουμε τετρ-ακολουθία. Θα σας πούμε πόσες φορές εμφανίστηκε μια συγκεκριμένη τετρ-ακολουθία σε βιβλία το 1801, 1802, 1803, μέχρι το 2008. Αυτό μας δίνει ένα χρονικό διάγραμμα για το πόσο συχνά χρησιμοποιήθηκε η συγκεκριμένη πρόταση μέσα στο χρόνο. Αυτό το κάνουμε για όλες τις λέξεις και προτάσεις που εμφανίζονταν σε αυτά τα βιβλία, και αυτό μας δίνει έναν μεγάλο πίνακα 2 δισεκατομμυρίων γραμμών που μας λέει τον τρόπο που μεταβάλλεται ο πολιτισμός μας. EΛΕ: Έτσι αυτές τις 2 δισεκατομμύρια γραμμές, τις ονομάζουμε 2 δις. ν-ακολουθίες. Τι μας λένε; Οι μεμονωμένες ν-ακολουθίες μετράνε πολιτιστικές τάσεις. Ας σας δώσω ένα παράδειγμα. Ας υποθέσουμε ότι σήμερα επιτυγχάνω, και αύριο θέλω να σας πω πόσο καλά τα πήγα. Έτσι μπορώ να πω, "Εχθές, πέτυχα" Ή εναλλακτικά μπορώ να πω, "Εχθές, επέτυχα" Ποιο πρέπει να χρησιμοποιήσω; Πώς να το ξέρω; Μέχρι πριν από έξι μήνες το καλύτερο που θα μπορούσες να κάνεις θα ήταν, για παράδειγμα, να πας στο συγκεκριμένο ψυχολόγο με τα καταπληκτικά μαλλιά, και να του πεις, "Στιβ, μιας και είσαι ειδήμων στα ανώμαλα ρήματα. τι πρέπει να κάνω;" Και αυτός θα σου έλεγε, "Οι περισσότεροι λένε πέτυχα, αλλά μερικοί λένε και επέτυχα." Και επίσης ήξερες, λίγο ή πολύ, ότι αν πας 200 χρόνια πίσω στο χρόνο, και ρωτήσεις το συγκεκριμένο πολιτικό με εξίσου καταπληκτικά μαλλιά (Γέλια) "Τομ, τι πρέπει να πω;" Θα έλεγε, "Στις μέρες μου, οι περισσότεροι επέτυχαν, αλλά κάποιοι πέτυχαν." Οπότε τώρα θα σας δείξω τα ακατέργαστα δεδομένα. Δύο γραμμές από τον πίνακα των 2 δις. γραμμών. Αυτό που βλέπετε είναι η συχνότητα ανά χρόνο που εμφανίζεται το "πέτυχα" (thrived) και το "επέτυχα" (throve) Αυτές είναι μόνο δύο από τις 2 δις. γραμμές. Έτσι το σύνολο των δεδομένων είναι ένα δις. φορές πιο "φανταστικό" από αυτό το γράφημα. (Γέλια) (Χειροκρότημα) ΖΜ: Τώρα, υπάρχουν πολλές άλλες φωτογραφίες που αξίζουν 500 δις. λέξεις. Για παράδειγμα, αυτή. Αν για παράδειγμα δείτε τη λέξη "γρίπη", θα δείτε ότι κορυφώνεται την περίοδο όπου οι μεγάλες επιδημίες της γρίπης, σκότωναν ανθρώπους ανά τον κόσμο EΛΕ: Αν δεν έχετε πεισθεί ακόμα, η στάθμη της θάλασσας ανεβαίνει, όπως και το ατμοσφαιρικό διοξείδιο του άνθρακα και η παγκόσμια θερμοκρασία. ΖΜ: Ίσως θα θέλατε να κοιτάξετε και αυτή τη συγκεκριμένη ν-ακολουθία, και αυτό για να πείτε στο Νίτσε ότι ο Θεός δεν έχει πεθάνει, παρ' ότι μπορεί να συμφωνήσετε ότι θα χρειαζόταν έναν καλύτερο εκδότη. (Γέλια) EΛΕ: Μπορείς να καταλήξεις σε πολύ αφηρημένες έννοιες με αυτή τη μέθοδο. Για παράδειγμα, να σας διηγηθώ την ιστορία του έτους 1950. Για το μεγαλύτερο διάστημα της παγκόσμιας ιστορίας, κανείς δεν νοιάστηκε για το 1950. Το 1700, το 1800, το 1900, κανείς δεν νοιάστηκε. Τις δεκαετίες του '30 και του '40 κανείς δεν νοιάστηκε. Ξαφνικά, στα μέσα της δεκαετίας του '40 άρχισε να δημιουργείται ένας θόρυβος. Οι άνθρωποι άρχισαν να πιστεύουν ότι το 1950 θα ερχόταν, και θα μπορούσε να είναι σημαντικό. (Γέλια) Αλλά τίποτα δεν απασχόλησε τους ανθρώπους για το 1950 περισσότερο απο το έτος 1950. (Γέλια) Είχε γίνει πλέον εμμονή. Δεν μπορούσαν να σταματήσουν να μιλάνε για όλα τα πράγματα που έκαναν το 1950, όλα τα πράγματα που σκόπευαν να κάνουν το 1950, όλα τα όνειρα που ήθελαν να πραγματοποιήσουν το 1950. Στην πραγματικότητα το έτος 1950 ήταν τόσο συναρπαστικό, που για χρόνια αργότερα, οι άνθρωποι συνέχισαν να μιλάνε για τα εκπληκτικά πράγματα που συνέβησαν, το '51, '52, '53. Ξαφνικά το 1954, κάποιος ξύπνησε και συνειδητοποίησε ότι το 1950 με κάποιο τρόπο... είχε ξεπεραστεί. (Γέλια) Και κάπως έτσι, έσκασε η φούσκα. (Γέλια) Και η ιστορία του 1950, είναι η ιστορία κάθε χρόνου που έχουμε καταγράψει, με μικρές αλλαγές, αφού πλέον έχουμε αυτά τα όμορφα γραφήματα. Και επειδή έχουμε αυτά τα όμορφα γραφήματα, μπορούμε πλέον να μετρήσουμε. Μπορούμε να αναρωτηθούμε, "Πόσο γρήγορα σκάει η φούσκα?" Και φαίνεται ότι μπορούμε να το μετρήσουμε με μεγάλη ακρίβεια. Ανακαλύψαμε εξισώσεις, παρήγαμε γραφήματα, και το καθαρό αποτέλεσμα ήταν ότι η φούσκα σκάει όλο και γρηγορότερα χρόνο με τον χρόνο. Χάνουμε το ενδιαφέρον μας για το παρελθόν όλο και πιο γρήγορα. ΖM: Και τώρα μια μικρή επαγγελματική συμβουλή. Για εσάς που θέλετε να γίνεται διάσημοι, μπορείτε να συμβουλευθείτε τους 25 πιο διάσημους πολιτικούς, συγγραφείς, ηθοποιούς, κλπ. Έτσι αν θέλετε να γίνετε γρήγορα διάσημος, θα πρέπει να γίνετε ηθοποιός γιατί η φήμη αρχίζει να ανεβαίνει μέχρι το τέλος των 20 -- είστε ακόμα νέος και είναι καταπληκτικά. Τώρα, αν μπορείτε να περιμένετε λίγο, θα πρέπει να γίνετε συγγραφέας, γιατί μετά γίνεστε πολύ διάσημος, σαν τον Μαρκ Τουέϊν, για παράδειγμα, πολύ διάσημος. Αλλά αν θέλετε να φτάσετε στην κορυφή θα πρέπει να καθυστερήσετε την ικανοποίηση και φυσικά να γίνετε πολιτικός. Έτσι θα γίνετε διάσημος μέχρι το τέλος των 50, και θα γίνετε πολύ, πολύ διάσημος αργότερα. Επίσης οι επιστήμονες τείνουν να γίνονται διάσημοι όταν είναι πολύ μεγαλύτεροι. Για παράδειγμα οι βιολόγοι και οι φυσικοί, τείνουν να γίνονται σχεδόν όσο διάσημοι και οι ηθοποιοί. Ένα λάθος που δεν πρέπει να κάνετε είναι να γίνετε μαθηματικός. (Γέλια) Αν το κάνετε αυτό, θα πρέπει να σκεφθείτε, "Ωραία, θα κάνω την καλύτερή μου δουλειά στα 20 μου." Αλλά μαντέψτε! Δεν θα νοιάζει κανέναν. (Γέλια) EΛΕ: Υπάρχουν, όμως και πιο απογοητευτικά στοιχεία στις n-ακολουθίες (n-grams). Για παράδειγμα αυτό είναι το γράφημα του Μαρκ Σαγκάλ, ενός καλλιτέχνη γεννημένου το 1887. Και φαίνεται σαν ένα συνηθισμένο γράφημα διάσημου ανθρώπου. Γίνετε όλο και όλο πιο διάσημος, εκτός αν κοιτάξεις τα Γερμανικά. Αν κοιτάξεις τα Γερμανικά, βλέπεις κάτι πολύ περίεργο, κάτι που δεν βλέπεις σχεδόν ποτέ, το οποίο είναι ότι γίνεται υπερβολικά διάσημος, και μετά ξαφνικά πέφτει, βρισκόμενος στο ναδίρ μεταξύ 1933 και 1945, λίγο πριν ανακάμψει αμέσως μετά. Και φυσικά, αυτο που βλεπουμε, είναι ότι ο Μαρκ Σαγκάλ ήταν ένας Εβραίος καλλιτέχνης στην ναζιστική Γερμανία. Αυτά τα τρία σημάδια είναι τόσο δυνατά που δεν χρειάζεται καν να ξέρουμε ότι κάποιος λογοκρίθηκε. Μπορούμε να το συμπεράνουμε επεξεργαζόμενοι πολύ βασικα σήματα. Να ένας απλός τρόπος. Μια λογική προσδοκία είναι ότι η φήμη κάποιου σε μια δεδομένη στιγμή πρέπει να είναι ο μέσος όρος της φήμης του πριν και της φήμης του μετά. Οπότε περιμένουμε περίπου αυτό. Και το συγκρίνουμε με τη φήμη που παρατηρούμε. Και απλά διαιρούμε το ένα με το άλλο για να πάρουμε κάτι που το αποκαλούμε συντελεστή καταστολής. Αν ο συντελεστής καταστολής είναι πολύ, πολύ μικρος τότε πιθανότατα έχετε δεχθεί καταστολή. Αν είναι πολύ μεγάλος, τότε μάλλον έχετε επωφεληθεί από προπαγάνδα. ΖΜ: Τώρα μπορείτε να δείτε την κατανομή συντελεστών καταστολής σε ολόκληρους πληθυσμούς. Για παράδειγμα, εδώ -- αυτός ο συντελεστής καταστολής είναι για 5.000 ανθρώπους που διαλέχθηκαν από Αγγλικά βιβλία όπου δεν υπάρχει κάποιου είδους καταστολή -- θα ήταν έτσι, βασικά πιο επικεντρωμένο στο ένα. Αυτό που περιμένεις βασικά, είναι αυτό που παρατηρείς. Αυτή είναι η κατανομή στη Γερμανία -- πολύ διαφορετική, έχει μετακινηθεί αριστερά. Οι άνθρωποι μιλάνε δύο φορές λιγότερο γι' αυτό απ' ότι θα έπρεπε. Αλλά ακόμα πιο σημαντικό είναι ότι η κατανομή είναι πολύ πλατύτερη. Υπάρχουν πολλοί άνθρωποι που καταλήγουν τέρμα αριστερά στην κατανομή που αναφέρονται 10 φορές λιγότερο απ' ό,τι θα έπρεπε. Αλλά επίσης και πολύ άνθρωποι τέρμα δεξιά που φαίνεται να ευνοούνται από την προπαγάνδα. Αυτή η εικόνα είναι το σήμα κατατεθέν της λογοκρισίας στα βιβλία. ΕΛΕ: Οπότε, ονομάζουμε αυτή τη μέθοδο "πολιτιστικο-ματική" (culturomics). Είναι σαν τη γονιδιωματική. Εκτός του ότι η γονιδιωματική είναι μια ματιά στη βιολογία μέσα από το φακό της συχνότητας βάσης στο ανθρώπινο γονιδίωμα. Η "Πολιτιστικο-ματική" (culturomics) είναι παρόμοια. Είναι η εφαρμογή ανάλυσης σε συλλογές δεδομένων τεραστίων διαστάσεων για τη μελέτη του ανθρώπινου πολιτισμού. Εδώ αντί να κοιτάμε μέσα από τον φακό του γονιδιώματος κοιτάμε μέσα απο τον φακό ψηφιοποιημένων κομματιών των καταγραφών της ιστορίας. Το καλό με την "Πολιτιστικο-ματική" (culturomics) είναι οτι όλοι μπορούν να το κάνουν. Γιατί μπορούν όλοι να το κάνουν; Όλοι μπορούν να το κάνουν, επειδή αυτοί οι τρεις τύποι, ο Τζον Όρουαντ, ο Ματ Γκρέι και ο Ουίλ Μπρόκμαν στην Google, είδαν το πρωτότυπο του "προβολέα ν-ακολουθιών" (n-gram Viewer) και είπαν. "Αυτό είναι πολύ διασκεδαστικό. Πρέπει να το κάνουμε διαθέσιμο σε όλους." Έτσι μέσα σε μόλις δύο εβδομάδες -- δυο εβδομάδες πριν δημοσιευθεί η εργασία μας -- κατάφεραν να κρυπτογραφήσουν μια έκδοση του "προβολέα ν-ακολουθιών" (n-gram Viewer) για το κοινό. Κι έτσι μπορείτε να γράψετε οποιαδήποτε λέξη ή πρόταση θέλετε και να δείτε την ν-ακολουθία της (n-gram) αμέσως -- Επίσης μπορείτε να αναζητήσετε παραδείγματα από τα διάφορα βιβλία οπού η ν-ακολουθιά σας (n-gram) εμφανίζεται. JM: Αυτό χρησιμοποιήθηκε πάνω απο 1 εκ. φορες την πρώτη μέρα, και αυτή είναι η καλύτερη ερώτηση. Οι άνθρωποι θέλουν να προσπαθούν, συνέχεια για το καλύτερο. Απ' ότι φαίνετε όμως, οι άνθρωποι τον 18ο αιώνα δεν ενδιαφερόντουσαν πολύ γι' αυτό. Απ' ότι φαίνετε δεν ήθελαν να "προσπαθούν" (best), αλλά να "προσψαθούν" (beft) Βέβαια, αυτό που έγινε είναι απλά ένα λάθος. Δεν ήταν αγώνας για τη μετριότητα. απλά τότε το "π" (s) γραφότανε αλλιώς, κάπως σας "ψ" (f). Βέβαια η Google, δεν το εντόπισε τότε όποτε το αναφέραμε στο επιστημονικό άρθρο που δημοσιεύσαμε. Αλλά απ' ότι φαίνεται αυτό είναι μόνο μια υπενθύμιση οτι παρ' οτι είναι πολύ διασκεδαστικό, όταν ερμηνεύεις τα γραφήματα θα πρέπει να είσαι πολύ προσεκτικός και να υιοθετείς τις βασικές αρχές των επιστημών. ΕΛΕ: Οι άνθρωποι το χρησιμοποιούν για πολύ διασκεδαστικούς σκοπούς. (Γέλια) Βασικά θα σταματήσουμε να μιλάμε, και θα σας δείξουμε την υπόλοιπη παρουσίαση σιωπηλοί. Αυτός ο άνθρωπος ενδιαφερόταν για την ιστορία του εκνευρισμού. Υπάρχουν πολλοί τύποι εκνευρισμού. Άμα στραμπουλήξεις το δάχτυλό σου, υπάρχει ένα "argh" με μόνο ένα "α". Αν ο πλανήτης Γη εξολοθρευτεί από εξωγήινους για να κάνουν χώρο, για κάποιο διαστρικό ταξίδι, αυτό είναι "aaaaaaaargh" με οχτώ "α." Αυτός ο άνθρωπος μελετάει τα διάφορα "arghs" από ένα μέχρι οχτώ "α". Και απ' ότι φαίνεται τα λιγότερο συχνά "arghs" είναι αυτά που αντιστοιχούν σε περισσότερο εκνευρισμό -- εκτός, παραδόξως, από τις αρχές της δεκαετίας του '80. Πιστεύουμε πως αυτό έχει κάποια σχέση με τον Ρόναλντ Ρήγκαν (Γέλια) ΖΜ: Υπάρχουν πολλές χρήσεις για αυτά τα δεδομένα, αλλά η ουσία είναι ότι ψηφιοποιείται το ιστορικό μητρώο. Η Google έχει ψηφιοποιήσει 15 εκ. βιβλία. Αυτό είναι το 12% όλων των βιβλίων που έχουν ποτέ εκδοθεί. Είναι ένα μεγάλο κομμάτι του ανθρώπινου πολιτισμού. Υπάρχουν πολλά περισσότερα στον πολιτισμό: υπάρχουν χειρόγραφα, εφημερίδες, υπάρχουν πράγματα που δεν είναι κείμενο, όπως τέχνη και πίνακες. Όλα αυτά τυχαίνει να είναι στους υπολογιστές μας, σε υπολογιστές σε όλο το κόσμο. Και όταν αυτό συμβεί, θα αλλάξει τον τρόπο που αντιλαμβανόμαστε το παρελθόν μας, το παρόν μας και τον ανθρώπινο πολιτισμό. Ευχαριστούμε πολύ. (Χειροκρότημα)