< Return to Video

Τι μάθαμε από 5 εκατομμύρια βιβλία

  • 0:00 - 0:02
    Έρεζ Λίμπερμαν Έιντεν: Είναι γνωστό
  • 0:02 - 0:05
    ότι μια εικόνα αξίζει χίλιες λέξεις.
  • 0:07 - 0:09
    Αλλά εμείς στο Χάρβαρντ
  • 0:09 - 0:12
    αναρωτιόμασταν αν αυτό αληθεύει.
  • 0:12 - 0:14
    (Γέλια)
  • 0:14 - 0:19
    Έτσι, μαζέψαμε μια ομάδα ειδικών
    από το Χαρβαρντ, το ΜΙΤ,
  • 0:20 - 0:24
    το Λεξικό Αμερικανικής Κληρονομιάς,
    την εγκυκλοπαίδεια Μπριτάνικα
  • 0:24 - 0:27
    και τους περήφανους χορηγούς μας,
    την Google.
  • 0:28 - 0:30
    Και πέσαμε σε βαθιά περισυλλογή
  • 0:30 - 0:32
    για περίπου τέσσερα χρόνια.
  • 0:33 - 0:37
    Καταλήξαμε σε ένα τρομακτικό συμπέρασμα.
  • 0:37 - 0:40
    Κυρίες και κύριοι,
    μια εικόνα δεν αξίζει 1.000 λέξεις.
  • 0:40 - 0:42
    Πράγματι, βρήκαμε εικόνες
  • 0:42 - 0:47
    που αξίζουν 500 δις λέξεις.
  • 0:47 - 0:50
    Ζαν-Μπατίστ Μισέλ: Πώς
    καταλήξαμε σε αυτό το συμπέρασμα;
  • 0:50 - 0:51
    Ο Έρεζ και εγώ σκεφτόμασταν τρόπους
  • 0:51 - 0:53
    για να δούμε μία συνολική εικόνα
    του ανθρώπινου πολιτισμού
  • 0:53 - 0:56
    και της ανθρώπινης ιστορίας:
    αλλαγή μέσα στον χρόνο.
  • 0:56 - 0:58
    Πάρα πολλά βιβλία γράφτηκαν
    στη διάρκεια των χρόνων
  • 0:58 - 1:01
    Έτσι σκεφτήκαμε ότι ο καλύτερος τρόπος
    να μάθουμε κάτι από αυτά
  • 1:01 - 1:03
    είναι να τα διαβάσουμε όλα.
  • 1:03 - 1:05
    Τώρα βέβαια, αν υπάρχει μια κλίμακα
    για το πόσο "φανταστικό" είναι αυτό
  • 1:05 - 1:08
    τότε πρέπει να φιγουράρει πολύ ψηλά.
  • 1:08 - 1:10
    Τώρα το πρόβλημα εδώ είναι
    ότι υπάρχει ο άξονας του χ,
  • 1:10 - 1:12
    ο οποίος είναι ο άξονας της πρακτικότητας.
  • 1:12 - 1:14
    Αυτή βρίσκεται πολύ, πολύ χαμηλά.
  • 1:14 - 1:17
    (Χειροκρότημα)
  • 1:17 - 1:20
    Τώρα ο κόσμος τείνει να έχει
    μια διαφορετική προσέγγιση,
  • 1:20 - 1:22
    η οποία είναι να παίρνεις μόνο μερικές
    πηγές και να τις διαβάζεις πολύ προσεκτικά.
  • 1:22 - 1:24
    Αυτό είναι πολύ πρακτικό
    αλλά όχι "φανταστικό"
  • 1:24 - 1:27
    Αυτό που πραγματικά θέλουμε να κάνουμε
  • 1:27 - 1:30
    είναι να φτάσουμε στο πρακτικό και "φανταστικό" κομμάτι αυτού του μέρους.
  • 1:30 - 1:33
    Λοιπόν, υπάρχει μια εταιρεία στην άλλη μεριά του ποταμού που λέγεται Google™
  • 1:33 - 1:35
    η οποία πριν από μερικά χρόνια ξεκίνησε ένα έργο ψηφιοποίησης
  • 1:35 - 1:37
    το οποιό θα επέτρεπε αυτή την προσέγγιση.
  • 1:37 - 1:39
    Ψηφιοποίησαν εκατομμύρια βιβλία.
  • 1:39 - 1:42
    Αυτό σημαίνει ότι κάποιος θα μπορούσε να χρησιμοποιήσει υπολογιστικές μεθόδους
  • 1:42 - 1:44
    για να διαβάσει όλα τα βιβλία με το πάτημα ενός κουμπιού.
  • 1:44 - 1:47
    Αυτό είναι πολύ πρακτικό και πάρα πολύ "φανταστικό".
  • 1:48 - 1:50
    ΕΛΕ: Επιτρέψτε μου να σας μιλήσω λίγο για την προέλευση των βιβλίων.
  • 1:50 - 1:53
    Οι συγγραφείς υπάρχουν από αμνημονεύτων χρόνων.
  • 1:53 - 1:56
    Αυτοί οι συγγραφείς προσπαθούσαν να γράψουν βιβλία.
  • 1:56 - 1:58
    Αυτό έγινε πολύ ευκολότερο
  • 1:58 - 2:00
    με την ανακάλυψη της τυπογραφίας πριν από μερικους αιώνες.
  • 2:00 - 2:03
    Από τότε οι συγγραφείς κατάφεραν,
  • 2:03 - 2:05
    σε 129 εκ. ξεχωριστές περιπτώσεις,
  • 2:05 - 2:07
    να εκδώσουν βιβλία
  • 2:07 - 2:09
    Αν τώρα, αυτά τα βιβλία δεν χάθηκαν κάπου μέσα στην ιστορία,
  • 2:09 - 2:11
    τότε είναι σε κάποια βιβλιοθήκη
  • 2:11 - 2:14
    και πολλά από αυτά τα βιβλία η Google τα πήρε από τη βιβλιοθήκη
  • 2:14 - 2:16
    και τα ψηφιοποίησε,
  • 2:16 - 2:18
    σαρώνοντας μέχρι σήμερα 15 εκατομμύρια βιβλία.
  • 2:18 - 2:21
    Όταν η Google ψηφιοποιεί ένα βιβλίο, το μετατρέπει σε μια πολύ όμορφη μορφή.
  • 2:21 - 2:23
    Έχουμε τα δεδομένα (data) και τα μεταδεδομένα (metadata)
  • 2:23 - 2:26
    Έχουμε πληροφορίες για πράγματα όπως, τον τόπο έκδοσης,
  • 2:26 - 2:28
    το συγγραφέα, την ημερομηνία έκδοσης.
  • 2:28 - 2:31
    Και αυτό που κάνουμε είναι να περνάμε από όλα αυτα τα αρχεία
  • 2:31 - 2:35
    και να αποκλείουμε οποιοδήποτε δεδομένο δεν είναι υψηλής ποιότητας.
  • 2:35 - 2:37
    Στο τέλος μας μένει
  • 2:37 - 2:40
    μια συλλογή από 5 εκατομμύρια βιβλία,
  • 2:40 - 2:43
    500 δισεκατομμύρια λέξεις,
  • 2:43 - 2:45
    μια αλυσίδα χαρακτήρων χίλιες φορές μεγαλύτερη
  • 2:45 - 2:48
    από το ανθρώπινο γονιδίωμα.
  • 2:48 - 2:50
    Ένα κείμενο το οποίο γραμμένο
  • 2:50 - 2:52
    θα έφτανε από εδώ μέχρι το φεγγάρι και πάλι πίσω
  • 2:52 - 2:54
    πάνω από 10 φορές --
  • 2:54 - 2:58
    ένα αληθινό κομμάτι του πολιτιστικού μας γονιδιώματος
  • 2:58 - 3:00
    Βέβαια αυτό που κάναμε,
  • 3:00 - 3:03
    όταν βρεθήκαμε αντιμέτωποι με μια τέτοια υπερβολή...
  • 3:03 - 3:05
    (Γέλια)
  • 3:05 - 3:08
    ήταν αυτό που θα έκανε
  • 3:08 - 3:11
    οποιοσδήποτε ερευνητής σέβεται τον εαυτό του
  • 3:11 - 3:13
    Διαλέξαμε μια σελιδα απο το XKCD,
  • 3:13 - 3:15
    και είπαμε, "Σταθείτε.
  • 3:15 - 3:17
    Θα εφαρμόσουμε επιστήμη."
  • 3:17 - 3:19
    (Γέλια)
  • 3:19 - 3:21
    ΖΜ: Βέβαια, σκεφτήκαμε,
  • 3:21 - 3:23
    ας διαθέσουμε πρώτα τα δεδομένα σε όλους
  • 3:23 - 3:25
    για να μπορέσουν να τα επεξεργαστούν επιστημονικά.
  • 3:25 - 3:27
    Μετά σκεφτήκαμε, τι δεδομένα μπορούμε να διαθέσουμε;
  • 3:27 - 3:29
    Αυτό που θέλεις να κάνεις, είναι να πάρεις τα βιβλία½
  • 3:29 - 3:31
    και να διαθέσεις το πλήρες κείμενο και των 5 εκ. βιβλίων
  • 3:31 - 3:33
    Τώρα η Google, και συγκεκριμένα ο Τζον Όργουαντ,
  • 3:33 - 3:35
    μας είπαν μια εξίσωση που έπρεπε να μάθουμε.
  • 3:35 - 3:38
    Έχεις 5 εκατομμύρια βιβλία, δηλαδή 5 εκατομμύρια συγγραφείς
  • 3:38 - 3:41
    και 5 εκατομμύρια ενάγοντες που σημαίνει μια τεράστια αγωγή.
  • 3:41 - 3:43
    Έτσι, παρ' ότι αυτό θα ήταν πολύ, μα πολύ "φανταστικό"
  • 3:43 - 3:46
    δεν θα ήταν καθόλου μα καθόλου πρακτικό.
  • 3:46 - 3:48
    (Γέλια)
  • 3:48 - 3:50
    Για άλλη μια φορά βεβαια, σχεδόν υποκύψαμε,
  • 3:50 - 3:53
    και διαλέξαμε την πολύ πρακτική προσέγγιση, που ήταν λίγο λιγότερο "φανταστική".
  • 3:53 - 3:55
    Είπαμε ότι αντί να διαθέσουμε το πλήρες κείμενο,
  • 3:55 - 3:57
    θα διαθέσουμε στατιστικά για τα βιβλία.
  • 3:57 - 3:59
    Έτσι για παράδειγμα, η φράση "A gleam of happiness."
  • 3:59 - 4:01
    Έχει τέσσερεις λέξεις; το ονομάζουμε τετρ-ακολουθία.
  • 4:01 - 4:03
    Θα σας πούμε πόσες φορές εμφανίστηκε μια συγκεκριμένη
  • 4:03 - 4:05
    τετρ-ακολουθία σε βιβλία το 1801, 1802, 1803,
  • 4:05 - 4:07
    μέχρι το 2008.
  • 4:07 - 4:09
    Αυτό μας δίνει ένα χρονικό διάγραμμα
  • 4:09 - 4:11
    για το πόσο συχνά χρησιμοποιήθηκε η συγκεκριμένη πρόταση μέσα στο χρόνο.
  • 4:11 - 4:14
    Αυτό το κάνουμε για όλες τις λέξεις και προτάσεις που εμφανίζονταν σε αυτά τα βιβλία,
  • 4:14 - 4:17
    και αυτό μας δίνει έναν μεγάλο πίνακα 2 δισεκατομμυρίων γραμμών
  • 4:17 - 4:19
    που μας λέει τον τρόπο που μεταβάλλεται ο πολιτισμός μας.
  • 4:19 - 4:21
    EΛΕ: Έτσι αυτές τις 2 δισεκατομμύρια γραμμές,
  • 4:21 - 4:23
    τις ονομάζουμε 2 δις. ν-ακολουθίες.
  • 4:23 - 4:25
    Τι μας λένε;
  • 4:25 - 4:27
    Οι μεμονωμένες ν-ακολουθίες μετράνε πολιτιστικές τάσεις.
  • 4:27 - 4:29
    Ας σας δώσω ένα παράδειγμα.
  • 4:29 - 4:31
    Ας υποθέσουμε ότι σήμερα επιτυγχάνω,
  • 4:31 - 4:33
    και αύριο θέλω να σας πω πόσο καλά τα πήγα.
  • 4:33 - 4:36
    Έτσι μπορώ να πω, "Εχθές, πέτυχα"
  • 4:36 - 4:39
    Ή εναλλακτικά μπορώ να πω, "Εχθές, επέτυχα"
  • 4:39 - 4:42
    Ποιο πρέπει να χρησιμοποιήσω;
  • 4:42 - 4:44
    Πώς να το ξέρω;
  • 4:44 - 4:46
    Μέχρι πριν από έξι μήνες
  • 4:46 - 4:48
    το καλύτερο που θα μπορούσες να κάνεις
  • 4:48 - 4:50
    θα ήταν, για παράδειγμα,
  • 4:50 - 4:52
    να πας στο συγκεκριμένο ψυχολόγο με τα καταπληκτικά μαλλιά,
  • 4:52 - 4:54
    και να του πεις,
  • 4:54 - 4:57
    "Στιβ, μιας και είσαι ειδήμων στα ανώμαλα ρήματα.
  • 4:57 - 4:59
    τι πρέπει να κάνω;"
  • 4:59 - 5:01
    Και αυτός θα σου έλεγε, "Οι περισσότεροι λένε πέτυχα,
  • 5:01 - 5:04
    αλλά μερικοί λένε και επέτυχα."
  • 5:04 - 5:06
    Και επίσης ήξερες, λίγο ή πολύ,
  • 5:06 - 5:09
    ότι αν πας 200 χρόνια πίσω στο χρόνο,
  • 5:09 - 5:12
    και ρωτήσεις το συγκεκριμένο πολιτικό με εξίσου καταπληκτικά μαλλιά
  • 5:12 - 5:15
    (Γέλια)
  • 5:15 - 5:17
    "Τομ, τι πρέπει να πω;"
  • 5:17 - 5:19
    Θα έλεγε, "Στις μέρες μου, οι περισσότεροι επέτυχαν,
  • 5:19 - 5:22
    αλλά κάποιοι πέτυχαν."
  • 5:22 - 5:24
    Οπότε τώρα θα σας δείξω τα ακατέργαστα δεδομένα.
  • 5:24 - 5:28
    Δύο γραμμές από τον πίνακα των 2 δις. γραμμών.
  • 5:28 - 5:30
    Αυτό που βλέπετε είναι η συχνότητα ανά χρόνο που εμφανίζεται
  • 5:30 - 5:33
    το "πέτυχα" (thrived) και το "επέτυχα" (throve)
  • 5:34 - 5:36
    Αυτές είναι μόνο δύο
  • 5:36 - 5:39
    από τις 2 δις. γραμμές.
  • 5:39 - 5:41
    Έτσι το σύνολο των δεδομένων
  • 5:41 - 5:44
    είναι ένα δις. φορές πιο "φανταστικό" από αυτό το γράφημα.
  • 5:44 - 5:46
    (Γέλια)
  • 5:46 - 5:50
    (Χειροκρότημα)
  • 5:50 - 5:52
    ΖΜ: Τώρα, υπάρχουν πολλές άλλες φωτογραφίες που αξίζουν 500 δις. λέξεις.
  • 5:52 - 5:54
    Για παράδειγμα, αυτή.
  • 5:54 - 5:56
    Αν για παράδειγμα δείτε τη λέξη "γρίπη",
  • 5:56 - 5:58
    θα δείτε ότι κορυφώνεται την περίοδο
  • 5:58 - 6:01
    όπου οι μεγάλες επιδημίες της γρίπης, σκότωναν ανθρώπους ανά τον κόσμο
  • 6:01 - 6:04
    EΛΕ: Αν δεν έχετε πεισθεί ακόμα,
  • 6:04 - 6:06
    η στάθμη της θάλασσας ανεβαίνει,
  • 6:06 - 6:09
    όπως και το ατμοσφαιρικό διοξείδιο του άνθρακα και η παγκόσμια θερμοκρασία.
  • 6:09 - 6:12
    ΖΜ: Ίσως θα θέλατε να κοιτάξετε και αυτή τη συγκεκριμένη ν-ακολουθία,
  • 6:12 - 6:15
    και αυτό για να πείτε στο Νίτσε ότι ο Θεός δεν έχει πεθάνει,
  • 6:15 - 6:18
    παρ' ότι μπορεί να συμφωνήσετε ότι θα χρειαζόταν έναν καλύτερο εκδότη.
  • 6:18 - 6:20
    (Γέλια)
  • 6:20 - 6:23
    EΛΕ: Μπορείς να καταλήξεις σε πολύ αφηρημένες έννοιες με αυτή τη μέθοδο.
  • 6:23 - 6:25
    Για παράδειγμα, να σας διηγηθώ την ιστορία
  • 6:25 - 6:27
    του έτους 1950.
  • 6:27 - 6:29
    Για το μεγαλύτερο διάστημα της παγκόσμιας ιστορίας,
  • 6:29 - 6:31
    κανείς δεν νοιάστηκε για το 1950.
  • 6:31 - 6:33
    Το 1700, το 1800, το 1900,
  • 6:33 - 6:36
    κανείς δεν νοιάστηκε.
  • 6:37 - 6:39
    Τις δεκαετίες του '30 και του '40
  • 6:39 - 6:41
    κανείς δεν νοιάστηκε.
  • 6:41 - 6:43
    Ξαφνικά, στα μέσα της δεκαετίας του '40
  • 6:43 - 6:45
    άρχισε να δημιουργείται ένας θόρυβος.
  • 6:45 - 6:47
    Οι άνθρωποι άρχισαν να πιστεύουν ότι το 1950 θα ερχόταν,
  • 6:47 - 6:49
    και θα μπορούσε να είναι σημαντικό.
  • 6:49 - 6:52
    (Γέλια)
  • 6:52 - 6:55
    Αλλά τίποτα δεν απασχόλησε τους ανθρώπους για το 1950
  • 6:55 - 6:58
    περισσότερο απο το έτος 1950.
  • 6:58 - 7:01
    (Γέλια)
  • 7:01 - 7:03
    Είχε γίνει πλέον εμμονή.
  • 7:03 - 7:05
    Δεν μπορούσαν να σταματήσουν να μιλάνε
  • 7:05 - 7:08
    για όλα τα πράγματα που έκαναν το 1950,
  • 7:08 - 7:11
    όλα τα πράγματα που σκόπευαν να κάνουν το 1950,
  • 7:11 - 7:16
    όλα τα όνειρα που ήθελαν να πραγματοποιήσουν το 1950.
  • 7:16 - 7:18
    Στην πραγματικότητα το έτος 1950 ήταν τόσο συναρπαστικό,
  • 7:18 - 7:20
    που για χρόνια αργότερα,
  • 7:20 - 7:23
    οι άνθρωποι συνέχισαν να μιλάνε για τα εκπληκτικά πράγματα που συνέβησαν,
  • 7:23 - 7:25
    το '51, '52, '53.
  • 7:25 - 7:27
    Ξαφνικά το 1954,
  • 7:27 - 7:29
    κάποιος ξύπνησε και συνειδητοποίησε
  • 7:29 - 7:33
    ότι το 1950 με κάποιο τρόπο... είχε ξεπεραστεί.
  • 7:33 - 7:35
    (Γέλια)
  • 7:35 - 7:37
    Και κάπως έτσι, έσκασε η φούσκα.
  • 7:37 - 7:39
    (Γέλια)
  • 7:39 - 7:41
    Και η ιστορία του 1950,
  • 7:41 - 7:43
    είναι η ιστορία κάθε χρόνου
    που έχουμε καταγράψει,
  • 7:43 - 7:46
    με μικρές αλλαγές, αφού πλέον έχουμε
    αυτά τα όμορφα γραφήματα.
  • 7:46 - 7:49
    Και επειδή έχουμε αυτά τα όμορφα
    γραφήματα, μπορούμε πλέον να μετρήσουμε.
  • 7:49 - 7:51
    Μπορούμε να αναρωτηθούμε,
    "Πόσο γρήγορα σκάει η φούσκα?"
  • 7:51 - 7:54
    Και φαίνεται ότι μπορούμε
    να το μετρήσουμε με μεγάλη ακρίβεια.
  • 7:54 - 7:57
    Ανακαλύψαμε εξισώσεις, παρήγαμε γραφήματα,
  • 7:57 - 7:59
    και το καθαρό αποτέλεσμα ήταν
  • 7:59 - 8:02
    ότι η φούσκα σκάει όλο και γρηγορότερα
  • 8:02 - 8:04
    χρόνο με τον χρόνο.
  • 8:04 - 8:09
    Χάνουμε το ενδιαφέρον μας
    για το παρελθόν όλο και πιο γρήγορα.
  • 8:09 - 8:11
    ΖM: Και τώρα μια μικρή
    επαγγελματική συμβουλή.
  • 8:11 - 8:13
    Για εσάς που θέλετε να γίνεται διάσημοι,
  • 8:13 - 8:15
    μπορείτε να συμβουλευθείτε
    τους 25 πιο διάσημους πολιτικούς,
  • 8:15 - 8:17
    συγγραφείς, ηθοποιούς, κλπ.
  • 8:17 - 8:20
    Έτσι αν θέλετε να γίνετε γρήγορα διάσημος,
    θα πρέπει να γίνετε ηθοποιός
  • 8:20 - 8:22
    γιατί η φήμη αρχίζει να ανεβαίνει
    μέχρι το τέλος των 20 --
  • 8:22 - 8:24
    είστε ακόμα νέος και είναι καταπληκτικά.
  • 8:24 - 8:26
    Τώρα, αν μπορείτε να περιμένετε λίγο,
    θα πρέπει να γίνετε συγγραφέας,
  • 8:26 - 8:28
    γιατί μετά γίνεστε πολύ διάσημος,
  • 8:28 - 8:30
    σαν τον Μαρκ Τουέϊν,
    για παράδειγμα, πολύ διάσημος.
  • 8:30 - 8:32
    Αλλά αν θέλετε να φτάσετε στην κορυφή
  • 8:32 - 8:34
    θα πρέπει να καθυστερήσετε την ικανοποίηση
  • 8:34 - 8:36
    και φυσικά να γίνετε πολιτικός.
  • 8:36 - 8:38
    Έτσι θα γίνετε διάσημος
    μέχρι το τέλος των 50,
  • 8:38 - 8:40
    και θα γίνετε πολύ,
    πολύ διάσημος αργότερα.
  • 8:40 - 8:43
    Επίσης οι επιστήμονες τείνουν να γίνονται
    διάσημοι όταν είναι πολύ μεγαλύτεροι.
  • 8:43 - 8:45
    Για παράδειγμα οι βιολόγοι και οι φυσικοί,
  • 8:45 - 8:47
    τείνουν να γίνονται σχεδόν
    όσο διάσημοι και οι ηθοποιοί.
  • 8:47 - 8:50
    Ένα λάθος που δεν πρέπει να κάνετε
    είναι να γίνετε μαθηματικός.
  • 8:50 - 8:52
    (Γέλια)
  • 8:52 - 8:54
    Αν το κάνετε αυτό,
  • 8:54 - 8:57
    θα πρέπει να σκεφθείτε, "Ωραία, θα κάνω
    την καλύτερή μου δουλειά στα 20 μου."
  • 8:57 - 8:59
    Αλλά μαντέψτε! Δεν θα νοιάζει κανέναν.
  • 8:59 - 9:02
    (Γέλια)
  • 9:02 - 9:04
    EΛΕ: Υπάρχουν, όμως και
    πιο απογοητευτικά στοιχεία
  • 9:04 - 9:06
    στις n-ακολουθίες (n-grams).
  • 9:06 - 9:08
    Για παράδειγμα αυτό είναι
    το γράφημα του Μαρκ Σαγκάλ,
  • 9:08 - 9:10
    ενός καλλιτέχνη γεννημένου το 1887.
  • 9:10 - 9:13
    Και φαίνεται σαν ένα συνηθισμένο
    γράφημα διάσημου ανθρώπου.
  • 9:13 - 9:17
    Γίνετε όλο και όλο πιο διάσημος,
  • 9:17 - 9:19
    εκτός αν κοιτάξεις τα Γερμανικά.
  • 9:19 - 9:21
    Αν κοιτάξεις τα Γερμανικά,
    βλέπεις κάτι πολύ περίεργο,
  • 9:21 - 9:23
    κάτι που δεν βλέπεις σχεδόν ποτέ,
  • 9:23 - 9:25
    το οποίο είναι ότι γίνεται
    υπερβολικά διάσημος,
  • 9:25 - 9:27
    και μετά ξαφνικά πέφτει,
  • 9:27 - 9:30
    βρισκόμενος στο ναδίρ
    μεταξύ 1933 και 1945,
  • 9:30 - 9:33
    λίγο πριν ανακάμψει αμέσως μετά.
  • 9:33 - 9:35
    Και φυσικά, αυτο που βλεπουμε,
  • 9:35 - 9:38
    είναι ότι ο Μαρκ Σαγκάλ
    ήταν ένας Εβραίος καλλιτέχνης
  • 9:38 - 9:40
    στην ναζιστική Γερμανία.
  • 9:40 - 9:42
    Αυτά τα τρία σημάδια
  • 9:42 - 9:44
    είναι τόσο δυνατά
  • 9:44 - 9:47
    που δεν χρειάζεται καν να ξέρουμε
    ότι κάποιος λογοκρίθηκε.
  • 9:47 - 9:49
    Μπορούμε να το συμπεράνουμε
  • 9:49 - 9:51
    επεξεργαζόμενοι πολύ βασικα σήματα.
  • 9:51 - 9:53
    Να ένας απλός τρόπος.
  • 9:53 - 9:55
    Μια λογική προσδοκία είναι ότι
  • 9:55 - 9:57
    η φήμη κάποιου σε μια δεδομένη στιγμή
  • 9:57 - 9:59
    πρέπει να είναι ο μέσος όρος
    της φήμης του πριν
  • 9:59 - 10:01
    και της φήμης του μετά.
  • 10:01 - 10:03
    Οπότε περιμένουμε περίπου αυτό.
  • 10:03 - 10:06
    Και το συγκρίνουμε
    με τη φήμη που παρατηρούμε.
  • 10:06 - 10:08
    Και απλά διαιρούμε το ένα με το άλλο
  • 10:08 - 10:10
    για να πάρουμε κάτι που το αποκαλούμε
    συντελεστή καταστολής.
  • 10:10 - 10:13
    Αν ο συντελεστής καταστολής
    είναι πολύ, πολύ μικρος
  • 10:13 - 10:15
    τότε πιθανότατα έχετε δεχθεί καταστολή.
  • 10:15 - 10:18
    Αν είναι πολύ μεγάλος, τότε μάλλον
    έχετε επωφεληθεί από προπαγάνδα.
  • 10:19 - 10:21
    ΖΜ: Τώρα μπορείτε να δείτε
  • 10:21 - 10:24
    την κατανομή συντελεστών καταστολής
    σε ολόκληρους πληθυσμούς.
  • 10:24 - 10:26
    Για παράδειγμα, εδώ --
  • 10:26 - 10:28
    αυτός ο συντελεστής καταστολής
    είναι για 5.000 ανθρώπους
  • 10:28 - 10:30
    που διαλέχθηκαν από Αγγλικά βιβλία όπου
    δεν υπάρχει κάποιου είδους καταστολή --
  • 10:30 - 10:32
    θα ήταν έτσι, βασικά
    πιο επικεντρωμένο στο ένα.
  • 10:32 - 10:34
    Αυτό που περιμένεις βασικά,
    είναι αυτό που παρατηρείς.
  • 10:34 - 10:36
    Αυτή είναι η κατανομή στη Γερμανία --
  • 10:36 - 10:38
    πολύ διαφορετική,
    έχει μετακινηθεί αριστερά.
  • 10:38 - 10:41
    Οι άνθρωποι μιλάνε δύο φορές λιγότερο
    γι' αυτό απ' ότι θα έπρεπε.
  • 10:41 - 10:43
    Αλλά ακόμα πιο σημαντικό είναι
    ότι η κατανομή είναι πολύ πλατύτερη.
  • 10:43 - 10:46
    Υπάρχουν πολλοί άνθρωποι που καταλήγουν
    τέρμα αριστερά στην κατανομή
  • 10:46 - 10:49
    που αναφέρονται 10 φορές
    λιγότερο απ' ό,τι θα έπρεπε.
  • 10:49 - 10:51
    Αλλά επίσης και πολύ άνθρωποι τέρμα δεξιά
  • 10:51 - 10:53
    που φαίνεται να ευνοούνται από την προπαγάνδα.
  • 10:53 - 10:56
    Αυτή η εικόνα είναι το σήμα κατατεθέν
    της λογοκρισίας στα βιβλία.
  • 10:56 - 10:58
    ΕΛΕ: Οπότε, ονομάζουμε αυτή τη μέθοδο
  • 10:58 - 11:00
    "πολιτιστικο-ματική" (culturomics).
  • 11:00 - 11:02
    Είναι σαν τη γονιδιωματική.
  • 11:02 - 11:04
    Εκτός του ότι η γονιδιωματική
    είναι μια ματιά στη βιολογία
  • 11:04 - 11:07
    μέσα από το φακό της συχνότητας
    βάσης στο ανθρώπινο γονιδίωμα.
  • 11:07 - 11:09
    Η "Πολιτιστικο-ματική" (culturomics) είναι παρόμοια.
  • 11:09 - 11:12
    Είναι η εφαρμογή ανάλυσης σε συλλογές
    δεδομένων τεραστίων διαστάσεων
  • 11:12 - 11:14
    για τη μελέτη του ανθρώπινου πολιτισμού.
  • 11:14 - 11:16
    Εδώ αντί να κοιτάμε μέσα
    από τον φακό του γονιδιώματος
  • 11:16 - 11:19
    κοιτάμε μέσα απο τον φακό ψηφιοποιημένων
    κομματιών των καταγραφών της ιστορίας.
  • 11:19 - 11:21
    Το καλό με την "Πολιτιστικο-ματική" (culturomics)
  • 11:21 - 11:23
    είναι οτι όλοι μπορούν να το κάνουν.
  • 11:23 - 11:25
    Γιατί μπορούν όλοι να το κάνουν;
  • 11:25 - 11:27
    Όλοι μπορούν να το κάνουν,
    επειδή αυτοί οι τρεις τύποι,
  • 11:27 - 11:30
    ο Τζον Όρουαντ, ο Ματ Γκρέι
    και ο Ουίλ Μπρόκμαν στην Google,
  • 11:30 - 11:32
    είδαν το πρωτότυπο του
    "προβολέα ν-ακολουθιών" (n-gram Viewer)
  • 11:32 - 11:34
    και είπαν. "Αυτό είναι πολύ διασκεδαστικό.
  • 11:34 - 11:37
    Πρέπει να το κάνουμε διαθέσιμο σε όλους."
  • 11:37 - 11:39
    Έτσι μέσα σε μόλις δύο εβδομάδες -- δυο
    εβδομάδες πριν δημοσιευθεί η εργασία μας --
  • 11:39 - 11:42
    κατάφεραν να κρυπτογραφήσουν μια έκδοση
    του "προβολέα ν-ακολουθιών" (n-gram Viewer) για το κοινό.
  • 11:42 - 11:45
    Κι έτσι μπορείτε να γράψετε οποιαδήποτε λέξη ή πρόταση θέλετε
  • 11:45 - 11:47
    και να δείτε την ν-ακολουθία
    της (n-gram) αμέσως --
  • 11:47 - 11:49
    Επίσης μπορείτε να αναζητήσετε παραδείγματα
    από τα διάφορα βιβλία
  • 11:49 - 11:51
    οπού η ν-ακολουθιά σας (n-gram) εμφανίζεται.
  • 11:51 - 11:53
    JM: Αυτό χρησιμοποιήθηκε
    πάνω απο 1 εκ. φορες την πρώτη μέρα,
  • 11:53 - 11:55
    και αυτή είναι η καλύτερη ερώτηση.
  • 11:55 - 11:58
    Οι άνθρωποι θέλουν να προσπαθούν,
    συνέχεια για το καλύτερο.
  • 11:58 - 12:01
    Απ' ότι φαίνετε όμως, οι άνθρωποι τον 18ο
    αιώνα δεν ενδιαφερόντουσαν πολύ γι' αυτό.
  • 12:01 - 12:04
    Απ' ότι φαίνετε δεν ήθελαν να "προσπαθούν"
    (best), αλλά να "προσψαθούν" (beft)
  • 12:04 - 12:07
    Βέβαια, αυτό που έγινε
    είναι απλά ένα λάθος.
  • 12:07 - 12:09
    Δεν ήταν αγώνας για τη μετριότητα.
  • 12:09 - 12:12
    απλά τότε το "π" (s) γραφότανε
    αλλιώς, κάπως σας "ψ" (f).
  • 12:12 - 12:15
    Βέβαια η Google, δεν το εντόπισε τότε
  • 12:15 - 12:18
    όποτε το αναφέραμε
    στο επιστημονικό άρθρο που δημοσιεύσαμε.
  • 12:18 - 12:20
    Αλλά απ' ότι φαίνεται αυτό
    είναι μόνο μια υπενθύμιση
  • 12:20 - 12:22
    οτι παρ' οτι είναι πολύ διασκεδαστικό,
  • 12:22 - 12:24
    όταν ερμηνεύεις τα γραφήματα
    θα πρέπει να είσαι πολύ προσεκτικός
  • 12:24 - 12:27
    και να υιοθετείς
    τις βασικές αρχές των επιστημών.
  • 12:27 - 12:30
    ΕΛΕ: Οι άνθρωποι το χρησιμοποιούν
    για πολύ διασκεδαστικούς σκοπούς.
  • 12:30 - 12:37
    (Γέλια)
  • 12:37 - 12:39
    Βασικά θα σταματήσουμε να μιλάμε,
  • 12:39 - 12:42
    και θα σας δείξουμε
    την υπόλοιπη παρουσίαση σιωπηλοί.
  • 12:42 - 12:45
    Αυτός ο άνθρωπος ενδιαφερόταν
    για την ιστορία του εκνευρισμού.
  • 12:45 - 12:48
    Υπάρχουν πολλοί τύποι εκνευρισμού.
  • 12:48 - 12:51
    Άμα στραμπουλήξεις το δάχτυλό σου,
    υπάρχει ένα "argh" με μόνο ένα "α".
  • 12:51 - 12:53
    Αν ο πλανήτης Γη εξολοθρευτεί
    από εξωγήινους
  • 12:53 - 12:55
    για να κάνουν χώρο,
    για κάποιο διαστρικό ταξίδι,
  • 12:55 - 12:57
    αυτό είναι "aaaaaaaargh" με οχτώ "α."
  • 12:57 - 12:59
    Αυτός ο άνθρωπος μελετάει
    τα διάφορα "arghs"
  • 12:59 - 13:01
    από ένα μέχρι οχτώ "α".
  • 13:01 - 13:03
    Και απ' ότι φαίνεται
  • 13:03 - 13:05
    τα λιγότερο συχνά "arghs"
  • 13:05 - 13:08
    είναι αυτά που αντιστοιχούν
    σε περισσότερο εκνευρισμό --
  • 13:08 - 13:11
    εκτός, παραδόξως,
    από τις αρχές της δεκαετίας του '80.
  • 13:11 - 13:13
    Πιστεύουμε πως αυτό έχει κάποια
    σχέση με τον Ρόναλντ Ρήγκαν
  • 13:13 - 13:15
    (Γέλια)
  • 13:15 - 13:18
    ΖΜ: Υπάρχουν πολλές χρήσεις
    για αυτά τα δεδομένα,
  • 13:18 - 13:21
    αλλά η ουσία είναι ότι ψηφιοποιείται
    το ιστορικό μητρώο.
  • 13:21 - 13:23
    Η Google έχει ψηφιοποιήσει 15 εκ. βιβλία.
  • 13:23 - 13:25
    Αυτό είναι το 12% όλων των βιβλίων
    που έχουν ποτέ εκδοθεί.
  • 13:25 - 13:28
    Είναι ένα μεγάλο κομμάτι
    του ανθρώπινου πολιτισμού.
  • 13:28 - 13:31
    Υπάρχουν πολλά περισσότερα στον
    πολιτισμό: υπάρχουν χειρόγραφα, εφημερίδες,
  • 13:31 - 13:33
    υπάρχουν πράγματα που δεν είναι
    κείμενο, όπως τέχνη και πίνακες.
  • 13:33 - 13:35
    Όλα αυτά τυχαίνει να είναι
    στους υπολογιστές μας,
  • 13:35 - 13:37
    σε υπολογιστές σε όλο το κόσμο.
  • 13:37 - 13:40
    Και όταν αυτό συμβεί, θα αλλάξει
    τον τρόπο που αντιλαμβανόμαστε
  • 13:40 - 13:42
    το παρελθόν μας, το παρόν μας
    και τον ανθρώπινο πολιτισμό.
  • 13:42 - 13:44
    Ευχαριστούμε πολύ.
  • 13:44 - 13:47
    (Χειροκρότημα)
Title:
Τι μάθαμε από 5 εκατομμύρια βιβλία
Speaker:
Ζαν-Μπατίστ Μισέλ + Έρεζ Λίμπερμαν Έιντεν
Description:

Παίξατε ποτέ με τον «προβολέα ν-ακολουθιών» (n-gram viewer) της Google? Είναι ένα εθιστικό εργαλείο που σου επιτρέπει να ψάχνεις για λέξεις και ιδέες σε μία βάση δεδομένων 5 εκατομμυρίων βιβλίων ανά τους αιώνες. Ο Έρεζ Λίμπερμαν Έιντεν και ο Ζαν-Μπατίστ Μισέλ δείχνουν πώς δουλεύει και παρουσιάζουν μερικά εκπληκτικά πράγματα που μπορούμε να μάθουμε από 500 δις λέξεις.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Chryssa R. Takahashi edited Greek subtitles for What we learned from 5 million books
Spispi Met added a translation

Greek subtitles

Revisions Compare revisions