Τι μάθαμε από 5 εκατομμύρια βιβλία
-
0:00 - 0:02Έρεζ Λίμπερμαν Έιντεν: Είναι γνωστό
-
0:02 - 0:05ότι μια εικόνα αξίζει χίλιες λέξεις.
-
0:07 - 0:09Αλλά εμείς στο Χάρβαρντ
-
0:09 - 0:12αναρωτιόμασταν αν αυτό αληθεύει.
-
0:12 - 0:14(Γέλια)
-
0:14 - 0:19Έτσι, μαζέψαμε μια ομάδα ειδικών
από το Χαρβαρντ, το ΜΙΤ, -
0:20 - 0:24το Λεξικό Αμερικανικής Κληρονομιάς,
την εγκυκλοπαίδεια Μπριτάνικα -
0:24 - 0:27και τους περήφανους χορηγούς μας,
την Google. -
0:28 - 0:30Και πέσαμε σε βαθιά περισυλλογή
-
0:30 - 0:32για περίπου τέσσερα χρόνια.
-
0:33 - 0:37Καταλήξαμε σε ένα τρομακτικό συμπέρασμα.
-
0:37 - 0:40Κυρίες και κύριοι,
μια εικόνα δεν αξίζει 1.000 λέξεις. -
0:40 - 0:42Πράγματι, βρήκαμε εικόνες
-
0:42 - 0:47που αξίζουν 500 δις λέξεις.
-
0:47 - 0:50Ζαν-Μπατίστ Μισέλ: Πώς
καταλήξαμε σε αυτό το συμπέρασμα; -
0:50 - 0:51Ο Έρεζ και εγώ σκεφτόμασταν τρόπους
-
0:51 - 0:53για να δούμε μία συνολική εικόνα
του ανθρώπινου πολιτισμού -
0:53 - 0:56και της ανθρώπινης ιστορίας:
αλλαγή μέσα στον χρόνο. -
0:56 - 0:58Πάρα πολλά βιβλία γράφτηκαν
στη διάρκεια των χρόνων -
0:58 - 1:01Έτσι σκεφτήκαμε ότι ο καλύτερος τρόπος
να μάθουμε κάτι από αυτά -
1:01 - 1:03είναι να τα διαβάσουμε όλα.
-
1:03 - 1:05Τώρα βέβαια, αν υπάρχει μια κλίμακα
για το πόσο "φανταστικό" είναι αυτό -
1:05 - 1:08τότε πρέπει να φιγουράρει πολύ ψηλά.
-
1:08 - 1:10Τώρα το πρόβλημα εδώ είναι
ότι υπάρχει ο άξονας του χ, -
1:10 - 1:12ο οποίος είναι ο άξονας της πρακτικότητας.
-
1:12 - 1:14Αυτή βρίσκεται πολύ, πολύ χαμηλά.
-
1:14 - 1:17(Χειροκρότημα)
-
1:17 - 1:20Τώρα ο κόσμος τείνει να έχει
μια διαφορετική προσέγγιση, -
1:20 - 1:22η οποία είναι να παίρνεις μόνο μερικές
πηγές και να τις διαβάζεις πολύ προσεκτικά. -
1:22 - 1:24Αυτό είναι πολύ πρακτικό
αλλά όχι "φανταστικό" -
1:24 - 1:27Αυτό που πραγματικά θέλουμε να κάνουμε
-
1:27 - 1:30είναι να φτάσουμε στο πρακτικό και "φανταστικό" κομμάτι αυτού του μέρους.
-
1:30 - 1:33Λοιπόν, υπάρχει μια εταιρεία στην άλλη μεριά του ποταμού που λέγεται Google™
-
1:33 - 1:35η οποία πριν από μερικά χρόνια ξεκίνησε ένα έργο ψηφιοποίησης
-
1:35 - 1:37το οποιό θα επέτρεπε αυτή την προσέγγιση.
-
1:37 - 1:39Ψηφιοποίησαν εκατομμύρια βιβλία.
-
1:39 - 1:42Αυτό σημαίνει ότι κάποιος θα μπορούσε να χρησιμοποιήσει υπολογιστικές μεθόδους
-
1:42 - 1:44για να διαβάσει όλα τα βιβλία με το πάτημα ενός κουμπιού.
-
1:44 - 1:47Αυτό είναι πολύ πρακτικό και πάρα πολύ "φανταστικό".
-
1:48 - 1:50ΕΛΕ: Επιτρέψτε μου να σας μιλήσω λίγο για την προέλευση των βιβλίων.
-
1:50 - 1:53Οι συγγραφείς υπάρχουν από αμνημονεύτων χρόνων.
-
1:53 - 1:56Αυτοί οι συγγραφείς προσπαθούσαν να γράψουν βιβλία.
-
1:56 - 1:58Αυτό έγινε πολύ ευκολότερο
-
1:58 - 2:00με την ανακάλυψη της τυπογραφίας πριν από μερικους αιώνες.
-
2:00 - 2:03Από τότε οι συγγραφείς κατάφεραν,
-
2:03 - 2:05σε 129 εκ. ξεχωριστές περιπτώσεις,
-
2:05 - 2:07να εκδώσουν βιβλία
-
2:07 - 2:09Αν τώρα, αυτά τα βιβλία δεν χάθηκαν κάπου μέσα στην ιστορία,
-
2:09 - 2:11τότε είναι σε κάποια βιβλιοθήκη
-
2:11 - 2:14και πολλά από αυτά τα βιβλία η Google τα πήρε από τη βιβλιοθήκη
-
2:14 - 2:16και τα ψηφιοποίησε,
-
2:16 - 2:18σαρώνοντας μέχρι σήμερα 15 εκατομμύρια βιβλία.
-
2:18 - 2:21Όταν η Google ψηφιοποιεί ένα βιβλίο, το μετατρέπει σε μια πολύ όμορφη μορφή.
-
2:21 - 2:23Έχουμε τα δεδομένα (data) και τα μεταδεδομένα (metadata)
-
2:23 - 2:26Έχουμε πληροφορίες για πράγματα όπως, τον τόπο έκδοσης,
-
2:26 - 2:28το συγγραφέα, την ημερομηνία έκδοσης.
-
2:28 - 2:31Και αυτό που κάνουμε είναι να περνάμε από όλα αυτα τα αρχεία
-
2:31 - 2:35και να αποκλείουμε οποιοδήποτε δεδομένο δεν είναι υψηλής ποιότητας.
-
2:35 - 2:37Στο τέλος μας μένει
-
2:37 - 2:40μια συλλογή από 5 εκατομμύρια βιβλία,
-
2:40 - 2:43500 δισεκατομμύρια λέξεις,
-
2:43 - 2:45μια αλυσίδα χαρακτήρων χίλιες φορές μεγαλύτερη
-
2:45 - 2:48από το ανθρώπινο γονιδίωμα.
-
2:48 - 2:50Ένα κείμενο το οποίο γραμμένο
-
2:50 - 2:52θα έφτανε από εδώ μέχρι το φεγγάρι και πάλι πίσω
-
2:52 - 2:54πάνω από 10 φορές --
-
2:54 - 2:58ένα αληθινό κομμάτι του πολιτιστικού μας γονιδιώματος
-
2:58 - 3:00Βέβαια αυτό που κάναμε,
-
3:00 - 3:03όταν βρεθήκαμε αντιμέτωποι με μια τέτοια υπερβολή...
-
3:03 - 3:05(Γέλια)
-
3:05 - 3:08ήταν αυτό που θα έκανε
-
3:08 - 3:11οποιοσδήποτε ερευνητής σέβεται τον εαυτό του
-
3:11 - 3:13Διαλέξαμε μια σελιδα απο το XKCD,
-
3:13 - 3:15και είπαμε, "Σταθείτε.
-
3:15 - 3:17Θα εφαρμόσουμε επιστήμη."
-
3:17 - 3:19(Γέλια)
-
3:19 - 3:21ΖΜ: Βέβαια, σκεφτήκαμε,
-
3:21 - 3:23ας διαθέσουμε πρώτα τα δεδομένα σε όλους
-
3:23 - 3:25για να μπορέσουν να τα επεξεργαστούν επιστημονικά.
-
3:25 - 3:27Μετά σκεφτήκαμε, τι δεδομένα μπορούμε να διαθέσουμε;
-
3:27 - 3:29Αυτό που θέλεις να κάνεις, είναι να πάρεις τα βιβλία½
-
3:29 - 3:31και να διαθέσεις το πλήρες κείμενο και των 5 εκ. βιβλίων
-
3:31 - 3:33Τώρα η Google, και συγκεκριμένα ο Τζον Όργουαντ,
-
3:33 - 3:35μας είπαν μια εξίσωση που έπρεπε να μάθουμε.
-
3:35 - 3:38Έχεις 5 εκατομμύρια βιβλία, δηλαδή 5 εκατομμύρια συγγραφείς
-
3:38 - 3:41και 5 εκατομμύρια ενάγοντες που σημαίνει μια τεράστια αγωγή.
-
3:41 - 3:43Έτσι, παρ' ότι αυτό θα ήταν πολύ, μα πολύ "φανταστικό"
-
3:43 - 3:46δεν θα ήταν καθόλου μα καθόλου πρακτικό.
-
3:46 - 3:48(Γέλια)
-
3:48 - 3:50Για άλλη μια φορά βεβαια, σχεδόν υποκύψαμε,
-
3:50 - 3:53και διαλέξαμε την πολύ πρακτική προσέγγιση, που ήταν λίγο λιγότερο "φανταστική".
-
3:53 - 3:55Είπαμε ότι αντί να διαθέσουμε το πλήρες κείμενο,
-
3:55 - 3:57θα διαθέσουμε στατιστικά για τα βιβλία.
-
3:57 - 3:59Έτσι για παράδειγμα, η φράση "A gleam of happiness."
-
3:59 - 4:01Έχει τέσσερεις λέξεις; το ονομάζουμε τετρ-ακολουθία.
-
4:01 - 4:03Θα σας πούμε πόσες φορές εμφανίστηκε μια συγκεκριμένη
-
4:03 - 4:05τετρ-ακολουθία σε βιβλία το 1801, 1802, 1803,
-
4:05 - 4:07μέχρι το 2008.
-
4:07 - 4:09Αυτό μας δίνει ένα χρονικό διάγραμμα
-
4:09 - 4:11για το πόσο συχνά χρησιμοποιήθηκε η συγκεκριμένη πρόταση μέσα στο χρόνο.
-
4:11 - 4:14Αυτό το κάνουμε για όλες τις λέξεις και προτάσεις που εμφανίζονταν σε αυτά τα βιβλία,
-
4:14 - 4:17και αυτό μας δίνει έναν μεγάλο πίνακα 2 δισεκατομμυρίων γραμμών
-
4:17 - 4:19που μας λέει τον τρόπο που μεταβάλλεται ο πολιτισμός μας.
-
4:19 - 4:21EΛΕ: Έτσι αυτές τις 2 δισεκατομμύρια γραμμές,
-
4:21 - 4:23τις ονομάζουμε 2 δις. ν-ακολουθίες.
-
4:23 - 4:25Τι μας λένε;
-
4:25 - 4:27Οι μεμονωμένες ν-ακολουθίες μετράνε πολιτιστικές τάσεις.
-
4:27 - 4:29Ας σας δώσω ένα παράδειγμα.
-
4:29 - 4:31Ας υποθέσουμε ότι σήμερα επιτυγχάνω,
-
4:31 - 4:33και αύριο θέλω να σας πω πόσο καλά τα πήγα.
-
4:33 - 4:36Έτσι μπορώ να πω, "Εχθές, πέτυχα"
-
4:36 - 4:39Ή εναλλακτικά μπορώ να πω, "Εχθές, επέτυχα"
-
4:39 - 4:42Ποιο πρέπει να χρησιμοποιήσω;
-
4:42 - 4:44Πώς να το ξέρω;
-
4:44 - 4:46Μέχρι πριν από έξι μήνες
-
4:46 - 4:48το καλύτερο που θα μπορούσες να κάνεις
-
4:48 - 4:50θα ήταν, για παράδειγμα,
-
4:50 - 4:52να πας στο συγκεκριμένο ψυχολόγο με τα καταπληκτικά μαλλιά,
-
4:52 - 4:54και να του πεις,
-
4:54 - 4:57"Στιβ, μιας και είσαι ειδήμων στα ανώμαλα ρήματα.
-
4:57 - 4:59τι πρέπει να κάνω;"
-
4:59 - 5:01Και αυτός θα σου έλεγε, "Οι περισσότεροι λένε πέτυχα,
-
5:01 - 5:04αλλά μερικοί λένε και επέτυχα."
-
5:04 - 5:06Και επίσης ήξερες, λίγο ή πολύ,
-
5:06 - 5:09ότι αν πας 200 χρόνια πίσω στο χρόνο,
-
5:09 - 5:12και ρωτήσεις το συγκεκριμένο πολιτικό με εξίσου καταπληκτικά μαλλιά
-
5:12 - 5:15(Γέλια)
-
5:15 - 5:17"Τομ, τι πρέπει να πω;"
-
5:17 - 5:19Θα έλεγε, "Στις μέρες μου, οι περισσότεροι επέτυχαν,
-
5:19 - 5:22αλλά κάποιοι πέτυχαν."
-
5:22 - 5:24Οπότε τώρα θα σας δείξω τα ακατέργαστα δεδομένα.
-
5:24 - 5:28Δύο γραμμές από τον πίνακα των 2 δις. γραμμών.
-
5:28 - 5:30Αυτό που βλέπετε είναι η συχνότητα ανά χρόνο που εμφανίζεται
-
5:30 - 5:33το "πέτυχα" (thrived) και το "επέτυχα" (throve)
-
5:34 - 5:36Αυτές είναι μόνο δύο
-
5:36 - 5:39από τις 2 δις. γραμμές.
-
5:39 - 5:41Έτσι το σύνολο των δεδομένων
-
5:41 - 5:44είναι ένα δις. φορές πιο "φανταστικό" από αυτό το γράφημα.
-
5:44 - 5:46(Γέλια)
-
5:46 - 5:50(Χειροκρότημα)
-
5:50 - 5:52ΖΜ: Τώρα, υπάρχουν πολλές άλλες φωτογραφίες που αξίζουν 500 δις. λέξεις.
-
5:52 - 5:54Για παράδειγμα, αυτή.
-
5:54 - 5:56Αν για παράδειγμα δείτε τη λέξη "γρίπη",
-
5:56 - 5:58θα δείτε ότι κορυφώνεται την περίοδο
-
5:58 - 6:01όπου οι μεγάλες επιδημίες της γρίπης, σκότωναν ανθρώπους ανά τον κόσμο
-
6:01 - 6:04EΛΕ: Αν δεν έχετε πεισθεί ακόμα,
-
6:04 - 6:06η στάθμη της θάλασσας ανεβαίνει,
-
6:06 - 6:09όπως και το ατμοσφαιρικό διοξείδιο του άνθρακα και η παγκόσμια θερμοκρασία.
-
6:09 - 6:12ΖΜ: Ίσως θα θέλατε να κοιτάξετε και αυτή τη συγκεκριμένη ν-ακολουθία,
-
6:12 - 6:15και αυτό για να πείτε στο Νίτσε ότι ο Θεός δεν έχει πεθάνει,
-
6:15 - 6:18παρ' ότι μπορεί να συμφωνήσετε ότι θα χρειαζόταν έναν καλύτερο εκδότη.
-
6:18 - 6:20(Γέλια)
-
6:20 - 6:23EΛΕ: Μπορείς να καταλήξεις σε πολύ αφηρημένες έννοιες με αυτή τη μέθοδο.
-
6:23 - 6:25Για παράδειγμα, να σας διηγηθώ την ιστορία
-
6:25 - 6:27του έτους 1950.
-
6:27 - 6:29Για το μεγαλύτερο διάστημα της παγκόσμιας ιστορίας,
-
6:29 - 6:31κανείς δεν νοιάστηκε για το 1950.
-
6:31 - 6:33Το 1700, το 1800, το 1900,
-
6:33 - 6:36κανείς δεν νοιάστηκε.
-
6:37 - 6:39Τις δεκαετίες του '30 και του '40
-
6:39 - 6:41κανείς δεν νοιάστηκε.
-
6:41 - 6:43Ξαφνικά, στα μέσα της δεκαετίας του '40
-
6:43 - 6:45άρχισε να δημιουργείται ένας θόρυβος.
-
6:45 - 6:47Οι άνθρωποι άρχισαν να πιστεύουν ότι το 1950 θα ερχόταν,
-
6:47 - 6:49και θα μπορούσε να είναι σημαντικό.
-
6:49 - 6:52(Γέλια)
-
6:52 - 6:55Αλλά τίποτα δεν απασχόλησε τους ανθρώπους για το 1950
-
6:55 - 6:58περισσότερο απο το έτος 1950.
-
6:58 - 7:01(Γέλια)
-
7:01 - 7:03Είχε γίνει πλέον εμμονή.
-
7:03 - 7:05Δεν μπορούσαν να σταματήσουν να μιλάνε
-
7:05 - 7:08για όλα τα πράγματα που έκαναν το 1950,
-
7:08 - 7:11όλα τα πράγματα που σκόπευαν να κάνουν το 1950,
-
7:11 - 7:16όλα τα όνειρα που ήθελαν να πραγματοποιήσουν το 1950.
-
7:16 - 7:18Στην πραγματικότητα το έτος 1950 ήταν τόσο συναρπαστικό,
-
7:18 - 7:20που για χρόνια αργότερα,
-
7:20 - 7:23οι άνθρωποι συνέχισαν να μιλάνε για τα εκπληκτικά πράγματα που συνέβησαν,
-
7:23 - 7:25το '51, '52, '53.
-
7:25 - 7:27Ξαφνικά το 1954,
-
7:27 - 7:29κάποιος ξύπνησε και συνειδητοποίησε
-
7:29 - 7:33ότι το 1950 με κάποιο τρόπο... είχε ξεπεραστεί.
-
7:33 - 7:35(Γέλια)
-
7:35 - 7:37Και κάπως έτσι, έσκασε η φούσκα.
-
7:37 - 7:39(Γέλια)
-
7:39 - 7:41Και η ιστορία του 1950,
-
7:41 - 7:43είναι η ιστορία κάθε χρόνου
που έχουμε καταγράψει, -
7:43 - 7:46με μικρές αλλαγές, αφού πλέον έχουμε
αυτά τα όμορφα γραφήματα. -
7:46 - 7:49Και επειδή έχουμε αυτά τα όμορφα
γραφήματα, μπορούμε πλέον να μετρήσουμε. -
7:49 - 7:51Μπορούμε να αναρωτηθούμε,
"Πόσο γρήγορα σκάει η φούσκα?" -
7:51 - 7:54Και φαίνεται ότι μπορούμε
να το μετρήσουμε με μεγάλη ακρίβεια. -
7:54 - 7:57Ανακαλύψαμε εξισώσεις, παρήγαμε γραφήματα,
-
7:57 - 7:59και το καθαρό αποτέλεσμα ήταν
-
7:59 - 8:02ότι η φούσκα σκάει όλο και γρηγορότερα
-
8:02 - 8:04χρόνο με τον χρόνο.
-
8:04 - 8:09Χάνουμε το ενδιαφέρον μας
για το παρελθόν όλο και πιο γρήγορα. -
8:09 - 8:11ΖM: Και τώρα μια μικρή
επαγγελματική συμβουλή. -
8:11 - 8:13Για εσάς που θέλετε να γίνεται διάσημοι,
-
8:13 - 8:15μπορείτε να συμβουλευθείτε
τους 25 πιο διάσημους πολιτικούς, -
8:15 - 8:17συγγραφείς, ηθοποιούς, κλπ.
-
8:17 - 8:20Έτσι αν θέλετε να γίνετε γρήγορα διάσημος,
θα πρέπει να γίνετε ηθοποιός -
8:20 - 8:22γιατί η φήμη αρχίζει να ανεβαίνει
μέχρι το τέλος των 20 -- -
8:22 - 8:24είστε ακόμα νέος και είναι καταπληκτικά.
-
8:24 - 8:26Τώρα, αν μπορείτε να περιμένετε λίγο,
θα πρέπει να γίνετε συγγραφέας, -
8:26 - 8:28γιατί μετά γίνεστε πολύ διάσημος,
-
8:28 - 8:30σαν τον Μαρκ Τουέϊν,
για παράδειγμα, πολύ διάσημος. -
8:30 - 8:32Αλλά αν θέλετε να φτάσετε στην κορυφή
-
8:32 - 8:34θα πρέπει να καθυστερήσετε την ικανοποίηση
-
8:34 - 8:36και φυσικά να γίνετε πολιτικός.
-
8:36 - 8:38Έτσι θα γίνετε διάσημος
μέχρι το τέλος των 50, -
8:38 - 8:40και θα γίνετε πολύ,
πολύ διάσημος αργότερα. -
8:40 - 8:43Επίσης οι επιστήμονες τείνουν να γίνονται
διάσημοι όταν είναι πολύ μεγαλύτεροι. -
8:43 - 8:45Για παράδειγμα οι βιολόγοι και οι φυσικοί,
-
8:45 - 8:47τείνουν να γίνονται σχεδόν
όσο διάσημοι και οι ηθοποιοί. -
8:47 - 8:50Ένα λάθος που δεν πρέπει να κάνετε
είναι να γίνετε μαθηματικός. -
8:50 - 8:52(Γέλια)
-
8:52 - 8:54Αν το κάνετε αυτό,
-
8:54 - 8:57θα πρέπει να σκεφθείτε, "Ωραία, θα κάνω
την καλύτερή μου δουλειά στα 20 μου." -
8:57 - 8:59Αλλά μαντέψτε! Δεν θα νοιάζει κανέναν.
-
8:59 - 9:02(Γέλια)
-
9:02 - 9:04EΛΕ: Υπάρχουν, όμως και
πιο απογοητευτικά στοιχεία -
9:04 - 9:06στις n-ακολουθίες (n-grams).
-
9:06 - 9:08Για παράδειγμα αυτό είναι
το γράφημα του Μαρκ Σαγκάλ, -
9:08 - 9:10ενός καλλιτέχνη γεννημένου το 1887.
-
9:10 - 9:13Και φαίνεται σαν ένα συνηθισμένο
γράφημα διάσημου ανθρώπου. -
9:13 - 9:17Γίνετε όλο και όλο πιο διάσημος,
-
9:17 - 9:19εκτός αν κοιτάξεις τα Γερμανικά.
-
9:19 - 9:21Αν κοιτάξεις τα Γερμανικά,
βλέπεις κάτι πολύ περίεργο, -
9:21 - 9:23κάτι που δεν βλέπεις σχεδόν ποτέ,
-
9:23 - 9:25το οποίο είναι ότι γίνεται
υπερβολικά διάσημος, -
9:25 - 9:27και μετά ξαφνικά πέφτει,
-
9:27 - 9:30βρισκόμενος στο ναδίρ
μεταξύ 1933 και 1945, -
9:30 - 9:33λίγο πριν ανακάμψει αμέσως μετά.
-
9:33 - 9:35Και φυσικά, αυτο που βλεπουμε,
-
9:35 - 9:38είναι ότι ο Μαρκ Σαγκάλ
ήταν ένας Εβραίος καλλιτέχνης -
9:38 - 9:40στην ναζιστική Γερμανία.
-
9:40 - 9:42Αυτά τα τρία σημάδια
-
9:42 - 9:44είναι τόσο δυνατά
-
9:44 - 9:47που δεν χρειάζεται καν να ξέρουμε
ότι κάποιος λογοκρίθηκε. -
9:47 - 9:49Μπορούμε να το συμπεράνουμε
-
9:49 - 9:51επεξεργαζόμενοι πολύ βασικα σήματα.
-
9:51 - 9:53Να ένας απλός τρόπος.
-
9:53 - 9:55Μια λογική προσδοκία είναι ότι
-
9:55 - 9:57η φήμη κάποιου σε μια δεδομένη στιγμή
-
9:57 - 9:59πρέπει να είναι ο μέσος όρος
της φήμης του πριν -
9:59 - 10:01και της φήμης του μετά.
-
10:01 - 10:03Οπότε περιμένουμε περίπου αυτό.
-
10:03 - 10:06Και το συγκρίνουμε
με τη φήμη που παρατηρούμε. -
10:06 - 10:08Και απλά διαιρούμε το ένα με το άλλο
-
10:08 - 10:10για να πάρουμε κάτι που το αποκαλούμε
συντελεστή καταστολής. -
10:10 - 10:13Αν ο συντελεστής καταστολής
είναι πολύ, πολύ μικρος -
10:13 - 10:15τότε πιθανότατα έχετε δεχθεί καταστολή.
-
10:15 - 10:18Αν είναι πολύ μεγάλος, τότε μάλλον
έχετε επωφεληθεί από προπαγάνδα. -
10:19 - 10:21ΖΜ: Τώρα μπορείτε να δείτε
-
10:21 - 10:24την κατανομή συντελεστών καταστολής
σε ολόκληρους πληθυσμούς. -
10:24 - 10:26Για παράδειγμα, εδώ --
-
10:26 - 10:28αυτός ο συντελεστής καταστολής
είναι για 5.000 ανθρώπους -
10:28 - 10:30που διαλέχθηκαν από Αγγλικά βιβλία όπου
δεν υπάρχει κάποιου είδους καταστολή -- -
10:30 - 10:32θα ήταν έτσι, βασικά
πιο επικεντρωμένο στο ένα. -
10:32 - 10:34Αυτό που περιμένεις βασικά,
είναι αυτό που παρατηρείς. -
10:34 - 10:36Αυτή είναι η κατανομή στη Γερμανία --
-
10:36 - 10:38πολύ διαφορετική,
έχει μετακινηθεί αριστερά. -
10:38 - 10:41Οι άνθρωποι μιλάνε δύο φορές λιγότερο
γι' αυτό απ' ότι θα έπρεπε. -
10:41 - 10:43Αλλά ακόμα πιο σημαντικό είναι
ότι η κατανομή είναι πολύ πλατύτερη. -
10:43 - 10:46Υπάρχουν πολλοί άνθρωποι που καταλήγουν
τέρμα αριστερά στην κατανομή -
10:46 - 10:49που αναφέρονται 10 φορές
λιγότερο απ' ό,τι θα έπρεπε. -
10:49 - 10:51Αλλά επίσης και πολύ άνθρωποι τέρμα δεξιά
-
10:51 - 10:53που φαίνεται να ευνοούνται από την προπαγάνδα.
-
10:53 - 10:56Αυτή η εικόνα είναι το σήμα κατατεθέν
της λογοκρισίας στα βιβλία. -
10:56 - 10:58ΕΛΕ: Οπότε, ονομάζουμε αυτή τη μέθοδο
-
10:58 - 11:00"πολιτιστικο-ματική" (culturomics).
-
11:00 - 11:02Είναι σαν τη γονιδιωματική.
-
11:02 - 11:04Εκτός του ότι η γονιδιωματική
είναι μια ματιά στη βιολογία -
11:04 - 11:07μέσα από το φακό της συχνότητας
βάσης στο ανθρώπινο γονιδίωμα. -
11:07 - 11:09Η "Πολιτιστικο-ματική" (culturomics) είναι παρόμοια.
-
11:09 - 11:12Είναι η εφαρμογή ανάλυσης σε συλλογές
δεδομένων τεραστίων διαστάσεων -
11:12 - 11:14για τη μελέτη του ανθρώπινου πολιτισμού.
-
11:14 - 11:16Εδώ αντί να κοιτάμε μέσα
από τον φακό του γονιδιώματος -
11:16 - 11:19κοιτάμε μέσα απο τον φακό ψηφιοποιημένων
κομματιών των καταγραφών της ιστορίας. -
11:19 - 11:21Το καλό με την "Πολιτιστικο-ματική" (culturomics)
-
11:21 - 11:23είναι οτι όλοι μπορούν να το κάνουν.
-
11:23 - 11:25Γιατί μπορούν όλοι να το κάνουν;
-
11:25 - 11:27Όλοι μπορούν να το κάνουν,
επειδή αυτοί οι τρεις τύποι, -
11:27 - 11:30ο Τζον Όρουαντ, ο Ματ Γκρέι
και ο Ουίλ Μπρόκμαν στην Google, -
11:30 - 11:32είδαν το πρωτότυπο του
"προβολέα ν-ακολουθιών" (n-gram Viewer) -
11:32 - 11:34και είπαν. "Αυτό είναι πολύ διασκεδαστικό.
-
11:34 - 11:37Πρέπει να το κάνουμε διαθέσιμο σε όλους."
-
11:37 - 11:39Έτσι μέσα σε μόλις δύο εβδομάδες -- δυο
εβδομάδες πριν δημοσιευθεί η εργασία μας -- -
11:39 - 11:42κατάφεραν να κρυπτογραφήσουν μια έκδοση
του "προβολέα ν-ακολουθιών" (n-gram Viewer) για το κοινό. -
11:42 - 11:45Κι έτσι μπορείτε να γράψετε οποιαδήποτε λέξη ή πρόταση θέλετε
-
11:45 - 11:47και να δείτε την ν-ακολουθία
της (n-gram) αμέσως -- -
11:47 - 11:49Επίσης μπορείτε να αναζητήσετε παραδείγματα
από τα διάφορα βιβλία -
11:49 - 11:51οπού η ν-ακολουθιά σας (n-gram) εμφανίζεται.
-
11:51 - 11:53JM: Αυτό χρησιμοποιήθηκε
πάνω απο 1 εκ. φορες την πρώτη μέρα, -
11:53 - 11:55και αυτή είναι η καλύτερη ερώτηση.
-
11:55 - 11:58Οι άνθρωποι θέλουν να προσπαθούν,
συνέχεια για το καλύτερο. -
11:58 - 12:01Απ' ότι φαίνετε όμως, οι άνθρωποι τον 18ο
αιώνα δεν ενδιαφερόντουσαν πολύ γι' αυτό. -
12:01 - 12:04Απ' ότι φαίνετε δεν ήθελαν να "προσπαθούν"
(best), αλλά να "προσψαθούν" (beft) -
12:04 - 12:07Βέβαια, αυτό που έγινε
είναι απλά ένα λάθος. -
12:07 - 12:09Δεν ήταν αγώνας για τη μετριότητα.
-
12:09 - 12:12απλά τότε το "π" (s) γραφότανε
αλλιώς, κάπως σας "ψ" (f). -
12:12 - 12:15Βέβαια η Google, δεν το εντόπισε τότε
-
12:15 - 12:18όποτε το αναφέραμε
στο επιστημονικό άρθρο που δημοσιεύσαμε. -
12:18 - 12:20Αλλά απ' ότι φαίνεται αυτό
είναι μόνο μια υπενθύμιση -
12:20 - 12:22οτι παρ' οτι είναι πολύ διασκεδαστικό,
-
12:22 - 12:24όταν ερμηνεύεις τα γραφήματα
θα πρέπει να είσαι πολύ προσεκτικός -
12:24 - 12:27και να υιοθετείς
τις βασικές αρχές των επιστημών. -
12:27 - 12:30ΕΛΕ: Οι άνθρωποι το χρησιμοποιούν
για πολύ διασκεδαστικούς σκοπούς. -
12:30 - 12:37(Γέλια)
-
12:37 - 12:39Βασικά θα σταματήσουμε να μιλάμε,
-
12:39 - 12:42και θα σας δείξουμε
την υπόλοιπη παρουσίαση σιωπηλοί. -
12:42 - 12:45Αυτός ο άνθρωπος ενδιαφερόταν
για την ιστορία του εκνευρισμού. -
12:45 - 12:48Υπάρχουν πολλοί τύποι εκνευρισμού.
-
12:48 - 12:51Άμα στραμπουλήξεις το δάχτυλό σου,
υπάρχει ένα "argh" με μόνο ένα "α". -
12:51 - 12:53Αν ο πλανήτης Γη εξολοθρευτεί
από εξωγήινους -
12:53 - 12:55για να κάνουν χώρο,
για κάποιο διαστρικό ταξίδι, -
12:55 - 12:57αυτό είναι "aaaaaaaargh" με οχτώ "α."
-
12:57 - 12:59Αυτός ο άνθρωπος μελετάει
τα διάφορα "arghs" -
12:59 - 13:01από ένα μέχρι οχτώ "α".
-
13:01 - 13:03Και απ' ότι φαίνεται
-
13:03 - 13:05τα λιγότερο συχνά "arghs"
-
13:05 - 13:08είναι αυτά που αντιστοιχούν
σε περισσότερο εκνευρισμό -- -
13:08 - 13:11εκτός, παραδόξως,
από τις αρχές της δεκαετίας του '80. -
13:11 - 13:13Πιστεύουμε πως αυτό έχει κάποια
σχέση με τον Ρόναλντ Ρήγκαν -
13:13 - 13:15(Γέλια)
-
13:15 - 13:18ΖΜ: Υπάρχουν πολλές χρήσεις
για αυτά τα δεδομένα, -
13:18 - 13:21αλλά η ουσία είναι ότι ψηφιοποιείται
το ιστορικό μητρώο. -
13:21 - 13:23Η Google έχει ψηφιοποιήσει 15 εκ. βιβλία.
-
13:23 - 13:25Αυτό είναι το 12% όλων των βιβλίων
που έχουν ποτέ εκδοθεί. -
13:25 - 13:28Είναι ένα μεγάλο κομμάτι
του ανθρώπινου πολιτισμού. -
13:28 - 13:31Υπάρχουν πολλά περισσότερα στον
πολιτισμό: υπάρχουν χειρόγραφα, εφημερίδες, -
13:31 - 13:33υπάρχουν πράγματα που δεν είναι
κείμενο, όπως τέχνη και πίνακες. -
13:33 - 13:35Όλα αυτά τυχαίνει να είναι
στους υπολογιστές μας, -
13:35 - 13:37σε υπολογιστές σε όλο το κόσμο.
-
13:37 - 13:40Και όταν αυτό συμβεί, θα αλλάξει
τον τρόπο που αντιλαμβανόμαστε -
13:40 - 13:42το παρελθόν μας, το παρόν μας
και τον ανθρώπινο πολιτισμό. -
13:42 - 13:44Ευχαριστούμε πολύ.
-
13:44 - 13:47(Χειροκρότημα)
- Title:
- Τι μάθαμε από 5 εκατομμύρια βιβλία
- Speaker:
- Ζαν-Μπατίστ Μισέλ + Έρεζ Λίμπερμαν Έιντεν
- Description:
-
Παίξατε ποτέ με τον «προβολέα ν-ακολουθιών» (n-gram viewer) της Google? Είναι ένα εθιστικό εργαλείο που σου επιτρέπει να ψάχνεις για λέξεις και ιδέες σε μία βάση δεδομένων 5 εκατομμυρίων βιβλίων ανά τους αιώνες. Ο Έρεζ Λίμπερμαν Έιντεν και ο Ζαν-Μπατίστ Μισέλ δείχνουν πώς δουλεύει και παρουσιάζουν μερικά εκπληκτικά πράγματα που μπορούμε να μάθουμε από 500 δις λέξεις.
- Video Language:
- English
- Team:
closed TED
- Project:
- TEDTalks
- Duration:
- 13:48
![]() |
Chryssa R. Takahashi edited Greek subtitles for What we learned from 5 million books | |
![]() |
Spispi Met added a translation |