מה למדנו מ-5 מיליון ספרים

Edit subtitles

0:00 - 0:02

ארז ליברמן איידן: כולם יודעים
0:02 - 0:05

שתמונה שווה אלף מילים.
0:07 - 0:09

אבל אנחנו בהרווארד
0:09 - 0:12

תהינו אם זה באמת נכון.
0:12 - 0:14

(צחוק)
0:14 - 0:18

לכן הרכבנו צוות של מומחים
0:18 - 0:20

שמגיעים מהרווארד, MIT,
0:20 - 0:23

המילון למורשת אמריקאית, אנציקלופדיה בריטניקה
0:23 - 0:25

ואפילו מנותני החסות
0:25 - 0:28

הגאים שלנו, גוגל.
0:28 - 0:30

הרהרנו בזה
0:30 - 0:32

במשך כארבע שנים
0:32 - 0:37

והגענו למסקנה מדהימה.
0:37 - 0:40

גבירותיי ורבותיי, תמונה אינה שווה אלף מילים.
0:40 - 0:42

בעצם, מצאנו כמה תמונות
0:42 - 0:47

השוות 500 מיליארד מילים.
0:47 - 0:49

ג'ין-בפטיסט מישל: כיצד הגענו למסקנה זו?
0:49 - 0:51

ארז ואני חשבנו על דרכים
0:51 - 0:53

לקבלת תמונה כוללת של תרבות
0:53 - 0:56

והיסטוריה אנושית: של שינוי לאורך זמן.
0:56 - 0:58

כל-כך הרבה ספרים נכתבו במהלך השנים.
0:58 - 1:00

לכן חשבנו שהדרך הכי טובה ללמוד מהם
1:00 - 1:02

היא לקרוא את כל מיליוני הספרים.
1:02 - 1:05

כמובן שאם יש מדד לעד כמה שזה מרשים,
1:05 - 1:08

יש למקם אותו מאוד, מאוד גבוה.
1:08 - 1:10

הבעיה היא שקיים גם ציר X,
1:10 - 1:12

שהוא ציר התכליתיות במקרה זה,
1:12 - 1:14

שעל-פיו זה מאוד, מאוד נמוך.
1:14 - 1:17

(מחיאות כפיים)
1:17 - 1:20

אנשים נוטים להשתמש בגישה אלטרנטיבית,
1:20 - 1:22

שזה לקחת כמה מקורות ולקרוא אותם בתשומת לב.
1:22 - 1:24

זה מאוד מעשי אבל לא מרשים.
1:24 - 1:27

מה שבאמת צריך לעשות
1:27 - 1:30

זה להיכנס לחלק המרשים אבל גם המעשי של סביבה זו.
1:30 - 1:33

מתברר שיש חברה מעבר לנהר שנקראת גוגל
1:33 - 1:35

שהחלה במיזם דיגיטליזציה לפני כמה שנים
1:35 - 1:37

העשוי לאפשר את יישומה של גישה זו.
1:37 - 1:39

הם ביצעו דיגיטליזציה למיליוני ספרים.
1:39 - 1:42

זה אומר שניתן לנצל שיטות ממוחשבות
1:42 - 1:44

כדי לקרוא את כל הספרים בלחיצת כפתור.
1:44 - 1:47

זה מאוד מעשי וגם מרשים ביותר.
1:48 - 1:50

א.ל.א.: אספר לכם קצת מאיפה הספרים מגיעים.
1:50 - 1:53

מאז זמנים קדומים, היו כבר מיליוני סופרים.
1:53 - 1:56

סופרים אלה שאפו לכתוב ספרים.
1:56 - 1:58

וזה הפך לקל משמעותית
1:58 - 2:00

עם התפתחות הדפוס לפני מספר מאות שנים.
2:00 - 2:03

מאז, הסופרים זכו לפרסם ספרים
2:03 - 2:05

129 מיליון
2:05 - 2:07

פעמים.
2:07 - 2:09

אם כל אותם הספרים לא הלכו לאיבוד
2:09 - 2:11

במהלך ההיסטוריה, הם נמצאים בספריות,
2:11 - 2:14

ורבים מבין הספרים האלה נשלפים מהספריות
2:14 - 2:16

ועוברים דיגיטליזציה אצל גוגל,
2:16 - 2:18

אשר סרקה עד כה 15 מיליון ספרים.
2:18 - 2:21

כאשר בגוגל עושים דיגיטליזציה לספר, הם מעבירים אותו לפורמט באמת יפה.
2:21 - 2:23

יש לנו נתונים ובנוסף יש לנו נתונים על מאפייני הנתונים.
2:23 - 2:26

יש לנו מידע על דברים כגון היכן זה פורסם,
2:26 - 2:28

מי היה המחבר, מתי זה פורסם.
2:28 - 2:31

ומה שאנו עושים זה לעבור על כל הרשומות האלו
2:31 - 2:35

ולוותר על כל הנתונים שאינם מהאיכות הכי גבוהה.
2:35 - 2:37

מה שנשאר זה
2:37 - 2:40

אוסף של 5 מיליון ספרים,
2:40 - 2:43

500 מיליארד מילים,
2:43 - 2:45

מחרוזת של אותיות הארוכה פי אלף
2:45 - 2:48

מהחומר התורשתי האנושי --
2:48 - 2:50

טקסט שאם ייכתב,
2:50 - 2:52

יגיע מכאן לירח ובחזרה
2:52 - 2:54

10 פעמים ויותר --
2:54 - 2:58

זהו פלח משמעותי מהתורשה התרבותית שלנו.
2:58 - 3:00

ברור שמה שעשינו
3:00 - 3:03

כאשר נתקלנו בהיפרבולה שערורייתית כזו --
3:03 - 3:05

(צחוק)
3:05 - 3:08

היה מה שכל חוקר המכבד את עצמו
3:08 - 3:11

היה עושה.
3:11 - 3:13

לקחנו דף מתוך קטע קומי ברשת,
3:13 - 3:15

ואמרנו, "תתרחקי מאיתנו.
3:15 - 3:17

אנו הולכים להיעזר במדע."
3:17 - 3:19

(צחוק)
3:19 - 3:21

ג'.מ.: טוב, ברור שחשבנו
3:21 - 3:23

שאולי נחשוף את הנתונים לאנשים
3:23 - 3:25

כדי שיעשו עליהם מחקרים מדעיים.
3:25 - 3:27

התחלנו לחשוב איזה נתונים לשחרר.
3:27 - 3:29

האמת שהיינו רוצים לשחרר
3:29 - 3:31

את מלוא הטקסט של כל 5 מיליון הספרים.
3:31 - 3:33

אבל גוגל, ובעיקר ג'ון אורוונט,
3:33 - 3:35

סיפרו לנו שעלינו ללמוד משוואה אחת.
3:35 - 3:38

אם יש לכם 5 מיליון, זה אומר 5 מיליון סופרים
3:38 - 3:41

ו-5 מיליון תביעות משפטיות שזה ממש המון.
3:41 - 3:43

כך שגם אם זה יהיה ממש, ממש מרשים,
3:43 - 3:46

שוב, זה מאוד, מאוד לא מעשי.
3:46 - 3:48

(צחוק)
3:48 - 3:50

ואנו שוב ויתרנו,
3:50 - 3:53

ואימצנו את הגישה המאוד מעשית, שהיתה קצת פחות מרשימה.
3:53 - 3:55

אמרנו, במקום לשחרר את מלוא הטקסט,
3:55 - 3:57

נשחרר סטטיסטיקות על הספרים.
3:57 - 3:59

ניקח לדוגמא "קורטוב של אושר".
3:59 - 4:01

אלו הן ארבע מילים (באנגלית); נקרא לזה משקל-ארבע.
4:01 - 4:03

נספר לכם כמה פעמים משקל-ארבע מסויים
4:03 - 4:05

הופיע בספרים ב-1801, 1802, 1803,
4:05 - 4:07

עד 2008.
4:07 - 4:09

זה נותן לנו מרווחי זמן של תדירות השימוש
4:09 - 4:11

בביטוי מסויים זה לאורך תקופה.
4:11 - 4:14

אנו עושים זאת לכל המילים והביטויים אשר מופיעים בספרים הללו,
4:14 - 4:17

וזה נותן לנו טבלה גדולה של שני מיליארד שורות
4:17 - 4:19

המספרות לנו על הדרך בה תרבות משתנה.
4:19 - 4:21

א.ל.א.: שני מיליארד השורות הללו,
4:21 - 4:23

אנו מכנים אותן שני מיליארד משקלי-n.
4:23 - 4:25

מה הן מספרות לנו?
4:25 - 4:27

כל משקל-n לכשעצמו מודד מגמות תרבותיות.
4:27 - 4:29

אתן לכם דוגמא.
4:29 - 4:31

נניח שאני מצליח במשהו,
4:31 - 4:33

לכן מחר ברצוני לספר לכם על ההצלחה שלי.
4:33 - 4:36

אני עשוי לומר, "אתמול, הצלחתי (I throve)."
4:36 - 4:39

או לחילופין, אתמול, הצלחתי (I thrived)".
4:39 - 4:42

במה עליי להשתמש?
4:42 - 4:44

כיצד יודעים?
4:44 - 4:46

עד לפני 6 חודשים,
4:46 - 4:48

המצב העדכני בתחום זה היה
4:48 - 4:50

שהולכים, לדוגמא,
4:50 - 4:52

לפסיכולוג כזה עם שיער מדהים,
4:52 - 4:54

ואומרים,
4:54 - 4:57

"סטיב, אתה מומחה בפעלים חריגים.
4:57 - 4:59

מה עליי לעשות?"
4:59 - 5:01

והוא היה עונה, "רוב האנשים אומרים thrived,
5:01 - 5:04

אבל כמה אומרים throve"
5:04 - 5:06

גם אתם יודעים, פחות או יותר,
5:06 - 5:09

שאם הייתם חוזרים 200 שנה אחורה
5:09 - 5:12

ושואלים את המדינאי הזה שגם לו יש שיער מדהים,
5:12 - 5:15

(צחוק)
5:15 - 5:17

"טום, מה עליי להגיד?"
5:17 - 5:19

הוא היה עונה, "בזמני, רוב האנשים השתמשו ב-throve,
5:19 - 5:22

אבל כמה ב-thrived".
5:22 - 5:24

כעת מה שאראה לכם זה נתונים גולמיים.
5:24 - 5:28

שתי שורות מטבלה זו של 2 מיליארד שורות.
5:28 - 5:30

מה שרואים זו התדירות, שנה אחר שנה,
5:30 - 5:33

של "thrived" מול "throve" לאורך זמן.
5:34 - 5:36

אלו רק שתי שורות
5:36 - 5:39

מתוך 2 מיליארד שורות.
5:39 - 5:41

כך שכל מערך הנתונים
5:41 - 5:44

מרשים פי מיליארד מאשר שקופית זו.
5:44 - 5:46

(צחוק)
5:46 - 5:50

(מחיאות כפיים)
5:50 - 5:52

ג'.מ: ישנן הרבה תמונות אחרות
5:52 - 5:54

השוות 500 מיליארד מילים. למשל זו.
5:54 - 5:56

אם ניקח את שפעת,
5:56 - 5:58

נראה שיאים בזמנים שאנו יודעים
5:58 - 6:01

שבהם מגיפות השפעת חיסלו אנשים בכל העולם.
6:01 - 6:04

א.ל.א.: אם עדיין לא השתכנעתם,
6:04 - 6:06

פני-הים עולים,
6:06 - 6:09

כך גם דו-תחמוצת הפחמן באויר והטמפרטורה הממוצעת.
6:09 - 6:12

ג'.מ.: אולי גם תרצו לראות את משקל-n המסויים הזה,
6:12 - 6:15

וזה כדי לספר לניטשה שאלוהים לא מת,
6:15 - 6:18

אף על-פי שתסכימו אולי שהוא זקוק ליחצ"ן יותר טוב.
6:18 - 6:20

(צחוק)
6:20 - 6:23

א.ל.א.: ניתן להגיע לכמה תפיסות מופשטות מדבר כזה.
6:23 - 6:25

לדוגמא, אספר לכם על ההיסטוריה
6:25 - 6:27

של שנת 1950.
6:27 - 6:29

לאורך רוב ההיסטוריה בקירוב,
6:29 - 6:31

אף אחד לא שם על שנת 1950.
6:31 - 6:33

ב-1700, ב-1800, ב-1900,
6:33 - 6:36

לאף אחד לא היה אכפת.
6:37 - 6:39

לאורך שנות ה-30 וה-40,
6:39 - 6:41

לאף אחד לא היה אכפת.
6:41 - 6:43

פתאום, באמצע שנות ה-40,
6:43 - 6:45

התחיל הבאז.
6:45 - 6:47

אנשים גילו ש-1950 עומדת להגיע,
6:47 - 6:49

והיא יכולה להיות דבר גדול.
6:49 - 6:52

(צחוק)
6:52 - 6:55

אבל שום דבר לא גרם להם להתעניין ב-1950
6:55 - 6:58

כמו השנה 1950 עצמה.
6:58 - 7:01

(צחוק)
7:01 - 7:03

אנשים התהלכו עם אובססיה בתוכם.
7:03 - 7:05

הם לא יכלו להפסיק לדבר
7:05 - 7:08

על כל הדברים שהם עשו ב-1950,
7:08 - 7:11

כל הדברים שהם תיכננו לעשות ב-1950,
7:11 - 7:16

כל החלומות שהם רצו להגשים ב-1950.
7:16 - 7:18

למעשה, 1950 היתה כה מרתקת
7:18 - 7:20

שבשנים שלאחריה,
7:20 - 7:23

אנשים פשוט המשיכו לדבר על כל הדברים המדהימים שקרו,
7:23 - 7:25

ב-51, 52, 53.
7:25 - 7:27

לבסוף ב-1954,
7:27 - 7:29

מישהו התעורר ושם לב
7:29 - 7:33

ש-1950 איכשהו עבר זמנה.
7:33 - 7:35

(צחוק)
7:35 - 7:37

וככה סתם, הבלון התפוצץ.
7:37 - 7:39

(צחוק)
7:39 - 7:41

וסיפורה של 1950 הוא הסיפור
7:41 - 7:43

של כל שנה שיש עליה רשומות,
7:43 - 7:46

עם שינוי קטן, כי כעת יש לנו את התרשימים היפים האלה.
7:46 - 7:49

ומאחר ויש לנו אותם, אנו יכולים למדוד דברים שונים.
7:49 - 7:51

אנו יכולים לשאול, "כמה מהר הבלון מתפוצץ?"
7:51 - 7:54

מתברר שניתן למדוד זאת בדיוק מאוד גבוה.
7:54 - 7:57

מזה נוצרו משוואות, נוצרו גרפים,
7:57 - 7:59

והתוצאה הסופית היא
7:59 - 8:02

שמצאנו שהבלון מתפוצץ יותר ויותר מהר
8:02 - 8:04

עם כל שנה שעוברת.
8:04 - 8:09

אנו מאבדים עניין בעבר בקצב הולך וגובר.
8:09 - 8:11

ג'.מ.: ועכשיו עצה קטנה בנושא קריירה.
8:11 - 8:13

עבור אלה מכם ששואפים להתפרסם,
8:13 - 8:15

ניתן ללמוד מ-25 הפוליטיקאים המובילים,
8:15 - 8:17

הסופרים, השחקנים ועוד.
8:17 - 8:20

אם ברצונכם להתפרסם מוקדם, עליכם להיות שחקנים,
8:20 - 8:22

מכיוון שהפירסום מתחיל לטפס בסוף שנות ה-20 שלכם --
8:22 - 8:24

אתם עדיין צעירים וזה נהדר.
8:24 - 8:26

אם אתם יכולים להמתין מעט, עליכם להיות סופרים,
8:26 - 8:28

מאחר ואז אתם מטפסים לגבהים גדולים,
8:28 - 8:30

כמו מרק טוויין: מאוד מפורסם.
8:30 - 8:32

אבל אם ברצונכם להגיע ממש לפיסגה,
8:32 - 8:34

עליכם לדחות סיפוקים
8:34 - 8:36

וכמובן, להיות פוליטיקאי.
8:36 - 8:38

כאן תהיו מפורסמים בסוף שנות ה-50 שלכם,
8:38 - 8:40

ותהיו מאוד, מאוד מפורסמים אחר-כך.
8:40 - 8:43

גם המדענים נוטים להתפרסם כאשר הם מבוגרים בהרבה.
8:43 - 8:45

כמו לדוגמא, ביולוגים ופיזיקאים
8:45 - 8:47

שמקבלים פירסום כמו שחקנים.
8:47 - 8:50

שגיאה אחת שעליכם להימנע ממנה זה להיות מתמטיקאי.
8:50 - 8:52

(צחוק)
8:52 - 8:54

אם תעשו זאת,
8:54 - 8:57

אולי תחשבו, "נהדר, אגיע לשיאי בשנות ה-20 שלי."
8:57 - 8:59

אבל אתם יודעים מה? לאף אחד זה לא יהיה אכפת.
8:59 - 9:02

(צחוק)
9:02 - 9:04

א.ל.א.: ישנן תובנות נוספות מאירות-עיניים
9:04 - 9:06

בתוך המשקלי-n.
9:06 - 9:08

לדוגמא, הנה המסלול של מרק שאגל,
9:08 - 9:10

אמן יליד 1887.
9:10 - 9:13

וזה נראה כמסלול רגיל של אדם שהתפרסם.
9:13 - 9:17

הוא נהיה יותר ויותר מפורסם,
9:17 - 9:19

אלא אם בודקים בשפה הגרמנית.
9:19 - 9:21

אם בודקים בגרמנית, רואים משהו לגמרי מוזר,
9:21 - 9:23

משהו שכמעט ולא רואים,
9:23 - 9:25

שזה שהוא נהיה מאוד מפורסם
9:25 - 9:27

ואז פתאום צולל לתחתית,
9:27 - 9:30

עובר שפל בין 1933 ו-1945,
9:30 - 9:33

לפני עלייתו מחדש.
9:33 - 9:35

ובעצם, מה שרואים זו העובדה
9:35 - 9:38

שמרק שאגאל היה אמן יהודי
9:38 - 9:40

בגרמניה הנאצית.
9:40 - 9:42

הסימנים האלה
9:42 - 9:44

הם כה חזקים
9:44 - 9:47

שאין צורך לדעת שמישהו צונזר.
9:47 - 9:49

ניתן פשוט להסיק זאת
9:49 - 9:51

בעזרת עיבוד נתונים בסיסי.
9:51 - 9:53

הנה דרך פשוטה לעשות את זה.
9:53 - 9:55

סביר לצפות שמידת הפירסום
9:55 - 9:57

של פלוני בזמן נתון תהיה
9:57 - 9:59

בקירוב הממוצע של פירסומו
9:59 - 10:01

לפני אותו זמן ופירסומו אחריו.
10:01 - 10:03

זה בערך מה שאנו מצפים
10:03 - 10:06

ומשווים את התוצאה למידת הפירסום בפועל.
10:06 - 10:08

מחלקים את האחד בשני
10:08 - 10:10

כדי לקבל מה שנקרא מדד דיכוי.
10:10 - 10:13

אם מדד הדיכוי מאוד, מאוד קטן,
10:13 - 10:15

זה אומר שמישהו כנראה סובל מדיכוי.
10:15 - 10:18

אם הוא מאוד גדול, אולי מישהו נהנה מתעמולה.
10:19 - 10:21

ג'.מ.: ניתן בעצם להסתכל על
10:21 - 10:24

פילוג מדדי הדיכוי על-פני האוכלוסייה כולה.
10:24 - 10:26

לדוגמא, מדד דיכוי זה
10:26 - 10:28

הוא של 5,000 אנשים
10:28 - 10:30

הלקוח מספרים באנגליה שלא אמור להיות שם דיכוי --
10:30 - 10:32

הוא ייראה כך, בגדול מרוכז סביב 1.
10:32 - 10:34

מה שמצפים לו זה בערך מה שרואים כאן.
10:34 - 10:36

זה הפילוג שמתקבל בגרמניה --
10:36 - 10:38

מאוד שונה, הוא מוסט שמאלה.
10:38 - 10:41

אנשים שם דיברו כפליים פחות ממה שהיה ניתן לצפות.
10:41 - 10:43

אבל יותר חשוב, הפילוג הרבה יותר רחב.
10:43 - 10:46

יש הרבה אנשים הנמצאים בקצה השמאלי של פילוג זה
10:46 - 10:49

אשר דיברו פי-10 פחות ממה שהיו "צריכים".
10:49 - 10:51

אבל יש גם הרבה אנשים בקצה הימני
10:51 - 10:53

שנראה שהם מרויחים מתעמולה.
10:53 - 10:56

תמונה זו היא המאפיין המזהה, במסד נתוני הספרים, לצנזורה.
10:56 - 10:58

א.ל.א.: אנו מכנים שיטה זו
10:58 - 11:00

culturomics (חקר תורשה תרבותית).
11:00 - 11:02

זה דומה לחקר התורשה בביולוגיה.
11:02 - 11:04

חקר התורשה שם עדשה על ביולוגיה
11:04 - 11:07

דרך החלון של סדרות של רצפי בסיס בחומר התורשתי האנושי.
11:07 - 11:09

חקר תורשה תרבותית זה משהו דומה.
11:09 - 11:12

זה שימוש באנליזה של איסוף נתונים בקנה-מידה ענקי
11:12 - 11:14

לחקר של תרבות אנושית.
11:14 - 11:16

כאן, במקום להביט דרך עדשת החומר התורשתי,
11:16 - 11:19

מביטים דרך עדשה של פיסות של רשומות היסטוריות שעברו דיגיטליזציה.
11:19 - 11:21

הדבר הגדול בחקר תורשה תרבותית
11:21 - 11:23

הוא שכל אחד יכול לעשות זאת.
11:23 - 11:25

מדוע כל אחד יכול לעשות זאת?
11:25 - 11:27

זה מכיוון ששלושה אנשים,
11:27 - 11:30

ג'ון אורוונט, מאט גריי וויל ברוקמן מגוגל,
11:30 - 11:32

ראו את אב-הטיפוס של מצגת המשקל-n,
11:32 - 11:34

ואמרו, "זה כזה כיף.
11:34 - 11:37

עלינו להפכה לזמינה לציבור."
11:37 - 11:39

תוך שבועיים -- שבועיים לפני שהמאמר שלנו התפרסם --
11:39 - 11:42

הם כתבו תוכנית לגירסת מצגת משקל-n בשביל כלל הציבור.
11:42 - 11:45

ניתן להקליד כל מילה או ביטוי שחפצים בהם
11:45 - 11:47

ולראות את משקל ה-n שלהם מייד --
11:47 - 11:49

וגם להציג דוגמאות של כל הספרים המגוונים
11:49 - 11:51

שבהם מופיע המשקל-n שבחרת.
11:51 - 11:53

ג'.מ.: נעשה בזה שימוש יותר ממיליון פעם ביום הראשון,
11:53 - 11:55

וזו באמת השאילתא הטובה ביותר מכולן.
11:55 - 11:58

אנשים רוצים את הטוב ביותר, להניח את הרגל היותר טובה מלפנים.
11:58 - 12:01

אבל מתברר שבמאה ה-18, לאנשים לא היה ממש אכפת מכל זה.
12:01 - 12:04

הם לא רצו את הטוב ביותר (best), אלא את הטוב ביותר (beft).
12:04 - 12:07

לכן מה שקרה הוא, טוב, ברור שזו טעות.
12:07 - 12:09

זה לא שהם שאפו לבינוניות,
12:09 - 12:12

אלא שהיו נוהגים לכתוב S בצורה שונה, בערך כמו F.
12:12 - 12:15

גוגל לא תפסו זאת בזמנו,
12:15 - 12:18

לכן דיווחנו על כך במאמר המדעי שכתבנו.
12:18 - 12:20

אבל מתברר שזה רק מזכיר לנו
12:20 - 12:22

שלמרות שכל זה כיף גדול,
12:22 - 12:24

כאשר מפרשים את הגרפים הללו, צריך מאוד להיזהר,
12:24 - 12:27

ושעלינו לאמץ סטנדרטים בסיסיים של מדע.
12:27 - 12:30

א.ל.א: אנשים נוהגים להשתמש בזה לכל מיני מטרות.
12:30 - 12:37

(צחוק)
12:37 - 12:39

בעצם, אין לנו יותר צורך לדבר,
12:39 - 12:42

אנו רק נראה לכם את כל השקופיות ונישאר דוממים.
12:42 - 12:45

אדם זה התעניין בהיסטוריית התיסכול.
12:45 - 12:48

ישנם סוגי תיסכול שונים.
12:48 - 12:51

אם נפגעים בבוהן, יש אחד "ארג".
12:51 - 12:53

אם כדור-הארץ מושמד על-ידי הווגונים
12:53 - 12:55

כדי לפנות דרך למעבר בין-כוכבי,
12:55 - 12:57

זה שמונה א "אאאאאאאארג".
12:57 - 12:59

אדם זה חוקר את כל ה"ארגים",
12:59 - 13:01

מאחד עד שמונה א-ים.
13:01 - 13:03

מתברר
13:03 - 13:05

שה"ארגים" הפחות נפוצים
13:05 - 13:08

הם אלה אשר קשורים בדברים היותר מתסכלים --
13:08 - 13:11

מלבד, באופן משונה, בשנות ה-80 המוקדמות.
13:11 - 13:13

אנו סבורים שזה עשוי להיות קשור איכשהו ברייגן.
13:13 - 13:15

(צחוק)
13:15 - 13:18

ג'.מ.: ישנם הרבה שימושים לנתונים אלה,
13:18 - 13:21

אבל השורה התחתונה היא שרשומות היסטוריות עוברות דיגיטליזציה.
13:21 - 13:23

גוגל החלה בדיגיטליזציה של 15 מיליון ספרים.
13:23 - 13:25

זה 12 אחוז מכל הספרים שיצאו אי-פעם לאור.
13:25 - 13:28

זוהי פיסה גדולה למדיי של התרבות האנושית.
13:28 - 13:31

יש בנוסף עוד הרבה בתרבות: ישנם כתבי-יד, ישנם עיתונים,
13:31 - 13:33

ישנם דברים שאינם טקסטים, כמו אמנות וציורים.
13:33 - 13:35

כל זה אמור להיות במחשבים שלנו,
13:35 - 13:37

במחשבים בכל העולם.
13:37 - 13:40

וכאשר זה יקרה, יחול שינוי באופן בו אנו מבינים את עברנו,
13:40 - 13:42

את ההווה שלנו ואת התרבות האנושית.
13:42 - 13:44

תודה רבה לכם.
13:44 - 13:47

(מחיאות כפיים)

Title:: מה למדנו מ-5 מיליון ספרים
Speaker:: Jean-Baptiste Michel + Erez Lieberman Aiden
Description:: האם שיחקתם פעם בתוכנה הגרפית Ngram של מעבדות גוגל? זהו כלי ממכר המאפשר לנו לחפש מילים ורעיונות בבסיס נתונים של 5 מיליון ספרים שנכתבו לאורך מאות שנים. ארז ליברמן איידן וז'אן-באפטיסט מישל מראים לנו כיצד זה עובד, וגם כמה מהדברים המפתיעים שניתן ללמוד מתוך 500 מיליארד מילים.

more » « less
Video Language:: English
Team:: closed TED
Project:: TEDTalks
Duration:: 13:48

Yubal Masalker added a translation

Hebrew subtitles

Revisions

Revision 1

Yubal Masalker

מה למדנו מ-5 מיליון ספרים

Revisions

Our website uses cookies

Operating cookies (Required)