< Return to Video

מה למדנו מ-5 מיליון ספרים

  • 0:00 - 0:02
    ארז ליברמן איידן: כולם יודעים
  • 0:02 - 0:05
    שתמונה שווה אלף מילים.
  • 0:07 - 0:09
    אבל אנחנו בהרווארד
  • 0:09 - 0:12
    תהינו אם זה באמת נכון.
  • 0:12 - 0:14
    (צחוק)
  • 0:14 - 0:18
    לכן הרכבנו צוות של מומחים
  • 0:18 - 0:20
    שמגיעים מהרווארד, MIT,
  • 0:20 - 0:23
    המילון למורשת אמריקאית, אנציקלופדיה בריטניקה
  • 0:23 - 0:25
    ואפילו מנותני החסות
  • 0:25 - 0:28
    הגאים שלנו, גוגל.
  • 0:28 - 0:30
    הרהרנו בזה
  • 0:30 - 0:32
    במשך כארבע שנים
  • 0:32 - 0:37
    והגענו למסקנה מדהימה.
  • 0:37 - 0:40
    גבירותיי ורבותיי, תמונה אינה שווה אלף מילים.
  • 0:40 - 0:42
    בעצם, מצאנו כמה תמונות
  • 0:42 - 0:47
    השוות 500 מיליארד מילים.
  • 0:47 - 0:49
    ג'ין-בפטיסט מישל: כיצד הגענו למסקנה זו?
  • 0:49 - 0:51
    ארז ואני חשבנו על דרכים
  • 0:51 - 0:53
    לקבלת תמונה כוללת של תרבות
  • 0:53 - 0:56
    והיסטוריה אנושית: של שינוי לאורך זמן.
  • 0:56 - 0:58
    כל-כך הרבה ספרים נכתבו במהלך השנים.
  • 0:58 - 1:00
    לכן חשבנו שהדרך הכי טובה ללמוד מהם
  • 1:00 - 1:02
    היא לקרוא את כל מיליוני הספרים.
  • 1:02 - 1:05
    כמובן שאם יש מדד לעד כמה שזה מרשים,
  • 1:05 - 1:08
    יש למקם אותו מאוד, מאוד גבוה.
  • 1:08 - 1:10
    הבעיה היא שקיים גם ציר X,
  • 1:10 - 1:12
    שהוא ציר התכליתיות במקרה זה,
  • 1:12 - 1:14
    שעל-פיו זה מאוד, מאוד נמוך.
  • 1:14 - 1:17
    (מחיאות כפיים)
  • 1:17 - 1:20
    אנשים נוטים להשתמש בגישה אלטרנטיבית,
  • 1:20 - 1:22
    שזה לקחת כמה מקורות ולקרוא אותם בתשומת לב.
  • 1:22 - 1:24
    זה מאוד מעשי אבל לא מרשים.
  • 1:24 - 1:27
    מה שבאמת צריך לעשות
  • 1:27 - 1:30
    זה להיכנס לחלק המרשים אבל גם המעשי של סביבה זו.
  • 1:30 - 1:33
    מתברר שיש חברה מעבר לנהר שנקראת גוגל
  • 1:33 - 1:35
    שהחלה במיזם דיגיטליזציה לפני כמה שנים
  • 1:35 - 1:37
    העשוי לאפשר את יישומה של גישה זו.
  • 1:37 - 1:39
    הם ביצעו דיגיטליזציה למיליוני ספרים.
  • 1:39 - 1:42
    זה אומר שניתן לנצל שיטות ממוחשבות
  • 1:42 - 1:44
    כדי לקרוא את כל הספרים בלחיצת כפתור.
  • 1:44 - 1:47
    זה מאוד מעשי וגם מרשים ביותר.
  • 1:48 - 1:50
    א.ל.א.: אספר לכם קצת מאיפה הספרים מגיעים.
  • 1:50 - 1:53
    מאז זמנים קדומים, היו כבר מיליוני סופרים.
  • 1:53 - 1:56
    סופרים אלה שאפו לכתוב ספרים.
  • 1:56 - 1:58
    וזה הפך לקל משמעותית
  • 1:58 - 2:00
    עם התפתחות הדפוס לפני מספר מאות שנים.
  • 2:00 - 2:03
    מאז, הסופרים זכו לפרסם ספרים
  • 2:03 - 2:05
    129 מיליון
  • 2:05 - 2:07
    פעמים.
  • 2:07 - 2:09
    אם כל אותם הספרים לא הלכו לאיבוד
  • 2:09 - 2:11
    במהלך ההיסטוריה, הם נמצאים בספריות,
  • 2:11 - 2:14
    ורבים מבין הספרים האלה נשלפים מהספריות
  • 2:14 - 2:16
    ועוברים דיגיטליזציה אצל גוגל,
  • 2:16 - 2:18
    אשר סרקה עד כה 15 מיליון ספרים.
  • 2:18 - 2:21
    כאשר בגוגל עושים דיגיטליזציה לספר, הם מעבירים אותו לפורמט באמת יפה.
  • 2:21 - 2:23
    יש לנו נתונים ובנוסף יש לנו נתונים על מאפייני הנתונים.
  • 2:23 - 2:26
    יש לנו מידע על דברים כגון היכן זה פורסם,
  • 2:26 - 2:28
    מי היה המחבר, מתי זה פורסם.
  • 2:28 - 2:31
    ומה שאנו עושים זה לעבור על כל הרשומות האלו
  • 2:31 - 2:35
    ולוותר על כל הנתונים שאינם מהאיכות הכי גבוהה.
  • 2:35 - 2:37
    מה שנשאר זה
  • 2:37 - 2:40
    אוסף של 5 מיליון ספרים,
  • 2:40 - 2:43
    500 מיליארד מילים,
  • 2:43 - 2:45
    מחרוזת של אותיות הארוכה פי אלף
  • 2:45 - 2:48
    מהחומר התורשתי האנושי --
  • 2:48 - 2:50
    טקסט שאם ייכתב,
  • 2:50 - 2:52
    יגיע מכאן לירח ובחזרה
  • 2:52 - 2:54
    10 פעמים ויותר --
  • 2:54 - 2:58
    זהו פלח משמעותי מהתורשה התרבותית שלנו.
  • 2:58 - 3:00
    ברור שמה שעשינו
  • 3:00 - 3:03
    כאשר נתקלנו בהיפרבולה שערורייתית כזו --
  • 3:03 - 3:05
    (צחוק)
  • 3:05 - 3:08
    היה מה שכל חוקר המכבד את עצמו
  • 3:08 - 3:11
    היה עושה.
  • 3:11 - 3:13
    לקחנו דף מתוך קטע קומי ברשת,
  • 3:13 - 3:15
    ואמרנו, "תתרחקי מאיתנו.
  • 3:15 - 3:17
    אנו הולכים להיעזר במדע."
  • 3:17 - 3:19
    (צחוק)
  • 3:19 - 3:21
    ג'.מ.: טוב, ברור שחשבנו
  • 3:21 - 3:23
    שאולי נחשוף את הנתונים לאנשים
  • 3:23 - 3:25
    כדי שיעשו עליהם מחקרים מדעיים.
  • 3:25 - 3:27
    התחלנו לחשוב איזה נתונים לשחרר.
  • 3:27 - 3:29
    האמת שהיינו רוצים לשחרר
  • 3:29 - 3:31
    את מלוא הטקסט של כל 5 מיליון הספרים.
  • 3:31 - 3:33
    אבל גוגל, ובעיקר ג'ון אורוונט,
  • 3:33 - 3:35
    סיפרו לנו שעלינו ללמוד משוואה אחת.
  • 3:35 - 3:38
    אם יש לכם 5 מיליון, זה אומר 5 מיליון סופרים
  • 3:38 - 3:41
    ו-5 מיליון תביעות משפטיות שזה ממש המון.
  • 3:41 - 3:43
    כך שגם אם זה יהיה ממש, ממש מרשים,
  • 3:43 - 3:46
    שוב, זה מאוד, מאוד לא מעשי.
  • 3:46 - 3:48
    (צחוק)
  • 3:48 - 3:50
    ואנו שוב ויתרנו,
  • 3:50 - 3:53
    ואימצנו את הגישה המאוד מעשית, שהיתה קצת פחות מרשימה.
  • 3:53 - 3:55
    אמרנו, במקום לשחרר את מלוא הטקסט,
  • 3:55 - 3:57
    נשחרר סטטיסטיקות על הספרים.
  • 3:57 - 3:59
    ניקח לדוגמא "קורטוב של אושר".
  • 3:59 - 4:01
    אלו הן ארבע מילים (באנגלית); נקרא לזה משקל-ארבע.
  • 4:01 - 4:03
    נספר לכם כמה פעמים משקל-ארבע מסויים
  • 4:03 - 4:05
    הופיע בספרים ב-1801, 1802, 1803,
  • 4:05 - 4:07
    עד 2008.
  • 4:07 - 4:09
    זה נותן לנו מרווחי זמן של תדירות השימוש
  • 4:09 - 4:11
    בביטוי מסויים זה לאורך תקופה.
  • 4:11 - 4:14
    אנו עושים זאת לכל המילים והביטויים אשר מופיעים בספרים הללו,
  • 4:14 - 4:17
    וזה נותן לנו טבלה גדולה של שני מיליארד שורות
  • 4:17 - 4:19
    המספרות לנו על הדרך בה תרבות משתנה.
  • 4:19 - 4:21
    א.ל.א.: שני מיליארד השורות הללו,
  • 4:21 - 4:23
    אנו מכנים אותן שני מיליארד משקלי-n.
  • 4:23 - 4:25
    מה הן מספרות לנו?
  • 4:25 - 4:27
    כל משקל-n לכשעצמו מודד מגמות תרבותיות.
  • 4:27 - 4:29
    אתן לכם דוגמא.
  • 4:29 - 4:31
    נניח שאני מצליח במשהו,
  • 4:31 - 4:33
    לכן מחר ברצוני לספר לכם על ההצלחה שלי.
  • 4:33 - 4:36
    אני עשוי לומר, "אתמול, הצלחתי (I throve)."
  • 4:36 - 4:39
    או לחילופין, אתמול, הצלחתי (I thrived)".
  • 4:39 - 4:42
    במה עליי להשתמש?
  • 4:42 - 4:44
    כיצד יודעים?
  • 4:44 - 4:46
    עד לפני 6 חודשים,
  • 4:46 - 4:48
    המצב העדכני בתחום זה היה
  • 4:48 - 4:50
    שהולכים, לדוגמא,
  • 4:50 - 4:52
    לפסיכולוג כזה עם שיער מדהים,
  • 4:52 - 4:54
    ואומרים,
  • 4:54 - 4:57
    "סטיב, אתה מומחה בפעלים חריגים.
  • 4:57 - 4:59
    מה עליי לעשות?"
  • 4:59 - 5:01
    והוא היה עונה, "רוב האנשים אומרים thrived,
  • 5:01 - 5:04
    אבל כמה אומרים throve"
  • 5:04 - 5:06
    גם אתם יודעים, פחות או יותר,
  • 5:06 - 5:09
    שאם הייתם חוזרים 200 שנה אחורה
  • 5:09 - 5:12
    ושואלים את המדינאי הזה שגם לו יש שיער מדהים,
  • 5:12 - 5:15
    (צחוק)
  • 5:15 - 5:17
    "טום, מה עליי להגיד?"
  • 5:17 - 5:19
    הוא היה עונה, "בזמני, רוב האנשים השתמשו ב-throve,
  • 5:19 - 5:22
    אבל כמה ב-thrived".
  • 5:22 - 5:24
    כעת מה שאראה לכם זה נתונים גולמיים.
  • 5:24 - 5:28
    שתי שורות מטבלה זו של 2 מיליארד שורות.
  • 5:28 - 5:30
    מה שרואים זו התדירות, שנה אחר שנה,
  • 5:30 - 5:33
    של "thrived" מול "throve" לאורך זמן.
  • 5:34 - 5:36
    אלו רק שתי שורות
  • 5:36 - 5:39
    מתוך 2 מיליארד שורות.
  • 5:39 - 5:41
    כך שכל מערך הנתונים
  • 5:41 - 5:44
    מרשים פי מיליארד מאשר שקופית זו.
  • 5:44 - 5:46
    (צחוק)
  • 5:46 - 5:50
    (מחיאות כפיים)
  • 5:50 - 5:52
    ג'.מ: ישנן הרבה תמונות אחרות
  • 5:52 - 5:54
    השוות 500 מיליארד מילים. למשל זו.
  • 5:54 - 5:56
    אם ניקח את שפעת,
  • 5:56 - 5:58
    נראה שיאים בזמנים שאנו יודעים
  • 5:58 - 6:01
    שבהם מגיפות השפעת חיסלו אנשים בכל העולם.
  • 6:01 - 6:04
    א.ל.א.: אם עדיין לא השתכנעתם,
  • 6:04 - 6:06
    פני-הים עולים,
  • 6:06 - 6:09
    כך גם דו-תחמוצת הפחמן באויר והטמפרטורה הממוצעת.
  • 6:09 - 6:12
    ג'.מ.: אולי גם תרצו לראות את משקל-n המסויים הזה,
  • 6:12 - 6:15
    וזה כדי לספר לניטשה שאלוהים לא מת,
  • 6:15 - 6:18
    אף על-פי שתסכימו אולי שהוא זקוק ליחצ"ן יותר טוב.
  • 6:18 - 6:20
    (צחוק)
  • 6:20 - 6:23
    א.ל.א.: ניתן להגיע לכמה תפיסות מופשטות מדבר כזה.
  • 6:23 - 6:25
    לדוגמא, אספר לכם על ההיסטוריה
  • 6:25 - 6:27
    של שנת 1950.
  • 6:27 - 6:29
    לאורך רוב ההיסטוריה בקירוב,
  • 6:29 - 6:31
    אף אחד לא שם על שנת 1950.
  • 6:31 - 6:33
    ב-1700, ב-1800, ב-1900,
  • 6:33 - 6:36
    לאף אחד לא היה אכפת.
  • 6:37 - 6:39
    לאורך שנות ה-30 וה-40,
  • 6:39 - 6:41
    לאף אחד לא היה אכפת.
  • 6:41 - 6:43
    פתאום, באמצע שנות ה-40,
  • 6:43 - 6:45
    התחיל הבאז.
  • 6:45 - 6:47
    אנשים גילו ש-1950 עומדת להגיע,
  • 6:47 - 6:49
    והיא יכולה להיות דבר גדול.
  • 6:49 - 6:52
    (צחוק)
  • 6:52 - 6:55
    אבל שום דבר לא גרם להם להתעניין ב-1950
  • 6:55 - 6:58
    כמו השנה 1950 עצמה.
  • 6:58 - 7:01
    (צחוק)
  • 7:01 - 7:03
    אנשים התהלכו עם אובססיה בתוכם.
  • 7:03 - 7:05
    הם לא יכלו להפסיק לדבר
  • 7:05 - 7:08
    על כל הדברים שהם עשו ב-1950,
  • 7:08 - 7:11
    כל הדברים שהם תיכננו לעשות ב-1950,
  • 7:11 - 7:16
    כל החלומות שהם רצו להגשים ב-1950.
  • 7:16 - 7:18
    למעשה, 1950 היתה כה מרתקת
  • 7:18 - 7:20
    שבשנים שלאחריה,
  • 7:20 - 7:23
    אנשים פשוט המשיכו לדבר על כל הדברים המדהימים שקרו,
  • 7:23 - 7:25
    ב-51, 52, 53.
  • 7:25 - 7:27
    לבסוף ב-1954,
  • 7:27 - 7:29
    מישהו התעורר ושם לב
  • 7:29 - 7:33
    ש-1950 איכשהו עבר זמנה.
  • 7:33 - 7:35
    (צחוק)
  • 7:35 - 7:37
    וככה סתם, הבלון התפוצץ.
  • 7:37 - 7:39
    (צחוק)
  • 7:39 - 7:41
    וסיפורה של 1950 הוא הסיפור
  • 7:41 - 7:43
    של כל שנה שיש עליה רשומות,
  • 7:43 - 7:46
    עם שינוי קטן, כי כעת יש לנו את התרשימים היפים האלה.
  • 7:46 - 7:49
    ומאחר ויש לנו אותם, אנו יכולים למדוד דברים שונים.
  • 7:49 - 7:51
    אנו יכולים לשאול, "כמה מהר הבלון מתפוצץ?"
  • 7:51 - 7:54
    מתברר שניתן למדוד זאת בדיוק מאוד גבוה.
  • 7:54 - 7:57
    מזה נוצרו משוואות, נוצרו גרפים,
  • 7:57 - 7:59
    והתוצאה הסופית היא
  • 7:59 - 8:02
    שמצאנו שהבלון מתפוצץ יותר ויותר מהר
  • 8:02 - 8:04
    עם כל שנה שעוברת.
  • 8:04 - 8:09
    אנו מאבדים עניין בעבר בקצב הולך וגובר.
  • 8:09 - 8:11
    ג'.מ.: ועכשיו עצה קטנה בנושא קריירה.
  • 8:11 - 8:13
    עבור אלה מכם ששואפים להתפרסם,
  • 8:13 - 8:15
    ניתן ללמוד מ-25 הפוליטיקאים המובילים,
  • 8:15 - 8:17
    הסופרים, השחקנים ועוד.
  • 8:17 - 8:20
    אם ברצונכם להתפרסם מוקדם, עליכם להיות שחקנים,
  • 8:20 - 8:22
    מכיוון שהפירסום מתחיל לטפס בסוף שנות ה-20 שלכם --
  • 8:22 - 8:24
    אתם עדיין צעירים וזה נהדר.
  • 8:24 - 8:26
    אם אתם יכולים להמתין מעט, עליכם להיות סופרים,
  • 8:26 - 8:28
    מאחר ואז אתם מטפסים לגבהים גדולים,
  • 8:28 - 8:30
    כמו מרק טוויין: מאוד מפורסם.
  • 8:30 - 8:32
    אבל אם ברצונכם להגיע ממש לפיסגה,
  • 8:32 - 8:34
    עליכם לדחות סיפוקים
  • 8:34 - 8:36
    וכמובן, להיות פוליטיקאי.
  • 8:36 - 8:38
    כאן תהיו מפורסמים בסוף שנות ה-50 שלכם,
  • 8:38 - 8:40
    ותהיו מאוד, מאוד מפורסמים אחר-כך.
  • 8:40 - 8:43
    גם המדענים נוטים להתפרסם כאשר הם מבוגרים בהרבה.
  • 8:43 - 8:45
    כמו לדוגמא, ביולוגים ופיזיקאים
  • 8:45 - 8:47
    שמקבלים פירסום כמו שחקנים.
  • 8:47 - 8:50
    שגיאה אחת שעליכם להימנע ממנה זה להיות מתמטיקאי.
  • 8:50 - 8:52
    (צחוק)
  • 8:52 - 8:54
    אם תעשו זאת,
  • 8:54 - 8:57
    אולי תחשבו, "נהדר, אגיע לשיאי בשנות ה-20 שלי."
  • 8:57 - 8:59
    אבל אתם יודעים מה? לאף אחד זה לא יהיה אכפת.
  • 8:59 - 9:02
    (צחוק)
  • 9:02 - 9:04
    א.ל.א.: ישנן תובנות נוספות מאירות-עיניים
  • 9:04 - 9:06
    בתוך המשקלי-n.
  • 9:06 - 9:08
    לדוגמא, הנה המסלול של מרק שאגל,
  • 9:08 - 9:10
    אמן יליד 1887.
  • 9:10 - 9:13
    וזה נראה כמסלול רגיל של אדם שהתפרסם.
  • 9:13 - 9:17
    הוא נהיה יותר ויותר מפורסם,
  • 9:17 - 9:19
    אלא אם בודקים בשפה הגרמנית.
  • 9:19 - 9:21
    אם בודקים בגרמנית, רואים משהו לגמרי מוזר,
  • 9:21 - 9:23
    משהו שכמעט ולא רואים,
  • 9:23 - 9:25
    שזה שהוא נהיה מאוד מפורסם
  • 9:25 - 9:27
    ואז פתאום צולל לתחתית,
  • 9:27 - 9:30
    עובר שפל בין 1933 ו-1945,
  • 9:30 - 9:33
    לפני עלייתו מחדש.
  • 9:33 - 9:35
    ובעצם, מה שרואים זו העובדה
  • 9:35 - 9:38
    שמרק שאגאל היה אמן יהודי
  • 9:38 - 9:40
    בגרמניה הנאצית.
  • 9:40 - 9:42
    הסימנים האלה
  • 9:42 - 9:44
    הם כה חזקים
  • 9:44 - 9:47
    שאין צורך לדעת שמישהו צונזר.
  • 9:47 - 9:49
    ניתן פשוט להסיק זאת
  • 9:49 - 9:51
    בעזרת עיבוד נתונים בסיסי.
  • 9:51 - 9:53
    הנה דרך פשוטה לעשות את זה.
  • 9:53 - 9:55
    סביר לצפות שמידת הפירסום
  • 9:55 - 9:57
    של פלוני בזמן נתון תהיה
  • 9:57 - 9:59
    בקירוב הממוצע של פירסומו
  • 9:59 - 10:01
    לפני אותו זמן ופירסומו אחריו.
  • 10:01 - 10:03
    זה בערך מה שאנו מצפים
  • 10:03 - 10:06
    ומשווים את התוצאה למידת הפירסום בפועל.
  • 10:06 - 10:08
    מחלקים את האחד בשני
  • 10:08 - 10:10
    כדי לקבל מה שנקרא מדד דיכוי.
  • 10:10 - 10:13
    אם מדד הדיכוי מאוד, מאוד קטן,
  • 10:13 - 10:15
    זה אומר שמישהו כנראה סובל מדיכוי.
  • 10:15 - 10:18
    אם הוא מאוד גדול, אולי מישהו נהנה מתעמולה.
  • 10:19 - 10:21
    ג'.מ.: ניתן בעצם להסתכל על
  • 10:21 - 10:24
    פילוג מדדי הדיכוי על-פני האוכלוסייה כולה.
  • 10:24 - 10:26
    לדוגמא, מדד דיכוי זה
  • 10:26 - 10:28
    הוא של 5,000 אנשים
  • 10:28 - 10:30
    הלקוח מספרים באנגליה שלא אמור להיות שם דיכוי --
  • 10:30 - 10:32
    הוא ייראה כך, בגדול מרוכז סביב 1.
  • 10:32 - 10:34
    מה שמצפים לו זה בערך מה שרואים כאן.
  • 10:34 - 10:36
    זה הפילוג שמתקבל בגרמניה --
  • 10:36 - 10:38
    מאוד שונה, הוא מוסט שמאלה.
  • 10:38 - 10:41
    אנשים שם דיברו כפליים פחות ממה שהיה ניתן לצפות.
  • 10:41 - 10:43
    אבל יותר חשוב, הפילוג הרבה יותר רחב.
  • 10:43 - 10:46
    יש הרבה אנשים הנמצאים בקצה השמאלי של פילוג זה
  • 10:46 - 10:49
    אשר דיברו פי-10 פחות ממה שהיו "צריכים".
  • 10:49 - 10:51
    אבל יש גם הרבה אנשים בקצה הימני
  • 10:51 - 10:53
    שנראה שהם מרויחים מתעמולה.
  • 10:53 - 10:56
    תמונה זו היא המאפיין המזהה, במסד נתוני הספרים, לצנזורה.
  • 10:56 - 10:58
    א.ל.א.: אנו מכנים שיטה זו
  • 10:58 - 11:00
    culturomics (חקר תורשה תרבותית).
  • 11:00 - 11:02
    זה דומה לחקר התורשה בביולוגיה.
  • 11:02 - 11:04
    חקר התורשה שם עדשה על ביולוגיה
  • 11:04 - 11:07
    דרך החלון של סדרות של רצפי בסיס בחומר התורשתי האנושי.
  • 11:07 - 11:09
    חקר תורשה תרבותית זה משהו דומה.
  • 11:09 - 11:12
    זה שימוש באנליזה של איסוף נתונים בקנה-מידה ענקי
  • 11:12 - 11:14
    לחקר של תרבות אנושית.
  • 11:14 - 11:16
    כאן, במקום להביט דרך עדשת החומר התורשתי,
  • 11:16 - 11:19
    מביטים דרך עדשה של פיסות של רשומות היסטוריות שעברו דיגיטליזציה.
  • 11:19 - 11:21
    הדבר הגדול בחקר תורשה תרבותית
  • 11:21 - 11:23
    הוא שכל אחד יכול לעשות זאת.
  • 11:23 - 11:25
    מדוע כל אחד יכול לעשות זאת?
  • 11:25 - 11:27
    זה מכיוון ששלושה אנשים,
  • 11:27 - 11:30
    ג'ון אורוונט, מאט גריי וויל ברוקמן מגוגל,
  • 11:30 - 11:32
    ראו את אב-הטיפוס של מצגת המשקל-n,
  • 11:32 - 11:34
    ואמרו, "זה כזה כיף.
  • 11:34 - 11:37
    עלינו להפכה לזמינה לציבור."
  • 11:37 - 11:39
    תוך שבועיים -- שבועיים לפני שהמאמר שלנו התפרסם --
  • 11:39 - 11:42
    הם כתבו תוכנית לגירסת מצגת משקל-n בשביל כלל הציבור.
  • 11:42 - 11:45
    ניתן להקליד כל מילה או ביטוי שחפצים בהם
  • 11:45 - 11:47
    ולראות את משקל ה-n שלהם מייד --
  • 11:47 - 11:49
    וגם להציג דוגמאות של כל הספרים המגוונים
  • 11:49 - 11:51
    שבהם מופיע המשקל-n שבחרת.
  • 11:51 - 11:53
    ג'.מ.: נעשה בזה שימוש יותר ממיליון פעם ביום הראשון,
  • 11:53 - 11:55
    וזו באמת השאילתא הטובה ביותר מכולן.
  • 11:55 - 11:58
    אנשים רוצים את הטוב ביותר, להניח את הרגל היותר טובה מלפנים.
  • 11:58 - 12:01
    אבל מתברר שבמאה ה-18, לאנשים לא היה ממש אכפת מכל זה.
  • 12:01 - 12:04
    הם לא רצו את הטוב ביותר (best), אלא את הטוב ביותר (beft).
  • 12:04 - 12:07
    לכן מה שקרה הוא, טוב, ברור שזו טעות.
  • 12:07 - 12:09
    זה לא שהם שאפו לבינוניות,
  • 12:09 - 12:12
    אלא שהיו נוהגים לכתוב S בצורה שונה, בערך כמו F.
  • 12:12 - 12:15
    גוגל לא תפסו זאת בזמנו,
  • 12:15 - 12:18
    לכן דיווחנו על כך במאמר המדעי שכתבנו.
  • 12:18 - 12:20
    אבל מתברר שזה רק מזכיר לנו
  • 12:20 - 12:22
    שלמרות שכל זה כיף גדול,
  • 12:22 - 12:24
    כאשר מפרשים את הגרפים הללו, צריך מאוד להיזהר,
  • 12:24 - 12:27
    ושעלינו לאמץ סטנדרטים בסיסיים של מדע.
  • 12:27 - 12:30
    א.ל.א: אנשים נוהגים להשתמש בזה לכל מיני מטרות.
  • 12:30 - 12:37
    (צחוק)
  • 12:37 - 12:39
    בעצם, אין לנו יותר צורך לדבר,
  • 12:39 - 12:42
    אנו רק נראה לכם את כל השקופיות ונישאר דוממים.
  • 12:42 - 12:45
    אדם זה התעניין בהיסטוריית התיסכול.
  • 12:45 - 12:48
    ישנם סוגי תיסכול שונים.
  • 12:48 - 12:51
    אם נפגעים בבוהן, יש אחד "ארג".
  • 12:51 - 12:53
    אם כדור-הארץ מושמד על-ידי הווגונים
  • 12:53 - 12:55
    כדי לפנות דרך למעבר בין-כוכבי,
  • 12:55 - 12:57
    זה שמונה א "אאאאאאאארג".
  • 12:57 - 12:59
    אדם זה חוקר את כל ה"ארגים",
  • 12:59 - 13:01
    מאחד עד שמונה א-ים.
  • 13:01 - 13:03
    מתברר
  • 13:03 - 13:05
    שה"ארגים" הפחות נפוצים
  • 13:05 - 13:08
    הם אלה אשר קשורים בדברים היותר מתסכלים --
  • 13:08 - 13:11
    מלבד, באופן משונה, בשנות ה-80 המוקדמות.
  • 13:11 - 13:13
    אנו סבורים שזה עשוי להיות קשור איכשהו ברייגן.
  • 13:13 - 13:15
    (צחוק)
  • 13:15 - 13:18
    ג'.מ.: ישנם הרבה שימושים לנתונים אלה,
  • 13:18 - 13:21
    אבל השורה התחתונה היא שרשומות היסטוריות עוברות דיגיטליזציה.
  • 13:21 - 13:23
    גוגל החלה בדיגיטליזציה של 15 מיליון ספרים.
  • 13:23 - 13:25
    זה 12 אחוז מכל הספרים שיצאו אי-פעם לאור.
  • 13:25 - 13:28
    זוהי פיסה גדולה למדיי של התרבות האנושית.
  • 13:28 - 13:31
    יש בנוסף עוד הרבה בתרבות: ישנם כתבי-יד, ישנם עיתונים,
  • 13:31 - 13:33
    ישנם דברים שאינם טקסטים, כמו אמנות וציורים.
  • 13:33 - 13:35
    כל זה אמור להיות במחשבים שלנו,
  • 13:35 - 13:37
    במחשבים בכל העולם.
  • 13:37 - 13:40
    וכאשר זה יקרה, יחול שינוי באופן בו אנו מבינים את עברנו,
  • 13:40 - 13:42
    את ההווה שלנו ואת התרבות האנושית.
  • 13:42 - 13:44
    תודה רבה לכם.
  • 13:44 - 13:47
    (מחיאות כפיים)
Title:
מה למדנו מ-5 מיליון ספרים
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

האם שיחקתם פעם בתוכנה הגרפית Ngram של מעבדות גוגל? זהו כלי ממכר המאפשר לנו לחפש מילים ורעיונות בבסיס נתונים של 5 מיליון ספרים שנכתבו לאורך מאות שנים. ארז ליברמן איידן וז'אן-באפטיסט מישל מראים לנו כיצד זה עובד, וגם כמה מהדברים המפתיעים שניתן ללמוד מתוך 500 מיליארד מילים.

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Yubal Masalker added a translation

Hebrew subtitles

Revisions