1 00:00:00,000 --> 00:00:02,000 ארז ליברמן איידן: כולם יודעים 2 00:00:02,000 --> 00:00:05,000 שתמונה שווה אלף מילים. 3 00:00:07,000 --> 00:00:09,000 אבל אנחנו בהרווארד 4 00:00:09,000 --> 00:00:12,000 תהינו אם זה באמת נכון. 5 00:00:12,000 --> 00:00:14,000 (צחוק) 6 00:00:14,000 --> 00:00:18,000 לכן הרכבנו צוות של מומחים 7 00:00:18,000 --> 00:00:20,000 שמגיעים מהרווארד, MIT, 8 00:00:20,000 --> 00:00:23,000 המילון למורשת אמריקאית, אנציקלופדיה בריטניקה 9 00:00:23,000 --> 00:00:25,000 ואפילו מנותני החסות 10 00:00:25,000 --> 00:00:28,000 הגאים שלנו, גוגל. 11 00:00:28,000 --> 00:00:30,000 הרהרנו בזה 12 00:00:30,000 --> 00:00:32,000 במשך כארבע שנים 13 00:00:32,000 --> 00:00:37,000 והגענו למסקנה מדהימה. 14 00:00:37,000 --> 00:00:40,000 גבירותיי ורבותיי, תמונה אינה שווה אלף מילים. 15 00:00:40,000 --> 00:00:42,000 בעצם, מצאנו כמה תמונות 16 00:00:42,000 --> 00:00:47,000 השוות 500 מיליארד מילים. 17 00:00:47,000 --> 00:00:49,000 ג'ין-בפטיסט מישל: כיצד הגענו למסקנה זו? 18 00:00:49,000 --> 00:00:51,000 ארז ואני חשבנו על דרכים 19 00:00:51,000 --> 00:00:53,000 לקבלת תמונה כוללת של תרבות 20 00:00:53,000 --> 00:00:56,000 והיסטוריה אנושית: של שינוי לאורך זמן. 21 00:00:56,000 --> 00:00:58,000 כל-כך הרבה ספרים נכתבו במהלך השנים. 22 00:00:58,000 --> 00:01:00,000 לכן חשבנו שהדרך הכי טובה ללמוד מהם 23 00:01:00,000 --> 00:01:02,000 היא לקרוא את כל מיליוני הספרים. 24 00:01:02,000 --> 00:01:05,000 כמובן שאם יש מדד לעד כמה שזה מרשים, 25 00:01:05,000 --> 00:01:08,000 יש למקם אותו מאוד, מאוד גבוה. 26 00:01:08,000 --> 00:01:10,000 הבעיה היא שקיים גם ציר X, 27 00:01:10,000 --> 00:01:12,000 שהוא ציר התכליתיות במקרה זה, 28 00:01:12,000 --> 00:01:14,000 שעל-פיו זה מאוד, מאוד נמוך. 29 00:01:14,000 --> 00:01:17,000 (מחיאות כפיים) 30 00:01:17,000 --> 00:01:20,000 אנשים נוטים להשתמש בגישה אלטרנטיבית, 31 00:01:20,000 --> 00:01:22,000 שזה לקחת כמה מקורות ולקרוא אותם בתשומת לב. 32 00:01:22,000 --> 00:01:24,000 זה מאוד מעשי אבל לא מרשים. 33 00:01:24,000 --> 00:01:27,000 מה שבאמת צריך לעשות 34 00:01:27,000 --> 00:01:30,000 זה להיכנס לחלק המרשים אבל גם המעשי של סביבה זו. 35 00:01:30,000 --> 00:01:33,000 מתברר שיש חברה מעבר לנהר שנקראת גוגל 36 00:01:33,000 --> 00:01:35,000 שהחלה במיזם דיגיטליזציה לפני כמה שנים 37 00:01:35,000 --> 00:01:37,000 העשוי לאפשר את יישומה של גישה זו. 38 00:01:37,000 --> 00:01:39,000 הם ביצעו דיגיטליזציה למיליוני ספרים. 39 00:01:39,000 --> 00:01:42,000 זה אומר שניתן לנצל שיטות ממוחשבות 40 00:01:42,000 --> 00:01:44,000 כדי לקרוא את כל הספרים בלחיצת כפתור. 41 00:01:44,000 --> 00:01:47,000 זה מאוד מעשי וגם מרשים ביותר. 42 00:01:48,000 --> 00:01:50,000 א.ל.א.: אספר לכם קצת מאיפה הספרים מגיעים. 43 00:01:50,000 --> 00:01:53,000 מאז זמנים קדומים, היו כבר מיליוני סופרים. 44 00:01:53,000 --> 00:01:56,000 סופרים אלה שאפו לכתוב ספרים. 45 00:01:56,000 --> 00:01:58,000 וזה הפך לקל משמעותית 46 00:01:58,000 --> 00:02:00,000 עם התפתחות הדפוס לפני מספר מאות שנים. 47 00:02:00,000 --> 00:02:03,000 מאז, הסופרים זכו לפרסם ספרים 48 00:02:03,000 --> 00:02:05,000 129 מיליון 49 00:02:05,000 --> 00:02:07,000 פעמים. 50 00:02:07,000 --> 00:02:09,000 אם כל אותם הספרים לא הלכו לאיבוד 51 00:02:09,000 --> 00:02:11,000 במהלך ההיסטוריה, הם נמצאים בספריות, 52 00:02:11,000 --> 00:02:14,000 ורבים מבין הספרים האלה נשלפים מהספריות 53 00:02:14,000 --> 00:02:16,000 ועוברים דיגיטליזציה אצל גוגל, 54 00:02:16,000 --> 00:02:18,000 אשר סרקה עד כה 15 מיליון ספרים. 55 00:02:18,000 --> 00:02:21,000 כאשר בגוגל עושים דיגיטליזציה לספר, הם מעבירים אותו לפורמט באמת יפה. 56 00:02:21,000 --> 00:02:23,000 יש לנו נתונים ובנוסף יש לנו נתונים על מאפייני הנתונים. 57 00:02:23,000 --> 00:02:26,000 יש לנו מידע על דברים כגון היכן זה פורסם, 58 00:02:26,000 --> 00:02:28,000 מי היה המחבר, מתי זה פורסם. 59 00:02:28,000 --> 00:02:31,000 ומה שאנו עושים זה לעבור על כל הרשומות האלו 60 00:02:31,000 --> 00:02:35,000 ולוותר על כל הנתונים שאינם מהאיכות הכי גבוהה. 61 00:02:35,000 --> 00:02:37,000 מה שנשאר זה 62 00:02:37,000 --> 00:02:40,000 אוסף של 5 מיליון ספרים, 63 00:02:40,000 --> 00:02:43,000 500 מיליארד מילים, 64 00:02:43,000 --> 00:02:45,000 מחרוזת של אותיות הארוכה פי אלף 65 00:02:45,000 --> 00:02:48,000 מהחומר התורשתי האנושי -- 66 00:02:48,000 --> 00:02:50,000 טקסט שאם ייכתב, 67 00:02:50,000 --> 00:02:52,000 יגיע מכאן לירח ובחזרה 68 00:02:52,000 --> 00:02:54,000 10 פעמים ויותר -- 69 00:02:54,000 --> 00:02:58,000 זהו פלח משמעותי מהתורשה התרבותית שלנו. 70 00:02:58,000 --> 00:03:00,000 ברור שמה שעשינו 71 00:03:00,000 --> 00:03:03,000 כאשר נתקלנו בהיפרבולה שערורייתית כזו -- 72 00:03:03,000 --> 00:03:05,000 (צחוק) 73 00:03:05,000 --> 00:03:08,000 היה מה שכל חוקר המכבד את עצמו 74 00:03:08,000 --> 00:03:11,000 היה עושה. 75 00:03:11,000 --> 00:03:13,000 לקחנו דף מתוך קטע קומי ברשת, 76 00:03:13,000 --> 00:03:15,000 ואמרנו, "תתרחקי מאיתנו. 77 00:03:15,000 --> 00:03:17,000 אנו הולכים להיעזר במדע." 78 00:03:17,000 --> 00:03:19,000 (צחוק) 79 00:03:19,000 --> 00:03:21,000 ג'.מ.: טוב, ברור שחשבנו 80 00:03:21,000 --> 00:03:23,000 שאולי נחשוף את הנתונים לאנשים 81 00:03:23,000 --> 00:03:25,000 כדי שיעשו עליהם מחקרים מדעיים. 82 00:03:25,000 --> 00:03:27,000 התחלנו לחשוב איזה נתונים לשחרר. 83 00:03:27,000 --> 00:03:29,000 האמת שהיינו רוצים לשחרר 84 00:03:29,000 --> 00:03:31,000 את מלוא הטקסט של כל 5 מיליון הספרים. 85 00:03:31,000 --> 00:03:33,000 אבל גוגל, ובעיקר ג'ון אורוונט, 86 00:03:33,000 --> 00:03:35,000 סיפרו לנו שעלינו ללמוד משוואה אחת. 87 00:03:35,000 --> 00:03:38,000 אם יש לכם 5 מיליון, זה אומר 5 מיליון סופרים 88 00:03:38,000 --> 00:03:41,000 ו-5 מיליון תביעות משפטיות שזה ממש המון. 89 00:03:41,000 --> 00:03:43,000 כך שגם אם זה יהיה ממש, ממש מרשים, 90 00:03:43,000 --> 00:03:46,000 שוב, זה מאוד, מאוד לא מעשי. 91 00:03:46,000 --> 00:03:48,000 (צחוק) 92 00:03:48,000 --> 00:03:50,000 ואנו שוב ויתרנו, 93 00:03:50,000 --> 00:03:53,000 ואימצנו את הגישה המאוד מעשית, שהיתה קצת פחות מרשימה. 94 00:03:53,000 --> 00:03:55,000 אמרנו, במקום לשחרר את מלוא הטקסט, 95 00:03:55,000 --> 00:03:57,000 נשחרר סטטיסטיקות על הספרים. 96 00:03:57,000 --> 00:03:59,000 ניקח לדוגמא "קורטוב של אושר". 97 00:03:59,000 --> 00:04:01,000 אלו הן ארבע מילים (באנגלית); נקרא לזה משקל-ארבע. 98 00:04:01,000 --> 00:04:03,000 נספר לכם כמה פעמים משקל-ארבע מסויים 99 00:04:03,000 --> 00:04:05,000 הופיע בספרים ב-1801, 1802, 1803, 100 00:04:05,000 --> 00:04:07,000 עד 2008. 101 00:04:07,000 --> 00:04:09,000 זה נותן לנו מרווחי זמן של תדירות השימוש 102 00:04:09,000 --> 00:04:11,000 בביטוי מסויים זה לאורך תקופה. 103 00:04:11,000 --> 00:04:14,000 אנו עושים זאת לכל המילים והביטויים אשר מופיעים בספרים הללו, 104 00:04:14,000 --> 00:04:17,000 וזה נותן לנו טבלה גדולה של שני מיליארד שורות 105 00:04:17,000 --> 00:04:19,000 המספרות לנו על הדרך בה תרבות משתנה. 106 00:04:19,000 --> 00:04:21,000 א.ל.א.: שני מיליארד השורות הללו, 107 00:04:21,000 --> 00:04:23,000 אנו מכנים אותן שני מיליארד משקלי-n. 108 00:04:23,000 --> 00:04:25,000 מה הן מספרות לנו? 109 00:04:25,000 --> 00:04:27,000 כל משקל-n לכשעצמו מודד מגמות תרבותיות. 110 00:04:27,000 --> 00:04:29,000 אתן לכם דוגמא. 111 00:04:29,000 --> 00:04:31,000 נניח שאני מצליח במשהו, 112 00:04:31,000 --> 00:04:33,000 לכן מחר ברצוני לספר לכם על ההצלחה שלי. 113 00:04:33,000 --> 00:04:36,000 אני עשוי לומר, "אתמול, הצלחתי (I throve)." 114 00:04:36,000 --> 00:04:39,000 או לחילופין, אתמול, הצלחתי (I thrived)". 115 00:04:39,000 --> 00:04:42,000 במה עליי להשתמש? 116 00:04:42,000 --> 00:04:44,000 כיצד יודעים? 117 00:04:44,000 --> 00:04:46,000 עד לפני 6 חודשים, 118 00:04:46,000 --> 00:04:48,000 המצב העדכני בתחום זה היה 119 00:04:48,000 --> 00:04:50,000 שהולכים, לדוגמא, 120 00:04:50,000 --> 00:04:52,000 לפסיכולוג כזה עם שיער מדהים, 121 00:04:52,000 --> 00:04:54,000 ואומרים, 122 00:04:54,000 --> 00:04:57,000 "סטיב, אתה מומחה בפעלים חריגים. 123 00:04:57,000 --> 00:04:59,000 מה עליי לעשות?" 124 00:04:59,000 --> 00:05:01,000 והוא היה עונה, "רוב האנשים אומרים thrived, 125 00:05:01,000 --> 00:05:04,000 אבל כמה אומרים throve" 126 00:05:04,000 --> 00:05:06,000 גם אתם יודעים, פחות או יותר, 127 00:05:06,000 --> 00:05:09,000 שאם הייתם חוזרים 200 שנה אחורה 128 00:05:09,000 --> 00:05:12,000 ושואלים את המדינאי הזה שגם לו יש שיער מדהים, 129 00:05:12,000 --> 00:05:15,000 (צחוק) 130 00:05:15,000 --> 00:05:17,000 "טום, מה עליי להגיד?" 131 00:05:17,000 --> 00:05:19,000 הוא היה עונה, "בזמני, רוב האנשים השתמשו ב-throve, 132 00:05:19,000 --> 00:05:22,000 אבל כמה ב-thrived". 133 00:05:22,000 --> 00:05:24,000 כעת מה שאראה לכם זה נתונים גולמיים. 134 00:05:24,000 --> 00:05:28,000 שתי שורות מטבלה זו של 2 מיליארד שורות. 135 00:05:28,000 --> 00:05:30,000 מה שרואים זו התדירות, שנה אחר שנה, 136 00:05:30,000 --> 00:05:33,000 של "thrived" מול "throve" לאורך זמן. 137 00:05:34,000 --> 00:05:36,000 אלו רק שתי שורות 138 00:05:36,000 --> 00:05:39,000 מתוך 2 מיליארד שורות. 139 00:05:39,000 --> 00:05:41,000 כך שכל מערך הנתונים 140 00:05:41,000 --> 00:05:44,000 מרשים פי מיליארד מאשר שקופית זו. 141 00:05:44,000 --> 00:05:46,000 (צחוק) 142 00:05:46,000 --> 00:05:50,000 (מחיאות כפיים) 143 00:05:50,000 --> 00:05:52,000 ג'.מ: ישנן הרבה תמונות אחרות 144 00:05:52,000 --> 00:05:54,000 השוות 500 מיליארד מילים. למשל זו. 145 00:05:54,000 --> 00:05:56,000 אם ניקח את שפעת, 146 00:05:56,000 --> 00:05:58,000 נראה שיאים בזמנים שאנו יודעים 147 00:05:58,000 --> 00:06:01,000 שבהם מגיפות השפעת חיסלו אנשים בכל העולם. 148 00:06:01,000 --> 00:06:04,000 א.ל.א.: אם עדיין לא השתכנעתם, 149 00:06:04,000 --> 00:06:06,000 פני-הים עולים, 150 00:06:06,000 --> 00:06:09,000 כך גם דו-תחמוצת הפחמן באויר והטמפרטורה הממוצעת. 151 00:06:09,000 --> 00:06:12,000 ג'.מ.: אולי גם תרצו לראות את משקל-n המסויים הזה, 152 00:06:12,000 --> 00:06:15,000 וזה כדי לספר לניטשה שאלוהים לא מת, 153 00:06:15,000 --> 00:06:18,000 אף על-פי שתסכימו אולי שהוא זקוק ליחצ"ן יותר טוב. 154 00:06:18,000 --> 00:06:20,000 (צחוק) 155 00:06:20,000 --> 00:06:23,000 א.ל.א.: ניתן להגיע לכמה תפיסות מופשטות מדבר כזה. 156 00:06:23,000 --> 00:06:25,000 לדוגמא, אספר לכם על ההיסטוריה 157 00:06:25,000 --> 00:06:27,000 של שנת 1950. 158 00:06:27,000 --> 00:06:29,000 לאורך רוב ההיסטוריה בקירוב, 159 00:06:29,000 --> 00:06:31,000 אף אחד לא שם על שנת 1950. 160 00:06:31,000 --> 00:06:33,000 ב-1700, ב-1800, ב-1900, 161 00:06:33,000 --> 00:06:36,000 לאף אחד לא היה אכפת. 162 00:06:37,000 --> 00:06:39,000 לאורך שנות ה-30 וה-40, 163 00:06:39,000 --> 00:06:41,000 לאף אחד לא היה אכפת. 164 00:06:41,000 --> 00:06:43,000 פתאום, באמצע שנות ה-40, 165 00:06:43,000 --> 00:06:45,000 התחיל הבאז. 166 00:06:45,000 --> 00:06:47,000 אנשים גילו ש-1950 עומדת להגיע, 167 00:06:47,000 --> 00:06:49,000 והיא יכולה להיות דבר גדול. 168 00:06:49,000 --> 00:06:52,000 (צחוק) 169 00:06:52,000 --> 00:06:55,000 אבל שום דבר לא גרם להם להתעניין ב-1950 170 00:06:55,000 --> 00:06:58,000 כמו השנה 1950 עצמה. 171 00:06:58,000 --> 00:07:01,000 (צחוק) 172 00:07:01,000 --> 00:07:03,000 אנשים התהלכו עם אובססיה בתוכם. 173 00:07:03,000 --> 00:07:05,000 הם לא יכלו להפסיק לדבר 174 00:07:05,000 --> 00:07:08,000 על כל הדברים שהם עשו ב-1950, 175 00:07:08,000 --> 00:07:11,000 כל הדברים שהם תיכננו לעשות ב-1950, 176 00:07:11,000 --> 00:07:16,000 כל החלומות שהם רצו להגשים ב-1950. 177 00:07:16,000 --> 00:07:18,000 למעשה, 1950 היתה כה מרתקת 178 00:07:18,000 --> 00:07:20,000 שבשנים שלאחריה, 179 00:07:20,000 --> 00:07:23,000 אנשים פשוט המשיכו לדבר על כל הדברים המדהימים שקרו, 180 00:07:23,000 --> 00:07:25,000 ב-51, 52, 53. 181 00:07:25,000 --> 00:07:27,000 לבסוף ב-1954, 182 00:07:27,000 --> 00:07:29,000 מישהו התעורר ושם לב 183 00:07:29,000 --> 00:07:33,000 ש-1950 איכשהו עבר זמנה. 184 00:07:33,000 --> 00:07:35,000 (צחוק) 185 00:07:35,000 --> 00:07:37,000 וככה סתם, הבלון התפוצץ. 186 00:07:37,000 --> 00:07:39,000 (צחוק) 187 00:07:39,000 --> 00:07:41,000 וסיפורה של 1950 הוא הסיפור 188 00:07:41,000 --> 00:07:43,000 של כל שנה שיש עליה רשומות, 189 00:07:43,000 --> 00:07:46,000 עם שינוי קטן, כי כעת יש לנו את התרשימים היפים האלה. 190 00:07:46,000 --> 00:07:49,000 ומאחר ויש לנו אותם, אנו יכולים למדוד דברים שונים. 191 00:07:49,000 --> 00:07:51,000 אנו יכולים לשאול, "כמה מהר הבלון מתפוצץ?" 192 00:07:51,000 --> 00:07:54,000 מתברר שניתן למדוד זאת בדיוק מאוד גבוה. 193 00:07:54,000 --> 00:07:57,000 מזה נוצרו משוואות, נוצרו גרפים, 194 00:07:57,000 --> 00:07:59,000 והתוצאה הסופית היא 195 00:07:59,000 --> 00:08:02,000 שמצאנו שהבלון מתפוצץ יותר ויותר מהר 196 00:08:02,000 --> 00:08:04,000 עם כל שנה שעוברת. 197 00:08:04,000 --> 00:08:09,000 אנו מאבדים עניין בעבר בקצב הולך וגובר. 198 00:08:09,000 --> 00:08:11,000 ג'.מ.: ועכשיו עצה קטנה בנושא קריירה. 199 00:08:11,000 --> 00:08:13,000 עבור אלה מכם ששואפים להתפרסם, 200 00:08:13,000 --> 00:08:15,000 ניתן ללמוד מ-25 הפוליטיקאים המובילים, 201 00:08:15,000 --> 00:08:17,000 הסופרים, השחקנים ועוד. 202 00:08:17,000 --> 00:08:20,000 אם ברצונכם להתפרסם מוקדם, עליכם להיות שחקנים, 203 00:08:20,000 --> 00:08:22,000 מכיוון שהפירסום מתחיל לטפס בסוף שנות ה-20 שלכם -- 204 00:08:22,000 --> 00:08:24,000 אתם עדיין צעירים וזה נהדר. 205 00:08:24,000 --> 00:08:26,000 אם אתם יכולים להמתין מעט, עליכם להיות סופרים, 206 00:08:26,000 --> 00:08:28,000 מאחר ואז אתם מטפסים לגבהים גדולים, 207 00:08:28,000 --> 00:08:30,000 כמו מרק טוויין: מאוד מפורסם. 208 00:08:30,000 --> 00:08:32,000 אבל אם ברצונכם להגיע ממש לפיסגה, 209 00:08:32,000 --> 00:08:34,000 עליכם לדחות סיפוקים 210 00:08:34,000 --> 00:08:36,000 וכמובן, להיות פוליטיקאי. 211 00:08:36,000 --> 00:08:38,000 כאן תהיו מפורסמים בסוף שנות ה-50 שלכם, 212 00:08:38,000 --> 00:08:40,000 ותהיו מאוד, מאוד מפורסמים אחר-כך. 213 00:08:40,000 --> 00:08:43,000 גם המדענים נוטים להתפרסם כאשר הם מבוגרים בהרבה. 214 00:08:43,000 --> 00:08:45,000 כמו לדוגמא, ביולוגים ופיזיקאים 215 00:08:45,000 --> 00:08:47,000 שמקבלים פירסום כמו שחקנים. 216 00:08:47,000 --> 00:08:50,000 שגיאה אחת שעליכם להימנע ממנה זה להיות מתמטיקאי. 217 00:08:50,000 --> 00:08:52,000 (צחוק) 218 00:08:52,000 --> 00:08:54,000 אם תעשו זאת, 219 00:08:54,000 --> 00:08:57,000 אולי תחשבו, "נהדר, אגיע לשיאי בשנות ה-20 שלי." 220 00:08:57,000 --> 00:08:59,000 אבל אתם יודעים מה? לאף אחד זה לא יהיה אכפת. 221 00:08:59,000 --> 00:09:02,000 (צחוק) 222 00:09:02,000 --> 00:09:04,000 א.ל.א.: ישנן תובנות נוספות מאירות-עיניים 223 00:09:04,000 --> 00:09:06,000 בתוך המשקלי-n. 224 00:09:06,000 --> 00:09:08,000 לדוגמא, הנה המסלול של מרק שאגל, 225 00:09:08,000 --> 00:09:10,000 אמן יליד 1887. 226 00:09:10,000 --> 00:09:13,000 וזה נראה כמסלול רגיל של אדם שהתפרסם. 227 00:09:13,000 --> 00:09:17,000 הוא נהיה יותר ויותר מפורסם, 228 00:09:17,000 --> 00:09:19,000 אלא אם בודקים בשפה הגרמנית. 229 00:09:19,000 --> 00:09:21,000 אם בודקים בגרמנית, רואים משהו לגמרי מוזר, 230 00:09:21,000 --> 00:09:23,000 משהו שכמעט ולא רואים, 231 00:09:23,000 --> 00:09:25,000 שזה שהוא נהיה מאוד מפורסם 232 00:09:25,000 --> 00:09:27,000 ואז פתאום צולל לתחתית, 233 00:09:27,000 --> 00:09:30,000 עובר שפל בין 1933 ו-1945, 234 00:09:30,000 --> 00:09:33,000 לפני עלייתו מחדש. 235 00:09:33,000 --> 00:09:35,000 ובעצם, מה שרואים זו העובדה 236 00:09:35,000 --> 00:09:38,000 שמרק שאגאל היה אמן יהודי 237 00:09:38,000 --> 00:09:40,000 בגרמניה הנאצית. 238 00:09:40,000 --> 00:09:42,000 הסימנים האלה 239 00:09:42,000 --> 00:09:44,000 הם כה חזקים 240 00:09:44,000 --> 00:09:47,000 שאין צורך לדעת שמישהו צונזר. 241 00:09:47,000 --> 00:09:49,000 ניתן פשוט להסיק זאת 242 00:09:49,000 --> 00:09:51,000 בעזרת עיבוד נתונים בסיסי. 243 00:09:51,000 --> 00:09:53,000 הנה דרך פשוטה לעשות את זה. 244 00:09:53,000 --> 00:09:55,000 סביר לצפות שמידת הפירסום 245 00:09:55,000 --> 00:09:57,000 של פלוני בזמן נתון תהיה 246 00:09:57,000 --> 00:09:59,000 בקירוב הממוצע של פירסומו 247 00:09:59,000 --> 00:10:01,000 לפני אותו זמן ופירסומו אחריו. 248 00:10:01,000 --> 00:10:03,000 זה בערך מה שאנו מצפים 249 00:10:03,000 --> 00:10:06,000 ומשווים את התוצאה למידת הפירסום בפועל. 250 00:10:06,000 --> 00:10:08,000 מחלקים את האחד בשני 251 00:10:08,000 --> 00:10:10,000 כדי לקבל מה שנקרא מדד דיכוי. 252 00:10:10,000 --> 00:10:13,000 אם מדד הדיכוי מאוד, מאוד קטן, 253 00:10:13,000 --> 00:10:15,000 זה אומר שמישהו כנראה סובל מדיכוי. 254 00:10:15,000 --> 00:10:18,000 אם הוא מאוד גדול, אולי מישהו נהנה מתעמולה. 255 00:10:19,000 --> 00:10:21,000 ג'.מ.: ניתן בעצם להסתכל על 256 00:10:21,000 --> 00:10:24,000 פילוג מדדי הדיכוי על-פני האוכלוסייה כולה. 257 00:10:24,000 --> 00:10:26,000 לדוגמא, מדד דיכוי זה 258 00:10:26,000 --> 00:10:28,000 הוא של 5,000 אנשים 259 00:10:28,000 --> 00:10:30,000 הלקוח מספרים באנגליה שלא אמור להיות שם דיכוי -- 260 00:10:30,000 --> 00:10:32,000 הוא ייראה כך, בגדול מרוכז סביב 1. 261 00:10:32,000 --> 00:10:34,000 מה שמצפים לו זה בערך מה שרואים כאן. 262 00:10:34,000 --> 00:10:36,000 זה הפילוג שמתקבל בגרמניה -- 263 00:10:36,000 --> 00:10:38,000 מאוד שונה, הוא מוסט שמאלה. 264 00:10:38,000 --> 00:10:41,000 אנשים שם דיברו כפליים פחות ממה שהיה ניתן לצפות. 265 00:10:41,000 --> 00:10:43,000 אבל יותר חשוב, הפילוג הרבה יותר רחב. 266 00:10:43,000 --> 00:10:46,000 יש הרבה אנשים הנמצאים בקצה השמאלי של פילוג זה 267 00:10:46,000 --> 00:10:49,000 אשר דיברו פי-10 פחות ממה שהיו "צריכים". 268 00:10:49,000 --> 00:10:51,000 אבל יש גם הרבה אנשים בקצה הימני 269 00:10:51,000 --> 00:10:53,000 שנראה שהם מרויחים מתעמולה. 270 00:10:53,000 --> 00:10:56,000 תמונה זו היא המאפיין המזהה, במסד נתוני הספרים, לצנזורה. 271 00:10:56,000 --> 00:10:58,000 א.ל.א.: אנו מכנים שיטה זו 272 00:10:58,000 --> 00:11:00,000 culturomics (חקר תורשה תרבותית). 273 00:11:00,000 --> 00:11:02,000 זה דומה לחקר התורשה בביולוגיה. 274 00:11:02,000 --> 00:11:04,000 חקר התורשה שם עדשה על ביולוגיה 275 00:11:04,000 --> 00:11:07,000 דרך החלון של סדרות של רצפי בסיס בחומר התורשתי האנושי. 276 00:11:07,000 --> 00:11:09,000 חקר תורשה תרבותית זה משהו דומה. 277 00:11:09,000 --> 00:11:12,000 זה שימוש באנליזה של איסוף נתונים בקנה-מידה ענקי 278 00:11:12,000 --> 00:11:14,000 לחקר של תרבות אנושית. 279 00:11:14,000 --> 00:11:16,000 כאן, במקום להביט דרך עדשת החומר התורשתי, 280 00:11:16,000 --> 00:11:19,000 מביטים דרך עדשה של פיסות של רשומות היסטוריות שעברו דיגיטליזציה. 281 00:11:19,000 --> 00:11:21,000 הדבר הגדול בחקר תורשה תרבותית 282 00:11:21,000 --> 00:11:23,000 הוא שכל אחד יכול לעשות זאת. 283 00:11:23,000 --> 00:11:25,000 מדוע כל אחד יכול לעשות זאת? 284 00:11:25,000 --> 00:11:27,000 זה מכיוון ששלושה אנשים, 285 00:11:27,000 --> 00:11:30,000 ג'ון אורוונט, מאט גריי וויל ברוקמן מגוגל, 286 00:11:30,000 --> 00:11:32,000 ראו את אב-הטיפוס של מצגת המשקל-n, 287 00:11:32,000 --> 00:11:34,000 ואמרו, "זה כזה כיף. 288 00:11:34,000 --> 00:11:37,000 עלינו להפכה לזמינה לציבור." 289 00:11:37,000 --> 00:11:39,000 תוך שבועיים -- שבועיים לפני שהמאמר שלנו התפרסם -- 290 00:11:39,000 --> 00:11:42,000 הם כתבו תוכנית לגירסת מצגת משקל-n בשביל כלל הציבור. 291 00:11:42,000 --> 00:11:45,000 ניתן להקליד כל מילה או ביטוי שחפצים בהם 292 00:11:45,000 --> 00:11:47,000 ולראות את משקל ה-n שלהם מייד -- 293 00:11:47,000 --> 00:11:49,000 וגם להציג דוגמאות של כל הספרים המגוונים 294 00:11:49,000 --> 00:11:51,000 שבהם מופיע המשקל-n שבחרת. 295 00:11:51,000 --> 00:11:53,000 ג'.מ.: נעשה בזה שימוש יותר ממיליון פעם ביום הראשון, 296 00:11:53,000 --> 00:11:55,000 וזו באמת השאילתא הטובה ביותר מכולן. 297 00:11:55,000 --> 00:11:58,000 אנשים רוצים את הטוב ביותר, להניח את הרגל היותר טובה מלפנים. 298 00:11:58,000 --> 00:12:01,000 אבל מתברר שבמאה ה-18, לאנשים לא היה ממש אכפת מכל זה. 299 00:12:01,000 --> 00:12:04,000 הם לא רצו את הטוב ביותר (best), אלא את הטוב ביותר (beft). 300 00:12:04,000 --> 00:12:07,000 לכן מה שקרה הוא, טוב, ברור שזו טעות. 301 00:12:07,000 --> 00:12:09,000 זה לא שהם שאפו לבינוניות, 302 00:12:09,000 --> 00:12:12,000 אלא שהיו נוהגים לכתוב S בצורה שונה, בערך כמו F. 303 00:12:12,000 --> 00:12:15,000 גוגל לא תפסו זאת בזמנו, 304 00:12:15,000 --> 00:12:18,000 לכן דיווחנו על כך במאמר המדעי שכתבנו. 305 00:12:18,000 --> 00:12:20,000 אבל מתברר שזה רק מזכיר לנו 306 00:12:20,000 --> 00:12:22,000 שלמרות שכל זה כיף גדול, 307 00:12:22,000 --> 00:12:24,000 כאשר מפרשים את הגרפים הללו, צריך מאוד להיזהר, 308 00:12:24,000 --> 00:12:27,000 ושעלינו לאמץ סטנדרטים בסיסיים של מדע. 309 00:12:27,000 --> 00:12:30,000 א.ל.א: אנשים נוהגים להשתמש בזה לכל מיני מטרות. 310 00:12:30,000 --> 00:12:37,000 (צחוק) 311 00:12:37,000 --> 00:12:39,000 בעצם, אין לנו יותר צורך לדבר, 312 00:12:39,000 --> 00:12:42,000 אנו רק נראה לכם את כל השקופיות ונישאר דוממים. 313 00:12:42,000 --> 00:12:45,000 אדם זה התעניין בהיסטוריית התיסכול. 314 00:12:45,000 --> 00:12:48,000 ישנם סוגי תיסכול שונים. 315 00:12:48,000 --> 00:12:51,000 אם נפגעים בבוהן, יש אחד "ארג". 316 00:12:51,000 --> 00:12:53,000 אם כדור-הארץ מושמד על-ידי הווגונים 317 00:12:53,000 --> 00:12:55,000 כדי לפנות דרך למעבר בין-כוכבי, 318 00:12:55,000 --> 00:12:57,000 זה שמונה א "אאאאאאאארג". 319 00:12:57,000 --> 00:12:59,000 אדם זה חוקר את כל ה"ארגים", 320 00:12:59,000 --> 00:13:01,000 מאחד עד שמונה א-ים. 321 00:13:01,000 --> 00:13:03,000 מתברר 322 00:13:03,000 --> 00:13:05,000 שה"ארגים" הפחות נפוצים 323 00:13:05,000 --> 00:13:08,000 הם אלה אשר קשורים בדברים היותר מתסכלים -- 324 00:13:08,000 --> 00:13:11,000 מלבד, באופן משונה, בשנות ה-80 המוקדמות. 325 00:13:11,000 --> 00:13:13,000 אנו סבורים שזה עשוי להיות קשור איכשהו ברייגן. 326 00:13:13,000 --> 00:13:15,000 (צחוק) 327 00:13:15,000 --> 00:13:18,000 ג'.מ.: ישנם הרבה שימושים לנתונים אלה, 328 00:13:18,000 --> 00:13:21,000 אבל השורה התחתונה היא שרשומות היסטוריות עוברות דיגיטליזציה. 329 00:13:21,000 --> 00:13:23,000 גוגל החלה בדיגיטליזציה של 15 מיליון ספרים. 330 00:13:23,000 --> 00:13:25,000 זה 12 אחוז מכל הספרים שיצאו אי-פעם לאור. 331 00:13:25,000 --> 00:13:28,000 זוהי פיסה גדולה למדיי של התרבות האנושית. 332 00:13:28,000 --> 00:13:31,000 יש בנוסף עוד הרבה בתרבות: ישנם כתבי-יד, ישנם עיתונים, 333 00:13:31,000 --> 00:13:33,000 ישנם דברים שאינם טקסטים, כמו אמנות וציורים. 334 00:13:33,000 --> 00:13:35,000 כל זה אמור להיות במחשבים שלנו, 335 00:13:35,000 --> 00:13:37,000 במחשבים בכל העולם. 336 00:13:37,000 --> 00:13:40,000 וכאשר זה יקרה, יחול שינוי באופן בו אנו מבינים את עברנו, 337 00:13:40,000 --> 00:13:42,000 את ההווה שלנו ואת התרבות האנושית. 338 00:13:42,000 --> 00:13:44,000 תודה רבה לכם. 339 00:13:44,000 --> 00:13:47,000 (מחיאות כפיים)