WEBVTT 00:00:00.000 --> 00:00:02.000 ארז ליברמן איידן: כולם יודעים 00:00:02.000 --> 00:00:05.000 שתמונה שווה אלף מילים. 00:00:07.000 --> 00:00:09.000 אבל אנחנו בהרווארד 00:00:09.000 --> 00:00:12.000 תהינו אם זה באמת נכון. 00:00:12.000 --> 00:00:14.000 (צחוק) 00:00:14.000 --> 00:00:18.000 לכן הרכבנו צוות של מומחים 00:00:18.000 --> 00:00:20.000 שמגיעים מהרווארד, MIT, 00:00:20.000 --> 00:00:23.000 המילון למורשת אמריקאית, אנציקלופדיה בריטניקה 00:00:23.000 --> 00:00:25.000 ואפילו מנותני החסות 00:00:25.000 --> 00:00:28.000 הגאים שלנו, גוגל. 00:00:28.000 --> 00:00:30.000 הרהרנו בזה 00:00:30.000 --> 00:00:32.000 במשך כארבע שנים 00:00:32.000 --> 00:00:37.000 והגענו למסקנה מדהימה. 00:00:37.000 --> 00:00:40.000 גבירותיי ורבותיי, תמונה אינה שווה אלף מילים. 00:00:40.000 --> 00:00:42.000 בעצם, מצאנו כמה תמונות 00:00:42.000 --> 00:00:47.000 השוות 500 מיליארד מילים. NOTE Paragraph 00:00:47.000 --> 00:00:49.000 ג'ין-בפטיסט מישל: כיצד הגענו למסקנה זו? 00:00:49.000 --> 00:00:51.000 ארז ואני חשבנו על דרכים 00:00:51.000 --> 00:00:53.000 לקבלת תמונה כוללת של תרבות 00:00:53.000 --> 00:00:56.000 והיסטוריה אנושית: של שינוי לאורך זמן. 00:00:56.000 --> 00:00:58.000 כל-כך הרבה ספרים נכתבו במהלך השנים. 00:00:58.000 --> 00:01:00.000 לכן חשבנו שהדרך הכי טובה ללמוד מהם 00:01:00.000 --> 00:01:02.000 היא לקרוא את כל מיליוני הספרים. 00:01:02.000 --> 00:01:05.000 כמובן שאם יש מדד לעד כמה שזה מרשים, 00:01:05.000 --> 00:01:08.000 יש למקם אותו מאוד, מאוד גבוה. 00:01:08.000 --> 00:01:10.000 הבעיה היא שקיים גם ציר X, 00:01:10.000 --> 00:01:12.000 שהוא ציר התכליתיות במקרה זה, 00:01:12.000 --> 00:01:14.000 שעל-פיו זה מאוד, מאוד נמוך. NOTE Paragraph 00:01:14.000 --> 00:01:17.000 (מחיאות כפיים) NOTE Paragraph 00:01:17.000 --> 00:01:20.000 אנשים נוטים להשתמש בגישה אלטרנטיבית, 00:01:20.000 --> 00:01:22.000 שזה לקחת כמה מקורות ולקרוא אותם בתשומת לב. 00:01:22.000 --> 00:01:24.000 זה מאוד מעשי אבל לא מרשים. 00:01:24.000 --> 00:01:27.000 מה שבאמת צריך לעשות 00:01:27.000 --> 00:01:30.000 זה להיכנס לחלק המרשים אבל גם המעשי של סביבה זו. 00:01:30.000 --> 00:01:33.000 מתברר שיש חברה מעבר לנהר שנקראת גוגל 00:01:33.000 --> 00:01:35.000 שהחלה במיזם דיגיטליזציה לפני כמה שנים 00:01:35.000 --> 00:01:37.000 העשוי לאפשר את יישומה של גישה זו. 00:01:37.000 --> 00:01:39.000 הם ביצעו דיגיטליזציה למיליוני ספרים. 00:01:39.000 --> 00:01:42.000 זה אומר שניתן לנצל שיטות ממוחשבות 00:01:42.000 --> 00:01:44.000 כדי לקרוא את כל הספרים בלחיצת כפתור. 00:01:44.000 --> 00:01:47.000 זה מאוד מעשי וגם מרשים ביותר. NOTE Paragraph 00:01:48.000 --> 00:01:50.000 א.ל.א.: אספר לכם קצת מאיפה הספרים מגיעים. 00:01:50.000 --> 00:01:53.000 מאז זמנים קדומים, היו כבר מיליוני סופרים. 00:01:53.000 --> 00:01:56.000 סופרים אלה שאפו לכתוב ספרים. 00:01:56.000 --> 00:01:58.000 וזה הפך לקל משמעותית 00:01:58.000 --> 00:02:00.000 עם התפתחות הדפוס לפני מספר מאות שנים. 00:02:00.000 --> 00:02:03.000 מאז, הסופרים זכו לפרסם ספרים 00:02:03.000 --> 00:02:05.000 129 מיליון 00:02:05.000 --> 00:02:07.000 פעמים. 00:02:07.000 --> 00:02:09.000 אם כל אותם הספרים לא הלכו לאיבוד 00:02:09.000 --> 00:02:11.000 במהלך ההיסטוריה, הם נמצאים בספריות, 00:02:11.000 --> 00:02:14.000 ורבים מבין הספרים האלה נשלפים מהספריות 00:02:14.000 --> 00:02:16.000 ועוברים דיגיטליזציה אצל גוגל, 00:02:16.000 --> 00:02:18.000 אשר סרקה עד כה 15 מיליון ספרים. NOTE Paragraph 00:02:18.000 --> 00:02:21.000 כאשר בגוגל עושים דיגיטליזציה לספר, הם מעבירים אותו לפורמט באמת יפה. 00:02:21.000 --> 00:02:23.000 יש לנו נתונים ובנוסף יש לנו נתונים על מאפייני הנתונים. 00:02:23.000 --> 00:02:26.000 יש לנו מידע על דברים כגון היכן זה פורסם, 00:02:26.000 --> 00:02:28.000 מי היה המחבר, מתי זה פורסם. 00:02:28.000 --> 00:02:31.000 ומה שאנו עושים זה לעבור על כל הרשומות האלו 00:02:31.000 --> 00:02:35.000 ולוותר על כל הנתונים שאינם מהאיכות הכי גבוהה. 00:02:35.000 --> 00:02:37.000 מה שנשאר זה 00:02:37.000 --> 00:02:40.000 אוסף של 5 מיליון ספרים, 00:02:40.000 --> 00:02:43.000 500 מיליארד מילים, 00:02:43.000 --> 00:02:45.000 מחרוזת של אותיות הארוכה פי אלף 00:02:45.000 --> 00:02:48.000 מהחומר התורשתי האנושי -- 00:02:48.000 --> 00:02:50.000 טקסט שאם ייכתב, 00:02:50.000 --> 00:02:52.000 יגיע מכאן לירח ובחזרה 00:02:52.000 --> 00:02:54.000 10 פעמים ויותר -- 00:02:54.000 --> 00:02:58.000 זהו פלח משמעותי מהתורשה התרבותית שלנו. 00:02:58.000 --> 00:03:00.000 ברור שמה שעשינו 00:03:00.000 --> 00:03:03.000 כאשר נתקלנו בהיפרבולה שערורייתית כזו -- 00:03:03.000 --> 00:03:05.000 (צחוק) 00:03:05.000 --> 00:03:08.000 היה מה שכל חוקר המכבד את עצמו 00:03:08.000 --> 00:03:11.000 היה עושה. 00:03:11.000 --> 00:03:13.000 לקחנו דף מתוך קטע קומי ברשת, 00:03:13.000 --> 00:03:15.000 ואמרנו, "תתרחקי מאיתנו. 00:03:15.000 --> 00:03:17.000 אנו הולכים להיעזר במדע." NOTE Paragraph 00:03:17.000 --> 00:03:19.000 (צחוק) NOTE Paragraph 00:03:19.000 --> 00:03:21.000 ג'.מ.: טוב, ברור שחשבנו 00:03:21.000 --> 00:03:23.000 שאולי נחשוף את הנתונים לאנשים 00:03:23.000 --> 00:03:25.000 כדי שיעשו עליהם מחקרים מדעיים. 00:03:25.000 --> 00:03:27.000 התחלנו לחשוב איזה נתונים לשחרר. 00:03:27.000 --> 00:03:29.000 האמת שהיינו רוצים לשחרר 00:03:29.000 --> 00:03:31.000 את מלוא הטקסט של כל 5 מיליון הספרים. 00:03:31.000 --> 00:03:33.000 אבל גוגל, ובעיקר ג'ון אורוונט, 00:03:33.000 --> 00:03:35.000 סיפרו לנו שעלינו ללמוד משוואה אחת. 00:03:35.000 --> 00:03:38.000 אם יש לכם 5 מיליון, זה אומר 5 מיליון סופרים 00:03:38.000 --> 00:03:41.000 ו-5 מיליון תביעות משפטיות שזה ממש המון. 00:03:41.000 --> 00:03:43.000 כך שגם אם זה יהיה ממש, ממש מרשים, 00:03:43.000 --> 00:03:46.000 שוב, זה מאוד, מאוד לא מעשי. 00:03:46.000 --> 00:03:48.000 (צחוק) NOTE Paragraph 00:03:48.000 --> 00:03:50.000 ואנו שוב ויתרנו, 00:03:50.000 --> 00:03:53.000 ואימצנו את הגישה המאוד מעשית, שהיתה קצת פחות מרשימה. 00:03:53.000 --> 00:03:55.000 אמרנו, במקום לשחרר את מלוא הטקסט, 00:03:55.000 --> 00:03:57.000 נשחרר סטטיסטיקות על הספרים. 00:03:57.000 --> 00:03:59.000 ניקח לדוגמא "קורטוב של אושר". 00:03:59.000 --> 00:04:01.000 אלו הן ארבע מילים (באנגלית); נקרא לזה משקל-ארבע. 00:04:01.000 --> 00:04:03.000 נספר לכם כמה פעמים משקל-ארבע מסויים 00:04:03.000 --> 00:04:05.000 הופיע בספרים ב-1801, 1802, 1803, 00:04:05.000 --> 00:04:07.000 עד 2008. 00:04:07.000 --> 00:04:09.000 זה נותן לנו מרווחי זמן של תדירות השימוש 00:04:09.000 --> 00:04:11.000 בביטוי מסויים זה לאורך תקופה. 00:04:11.000 --> 00:04:14.000 אנו עושים זאת לכל המילים והביטויים אשר מופיעים בספרים הללו, 00:04:14.000 --> 00:04:17.000 וזה נותן לנו טבלה גדולה של שני מיליארד שורות 00:04:17.000 --> 00:04:19.000 המספרות לנו על הדרך בה תרבות משתנה. NOTE Paragraph 00:04:19.000 --> 00:04:21.000 א.ל.א.: שני מיליארד השורות הללו, 00:04:21.000 --> 00:04:23.000 אנו מכנים אותן שני מיליארד משקלי-n. 00:04:23.000 --> 00:04:25.000 מה הן מספרות לנו? 00:04:25.000 --> 00:04:27.000 כל משקל-n לכשעצמו מודד מגמות תרבותיות. 00:04:27.000 --> 00:04:29.000 אתן לכם דוגמא. 00:04:29.000 --> 00:04:31.000 נניח שאני מצליח במשהו, 00:04:31.000 --> 00:04:33.000 לכן מחר ברצוני לספר לכם על ההצלחה שלי. 00:04:33.000 --> 00:04:36.000 אני עשוי לומר, "אתמול, הצלחתי (I throve)." 00:04:36.000 --> 00:04:39.000 או לחילופין, אתמול, הצלחתי (I thrived)". 00:04:39.000 --> 00:04:42.000 במה עליי להשתמש? 00:04:42.000 --> 00:04:44.000 כיצד יודעים? NOTE Paragraph 00:04:44.000 --> 00:04:46.000 עד לפני 6 חודשים, 00:04:46.000 --> 00:04:48.000 המצב העדכני בתחום זה היה 00:04:48.000 --> 00:04:50.000 שהולכים, לדוגמא, 00:04:50.000 --> 00:04:52.000 לפסיכולוג כזה עם שיער מדהים, 00:04:52.000 --> 00:04:54.000 ואומרים, 00:04:54.000 --> 00:04:57.000 "סטיב, אתה מומחה בפעלים חריגים. 00:04:57.000 --> 00:04:59.000 מה עליי לעשות?" 00:04:59.000 --> 00:05:01.000 והוא היה עונה, "רוב האנשים אומרים thrived, 00:05:01.000 --> 00:05:04.000 אבל כמה אומרים throve" 00:05:04.000 --> 00:05:06.000 גם אתם יודעים, פחות או יותר, 00:05:06.000 --> 00:05:09.000 שאם הייתם חוזרים 200 שנה אחורה 00:05:09.000 --> 00:05:12.000 ושואלים את המדינאי הזה שגם לו יש שיער מדהים, 00:05:12.000 --> 00:05:15.000 (צחוק) 00:05:15.000 --> 00:05:17.000 "טום, מה עליי להגיד?" 00:05:17.000 --> 00:05:19.000 הוא היה עונה, "בזמני, רוב האנשים השתמשו ב-throve, 00:05:19.000 --> 00:05:22.000 אבל כמה ב-thrived". 00:05:22.000 --> 00:05:24.000 כעת מה שאראה לכם זה נתונים גולמיים. 00:05:24.000 --> 00:05:28.000 שתי שורות מטבלה זו של 2 מיליארד שורות. 00:05:28.000 --> 00:05:30.000 מה שרואים זו התדירות, שנה אחר שנה, 00:05:30.000 --> 00:05:33.000 של "thrived" מול "throve" לאורך זמן. 00:05:34.000 --> 00:05:36.000 אלו רק שתי שורות 00:05:36.000 --> 00:05:39.000 מתוך 2 מיליארד שורות. 00:05:39.000 --> 00:05:41.000 כך שכל מערך הנתונים 00:05:41.000 --> 00:05:44.000 מרשים פי מיליארד מאשר שקופית זו. NOTE Paragraph 00:05:44.000 --> 00:05:46.000 (צחוק) NOTE Paragraph 00:05:46.000 --> 00:05:50.000 (מחיאות כפיים) NOTE Paragraph 00:05:50.000 --> 00:05:52.000 ג'.מ: ישנן הרבה תמונות אחרות 00:05:52.000 --> 00:05:54.000 השוות 500 מיליארד מילים. למשל זו. 00:05:54.000 --> 00:05:56.000 אם ניקח את שפעת, 00:05:56.000 --> 00:05:58.000 נראה שיאים בזמנים שאנו יודעים 00:05:58.000 --> 00:06:01.000 שבהם מגיפות השפעת חיסלו אנשים בכל העולם. NOTE Paragraph 00:06:01.000 --> 00:06:04.000 א.ל.א.: אם עדיין לא השתכנעתם, 00:06:04.000 --> 00:06:06.000 פני-הים עולים, 00:06:06.000 --> 00:06:09.000 כך גם דו-תחמוצת הפחמן באויר והטמפרטורה הממוצעת. NOTE Paragraph 00:06:09.000 --> 00:06:12.000 ג'.מ.: אולי גם תרצו לראות את משקל-n המסויים הזה, 00:06:12.000 --> 00:06:15.000 וזה כדי לספר לניטשה שאלוהים לא מת, 00:06:15.000 --> 00:06:18.000 אף על-פי שתסכימו אולי שהוא זקוק ליחצ"ן יותר טוב. NOTE Paragraph 00:06:18.000 --> 00:06:20.000 (צחוק) NOTE Paragraph 00:06:20.000 --> 00:06:23.000 א.ל.א.: ניתן להגיע לכמה תפיסות מופשטות מדבר כזה. 00:06:23.000 --> 00:06:25.000 לדוגמא, אספר לכם על ההיסטוריה 00:06:25.000 --> 00:06:27.000 של שנת 1950. 00:06:27.000 --> 00:06:29.000 לאורך רוב ההיסטוריה בקירוב, 00:06:29.000 --> 00:06:31.000 אף אחד לא שם על שנת 1950. 00:06:31.000 --> 00:06:33.000 ב-1700, ב-1800, ב-1900, 00:06:33.000 --> 00:06:36.000 לאף אחד לא היה אכפת. 00:06:37.000 --> 00:06:39.000 לאורך שנות ה-30 וה-40, 00:06:39.000 --> 00:06:41.000 לאף אחד לא היה אכפת. 00:06:41.000 --> 00:06:43.000 פתאום, באמצע שנות ה-40, 00:06:43.000 --> 00:06:45.000 התחיל הבאז. 00:06:45.000 --> 00:06:47.000 אנשים גילו ש-1950 עומדת להגיע, 00:06:47.000 --> 00:06:49.000 והיא יכולה להיות דבר גדול. 00:06:49.000 --> 00:06:52.000 (צחוק) 00:06:52.000 --> 00:06:55.000 אבל שום דבר לא גרם להם להתעניין ב-1950 00:06:55.000 --> 00:06:58.000 כמו השנה 1950 עצמה. 00:06:58.000 --> 00:07:01.000 (צחוק) 00:07:01.000 --> 00:07:03.000 אנשים התהלכו עם אובססיה בתוכם. 00:07:03.000 --> 00:07:05.000 הם לא יכלו להפסיק לדבר 00:07:05.000 --> 00:07:08.000 על כל הדברים שהם עשו ב-1950, 00:07:08.000 --> 00:07:11.000 כל הדברים שהם תיכננו לעשות ב-1950, 00:07:11.000 --> 00:07:16.000 כל החלומות שהם רצו להגשים ב-1950. 00:07:16.000 --> 00:07:18.000 למעשה, 1950 היתה כה מרתקת 00:07:18.000 --> 00:07:20.000 שבשנים שלאחריה, 00:07:20.000 --> 00:07:23.000 אנשים פשוט המשיכו לדבר על כל הדברים המדהימים שקרו, 00:07:23.000 --> 00:07:25.000 ב-51, 52, 53. 00:07:25.000 --> 00:07:27.000 לבסוף ב-1954, 00:07:27.000 --> 00:07:29.000 מישהו התעורר ושם לב 00:07:29.000 --> 00:07:33.000 ש-1950 איכשהו עבר זמנה. 00:07:33.000 --> 00:07:35.000 (צחוק) 00:07:35.000 --> 00:07:37.000 וככה סתם, הבלון התפוצץ. NOTE Paragraph 00:07:37.000 --> 00:07:39.000 (צחוק) NOTE Paragraph 00:07:39.000 --> 00:07:41.000 וסיפורה של 1950 הוא הסיפור 00:07:41.000 --> 00:07:43.000 של כל שנה שיש עליה רשומות, 00:07:43.000 --> 00:07:46.000 עם שינוי קטן, כי כעת יש לנו את התרשימים היפים האלה. 00:07:46.000 --> 00:07:49.000 ומאחר ויש לנו אותם, אנו יכולים למדוד דברים שונים. 00:07:49.000 --> 00:07:51.000 אנו יכולים לשאול, "כמה מהר הבלון מתפוצץ?" 00:07:51.000 --> 00:07:54.000 מתברר שניתן למדוד זאת בדיוק מאוד גבוה. 00:07:54.000 --> 00:07:57.000 מזה נוצרו משוואות, נוצרו גרפים, 00:07:57.000 --> 00:07:59.000 והתוצאה הסופית היא 00:07:59.000 --> 00:08:02.000 שמצאנו שהבלון מתפוצץ יותר ויותר מהר 00:08:02.000 --> 00:08:04.000 עם כל שנה שעוברת. 00:08:04.000 --> 00:08:09.000 אנו מאבדים עניין בעבר בקצב הולך וגובר. NOTE Paragraph 00:08:09.000 --> 00:08:11.000 ג'.מ.: ועכשיו עצה קטנה בנושא קריירה. 00:08:11.000 --> 00:08:13.000 עבור אלה מכם ששואפים להתפרסם, 00:08:13.000 --> 00:08:15.000 ניתן ללמוד מ-25 הפוליטיקאים המובילים, 00:08:15.000 --> 00:08:17.000 הסופרים, השחקנים ועוד. 00:08:17.000 --> 00:08:20.000 אם ברצונכם להתפרסם מוקדם, עליכם להיות שחקנים, 00:08:20.000 --> 00:08:22.000 מכיוון שהפירסום מתחיל לטפס בסוף שנות ה-20 שלכם -- 00:08:22.000 --> 00:08:24.000 אתם עדיין צעירים וזה נהדר. 00:08:24.000 --> 00:08:26.000 אם אתם יכולים להמתין מעט, עליכם להיות סופרים, 00:08:26.000 --> 00:08:28.000 מאחר ואז אתם מטפסים לגבהים גדולים, 00:08:28.000 --> 00:08:30.000 כמו מרק טוויין: מאוד מפורסם. 00:08:30.000 --> 00:08:32.000 אבל אם ברצונכם להגיע ממש לפיסגה, 00:08:32.000 --> 00:08:34.000 עליכם לדחות סיפוקים 00:08:34.000 --> 00:08:36.000 וכמובן, להיות פוליטיקאי. 00:08:36.000 --> 00:08:38.000 כאן תהיו מפורסמים בסוף שנות ה-50 שלכם, 00:08:38.000 --> 00:08:40.000 ותהיו מאוד, מאוד מפורסמים אחר-כך. 00:08:40.000 --> 00:08:43.000 גם המדענים נוטים להתפרסם כאשר הם מבוגרים בהרבה. 00:08:43.000 --> 00:08:45.000 כמו לדוגמא, ביולוגים ופיזיקאים 00:08:45.000 --> 00:08:47.000 שמקבלים פירסום כמו שחקנים. 00:08:47.000 --> 00:08:50.000 שגיאה אחת שעליכם להימנע ממנה זה להיות מתמטיקאי. 00:08:50.000 --> 00:08:52.000 (צחוק) 00:08:52.000 --> 00:08:54.000 אם תעשו זאת, 00:08:54.000 --> 00:08:57.000 אולי תחשבו, "נהדר, אגיע לשיאי בשנות ה-20 שלי." 00:08:57.000 --> 00:08:59.000 אבל אתם יודעים מה? לאף אחד זה לא יהיה אכפת. NOTE Paragraph 00:08:59.000 --> 00:09:02.000 (צחוק) NOTE Paragraph 00:09:02.000 --> 00:09:04.000 א.ל.א.: ישנן תובנות נוספות מאירות-עיניים 00:09:04.000 --> 00:09:06.000 בתוך המשקלי-n. 00:09:06.000 --> 00:09:08.000 לדוגמא, הנה המסלול של מרק שאגל, 00:09:08.000 --> 00:09:10.000 אמן יליד 1887. 00:09:10.000 --> 00:09:13.000 וזה נראה כמסלול רגיל של אדם שהתפרסם. 00:09:13.000 --> 00:09:17.000 הוא נהיה יותר ויותר מפורסם, 00:09:17.000 --> 00:09:19.000 אלא אם בודקים בשפה הגרמנית. 00:09:19.000 --> 00:09:21.000 אם בודקים בגרמנית, רואים משהו לגמרי מוזר, 00:09:21.000 --> 00:09:23.000 משהו שכמעט ולא רואים, 00:09:23.000 --> 00:09:25.000 שזה שהוא נהיה מאוד מפורסם 00:09:25.000 --> 00:09:27.000 ואז פתאום צולל לתחתית, 00:09:27.000 --> 00:09:30.000 עובר שפל בין 1933 ו-1945, 00:09:30.000 --> 00:09:33.000 לפני עלייתו מחדש. 00:09:33.000 --> 00:09:35.000 ובעצם, מה שרואים זו העובדה 00:09:35.000 --> 00:09:38.000 שמרק שאגאל היה אמן יהודי 00:09:38.000 --> 00:09:40.000 בגרמניה הנאצית. NOTE Paragraph 00:09:40.000 --> 00:09:42.000 הסימנים האלה 00:09:42.000 --> 00:09:44.000 הם כה חזקים 00:09:44.000 --> 00:09:47.000 שאין צורך לדעת שמישהו צונזר. 00:09:47.000 --> 00:09:49.000 ניתן פשוט להסיק זאת 00:09:49.000 --> 00:09:51.000 בעזרת עיבוד נתונים בסיסי. 00:09:51.000 --> 00:09:53.000 הנה דרך פשוטה לעשות את זה. 00:09:53.000 --> 00:09:55.000 סביר לצפות שמידת הפירסום 00:09:55.000 --> 00:09:57.000 של פלוני בזמן נתון תהיה 00:09:57.000 --> 00:09:59.000 בקירוב הממוצע של פירסומו 00:09:59.000 --> 00:10:01.000 לפני אותו זמן ופירסומו אחריו. 00:10:01.000 --> 00:10:03.000 זה בערך מה שאנו מצפים 00:10:03.000 --> 00:10:06.000 ומשווים את התוצאה למידת הפירסום בפועל. 00:10:06.000 --> 00:10:08.000 מחלקים את האחד בשני 00:10:08.000 --> 00:10:10.000 כדי לקבל מה שנקרא מדד דיכוי. 00:10:10.000 --> 00:10:13.000 אם מדד הדיכוי מאוד, מאוד קטן, 00:10:13.000 --> 00:10:15.000 זה אומר שמישהו כנראה סובל מדיכוי. 00:10:15.000 --> 00:10:18.000 אם הוא מאוד גדול, אולי מישהו נהנה מתעמולה. NOTE Paragraph 00:10:19.000 --> 00:10:21.000 ג'.מ.: ניתן בעצם להסתכל על 00:10:21.000 --> 00:10:24.000 פילוג מדדי הדיכוי על-פני האוכלוסייה כולה. 00:10:24.000 --> 00:10:26.000 לדוגמא, מדד דיכוי זה 00:10:26.000 --> 00:10:28.000 הוא של 5,000 אנשים 00:10:28.000 --> 00:10:30.000 הלקוח מספרים באנגליה שלא אמור להיות שם דיכוי -- 00:10:30.000 --> 00:10:32.000 הוא ייראה כך, בגדול מרוכז סביב 1. 00:10:32.000 --> 00:10:34.000 מה שמצפים לו זה בערך מה שרואים כאן. 00:10:34.000 --> 00:10:36.000 זה הפילוג שמתקבל בגרמניה -- 00:10:36.000 --> 00:10:38.000 מאוד שונה, הוא מוסט שמאלה. 00:10:38.000 --> 00:10:41.000 אנשים שם דיברו כפליים פחות ממה שהיה ניתן לצפות. 00:10:41.000 --> 00:10:43.000 אבל יותר חשוב, הפילוג הרבה יותר רחב. 00:10:43.000 --> 00:10:46.000 יש הרבה אנשים הנמצאים בקצה השמאלי של פילוג זה 00:10:46.000 --> 00:10:49.000 אשר דיברו פי-10 פחות ממה שהיו "צריכים". 00:10:49.000 --> 00:10:51.000 אבל יש גם הרבה אנשים בקצה הימני 00:10:51.000 --> 00:10:53.000 שנראה שהם מרויחים מתעמולה. 00:10:53.000 --> 00:10:56.000 תמונה זו היא המאפיין המזהה, במסד נתוני הספרים, לצנזורה. NOTE Paragraph 00:10:56.000 --> 00:10:58.000 א.ל.א.: אנו מכנים שיטה זו 00:10:58.000 --> 00:11:00.000 culturomics (חקר תורשה תרבותית). 00:11:00.000 --> 00:11:02.000 זה דומה לחקר התורשה בביולוגיה. 00:11:02.000 --> 00:11:04.000 חקר התורשה שם עדשה על ביולוגיה 00:11:04.000 --> 00:11:07.000 דרך החלון של סדרות של רצפי בסיס בחומר התורשתי האנושי. 00:11:07.000 --> 00:11:09.000 חקר תורשה תרבותית זה משהו דומה. 00:11:09.000 --> 00:11:12.000 זה שימוש באנליזה של איסוף נתונים בקנה-מידה ענקי 00:11:12.000 --> 00:11:14.000 לחקר של תרבות אנושית. 00:11:14.000 --> 00:11:16.000 כאן, במקום להביט דרך עדשת החומר התורשתי, 00:11:16.000 --> 00:11:19.000 מביטים דרך עדשה של פיסות של רשומות היסטוריות שעברו דיגיטליזציה. 00:11:19.000 --> 00:11:21.000 הדבר הגדול בחקר תורשה תרבותית 00:11:21.000 --> 00:11:23.000 הוא שכל אחד יכול לעשות זאת. 00:11:23.000 --> 00:11:25.000 מדוע כל אחד יכול לעשות זאת? 00:11:25.000 --> 00:11:27.000 זה מכיוון ששלושה אנשים, 00:11:27.000 --> 00:11:30.000 ג'ון אורוונט, מאט גריי וויל ברוקמן מגוגל, 00:11:30.000 --> 00:11:32.000 ראו את אב-הטיפוס של מצגת המשקל-n, 00:11:32.000 --> 00:11:34.000 ואמרו, "זה כזה כיף. 00:11:34.000 --> 00:11:37.000 עלינו להפכה לזמינה לציבור." 00:11:37.000 --> 00:11:39.000 תוך שבועיים -- שבועיים לפני שהמאמר שלנו התפרסם -- 00:11:39.000 --> 00:11:42.000 הם כתבו תוכנית לגירסת מצגת משקל-n בשביל כלל הציבור. 00:11:42.000 --> 00:11:45.000 ניתן להקליד כל מילה או ביטוי שחפצים בהם 00:11:45.000 --> 00:11:47.000 ולראות את משקל ה-n שלהם מייד -- 00:11:47.000 --> 00:11:49.000 וגם להציג דוגמאות של כל הספרים המגוונים 00:11:49.000 --> 00:11:51.000 שבהם מופיע המשקל-n שבחרת. NOTE Paragraph 00:11:51.000 --> 00:11:53.000 ג'.מ.: נעשה בזה שימוש יותר ממיליון פעם ביום הראשון, 00:11:53.000 --> 00:11:55.000 וזו באמת השאילתא הטובה ביותר מכולן. 00:11:55.000 --> 00:11:58.000 אנשים רוצים את הטוב ביותר, להניח את הרגל היותר טובה מלפנים. 00:11:58.000 --> 00:12:01.000 אבל מתברר שבמאה ה-18, לאנשים לא היה ממש אכפת מכל זה. 00:12:01.000 --> 00:12:04.000 הם לא רצו את הטוב ביותר (best), אלא את הטוב ביותר (beft). 00:12:04.000 --> 00:12:07.000 לכן מה שקרה הוא, טוב, ברור שזו טעות. 00:12:07.000 --> 00:12:09.000 זה לא שהם שאפו לבינוניות, 00:12:09.000 --> 00:12:12.000 אלא שהיו נוהגים לכתוב S בצורה שונה, בערך כמו F. 00:12:12.000 --> 00:12:15.000 גוגל לא תפסו זאת בזמנו, 00:12:15.000 --> 00:12:18.000 לכן דיווחנו על כך במאמר המדעי שכתבנו. 00:12:18.000 --> 00:12:20.000 אבל מתברר שזה רק מזכיר לנו 00:12:20.000 --> 00:12:22.000 שלמרות שכל זה כיף גדול, 00:12:22.000 --> 00:12:24.000 כאשר מפרשים את הגרפים הללו, צריך מאוד להיזהר, 00:12:24.000 --> 00:12:27.000 ושעלינו לאמץ סטנדרטים בסיסיים של מדע. NOTE Paragraph 00:12:27.000 --> 00:12:30.000 א.ל.א: אנשים נוהגים להשתמש בזה לכל מיני מטרות. 00:12:30.000 --> 00:12:37.000 (צחוק) 00:12:37.000 --> 00:12:39.000 בעצם, אין לנו יותר צורך לדבר, 00:12:39.000 --> 00:12:42.000 אנו רק נראה לכם את כל השקופיות ונישאר דוממים. 00:12:42.000 --> 00:12:45.000 אדם זה התעניין בהיסטוריית התיסכול. 00:12:45.000 --> 00:12:48.000 ישנם סוגי תיסכול שונים. 00:12:48.000 --> 00:12:51.000 אם נפגעים בבוהן, יש אחד "ארג". 00:12:51.000 --> 00:12:53.000 אם כדור-הארץ מושמד על-ידי הווגונים 00:12:53.000 --> 00:12:55.000 כדי לפנות דרך למעבר בין-כוכבי, 00:12:55.000 --> 00:12:57.000 זה שמונה א "אאאאאאאארג". 00:12:57.000 --> 00:12:59.000 אדם זה חוקר את כל ה"ארגים", 00:12:59.000 --> 00:13:01.000 מאחד עד שמונה א-ים. 00:13:01.000 --> 00:13:03.000 מתברר 00:13:03.000 --> 00:13:05.000 שה"ארגים" הפחות נפוצים 00:13:05.000 --> 00:13:08.000 הם אלה אשר קשורים בדברים היותר מתסכלים -- 00:13:08.000 --> 00:13:11.000 מלבד, באופן משונה, בשנות ה-80 המוקדמות. 00:13:11.000 --> 00:13:13.000 אנו סבורים שזה עשוי להיות קשור איכשהו ברייגן. NOTE Paragraph 00:13:13.000 --> 00:13:15.000 (צחוק) NOTE Paragraph 00:13:15.000 --> 00:13:18.000 ג'.מ.: ישנם הרבה שימושים לנתונים אלה, 00:13:18.000 --> 00:13:21.000 אבל השורה התחתונה היא שרשומות היסטוריות עוברות דיגיטליזציה. 00:13:21.000 --> 00:13:23.000 גוגל החלה בדיגיטליזציה של 15 מיליון ספרים. 00:13:23.000 --> 00:13:25.000 זה 12 אחוז מכל הספרים שיצאו אי-פעם לאור. 00:13:25.000 --> 00:13:28.000 זוהי פיסה גדולה למדיי של התרבות האנושית. 00:13:28.000 --> 00:13:31.000 יש בנוסף עוד הרבה בתרבות: ישנם כתבי-יד, ישנם עיתונים, 00:13:31.000 --> 00:13:33.000 ישנם דברים שאינם טקסטים, כמו אמנות וציורים. 00:13:33.000 --> 00:13:35.000 כל זה אמור להיות במחשבים שלנו, 00:13:35.000 --> 00:13:37.000 במחשבים בכל העולם. 00:13:37.000 --> 00:13:40.000 וכאשר זה יקרה, יחול שינוי באופן בו אנו מבינים את עברנו, 00:13:40.000 --> 00:13:42.000 את ההווה שלנו ואת התרבות האנושית. NOTE Paragraph 00:13:42.000 --> 00:13:44.000 תודה רבה לכם. NOTE Paragraph 00:13:44.000 --> 00:13:47.000 (מחיאות כפיים)