ארז ליברמן איידן: כולם יודעים שתמונה שווה אלף מילים. אבל אנחנו בהרווארד תהינו אם זה באמת נכון. (צחוק) לכן הרכבנו צוות של מומחים שמגיעים מהרווארד, MIT, המילון למורשת אמריקאית, אנציקלופדיה בריטניקה ואפילו מנותני החסות הגאים שלנו, גוגל. הרהרנו בזה במשך כארבע שנים והגענו למסקנה מדהימה. גבירותיי ורבותיי, תמונה אינה שווה אלף מילים. בעצם, מצאנו כמה תמונות השוות 500 מיליארד מילים. ג'ין-בפטיסט מישל: כיצד הגענו למסקנה זו? ארז ואני חשבנו על דרכים לקבלת תמונה כוללת של תרבות והיסטוריה אנושית: של שינוי לאורך זמן. כל-כך הרבה ספרים נכתבו במהלך השנים. לכן חשבנו שהדרך הכי טובה ללמוד מהם היא לקרוא את כל מיליוני הספרים. כמובן שאם יש מדד לעד כמה שזה מרשים, יש למקם אותו מאוד, מאוד גבוה. הבעיה היא שקיים גם ציר X, שהוא ציר התכליתיות במקרה זה, שעל-פיו זה מאוד, מאוד נמוך. (מחיאות כפיים) אנשים נוטים להשתמש בגישה אלטרנטיבית, שזה לקחת כמה מקורות ולקרוא אותם בתשומת לב. זה מאוד מעשי אבל לא מרשים. מה שבאמת צריך לעשות זה להיכנס לחלק המרשים אבל גם המעשי של סביבה זו. מתברר שיש חברה מעבר לנהר שנקראת גוגל שהחלה במיזם דיגיטליזציה לפני כמה שנים העשוי לאפשר את יישומה של גישה זו. הם ביצעו דיגיטליזציה למיליוני ספרים. זה אומר שניתן לנצל שיטות ממוחשבות כדי לקרוא את כל הספרים בלחיצת כפתור. זה מאוד מעשי וגם מרשים ביותר. א.ל.א.: אספר לכם קצת מאיפה הספרים מגיעים. מאז זמנים קדומים, היו כבר מיליוני סופרים. סופרים אלה שאפו לכתוב ספרים. וזה הפך לקל משמעותית עם התפתחות הדפוס לפני מספר מאות שנים. מאז, הסופרים זכו לפרסם ספרים 129 מיליון פעמים. אם כל אותם הספרים לא הלכו לאיבוד במהלך ההיסטוריה, הם נמצאים בספריות, ורבים מבין הספרים האלה נשלפים מהספריות ועוברים דיגיטליזציה אצל גוגל, אשר סרקה עד כה 15 מיליון ספרים. כאשר בגוגל עושים דיגיטליזציה לספר, הם מעבירים אותו לפורמט באמת יפה. יש לנו נתונים ובנוסף יש לנו נתונים על מאפייני הנתונים. יש לנו מידע על דברים כגון היכן זה פורסם, מי היה המחבר, מתי זה פורסם. ומה שאנו עושים זה לעבור על כל הרשומות האלו ולוותר על כל הנתונים שאינם מהאיכות הכי גבוהה. מה שנשאר זה אוסף של 5 מיליון ספרים, 500 מיליארד מילים, מחרוזת של אותיות הארוכה פי אלף מהחומר התורשתי האנושי -- טקסט שאם ייכתב, יגיע מכאן לירח ובחזרה 10 פעמים ויותר -- זהו פלח משמעותי מהתורשה התרבותית שלנו. ברור שמה שעשינו כאשר נתקלנו בהיפרבולה שערורייתית כזו -- (צחוק) היה מה שכל חוקר המכבד את עצמו היה עושה. לקחנו דף מתוך קטע קומי ברשת, ואמרנו, "תתרחקי מאיתנו. אנו הולכים להיעזר במדע." (צחוק) ג'.מ.: טוב, ברור שחשבנו שאולי נחשוף את הנתונים לאנשים כדי שיעשו עליהם מחקרים מדעיים. התחלנו לחשוב איזה נתונים לשחרר. האמת שהיינו רוצים לשחרר את מלוא הטקסט של כל 5 מיליון הספרים. אבל גוגל, ובעיקר ג'ון אורוונט, סיפרו לנו שעלינו ללמוד משוואה אחת. אם יש לכם 5 מיליון, זה אומר 5 מיליון סופרים ו-5 מיליון תביעות משפטיות שזה ממש המון. כך שגם אם זה יהיה ממש, ממש מרשים, שוב, זה מאוד, מאוד לא מעשי. (צחוק) ואנו שוב ויתרנו, ואימצנו את הגישה המאוד מעשית, שהיתה קצת פחות מרשימה. אמרנו, במקום לשחרר את מלוא הטקסט, נשחרר סטטיסטיקות על הספרים. ניקח לדוגמא "קורטוב של אושר". אלו הן ארבע מילים (באנגלית); נקרא לזה משקל-ארבע. נספר לכם כמה פעמים משקל-ארבע מסויים הופיע בספרים ב-1801, 1802, 1803, עד 2008. זה נותן לנו מרווחי זמן של תדירות השימוש בביטוי מסויים זה לאורך תקופה. אנו עושים זאת לכל המילים והביטויים אשר מופיעים בספרים הללו, וזה נותן לנו טבלה גדולה של שני מיליארד שורות המספרות לנו על הדרך בה תרבות משתנה. א.ל.א.: שני מיליארד השורות הללו, אנו מכנים אותן שני מיליארד משקלי-n. מה הן מספרות לנו? כל משקל-n לכשעצמו מודד מגמות תרבותיות. אתן לכם דוגמא. נניח שאני מצליח במשהו, לכן מחר ברצוני לספר לכם על ההצלחה שלי. אני עשוי לומר, "אתמול, הצלחתי (I throve)." או לחילופין, אתמול, הצלחתי (I thrived)". במה עליי להשתמש? כיצד יודעים? עד לפני 6 חודשים, המצב העדכני בתחום זה היה שהולכים, לדוגמא, לפסיכולוג כזה עם שיער מדהים, ואומרים, "סטיב, אתה מומחה בפעלים חריגים. מה עליי לעשות?" והוא היה עונה, "רוב האנשים אומרים thrived, אבל כמה אומרים throve" גם אתם יודעים, פחות או יותר, שאם הייתם חוזרים 200 שנה אחורה ושואלים את המדינאי הזה שגם לו יש שיער מדהים, (צחוק) "טום, מה עליי להגיד?" הוא היה עונה, "בזמני, רוב האנשים השתמשו ב-throve, אבל כמה ב-thrived". כעת מה שאראה לכם זה נתונים גולמיים. שתי שורות מטבלה זו של 2 מיליארד שורות. מה שרואים זו התדירות, שנה אחר שנה, של "thrived" מול "throve" לאורך זמן. אלו רק שתי שורות מתוך 2 מיליארד שורות. כך שכל מערך הנתונים מרשים פי מיליארד מאשר שקופית זו. (צחוק) (מחיאות כפיים) ג'.מ: ישנן הרבה תמונות אחרות השוות 500 מיליארד מילים. למשל זו. אם ניקח את שפעת, נראה שיאים בזמנים שאנו יודעים שבהם מגיפות השפעת חיסלו אנשים בכל העולם. א.ל.א.: אם עדיין לא השתכנעתם, פני-הים עולים, כך גם דו-תחמוצת הפחמן באויר והטמפרטורה הממוצעת. ג'.מ.: אולי גם תרצו לראות את משקל-n המסויים הזה, וזה כדי לספר לניטשה שאלוהים לא מת, אף על-פי שתסכימו אולי שהוא זקוק ליחצ"ן יותר טוב. (צחוק) א.ל.א.: ניתן להגיע לכמה תפיסות מופשטות מדבר כזה. לדוגמא, אספר לכם על ההיסטוריה של שנת 1950. לאורך רוב ההיסטוריה בקירוב, אף אחד לא שם על שנת 1950. ב-1700, ב-1800, ב-1900, לאף אחד לא היה אכפת. לאורך שנות ה-30 וה-40, לאף אחד לא היה אכפת. פתאום, באמצע שנות ה-40, התחיל הבאז. אנשים גילו ש-1950 עומדת להגיע, והיא יכולה להיות דבר גדול. (צחוק) אבל שום דבר לא גרם להם להתעניין ב-1950 כמו השנה 1950 עצמה. (צחוק) אנשים התהלכו עם אובססיה בתוכם. הם לא יכלו להפסיק לדבר על כל הדברים שהם עשו ב-1950, כל הדברים שהם תיכננו לעשות ב-1950, כל החלומות שהם רצו להגשים ב-1950. למעשה, 1950 היתה כה מרתקת שבשנים שלאחריה, אנשים פשוט המשיכו לדבר על כל הדברים המדהימים שקרו, ב-51, 52, 53. לבסוף ב-1954, מישהו התעורר ושם לב ש-1950 איכשהו עבר זמנה. (צחוק) וככה סתם, הבלון התפוצץ. (צחוק) וסיפורה של 1950 הוא הסיפור של כל שנה שיש עליה רשומות, עם שינוי קטן, כי כעת יש לנו את התרשימים היפים האלה. ומאחר ויש לנו אותם, אנו יכולים למדוד דברים שונים. אנו יכולים לשאול, "כמה מהר הבלון מתפוצץ?" מתברר שניתן למדוד זאת בדיוק מאוד גבוה. מזה נוצרו משוואות, נוצרו גרפים, והתוצאה הסופית היא שמצאנו שהבלון מתפוצץ יותר ויותר מהר עם כל שנה שעוברת. אנו מאבדים עניין בעבר בקצב הולך וגובר. ג'.מ.: ועכשיו עצה קטנה בנושא קריירה. עבור אלה מכם ששואפים להתפרסם, ניתן ללמוד מ-25 הפוליטיקאים המובילים, הסופרים, השחקנים ועוד. אם ברצונכם להתפרסם מוקדם, עליכם להיות שחקנים, מכיוון שהפירסום מתחיל לטפס בסוף שנות ה-20 שלכם -- אתם עדיין צעירים וזה נהדר. אם אתם יכולים להמתין מעט, עליכם להיות סופרים, מאחר ואז אתם מטפסים לגבהים גדולים, כמו מרק טוויין: מאוד מפורסם. אבל אם ברצונכם להגיע ממש לפיסגה, עליכם לדחות סיפוקים וכמובן, להיות פוליטיקאי. כאן תהיו מפורסמים בסוף שנות ה-50 שלכם, ותהיו מאוד, מאוד מפורסמים אחר-כך. גם המדענים נוטים להתפרסם כאשר הם מבוגרים בהרבה. כמו לדוגמא, ביולוגים ופיזיקאים שמקבלים פירסום כמו שחקנים. שגיאה אחת שעליכם להימנע ממנה זה להיות מתמטיקאי. (צחוק) אם תעשו זאת, אולי תחשבו, "נהדר, אגיע לשיאי בשנות ה-20 שלי." אבל אתם יודעים מה? לאף אחד זה לא יהיה אכפת. (צחוק) א.ל.א.: ישנן תובנות נוספות מאירות-עיניים בתוך המשקלי-n. לדוגמא, הנה המסלול של מרק שאגל, אמן יליד 1887. וזה נראה כמסלול רגיל של אדם שהתפרסם. הוא נהיה יותר ויותר מפורסם, אלא אם בודקים בשפה הגרמנית. אם בודקים בגרמנית, רואים משהו לגמרי מוזר, משהו שכמעט ולא רואים, שזה שהוא נהיה מאוד מפורסם ואז פתאום צולל לתחתית, עובר שפל בין 1933 ו-1945, לפני עלייתו מחדש. ובעצם, מה שרואים זו העובדה שמרק שאגאל היה אמן יהודי בגרמניה הנאצית. הסימנים האלה הם כה חזקים שאין צורך לדעת שמישהו צונזר. ניתן פשוט להסיק זאת בעזרת עיבוד נתונים בסיסי. הנה דרך פשוטה לעשות את זה. סביר לצפות שמידת הפירסום של פלוני בזמן נתון תהיה בקירוב הממוצע של פירסומו לפני אותו זמן ופירסומו אחריו. זה בערך מה שאנו מצפים ומשווים את התוצאה למידת הפירסום בפועל. מחלקים את האחד בשני כדי לקבל מה שנקרא מדד דיכוי. אם מדד הדיכוי מאוד, מאוד קטן, זה אומר שמישהו כנראה סובל מדיכוי. אם הוא מאוד גדול, אולי מישהו נהנה מתעמולה. ג'.מ.: ניתן בעצם להסתכל על פילוג מדדי הדיכוי על-פני האוכלוסייה כולה. לדוגמא, מדד דיכוי זה הוא של 5,000 אנשים הלקוח מספרים באנגליה שלא אמור להיות שם דיכוי -- הוא ייראה כך, בגדול מרוכז סביב 1. מה שמצפים לו זה בערך מה שרואים כאן. זה הפילוג שמתקבל בגרמניה -- מאוד שונה, הוא מוסט שמאלה. אנשים שם דיברו כפליים פחות ממה שהיה ניתן לצפות. אבל יותר חשוב, הפילוג הרבה יותר רחב. יש הרבה אנשים הנמצאים בקצה השמאלי של פילוג זה אשר דיברו פי-10 פחות ממה שהיו "צריכים". אבל יש גם הרבה אנשים בקצה הימני שנראה שהם מרויחים מתעמולה. תמונה זו היא המאפיין המזהה, במסד נתוני הספרים, לצנזורה. א.ל.א.: אנו מכנים שיטה זו culturomics (חקר תורשה תרבותית). זה דומה לחקר התורשה בביולוגיה. חקר התורשה שם עדשה על ביולוגיה דרך החלון של סדרות של רצפי בסיס בחומר התורשתי האנושי. חקר תורשה תרבותית זה משהו דומה. זה שימוש באנליזה של איסוף נתונים בקנה-מידה ענקי לחקר של תרבות אנושית. כאן, במקום להביט דרך עדשת החומר התורשתי, מביטים דרך עדשה של פיסות של רשומות היסטוריות שעברו דיגיטליזציה. הדבר הגדול בחקר תורשה תרבותית הוא שכל אחד יכול לעשות זאת. מדוע כל אחד יכול לעשות זאת? זה מכיוון ששלושה אנשים, ג'ון אורוונט, מאט גריי וויל ברוקמן מגוגל, ראו את אב-הטיפוס של מצגת המשקל-n, ואמרו, "זה כזה כיף. עלינו להפכה לזמינה לציבור." תוך שבועיים -- שבועיים לפני שהמאמר שלנו התפרסם -- הם כתבו תוכנית לגירסת מצגת משקל-n בשביל כלל הציבור. ניתן להקליד כל מילה או ביטוי שחפצים בהם ולראות את משקל ה-n שלהם מייד -- וגם להציג דוגמאות של כל הספרים המגוונים שבהם מופיע המשקל-n שבחרת. ג'.מ.: נעשה בזה שימוש יותר ממיליון פעם ביום הראשון, וזו באמת השאילתא הטובה ביותר מכולן. אנשים רוצים את הטוב ביותר, להניח את הרגל היותר טובה מלפנים. אבל מתברר שבמאה ה-18, לאנשים לא היה ממש אכפת מכל זה. הם לא רצו את הטוב ביותר (best), אלא את הטוב ביותר (beft). לכן מה שקרה הוא, טוב, ברור שזו טעות. זה לא שהם שאפו לבינוניות, אלא שהיו נוהגים לכתוב S בצורה שונה, בערך כמו F. גוגל לא תפסו זאת בזמנו, לכן דיווחנו על כך במאמר המדעי שכתבנו. אבל מתברר שזה רק מזכיר לנו שלמרות שכל זה כיף גדול, כאשר מפרשים את הגרפים הללו, צריך מאוד להיזהר, ושעלינו לאמץ סטנדרטים בסיסיים של מדע. א.ל.א: אנשים נוהגים להשתמש בזה לכל מיני מטרות. (צחוק) בעצם, אין לנו יותר צורך לדבר, אנו רק נראה לכם את כל השקופיות ונישאר דוממים. אדם זה התעניין בהיסטוריית התיסכול. ישנם סוגי תיסכול שונים. אם נפגעים בבוהן, יש אחד "ארג". אם כדור-הארץ מושמד על-ידי הווגונים כדי לפנות דרך למעבר בין-כוכבי, זה שמונה א "אאאאאאאארג". אדם זה חוקר את כל ה"ארגים", מאחד עד שמונה א-ים. מתברר שה"ארגים" הפחות נפוצים הם אלה אשר קשורים בדברים היותר מתסכלים -- מלבד, באופן משונה, בשנות ה-80 המוקדמות. אנו סבורים שזה עשוי להיות קשור איכשהו ברייגן. (צחוק) ג'.מ.: ישנם הרבה שימושים לנתונים אלה, אבל השורה התחתונה היא שרשומות היסטוריות עוברות דיגיטליזציה. גוגל החלה בדיגיטליזציה של 15 מיליון ספרים. זה 12 אחוז מכל הספרים שיצאו אי-פעם לאור. זוהי פיסה גדולה למדיי של התרבות האנושית. יש בנוסף עוד הרבה בתרבות: ישנם כתבי-יד, ישנם עיתונים, ישנם דברים שאינם טקסטים, כמו אמנות וציורים. כל זה אמור להיות במחשבים שלנו, במחשבים בכל העולם. וכאשר זה יקרה, יחול שינוי באופן בו אנו מבינים את עברנו, את ההווה שלנו ואת התרבות האנושית. תודה רבה לכם. (מחיאות כפיים)