إيريز ليبرمان ايدن: الجميع يعرف
أن الصورة تعادل الف كلمة.
لكننا في هارفارد
تساءلنا ما إذا كان ذلك بالفعل صحيحا.
(ضحك)
وبالتالي جمعنا فريقا من الخبراء،
يمتدون في هارفارد وMIT
قاموس التراث الأمريكي، موسوعة بريتانيكا
وحتى رعاتنا الذين نفتخر بهم،
غوغل.
ودبرنا هذا
لحوالي أربع سنوات.
ووصلنا إلى استنتاج مبدئي،
سيداتي سادتي، الصورة لا تعادل الف كلمة.
في الحقيقة، وجدنا بعض الصور
التي تقدر بأكثر من 500 مليار كلمة.
جان باتيست ميشال: إذن كيف وصلنا إلى هذا الاستنتاج؟
إذن أنا وإريز كنا نفكر في طرق
للحصول على صورة كبيرة للثقافة الإنسانية
والتاريخ البشري: تغيرها عبر الزمن.
وهكذا الكثير من الكتب تم تأليفها على مدى السنوات.
وبالتالي كنا نفكر، حسنا أفضل طريقة للاستفادة منها
هو قراءة كل هذه الملايين من الكتب.
الآن بالطبع، إن كان هناك مقياس لمدى روعة ذلك،
كان هذا ليصنف عاليا وعاليا للغاية.
الآن المشكل هو أن هناك محور أفاصيل لذلك،
والذي هو محور العملية.
هذا متدن متدن للغاية.
(تصفيق)
الآن الناس يميلون إلى استخدام مقاربة بديلة،
والتي هي أخذ بضعة مصادر وقرائتها بعناية.
هذا عملي للغاية، لكن ليس بتلك الروعة.
ما تريد فعله حقا
هو أخذ الجزء الرائع والعملي كذلك من هذا الفضاء.
وقد اتضح أن هناك شركة على الجانب الآخر من النهر تدعى غوغل
والتي بدأت مشروع رقمنة قبل بضع سنوات
من شأنه أن يسمح بهذه المقاربة.
قاموا برقمنة ملايين الكتب.
وبالتالي ما يعنيه ذلك هو، قد يستخدم المرء طرقا حوسبية
لقراءة كل الكتب بضغطة زر.
هذا في غاية العملية والروعة.
إ. ل. أ: دعوني أخبركم قليلا من أين تأتي الكتب.
منذ قديم الزمن، تواجد كتّاب.
هؤلاء الكتّاب كانوا يسعون لتأليف كتب.
وقد صار ذلك سهلا جدا
مع تطور الصحافة المطبوعة قبل بضعة قرون.
منذ ذلك الوقت، استطاع الكتاب
على مدى 129 مليون مناسبة متميزة،
من نشر الكتب.
الآن إن لم تكن تلك الكتب مفقودة في التاريخ،
فإنها في مكان ما في مكتبة،
والكثير من تلك الكتب يتم استرجاعها من المكتبات
ورقمنتها من قبل غوغل،
والذين قاموا بمسح 15 مليون كتاب لحد الساعة.
الآن حين يقوم غوغل برقمنة كتاب، يضعونه في شكل أنيق للغاية.
الآن لدينا البيانات بالإضافة إلى البيانات الوصفية.
لدينا معلومات حول أمور مثل أين تم نشره،
من كان المؤلف، متى تم نشره.
وما نقوم به هو القراء من خلال كل هذه السجلات
وإلغاء كل البيانات التي ليست ذات جودة عالية.
ما يتبقى لنا
هو مجموعة من خمسة ملايين كتاب،
500 مليار كلمة،
سلسلة من الأحرف أطول بألف مرة
من الجينوم البشري --
نص إن تمت كتابته،
سيمتد من هنا إلى القمر وعودة
10 مرات متوالية --
قشرة حقيقية لجينومنا الثقافي.
ما قمنا به بالطبع
حين واجهنا تلك المبالغة الفظيعة ..
(ضحك)
هو ماكان أي باحث يحترم نفسه
ليقوم به.
أخذنا صفحة من إكس كي سي دي،
وقلنا، "ارجع للوراء.
سنجرب العلم."
(ضحك)
ج. م: الآن بالطبع، كنا نفكر،
حسنا، دعونا أولا نضع البيانات فقط هناك
حتى يمارس عليها الناس العلم.
الآن كنا نفكر، ما نوع البيانات التي قد نصدرها؟
حسنا بالطبع، تريد أخذ كل الكتب
ونشر النص الكامل لتلك الخمس ملايين كتاب.
الآن غوغل، وجون أوروانت تحديدا،
أخبرونا عن معادلة صغيرة علينا تعلمها.
حسنا لديكم خمس ملايين، هذا يعني، خمس ملايين كاتب
وخمس ملايين مدعي هي دعوى قضائية هائلة.
إذن، على الرغم من أن هذا كان ليكون رائعا للغاية،
مجددا، إنه غير عملي للغاية.
(ضحك)
الآن مجددا، أذعنا نوعا ما،
وأنجزنا المقاربة العملية جدا، والتي لم تكن بتلك الروعة.
قلنا، حسنا بدل نشر النصوص الكاملة،
سنقوم بنشر إحصائيات حول الكتب.
إذن على سبيل المثال "بصيص من السعادة."
إنها أربع كلمات؛ نسمي ذلك أربعة-غرام
سنقوم باخباركم بعدد المرات التي ظهرت فيها أربعة-غرام معينة
في الكتب في 1801، 1802، 1803،
على طول الطريق إلى 2008.
ذلك يعطينا تسلسلا زمنيا
حول مدى تردد استخدام هذه الجملة المعينة مع مرور الزمن.
نقوم بذلك لكل الكلمات والجمل التي تظهر في تلك الكتب،
وذلك يعطينا جدولا ضخما من ملياري سطر
يخبرنا حول الطريقة التي تتغير بها الثقافة.
إ. ل. أ: وبالتالي هذان الملياران،
نسميهما ملياري ن-غرام.
ما الذي تخبرنا؟
حسنا ال: ن-غرام المفردة تقيس الاتجاهات الثقافية.
دعوني أعطيكم مثالا.
دعونا نفترض أنني في ازدهار،
ثم أردت إخباركم في الغد كيف أبليت حسنا.
وبالتالي قد أقول، "البارحة قد نجحت."
كبديل، يمكنني القول، "البارحة، ازدهرت."
حسنا أي واحدة يمكنني استخدامها؟
كيف أعرف؟
قبل ستة أشهر من الآن،
أعلى تقدم تقني في المجال
كان أن تقوم، على سبيل المثال،
بالذهاب إلى عالم نفساني بشعر رائع،
وتقول،
"ستيف، أنت خبير في الأفعال غير النظامية.
ما الذي يجدر بي فعله؟"
وسيقول لك، "حسنا معظم الناس يقولون نجحت،
لكن بعضهم يقول ازدهرت."
وتعلم كذلك، أكثر أو أقل،
أنه إن عدت 200 سنة إلى الوراء
وسألت رجل دولة بنفس الشعر الرائع،
(ضحك)
"توم، ما الذي يجدر بي قوله؟"
سيقول، "حسنا، في وقتنا، معظم الناس يزدهرون،
لكن بعضعهم ينجحون."
وبالتالي الآن ما سأعرضهم عليهم هو بينات خام.
صفان من هذا جدول ملياري مدخلة.
ما ترونه هو تردد سنة بسنة
لـ "نجح" و"ازدهر" على مرور الزمن.
الآن هذه فقط اثنتان
من ملياري صف.
وبالتالي مجموع البيانات الكلية
هي مليار مرة أكثر روعة من هذه الشريحة.
(ضحك)
(تصفيق)
ج. م: الآن هناك الكثير من الصور الأخرى التي تعادل 500 مليار كلمة.
على سبيل المثال، هذه.
إن أخذتم الإنفلونزا
سترون ذرى في الأوقات التي تعرفون
كانت تقتل فيه أوبئة الأنفلونزا الكبرى الناس في جميع أنحاء العالم.
إ. ل. أ: إن لم تكونوا بعد مقتنعين،
مستويات البحر ترتفع،
وكذلك ثنائي أكسيد الكربون في الجو والحرارة العالمية.
ج. م: سترغبون كذلك في إلقاء نظرة على هذا الـ ن-غرام بذاته،
وذلك لإخبار نيتشه أن الإله ليس ميتا،
على الرغم من أنه قد يحتاج وكيلا إعلاميا أفضل.
(ضحك)
إ. ل. أ: يمكنكم الحصول على بعض المفاهيم المجردة بهذا الشيء.
على سبيل المثال، دعوني أخبركم عن تاريخ
السنة 1950.
للغالبية العظمى من التاريخ،
لم يهتم أحد في حدود 1950.
في 1700 في 1800 في 1900،
لم يهتم أحد.
خلال الثلاثينيات والأربعينيات،
لم يهتم أحد.
وفجأة، في منتصف الأربعينيات،
بدأت تحدث ضجة.
بدأ الناس يدركون أن 1950 قادمة،
وقد تكون عظيمة.
(ضحك)
لكن لا شيء جعل الناس أكثر اهتماما بـ 1950
مثل السنة 1950.
(ضحك)
كان الناس يمشون مهووسين.
لم يستطيعوا التوقف عن الكلام
حول ما قاموا به في 1950،
كل ما كانوا يخططون له في 1950،
كل الأحلام حول ما أرادوا إنجازه في 1950.
في الواقع، 1950 كان آسرا لدرجة
أنه في السنوات اللاحقة،
بقي الناس يتحدثون حول كل الأمور الرائعة التي حدثت،
في 51 و 52 و53.
وأخير في 1954،
أحدهم استيقظ وأدرك
أن 1950 قد انقضت.
(ضحك)
وبكل بساطة، انفجرت الفقاعة.
(ضحك)
وقصة 1950
هي قصة كل سنة لدينا في السجلات،
بالتفاف بسيط، لأنه لدينا الآن هذه المبيانات الجميلة.
ولأنه لدينا مبيانات جميلة، يمكننا قياس الأشياء.
يمكننا القول، "حسنا ما مدى سرعة انفجار الفقاعة؟"
وقد اتضح أنه يمكننا قياس ذلك بدقة بالغة.
تم اشتقاق معادلات، وإنتاج رسوم بيانية،
والنتيجة الخام
هي أنه وجدنا أن الفقاعة تنفجر بسرعة أكثر فأكثر
مع مرور كل سنة.
نحن نفقد اهتمامنا بالماضي بشكل أكثر سرعة.
ج. م: الآن نصيحة مهنية بسيطة.
وبالتالي لمن يريد منكم أن يشتهر،
يمكننا الاستفادة من الشخصيات السياسية الـ 25 الأكثر شهرة،
والكتاب والممثلين وما إلى ذلك.
وبالتالي إذا ما أردت أن تصبح مشهورا لاحقا، يجدر بك أن تصير ممثلا،
لأن الشهرة تبدأ بالزيادة في نهاية العشرينيات --
لا تزال يافعا، ذلك عظيم للغاية.
الآن إن أمكنك الانتظار قليلا، يجدر بك أن تصير كاتبا،
لأنه آنذاك ترتفع إلى مستويات عظيمة،
مثل مارك توين، على سبيل المثال: في غاية الشهرة.
لكن إن أردت أن تصل إلى أعلى القمة،
يجدر بك أن تؤجل المتعة،
وتصير سياسيا بالطبع.
وبالتالي هنا ستصير مشهورا في نهاية خمسينياتك،
وستصير مشهورا للغاية بعد ذلك.
والعلماء كذلك يميلون إلى أن يصيروا مشهورين حين يكونون أكبر بكثير.
على سبيل المثال، الأحيائيون والفيزيائيون
يصيرون بقدر شهرة الممثلين.
خطأ واحد لا يجدر بكم الوقوع فيه هو أن تصيروا رياضياتيين.
(ضحك)
إن قمتم بذلك،
قد تعتقدون، "أوه عظيم. سأقوم بأعظم أعمالي في العشرينيات من عمري"
لكن خمنوا ماذا، لا أحد في الواقع يهتم.
(ضحك)
إ. ل. أ: هناك ملاحظات حكيمة أخرى
فيما بين الـ ن-غرام.
على سبيل المثال، هنا تجدون مسار مارك شاغال،
فنان ولد سنة 1887.
ويبدو هذا مثل مسار شخص مشهور عادي.
يصير أكثر وأكثر شهرة،
باستثناء إن بحثتم بالألمانية.
إن بحثتم بالألمانية، ترون شيئا غريبا للغاية،
شيئا لا ترونه أبدا،
وهو أن تصير مشهورا للغاية
ثم وفجأة،
يصل الحضيض ما بين 1933 و1945،
قبل أن يرتد مجددا لاحقا.
وبالطبع، ما ترونه
هو حقيقة كون مارك شاغال فنانا يهوديا
في ألمانيا النازية.
الآن هذه الإشارات
هي في الواقع قوية للغاية
لدرجة أنه لا تحتاج إلى معرفة أن أحدهم كان تحت الرقابة.
يمكننا في الواقع إستنتاج ذلك
باستخدام معالجة إشارات أساسية.
هنا طريقة بسيطة للقيام بذلك.
حسنا، توقع منطقي
هو أن شهرة أحدهم في فترة زمنية معينة
يجب أن تكون تقريبا معدل شهرتهم قبل
وبعد الاشتهار.
وبالتالي ذلك نوع مما نتوقعه.
ونقارن ذلك بالشهرة التي نلاحظها.
ونقسم واحدا بالآخر
لإنتاج شيء نسميه مؤشر القمع.
إن كان مؤشر القمع صغيرا جدا للغاية،
بعد ذلك قد تكون أنت ذاتك تحت القمع.
إن كان كبيرا للغاية، ربما تكون مستفيدا من بروباغاندا.
ج. م: الآن يمكنكم فعلا أن تنظروا
توزيع مؤشرات القمع على لمجموع السكان.
لذا على سبيل المثال، هنا --
مؤشر القمع هذا هو لـ 5000 شخص
تم اختيارهم من كتب إنجليزية حيث لا يوجد هناك قمع --
سيكون شيئا مثل هذا، سيكون أساسا متركزا بإحكام.
ما تتوقعونه هو ما يمكنكم ملاحظته أساسا.
هذا التوزيع كما يرى في ألمانيا --
مختلف كثيرا، إنه محول قليلا لليسار.
تحدث عنه الناس مرتين أقل مما يجب أن يكون.
لكن المهم جدا، التوزيع أقل وسعا.
هناك الكثير من الناس ينتهون في أقصى يسار التوزيع
تم الحديث عنهم حوالي 10 مرات أقل مما يجب أن يكون.
لكن كذلك الكثير من الناس على أقصى اليسار
يبدو أنهم استفادوا من البروباغندا.
هذه الصورة هي السمة المميزة للرقابة في سجل الكتب.
إ. ل. أ: الكلتروميكس
هي ما نسمي هذه الطريقة.
إنها نوع ما مثل الجينوميات.
باستثناء أن الجينوما هي عدسات على البيولوجيا
من خلال نافذة تسلسل القواعد في الجينوم البشري.
الكلتروميكس أمر مشابه.
إنه تطبيق تحليل لمجموعة البيانات الهائلة الحجم
لدراسة الثقافة البشرية.
هنا، على سبيل المثال من خلال عدسات الجينوم،
من خلال عدسات السجل التاريخي المرقمن.
الأمر العظيم بخصوص الكلتروميكس
هو أن الجميع يمكنه القيام بذلك.
لماذا يمكن للجميع القيام بذلك؟
الجميع يمكنه القيام بذلك لأن ثلاثة أشخاص،
جون أوروانت ومات غراي وويل بروكمان في غوغل،
رأوا النموذج الأولي لعارض ن-غرام،
فقالوا، "هذا في غاية المتعة.
علينا جعل هذا متوفرا للناس."
وبالتالي في أسبوعين بالتمام -- الأسبوعان قبل صدور ورقتنا البحثية --
قاموا ببرمجة نسخة من عارض ن-غرام من أجل الاستخدام العام.
وبالتالي يمكنكم كذلك أن تكتبوا أي كلمة أو جملة تهتمون بها
ورؤية الـ ن-غرام مباشرة --
كذلك تصفح أمثلة من مختلف الكتب
حيث تظهر ن-غرام.
ج. م: الآن تم استخدام هذا أكثر من مليون مرة في اليوم الأول،
وهذه بالفعل أفضل كل تلك الاستعلامات.
وبالتالي أراد الناس وضع قدمهم الأفضل إلى الأمام.
لكن اتضح أنه في القرن الـ 18، لم يهتم الناس بذلك على الإطلاق.
لم يريدوا أن يكونوا الأفضل، أرادوا أن يكونوا الأفدل.
وبالتالي ما حصل هو، بالطبع، هذا كان مجرد خطأ.
ليس ذلك السعي نحو التوسط،
إنه فقط حقيقة كون الحرف ض كان يكتب بشكل مختلف، نوعا ما مثل د.
الآن بالطبع، غوغل لم يلاحظ ذلك آنذاك،
وبالتالي أبلغنا عن ذلك في المقال العلمي الذي كتبناه.
لكن اتضح أن ذلك هو فقط تذكير
أنه، على الرغم من أنه ممتع جدا،
حين تفسر تلك الرسوم البيانية، عليك أن تكون حذرا للغاية،
وعليك أن تعتمد المعايير الأساسية للعلوم.
إ. ل. أ: الناس كانوا يستخدمون جميع أنواع أغراض المتعة.
(ضحك)
في الواقع، ليس علينا الكلام،
سنقوم فقط بعرض بقية الشرائح والبقاء صامتين.
هذا الشخص كان مهتما بتاريخ الإحباط.
هنا هذه الأنواع المختلفة من الإحباط.
إن صدمت اصبع قدمك، تلك آ "أرغ."
إن كان كوكب الأرض أبيد من طرف الفوغونات
لإفساح المكان لممر بين-نجمي،
تلك 8 آهات "آآآآآآآآرغ."
هذا الشخص درس كل هذه ال"آرغ".
من واحد إلى ثمانية آهات.
وقد اتضح
أن أقل الآهات استخداما
هي بالطبع تلك التي ترتبط بالأشياء الأكثر احباطا
باستثناء، وبشكل غريب، في بداية الثمانينيات.
نعتقد أن لذلك علاقة بريغان.
(ضحك)
ج. م: هناك الكثير من الاستخدامات لهذه البيانات،
لكن الخلاصة أن السجلات التاريخية تتم رقمنتها.
غوغل قد بدأ يرقمن 15 مليون كتاب.
ذلك 12 في المئة من كل الكتب التي نشرت من قبل.
إنه قسم لا بأس به من الثقافة البشرية.
هناك ما هو أكثر بكثير في الثقافة: هناك المخطوطات، الجرائد،
هناك الأشياء التي ليست كتابة، مثل الفن والرسومات.
كل هذا يصادف تواجده في حواسيبنا،
في حواسيب في جميع أنحاء العالم.
وحين يحدث ذلك، سيغير ذلك الطريقة التي
نفهم بها ماضينا، وحاضرنا والثقافة البشرية.
شكرا جزيلا لكم.
(تصفيق)