< Return to Video

เราเรียนรู้อะไรบ้างจากหนังสือ 5 ล้านเล่ม

  • 0:00 - 0:02
    เอเรส ลีเบอร์แมน เอเด็น: ทุกท่านคงคุ้นๆ
  • 0:02 - 0:05
    กับคำกล่าวที่ว่ารูปภาพสื่อคำพูดนับพันใช่ไหมครับ
  • 0:07 - 0:09
    แต่สำหรับพวกเราที่ฮาร์วาร์ด
  • 0:09 - 0:12
    กลับสงสัยว่ามันเป็นอย่างนั้นจริงรึเปล่า
  • 0:12 - 0:14
    (หัวเราะ)
  • 0:14 - 0:18
    พวกเราเลยรวมทีมกลุ่มผู้เชี่ยวชาญ
  • 0:18 - 0:20
    จากฮาร์วาร์ด เอ็มไอที
  • 0:20 - 0:23
    พจนานุกรมอเมริกันเฮอริเทจ สารานุกรมบริตานิกา
  • 0:23 - 0:25
    รวมไปถึงผู้สนับสนุนที่พวกเราภูมิใจ
  • 0:25 - 0:28
    กูเกิล
  • 0:28 - 0:30
    หลังจากที่ทีมเราพินิจพิเคราะห์
  • 0:30 - 0:32
    มาประมาณ 4 ปี
  • 0:32 - 0:37
    ทุกท่านครับ พวกเราได้ข้อสรุปมาว่า
  • 0:37 - 0:40
    รูปภาพหนึ่งๆ ไม่ได้สื่อคำพูดออกมาแค่หลักพันหรอกครับ
  • 0:40 - 0:42
    เพราะพวกเราเจอบางรูป
  • 0:42 - 0:47
    ที่สื่อคำพูดออกมาได้เป็น 5 แสนล้านคำเลยล่ะครับ
  • 0:47 - 0:49
    ฌ็อง แบพติสต์ มิเชล: เพื่อแสดงให้ทุกท่านเห็นถึงที่มาของข้อสรุปนี้
  • 0:49 - 0:51
    อีเรสกับผมเลยได้ลองหาวิธี
  • 0:51 - 0:53
    ที่จะศึกษาภาพรวมของวัฒนธรรม
  • 0:53 - 0:56
    และประวัติศาสตร์มนุษยชาติที่เปลี่ยนแปลงไปตามกาลเวลา
  • 0:56 - 0:58
    มีหนังสือไม่น้อยที่เขียนเกี่ยวกับเรื่องนี้
  • 0:58 - 1:00
    พวกเราเลยเชื่อว่า วิธีที่ดีที่สุดที่จะศึกษาจากหนังสือเป็นล้านเหล่านี้
  • 1:00 - 1:02
    ก็คืออ่านมันทั้งหมด
  • 1:02 - 1:05
    ซึ่งถ้าหากมีหน่วยวัดว่าเครื่องมือนี้เจ๋งแค่ไหน
  • 1:05 - 1:08
    แน่นอนว่ามันคงจะต้องอยู่ในระดับที่เจ๋งมากแน่ๆ
  • 1:08 - 1:10
    ปัญหาอยู่ที่มันมีแกน x ถ่วงอยู่
  • 1:10 - 1:12
    ซึ่งเป็นแกนที่วัดการนำไปใช้จริง
  • 1:12 - 1:14
    จะเห็นได้ว่ามันอยู่ต่ำมากครับ
  • 1:14 - 1:17
    (ปรบมือ)
  • 1:17 - 1:20
    ผู้คนจึงมักจะใช้ตัวเลือกอื่น
  • 1:20 - 1:22
    เช่น คัดเฉพาะข้อมูลบางแหล่งและอ่านมันอย่างระมัดระวัง
  • 1:22 - 1:24
    เป็นวิธีที่อยู่ในระดับนำไปใช้ได้จริงที่สูงมาก แต่ยังไม่เจ๋งพอ
  • 1:24 - 1:27
    สิ่งที่คุณต้องการจริงๆคือ
  • 1:27 - 1:30
    ทางเลือกที่่เจ๋งและนำไปใช้ได้จริง
  • 1:30 - 1:33
    ซึ่งบังเอิญมากที่บริษัทตรงฝั่งแม่น้ำที่ชื่อ "กูเกิล"
  • 1:33 - 1:35
    ได้ริเริ่มโครงการทำหนังสือให้เป็นรูปแบบดิจิทัลเมื่อไม่กี่ปีมานี้
  • 1:35 - 1:37
    ถือเป็นการเปิดทางให้กับทางเลือกอย่างว่า
  • 1:37 - 1:39
    พวกเขาทำหนังสือให้เป็นรูปแบบดิจิทัลหลายล้านเล่มแล้ว
  • 1:39 - 1:42
    หมายความว่า เราสามารถใช้วิธีอย่างเดียวกับที่ใช้กับคอมพิวเตอร์
  • 1:42 - 1:44
    กดคลิ๊กที่ปลายนิ้วเพื่ออ่านหนังสือทั้งหมด
  • 1:44 - 1:47
    วิธีนี้จัดว่านำใช้ได้จริงและเจ๋งมากๆด้วย
  • 1:48 - 1:50
    ELA: ทีนี้ขอผมเล่าหน่อยว่าหนังสือทั้งหลายมาจากไหน
  • 1:50 - 1:53
    กาลครั้งหนึ่งก่อนที่พวกเราจะจำความได้ ก็มีคนเป็นนักเขียนไม่น้อยเลยทีเดียว
  • 1:53 - 1:56
    พวกเขาใช้ความเพียรพยายามสูงมากกว่าจะเขียนหนังสือออกมาเป็นเล่มๆ
  • 1:56 - 1:58
    ทีนี้พอวิทยาการการพิมพ์เริ่มก้าวหน้า
  • 1:58 - 2:00
    ในไม่กี่ร้อยปีที่ผ่านมาก็ทำให้ขั้นตอนการทำหนังสือง่ายขึ้น
  • 2:00 - 2:03
    แต่นั้นมาก็ทำให้นักเขียนจากทั่วสารทิศ
  • 2:03 - 2:05
    สามารถเขียนหนังสือและตีพิมพ์
  • 2:05 - 2:07
    ในแต่ละสถานที่ทั่วทุกมุมโลกได้
  • 2:07 - 2:09
    จนถึงวันนี้ หากหนังสือพวกนั้นยังไม่หายไปจากประวัติศาสตร์
  • 2:09 - 2:11
    มันจะยังคงวางอยู่ในห้องสมุดแห่งใดแแห่งหนึ่ง
  • 2:11 - 2:14
    ซึ่งกูเกิลได้ดำเนินการยืมหนังสือเหล่านั้นมาจากห้องสมุด
  • 2:14 - 2:16
    เพื่อมาสแกนให้อยู่ในรูปแบบดิจิทัล
  • 2:16 - 2:18
    ซึ่งจนถึงวันนี้เสร็จไปกว่า 15 ล้านเล่มแล้ว
  • 2:18 - 2:21
    โดยทีมงานได้จัดทำหนังสือให้อยู่ในรูปแบบที่ดีมาก
  • 2:21 - 2:23
    ทำให้พวกเรามีข้อมูล รายละเอียดต่างๆ
  • 2:23 - 2:26
    เช่น ข้อมูลจำพวกสถานที่หรือวันเวลาที่ตีพิมพ์
  • 2:26 - 2:28
    ข้อมูลผู้แต่ง
  • 2:28 - 2:31
    จากนั้นก็ตรวจสอบมันอย่างละเอียด
  • 2:31 - 2:35
    ทำให้มันสมบูรณ์ที่สุด
  • 2:35 - 2:37
    และพวกเราก็ได้ผลงาน
  • 2:37 - 2:40
    หนังสือห้าล้านกว่่าเล่ม
  • 2:40 - 2:43
    หรือคำห้าแสนกว่าล้านคำ
  • 2:43 - 2:45
    ตัวอักษรที่เรียงกันเหล่านี้
  • 2:45 - 2:48
    ยาวกว่าจีโนมของมนุษย์เราเป็นพันๆเท่า
  • 2:48 - 2:50
    ตัวหนังสือเหล่านี้เมื่อเรียงกันแล้ว
  • 2:50 - 2:52
    อาจยาวถึงระยะทางไปกลับจากโลกถึงดวงจันทร์
  • 2:52 - 2:54
    ประมาณ 10 รอบได้
  • 2:54 - 2:58
    นี่คือเสี้ยวหนึ่งของวัฒนธรรมมนุษย์เรา
  • 2:58 - 3:00
    แน่นอนว่าขณะที่พวกเราเจอ
  • 3:00 - 3:03
    สถานการณ์ที่ดูเกินจริงขนาดนี้
  • 3:03 - 3:05
    (หัวเราะ)
  • 3:05 - 3:08
    เป็นสิ่งที่นักวิจัยที่มีความนับถือในตัวเอง
  • 3:08 - 3:11
    เลือกที่จะทำ
  • 3:11 - 3:13
    พวกเราเหมือนการ์ตูนล้อเลียน
  • 3:13 - 3:15
    และพูดว่า "ถอยไป
  • 3:15 - 3:17
    พวกเราจะใช้วิทยาศาสตร์มาพิสูจน์"
  • 3:17 - 3:19
    (หัวเราะ)
  • 3:19 - 3:21
    JM: ต่อมา พวกเราคิดกันว่า
  • 3:21 - 3:23
    เอาล่ะ พวกเราแยกเรื่องข้อมูล
  • 3:23 - 3:25
    ให้กับทีมทดลองทางวิทยาศาสตร์ดูแลไปก่อน
  • 3:25 - 3:27
    และพวกเราก็วางแผนว่า ข้อมูลจำพวกไหนที่เราควรจะนำออกสู่สาธารณะ?
  • 3:27 - 3:29
    แน่นอนว่า เราอยากจะทำให้ทุกๆคนเข้าถึง
  • 3:29 - 3:31
    เนื้อหาในหนังสือทั้งหมด
  • 3:31 - 3:33
    แต่กูเกิล โดยเฉพาะจอน ออร์วอนท์
  • 3:33 - 3:35
    ทำให้พวกเราเรียนรู้ว่า
  • 3:35 - 3:38
    ในหนังสือห้าล้านเล่ม หมายถึง นักเขียนห้าล้านคน
  • 3:38 - 3:41
    หรือก็คือโจทก์ที่สามารถฟ้องเราได้ห้าล้านคนเช่นกัน
  • 3:41 - 3:43
    ดังนั้นถึงแม้ว่าสิ่งนี้จะเจ๋งมากถึงมากที่สุด
  • 3:43 - 3:46
    แต่มันก็ไม่น่าใช้มากถึงมากที่สุดอยู่ดี
  • 3:46 - 3:48
    (หัวเราะ)
  • 3:48 - 3:50
    ด้วยเหตุนี้ พวกเราเลยกลับมาคิดทบทวน
  • 3:50 - 3:53
    แล้วริเริ่มโครงการที่เน้นเรื่องการใช้งาน แต่ลดความเจ๋งลงไปหน่อย
  • 3:53 - 3:55
    พวกเราคิดว่า แทนที่จะปล่อยตัวหนังสือทั้งหมดออกไป
  • 3:55 - 3:57
    ก็ปล่อยเฉพาะสถิติของเนื้อหาที่อยู่หนังสือเหล่านั้น
  • 3:57 - 3:59
    ตัวอย่างเช่น "ความ สุข แวว วับ"
  • 3:59 - 4:01
    4 คำนี้ พวกเราขอเรียกมันว่า "4 gram" นะครับ
  • 4:01 - 4:03
    พวกเราสามารถบอกคุณได้ว่า คำ 4 gram นี้ปรากฏในหนังสือที่ตีพิมพ์
  • 4:03 - 4:05
    ระหว่างปี ค.ศ. 1801, 1802, 1802 จนถึงปีค.ศ 2008
  • 4:05 - 4:07
    ทั้งหมดกี่ครั้ง
  • 4:07 - 4:09
    พวกเราสามารถทำความเข้าใจคำๆนั้น
  • 4:09 - 4:11
    จากความถี่ที่ถูกหยิบยกมาใช้ตั้งแต่อดีตจนถึงปัจจุบัน
  • 4:11 - 4:14
    พวกเราทำแบบนี้กับคำและวลีทุกๆคำที่ปรากฏอยู่ในหนังสือ
  • 4:14 - 4:17
    ซึ่งทำให้เราได้ตารางที่ยาวประมาณสองพันล้านบรรทัด
  • 4:17 - 4:19
    สิ่งเหล่านี้แสดงถึงความเปลี่ยนแปลงทางวัฒนธรรมของมนุษย์
  • 4:19 - 4:21
    ELA: สำหรับสองพันล้านบรรทัดเหล่านั้น
  • 4:21 - 4:23
    เราขอเรียกมันว่าสองพันล้าน n-gram นะครับ
  • 4:23 - 4:25
    มันบอกอะไรเราบ้าง?
  • 4:25 - 4:27
    เอาล่ะ n-gram ของวลีหนึ่งๆสามารถวัดกระแสทางวัฒนธรรมได้
  • 4:27 - 4:29
    ขอผมลองยกตัวอย่างให้เห็นภาพนะครับ
  • 4:29 - 4:31
    สมมติว่าผมกำลังประสบความสำเร็จ
  • 4:31 - 4:33
    ในวันต่อมาผมอยากเล่าให้่คุณฟังว่าผมทำได้ดีแค่ไหน
  • 4:33 - 4:36
    ผมจะต้องพูดว่า "Yesterday, I throve"
  • 4:36 - 4:39
    หรือพูดว่า "Yesterday, I thrived"
  • 4:39 - 4:42
    ทีนี้ผมควรจะใช้คำไหนดีล่ะ?
  • 4:42 - 4:44
    จะรู้ได้อย่างไร?
  • 4:44 - 4:46
    ถ้าเป็นเมื่อหกเดือนที่แล้ว
  • 4:46 - 4:48
    หากต้องการทราบข้อมูลเชิงลึกทางด้านนี้
  • 4:48 - 4:50
    คุณอาจจะต้องสอบถามผู้เชี่ยวชาญ
  • 4:50 - 4:52
    ซึ่งก็คือ นักจิตวิทยาที่ทรงผมสวยงามท่านนี้นี่เอง
  • 4:52 - 4:54
    คุณอาจถามว่า
  • 4:54 - 4:57
    "คุณสตีฟครับ คุณเป็นผู้เชี่ยวชาญทางด้านกริยา 3 ช่อง
  • 4:57 - 4:59
    บอกผมหน่อยว่าควรใช้คำไหน?"
  • 4:59 - 5:01
    และเขาอาจจะบอกคุณว่า "อืม คนส่วนใหญ่ใช้ thrived"
  • 5:01 - 5:04
    แต่บางคนก็ใช้ throve"
  • 5:04 - 5:06
    และคุณก็อาจรู้อยู่แล้วว่า
  • 5:06 - 5:09
    หากคุณย้อนกลับไปเมื่อ 200 ปีที่แล้ว
  • 5:09 - 5:12
    และถามรัฐบุรุษอีกท่านที่ทรงผมสวยไม่แพ้กัน
  • 5:12 - 5:15
    (หัวเราะ)
  • 5:15 - 5:17
    "คุณทอมครับ ผมควรใช้คำไหนดี?"
  • 5:17 - 5:19
    เขาอาจจะบอกว่า "อืม ในยุคที่ผมอยู่ ส่วนใหญ่ใช้ throve
  • 5:19 - 5:22
    บางคนใช้ thrived"
  • 5:22 - 5:24
    ทีนี้สิ่งที่ผมจะนำเสนอให้ทุกท่านเห็นก็คือข้อมูลดิบ
  • 5:24 - 5:28
    กราฟสองเส้นที่เป็นสถิติจากตารางสองพันล้านบรรทัด
  • 5:28 - 5:30
    สิ่งที่คุณเห็นก็คือความถี่ของการใช้คำว่า
  • 5:30 - 5:33
    "thrived" และ "throve" ที่ผ่านมาปีต่อปี
  • 5:34 - 5:36
    ซึ่งนี่เป็นเพียงสอง
  • 5:36 - 5:39
    ในสองพันล้านบรรทัด
  • 5:39 - 5:41
    หมายความว่าข้อมูลทั้งหมด
  • 5:41 - 5:44
    ก็จะเจ๋งกว่าในสไลด์นี้อีกเป็นพันล้่านเท่า
  • 5:44 - 5:46
    (หัวเราะ)
  • 5:46 - 5:50
    (ปรบมือ)
  • 5:50 - 5:52
    JM: ตอนนี้ก็จะมีรูปภาพหลายรูปที่สื่อคำกว่าห้าแสนล้านคำ
  • 5:52 - 5:54
    เช่น คำนี้
  • 5:54 - 5:56
    หากคุณพูดถึงไข้หวัดใหญ่
  • 5:56 - 5:58
    จากจุดสูงสุดในรูปนี้คุณจะสรุปได้ว่า
  • 5:58 - 6:01
    การระบาดได้คร่าชีวิตผู้คนทั่วทุกมุมโลก
  • 6:01 - 6:04
    ELA: เผื่อคุณยังไม่เชื่อนะครับ
  • 6:04 - 6:06
    ระดับน้ำทะเลกำลังสูงขึ้น
  • 6:06 - 6:09
    เช่นเดียวกับก๊่าซคาร์บอนไดออกไซต์และอุณหภูมิของโลก
  • 6:09 - 6:12
    JM: คุณอาจอยากดู n-gram นี้ประกอบ
  • 6:12 - 6:15
    เพื่อบอก "นิตเช่" ว่าพระเจ้ายังไม่ตาย
  • 6:15 - 6:18
    ถึงแม้คุณจะคิดว่าเขาควรมีนักประชาสัมพันธ์ที่ดีกว่านี้
  • 6:18 - 6:20
    (หัวเราะ)
  • 6:20 - 6:23
    ELA: ทุกท่านสามารถได้แนวคิดสรุปได้จากข้อมูลเหล่านี้
  • 6:23 - 6:25
    เช่น ขอผมเล่าประวัติศาสตร์
  • 6:25 - 6:27
    ของปี ค.ศ. 1950 ก่อน
  • 6:27 - 6:29
    ปีนี้เป็นปีประวัติศาสตร์ที่คนพูดถึงมากที่สุด
  • 6:29 - 6:31
    ทั้งที่ก่อนหน้านั้นไม่มีใครพูดถึงปี ค.ศ.1950 นี้เลย
  • 6:31 - 6:33
    ตั้งแต่ปี 1700, 1800, 1900
  • 6:33 - 6:36
    ไม่มีเลย
  • 6:37 - 6:39
    ย้อนไปยังปี 1930-1940
  • 6:39 - 6:41
    ก็ยังไม่เป็นที่กล่าวถึงเช่นกัน
  • 6:41 - 6:43
    จนกระทั่งในช่วงกลางศตวรรษ 1940
  • 6:43 - 6:45
    ทุกคนเริ่มเอ่ยถึงปีนี้
  • 6:45 - 6:47
    ผู้คนเริ่มตระหนักว่าปี 1950 กำลังจะมา
  • 6:47 - 6:49
    และมันจะยิ่งใหญ่มาก
  • 6:49 - 6:52
    (หัวเราะ)
  • 6:52 - 6:55
    แต่ไม่มีอะไรทำให้ผู้คนสนใจปี 1950
  • 6:55 - 6:58
    เหมือนปี 1950
  • 6:58 - 7:01
    (หัวเราะ)
  • 7:01 - 7:03
    ตั้งแต่นั้นมาผู้คนเริ่มหมกหมุ่น
  • 7:03 - 7:05
    พวกเขาไม่หยุดเอ่ยถึง
  • 7:05 - 7:08
    สิ่งที่เกิดขึ้นทั้งหมดในปี 1950
  • 7:08 - 7:11
    แผนทั้งหมดที่พวกเขาจะทำในปี 1950
  • 7:11 - 7:16
    ความฝันทั้งหมดที่พวกเขาอยากทำให้สำเร็จในปี 1950
  • 7:16 - 7:18
    จริงๆแล้ว ปี 1950 น่าสนใจมาก
  • 7:18 - 7:20
    หลังจากปีนั้น
  • 7:20 - 7:23
    ผู้คนก็พูดถึงแต่สิ่งอัศจรรย์ที่เกิดขึ้น
  • 7:23 - 7:25
    ในปี 51 52 53
  • 7:25 - 7:27
    และสุดท้ายปี 1954
  • 7:27 - 7:29
    อยู่ๆก็มีใครซักคนตื่นขึ้นมาและตระหนักว่า
  • 7:29 - 7:33
    เหตุการณ์ 1950 ได้ผ่านพ้นไปแล้ว
  • 7:33 - 7:35
    (หัวเราะ)
  • 7:35 - 7:37
    และฟองสบู่่ก็แตก ณ ปีนั้นเอง
  • 7:37 - 7:39
    (หัวเราะ)
  • 7:39 - 7:41
    และเรื่องราวของปี 1950
  • 7:41 - 7:43
    ก็เป็นเรื่องราวที่ได้รับการบันทึกเพิ่มเข้าไปทุกๆปี
  • 7:43 - 7:46
    แม้จะมีหักมุมเล็กน้อย แต่ตารางก็ดูดีทีเดียว
  • 7:46 - 7:49
    และเพราะพวกเรามีกราฟที่สวยแบบนี้ เราถึงสามารถคำนวนเรื่องราวได้
  • 7:49 - 7:51
    เราบอกได้ว่า "ฟองสบู่แตกเร็วแค่ไหน?"
  • 7:51 - 7:54
    กลายเป็นว่าพวกเราสามารถวัดมันได้อย่างแม่นยำ
  • 7:54 - 7:57
    แก้ปัญหาได้ตรงจุด สร้างกราฟขึ้นมา
  • 7:57 - 7:59
    และผลลัพธ์ก็คือ
  • 7:59 - 8:02
    พวกเราเรียนรู้ว่ายิ่งนานวันฟองสบู่
  • 8:02 - 8:04
    ก็ยิ่งแตกเร็วขึ้น
  • 8:04 - 8:09
    พวกเราหยุดสนใจในประเด็นต่างๆเร็วกว่าเมื่อก่อน
  • 8:09 - 8:11
    JM: ต่อมา ผมขอแนะนำเรื่องการงานซักหน่อย
  • 8:11 - 8:13
    สำหรับคนที่อยากมีชื่อเสียงนะครับ
  • 8:13 - 8:15
    ผมได้แนวคิดนี้มาจากข้อมูลของนักการเมือง นักเขียน นักแสดงและอาชีพอื่นๆ
  • 8:15 - 8:17
    ที่มีชื่อเสียงทั้ง 25 ท่านนี้นะครับ
  • 8:17 - 8:20
    หากคุณอยากดังตอนอายุน้อย คุณควรจะเป็นนักแสดง
  • 8:20 - 8:22
    เพราะความดังจะเพิ่มขึ้นช่วงปลายอายุ 20
  • 8:22 - 8:24
    เพราะคุณยังหนุ่มยังสาวอยู่
  • 8:24 - 8:26
    หากคุณรออีกหน่อย คุณก็ยังเป็นนักเขียนได้
  • 8:26 - 8:28
    เพราะคุณสามารถไต่เต้าไปได้อีกเยอะ
  • 8:28 - 8:30
    อย่างคุณ มาร์ค ทเวน ดังมากเลยครับ
  • 8:30 - 8:32
    แต่่หากคุณอยากไต่เต้าไปถึงจุดสูงสุด
  • 8:32 - 8:34
    คุณควรจะยืดเวลานานอีกซักช่วงหนึ่ง
  • 8:34 - 8:36
    เพื่อก้าวไปเป็นนักการเมือง
  • 8:36 - 8:38
    ฉะนั้น คุณก็จะมีชื่อเสียงมากในช่วงปลายอายุ 50
  • 8:38 - 8:40
    และจะโด่งดังมากหลังจากนั้น
  • 8:40 - 8:43
    เช่นเดียวกับนักวิทยาศาสตร์ที่มีแนวโน้มจะมีชื่อเสียงตอนอายุมากแล้ว
  • 8:43 - 8:45
    ส่วนนักชีววิทยา นักฟิสิกส์
  • 8:45 - 8:47
    แนวโน้มที่จะโด่งดังเทียบเท่ากับนักแสดง
  • 8:47 - 8:50
    หนึ่งในอาชีพที่ไม่ควรทำก็คือ นักคณิตศาสตร์
  • 8:50 - 8:52
    (หัวเราะ)
  • 8:52 - 8:54
    คุณอาจจะมุ่งมั่น
  • 8:54 - 8:57
    และคิดในใจว่า "ฉันจะทำให้ดีที่สุดตอนอายุ 20 ต้นๆ"
  • 8:57 - 8:59
    แต่เชื่อเถอะ ไม่มีใครสนใจหรอก
  • 8:59 - 9:02
    (หัวเราะ)
  • 9:02 - 9:04
    ELA: ในข้อมูลของเรา
  • 9:04 - 9:06
    ยังมี n-gram ที่น่าสนใจกว่านั้น
  • 9:06 - 9:08
    เช่น กรณีของ มาร์ค ชาร์กาล
  • 9:08 - 9:10
    นักศิลปะที่เกิดในปี 1887
  • 9:10 - 9:13
    ดูเผินๆเขาก็เหมือนกับคนดังทั่วๆไป
  • 9:13 - 9:17
    เขาโด่งดังขึ้นมาเรื่อยๆเลยครับ
  • 9:17 - 9:19
    ยกเว้นในเยอรมัน
  • 9:19 - 9:21
    หากคุณดูข้อมูลในเยอรมัน คุณจะสังเกตเห็นอะไรบางอย่าง
  • 9:21 - 9:23
    บางอย่างที่คุณไม่เคยเห็น
  • 9:23 - 9:25
    นั่นคือ เขาโด่งดัังมาก
  • 9:25 - 9:27
    แล้วความโด่งดังก็ฮวบตกลงอย่างรวดเร็ว
  • 9:27 - 9:30
    โดยจุดต่ำสุดอยู่ระหว่างปี 1933 ถึง 1945
  • 9:30 - 9:33
    และหลังจากนั้นก็กลับขึ้นมาใหม่
  • 9:33 - 9:35
    และสิ่งที่พวกเราพบก็คือ
  • 9:35 - 9:38
    จริงๆแล้ว มาร์ค ชาร์กาล เป็นนักศิลปะชาวยิว
  • 9:38 - 9:40
    ในนาซีเยอรมัน
  • 9:40 - 9:42
    ความผิดปกติเหล่านี้
  • 9:42 - 9:44
    ค่อนข้างเห็นได้ชัด
  • 9:44 - 9:47
    พวกเราไม่จำเป็นต้องรู้มาก่อนว่าใครถูกเซ็นเซอร์
  • 9:47 - 9:49
    เราสามารถสรุปได้จาก
  • 9:49 - 9:51
    ความผิดปกติพื้นฐานเหล่านี้
  • 9:51 - 9:53
    ซึ่งก็เป็นวิธีที่ง่ายมาก
  • 9:53 - 9:55
    เอาล่ะครับ ความคาดหวังที่เป็นเหตุเป็นผล
  • 9:55 - 9:57
    ก็คือชื่อเสียงของใครบางคนในช่วงเวลาหนึ่งๆ
  • 9:57 - 9:59
    ไม่ควรจะต่างจากช่วงก่อนหน้าหรือ
  • 9:59 - 10:01
    หลังจากนั้นมาก
  • 10:01 - 10:03
    และนั่นเป็นสิ่งที่พวกเราหวังไว้
  • 10:03 - 10:06
    และเราได้ลองเปรียบเทียบคนที่พวกเราเฝ้าสังเกตการณ์
  • 10:06 - 10:08
    ลองแยกแยะข้อมูลอย่างละเอียด
  • 10:08 - 10:10
    เพื่อยกประเด็นที่เราเรียกว่า "ดัชนีความต่าง"
  • 10:10 - 10:13
    เมื่อไหร่ที่ดัชนีตัวนั้นอยู่ต่ำมากๆ
  • 10:13 - 10:15
    หมายความว่าคุณอาจถูกเซ็นเซอร์ไว้
  • 10:15 - 10:18
    และเมื่อไหร่ที่มันสูงเกิน หมายถึงคุณอาจได้รับการประชาสัมพันธ์
  • 10:19 - 10:21
    JM: จนถึงขณะนี้เชื่อว่่าคุณอาจรู้แล้ว
  • 10:21 - 10:24
    การกระจายอยู่ของดัชนีความต่างของประชากร
  • 10:24 - 10:26
    ตัวอย่างเช่น ในนี้
  • 10:26 - 10:28
    ดัชนีนี้เป็นความต่างของผู้คน 5,000 คน
  • 10:28 - 10:30
    ที่หยิบยกมาจากหนังสืออังกฤษที่ไม่ได้ถูกเซ็นเซอร์ใดๆ
  • 10:30 - 10:32
    จะอยู่ในแบบที่เกาะกลุ่มเหนียวแน่นตรงกลาง
  • 10:32 - 10:34
    สิ่งที่ึคุณคาดหวังไว้จะเป็นสิ่งที่คุณสังเกตการณ์
  • 10:34 - 10:36
    นี่เป็นการกระจายตัวในหนังสือเยอรมัน
  • 10:36 - 10:38
    ต่างกันมาก มันโอนเอียงไปทางซ้าย
  • 10:38 - 10:41
    ผู้คนเอ่ยถึงมันน้้อยกว่าที่เป็นอยู่ประมาณ 2 เท่า
  • 10:41 - 10:43
    แต่ที่สำคัญกว่านั้นคือ การกระจายออกเป็นวงกว้าง
  • 10:43 - 10:46
    มีผู้คนจำนวนไม่น้อยที่ประจำอยู่ฝั่งซ้ายมือ
  • 10:46 - 10:49
    ถูกพูดถึงน้อยกว่าที่ควรจะเป็นกว่าสิบเท่า
  • 10:49 - 10:51
    แต่ผู้คนทางฝั่งขวามือ
  • 10:51 - 10:53
    มีแนวโน้มจะได้ประโยชน์จากการประชาสัมพันธ์
  • 10:53 - 10:56
    ภาพนี้เป็นรูปแบบเซ็นเซอร์มาตรฐานในสถิติเรา
  • 10:56 - 10:58
    ELA: ฉะนั้นวัฒนธรรมศาสตร์
  • 10:58 - 11:00
    ก็คือชื่อที่เราใช้เรียกวิธีนี้
  • 11:00 - 11:02
    คล้ายๆกับจีโนมศาสตร์
  • 11:02 - 11:04
    ต่างกันแค่จีโนมศาสตร์เป็นมุมมองของศาสตร์ชีววิทยา
  • 11:04 - 11:07
    ในโลกที่เป็นผลจากพื้นฐานของจีโนมมนุษย์
  • 11:07 - 11:09
    วัฒนธรรมศาสตร์ก็คล้ายๆกัน
  • 11:09 - 11:12
    มันเป็นโปรแกรมวิเคราะห์ชุดข้อมูลขนาดใหญ่
  • 11:12 - 11:14
    ที่ใช้ศึกษาวัฒนธรรมมนุษย์
  • 11:14 - 11:16
    แทนที่จะเป็นมุมมองทางฝั่งจีโนม
  • 11:16 - 11:19
    แต่เป็นมุมมองจากข้อมูลบันทึกประวัติศาสตร์ดิจิทัล
  • 11:19 - 11:21
    วัฒนธรรมศาสตร์ดีตรงที่
  • 11:21 - 11:23
    ทุกๆคนสามารถลงมือทำได้เอง
  • 11:23 - 11:25
    ทำไมทุกคนถึงทำได้น่ะหรือ?
  • 11:25 - 11:27
    ก็เพราะชายสามคนนี้
  • 11:27 - 11:30
    "จอน ออร์วอนท์" "แมต เกรย์" และ "วิลล์ บร๊อคแมน" จากกูเกิล
  • 11:30 - 11:32
    ได้เล็งเห็นประโยชน์ของตัวช่วย Ngram Viewer
  • 11:32 - 11:34
    และพวกเขาเห็นตรงกันว่า "มันสนุกสุดยอด
  • 11:34 - 11:37
    พวกเราต้องทำให้ทุกคนได้ลองใช้บ้าง"
  • 11:37 - 11:39
    จากนั้นมาสองอาทิตย์ ก่อนที่จะทำรายงานเสร็จ
  • 11:39 - 11:42
    พวกเขาเขียนเว็ป Ngram Viewer ในแบบที่ใครก็เข้าใช้ได้
  • 11:42 - 11:45
    ฉะนั้นคุณสามารถพิมพ์คำหรือวลีใดๆก็ได้ที่คุณสนใจ
  • 11:45 - 11:47
    และสำรวจ N-gram ของมันได้ทันที
  • 11:47 - 11:49
    และสามารถเปิดตัวอย่างของหนังสือทั้งหลาย
  • 11:49 - 11:51
    ที่มี n-gram ปรากฏอยู่
  • 11:51 - 11:53
    JM: ฟังค์ชั่นนี้ถูกใช้เป็นล้านครั้งในวันเปิดตัว
  • 11:53 - 11:55
    และตัวอย่างนี้ถือเป็นหนึ่งในจำนวนคำค้นที่ดีที่สุด
  • 11:55 - 11:58
    ผู้คนอยากทำตัวเองให้ดีที่สุด เริ่มต้นจากสิ่งดีที่สุด
  • 11:58 - 12:01
    แต่สำหรับศตวรรษที่ 18 กลับไม่มีใครสนใจคำๆนี้เท่าไหร่
  • 12:01 - 12:04
    พวกเขาไม่ได้อยาก "Best" ที่สุด พวกเขาอยาก "Beft" ที่สุด
  • 12:04 - 12:07
    สิ่งที่เกิดขึ้นก็คือ แน่นอนว่ามันเป็นเพียงแค่ความผิดเล็กๆน้อยๆ
  • 12:07 - 12:09
    ไม่ใช่ความอยากโดดเด่น
  • 12:09 - 12:12
    เป็นแค่การเขียนตัว S อีกแบบที่คล้ายกับตัว F
  • 12:12 - 12:15
    แต่สำหรับตอนนี้ กูเกิลยังไม่หยิบยกตัวนี้ขึ้นมาจริงจัง
  • 12:15 - 12:18
    แต่พวกเราได้รายงานเรื่องนี้ในบทความที่พวกเราเขียนขึ้น
  • 12:18 - 12:20
    เพื่อเตือนตัวเองเท่านั้น
  • 12:20 - 12:22
    ถึงแม้ว่ามันจะสนุกมากก็ตาม
  • 12:22 - 12:24
    แต่ตอนที่คุณแปลกราฟเหล่านี้ออกมา คุณต้องระวังให้มาก
  • 12:24 - 12:27
    และใช้วิทยาศาสตร์เป็นพื้นฐาน
  • 12:27 - 12:30
    ELA: ผู้คนใช้สิ่งนี้เล่นสนุกในรูปแบบต่างๆ
  • 12:30 - 12:37
    (หัวเราะ)
  • 12:37 - 12:39
    จริงๆแล้วพวกเราแทบไม่ต้องพูดเลย
  • 12:39 - 12:42
    แค่โชว์สไลด์เหล่านี้แล้วอยู่กันเงียบๆ
  • 12:42 - 12:45
    คนๆนี้สนใจเรื่องประวัติศาสตร์ของความไม่พอใจ
  • 12:45 - 12:48
    ความไม่พอใจมีหลากหลายประเภท
  • 12:48 - 12:51
    หากคุณเดินสะดุด จะอุทานออกมาเป็น "อา" สระ "า" ตัวเดียว
  • 12:51 - 12:53
    แต่ถ้าโลกกำลังจะถูกเอเลี่ยนโวกอนทำลาย
  • 12:53 - 12:55
    เพื่อเว้นความห่างระหว่างดวงดาว
  • 12:55 - 12:57
    คุณจะอุทานเป็น "อาาาาาาาา" สระ "า" 8 ตัว
  • 12:57 - 12:59
    คนๆนี้ศึกษาเกี่ยวกับ "อา" ทั้งหลาย
  • 12:59 - 13:01
    ตั้งแต่ "า" หนึ่งตัวจนถึงแปดตัว
  • 13:01 - 13:03
    ได้ความว่า
  • 13:03 - 13:05
    "อา" ที่ความถี่ที่น้อยกว่า
  • 13:05 - 13:08
    จะเป็นเหตุการณ์ที่กดดันกว่า
  • 13:08 - 13:11
    ยกเว้นในช่วงต้นศตวรรษ 1980
  • 13:11 - 13:13
    พวกเราคิดว่าเรแกนจะต้องมีเอี่ยวกับข้อมูลนี้แน่ๆ
  • 13:13 - 13:15
    (หัวเราะ)
  • 13:15 - 13:18
    JM: มีการใช้ข้อมูลนี้ไม่น้อยทีเดียว
  • 13:18 - 13:21
    สรุปแล้วตอนนี้ประวัติศาสตร์ได้บันทึกอยู่ในโลกดิจิทัลแล้ว
  • 13:21 - 13:23
    กูเกิลได้เริ่มทำหนังสือเป็นดิจิทัลประมาณ 15 ล้านเล่ม
  • 13:23 - 13:25
    ซึ่งเป็นเพียง 12 เปอร์เซนต์ของหนังสือทั้งหมดที่เคยตีพิมพ์
  • 13:25 - 13:28
    เป็นเพียงเสี้ยวหนึ่งของวัฒนธรรมมนุษย์เท่านั้น
  • 13:28 - 13:31
    ในวัฒนธรรมเรายังมีอีกมากมายกว่านี้ ไหนจะมีหนังสือที่เขียนด้วยลายมืออีก ไหนจะหนังสือพิมพ์
  • 13:31 - 13:33
    หรือพวกที่ไม่ได้อยู่ในรูปแบบตัวหนังสือ เช่น ศิลปะและรูปภาพต่างๆ
  • 13:33 - 13:35
    สิ่งเหล่านี้จะเกิดขึ้นบนคอมพิวเตอร์ของพวกเรา
  • 13:35 - 13:37
    คอมพิวเตอร์จากทั่วทุกมุมโลก
  • 13:37 - 13:40
    และเมื่อมันเกิดขึ้นแล้ว มันจะเปลี่ยนแปลงรูปแบบที่เราเคย
  • 13:40 - 13:42
    ทำความเข้าใจวัฒนธรรมมนุษย์ในอดีต ปัจจุบัน และอนาคต
  • 13:42 - 13:44
    ขอบคุณมากครับ
  • 13:44 - 13:47
    (ปรบมือ)
Title:
เราเรียนรู้อะไรบ้างจากหนังสือ 5 ล้านเล่ม
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

คุณได้ลองเล่น Ngram Viewer ที่พัฒนาโดย Google Lab บ้างแล้วหรือยัง? มันเป็นเครื่องมือที่ทำให้คุณค้นหาคำหรือความคิดต่างๆ จากฐานข้อมูลที่รวบรวมจากหนังสือกว่า 5 ล้านเล่มที่ได้ตีพิมพ์ในหลายร้อยปีที่ผ่านมา เอเรส ลีเบอร์แมน เอเด็น และฌ็อง แบพติสต์ มิเชลจะมาแสดงวิธีใช้และเกร็ดเล็กๆ ที่เราเรียนรู้ได้จาก 5 แสนล้านคำพูด

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Phatra Sae-ting added a translation

Thai subtitles

Revisions