1 00:00:00,000 --> 00:00:02,000 Erez Lieberman Aiden : Mọi người đều biết 2 00:00:02,000 --> 00:00:05,000 một bức ảnh đáng giá một nghìn từ. 3 00:00:07,000 --> 00:00:09,000 Nhưng chúng tôi, tại Harvard 4 00:00:09,000 --> 00:00:12,000 luôn thắc mắc liệu điều đó có thật sự đúng. 5 00:00:12,000 --> 00:00:14,000 (Tiếng cười) 6 00:00:14,000 --> 00:00:18,000 Vì vậy chúng tôi tập hợp một đội những chuyên gia, 7 00:00:18,000 --> 00:00:20,000 từ khắp Harvard , MIT, 8 00:00:20,000 --> 00:00:23,000 Từ điển Di sản Mỹ, Bách khoa toàn thư Britannica 9 00:00:23,000 --> 00:00:25,000 và cả nhà tài trợ tự hào của chúng tôi, 10 00:00:25,000 --> 00:00:28,000 Google. 11 00:00:28,000 --> 00:00:30,000 Chúng tôi đã ngẫm nghĩ về điều này 12 00:00:30,000 --> 00:00:32,000 trong khoảng bốn năm. 13 00:00:32,000 --> 00:00:37,000 Và chúng tôi đã đi đến một kết luận đầy sửng sốt. 14 00:00:37,000 --> 00:00:40,000 Xin thưa với quí vị rằng, một bức tranh không đáng một nghìn từ. 15 00:00:40,000 --> 00:00:42,000 Thực tế, chúng tôi đã tìm thấy bức tranh 16 00:00:42,000 --> 00:00:47,000 đáng giá 500 nghìn triệu từ! 17 00:00:47,000 --> 00:00:49,000 Jean-Baptiste Michel: Vậy làm thế nào chúng tôi lại đi đến kết luận này? 18 00:00:49,000 --> 00:00:51,000 Erez và tôi đã suy nghĩ cách 19 00:00:51,000 --> 00:00:53,000 nắm bắt được bức tranh toàn cảnh về nền văn hoá nhân loại 20 00:00:53,000 --> 00:00:56,000 và lịch sử loài người thay đổi qua thời gian. 21 00:00:56,000 --> 00:00:58,000 Có rất nhiều cuốn sách được viết ra trong nhiều năm. 22 00:00:58,000 --> 00:01:00,000 Vậy nên chúng tôi nghĩ rằng, vậy cách tốt nhất để học từ chúng 23 00:01:00,000 --> 00:01:02,000 là đọc hết hàng triệu cuốn sách này. 24 00:01:02,000 --> 00:01:05,000 Tất nhiên, nếu có thang đo về độ hoành tráng của dự án này, 25 00:01:05,000 --> 00:01:08,000 thì nó hoàn toàn, hoàn toàn hoành tráng. 26 00:01:08,000 --> 00:01:10,000 Nhưng vấn đề là còn có một trục ngang cho việc đánh giá này, 27 00:01:10,000 --> 00:01:12,000 đó là đánh giá về mức độ thực tế. 28 00:01:12,000 --> 00:01:14,000 Thì điều này rất rất ít tính thực tế. 29 00:01:14,000 --> 00:01:17,000 (Vỗ tay) 30 00:01:17,000 --> 00:01:20,000 Thế là người ta có khuynh hướng tìm cách khác, 31 00:01:20,000 --> 00:01:22,000 đó là chọn ra một số nguồn sách và đọc chúng thật cẩn thận. 32 00:01:22,000 --> 00:01:24,000 Cách này cực kì thực tiễn nhưng không hoành tráng cho lắm. 33 00:01:24,000 --> 00:01:27,000 Điều mà chúng ta muốn thật sự 34 00:01:27,000 --> 00:01:30,000 là một cách thức vừa hoành tráng vừa thực tiễn. 35 00:01:30,000 --> 00:01:33,000 Và hoá ra có một công ty gọi là Google 36 00:01:33,000 --> 00:01:35,000 đã bắt đầu một dự án số hoá từ một vài năm trước 37 00:01:35,000 --> 00:01:37,000 khiến ta thực hiện được cách thức đó. 38 00:01:37,000 --> 00:01:39,000 Họ đã số hoá hàng triệu cuốn sách. 39 00:01:39,000 --> 00:01:42,000 Điều đó có nghĩa là, ta có thể dùng máy móc 40 00:01:42,000 --> 00:01:44,000 để đọc tất cả các cuốn sách trong một cú nhấn chuột. 41 00:01:44,000 --> 00:01:47,000 Cách này rất thực dụng và cực kì hoành tráng. 42 00:01:48,000 --> 00:01:50,000 ELA: Để tôi nói cho các bạn biết một chút về nơi những cuốn sách đó bắt nguồn. 43 00:01:50,000 --> 00:01:53,000 Từ thời xa xưa đã có những nhà sáng tác. 44 00:01:53,000 --> 00:01:56,000 Những nhà sáng tác này nỗ lực viết những cuốn sách. 45 00:01:56,000 --> 00:01:58,000 Và việc này trở nên khá dễ dàng hơn 46 00:01:58,000 --> 00:02:00,000 nhờ sự phát triển của công nghệ in ấn vài thế kỉ trước. 47 00:02:00,000 --> 00:02:03,000 Từ đó, các nhà sáng tác đã có được 48 00:02:03,000 --> 00:02:05,000 129 triệu cơ hội 49 00:02:05,000 --> 00:02:07,000 xuất bản những cuốn sách. 50 00:02:07,000 --> 00:02:09,000 Bây giờ nếu những cuốn sách đó không lạc vào lịch sử, 51 00:02:09,000 --> 00:02:11,000 thì chúng sẽ ở đâu đó trong một thư viện nào đó, 52 00:02:11,000 --> 00:02:14,000 và nhiều trong số đó được lưu trữ 53 00:02:14,000 --> 00:02:16,000 và số hoá bởi Google, 54 00:02:16,000 --> 00:02:18,000 nơi đến nay đã quét được 15 triệu cuốn sách. 55 00:02:18,000 --> 00:02:21,000 Bây giờ khi Google số hoá một cuốn sách, họ sẽ đưa nó vào một định dạng thật đẹp. 56 00:02:21,000 --> 00:02:23,000 Chúng ta có dữ liệu, thêm vào đó chúng ta có siêu dữ liệu. 57 00:02:23,000 --> 00:02:26,000 Chúng ta có thông tin về những thứ như là cuốn sách đó được xuất bản khi nào, 58 00:02:26,000 --> 00:02:28,000 ai là tác giả, nó được xuất bản khi nào. 59 00:02:28,000 --> 00:02:31,000 Và điều chúng tôi làm là lướt qua tất cả những bộ dữ liệu đó 60 00:02:31,000 --> 00:02:35,000 và loại bỏ hết những cái không phải là những dữ liệu chất lượng nhất. 61 00:02:35,000 --> 00:02:37,000 Cái còn lại là 62 00:02:37,000 --> 00:02:40,000 một tập hợp của 5 triệu cuốn sách. 63 00:02:40,000 --> 00:02:43,000 500 tỉ từ, 64 00:02:43,000 --> 00:02:45,000 một chuỗi kí tự dài hơn hàng ngàn lần 65 00:02:45,000 --> 00:02:48,000 hệ gien con người -- 66 00:02:48,000 --> 00:02:50,000 một bản chữ mà khi viết ra 67 00:02:50,000 --> 00:02:52,000 sẽ dài bằng từ đây đi đến mặt trăng rồi vòng lại 68 00:02:52,000 --> 00:02:54,000 hơn 10 lần -- 69 00:02:54,000 --> 00:02:58,000 một mảnh thực của hệ gien văn hoá cuả chúng ta. 70 00:02:58,000 --> 00:03:00,000 Tất nhiên, điều chúng tôi đã làm 71 00:03:00,000 --> 00:03:03,000 khi đối diện với một sự phóng đại tàn bạo như thế ... 72 00:03:03,000 --> 00:03:05,000 (Tiếng cười) 73 00:03:05,000 --> 00:03:08,000 là điều mà bất kì nhà nghiên cứu đáng kính nào 74 00:03:08,000 --> 00:03:11,000 cũng sẽ làm. 75 00:03:11,000 --> 00:03:13,000 Chúng tôi trích ra một trang trong chuỗi XKCD 76 00:03:13,000 --> 00:03:15,000 và chúng tôi nói "Khoan đã. 77 00:03:15,000 --> 00:03:17,000 Chúng tôi sẽ thử thí nghiệm chúng." 78 00:03:17,000 --> 00:03:19,000 (Tiếng cười) 79 00:03:19,000 --> 00:03:21,000 JM : Tất nhiên, chúng tôi đã nghĩ là 80 00:03:21,000 --> 00:03:23,000 trước tiên hãy thử đưa dữ liệu ra 81 00:03:23,000 --> 00:03:25,000 cho người ta thí nghiệm. 82 00:03:25,000 --> 00:03:27,000 Và chúng tôi suy nghĩ, dữ liệu nào có thể đem ra đây? 83 00:03:27,000 --> 00:03:29,000 Tất nhiên, các bạn muốn lấy những cuốn sách 84 00:03:29,000 --> 00:03:31,000 và tung ra hết nguyên bản của 5 triệu cuốn sách. 85 00:03:31,000 --> 00:03:33,000 Google, cụ thể là Jon Orwant, 86 00:03:33,000 --> 00:03:35,000 đã bảo cho chúng tôi một công thức mà chúng tôi nên nghĩ tới. 87 00:03:35,000 --> 00:03:38,000 Chúng tôi có 5 triệu cuốn sách, tức bằng với năm triệu tác giả 88 00:03:38,000 --> 00:03:41,000 và năm triệu đơn kiện cho một cuộc kiện tụng khổng lồ. 89 00:03:41,000 --> 00:03:43,000 Vì thế, dù cách này rất rất hoành tráng, 90 00:03:43,000 --> 00:03:46,000 nhưng một lần nữa lại cực kì cực kì không thực tế. 91 00:03:46,000 --> 00:03:48,000 (Tiếng cười) 92 00:03:48,000 --> 00:03:50,000 Một lần nữa chúng tôi lại nhượng bộ 93 00:03:50,000 --> 00:03:53,000 Chúng tôi đã thử cách thực tế nhất nhưng ít hoành tráng 94 00:03:53,000 --> 00:03:55,000 Chúng tôi nói rằng, được rồi, thay vì phát hành nguyên cả văn bản, 95 00:03:55,000 --> 00:03:57,000 chúng tôi sẽ tung ra thống kê về những quyển sách đó. 96 00:03:57,000 --> 00:03:59,000 Hãy lấy một ví dụ cụm từ "Tia sáng hạnh phúc" 97 00:03:59,000 --> 00:04:01,000 Đây là cụm bốn từ; chúng tôi gọi đó là một four-gram. 98 00:04:01,000 --> 00:04:03,000 Chúng tôi sẽ cho các bạn biết một four-gram sẽ xuất hiện bao nhiêu lần 99 00:04:03,000 --> 00:04:05,000 trong những cuốn sách năm 1801, 1802, 1803, 100 00:04:05,000 --> 00:04:07,000 cho đến tận năm 2008. 101 00:04:07,000 --> 00:04:09,000 Qua đó chúng ta sẽ có được một chuỗi thời gian 102 00:04:09,000 --> 00:04:11,000 cho ta biết một câu nhất định được dùng với tần suất thế nào qua thời gian. 103 00:04:11,000 --> 00:04:14,000 Chúng tôi làm như thế với tất cả từ ngữ và nhóm từ trong những cuốn sách đó, 104 00:04:14,000 --> 00:04:17,000 kết quả chúng tôi có được một bảng khổng lồ của hai tỉ đường 105 00:04:17,000 --> 00:04:19,000 cho chúng tôi thấy cách nền văn hoá thay đổi qua thời gian. 106 00:04:19,000 --> 00:04:21,000 ELA: Chúng tôi gọi hai tỉ đường đó là 107 00:04:21,000 --> 00:04:23,000 hai tỉ n-gram. 108 00:04:23,000 --> 00:04:25,000 Chúng cho ta biết điều gì ư? 109 00:04:25,000 --> 00:04:27,000 Đó là mỗi n-gram đo xu hướng của nền văn hoá. 110 00:04:27,000 --> 00:04:29,000 Để tôi cho bạn một ví dụ. 111 00:04:29,000 --> 00:04:31,000 Thử giả định rằng tôi đang phát triển 112 00:04:31,000 --> 00:04:33,000 Mai tôi muốn nói cho các bạn biết tôi đã phát triển thế nào. 113 00:04:33,000 --> 00:04:36,000 Và có lẽ tôi sẽ nói là "Yesterday, I throve" ("Ngày hôm qua, tôi đã phát triển") 114 00:04:36,000 --> 00:04:39,000 Hay nói cách khác rằng " Yesterday, I thrived." ("Ngày hôm qua, tôi đã phát triển") 115 00:04:39,000 --> 00:04:42,000 Tôi nên nói theo cách nào? 116 00:04:42,000 --> 00:04:44,000 Làm sao biết được? 117 00:04:44,000 --> 00:04:46,000 Nếu là sáu tháng trước 118 00:04:46,000 --> 00:04:48,000 tính nghệ thuật trong lĩnh vực này 119 00:04:48,000 --> 00:04:50,000 là chẳng hạn bạn sẽ 120 00:04:50,000 --> 00:04:52,000 tìm đến nhà tâm lý học có bộ tóc tuyệt vời này 121 00:04:52,000 --> 00:04:54,000 và nói rằng, 122 00:04:54,000 --> 00:04:57,000 "Steve, anh là chuyên gia về động từ bất quy tắc. 123 00:04:57,000 --> 00:04:59,000 Tôi nên chia động từ đó theo cách nào?" 124 00:04:59,000 --> 00:05:01,000 Và ông ta sẽ nói với bạn rằng " Phần lớn người ta chia động từ đó thành "thrived", 125 00:05:01,000 --> 00:05:04,000 nhưng một vài người dùng "throve"." 126 00:05:04,000 --> 00:05:06,000 Ít nhiều bạn cũng biết rằng 127 00:05:06,000 --> 00:05:09,000 nếu bạn quay ngược lại 200 năm trước 128 00:05:09,000 --> 00:05:12,000 và hỏi nhà chính trị có bộ tóc tuyệt vời ngang ngửa này 129 00:05:12,000 --> 00:05:15,000 (Tiếng cười) 130 00:05:15,000 --> 00:05:17,000 "Tom, tôi nên nói thế nào?" 131 00:05:17,000 --> 00:05:19,000 Ông ta sẽ nói rằng " Ở thời kì của tôi, hầu hết người ta dùng "throve", 132 00:05:19,000 --> 00:05:22,000 nhưng một số dùng "thrived"." 133 00:05:22,000 --> 00:05:24,000 Giờ tôi sẽ cho các bạn xem dữ liệu sống 134 00:05:24,000 --> 00:05:28,000 Hai hàng trích ra từ bảng của hai tỷ dữ liệu kia 135 00:05:28,000 --> 00:05:30,000 Cái bạn đang nhìn thấy là tần số xuất hiện từng năm 136 00:05:30,000 --> 00:05:33,000 của "thrived" và "throve" 137 00:05:34,000 --> 00:05:36,000 Đây chỉ là hai 138 00:05:36,000 --> 00:05:39,000 trong số hai tỉ hàng. 139 00:05:39,000 --> 00:05:41,000 Vì thế toàn bộ dữ liệu này 140 00:05:41,000 --> 00:05:44,000 sẽ hoành tráng hơn cả tỉ lần cái slide này. 141 00:05:44,000 --> 00:05:46,000 (Tiếng cười) 142 00:05:46,000 --> 00:05:50,000 (Vỗ tay) 143 00:05:50,000 --> 00:05:52,000 JM: Vậy có bao nhiêu bức tranh khác đáng 500 tỉ từ ngữ. 144 00:05:52,000 --> 00:05:54,000 Ví dụ như cái này 145 00:05:54,000 --> 00:05:56,000 Nếu bạn chọn dịch cúm, 146 00:05:56,000 --> 00:05:58,000 bạn sẽ thấy những thời điểm cao trào mà bạn biết 147 00:05:58,000 --> 00:06:01,000 khi mà những dịch cúm lớn tiêu diệt con người khắp nơi. 148 00:06:01,000 --> 00:06:04,000 ELA: Nếu bạn vẫn chưa tin 149 00:06:04,000 --> 00:06:06,000 mực nước biển đang tăng, 150 00:06:06,000 --> 00:06:09,000 khí CO2 và nhiệt độ trái đất cũng thế. 151 00:06:09,000 --> 00:06:12,000 JM: Các bạn chắc cũng muốn xem cái n-gram này, 152 00:06:12,000 --> 00:06:15,000 nó nói cho Nietzsche biết rằng chúa không chết, 153 00:06:15,000 --> 00:06:18,000 dù bạn có lẽ sẽ đồng ý rằng ông ta cần một nhà báo giỏi hơn. 154 00:06:18,000 --> 00:06:20,000 (Tiếng cười) 155 00:06:20,000 --> 00:06:23,000 ELA : Bạn có thể nắm được một số khái niệm khá trừu tượng đại loại thế này. 156 00:06:23,000 --> 00:06:25,000 Để tôi kể cho bạn nghe về lịch sử 157 00:06:25,000 --> 00:06:27,000 của năm 1950. 158 00:06:27,000 --> 00:06:29,000 Phần lớn trong lịch sử 159 00:06:29,000 --> 00:06:31,000 chẳng ai đếm xỉa gì về năm 1950 cả 160 00:06:31,000 --> 00:06:33,000 Năm 1700, 1800, 1900, 161 00:06:33,000 --> 00:06:36,000 chẳng ai quan tâm. 162 00:06:37,000 --> 00:06:39,000 Trong suốt những năm 30 và 40, 163 00:06:39,000 --> 00:06:41,000 cũng chẳng ai quan tâm . 164 00:06:41,000 --> 00:06:43,000 Bất ngờ vào giữa những năm 40 165 00:06:43,000 --> 00:06:45,000 bắt đầu có một chút động đậy. 166 00:06:45,000 --> 00:06:47,000 Người ta bắt đầu nhận ra 1950 sắp đến 167 00:06:47,000 --> 00:06:49,000 và có thể nó sẽ rất hoành tráng! 168 00:06:49,000 --> 00:06:52,000 (Tiếng cười) 169 00:06:52,000 --> 00:06:55,000 Nhưng không có bất cứ thứ gì có thể làm cho người ta chú ý đến năm 1950 170 00:06:55,000 --> 00:06:58,000 như chính năm 1950. 171 00:06:58,000 --> 00:07:01,000 (Tiếng cười) 172 00:07:01,000 --> 00:07:03,000 Người ta đi lại xung quanh, bị ám ảnh. 173 00:07:03,000 --> 00:07:05,000 Họ không thể dừng nói 174 00:07:05,000 --> 00:07:08,000 về tất cả những thứ họ làm trong năm 1950 175 00:07:08,000 --> 00:07:11,000 tất cả những thứ họ đang định làm trong năm 1950 176 00:07:11,000 --> 00:07:16,000 tất cả những giấc mơ họ muốn đạt được trong năm 1950. 177 00:07:16,000 --> 00:07:18,000 Thực tế 1950 tuyệt vời đến nỗi 178 00:07:18,000 --> 00:07:20,000 nhiều năm sau đó, 179 00:07:20,000 --> 00:07:23,000 người ta vẫn cứ nói đến những điều kinh ngạc đã xảy ra. 180 00:07:23,000 --> 00:07:25,000 trong năm 51, 52, 53. 181 00:07:25,000 --> 00:07:27,000 Cuối cùng thì đến năm 1954, 182 00:07:27,000 --> 00:07:29,000 có người mới thức tỉnh và nhận ra rằng 183 00:07:29,000 --> 00:07:33,000 1950 đã qua lâu rồi! 184 00:07:33,000 --> 00:07:35,000 (Tiếng cười) 185 00:07:35,000 --> 00:07:37,000 Và cứ như thế, bong bóng nổ! 186 00:07:37,000 --> 00:07:39,000 (Tiếng cười) 187 00:07:39,000 --> 00:07:41,000 Câu chuyện của năm 1950 188 00:07:41,000 --> 00:07:43,000 là câu chuyện của từng năm mà chúng ta lưu lại được, 189 00:07:43,000 --> 00:07:46,000 với một chút sự biến hóa nhỏ bởi giờ chúng ta có những biểu đồ hay ho này 190 00:07:46,000 --> 00:07:49,000 Và bởi vì chúng ta có những biểu đồ hay ho này, chúng ta có thể đo đạc nhiều thứ 191 00:07:49,000 --> 00:07:51,000 Chúng ta có thể hỏi rằng ""Bong bóng nổ" nhanh như thế nào?" 192 00:07:51,000 --> 00:07:54,000 Và chúng ta có thể đo đạc điều đó một cách chính xác. 193 00:07:54,000 --> 00:07:57,000 Các phương trình được tính toán, các đồ thị được vẽ ra, 194 00:07:57,000 --> 00:07:59,000 và kết quả cuối cùng 195 00:07:59,000 --> 00:08:02,000 là chúng ta phát hiện ra "bong bóng nổ" ngày càng nhanh 196 00:08:02,000 --> 00:08:04,000 qua từng năm. 197 00:08:04,000 --> 00:08:09,000 Chúng ta mất dần sự quan tâm đến quá khứ một cách nhanh chóng. 198 00:08:09,000 --> 00:08:11,000 JM: Bây giờ chúng tôi sẽ chia sẻ một vài lời khuyên về sự nghiệp cho bạn. 199 00:08:11,000 --> 00:08:13,000 Cho những ai muốn nổi tiếng, 200 00:08:13,000 --> 00:08:15,000 chúng ta có thể học từ 25 hình tượng chính trị gia nổi tiếng nhất, 201 00:08:15,000 --> 00:08:17,000 các nhà sáng tác, diễn viên, v.v.v 202 00:08:17,000 --> 00:08:20,000 Vì vậy nếu bạn muốn nổi tiếng sớm, bạn nên làm diễn viên, 203 00:08:20,000 --> 00:08:22,000 bởi tiếng tăm của bạn sẽ ngày càng tăng cuối những năm 20 của bạn -- 204 00:08:22,000 --> 00:08:24,000 bạn vẫn còn trẻ, điều đó thật tuyêt. 205 00:08:24,000 --> 00:08:26,000 Nếu bạn có thể đợi một chút, bạn nên làm tiểu thuyết gia, 206 00:08:26,000 --> 00:08:28,000 bởi rồi bạn sẽ đầy tiếng tăm 207 00:08:28,000 --> 00:08:30,000 như Mark Twain, cực kì nổi tiếng. 208 00:08:30,000 --> 00:08:32,000 Nhưng nếu bạn muốn vươn đến đỉnh cao nhất, 209 00:08:32,000 --> 00:08:34,000 bạn đừng hài lòng sớm 210 00:08:34,000 --> 00:08:36,000 mà hãy trở thành nhà chính trị. 211 00:08:36,000 --> 00:08:38,000 Bạn sẽ trở nên nổi tiếng cuối những năm 50 tuổi 212 00:08:38,000 --> 00:08:40,000 và sẽ càng nổi tiếng hơn sau đó 213 00:08:40,000 --> 00:08:43,000 Những nhà khoa học cũng trở nên nổi tiếng khi họ già đi. 214 00:08:43,000 --> 00:08:45,000 Ví dụ như là nhà sinh học, nhà vật lý học 215 00:08:45,000 --> 00:08:47,000 có khuynh hướng nổi tiếng gần bằng diễn viên. 216 00:08:47,000 --> 00:08:50,000 Có một sai lầm mà bạn không nên phạm phải là trở thành nhà toán học. 217 00:08:50,000 --> 00:08:52,000 (Tiếng cười) 218 00:08:52,000 --> 00:08:54,000 Nếu bạn làm điều đó 219 00:08:54,000 --> 00:08:57,000 bạn có thể sẽ nghĩ rằng "Thật tuyệt. Mìng sẽ cố gắng hết sức trong những năm tuổi 20." 220 00:08:57,000 --> 00:08:59,000 Nhưng đoán thử đi, làm gì có ai quan tâm. 221 00:08:59,000 --> 00:09:02,000 (Tiếng cười) 222 00:09:02,000 --> 00:09:04,000 ELA: Còn có nhiều ghi chú nghiêm túc hơn thế này 223 00:09:04,000 --> 00:09:06,000 trong những n-gram đó. 224 00:09:06,000 --> 00:09:08,000 Ví dụ, đây là đường phát triển của Marc Chagall, 225 00:09:08,000 --> 00:09:10,000 một nghệ sĩ sinh năm 1887. 226 00:09:10,000 --> 00:09:13,000 Và nó giống con đường phát triển bình thường của một người nổi tiếng. 227 00:09:13,000 --> 00:09:17,000 Ông ta càng ngày càng nổi tiếng, 228 00:09:17,000 --> 00:09:19,000 trừ khi bạn nhìn vào nước Đức. 229 00:09:19,000 --> 00:09:21,000 Nếu bạn nhìn vào nước Đức, bạn sẽ thấy một thứ hoàn toàn lạ 230 00:09:21,000 --> 00:09:23,000 một thứ bạn chưa bao giờ thấy, 231 00:09:23,000 --> 00:09:25,000 đó là sự cực kì nổi tiếng của ông ấy 232 00:09:25,000 --> 00:09:27,000 và rồi bất ngờ tụt dốc thảm hại, 233 00:09:27,000 --> 00:09:30,000 cho đến tận cùng trong những năm 1933 và 1945 , 234 00:09:30,000 --> 00:09:33,000 rồi lại hồi phục danh tiếng sau đó. 235 00:09:33,000 --> 00:09:35,000 Dĩ nhiên là chúng ta nhận ra rằng 236 00:09:35,000 --> 00:09:38,000 sự thật thì Marc Chagall là một nghệ sĩ do thái 237 00:09:38,000 --> 00:09:40,000 của quốc xã Đức. 238 00:09:40,000 --> 00:09:42,000 Bây giờ, những dấu hiệu này 239 00:09:42,000 --> 00:09:44,000 thực sự rất chuẩn 240 00:09:44,000 --> 00:09:47,000 đến mức mà chúng ta không cần ai phải kiểm duyệt chúng. 241 00:09:47,000 --> 00:09:49,000 Chúng ta tự nhận ra sự việc 242 00:09:49,000 --> 00:09:51,000 bằng cách xử lý những dấu hiệu thật cơ bản. 243 00:09:51,000 --> 00:09:53,000 Đây là một trong những cách đơn giản. 244 00:09:53,000 --> 00:09:55,000 Chẳng hạn như một dự đoán hợp lý 245 00:09:55,000 --> 00:09:57,000 rằng danh tiếng trong một khoảng thời gian nhất định 246 00:09:57,000 --> 00:09:59,000 sẽ bằng trung bình của danh tiếng trước 247 00:09:59,000 --> 00:10:01,000 và sau đó chia ra. 248 00:10:01,000 --> 00:10:03,000 Đó là thứ chúng ta dự đoán. 249 00:10:03,000 --> 00:10:06,000 Rồi chúng ta so sánh nó với mức độ nổi tiếng chúng ta quan sát được. 250 00:10:06,000 --> 00:10:08,000 Chúng ta chia cái nó với mức độ dự đoán kia. 251 00:10:08,000 --> 00:10:10,000 để được cái gọi là "mức độ danh tiếng bị kìm hãm" 252 00:10:10,000 --> 00:10:13,000 Nếu mức độ danh tiếng bị kìm hãm rất rất nhỏ , 253 00:10:13,000 --> 00:10:15,000 thì bạn có lẽ đang bị kìm hãm. 254 00:10:15,000 --> 00:10:18,000 Nếu nó rất rất lớn, thì có lẽ bạn đang được lợi từ cơ quan tuyên truyền 255 00:10:19,000 --> 00:10:21,000 JM: Giờ bạn hãy nhìn vào 256 00:10:21,000 --> 00:10:24,000 sự phân phối của mức độ bị kìm hãm trên toàn dân số. 257 00:10:24,000 --> 00:10:26,000 Ví dụ ở đây -- 258 00:10:26,000 --> 00:10:28,000 mức độ danh tiếng bị kìm hãm này của 5000 người 259 00:10:28,000 --> 00:10:30,000 chọn ra trong những cuốn sách tiếng anh không có sự kìm hãm được biết đến -- 260 00:10:30,000 --> 00:10:32,000 nó sẽ như thế này, hầu như gần bằng 1. 261 00:10:32,000 --> 00:10:34,000 Điều bạn mong muốn đơn giản chính là điều bạn quan sát được. 262 00:10:34,000 --> 00:10:36,000 Đây là sự phân phối được thấy ở Đức -- 263 00:10:36,000 --> 00:10:38,000 rất khác, nó được dịch chuyển về bên trái. 264 00:10:38,000 --> 00:10:41,000 Người ta đã nói về nó ít hơn hai lần nó đáng được. 265 00:10:41,000 --> 00:10:43,000 Nhưng quan trọng hơn hết là sự phân phối này trải rộng hơn nhiều . 266 00:10:43,000 --> 00:10:46,000 Có nhiều người cuối cùng lại ở xa hơn về phía trái của sự phân phối này 267 00:10:46,000 --> 00:10:49,000 những người được ít hơn đến 10 lần danh tiếng mà họ đáng có. 268 00:10:49,000 --> 00:10:51,000 Nhưng đồng thời cũng có rất nhiều người ở xa phía bên phải 269 00:10:51,000 --> 00:10:53,000 họ dường như đang hưởng lợi từ giới tuyên truyền. 270 00:10:53,000 --> 00:10:56,000 Bức tranh này chính là dấu đóng của sự kiểm duyệt sách. 271 00:10:56,000 --> 00:10:58,000 ELA: Chúng tôi gọi phương pháp này 272 00:10:58,000 --> 00:11:00,000 là văn hoá học. 273 00:11:00,000 --> 00:11:02,000 Giống như di truyền học. 274 00:11:02,000 --> 00:11:04,000 Khác ở chỗ di truyền học là ống kính của sinh học 275 00:11:04,000 --> 00:11:07,000 qua cửa sổ nhìn vào chuỗi nền tảng trong hệ gen của con người. 276 00:11:07,000 --> 00:11:09,000 Văn hoá học cũng tương tự. 277 00:11:09,000 --> 00:11:12,000 Nó là sự ứng dụng của sự phân tích hàng loạt dữ liệu trên qui mô lớn 278 00:11:12,000 --> 00:11:14,000 vào việc nghiên cứu văn hoá con người. 279 00:11:14,000 --> 00:11:16,000 Tại đây, qua ống kính của dữ liệu lịch sử đã được số hoá. 280 00:11:16,000 --> 00:11:19,000 thay vì qua ống kính của hệ gien. 281 00:11:19,000 --> 00:11:21,000 Điều tuyệt vời về văn hoá học 282 00:11:21,000 --> 00:11:23,000 là ai cũng có thể thực hiện được nó. 283 00:11:23,000 --> 00:11:25,000 Tại sao mọi người đều có thể thực hiện? 284 00:11:25,000 --> 00:11:27,000 Mọi người đều có thể làm điều đó là nhờ ba người , 285 00:11:27,000 --> 00:11:30,000 Jon Orwant, Matt Gray và Will Brockman của Google 286 00:11:30,000 --> 00:11:32,000 nhìn thấy bản đồ mẫu của Ngram Viewer, 287 00:11:32,000 --> 00:11:34,000 và nói rằng "Cái này thật hay! 288 00:11:34,000 --> 00:11:37,000 Chúng ta phải làm thứ này cho mọi người dùng." 289 00:11:37,000 --> 00:11:39,000 Thế là trong chỉ hai tuần -- hai tuần trước khi bài luận văn của chúng tôi hoàn thành -- 290 00:11:39,000 --> 00:11:42,000 họ đã lập trình một phiên bản của NGram Viewer cho công chúng. 291 00:11:42,000 --> 00:11:45,000 Bạn có thể đánh một từ nào đó mà bạn thích 292 00:11:45,000 --> 00:11:47,000 và xem n-gram của nó ngay lập tức -- 293 00:11:47,000 --> 00:11:49,000 và cũng có thể xem ví dụ của tất cả các cuốn sách khác nhau 294 00:11:49,000 --> 00:11:51,000 mà n-gram xuất hiện trong đó. 295 00:11:51,000 --> 00:11:53,000 JM : Nó được sử dụng hơn một triệu lần vào ngày đầu tiên, 296 00:11:53,000 --> 00:11:55,000 và đây thực sự là câu chất vấn hay nhất. 297 00:11:55,000 --> 00:11:58,000 Người ta muốn cố gắng hết sức, bước bước chân chắc nhất về phía trước. 298 00:11:58,000 --> 00:12:01,000 Nhưng hoá ra vào thế kỉ 18, người ta không hề thực sự quan tâm đến điều đó . 299 00:12:01,000 --> 00:12:04,000 Họ không muốn là "best", họ chỉ muốn là "beft". 300 00:12:04,000 --> 00:12:07,000 Dĩ nhiên thật ra đó chỉ là một lỗi chính tả. 301 00:12:07,000 --> 00:12:09,000 không có gì to tát cả, 302 00:12:09,000 --> 00:12:12,000 chỉ là S từng được viết theo cách khác, gần giống chữ F. 303 00:12:12,000 --> 00:12:15,000 Dĩ nhiên, Google lúc đó đã không để ý đến điều này, 304 00:12:15,000 --> 00:12:18,000 nên chúng tôi đã viết về điều đó trong một bài báo cáo khoa học. 305 00:12:18,000 --> 00:12:20,000 Nhưng hoá ra đây chỉ là một sự nhắc nhở 306 00:12:20,000 --> 00:12:22,000 rằng dù có hay đến đâu chăng nữa 307 00:12:22,000 --> 00:12:24,000 thì khi bạn tìm cách hiểu những biểu đồ này, bạn phải vô cùng cẩn thận, 308 00:12:24,000 --> 00:12:27,000 và bạn phải áp dụng những chuẩn mực nền tảng trong khoa học. 309 00:12:27,000 --> 00:12:30,000 ELA : Người ta dùng phương pháp này cho đủ thứ mục đích hài hước. 310 00:12:30,000 --> 00:12:37,000 (Tiếng cười) 311 00:12:37,000 --> 00:12:39,000 Thực ra chúng tôi không nhất thiết phải nói, 312 00:12:39,000 --> 00:12:42,000 chúng tôi sẽ chỉ cho các bạn xem tất cả những bức hình này và giữ yên lặng. 313 00:12:42,000 --> 00:12:45,000 Người này muốn biết về lịch sử của sự giận dữ. 314 00:12:45,000 --> 00:12:48,000 Có rất nhiều loại giận dữ. 315 00:12:48,000 --> 00:12:51,000 Nếu bạn bị vấp chân, đó sẽ là một chữ A "argh". 316 00:12:51,000 --> 00:12:53,000 Nếu trái đất bị xâm chiếm bởi người Vogons 317 00:12:53,000 --> 00:12:55,000 để làm đường giữ thông tin liên lạc giữa các vì sao. 318 00:12:55,000 --> 00:12:57,000 đó sẽ là tám chữ A "aaaaaaaarg" 319 00:12:57,000 --> 00:12:59,000 Người này nghiên cứu tất cả "arghs" 320 00:12:59,000 --> 00:13:01,000 từ một cho đến tám chữ "A". 321 00:13:01,000 --> 00:13:03,000 Và kết quả là 322 00:13:03,000 --> 00:13:05,000 Từ "arghs" với ít chữ A 323 00:13:05,000 --> 00:13:08,000 tất nhiên tương ứng với những thứ gây nhiều tức giận hơn. 324 00:13:08,000 --> 00:13:11,000 ngoại trừ trong những năm đầu của thập niên 80, thật kì lạ! 325 00:13:11,000 --> 00:13:13,000 Chúng tôi cho rằng điều này có lẽ có liên quan đến Reegan. 326 00:13:13,000 --> 00:13:15,000 (Tiếng cười) 327 00:13:15,000 --> 00:13:18,000 JM: Có rất nhiều cách sử dụng dữ liệu này, 328 00:13:18,000 --> 00:13:21,000 nhưng điều mấu chốt là hồ sơ lịch sử đang được số hoá. 329 00:13:21,000 --> 00:13:23,000 Google đã số hoá 15 triệu cuốn sách. 330 00:13:23,000 --> 00:13:25,000 Đó là 12 phần trăm của tất cả những cuốn sách đã từng được xuất bản. 331 00:13:25,000 --> 00:13:28,000 Đó là một tảng lớn đáng kể của văn hoá loài người. 332 00:13:28,000 --> 00:13:31,000 Còn rất nhiều của nền văn hoá: nào là những bản viết tay, nào là báo chí, 333 00:13:31,000 --> 00:13:33,000 nào là những thứ không phải là chữ mà là nghệ thuật và những bức tranh. 334 00:13:33,000 --> 00:13:35,000 Những thứ này tình cờ lại có trong máy tính của chúng ta, 335 00:13:35,000 --> 00:13:37,000 trên những chiếc máy tính trên khắp thế giới. 336 00:13:37,000 --> 00:13:40,000 Khi điều đó xảy ra, nó sẽ thay đổi cách chúng ta 337 00:13:40,000 --> 00:13:42,000 hiểu về quá khứ, hiện tại và nền văn hóa con người. 338 00:13:42,000 --> 00:13:44,000 Cảm ơn rất nhiều. 339 00:13:44,000 --> 00:13:47,000 (Vỗ tay)