Điều chúng ta đã học từ 5 triệu cuốn sách
-
0:00 - 0:02Erez Lieberman Aiden : Mọi người đều biết
-
0:02 - 0:05một bức ảnh đáng giá một nghìn từ.
-
0:07 - 0:09Nhưng chúng tôi, tại Harvard
-
0:09 - 0:12luôn thắc mắc liệu điều đó có thật sự đúng.
-
0:12 - 0:14(Tiếng cười)
-
0:14 - 0:18Vì vậy chúng tôi tập hợp một đội những chuyên gia,
-
0:18 - 0:20từ khắp Harvard , MIT,
-
0:20 - 0:23Từ điển Di sản Mỹ, Bách khoa toàn thư Britannica
-
0:23 - 0:25và cả nhà tài trợ tự hào của chúng tôi,
-
0:25 - 0:28Google.
-
0:28 - 0:30Chúng tôi đã ngẫm nghĩ về điều này
-
0:30 - 0:32trong khoảng bốn năm.
-
0:32 - 0:37Và chúng tôi đã đi đến một kết luận đầy sửng sốt.
-
0:37 - 0:40Xin thưa với quí vị rằng, một bức tranh không đáng một nghìn từ.
-
0:40 - 0:42Thực tế, chúng tôi đã tìm thấy bức tranh
-
0:42 - 0:47đáng giá 500 nghìn triệu từ!
-
0:47 - 0:49Jean-Baptiste Michel: Vậy làm thế nào chúng tôi lại đi đến kết luận này?
-
0:49 - 0:51Erez và tôi đã suy nghĩ cách
-
0:51 - 0:53nắm bắt được bức tranh toàn cảnh về nền văn hoá nhân loại
-
0:53 - 0:56và lịch sử loài người thay đổi qua thời gian.
-
0:56 - 0:58Có rất nhiều cuốn sách được viết ra trong nhiều năm.
-
0:58 - 1:00Vậy nên chúng tôi nghĩ rằng, vậy cách tốt nhất để học từ chúng
-
1:00 - 1:02là đọc hết hàng triệu cuốn sách này.
-
1:02 - 1:05Tất nhiên, nếu có thang đo về độ hoành tráng của dự án này,
-
1:05 - 1:08thì nó hoàn toàn, hoàn toàn hoành tráng.
-
1:08 - 1:10Nhưng vấn đề là còn có một trục ngang cho việc đánh giá này,
-
1:10 - 1:12đó là đánh giá về mức độ thực tế.
-
1:12 - 1:14Thì điều này rất rất ít tính thực tế.
-
1:14 - 1:17(Vỗ tay)
-
1:17 - 1:20Thế là người ta có khuynh hướng tìm cách khác,
-
1:20 - 1:22đó là chọn ra một số nguồn sách và đọc chúng thật cẩn thận.
-
1:22 - 1:24Cách này cực kì thực tiễn nhưng không hoành tráng cho lắm.
-
1:24 - 1:27Điều mà chúng ta muốn thật sự
-
1:27 - 1:30là một cách thức vừa hoành tráng vừa thực tiễn.
-
1:30 - 1:33Và hoá ra có một công ty gọi là Google
-
1:33 - 1:35đã bắt đầu một dự án số hoá từ một vài năm trước
-
1:35 - 1:37khiến ta thực hiện được cách thức đó.
-
1:37 - 1:39Họ đã số hoá hàng triệu cuốn sách.
-
1:39 - 1:42Điều đó có nghĩa là, ta có thể dùng máy móc
-
1:42 - 1:44để đọc tất cả các cuốn sách trong một cú nhấn chuột.
-
1:44 - 1:47Cách này rất thực dụng và cực kì hoành tráng.
-
1:48 - 1:50ELA: Để tôi nói cho các bạn biết một chút về nơi những cuốn sách đó bắt nguồn.
-
1:50 - 1:53Từ thời xa xưa đã có những nhà sáng tác.
-
1:53 - 1:56Những nhà sáng tác này nỗ lực viết những cuốn sách.
-
1:56 - 1:58Và việc này trở nên khá dễ dàng hơn
-
1:58 - 2:00nhờ sự phát triển của công nghệ in ấn vài thế kỉ trước.
-
2:00 - 2:03Từ đó, các nhà sáng tác đã có được
-
2:03 - 2:05129 triệu cơ hội
-
2:05 - 2:07xuất bản những cuốn sách.
-
2:07 - 2:09Bây giờ nếu những cuốn sách đó không lạc vào lịch sử,
-
2:09 - 2:11thì chúng sẽ ở đâu đó trong một thư viện nào đó,
-
2:11 - 2:14và nhiều trong số đó được lưu trữ
-
2:14 - 2:16và số hoá bởi Google,
-
2:16 - 2:18nơi đến nay đã quét được 15 triệu cuốn sách.
-
2:18 - 2:21Bây giờ khi Google số hoá một cuốn sách, họ sẽ đưa nó vào một định dạng thật đẹp.
-
2:21 - 2:23Chúng ta có dữ liệu, thêm vào đó chúng ta có siêu dữ liệu.
-
2:23 - 2:26Chúng ta có thông tin về những thứ như là cuốn sách đó được xuất bản khi nào,
-
2:26 - 2:28ai là tác giả, nó được xuất bản khi nào.
-
2:28 - 2:31Và điều chúng tôi làm là lướt qua tất cả những bộ dữ liệu đó
-
2:31 - 2:35và loại bỏ hết những cái không phải là những dữ liệu chất lượng nhất.
-
2:35 - 2:37Cái còn lại là
-
2:37 - 2:40một tập hợp của 5 triệu cuốn sách.
-
2:40 - 2:43500 tỉ từ,
-
2:43 - 2:45một chuỗi kí tự dài hơn hàng ngàn lần
-
2:45 - 2:48hệ gien con người --
-
2:48 - 2:50một bản chữ mà khi viết ra
-
2:50 - 2:52sẽ dài bằng từ đây đi đến mặt trăng rồi vòng lại
-
2:52 - 2:54hơn 10 lần --
-
2:54 - 2:58một mảnh thực của hệ gien văn hoá cuả chúng ta.
-
2:58 - 3:00Tất nhiên, điều chúng tôi đã làm
-
3:00 - 3:03khi đối diện với một sự phóng đại tàn bạo như thế ...
-
3:03 - 3:05(Tiếng cười)
-
3:05 - 3:08là điều mà bất kì nhà nghiên cứu đáng kính nào
-
3:08 - 3:11cũng sẽ làm.
-
3:11 - 3:13Chúng tôi trích ra một trang trong chuỗi XKCD
-
3:13 - 3:15và chúng tôi nói "Khoan đã.
-
3:15 - 3:17Chúng tôi sẽ thử thí nghiệm chúng."
-
3:17 - 3:19(Tiếng cười)
-
3:19 - 3:21JM : Tất nhiên, chúng tôi đã nghĩ là
-
3:21 - 3:23trước tiên hãy thử đưa dữ liệu ra
-
3:23 - 3:25cho người ta thí nghiệm.
-
3:25 - 3:27Và chúng tôi suy nghĩ, dữ liệu nào có thể đem ra đây?
-
3:27 - 3:29Tất nhiên, các bạn muốn lấy những cuốn sách
-
3:29 - 3:31và tung ra hết nguyên bản của 5 triệu cuốn sách.
-
3:31 - 3:33Google, cụ thể là Jon Orwant,
-
3:33 - 3:35đã bảo cho chúng tôi một công thức mà chúng tôi nên nghĩ tới.
-
3:35 - 3:38Chúng tôi có 5 triệu cuốn sách, tức bằng với năm triệu tác giả
-
3:38 - 3:41và năm triệu đơn kiện cho một cuộc kiện tụng khổng lồ.
-
3:41 - 3:43Vì thế, dù cách này rất rất hoành tráng,
-
3:43 - 3:46nhưng một lần nữa lại cực kì cực kì không thực tế.
-
3:46 - 3:48(Tiếng cười)
-
3:48 - 3:50Một lần nữa chúng tôi lại nhượng bộ
-
3:50 - 3:53Chúng tôi đã thử cách thực tế nhất nhưng ít hoành tráng
-
3:53 - 3:55Chúng tôi nói rằng, được rồi, thay vì phát hành nguyên cả văn bản,
-
3:55 - 3:57chúng tôi sẽ tung ra thống kê về những quyển sách đó.
-
3:57 - 3:59Hãy lấy một ví dụ cụm từ "Tia sáng hạnh phúc"
-
3:59 - 4:01Đây là cụm bốn từ; chúng tôi gọi đó là một four-gram.
-
4:01 - 4:03Chúng tôi sẽ cho các bạn biết một four-gram sẽ xuất hiện bao nhiêu lần
-
4:03 - 4:05trong những cuốn sách năm 1801, 1802, 1803,
-
4:05 - 4:07cho đến tận năm 2008.
-
4:07 - 4:09Qua đó chúng ta sẽ có được một chuỗi thời gian
-
4:09 - 4:11cho ta biết một câu nhất định được dùng với tần suất thế nào qua thời gian.
-
4:11 - 4:14Chúng tôi làm như thế với tất cả từ ngữ và nhóm từ trong những cuốn sách đó,
-
4:14 - 4:17kết quả chúng tôi có được một bảng khổng lồ của hai tỉ đường
-
4:17 - 4:19cho chúng tôi thấy cách nền văn hoá thay đổi qua thời gian.
-
4:19 - 4:21ELA: Chúng tôi gọi hai tỉ đường đó là
-
4:21 - 4:23hai tỉ n-gram.
-
4:23 - 4:25Chúng cho ta biết điều gì ư?
-
4:25 - 4:27Đó là mỗi n-gram đo xu hướng của nền văn hoá.
-
4:27 - 4:29Để tôi cho bạn một ví dụ.
-
4:29 - 4:31Thử giả định rằng tôi đang phát triển
-
4:31 - 4:33Mai tôi muốn nói cho các bạn biết tôi đã phát triển thế nào.
-
4:33 - 4:36Và có lẽ tôi sẽ nói là "Yesterday, I throve" ("Ngày hôm qua, tôi đã phát triển")
-
4:36 - 4:39Hay nói cách khác rằng " Yesterday, I thrived." ("Ngày hôm qua, tôi đã phát triển")
-
4:39 - 4:42Tôi nên nói theo cách nào?
-
4:42 - 4:44Làm sao biết được?
-
4:44 - 4:46Nếu là sáu tháng trước
-
4:46 - 4:48tính nghệ thuật trong lĩnh vực này
-
4:48 - 4:50là chẳng hạn bạn sẽ
-
4:50 - 4:52tìm đến nhà tâm lý học có bộ tóc tuyệt vời này
-
4:52 - 4:54và nói rằng,
-
4:54 - 4:57"Steve, anh là chuyên gia về động từ bất quy tắc.
-
4:57 - 4:59Tôi nên chia động từ đó theo cách nào?"
-
4:59 - 5:01Và ông ta sẽ nói với bạn rằng " Phần lớn người ta chia động từ đó thành "thrived",
-
5:01 - 5:04nhưng một vài người dùng "throve"."
-
5:04 - 5:06Ít nhiều bạn cũng biết rằng
-
5:06 - 5:09nếu bạn quay ngược lại 200 năm trước
-
5:09 - 5:12và hỏi nhà chính trị có bộ tóc tuyệt vời ngang ngửa này
-
5:12 - 5:15(Tiếng cười)
-
5:15 - 5:17"Tom, tôi nên nói thế nào?"
-
5:17 - 5:19Ông ta sẽ nói rằng " Ở thời kì của tôi, hầu hết người ta dùng "throve",
-
5:19 - 5:22nhưng một số dùng "thrived"."
-
5:22 - 5:24Giờ tôi sẽ cho các bạn xem dữ liệu sống
-
5:24 - 5:28Hai hàng trích ra từ bảng của hai tỷ dữ liệu kia
-
5:28 - 5:30Cái bạn đang nhìn thấy là tần số xuất hiện từng năm
-
5:30 - 5:33của "thrived" và "throve"
-
5:34 - 5:36Đây chỉ là hai
-
5:36 - 5:39trong số hai tỉ hàng.
-
5:39 - 5:41Vì thế toàn bộ dữ liệu này
-
5:41 - 5:44sẽ hoành tráng hơn cả tỉ lần cái slide này.
-
5:44 - 5:46(Tiếng cười)
-
5:46 - 5:50(Vỗ tay)
-
5:50 - 5:52JM: Vậy có bao nhiêu bức tranh khác đáng 500 tỉ từ ngữ.
-
5:52 - 5:54Ví dụ như cái này
-
5:54 - 5:56Nếu bạn chọn dịch cúm,
-
5:56 - 5:58bạn sẽ thấy những thời điểm cao trào mà bạn biết
-
5:58 - 6:01khi mà những dịch cúm lớn tiêu diệt con người khắp nơi.
-
6:01 - 6:04ELA: Nếu bạn vẫn chưa tin
-
6:04 - 6:06mực nước biển đang tăng,
-
6:06 - 6:09khí CO2 và nhiệt độ trái đất cũng thế.
-
6:09 - 6:12JM: Các bạn chắc cũng muốn xem cái n-gram này,
-
6:12 - 6:15nó nói cho Nietzsche biết rằng chúa không chết,
-
6:15 - 6:18dù bạn có lẽ sẽ đồng ý rằng ông ta cần một nhà báo giỏi hơn.
-
6:18 - 6:20(Tiếng cười)
-
6:20 - 6:23ELA : Bạn có thể nắm được một số khái niệm khá trừu tượng đại loại thế này.
-
6:23 - 6:25Để tôi kể cho bạn nghe về lịch sử
-
6:25 - 6:27của năm 1950.
-
6:27 - 6:29Phần lớn trong lịch sử
-
6:29 - 6:31chẳng ai đếm xỉa gì về năm 1950 cả
-
6:31 - 6:33Năm 1700, 1800, 1900,
-
6:33 - 6:36chẳng ai quan tâm.
-
6:37 - 6:39Trong suốt những năm 30 và 40,
-
6:39 - 6:41cũng chẳng ai quan tâm .
-
6:41 - 6:43Bất ngờ vào giữa những năm 40
-
6:43 - 6:45bắt đầu có một chút động đậy.
-
6:45 - 6:47Người ta bắt đầu nhận ra 1950 sắp đến
-
6:47 - 6:49và có thể nó sẽ rất hoành tráng!
-
6:49 - 6:52(Tiếng cười)
-
6:52 - 6:55Nhưng không có bất cứ thứ gì có thể làm cho người ta chú ý đến năm 1950
-
6:55 - 6:58như chính năm 1950.
-
6:58 - 7:01(Tiếng cười)
-
7:01 - 7:03Người ta đi lại xung quanh, bị ám ảnh.
-
7:03 - 7:05Họ không thể dừng nói
-
7:05 - 7:08về tất cả những thứ họ làm trong năm 1950
-
7:08 - 7:11tất cả những thứ họ đang định làm trong năm 1950
-
7:11 - 7:16tất cả những giấc mơ họ muốn đạt được trong năm 1950.
-
7:16 - 7:18Thực tế 1950 tuyệt vời đến nỗi
-
7:18 - 7:20nhiều năm sau đó,
-
7:20 - 7:23người ta vẫn cứ nói đến những điều kinh ngạc đã xảy ra.
-
7:23 - 7:25trong năm 51, 52, 53.
-
7:25 - 7:27Cuối cùng thì đến năm 1954,
-
7:27 - 7:29có người mới thức tỉnh và nhận ra rằng
-
7:29 - 7:331950 đã qua lâu rồi!
-
7:33 - 7:35(Tiếng cười)
-
7:35 - 7:37Và cứ như thế, bong bóng nổ!
-
7:37 - 7:39(Tiếng cười)
-
7:39 - 7:41Câu chuyện của năm 1950
-
7:41 - 7:43là câu chuyện của từng năm mà chúng ta lưu lại được,
-
7:43 - 7:46với một chút sự biến hóa nhỏ bởi giờ chúng ta có những biểu đồ hay ho này
-
7:46 - 7:49Và bởi vì chúng ta có những biểu đồ hay ho này, chúng ta có thể đo đạc nhiều thứ
-
7:49 - 7:51Chúng ta có thể hỏi rằng ""Bong bóng nổ" nhanh như thế nào?"
-
7:51 - 7:54Và chúng ta có thể đo đạc điều đó một cách chính xác.
-
7:54 - 7:57Các phương trình được tính toán, các đồ thị được vẽ ra,
-
7:57 - 7:59và kết quả cuối cùng
-
7:59 - 8:02là chúng ta phát hiện ra "bong bóng nổ" ngày càng nhanh
-
8:02 - 8:04qua từng năm.
-
8:04 - 8:09Chúng ta mất dần sự quan tâm đến quá khứ một cách nhanh chóng.
-
8:09 - 8:11JM: Bây giờ chúng tôi sẽ chia sẻ một vài lời khuyên về sự nghiệp cho bạn.
-
8:11 - 8:13Cho những ai muốn nổi tiếng,
-
8:13 - 8:15chúng ta có thể học từ 25 hình tượng chính trị gia nổi tiếng nhất,
-
8:15 - 8:17các nhà sáng tác, diễn viên, v.v.v
-
8:17 - 8:20Vì vậy nếu bạn muốn nổi tiếng sớm, bạn nên làm diễn viên,
-
8:20 - 8:22bởi tiếng tăm của bạn sẽ ngày càng tăng cuối những năm 20 của bạn --
-
8:22 - 8:24bạn vẫn còn trẻ, điều đó thật tuyêt.
-
8:24 - 8:26Nếu bạn có thể đợi một chút, bạn nên làm tiểu thuyết gia,
-
8:26 - 8:28bởi rồi bạn sẽ đầy tiếng tăm
-
8:28 - 8:30như Mark Twain, cực kì nổi tiếng.
-
8:30 - 8:32Nhưng nếu bạn muốn vươn đến đỉnh cao nhất,
-
8:32 - 8:34bạn đừng hài lòng sớm
-
8:34 - 8:36mà hãy trở thành nhà chính trị.
-
8:36 - 8:38Bạn sẽ trở nên nổi tiếng cuối những năm 50 tuổi
-
8:38 - 8:40và sẽ càng nổi tiếng hơn sau đó
-
8:40 - 8:43Những nhà khoa học cũng trở nên nổi tiếng khi họ già đi.
-
8:43 - 8:45Ví dụ như là nhà sinh học, nhà vật lý học
-
8:45 - 8:47có khuynh hướng nổi tiếng gần bằng diễn viên.
-
8:47 - 8:50Có một sai lầm mà bạn không nên phạm phải là trở thành nhà toán học.
-
8:50 - 8:52(Tiếng cười)
-
8:52 - 8:54Nếu bạn làm điều đó
-
8:54 - 8:57bạn có thể sẽ nghĩ rằng "Thật tuyệt. Mìng sẽ cố gắng hết sức trong những năm tuổi 20."
-
8:57 - 8:59Nhưng đoán thử đi, làm gì có ai quan tâm.
-
8:59 - 9:02(Tiếng cười)
-
9:02 - 9:04ELA: Còn có nhiều ghi chú nghiêm túc hơn thế này
-
9:04 - 9:06trong những n-gram đó.
-
9:06 - 9:08Ví dụ, đây là đường phát triển của Marc Chagall,
-
9:08 - 9:10một nghệ sĩ sinh năm 1887.
-
9:10 - 9:13Và nó giống con đường phát triển bình thường của một người nổi tiếng.
-
9:13 - 9:17Ông ta càng ngày càng nổi tiếng,
-
9:17 - 9:19trừ khi bạn nhìn vào nước Đức.
-
9:19 - 9:21Nếu bạn nhìn vào nước Đức, bạn sẽ thấy một thứ hoàn toàn lạ
-
9:21 - 9:23một thứ bạn chưa bao giờ thấy,
-
9:23 - 9:25đó là sự cực kì nổi tiếng của ông ấy
-
9:25 - 9:27và rồi bất ngờ tụt dốc thảm hại,
-
9:27 - 9:30cho đến tận cùng trong những năm 1933 và 1945 ,
-
9:30 - 9:33rồi lại hồi phục danh tiếng sau đó.
-
9:33 - 9:35Dĩ nhiên là chúng ta nhận ra rằng
-
9:35 - 9:38sự thật thì Marc Chagall là một nghệ sĩ do thái
-
9:38 - 9:40của quốc xã Đức.
-
9:40 - 9:42Bây giờ, những dấu hiệu này
-
9:42 - 9:44thực sự rất chuẩn
-
9:44 - 9:47đến mức mà chúng ta không cần ai phải kiểm duyệt chúng.
-
9:47 - 9:49Chúng ta tự nhận ra sự việc
-
9:49 - 9:51bằng cách xử lý những dấu hiệu thật cơ bản.
-
9:51 - 9:53Đây là một trong những cách đơn giản.
-
9:53 - 9:55Chẳng hạn như một dự đoán hợp lý
-
9:55 - 9:57rằng danh tiếng trong một khoảng thời gian nhất định
-
9:57 - 9:59sẽ bằng trung bình của danh tiếng trước
-
9:59 - 10:01và sau đó chia ra.
-
10:01 - 10:03Đó là thứ chúng ta dự đoán.
-
10:03 - 10:06Rồi chúng ta so sánh nó với mức độ nổi tiếng chúng ta quan sát được.
-
10:06 - 10:08Chúng ta chia cái nó với mức độ dự đoán kia.
-
10:08 - 10:10để được cái gọi là "mức độ danh tiếng bị kìm hãm"
-
10:10 - 10:13Nếu mức độ danh tiếng bị kìm hãm rất rất nhỏ ,
-
10:13 - 10:15thì bạn có lẽ đang bị kìm hãm.
-
10:15 - 10:18Nếu nó rất rất lớn, thì có lẽ bạn đang được lợi từ cơ quan tuyên truyền
-
10:19 - 10:21JM: Giờ bạn hãy nhìn vào
-
10:21 - 10:24sự phân phối của mức độ bị kìm hãm trên toàn dân số.
-
10:24 - 10:26Ví dụ ở đây --
-
10:26 - 10:28mức độ danh tiếng bị kìm hãm này của 5000 người
-
10:28 - 10:30chọn ra trong những cuốn sách tiếng anh không có sự kìm hãm được biết đến --
-
10:30 - 10:32nó sẽ như thế này, hầu như gần bằng 1.
-
10:32 - 10:34Điều bạn mong muốn đơn giản chính là điều bạn quan sát được.
-
10:34 - 10:36Đây là sự phân phối được thấy ở Đức --
-
10:36 - 10:38rất khác, nó được dịch chuyển về bên trái.
-
10:38 - 10:41Người ta đã nói về nó ít hơn hai lần nó đáng được.
-
10:41 - 10:43Nhưng quan trọng hơn hết là sự phân phối này trải rộng hơn nhiều .
-
10:43 - 10:46Có nhiều người cuối cùng lại ở xa hơn về phía trái của sự phân phối này
-
10:46 - 10:49những người được ít hơn đến 10 lần danh tiếng mà họ đáng có.
-
10:49 - 10:51Nhưng đồng thời cũng có rất nhiều người ở xa phía bên phải
-
10:51 - 10:53họ dường như đang hưởng lợi từ giới tuyên truyền.
-
10:53 - 10:56Bức tranh này chính là dấu đóng của sự kiểm duyệt sách.
-
10:56 - 10:58ELA: Chúng tôi gọi phương pháp này
-
10:58 - 11:00là văn hoá học.
-
11:00 - 11:02Giống như di truyền học.
-
11:02 - 11:04Khác ở chỗ di truyền học là ống kính của sinh học
-
11:04 - 11:07qua cửa sổ nhìn vào chuỗi nền tảng trong hệ gen của con người.
-
11:07 - 11:09Văn hoá học cũng tương tự.
-
11:09 - 11:12Nó là sự ứng dụng của sự phân tích hàng loạt dữ liệu trên qui mô lớn
-
11:12 - 11:14vào việc nghiên cứu văn hoá con người.
-
11:14 - 11:16Tại đây, qua ống kính của dữ liệu lịch sử đã được số hoá.
-
11:16 - 11:19thay vì qua ống kính của hệ gien.
-
11:19 - 11:21Điều tuyệt vời về văn hoá học
-
11:21 - 11:23là ai cũng có thể thực hiện được nó.
-
11:23 - 11:25Tại sao mọi người đều có thể thực hiện?
-
11:25 - 11:27Mọi người đều có thể làm điều đó là nhờ ba người ,
-
11:27 - 11:30Jon Orwant, Matt Gray và Will Brockman của Google
-
11:30 - 11:32nhìn thấy bản đồ mẫu của Ngram Viewer,
-
11:32 - 11:34và nói rằng "Cái này thật hay!
-
11:34 - 11:37Chúng ta phải làm thứ này cho mọi người dùng."
-
11:37 - 11:39Thế là trong chỉ hai tuần -- hai tuần trước khi bài luận văn của chúng tôi hoàn thành --
-
11:39 - 11:42họ đã lập trình một phiên bản của NGram Viewer cho công chúng.
-
11:42 - 11:45Bạn có thể đánh một từ nào đó mà bạn thích
-
11:45 - 11:47và xem n-gram của nó ngay lập tức --
-
11:47 - 11:49và cũng có thể xem ví dụ của tất cả các cuốn sách khác nhau
-
11:49 - 11:51mà n-gram xuất hiện trong đó.
-
11:51 - 11:53JM : Nó được sử dụng hơn một triệu lần vào ngày đầu tiên,
-
11:53 - 11:55và đây thực sự là câu chất vấn hay nhất.
-
11:55 - 11:58Người ta muốn cố gắng hết sức, bước bước chân chắc nhất về phía trước.
-
11:58 - 12:01Nhưng hoá ra vào thế kỉ 18, người ta không hề thực sự quan tâm đến điều đó .
-
12:01 - 12:04Họ không muốn là "best", họ chỉ muốn là "beft".
-
12:04 - 12:07Dĩ nhiên thật ra đó chỉ là một lỗi chính tả.
-
12:07 - 12:09không có gì to tát cả,
-
12:09 - 12:12chỉ là S từng được viết theo cách khác, gần giống chữ F.
-
12:12 - 12:15Dĩ nhiên, Google lúc đó đã không để ý đến điều này,
-
12:15 - 12:18nên chúng tôi đã viết về điều đó trong một bài báo cáo khoa học.
-
12:18 - 12:20Nhưng hoá ra đây chỉ là một sự nhắc nhở
-
12:20 - 12:22rằng dù có hay đến đâu chăng nữa
-
12:22 - 12:24thì khi bạn tìm cách hiểu những biểu đồ này, bạn phải vô cùng cẩn thận,
-
12:24 - 12:27và bạn phải áp dụng những chuẩn mực nền tảng trong khoa học.
-
12:27 - 12:30ELA : Người ta dùng phương pháp này cho đủ thứ mục đích hài hước.
-
12:30 - 12:37(Tiếng cười)
-
12:37 - 12:39Thực ra chúng tôi không nhất thiết phải nói,
-
12:39 - 12:42chúng tôi sẽ chỉ cho các bạn xem tất cả những bức hình này và giữ yên lặng.
-
12:42 - 12:45Người này muốn biết về lịch sử của sự giận dữ.
-
12:45 - 12:48Có rất nhiều loại giận dữ.
-
12:48 - 12:51Nếu bạn bị vấp chân, đó sẽ là một chữ A "argh".
-
12:51 - 12:53Nếu trái đất bị xâm chiếm bởi người Vogons
-
12:53 - 12:55để làm đường giữ thông tin liên lạc giữa các vì sao.
-
12:55 - 12:57đó sẽ là tám chữ A "aaaaaaaarg"
-
12:57 - 12:59Người này nghiên cứu tất cả "arghs"
-
12:59 - 13:01từ một cho đến tám chữ "A".
-
13:01 - 13:03Và kết quả là
-
13:03 - 13:05Từ "arghs" với ít chữ A
-
13:05 - 13:08tất nhiên tương ứng với những thứ gây nhiều tức giận hơn.
-
13:08 - 13:11ngoại trừ trong những năm đầu của thập niên 80, thật kì lạ!
-
13:11 - 13:13Chúng tôi cho rằng điều này có lẽ có liên quan đến Reegan.
-
13:13 - 13:15(Tiếng cười)
-
13:15 - 13:18JM: Có rất nhiều cách sử dụng dữ liệu này,
-
13:18 - 13:21nhưng điều mấu chốt là hồ sơ lịch sử đang được số hoá.
-
13:21 - 13:23Google đã số hoá 15 triệu cuốn sách.
-
13:23 - 13:25Đó là 12 phần trăm của tất cả những cuốn sách đã từng được xuất bản.
-
13:25 - 13:28Đó là một tảng lớn đáng kể của văn hoá loài người.
-
13:28 - 13:31Còn rất nhiều của nền văn hoá: nào là những bản viết tay, nào là báo chí,
-
13:31 - 13:33nào là những thứ không phải là chữ mà là nghệ thuật và những bức tranh.
-
13:33 - 13:35Những thứ này tình cờ lại có trong máy tính của chúng ta,
-
13:35 - 13:37trên những chiếc máy tính trên khắp thế giới.
-
13:37 - 13:40Khi điều đó xảy ra, nó sẽ thay đổi cách chúng ta
-
13:40 - 13:42hiểu về quá khứ, hiện tại và nền văn hóa con người.
-
13:42 - 13:44Cảm ơn rất nhiều.
-
13:44 - 13:47(Vỗ tay)
- Title:
- Điều chúng ta đã học từ 5 triệu cuốn sách
- Speaker:
- Jean-Baptiste Michel + Erez Lieberman Aiden
- Description:
-
Bạn đã thử dùng Ngram viewer của Google Labs chưa? Đó là công cụ khiến người ta say mê. Nó cho phép bạn tìm kiếm từ vựng và ý tưởng trong nguồn dữ liệu của 5 triệu cuốn sách từ nhiều thế kỉ. Erez Lierberman Aiden và Jean-Baptiste cho chúng ta thấy nó hoạt động thế nào và một vài điều thú vị mà chúng ta có thể học được từ 500 từ .
- Video Language:
- English
- Team:
closed TED
- Project:
- TEDTalks
- Duration:
- 13:48