< Return to Video

Điều chúng ta đã học từ 5 triệu cuốn sách

  • 0:00 - 0:02
    Erez Lieberman Aiden : Mọi người đều biết
  • 0:02 - 0:05
    một bức ảnh đáng giá một nghìn từ.
  • 0:07 - 0:09
    Nhưng chúng tôi, tại Harvard
  • 0:09 - 0:12
    luôn thắc mắc liệu điều đó có thật sự đúng.
  • 0:12 - 0:14
    (Tiếng cười)
  • 0:14 - 0:18
    Vì vậy chúng tôi tập hợp một đội những chuyên gia,
  • 0:18 - 0:20
    từ khắp Harvard , MIT,
  • 0:20 - 0:23
    Từ điển Di sản Mỹ, Bách khoa toàn thư Britannica
  • 0:23 - 0:25
    và cả nhà tài trợ tự hào của chúng tôi,
  • 0:25 - 0:28
    Google.
  • 0:28 - 0:30
    Chúng tôi đã ngẫm nghĩ về điều này
  • 0:30 - 0:32
    trong khoảng bốn năm.
  • 0:32 - 0:37
    Và chúng tôi đã đi đến một kết luận đầy sửng sốt.
  • 0:37 - 0:40
    Xin thưa với quí vị rằng, một bức tranh không đáng một nghìn từ.
  • 0:40 - 0:42
    Thực tế, chúng tôi đã tìm thấy bức tranh
  • 0:42 - 0:47
    đáng giá 500 nghìn triệu từ!
  • 0:47 - 0:49
    Jean-Baptiste Michel: Vậy làm thế nào chúng tôi lại đi đến kết luận này?
  • 0:49 - 0:51
    Erez và tôi đã suy nghĩ cách
  • 0:51 - 0:53
    nắm bắt được bức tranh toàn cảnh về nền văn hoá nhân loại
  • 0:53 - 0:56
    và lịch sử loài người thay đổi qua thời gian.
  • 0:56 - 0:58
    Có rất nhiều cuốn sách được viết ra trong nhiều năm.
  • 0:58 - 1:00
    Vậy nên chúng tôi nghĩ rằng, vậy cách tốt nhất để học từ chúng
  • 1:00 - 1:02
    là đọc hết hàng triệu cuốn sách này.
  • 1:02 - 1:05
    Tất nhiên, nếu có thang đo về độ hoành tráng của dự án này,
  • 1:05 - 1:08
    thì nó hoàn toàn, hoàn toàn hoành tráng.
  • 1:08 - 1:10
    Nhưng vấn đề là còn có một trục ngang cho việc đánh giá này,
  • 1:10 - 1:12
    đó là đánh giá về mức độ thực tế.
  • 1:12 - 1:14
    Thì điều này rất rất ít tính thực tế.
  • 1:14 - 1:17
    (Vỗ tay)
  • 1:17 - 1:20
    Thế là người ta có khuynh hướng tìm cách khác,
  • 1:20 - 1:22
    đó là chọn ra một số nguồn sách và đọc chúng thật cẩn thận.
  • 1:22 - 1:24
    Cách này cực kì thực tiễn nhưng không hoành tráng cho lắm.
  • 1:24 - 1:27
    Điều mà chúng ta muốn thật sự
  • 1:27 - 1:30
    là một cách thức vừa hoành tráng vừa thực tiễn.
  • 1:30 - 1:33
    Và hoá ra có một công ty gọi là Google
  • 1:33 - 1:35
    đã bắt đầu một dự án số hoá từ một vài năm trước
  • 1:35 - 1:37
    khiến ta thực hiện được cách thức đó.
  • 1:37 - 1:39
    Họ đã số hoá hàng triệu cuốn sách.
  • 1:39 - 1:42
    Điều đó có nghĩa là, ta có thể dùng máy móc
  • 1:42 - 1:44
    để đọc tất cả các cuốn sách trong một cú nhấn chuột.
  • 1:44 - 1:47
    Cách này rất thực dụng và cực kì hoành tráng.
  • 1:48 - 1:50
    ELA: Để tôi nói cho các bạn biết một chút về nơi những cuốn sách đó bắt nguồn.
  • 1:50 - 1:53
    Từ thời xa xưa đã có những nhà sáng tác.
  • 1:53 - 1:56
    Những nhà sáng tác này nỗ lực viết những cuốn sách.
  • 1:56 - 1:58
    Và việc này trở nên khá dễ dàng hơn
  • 1:58 - 2:00
    nhờ sự phát triển của công nghệ in ấn vài thế kỉ trước.
  • 2:00 - 2:03
    Từ đó, các nhà sáng tác đã có được
  • 2:03 - 2:05
    129 triệu cơ hội
  • 2:05 - 2:07
    xuất bản những cuốn sách.
  • 2:07 - 2:09
    Bây giờ nếu những cuốn sách đó không lạc vào lịch sử,
  • 2:09 - 2:11
    thì chúng sẽ ở đâu đó trong một thư viện nào đó,
  • 2:11 - 2:14
    và nhiều trong số đó được lưu trữ
  • 2:14 - 2:16
    và số hoá bởi Google,
  • 2:16 - 2:18
    nơi đến nay đã quét được 15 triệu cuốn sách.
  • 2:18 - 2:21
    Bây giờ khi Google số hoá một cuốn sách, họ sẽ đưa nó vào một định dạng thật đẹp.
  • 2:21 - 2:23
    Chúng ta có dữ liệu, thêm vào đó chúng ta có siêu dữ liệu.
  • 2:23 - 2:26
    Chúng ta có thông tin về những thứ như là cuốn sách đó được xuất bản khi nào,
  • 2:26 - 2:28
    ai là tác giả, nó được xuất bản khi nào.
  • 2:28 - 2:31
    Và điều chúng tôi làm là lướt qua tất cả những bộ dữ liệu đó
  • 2:31 - 2:35
    và loại bỏ hết những cái không phải là những dữ liệu chất lượng nhất.
  • 2:35 - 2:37
    Cái còn lại là
  • 2:37 - 2:40
    một tập hợp của 5 triệu cuốn sách.
  • 2:40 - 2:43
    500 tỉ từ,
  • 2:43 - 2:45
    một chuỗi kí tự dài hơn hàng ngàn lần
  • 2:45 - 2:48
    hệ gien con người --
  • 2:48 - 2:50
    một bản chữ mà khi viết ra
  • 2:50 - 2:52
    sẽ dài bằng từ đây đi đến mặt trăng rồi vòng lại
  • 2:52 - 2:54
    hơn 10 lần --
  • 2:54 - 2:58
    một mảnh thực của hệ gien văn hoá cuả chúng ta.
  • 2:58 - 3:00
    Tất nhiên, điều chúng tôi đã làm
  • 3:00 - 3:03
    khi đối diện với một sự phóng đại tàn bạo như thế ...
  • 3:03 - 3:05
    (Tiếng cười)
  • 3:05 - 3:08
    là điều mà bất kì nhà nghiên cứu đáng kính nào
  • 3:08 - 3:11
    cũng sẽ làm.
  • 3:11 - 3:13
    Chúng tôi trích ra một trang trong chuỗi XKCD
  • 3:13 - 3:15
    và chúng tôi nói "Khoan đã.
  • 3:15 - 3:17
    Chúng tôi sẽ thử thí nghiệm chúng."
  • 3:17 - 3:19
    (Tiếng cười)
  • 3:19 - 3:21
    JM : Tất nhiên, chúng tôi đã nghĩ là
  • 3:21 - 3:23
    trước tiên hãy thử đưa dữ liệu ra
  • 3:23 - 3:25
    cho người ta thí nghiệm.
  • 3:25 - 3:27
    Và chúng tôi suy nghĩ, dữ liệu nào có thể đem ra đây?
  • 3:27 - 3:29
    Tất nhiên, các bạn muốn lấy những cuốn sách
  • 3:29 - 3:31
    và tung ra hết nguyên bản của 5 triệu cuốn sách.
  • 3:31 - 3:33
    Google, cụ thể là Jon Orwant,
  • 3:33 - 3:35
    đã bảo cho chúng tôi một công thức mà chúng tôi nên nghĩ tới.
  • 3:35 - 3:38
    Chúng tôi có 5 triệu cuốn sách, tức bằng với năm triệu tác giả
  • 3:38 - 3:41
    và năm triệu đơn kiện cho một cuộc kiện tụng khổng lồ.
  • 3:41 - 3:43
    Vì thế, dù cách này rất rất hoành tráng,
  • 3:43 - 3:46
    nhưng một lần nữa lại cực kì cực kì không thực tế.
  • 3:46 - 3:48
    (Tiếng cười)
  • 3:48 - 3:50
    Một lần nữa chúng tôi lại nhượng bộ
  • 3:50 - 3:53
    Chúng tôi đã thử cách thực tế nhất nhưng ít hoành tráng
  • 3:53 - 3:55
    Chúng tôi nói rằng, được rồi, thay vì phát hành nguyên cả văn bản,
  • 3:55 - 3:57
    chúng tôi sẽ tung ra thống kê về những quyển sách đó.
  • 3:57 - 3:59
    Hãy lấy một ví dụ cụm từ "Tia sáng hạnh phúc"
  • 3:59 - 4:01
    Đây là cụm bốn từ; chúng tôi gọi đó là một four-gram.
  • 4:01 - 4:03
    Chúng tôi sẽ cho các bạn biết một four-gram sẽ xuất hiện bao nhiêu lần
  • 4:03 - 4:05
    trong những cuốn sách năm 1801, 1802, 1803,
  • 4:05 - 4:07
    cho đến tận năm 2008.
  • 4:07 - 4:09
    Qua đó chúng ta sẽ có được một chuỗi thời gian
  • 4:09 - 4:11
    cho ta biết một câu nhất định được dùng với tần suất thế nào qua thời gian.
  • 4:11 - 4:14
    Chúng tôi làm như thế với tất cả từ ngữ và nhóm từ trong những cuốn sách đó,
  • 4:14 - 4:17
    kết quả chúng tôi có được một bảng khổng lồ của hai tỉ đường
  • 4:17 - 4:19
    cho chúng tôi thấy cách nền văn hoá thay đổi qua thời gian.
  • 4:19 - 4:21
    ELA: Chúng tôi gọi hai tỉ đường đó là
  • 4:21 - 4:23
    hai tỉ n-gram.
  • 4:23 - 4:25
    Chúng cho ta biết điều gì ư?
  • 4:25 - 4:27
    Đó là mỗi n-gram đo xu hướng của nền văn hoá.
  • 4:27 - 4:29
    Để tôi cho bạn một ví dụ.
  • 4:29 - 4:31
    Thử giả định rằng tôi đang phát triển
  • 4:31 - 4:33
    Mai tôi muốn nói cho các bạn biết tôi đã phát triển thế nào.
  • 4:33 - 4:36
    Và có lẽ tôi sẽ nói là "Yesterday, I throve" ("Ngày hôm qua, tôi đã phát triển")
  • 4:36 - 4:39
    Hay nói cách khác rằng " Yesterday, I thrived." ("Ngày hôm qua, tôi đã phát triển")
  • 4:39 - 4:42
    Tôi nên nói theo cách nào?
  • 4:42 - 4:44
    Làm sao biết được?
  • 4:44 - 4:46
    Nếu là sáu tháng trước
  • 4:46 - 4:48
    tính nghệ thuật trong lĩnh vực này
  • 4:48 - 4:50
    là chẳng hạn bạn sẽ
  • 4:50 - 4:52
    tìm đến nhà tâm lý học có bộ tóc tuyệt vời này
  • 4:52 - 4:54
    và nói rằng,
  • 4:54 - 4:57
    "Steve, anh là chuyên gia về động từ bất quy tắc.
  • 4:57 - 4:59
    Tôi nên chia động từ đó theo cách nào?"
  • 4:59 - 5:01
    Và ông ta sẽ nói với bạn rằng " Phần lớn người ta chia động từ đó thành "thrived",
  • 5:01 - 5:04
    nhưng một vài người dùng "throve"."
  • 5:04 - 5:06
    Ít nhiều bạn cũng biết rằng
  • 5:06 - 5:09
    nếu bạn quay ngược lại 200 năm trước
  • 5:09 - 5:12
    và hỏi nhà chính trị có bộ tóc tuyệt vời ngang ngửa này
  • 5:12 - 5:15
    (Tiếng cười)
  • 5:15 - 5:17
    "Tom, tôi nên nói thế nào?"
  • 5:17 - 5:19
    Ông ta sẽ nói rằng " Ở thời kì của tôi, hầu hết người ta dùng "throve",
  • 5:19 - 5:22
    nhưng một số dùng "thrived"."
  • 5:22 - 5:24
    Giờ tôi sẽ cho các bạn xem dữ liệu sống
  • 5:24 - 5:28
    Hai hàng trích ra từ bảng của hai tỷ dữ liệu kia
  • 5:28 - 5:30
    Cái bạn đang nhìn thấy là tần số xuất hiện từng năm
  • 5:30 - 5:33
    của "thrived" và "throve"
  • 5:34 - 5:36
    Đây chỉ là hai
  • 5:36 - 5:39
    trong số hai tỉ hàng.
  • 5:39 - 5:41
    Vì thế toàn bộ dữ liệu này
  • 5:41 - 5:44
    sẽ hoành tráng hơn cả tỉ lần cái slide này.
  • 5:44 - 5:46
    (Tiếng cười)
  • 5:46 - 5:50
    (Vỗ tay)
  • 5:50 - 5:52
    JM: Vậy có bao nhiêu bức tranh khác đáng 500 tỉ từ ngữ.
  • 5:52 - 5:54
    Ví dụ như cái này
  • 5:54 - 5:56
    Nếu bạn chọn dịch cúm,
  • 5:56 - 5:58
    bạn sẽ thấy những thời điểm cao trào mà bạn biết
  • 5:58 - 6:01
    khi mà những dịch cúm lớn tiêu diệt con người khắp nơi.
  • 6:01 - 6:04
    ELA: Nếu bạn vẫn chưa tin
  • 6:04 - 6:06
    mực nước biển đang tăng,
  • 6:06 - 6:09
    khí CO2 và nhiệt độ trái đất cũng thế.
  • 6:09 - 6:12
    JM: Các bạn chắc cũng muốn xem cái n-gram này,
  • 6:12 - 6:15
    nó nói cho Nietzsche biết rằng chúa không chết,
  • 6:15 - 6:18
    dù bạn có lẽ sẽ đồng ý rằng ông ta cần một nhà báo giỏi hơn.
  • 6:18 - 6:20
    (Tiếng cười)
  • 6:20 - 6:23
    ELA : Bạn có thể nắm được một số khái niệm khá trừu tượng đại loại thế này.
  • 6:23 - 6:25
    Để tôi kể cho bạn nghe về lịch sử
  • 6:25 - 6:27
    của năm 1950.
  • 6:27 - 6:29
    Phần lớn trong lịch sử
  • 6:29 - 6:31
    chẳng ai đếm xỉa gì về năm 1950 cả
  • 6:31 - 6:33
    Năm 1700, 1800, 1900,
  • 6:33 - 6:36
    chẳng ai quan tâm.
  • 6:37 - 6:39
    Trong suốt những năm 30 và 40,
  • 6:39 - 6:41
    cũng chẳng ai quan tâm .
  • 6:41 - 6:43
    Bất ngờ vào giữa những năm 40
  • 6:43 - 6:45
    bắt đầu có một chút động đậy.
  • 6:45 - 6:47
    Người ta bắt đầu nhận ra 1950 sắp đến
  • 6:47 - 6:49
    và có thể nó sẽ rất hoành tráng!
  • 6:49 - 6:52
    (Tiếng cười)
  • 6:52 - 6:55
    Nhưng không có bất cứ thứ gì có thể làm cho người ta chú ý đến năm 1950
  • 6:55 - 6:58
    như chính năm 1950.
  • 6:58 - 7:01
    (Tiếng cười)
  • 7:01 - 7:03
    Người ta đi lại xung quanh, bị ám ảnh.
  • 7:03 - 7:05
    Họ không thể dừng nói
  • 7:05 - 7:08
    về tất cả những thứ họ làm trong năm 1950
  • 7:08 - 7:11
    tất cả những thứ họ đang định làm trong năm 1950
  • 7:11 - 7:16
    tất cả những giấc mơ họ muốn đạt được trong năm 1950.
  • 7:16 - 7:18
    Thực tế 1950 tuyệt vời đến nỗi
  • 7:18 - 7:20
    nhiều năm sau đó,
  • 7:20 - 7:23
    người ta vẫn cứ nói đến những điều kinh ngạc đã xảy ra.
  • 7:23 - 7:25
    trong năm 51, 52, 53.
  • 7:25 - 7:27
    Cuối cùng thì đến năm 1954,
  • 7:27 - 7:29
    có người mới thức tỉnh và nhận ra rằng
  • 7:29 - 7:33
    1950 đã qua lâu rồi!
  • 7:33 - 7:35
    (Tiếng cười)
  • 7:35 - 7:37
    Và cứ như thế, bong bóng nổ!
  • 7:37 - 7:39
    (Tiếng cười)
  • 7:39 - 7:41
    Câu chuyện của năm 1950
  • 7:41 - 7:43
    là câu chuyện của từng năm mà chúng ta lưu lại được,
  • 7:43 - 7:46
    với một chút sự biến hóa nhỏ bởi giờ chúng ta có những biểu đồ hay ho này
  • 7:46 - 7:49
    Và bởi vì chúng ta có những biểu đồ hay ho này, chúng ta có thể đo đạc nhiều thứ
  • 7:49 - 7:51
    Chúng ta có thể hỏi rằng ""Bong bóng nổ" nhanh như thế nào?"
  • 7:51 - 7:54
    Và chúng ta có thể đo đạc điều đó một cách chính xác.
  • 7:54 - 7:57
    Các phương trình được tính toán, các đồ thị được vẽ ra,
  • 7:57 - 7:59
    và kết quả cuối cùng
  • 7:59 - 8:02
    là chúng ta phát hiện ra "bong bóng nổ" ngày càng nhanh
  • 8:02 - 8:04
    qua từng năm.
  • 8:04 - 8:09
    Chúng ta mất dần sự quan tâm đến quá khứ một cách nhanh chóng.
  • 8:09 - 8:11
    JM: Bây giờ chúng tôi sẽ chia sẻ một vài lời khuyên về sự nghiệp cho bạn.
  • 8:11 - 8:13
    Cho những ai muốn nổi tiếng,
  • 8:13 - 8:15
    chúng ta có thể học từ 25 hình tượng chính trị gia nổi tiếng nhất,
  • 8:15 - 8:17
    các nhà sáng tác, diễn viên, v.v.v
  • 8:17 - 8:20
    Vì vậy nếu bạn muốn nổi tiếng sớm, bạn nên làm diễn viên,
  • 8:20 - 8:22
    bởi tiếng tăm của bạn sẽ ngày càng tăng cuối những năm 20 của bạn --
  • 8:22 - 8:24
    bạn vẫn còn trẻ, điều đó thật tuyêt.
  • 8:24 - 8:26
    Nếu bạn có thể đợi một chút, bạn nên làm tiểu thuyết gia,
  • 8:26 - 8:28
    bởi rồi bạn sẽ đầy tiếng tăm
  • 8:28 - 8:30
    như Mark Twain, cực kì nổi tiếng.
  • 8:30 - 8:32
    Nhưng nếu bạn muốn vươn đến đỉnh cao nhất,
  • 8:32 - 8:34
    bạn đừng hài lòng sớm
  • 8:34 - 8:36
    mà hãy trở thành nhà chính trị.
  • 8:36 - 8:38
    Bạn sẽ trở nên nổi tiếng cuối những năm 50 tuổi
  • 8:38 - 8:40
    và sẽ càng nổi tiếng hơn sau đó
  • 8:40 - 8:43
    Những nhà khoa học cũng trở nên nổi tiếng khi họ già đi.
  • 8:43 - 8:45
    Ví dụ như là nhà sinh học, nhà vật lý học
  • 8:45 - 8:47
    có khuynh hướng nổi tiếng gần bằng diễn viên.
  • 8:47 - 8:50
    Có một sai lầm mà bạn không nên phạm phải là trở thành nhà toán học.
  • 8:50 - 8:52
    (Tiếng cười)
  • 8:52 - 8:54
    Nếu bạn làm điều đó
  • 8:54 - 8:57
    bạn có thể sẽ nghĩ rằng "Thật tuyệt. Mìng sẽ cố gắng hết sức trong những năm tuổi 20."
  • 8:57 - 8:59
    Nhưng đoán thử đi, làm gì có ai quan tâm.
  • 8:59 - 9:02
    (Tiếng cười)
  • 9:02 - 9:04
    ELA: Còn có nhiều ghi chú nghiêm túc hơn thế này
  • 9:04 - 9:06
    trong những n-gram đó.
  • 9:06 - 9:08
    Ví dụ, đây là đường phát triển của Marc Chagall,
  • 9:08 - 9:10
    một nghệ sĩ sinh năm 1887.
  • 9:10 - 9:13
    Và nó giống con đường phát triển bình thường của một người nổi tiếng.
  • 9:13 - 9:17
    Ông ta càng ngày càng nổi tiếng,
  • 9:17 - 9:19
    trừ khi bạn nhìn vào nước Đức.
  • 9:19 - 9:21
    Nếu bạn nhìn vào nước Đức, bạn sẽ thấy một thứ hoàn toàn lạ
  • 9:21 - 9:23
    một thứ bạn chưa bao giờ thấy,
  • 9:23 - 9:25
    đó là sự cực kì nổi tiếng của ông ấy
  • 9:25 - 9:27
    và rồi bất ngờ tụt dốc thảm hại,
  • 9:27 - 9:30
    cho đến tận cùng trong những năm 1933 và 1945 ,
  • 9:30 - 9:33
    rồi lại hồi phục danh tiếng sau đó.
  • 9:33 - 9:35
    Dĩ nhiên là chúng ta nhận ra rằng
  • 9:35 - 9:38
    sự thật thì Marc Chagall là một nghệ sĩ do thái
  • 9:38 - 9:40
    của quốc xã Đức.
  • 9:40 - 9:42
    Bây giờ, những dấu hiệu này
  • 9:42 - 9:44
    thực sự rất chuẩn
  • 9:44 - 9:47
    đến mức mà chúng ta không cần ai phải kiểm duyệt chúng.
  • 9:47 - 9:49
    Chúng ta tự nhận ra sự việc
  • 9:49 - 9:51
    bằng cách xử lý những dấu hiệu thật cơ bản.
  • 9:51 - 9:53
    Đây là một trong những cách đơn giản.
  • 9:53 - 9:55
    Chẳng hạn như một dự đoán hợp lý
  • 9:55 - 9:57
    rằng danh tiếng trong một khoảng thời gian nhất định
  • 9:57 - 9:59
    sẽ bằng trung bình của danh tiếng trước
  • 9:59 - 10:01
    và sau đó chia ra.
  • 10:01 - 10:03
    Đó là thứ chúng ta dự đoán.
  • 10:03 - 10:06
    Rồi chúng ta so sánh nó với mức độ nổi tiếng chúng ta quan sát được.
  • 10:06 - 10:08
    Chúng ta chia cái nó với mức độ dự đoán kia.
  • 10:08 - 10:10
    để được cái gọi là "mức độ danh tiếng bị kìm hãm"
  • 10:10 - 10:13
    Nếu mức độ danh tiếng bị kìm hãm rất rất nhỏ ,
  • 10:13 - 10:15
    thì bạn có lẽ đang bị kìm hãm.
  • 10:15 - 10:18
    Nếu nó rất rất lớn, thì có lẽ bạn đang được lợi từ cơ quan tuyên truyền
  • 10:19 - 10:21
    JM: Giờ bạn hãy nhìn vào
  • 10:21 - 10:24
    sự phân phối của mức độ bị kìm hãm trên toàn dân số.
  • 10:24 - 10:26
    Ví dụ ở đây --
  • 10:26 - 10:28
    mức độ danh tiếng bị kìm hãm này của 5000 người
  • 10:28 - 10:30
    chọn ra trong những cuốn sách tiếng anh không có sự kìm hãm được biết đến --
  • 10:30 - 10:32
    nó sẽ như thế này, hầu như gần bằng 1.
  • 10:32 - 10:34
    Điều bạn mong muốn đơn giản chính là điều bạn quan sát được.
  • 10:34 - 10:36
    Đây là sự phân phối được thấy ở Đức --
  • 10:36 - 10:38
    rất khác, nó được dịch chuyển về bên trái.
  • 10:38 - 10:41
    Người ta đã nói về nó ít hơn hai lần nó đáng được.
  • 10:41 - 10:43
    Nhưng quan trọng hơn hết là sự phân phối này trải rộng hơn nhiều .
  • 10:43 - 10:46
    Có nhiều người cuối cùng lại ở xa hơn về phía trái của sự phân phối này
  • 10:46 - 10:49
    những người được ít hơn đến 10 lần danh tiếng mà họ đáng có.
  • 10:49 - 10:51
    Nhưng đồng thời cũng có rất nhiều người ở xa phía bên phải
  • 10:51 - 10:53
    họ dường như đang hưởng lợi từ giới tuyên truyền.
  • 10:53 - 10:56
    Bức tranh này chính là dấu đóng của sự kiểm duyệt sách.
  • 10:56 - 10:58
    ELA: Chúng tôi gọi phương pháp này
  • 10:58 - 11:00
    là văn hoá học.
  • 11:00 - 11:02
    Giống như di truyền học.
  • 11:02 - 11:04
    Khác ở chỗ di truyền học là ống kính của sinh học
  • 11:04 - 11:07
    qua cửa sổ nhìn vào chuỗi nền tảng trong hệ gen của con người.
  • 11:07 - 11:09
    Văn hoá học cũng tương tự.
  • 11:09 - 11:12
    Nó là sự ứng dụng của sự phân tích hàng loạt dữ liệu trên qui mô lớn
  • 11:12 - 11:14
    vào việc nghiên cứu văn hoá con người.
  • 11:14 - 11:16
    Tại đây, qua ống kính của dữ liệu lịch sử đã được số hoá.
  • 11:16 - 11:19
    thay vì qua ống kính của hệ gien.
  • 11:19 - 11:21
    Điều tuyệt vời về văn hoá học
  • 11:21 - 11:23
    là ai cũng có thể thực hiện được nó.
  • 11:23 - 11:25
    Tại sao mọi người đều có thể thực hiện?
  • 11:25 - 11:27
    Mọi người đều có thể làm điều đó là nhờ ba người ,
  • 11:27 - 11:30
    Jon Orwant, Matt Gray và Will Brockman của Google
  • 11:30 - 11:32
    nhìn thấy bản đồ mẫu của Ngram Viewer,
  • 11:32 - 11:34
    và nói rằng "Cái này thật hay!
  • 11:34 - 11:37
    Chúng ta phải làm thứ này cho mọi người dùng."
  • 11:37 - 11:39
    Thế là trong chỉ hai tuần -- hai tuần trước khi bài luận văn của chúng tôi hoàn thành --
  • 11:39 - 11:42
    họ đã lập trình một phiên bản của NGram Viewer cho công chúng.
  • 11:42 - 11:45
    Bạn có thể đánh một từ nào đó mà bạn thích
  • 11:45 - 11:47
    và xem n-gram của nó ngay lập tức --
  • 11:47 - 11:49
    và cũng có thể xem ví dụ của tất cả các cuốn sách khác nhau
  • 11:49 - 11:51
    mà n-gram xuất hiện trong đó.
  • 11:51 - 11:53
    JM : Nó được sử dụng hơn một triệu lần vào ngày đầu tiên,
  • 11:53 - 11:55
    và đây thực sự là câu chất vấn hay nhất.
  • 11:55 - 11:58
    Người ta muốn cố gắng hết sức, bước bước chân chắc nhất về phía trước.
  • 11:58 - 12:01
    Nhưng hoá ra vào thế kỉ 18, người ta không hề thực sự quan tâm đến điều đó .
  • 12:01 - 12:04
    Họ không muốn là "best", họ chỉ muốn là "beft".
  • 12:04 - 12:07
    Dĩ nhiên thật ra đó chỉ là một lỗi chính tả.
  • 12:07 - 12:09
    không có gì to tát cả,
  • 12:09 - 12:12
    chỉ là S từng được viết theo cách khác, gần giống chữ F.
  • 12:12 - 12:15
    Dĩ nhiên, Google lúc đó đã không để ý đến điều này,
  • 12:15 - 12:18
    nên chúng tôi đã viết về điều đó trong một bài báo cáo khoa học.
  • 12:18 - 12:20
    Nhưng hoá ra đây chỉ là một sự nhắc nhở
  • 12:20 - 12:22
    rằng dù có hay đến đâu chăng nữa
  • 12:22 - 12:24
    thì khi bạn tìm cách hiểu những biểu đồ này, bạn phải vô cùng cẩn thận,
  • 12:24 - 12:27
    và bạn phải áp dụng những chuẩn mực nền tảng trong khoa học.
  • 12:27 - 12:30
    ELA : Người ta dùng phương pháp này cho đủ thứ mục đích hài hước.
  • 12:30 - 12:37
    (Tiếng cười)
  • 12:37 - 12:39
    Thực ra chúng tôi không nhất thiết phải nói,
  • 12:39 - 12:42
    chúng tôi sẽ chỉ cho các bạn xem tất cả những bức hình này và giữ yên lặng.
  • 12:42 - 12:45
    Người này muốn biết về lịch sử của sự giận dữ.
  • 12:45 - 12:48
    Có rất nhiều loại giận dữ.
  • 12:48 - 12:51
    Nếu bạn bị vấp chân, đó sẽ là một chữ A "argh".
  • 12:51 - 12:53
    Nếu trái đất bị xâm chiếm bởi người Vogons
  • 12:53 - 12:55
    để làm đường giữ thông tin liên lạc giữa các vì sao.
  • 12:55 - 12:57
    đó sẽ là tám chữ A "aaaaaaaarg"
  • 12:57 - 12:59
    Người này nghiên cứu tất cả "arghs"
  • 12:59 - 13:01
    từ một cho đến tám chữ "A".
  • 13:01 - 13:03
    Và kết quả là
  • 13:03 - 13:05
    Từ "arghs" với ít chữ A
  • 13:05 - 13:08
    tất nhiên tương ứng với những thứ gây nhiều tức giận hơn.
  • 13:08 - 13:11
    ngoại trừ trong những năm đầu của thập niên 80, thật kì lạ!
  • 13:11 - 13:13
    Chúng tôi cho rằng điều này có lẽ có liên quan đến Reegan.
  • 13:13 - 13:15
    (Tiếng cười)
  • 13:15 - 13:18
    JM: Có rất nhiều cách sử dụng dữ liệu này,
  • 13:18 - 13:21
    nhưng điều mấu chốt là hồ sơ lịch sử đang được số hoá.
  • 13:21 - 13:23
    Google đã số hoá 15 triệu cuốn sách.
  • 13:23 - 13:25
    Đó là 12 phần trăm của tất cả những cuốn sách đã từng được xuất bản.
  • 13:25 - 13:28
    Đó là một tảng lớn đáng kể của văn hoá loài người.
  • 13:28 - 13:31
    Còn rất nhiều của nền văn hoá: nào là những bản viết tay, nào là báo chí,
  • 13:31 - 13:33
    nào là những thứ không phải là chữ mà là nghệ thuật và những bức tranh.
  • 13:33 - 13:35
    Những thứ này tình cờ lại có trong máy tính của chúng ta,
  • 13:35 - 13:37
    trên những chiếc máy tính trên khắp thế giới.
  • 13:37 - 13:40
    Khi điều đó xảy ra, nó sẽ thay đổi cách chúng ta
  • 13:40 - 13:42
    hiểu về quá khứ, hiện tại và nền văn hóa con người.
  • 13:42 - 13:44
    Cảm ơn rất nhiều.
  • 13:44 - 13:47
    (Vỗ tay)
Title:
Điều chúng ta đã học từ 5 triệu cuốn sách
Speaker:
Jean-Baptiste Michel + Erez Lieberman Aiden
Description:

Bạn đã thử dùng Ngram viewer của Google Labs chưa? Đó là công cụ khiến người ta say mê. Nó cho phép bạn tìm kiếm từ vựng và ý tưởng trong nguồn dữ liệu của 5 triệu cuốn sách từ nhiều thế kỉ. Erez Lierberman Aiden và Jean-Baptiste cho chúng ta thấy nó hoạt động thế nào và một vài điều thú vị mà chúng ta có thể học được từ 500 từ .

more » « less
Video Language:
English
Team:
closed TED
Project:
TEDTalks
Duration:
13:48
Ha Thu Hai added a translation

Vietnamese subtitles

Revisions