1 00:00:00,880 --> 00:00:04,893 Ngày xưa nếu bạn muốn máy tính thực hiện thao tác mới, 2 00:00:04,893 --> 00:00:06,447 thì bạn phải lập trình nó trước. 3 00:00:06,447 --> 00:00:09,858 Đối với những bạn ở đây chưa từng lập trình, 4 00:00:09,858 --> 00:00:13,360 việc này đòi hỏi phải lập sơ đồ chi tiết 5 00:00:13,360 --> 00:00:16,727 từng bước một cho điều bạn muốn máy tính thực hiện 6 00:00:16,727 --> 00:00:19,089 để đạt được mục tiêu của bạn. 7 00:00:19,089 --> 00:00:22,585 Nếu bạn muốn làm một việc mà chính bạn cũng không biết cách làm, 8 00:00:22,585 --> 00:00:24,648 thì đây sẽ là một thử thách khá lớn. 9 00:00:24,648 --> 00:00:28,131 Đây là thử thách mà người đàn ông này, Arthur Samuel, gặp phải. 10 00:00:28,131 --> 00:00:32,208 Vào năm 1956, ông muốn chiếc máy tính này 11 00:00:32,208 --> 00:00:34,548 có thể đánh bại ông trong môn cờ tướng. 12 00:00:34,548 --> 00:00:36,588 Làm sao mà bạn có thể viết ra chương trình 13 00:00:36,588 --> 00:00:40,394 tỉ mỉ, chi tiết về cách chơi cờ tướng giỏi hơn chính bạn ? 14 00:00:40,394 --> 00:00:42,116 Vậy là ông nảy ra một ý tưởng: 15 00:00:42,116 --> 00:00:45,840 ông để máy tính tự chơi lại hàng ngàn lần 16 00:00:45,840 --> 00:00:48,364 và tự học cách chơi cờ. 17 00:00:48,364 --> 00:00:51,544 Và quả nhiên cách này hiệu quả, và thật sự, đến năm 1962, 18 00:00:51,544 --> 00:00:55,561 chiếc máy này đã đánh bại quán quân bang Connecticut. 19 00:00:55,561 --> 00:00:58,534 Arthur Samuel là cha đẻ của lĩnh vực machine learning, 20 00:00:58,534 --> 00:01:00,251 và tôi rất biết ơn ông, 21 00:01:00,251 --> 00:01:03,014 bởi tôi là một người làm trong ngành "máy biết học". 22 00:01:03,014 --> 00:01:04,479 Tôi từng là Chủ tịch ở Kaggle 23 00:01:04,479 --> 00:01:07,867 một cộng đồng gồm hơn 200,000 chuyên gia về "máy biết học". 24 00:01:07,867 --> 00:01:09,925 Kaggle tổ chức các cuộc thi 25 00:01:09,925 --> 00:01:13,633 với thử thách là những vấn đề chưa có lời giải, 26 00:01:13,633 --> 00:01:17,470 và họ đã thành công hàng trăm lần. 27 00:01:17,470 --> 00:01:19,940 Với vị thế thuận lợi đó, tôi đã khám phá ra 28 00:01:19,940 --> 00:01:23,890 rất nhiều thứ mà "máy biết học" có thể làm được trước đây, làm được bây giờ, 29 00:01:23,890 --> 00:01:26,252 và những gì nó có thể làm trong tương lai. 30 00:01:26,252 --> 00:01:30,675 Có lẽ sự thành công vang dội đầu tiên của "máy biết học" là Google 31 00:01:30,675 --> 00:01:33,784 Google cho ta thấy nó có thể tìm kiếm thông tin 32 00:01:33,784 --> 00:01:35,536 bằng cách sử dụng thuật toán, 33 00:01:35,536 --> 00:01:38,437 và thuật toán này dựa trên "máy biết học", 34 00:01:38,437 --> 00:01:42,323 Kể từ đó, đã có rất nhiều thành công về mặt thương mại của "máy biết học". 35 00:01:42,323 --> 00:01:44,160 Công ty như Amazon và Netflix 36 00:01:44,160 --> 00:01:47,876 sử dụng "máy biết học"để gợi ý những sản phẩm bạn có thể muốn mua, 37 00:01:47,876 --> 00:01:49,896 các bộ phim bạn có thể muốn xem. 38 00:01:49,896 --> 00:01:51,703 Đôi khi nó làm ta rùng mình. 39 00:01:51,703 --> 00:01:53,657 Các công ty như LinkedIn và Facebook 40 00:01:53,657 --> 00:01:56,251 đôi khi sẽ nói cho bạn biết ai có thể là bạn bè của bạn 41 00:01:56,251 --> 00:01:58,228 và bạn không hiểu nổi làm sao họ tìm ra, 42 00:01:58,228 --> 00:02:01,195 và đó là vì họ dùng đến sức mạnh của "máy biết học". 43 00:02:01,195 --> 00:02:04,152 Đây là thuật toán tự học cách xử lý từ cơ sở dữ liệu, 44 00:02:04,152 --> 00:02:07,399 thay vì được lập trình sẵn trước đó. 45 00:02:07,399 --> 00:02:09,877 Đây cũng là cách IBM thành công 46 00:02:09,877 --> 00:02:13,739 trong việc khiến cho Watson đánh bại hai nhà vô địch chương trình "Jeopardy", 47 00:02:13,739 --> 00:02:16,964 bằng cách trả lời những câu hỏi hóc búa và phức tạp như : 48 00:02:16,964 --> 00:02:19,799 [Sư tử Nimrud bị mất tại bảo tàng quốc gia thành phố ... 49 00:02:19,799 --> 00:02:23,034 Đây cũng là cơ sở cho những xe hơi tự lái đầu tiên. 50 00:02:23,034 --> 00:02:25,856 Nếu chúng phân biệt được sự khác nhau giữa 51 00:02:25,856 --> 00:02:28,488 cây xanh và người đi bộ, thì đó là việc rất quan trọng. 52 00:02:28,488 --> 00:02:31,075 Chúng ta không biết cách viết những chương trình này, 53 00:02:31,075 --> 00:02:34,072 nhưng với "máy biết học", điều đó trở thành có thể. 54 00:02:34,072 --> 00:02:36,680 Và thực tế, loại xe này đã đi được cả triệu dặm 55 00:02:36,680 --> 00:02:40,186 trên những con đường bình thường mà không gây tai nạn nào. 56 00:02:40,196 --> 00:02:44,110 Bây giờ chúng ta biết máy tính có thể học được, 57 00:02:44,110 --> 00:02:46,010 và chúng có thể học cách làm những việc 58 00:02:46,010 --> 00:02:48,848 mà đôi khi chính chúng ta không biết cách làm, 59 00:02:48,848 --> 00:02:51,733 hoặc có thể chúng làm tốt hơn ta. 60 00:02:51,733 --> 00:02:55,928 Một trong những ví dụ ngoạn mục nhất về "máy biết học" tôi từng thấy 61 00:02:55,928 --> 00:02:58,320 là dự án tôi tham gia ở Kaggle 62 00:02:58,320 --> 00:03:01,911 nơi đó có một anh chàng điều khiển một nhóm, anh ta tên là Geofrey Hinton 63 00:03:01,911 --> 00:03:03,463 đến từ Đại học Toronto 64 00:03:03,463 --> 00:03:06,140 nhóm này thắng cuộc thi về chế tạo máy phát hiện ma túy. 65 00:03:06,140 --> 00:03:08,987 Bây giờ, điều phi thường ở đây không phải là họ đánh bại 66 00:03:08,987 --> 00:03:13,000 tất cả các giải thuật phát triển bới Merk hay các cộng đồng học thuật quốc tế khác 67 00:03:13,000 --> 00:03:18,061 mà chính là họ không có thành viên nào chuyên về hóa, sinh hay khoa học đời sống, 68 00:03:18,061 --> 00:03:20,230 và họ đã tạo ra chiếc máy chỉ trong 2 tuần. 69 00:03:20,230 --> 00:03:21,611 Làm thế nào mà họ làm được? 70 00:03:22,421 --> 00:03:25,342 Họ dùng 1 siêu giải thuật gọi là deep learning: "học sâu". 71 00:03:25,342 --> 00:03:28,291 Thành công này quan trọng đến mức đã được lên 72 00:03:28,291 --> 00:03:31,412 trang bìa tờ New York Times vài tuần sau đó. 73 00:03:31,412 --> 00:03:34,147 Đây là Geoffrey Hinton ở đây bên bìa trái. 74 00:03:34,147 --> 00:03:38,488 "Học sâu" là một giải thuật lấy cảm hứng từ cách làm việc của não người, 75 00:03:38,488 --> 00:03:40,300 và kết quả là giải thuật này 76 00:03:40,300 --> 00:03:44,141 về lý thuyết, không có giới hạn cho những gì nó có thể làm. 77 00:03:44,141 --> 00:03:46,964 Bạn đưa vào càng nhiều dữ liệu và cho càng nhiều thời gian, 78 00:03:46,964 --> 00:03:48,276 thì nó càng làm tốt. 79 00:03:48,276 --> 00:03:50,615 Trong bài báo này, Tờ New York Times cũng nói về 80 00:03:50,615 --> 00:03:52,857 một kết quả tuyệt vời khác của "học sâu" 81 00:03:52,857 --> 00:03:55,569 mà tôi sẽ cho các bạn xem bây giờ. 82 00:03:55,569 --> 00:04:00,510 Đó là máy tính có thể nghe và hiểu. 83 00:04:00,510 --> 00:04:03,221 (Video) Richard Rashid: Bây giờ là bước cuối cùng 84 00:04:03,221 --> 00:04:06,246 mà tôi muốn làm trong quá trình này 85 00:04:06,246 --> 00:04:10,961 là nói chuyện với các bạn bằng tiếng Trung. 86 00:04:10,961 --> 00:04:13,596 Điểm mấu chốt đó là, 87 00:04:13,596 --> 00:04:18,598 chúng tôi có thể lấy lượng lớn thông tin từ những người nói tiếng Trung 88 00:04:18,598 --> 00:04:21,128 và tạo ra hệ thống chuyển văn bản thành giọng nói 89 00:04:21,128 --> 00:04:25,801 nó giúp lấy văn bản tiếng Trung chuyển thành tiếng Trung, 90 00:04:25,801 --> 00:04:29,929 và sau đó chúng tôi đã thực hiện khoảng 1 giờ để lấy giọng của chính tôi 91 00:04:29,929 --> 00:04:31,820 từ đó chúng tôi đã điều chỉnh 92 00:04:31,820 --> 00:04:36,364 hệ thống chuyển 'văn bản-lời nói' để cho ra được giọng nói giống tôi. 93 00:04:36,364 --> 00:04:38,904 Lần nữa, kết quả không hoàn hảo. 94 00:04:38,904 --> 00:04:41,552 Thực tế vẫn còn một vài lỗi. 95 00:04:41,552 --> 00:04:44,036 ( tiếng Trung). 96 00:04:44,036 --> 00:04:47,403 (vỗ tay) 97 00:04:49,446 --> 00:04:53,022 Còn nhiều việc để làm trong lĩnh vực này. 98 00:04:53,022 --> 00:04:56,667 ( tiếng Trung) 99 00:04:56,667 --> 00:05:00,100 ( vỗ tay) 100 00:05:01,345 --> 00:05:04,744 Jeremy Howard: đó là trong một hội thảo về "máy biết học" ở Trung Quốc. 101 00:05:04,744 --> 00:05:07,114 Thực ra ở hội thảo học thuật, các bạn 102 00:05:07,114 --> 00:05:09,011 thường ít nghe tiếng vỗ tay tự phát, 103 00:05:09,011 --> 00:05:12,687 ngay cả ở các hội thảo của TEDx, hay vỗ tay thoải mái đi. 104 00:05:12,687 --> 00:05:15,482 Những điều bạn thấy đó đang diễn ra với "học sâu". 105 00:05:15,482 --> 00:05:17,007 ( vỗ tay) Cảm ơn. 106 00:05:17,007 --> 00:05:19,289 Viết lại lời tiếng tiếng Anh bằng "học sâu". 107 00:05:19,289 --> 00:05:22,701 Dịch sang tiếng Trung có văn bản ở trên bên phải, do "học sâu", 108 00:05:22,701 --> 00:05:26,008 và xây dựng giọng nói cũng nhờ "học sâu". 109 00:05:26,008 --> 00:05:29,242 "Học sâu" thật sự phi thường. 110 00:05:29,242 --> 00:05:32,341 Nó là một giải thuật đơn giản mà có vẻ làm được hầu hết mọi thứ, 111 00:05:32,341 --> 00:05:35,452 và tôi phát hiện trước đó một năm, nó còn học nhìn thấy. 112 00:05:35,452 --> 00:05:37,628 Trong cuộc thi ở Đức, 113 00:05:37,628 --> 00:05:40,225 cuộc thi 'Nhận biết Tín hiệu Giao thông Benchmark', 114 00:05:40,225 --> 00:05:43,618 "học sâu" nhận biết các tín hiệu giao thông,như cái này. 115 00:05:43,618 --> 00:05:45,712 Nó không chỉ nhận biết tín hiệu giao thông 116 00:05:45,712 --> 00:05:47,470 tốt hơn bất kỳ giải thuật nào khác, 117 00:05:47,470 --> 00:05:50,189 mà còn làm tốt hơn cả con người, 118 00:05:50,189 --> 00:05:52,041 tốt hơn gấp đôi. 119 00:05:52,041 --> 00:05:54,037 Năm 2011, chúng tôi có thử nghiệm đầu tiên 120 00:05:54,037 --> 00:05:57,442 cho thấy máy tính có thể nhìn tốt hơn con người. 121 00:05:57,442 --> 00:05:59,491 Từ đó, rất nhiều điều đã xảy ra. 122 00:05:59,491 --> 00:06:03,005 Năm 2012, Google thông báo họ đã có một giải thuật "học sâu" 123 00:06:03,005 --> 00:06:04,420 xem được video trên YouTube 124 00:06:04,420 --> 00:06:07,857 và lấy dữ liệu từ 16,000 máy tính trong một tháng, 125 00:06:07,857 --> 00:06:12,218 và máy tính đã học một cách độc lập các khái niệm "người" và "mèo" 126 00:06:12,218 --> 00:06:14,027 chỉ bằng việc xem các videos. 127 00:06:14,027 --> 00:06:16,379 Cách này rất giống cách học của con người. 128 00:06:16,379 --> 00:06:19,119 Không cần khái niệm có sẵn, ta học từ cái ta nhìn thấy, 129 00:06:19,119 --> 00:06:22,450 ta có thể hiểu trực tiếp bản chất của sự vật đó. 130 00:06:22,450 --> 00:06:25,819 Cũng trong năm 2012, Geoffrey Hinton, 131 00:06:25,819 --> 00:06:28,677 chiến thắng cuộc thi ImageNet rất nổi tiếng, 132 00:06:28,677 --> 00:06:32,818 vì đã tìm ra cách để xác định một trong số nửa triệu tấm ảnh 133 00:06:32,818 --> 00:06:34,256 được giao trước. 134 00:06:34,256 --> 00:06:37,789 Từ 2014, chúng tôi đã giảm còn 6% tỉ lệ lỗi 135 00:06:37,789 --> 00:06:39,242 trong việc nhận diện hình ảnh. 136 00:06:39,242 --> 00:06:41,268 Với dạng việc này, máy cũng hơn con người. 137 00:06:41,268 --> 00:06:45,037 Thật vậy, máy rất siêu trong lĩnh vực này, 138 00:06:45,037 --> 00:06:47,306 và đang được ứng dụng trong công nghiệp. 139 00:06:47,306 --> 00:06:50,348 Ví dụ, năm ngoái Google thông báo 140 00:06:50,348 --> 00:06:54,933 họ đã lập bản đồ mọi địa điểm ở Pháp trong 2 giờ, 141 00:06:54,933 --> 00:06:58,380 và cách họ làm là nạp những hình ảnh đường phố 142 00:06:58,380 --> 00:07:02,699 vào giải thuật "học sâu" để nhận diện và đọc số nhà. 143 00:07:02,699 --> 00:07:04,919 Hãy tưởng tượng trước đây mất bao lâu: 144 00:07:04,919 --> 00:07:08,274 vài chục người làm việc trong nhiều năm. 145 00:07:08,274 --> 00:07:10,185 Điều này cũng diễn ra ở Trung Quốc. 146 00:07:10,185 --> 00:07:14,221 Tôi thấy Baidu cũng là một dạng Google ở Trung Quốc, 147 00:07:14,221 --> 00:07:16,504 và những gì bạn thấy ở trên bên góc trái 148 00:07:16,504 --> 00:07:20,478 là một ví dụ về một bức ảnh tôi tải lên hệ thống "học sâu" của Baidu 149 00:07:20,478 --> 00:07:24,247 và ở dưới bạn có thể thấy kết quả hệ thống xử lý bức ảnh 150 00:07:24,247 --> 00:07:26,483 và nó đã tìm ra những bức hình tương tự. 151 00:07:26,483 --> 00:07:29,219 Những bức hình tương tự thực ra có nền tương tự, 152 00:07:29,219 --> 00:07:30,877 hướng của khuôn mặt tương tự, 153 00:07:30,877 --> 00:07:32,665 và cả một số hình có lưỡi thè ra. 154 00:07:32,665 --> 00:07:35,695 Đây không phải là đối chiếu văn bản của trang web. 155 00:07:35,695 --> 00:07:37,107 Tôi chỉ upload một tấm ảnh. 156 00:07:37,107 --> 00:07:41,128 Vậy chúng ta đang có những chiếc máy tính thực sự hiểu được những gì chúng nhìn thấy 157 00:07:41,128 --> 00:07:42,752 và có thể nhờ đó tìm dữ liệu 158 00:07:42,752 --> 00:07:46,306 của hàng trăm triệu tấm ảnh. 159 00:07:46,306 --> 00:07:49,536 Điều đó có nghĩa là gì khi máy tính có thể nhìn thấy? 160 00:07:49,536 --> 00:07:51,553 À, máy tính không chỉ có thể nhìn thấy. 161 00:07:51,553 --> 00:07:53,622 Thật ra, "học sâu" còn làm được nhiều hơn. 162 00:07:53,622 --> 00:07:56,570 Những câu phức tạp và đầy nét khác biệt tinh tế như câu này 163 00:07:56,570 --> 00:07:59,394 giờ đã được hiểu bởi giải thuật "học sâu". 164 00:07:59,394 --> 00:08:00,697 Như các bạn thấy ở đây, 165 00:08:00,697 --> 00:08:03,465 hệ thống nền Stanford này đang chiếu điểm đỏ ở trên 166 00:08:03,465 --> 00:08:07,384 đã tìm ra rằng câu này thể hiện tình cảm tiêu cực. 167 00:08:07,384 --> 00:08:10,790 "học sâu" thực sự đang gần giống như con người 168 00:08:10,802 --> 00:08:15,923 trong việc hiểu chủ đề các câu và nội dung diễn đạt. 169 00:08:15,923 --> 00:08:18,651 "học sâu" có thể đọc tiếng Trung, 170 00:08:18,651 --> 00:08:21,807 giống như người nói tiếng Trung bản xứ. 171 00:08:21,807 --> 00:08:23,975 Giải thuật này phát triển ở Thụy Sĩ 172 00:08:23,975 --> 00:08:27,331 bởi những người không biết tí gì tiếng Trung. 173 00:08:27,331 --> 00:08:29,382 Như tôi đã nói, "học sâu" 174 00:08:29,382 --> 00:08:31,601 là phương tiện tốt nhất trong lĩnh vực này, 175 00:08:31,601 --> 00:08:36,718 vì nó có thể hiểu thậm chí như người bản địa. 176 00:08:36,718 --> 00:08:39,682 Đây là hệ thống chúng tôi trang bị ở công ty tôi, 177 00:08:39,682 --> 00:08:41,728 công ty tôi muốn sử dụng và kết hợp tất cả. 178 00:08:41,728 --> 00:08:44,189 Đây là những tấm hình không kèm theo dòng chữ nào, 179 00:08:44,189 --> 00:08:46,541 vì tôi viết những câu vào chỗ này, 180 00:08:46,541 --> 00:08:49,510 nhờ đó nó hiểu những tấm hình này 181 00:08:49,510 --> 00:08:51,189 và tìm ra chúng nói về cái gì 182 00:08:51,189 --> 00:08:54,352 và tìm những tấm hình có ý tương tự với dòng chữ tôi đang viết. 183 00:08:54,352 --> 00:08:57,108 Vậy các bạn thấy đó, nó thực sự hiểu được câu tôi viết 184 00:08:57,108 --> 00:08:59,332 và thực sự hiểu những tấm hình này. 185 00:08:59,332 --> 00:09:01,891 Tôi biết các bạn từng thấy điều tương tự trên Google, 186 00:09:01,891 --> 00:09:04,666 khi bạn viết điều gì đó và chúng hiện lên các tấm ảnh, 187 00:09:04,666 --> 00:09:08,090 nhưng thực sự những gì nó đang làm là tìm những trang web theo dòng chữ. 188 00:09:08,090 --> 00:09:11,091 Điều này rất khác với việc thực việc hiểu những tấm ảnh. 189 00:09:11,091 --> 00:09:13,843 Đây là điều mà máy tính chỉ có thể làm 190 00:09:13,843 --> 00:09:17,091 lần đầu tiên cách đây vài tháng. 191 00:09:17,091 --> 00:09:21,182 Chúng ta thấy máy tính không chỉ nhìn thấy được mà chúng còn đọc được, 192 00:09:21,182 --> 00:09:24,947 và dĩ nhiên chúng tôi cho thấy chúng còn hiểu được những gì chúng nghe. 193 00:09:24,947 --> 00:09:28,389 Có lẽ không còn ngạc nhiên khi tôi nói với các bạn chúng có thể viết. 194 00:09:28,389 --> 00:09:33,172 Ở đây là những dòng văn bản tôi tạo ra bằng giải thuật "học sâu" hôm qua. 195 00:09:33,172 --> 00:09:37,096 Và đây là những văn bản giải thuật ở Stanford tạo ra. 196 00:09:37,096 --> 00:09:38,860 Mỗi câu được tạo ra 197 00:09:38,860 --> 00:09:43,109 bằng giải thuật "học sâu" nhằm mô tả những bức ảnh này. 198 00:09:43,109 --> 00:09:47,581 Trước đây giải thuật này chưa bao giờ thấy một người đàn ông áo đen chơi ghita 199 00:09:47,581 --> 00:09:49,801 Nhưng nó đã thấy đàn ông, và đã thấy màu đen, 200 00:09:49,801 --> 00:09:51,400 và nó cũng đã thấy đàn ghita, 201 00:09:51,400 --> 00:09:55,694 rồi nó đã tự tạo ra chú thích của tấm ảnh này. 202 00:09:55,694 --> 00:09:59,196 Máy vẫn chưa đạt đến mức như con người, nhưng cũng khá gần rồi. 203 00:09:59,196 --> 00:10:03,264 Trong các thí nghiệm máy viết phụ đề cho hình, số phụ đề được người ta chọn 204 00:10:03,264 --> 00:10:04,791 chỉ ở tỉ lệ 1/4. 205 00:10:04,791 --> 00:10:06,855 Nhưng hệ thống này giờ chỉ mới 2 tuần tuổi, 206 00:10:06,855 --> 00:10:08,701 nên có thể trong năm tới, 207 00:10:08,701 --> 00:10:11,502 giải thuật máy tính sẽ còn hơn cả con người 208 00:10:11,502 --> 00:10:13,364 và tỉ lệ được chọn sẽ cao hơn. 209 00:10:13,364 --> 00:10:16,413 Máy tính cũng có thể viết. 210 00:10:16,413 --> 00:10:19,888 Chúng tôi kết hợp tất cả lại và nó dẫn đến những cơ hội rất thú vị. 211 00:10:19,888 --> 00:10:21,380 Ví dụ, trong ngành y, 212 00:10:21,380 --> 00:10:23,905 một nhóm ở Boston thông báo họ đã tìm ra 213 00:10:23,905 --> 00:10:26,854 hàng chục tính năng lâm sàng mới 214 00:10:26,854 --> 00:10:31,120 của các khối u để giúp các bác sĩ tiên đoán bệnh ung thư. 215 00:10:32,220 --> 00:10:34,516 Tương tự, ở Stanford, 216 00:10:34,516 --> 00:10:38,179 một nhóm thông báo rằng, dựa vào các hình phóng đại của mô, 217 00:10:38,179 --> 00:10:40,560 họ phát triển hệ thống "máy biết học" 218 00:10:40,560 --> 00:10:43,142 còn tốt hơn cả các nhà nghiên cứu bệnh học 219 00:10:43,142 --> 00:10:47,519 nhờ thế làm tăng khả năng sống sót của các bệnh nhân ung thư. 220 00:10:47,519 --> 00:10:50,764 Trong cả hai trường hợp, không chỉ việc tiên đoán chính xác hơn, 221 00:10:50,764 --> 00:10:53,266 mà còn tạo ra ngành khoa học mới rất triển vọng. 222 00:10:53,276 --> 00:10:54,781 Trong lĩnh vực X-quang, 223 00:10:54,781 --> 00:10:57,876 chúng là những chỉ số lâm sàng mới mà con người có thể hiểu. 224 00:10:57,876 --> 00:10:59,668 Trong lĩnh vực bệnh học, 225 00:10:59,668 --> 00:11:04,168 hệ thống máy tính đã cho thấy rằng những tế bào xung quanh khối u 226 00:11:04,168 --> 00:11:07,508 cũng quan trọng như chính tế bào ung thư 227 00:11:07,508 --> 00:11:09,260 trong việc chẩn đoán bệnh. 228 00:11:09,260 --> 00:11:14,621 Điều này ngược với những gì các nhà bệnh học được dạy trong nhiều thập kỷ qua. 229 00:11:14,621 --> 00:11:17,913 Trong mỗi trường hợp trên, chúng là các hệ thống được phát triển 230 00:11:17,913 --> 00:11:21,534 bởi sự hợp tác của các chuyên gia y tế và các chuyên gia "máy biết học", 231 00:11:21,534 --> 00:11:24,275 nhưng từ năm trước, chúng tôi đã tiến khá xa. 232 00:11:24,275 --> 00:11:27,824 Đây là một ví dụ về xác định khu vực ung thư 233 00:11:27,824 --> 00:11:30,354 của mô người dưới kính hiển vi. 234 00:11:30,354 --> 00:11:34,967 Hệ thống có thể xác định những khu vực chính xác hơn 235 00:11:34,967 --> 00:11:37,742 hoặc tương đương các nhà bệnh học, 236 00:11:37,742 --> 00:11:41,134 nhưng vì nó được xây dựng với "học sâu" không có chuyên gia ngành y 237 00:11:41,134 --> 00:11:43,660 nên những người không chuyên cũng có thể dùng. 238 00:11:44,730 --> 00:11:47,285 Ví dụ như việc phân đoạn nơ ron này. 239 00:11:47,285 --> 00:11:50,953 Máy giúp chúng tôi phân đoạn nơ ron chính xác như các chuyên gia, 240 00:11:50,953 --> 00:11:53,670 nhưng hệ thống này lại được thiết kế với "học sâu" 241 00:11:53,670 --> 00:11:56,921 bởi những người không có chuyên môn y khoa. 242 00:11:56,921 --> 00:12:00,148 Còn tôi, cũng không có nền tảng về y khoa, 243 00:12:00,148 --> 00:12:03,875 thế mà tôi dường như có đầy đủ năng lực để mở một công ty về ngành y, 244 00:12:03,875 --> 00:12:06,021 và tôi đã làm. 245 00:12:06,021 --> 00:12:07,761 Tôi đã từng sợ trước khi bắt đầu, 246 00:12:07,761 --> 00:12:10,650 nhưng lý thuyết cho thấy mọi người có thể 247 00:12:10,650 --> 00:12:16,142 dùng những kỹ thuật phân tích dữ liệu để có được một nền y học hiệu quả. 248 00:12:16,142 --> 00:12:18,622 Và may mắn là tôi nhận được những phản hồi rất tốt, 249 00:12:18,622 --> 00:12:20,978 không chỉ từ truyền thông mà còn từ giới y khoa, 250 00:12:20,978 --> 00:12:23,322 họ luôn ủng hộ. 251 00:12:23,322 --> 00:12:27,471 Về lý thuyết, chúng tôi có thể lấy phần giữa của quy trình 252 00:12:27,471 --> 00:12:30,364 và làm phân tích dữ liệu càng nhiều càng tốt, 253 00:12:30,364 --> 00:12:33,429 phần còn lại dành cho bác sĩ. 254 00:12:33,429 --> 00:12:35,031 Tôi muốn đưa ra một ví dụ. 255 00:12:35,031 --> 00:12:39,975 Thông thường ta cần 15 phút để làm một xét nghiệm chẩn đoán 256 00:12:39,975 --> 00:12:41,929 và tôi sẽ làm cho bạn xem 257 00:12:41,929 --> 00:12:45,416 tôi nén nó thành 3 phút bằng cách cắt bớt bỏ một số phần. 258 00:12:45,416 --> 00:12:48,477 Thay vì cho bạn xem quá trình một xét nghiệm chẩn đoán y học, 259 00:12:48,477 --> 00:12:51,846 tôi sẽ cho các bạn xem một xét nghiệm chẩn đoán hình ảnh xe hơi, 260 00:12:51,846 --> 00:12:54,068 vì như thế sẽ dễ hiểu cho mọi người. 261 00:12:54,068 --> 00:12:57,269 Chúng tôi bắt đầu với khoảng 1,5 triệu hình ảnh xe hơi, 262 00:12:57,269 --> 00:13:00,475 tôi muốn tạo tiêu chuẩn để gom chúng lại vào góc 263 00:13:00,475 --> 00:13:02,698 của bức hình đang được chụp. 264 00:13:02,698 --> 00:13:06,586 Những bức hình này không gắn nhãn trước, nên tôi phải bắt đầu từ số không. 265 00:13:06,586 --> 00:13:08,451 Giải thuật "học sâu" 266 00:13:08,451 --> 00:13:12,158 có thể tự xác định vùng cấu trúc trong những bức ảnh này. 267 00:13:12,158 --> 00:13:15,778 Rất thuận lợi, bây giờ con người và máy tính có thể làm việc cùng nhau. 268 00:13:15,778 --> 00:13:17,956 Như các bạn đang thấy đây, con người 269 00:13:17,956 --> 00:13:20,631 đang nói cho máy tính biết lĩnh vực cần quan tâm 270 00:13:20,631 --> 00:13:25,281 mà họ muốn máy tính sử dụng để cải thiện giải thuật của nó. 271 00:13:25,281 --> 00:13:29,577 Những hệ thống "học sâu" này thực ra là không gian 16,000 chiều, 272 00:13:29,577 --> 00:13:33,009 bạn có thể thấy ở đây máy tính quay quanh không gian đó, 273 00:13:33,009 --> 00:13:35,001 cố gắng tìm vùng mới của cấu trúc. 274 00:13:35,001 --> 00:13:36,782 Và khi nó làm thành công, 275 00:13:36,782 --> 00:13:40,786 người sử dụng máy có thể tìm thấy khu vực đáng quan tâm. 276 00:13:40,786 --> 00:13:43,208 Ở đây, máy tính đã tìm ra những vùng đó, 277 00:13:43,208 --> 00:13:45,770 ví dụ, các góc. 278 00:13:45,770 --> 00:13:47,376 Khi chúng tôi thực hiện, 279 00:13:47,376 --> 00:13:49,716 chúng tôi lần lượt nói cho máy tính 280 00:13:49,716 --> 00:13:52,144 các loại mảng cấu trúc mà chúng tôi tìm kiếm. 281 00:13:52,144 --> 00:13:53,916 Hãy liên tưởng xét nghiệm chuẩn đoán, 282 00:13:53,916 --> 00:13:57,266 ví dụ, một chuyên gia bệnh học xác định những vùng của bệnh , 283 00:13:57,266 --> 00:14:02,292 hoặc một bác sĩ X-quang cho thấy nốt sần có thể gây phiền phức, 284 00:14:02,292 --> 00:14:04,851 và đôi khi nó gây khó cho giải thuật. 285 00:14:04,851 --> 00:14:06,815 Trong trường hợp này, giải thuật hơi rối. 286 00:14:06,815 --> 00:14:09,365 Phần trước và sau của xe rất giống nhau nên dễ nhầm. 287 00:14:09,365 --> 00:14:11,437 Chúng tôi phải cẩn thận hơn, 288 00:14:11,437 --> 00:14:14,669 chọn bằng tay phần trước để thấy sự khác biệt với phần sau, 289 00:14:14,669 --> 00:14:20,175 sau đó bảo với máy tính rằng đây là tiêu chuẩn nhận dạng nhóm 290 00:14:20,175 --> 00:14:21,523 mà chúng tôi quan tâm. 291 00:14:21,523 --> 00:14:24,200 Chúng tôi làm điều đó, thỉnh thoảng bỏ qua, 292 00:14:24,200 --> 00:14:26,446 sau đó luyện tập giải thuật cho "máy biết học" 293 00:14:26,446 --> 00:14:28,420 dựa trên hàng trăm lần như thế này, 294 00:14:28,420 --> 00:14:30,445 chúng tôi hy vọng nó hoàn thiện hơn. 295 00:14:30,445 --> 00:14:33,518 Các bạn thấy đó, nó đang bắt đầu làm mờ vài bức ảnh, 296 00:14:33,518 --> 00:14:38,226 cho thấy rằng nó đã nhận ra cách để hiểu những hình đó. 297 00:14:38,226 --> 00:14:41,128 Chúng tôi có thể dùng khái niệm này cho các bức ảnh tương tự, 298 00:14:41,128 --> 00:14:43,222 và dùng các bức ảnh tương tự, bạn thấy đó, 299 00:14:43,222 --> 00:14:47,241 máy tính có thể tìm thấy phần trước của chiếc xe. 300 00:14:47,241 --> 00:14:50,189 Lúc này, con người có thể nói cho máy tính 301 00:14:50,189 --> 00:14:52,482 ok, đúng rồi, bạn đã làm rất tốt. 302 00:14:53,652 --> 00:14:55,837 Nhưng đôi khi, đối với máy 303 00:14:55,837 --> 00:14:59,511 việc tách các nhóm hình vẫn còn khó. 304 00:14:59,511 --> 00:15:03,395 Ngay cả khi chúng tôi để nhiều thời gian cho máy tính xoay xở, 305 00:15:03,399 --> 00:15:06,744 nhưng chúng tôi vẫn thấy phía trái và phía phải bức ảnh 306 00:15:06,744 --> 00:15:08,222 bị chọn nhầm lẫn. 307 00:15:08,222 --> 00:15:10,362 Để cho máy tính thêm vài gợi ý, 308 00:15:10,362 --> 00:15:13,338 chúng tôi nói: ok, hãy thử và tìm một chi tiết 309 00:15:13,338 --> 00:15:15,945 khác biệt rõ ràng nhất giữa bên trái và bên phải 310 00:15:15,945 --> 00:15:18,067 bằng giải thuật "học sâu" này. 311 00:15:18,067 --> 00:15:21,009 Và với gợi ý đó, à, nó đã thành công. 312 00:15:21,009 --> 00:15:23,891 Nó được giao nhiệm vụ tìm ra cách nhận ra các đối tượng này 313 00:15:23,891 --> 00:15:26,271 rồi tách rời chúng ra. 314 00:15:26,271 --> 00:15:28,709 Các bạn đã nắm được cách làm này. 315 00:15:28,709 --> 00:15:36,906 Trong trường hợp này máy tính không thể thay con người, 316 00:15:36,906 --> 00:15:39,546 nhưng cả hai làm việc chung với nhau. 317 00:15:39,546 --> 00:15:43,096 Điều chúng tôi đang làm là thay thế những thứ mà trước đây cần một đội 318 00:15:43,096 --> 00:15:45,098 5 hoặc 6 người làm trong 7 năm 319 00:15:45,098 --> 00:15:47,703 bằng một công việc trong 15 phút 320 00:15:47,703 --> 00:15:50,208 của một người. 321 00:15:50,208 --> 00:15:54,158 Quá trình nhận ra và tách hình được lặp lại 4 hoặc 5 lần. 322 00:15:54,158 --> 00:15:56,017 Các bạn thấy chúng tôi có 62% 323 00:15:56,017 --> 00:15:58,976 trong số 1.5 triệu bức ảnh được phân loại chính xác. 324 00:15:58,976 --> 00:16:01,448 Và ở mức độ này, chúng tôi có thể bắt đầu với 325 00:16:01,448 --> 00:16:02,745 những nhóm lớn, 326 00:16:02,745 --> 00:16:05,664 kiểm tra chúng để bảo đảm không còn lỗi. 327 00:16:05,664 --> 00:16:09,616 Nơi nào có lỗi, chúng tôi sẽ cho máy tính biết. 328 00:16:09,616 --> 00:16:12,661 Và dùng dạng quá trình này cho từng nhóm khác nhau, 329 00:16:12,661 --> 00:16:15,148 bây giờ, chúng tôi đạt đến 80% tỉ lệ thành công 330 00:16:15,148 --> 00:16:17,563 trong việc phân loại 1.5 triệu tấm ảnh. 331 00:16:17,563 --> 00:16:19,641 Lúc này, với trường hợp 332 00:16:19,641 --> 00:16:23,220 tìm thấy những tấm không được phân loại đúng, 333 00:16:23,220 --> 00:16:26,108 chúng tôi cố gắng tìm hiểu lý do. 334 00:16:26,108 --> 00:16:27,851 Và sử dụng cách tiếp cận trên, 335 00:16:27,851 --> 00:16:31,972 với 15 phút chúng tôi đạt tỉ lệ phân loại 97%. 336 00:16:31,972 --> 00:16:36,572 Vậy kỹ thuật này có thể cho chúng ta chỉnh sửa một vấn đề lớn, 337 00:16:36,578 --> 00:16:39,614 mà toàn bộ chuyên gia trên thế giới cũng không đủ số để làm. 338 00:16:39,614 --> 00:16:43,103 Diễn đàn Kinh tế Thế giới nói rằng vào giữa thập kỷ 2010 và 2020 339 00:16:43,103 --> 00:16:45,727 số lượng bác sĩ bị thiếu so với nhu cầu của thế giới, 340 00:16:45,727 --> 00:16:47,840 và phải mất khoảng 300 năm 341 00:16:47,840 --> 00:16:50,734 để đào tạo đủ số nhân sự cho vấn đề này. 342 00:16:50,734 --> 00:16:53,619 Hãy tưởng tượng, liệu chúng ta có thể nâng hiệu năng của họ 343 00:16:53,619 --> 00:16:56,458 qua cách tiếp cận "học sâu"? 344 00:16:56,458 --> 00:16:58,690 Tôi rất thích việc tạo ra những cơ hội. 345 00:16:58,690 --> 00:17:01,279 Tôi cũng quan tâm đến các vấn đề khó cần giải quyết. 346 00:17:01,279 --> 00:17:04,403 Vấn đề ở đây là ở mỗi khu vực màu xanh da trời trên bản đồ, 347 00:17:04,403 --> 00:17:08,172 ngành dịch vụ chiếm 80% nhân lực. 348 00:17:08,172 --> 00:17:09,959 Ngành dịch vụ gì vậy? 349 00:17:09,959 --> 00:17:11,473 Các dịch vụ trong bảng này. 350 00:17:11,473 --> 00:17:15,627 Máy tính cũng vừa mới học được cách làm các dịch vụ này. 351 00:17:15,627 --> 00:17:19,431 Vậy công việc của 80% nhân lực trong các nước phát triển 352 00:17:19,431 --> 00:17:21,963 sẽ được máy tính học để làm thay. 353 00:17:21,963 --> 00:17:23,403 Điều đó có nghĩa là gì? 354 00:17:23,403 --> 00:17:25,986 À, sẽ ổn thôi. Họ sẽ làm các công việc khác. 355 00:17:25,986 --> 00:17:28,693 Ví dụ, sẽ có nhiều việc hơn cho các nhà khoa học dữ liệu. 356 00:17:28,693 --> 00:17:29,510 À cũng không hẳn. 357 00:17:29,510 --> 00:17:32,628 Vì các nhà khoa học dữ liệu không cần nhiều thời gian nữa. 358 00:17:32,628 --> 00:17:35,880 Ví dụ, bốn giải thuật này được xây dựng bởi cùng một người. 359 00:17:35,880 --> 00:17:38,318 Các bạn nghĩ chuyện này đã xảy ra trước đây rồi, 360 00:17:38,318 --> 00:17:42,126 trong quá khứ nhiều máy móc được làm ra và tiếp theo là 361 00:17:42,126 --> 00:17:44,378 và nhiều người đã phải chuyển sang việc mới, 362 00:17:44,378 --> 00:17:46,494 nhưng việc mới của thời nay này sẽ là gì? 363 00:17:46,494 --> 00:17:48,365 Thật khó để dự đoán được điều này, 364 00:17:48,365 --> 00:17:51,104 vì khả năng của con người thì chỉ tăng từng bước, 365 00:17:51,104 --> 00:17:53,666 nhưng với một hệ thống "học sâu", 366 00:17:53,666 --> 00:17:56,893 chúng ta có khả năng phát triển rất nhanh. 367 00:17:56,893 --> 00:17:58,498 Và chúng ta ở đây. 368 00:17:58,498 --> 00:18:00,559 Chúng ta thấy những thứ xung quanh 369 00:18:00,559 --> 00:18:03,235 và chúng ta nói: "Ôi, máy tính vẫn ngốc lắm", lo gì ? 370 00:18:03,235 --> 00:18:06,664 Nhưng trong 5 năm nữa, máy tính sẽ không còn như vậy. 371 00:18:06,664 --> 00:18:10,529 Chúng ta cần suy nghĩ tới khả năng này ngay từ bây giờ. 372 00:18:10,529 --> 00:18:12,579 Chúng ta thấy một lần như vậy trước đây rồi. 373 00:18:12,579 --> 00:18:13,966 Trong cách mạng công nghiệp, 374 00:18:13,966 --> 00:18:16,817 chúng ta đã thấy những thay đổi nhờ các động cơ. 375 00:18:17,667 --> 00:18:20,805 Mặc dù vậy, sau đó mọi thứ trở nên bình thường. 376 00:18:20,805 --> 00:18:22,507 Đã có vài đảo lộn trong xã hội, 377 00:18:22,507 --> 00:18:25,946 nhưng một khi động cơ được dùng để tạo ra những thuận lợi cho cuộc sống, 378 00:18:25,946 --> 00:18:28,300 thì mọi thứ đi vào ổn định. 379 00:18:28,300 --> 00:18:29,773 Cuộc cách mạng "máy biết học" 380 00:18:29,773 --> 00:18:32,682 sẽ rất khác với Cuộc cách mạng công nghiệp, 381 00:18:32,682 --> 00:18:35,632 vì Cách mạng "máy biết học sẽ không bao giờ dừng lại. 382 00:18:35,632 --> 00:18:38,614 Máy tính càng giỏi trong các hoạt động trí tuệ, 383 00:18:38,614 --> 00:18:42,862 thì chúng tạo nên những máy tính càng thông minh hơn, 384 00:18:42,862 --> 00:18:44,770 và đây chính là kiểu thay đổi 385 00:18:44,770 --> 00:18:47,248 mà thế giới chưa bao giờ trải qua, 386 00:18:47,248 --> 00:18:50,554 những phán đoán trước đây của bạn có thể sẽ không chính xác. 387 00:18:50,974 --> 00:18:52,754 Điều này tác động lên chính chúng ta. 388 00:18:52,754 --> 00:18:56,384 Trong 25 năm trước, khi năng suất thiết bị tăng, 389 00:18:56,400 --> 00:19:00,588 thì năng suất lao động không tăng, mà thậm chí còn hơi giảm. 390 00:19:01,408 --> 00:19:04,149 Tôi nghĩ chúng ta cần thảo luận về vấn đề này từ bây giờ. 391 00:19:04,149 --> 00:19:07,176 Khi tôi nói với mọi người về tình hình này, 392 00:19:07,176 --> 00:19:08,666 họ thường tỏ vẻ coi thường. 393 00:19:08,666 --> 00:19:10,339 Đúng, máy tính không thể suy nghĩ, 394 00:19:10,339 --> 00:19:13,367 chúng không có cảm xúc, không hiểu thơ ca, 395 00:19:13,367 --> 00:19:15,888 nhưng ta không lường trước được cách chúng làm việc. 396 00:19:15,888 --> 00:19:17,374 Vậy chuyện gì đây? 397 00:19:17,374 --> 00:19:19,178 Bây giờ, máy tính có thể làm 398 00:19:19,178 --> 00:19:21,897 những việc mà con người cần cả đời để thực hiện, 399 00:19:21,897 --> 00:19:23,628 đây là thời điểm để chúng ta nghĩ tới 400 00:19:23,628 --> 00:19:28,015 cách điều chỉnh cấu trúc xã hội và cấu trúc kinh tế 401 00:19:28,015 --> 00:19:29,855 để thận trọng với hiện thực mới này. 402 00:19:29,855 --> 00:19:31,388 Xin cảm ơn. 403 00:19:31,388 --> 00:19:32,190 (Tiếng vỗ tay)