WEBVTT

00:00:00.880 --> 00:00:04.893
Ngày xưa nếu bạn muốn máy tính
thực hiện thao tác mới,

00:00:04.893 --> 00:00:06.447
thì bạn phải lập trình nó trước.

00:00:06.447 --> 00:00:09.858
Đối với những bạn ở đây
chưa từng lập trình,

00:00:09.858 --> 00:00:13.360
việc này đòi hỏi phải lập sơ đồ chi tiết

00:00:13.360 --> 00:00:16.727
từng bước một cho điều
bạn muốn máy tính thực hiện

00:00:16.727 --> 00:00:19.089
để đạt được mục tiêu của bạn.

00:00:19.089 --> 00:00:22.585
Nếu bạn muốn làm một việc mà chính bạn
cũng không biết cách làm,

00:00:22.585 --> 00:00:24.648
thì đây sẽ là một thử thách khá lớn.

NOTE Paragraph

00:00:24.648 --> 00:00:28.131
Đây là thử thách mà người đàn ông này, 
Arthur Samuel, gặp phải.

00:00:28.131 --> 00:00:32.208
Vào năm 1956, ông muốn chiếc máy tính này

00:00:32.208 --> 00:00:34.548
có thể đánh bại ông trong môn cờ tướng.

00:00:34.548 --> 00:00:36.588
Làm sao mà bạn có thể viết ra chương trình

00:00:36.588 --> 00:00:40.394
tỉ mỉ, chi tiết về cách chơi 
cờ tướng giỏi hơn chính bạn ?

00:00:40.394 --> 00:00:42.116
Vậy là ông nảy ra một ý tưởng:

00:00:42.116 --> 00:00:45.840
ông để máy tính tự chơi lại hàng ngàn lần

00:00:45.840 --> 00:00:48.364
và tự học cách chơi cờ.

00:00:48.364 --> 00:00:51.544
Và quả nhiên cách này hiệu quả,
và thật sự, đến năm 1962,

00:00:51.544 --> 00:00:55.561
chiếc máy này đã đánh bại 
quán quân bang Connecticut.

NOTE Paragraph

00:00:55.561 --> 00:00:58.534
Arthur Samuel là cha đẻ của 
lĩnh vực machine learning,

00:00:58.534 --> 00:01:00.251
và tôi rất biết ơn ông,

00:01:00.251 --> 00:01:03.014
bởi tôi là một người làm trong 
ngành "máy biết học".

00:01:03.014 --> 00:01:04.479
Tôi từng là Chủ tịch ở Kaggle

00:01:04.479 --> 00:01:07.867
một cộng đồng gồm hơn 200,000 
chuyên gia về "máy biết học".

00:01:07.867 --> 00:01:09.925
Kaggle tổ chức các cuộc thi

00:01:09.925 --> 00:01:13.633
với thử thách là 
những vấn đề chưa có lời giải,

00:01:13.633 --> 00:01:17.470
và họ đã thành công hàng trăm lần.

00:01:17.470 --> 00:01:19.940
Với vị thế thuận lợi đó, 
tôi đã khám phá ra

00:01:19.940 --> 00:01:23.890
rất nhiều thứ mà "máy biết học" có thể 
làm được trước đây, làm được bây giờ,

00:01:23.890 --> 00:01:26.252
và những gì nó có thể làm trong tương lai.

00:01:26.252 --> 00:01:30.675
Có lẽ sự thành công vang dội đầu tiên 
của "máy biết học" là Google

00:01:30.675 --> 00:01:33.784
Google cho ta thấy nó có thể 
tìm kiếm thông tin

00:01:33.784 --> 00:01:35.536
bằng cách sử dụng thuật toán,

00:01:35.536 --> 00:01:38.437
và thuật toán này dựa trên
"máy biết học",

00:01:38.437 --> 00:01:42.323
Kể từ đó, đã có rất nhiều thành công
về mặt thương mại của "máy biết học".

00:01:42.323 --> 00:01:44.160
Công ty như Amazon và Netflix

00:01:44.160 --> 00:01:47.876
sử dụng "máy biết học"để gợi ý 
những sản phẩm bạn có thể muốn mua,

00:01:47.876 --> 00:01:49.896
các bộ phim bạn có thể muốn xem.

00:01:49.896 --> 00:01:51.703
Đôi khi nó làm ta 
rùng mình.

00:01:51.703 --> 00:01:53.657
Các công ty như LinkedIn và Facebook

00:01:53.657 --> 00:01:56.251
đôi khi sẽ nói cho bạn biết ai có thể
là bạn bè của bạn

00:01:56.251 --> 00:01:58.228
và bạn không hiểu nổi làm sao họ tìm ra,

00:01:58.228 --> 00:02:01.195
và đó là vì họ dùng đến sức mạnh của
"máy biết học".

00:02:01.195 --> 00:02:04.152
Đây là thuật toán tự học cách xử lý
từ cơ sở dữ liệu,

00:02:04.152 --> 00:02:07.399
thay vì được lập trình sẵn trước đó.

NOTE Paragraph

00:02:07.399 --> 00:02:09.877
Đây cũng là cách IBM thành công

00:02:09.877 --> 00:02:13.739
trong việc khiến cho Watson đánh bại 
hai nhà vô địch chương trình "Jeopardy",

00:02:13.739 --> 00:02:16.964
bằng cách trả lời những câu hỏi hóc 
búa và phức tạp như :

00:02:16.964 --> 00:02:19.799
[Sư tử Nimrud bị mất tại bảo tàng 
quốc gia thành phố ...

00:02:19.799 --> 00:02:23.034
Đây cũng là cơ sở cho
những xe hơi tự lái đầu tiên.

00:02:23.034 --> 00:02:25.856
Nếu chúng phân biệt 
được sự khác nhau giữa

00:02:25.856 --> 00:02:28.488
cây xanh và người đi bộ,
thì đó là việc rất quan trọng.

00:02:28.488 --> 00:02:31.075
Chúng ta không biết cách viết 
những chương trình này,

00:02:31.075 --> 00:02:34.072
nhưng với "máy biết học", điều đó
trở thành có thể.

00:02:34.072 --> 00:02:36.680
Và thực tế, loại xe này đã đi được 
cả triệu dặm

00:02:36.680 --> 00:02:40.186
trên những con đường bình thường 
mà không gây tai nạn nào.

NOTE Paragraph

00:02:40.196 --> 00:02:44.110
Bây giờ chúng ta biết máy tính
có thể học được,

00:02:44.110 --> 00:02:46.010
và chúng có thể học
cách làm những việc

00:02:46.010 --> 00:02:48.848
mà đôi khi chính chúng ta 
không biết cách làm,

00:02:48.848 --> 00:02:51.733
hoặc có thể chúng làm tốt hơn ta.

00:02:51.733 --> 00:02:55.928
Một trong những ví dụ ngoạn mục nhất
về "máy biết học" tôi từng thấy

00:02:55.928 --> 00:02:58.320
là dự án tôi tham gia ở Kaggle

00:02:58.320 --> 00:03:01.911
nơi đó có một anh chàng điều khiển 
một nhóm, anh ta tên là Geofrey Hinton

00:03:01.911 --> 00:03:03.463
đến từ Đại học Toronto

00:03:03.463 --> 00:03:06.140
nhóm này thắng cuộc thi về
chế tạo máy phát hiện ma túy.

00:03:06.140 --> 00:03:08.987
Bây giờ, điều phi thường ở đây 
không phải là họ đánh bại

00:03:08.987 --> 00:03:13.000
tất cả các giải thuật phát triển bới Merk
hay các cộng đồng học thuật quốc tế khác

00:03:13.000 --> 00:03:18.061
mà chính là họ không có thành viên nào 
chuyên về hóa, sinh hay khoa học đời sống,

00:03:18.061 --> 00:03:20.230
và họ đã tạo ra chiếc máy 
chỉ trong 2 tuần.

00:03:20.230 --> 00:03:21.611
Làm thế nào mà họ làm được?

00:03:22.421 --> 00:03:25.342
Họ dùng 1 siêu giải thuật
gọi là deep learning: "học sâu".

00:03:25.342 --> 00:03:28.291
Thành công này quan trọng 
đến mức đã được lên

00:03:28.291 --> 00:03:31.412
trang bìa tờ New York Times
vài tuần sau đó.

00:03:31.412 --> 00:03:34.147
Đây là Geoffrey Hinton ở đây bên bìa trái.

00:03:34.147 --> 00:03:38.488
"Học sâu" là một giải thuật lấy 
cảm hứng từ cách làm việc của não người,

00:03:38.488 --> 00:03:40.300
và kết quả là giải thuật này

00:03:40.300 --> 00:03:44.141
về lý thuyết, không có giới hạn cho 
những gì nó có thể làm.

00:03:44.141 --> 00:03:46.964
Bạn đưa vào càng nhiều dữ liệu và
cho càng nhiều thời gian,

00:03:46.964 --> 00:03:48.276
thì nó càng làm tốt.

NOTE Paragraph

00:03:48.276 --> 00:03:50.615
Trong bài báo này, Tờ New York Times
cũng nói về

00:03:50.615 --> 00:03:52.857
một kết quả tuyệt vời khác 
của "học sâu"

00:03:52.857 --> 00:03:55.569
mà tôi sẽ cho các bạn xem bây giờ.

00:03:55.569 --> 00:04:00.510
Đó là máy tính có thể nghe và hiểu.

NOTE Paragraph

00:04:00.510 --> 00:04:03.221
(Video) Richard Rashid: 
Bây giờ là bước cuối cùng

00:04:03.221 --> 00:04:06.246
mà tôi muốn làm trong quá trình này

00:04:06.246 --> 00:04:10.961
là nói chuyện với các bạn bằng 
tiếng Trung.

00:04:10.961 --> 00:04:13.596
Điểm mấu chốt đó là,

00:04:13.596 --> 00:04:18.598
chúng tôi có thể lấy lượng lớn
thông tin từ những người nói tiếng Trung

00:04:18.598 --> 00:04:21.128
và tạo ra hệ thống chuyển văn bản 
thành giọng nói

00:04:21.128 --> 00:04:25.801
nó giúp lấy văn bản tiếng Trung chuyển 
thành tiếng Trung,

00:04:25.801 --> 00:04:29.929
và sau đó chúng tôi đã thực hiện khoảng 
1 giờ để lấy giọng của chính tôi

00:04:29.929 --> 00:04:31.820
từ đó chúng tôi đã điều chỉnh

00:04:31.820 --> 00:04:36.364
hệ thống chuyển 'văn bản-lời nói'
để cho ra được giọng nói giống tôi.

00:04:36.364 --> 00:04:38.904
Lần nữa, kết quả không hoàn hảo.

00:04:38.904 --> 00:04:41.552
Thực tế vẫn còn một vài lỗi.

00:04:41.552 --> 00:04:44.036
( tiếng Trung).

00:04:44.036 --> 00:04:47.403
(vỗ tay)

00:04:49.446 --> 00:04:53.022
Còn nhiều việc để làm trong lĩnh vực này.

00:04:53.022 --> 00:04:56.667
( tiếng Trung)

00:04:56.667 --> 00:05:00.100
( vỗ tay)

NOTE Paragraph

00:05:01.345 --> 00:05:04.744
Jeremy Howard: đó là trong một hội thảo
về "máy biết học" ở Trung Quốc.

00:05:04.744 --> 00:05:07.114
Thực ra ở hội thảo học thuật, các bạn

00:05:07.114 --> 00:05:09.011
thường ít nghe tiếng vỗ tay tự phát,

00:05:09.011 --> 00:05:12.687
ngay cả ở các hội thảo của TEDx,
hay vỗ tay thoải mái đi.

00:05:12.687 --> 00:05:15.482
Những điều bạn thấy đó
đang diễn ra với "học sâu".

00:05:15.482 --> 00:05:17.007
( vỗ tay) Cảm ơn.

00:05:17.007 --> 00:05:19.289
Viết lại lời tiếng tiếng Anh
bằng "học sâu".

00:05:19.289 --> 00:05:22.701
Dịch sang tiếng Trung có văn bản
ở trên bên phải, do "học sâu",

00:05:22.701 --> 00:05:26.008
và xây dựng giọng nói cũng nhờ 
"học sâu".

NOTE Paragraph

00:05:26.008 --> 00:05:29.242
"Học sâu" thật sự phi thường.

00:05:29.242 --> 00:05:32.341
Nó là một giải thuật đơn giản mà có vẻ 
làm được hầu hết mọi thứ,

00:05:32.341 --> 00:05:35.452
và tôi phát hiện trước đó một năm,
nó còn học nhìn thấy.

00:05:35.452 --> 00:05:37.628
Trong cuộc thi ở Đức,

00:05:37.628 --> 00:05:40.225
cuộc thi 'Nhận biết Tín hiệu
Giao thông Benchmark',

00:05:40.225 --> 00:05:43.618
"học sâu" nhận biết các 
tín hiệu giao thông,như cái này.

00:05:43.618 --> 00:05:45.712
Nó không chỉ nhận biết tín hiệu giao thông

00:05:45.712 --> 00:05:47.470
tốt hơn bất kỳ giải thuật nào khác,

00:05:47.470 --> 00:05:50.189
mà còn làm tốt hơn cả con người,

00:05:50.189 --> 00:05:52.041
tốt hơn gấp đôi.

00:05:52.041 --> 00:05:54.037
Năm 2011, chúng tôi có thử nghiệm đầu tiên

00:05:54.037 --> 00:05:57.442
cho thấy máy tính có thể nhìn
tốt hơn con người.

00:05:57.442 --> 00:05:59.491
Từ đó, rất nhiều điều đã xảy ra.

00:05:59.491 --> 00:06:03.005
Năm 2012, Google thông báo họ đã có một
giải thuật "học sâu"

00:06:03.005 --> 00:06:04.420
xem được video trên YouTube

00:06:04.420 --> 00:06:07.857
và lấy dữ liệu từ 16,000 máy tính trong
một tháng,

00:06:07.857 --> 00:06:12.218
và máy tính đã học một cách độc lập
các khái niệm "người" và "mèo"

00:06:12.218 --> 00:06:14.027
chỉ bằng việc xem các videos.

00:06:14.027 --> 00:06:16.379
Cách này rất giống
cách học của con người.

00:06:16.379 --> 00:06:19.119
Không cần khái niệm có sẵn,
ta học từ cái ta nhìn thấy,

00:06:19.119 --> 00:06:22.450
ta có thể hiểu trực tiếp
bản chất của sự vật đó.

00:06:22.450 --> 00:06:25.819
Cũng trong năm 2012, Geoffrey Hinton,


00:06:25.819 --> 00:06:28.677
chiến thắng cuộc thi
ImageNet rất nổi tiếng,

00:06:28.677 --> 00:06:32.818
vì đã tìm ra cách để xác định 
một trong số nửa triệu tấm ảnh

00:06:32.818 --> 00:06:34.256
được giao trước.

00:06:34.256 --> 00:06:37.789
Từ 2014, chúng tôi đã giảm
còn 6% tỉ lệ lỗi

00:06:37.789 --> 00:06:39.242
trong việc nhận diện hình ảnh.

00:06:39.242 --> 00:06:41.268
Với dạng việc này, 
máy cũng hơn con người.

NOTE Paragraph

00:06:41.268 --> 00:06:45.037
Thật vậy, máy rất siêu trong lĩnh vực này,

00:06:45.037 --> 00:06:47.306
và đang được ứng dụng trong công nghiệp.

00:06:47.306 --> 00:06:50.348
Ví dụ, năm ngoái Google thông báo

00:06:50.348 --> 00:06:54.933
họ đã lập bản đồ mọi địa điểm ở Pháp 
trong 2 giờ,

00:06:54.933 --> 00:06:58.380
và cách họ làm là nạp những hình ảnh 
đường phố

00:06:58.380 --> 00:07:02.699
vào giải thuật "học sâu" để nhận diện
và đọc số nhà.

00:07:02.699 --> 00:07:04.919
Hãy tưởng tượng trước đây 
mất bao lâu:

00:07:04.919 --> 00:07:08.274
vài chục người làm việc trong nhiều năm.

00:07:08.274 --> 00:07:10.185
Điều này cũng diễn ra ở Trung Quốc.

00:07:10.185 --> 00:07:14.221
Tôi thấy Baidu cũng là một dạng 
Google ở Trung Quốc,

00:07:14.221 --> 00:07:16.504
và những gì bạn thấy ở trên bên góc trái

00:07:16.504 --> 00:07:20.478
là một ví dụ về một bức ảnh tôi tải lên 
hệ thống "học sâu" của Baidu

00:07:20.478 --> 00:07:24.247
và ở dưới bạn có thể thấy kết quả 
hệ thống xử lý bức ảnh

00:07:24.247 --> 00:07:26.483
và nó đã tìm ra những bức hình tương tự.

00:07:26.483 --> 00:07:29.219
Những bức hình tương tự thực ra có 
nền tương tự,

00:07:29.219 --> 00:07:30.877
hướng của khuôn mặt tương tự,

00:07:30.877 --> 00:07:32.665
và cả một số hình có lưỡi thè ra.

00:07:32.665 --> 00:07:35.695
Đây không phải là đối chiếu văn bản 
của trang web.

00:07:35.695 --> 00:07:37.107
Tôi chỉ upload một tấm ảnh.

00:07:37.107 --> 00:07:41.128
Vậy chúng ta đang có những chiếc máy tính
thực sự hiểu được những gì chúng nhìn thấy

00:07:41.128 --> 00:07:42.752
và có thể nhờ đó tìm dữ liệu

00:07:42.752 --> 00:07:46.306
của hàng trăm triệu tấm ảnh.

NOTE Paragraph

00:07:46.306 --> 00:07:49.536
Điều đó có nghĩa là gì khi máy tính 
có thể nhìn thấy?

00:07:49.536 --> 00:07:51.553
À, máy tính không chỉ có thể
nhìn thấy.

00:07:51.553 --> 00:07:53.622
Thật ra, "học sâu"
còn làm được nhiều hơn.

00:07:53.622 --> 00:07:56.570
Những câu phức tạp và đầy 
nét khác biệt tinh tế như câu này

00:07:56.570 --> 00:07:59.394
giờ đã được hiểu bởi giải thuật "học sâu".

00:07:59.394 --> 00:08:00.697
Như các bạn thấy ở đây,


00:08:00.697 --> 00:08:03.465
hệ thống nền Stanford này đang chiếu điểm
đỏ ở trên

00:08:03.465 --> 00:08:07.384
đã tìm ra rằng câu này thể hiện tình cảm
tiêu cực.

00:08:07.384 --> 00:08:10.790
"học sâu" thực sự đang gần giống như
con người

00:08:10.802 --> 00:08:15.923
trong việc hiểu chủ đề các câu 
và nội dung diễn đạt.

00:08:15.923 --> 00:08:18.651
"học sâu" có thể đọc tiếng Trung,

00:08:18.651 --> 00:08:21.807
giống như người nói tiếng Trung bản xứ.

00:08:21.807 --> 00:08:23.975
Giải thuật này phát triển ở Thụy Sĩ

00:08:23.975 --> 00:08:27.331
bởi những người không 
biết tí gì tiếng Trung.

00:08:27.331 --> 00:08:29.382
Như tôi đã nói, "học sâu"

00:08:29.382 --> 00:08:31.601
là phương tiện tốt nhất 
trong lĩnh vực này,

00:08:31.601 --> 00:08:36.718
vì nó có thể hiểu 
thậm chí như người bản địa.

NOTE Paragraph

00:08:36.718 --> 00:08:39.682
Đây là hệ thống chúng tôi trang bị
ở công ty tôi,

00:08:39.682 --> 00:08:41.728
công ty tôi muốn sử dụng 
và kết hợp tất cả.

00:08:41.728 --> 00:08:44.189
Đây là những tấm hình không kèm theo
dòng chữ nào,

00:08:44.189 --> 00:08:46.541
vì tôi viết những câu vào chỗ này,

00:08:46.541 --> 00:08:49.510
nhờ đó nó hiểu những tấm hình này

00:08:49.510 --> 00:08:51.189
và tìm ra chúng nói về cái gì

00:08:51.189 --> 00:08:54.352
và tìm những tấm hình có ý 
tương tự với dòng chữ tôi đang viết.

00:08:54.352 --> 00:08:57.108
Vậy các bạn thấy đó, nó thực sự hiểu
được câu tôi viết

00:08:57.108 --> 00:08:59.332
và thực sự hiểu những tấm hình này.

00:08:59.332 --> 00:09:01.891
Tôi biết các bạn từng thấy điều tương tự
trên Google,

00:09:01.891 --> 00:09:04.666
khi bạn viết điều gì đó và chúng hiện
lên các tấm ảnh,

00:09:04.666 --> 00:09:08.090
nhưng thực sự những gì nó đang làm là 
tìm những trang web theo dòng chữ.

00:09:08.090 --> 00:09:11.091
Điều này rất khác với việc thực việc hiểu
những tấm ảnh.

00:09:11.091 --> 00:09:13.843
Đây là điều mà máy tính chỉ có thể làm

00:09:13.843 --> 00:09:17.091
lần đầu tiên cách đây vài tháng.

NOTE Paragraph

00:09:17.091 --> 00:09:21.182
Chúng ta thấy máy tính không chỉ 
nhìn thấy được mà chúng còn đọc được,

00:09:21.182 --> 00:09:24.947
và dĩ nhiên chúng tôi cho thấy chúng còn
hiểu được những gì chúng nghe.

00:09:24.947 --> 00:09:28.389
Có lẽ không còn ngạc nhiên khi tôi nói 
với các bạn chúng có thể viết.

00:09:28.389 --> 00:09:33.172
Ở đây là những dòng văn bản tôi tạo ra
bằng giải thuật "học sâu" hôm qua.

00:09:33.172 --> 00:09:37.096
Và đây là những văn bản giải thuật ở 
Stanford tạo ra.

00:09:37.096 --> 00:09:38.860
Mỗi câu được tạo ra

00:09:38.860 --> 00:09:43.109
bằng giải thuật "học sâu" nhằm mô tả
những bức ảnh này.

00:09:43.109 --> 00:09:47.581
Trước đây giải thuật này chưa bao giờ
thấy một người đàn ông áo đen chơi ghita

00:09:47.581 --> 00:09:49.801
Nhưng nó đã thấy đàn ông,
và đã thấy màu đen,

00:09:49.801 --> 00:09:51.400
và nó cũng đã thấy đàn ghita,

00:09:51.400 --> 00:09:55.694
rồi nó đã tự tạo ra 
chú thích của tấm ảnh này.

00:09:55.694 --> 00:09:59.196
Máy vẫn chưa đạt đến mức như 
con người, nhưng cũng khá gần rồi.

00:09:59.196 --> 00:10:03.264
Trong các thí nghiệm máy viết phụ đề
cho hình, số phụ đề được người ta chọn

00:10:03.264 --> 00:10:04.791
chỉ ở tỉ lệ 1/4.

00:10:04.791 --> 00:10:06.855
Nhưng hệ thống này giờ 
chỉ mới 2 tuần tuổi,

00:10:06.855 --> 00:10:08.701
nên có thể trong năm tới,

00:10:08.701 --> 00:10:11.502
giải thuật máy tính sẽ còn
hơn cả con người

00:10:11.502 --> 00:10:13.364
và tỉ lệ được chọn sẽ cao hơn.

00:10:13.364 --> 00:10:16.413
Máy tính cũng có thể viết.

NOTE Paragraph

00:10:16.413 --> 00:10:19.888
Chúng tôi kết hợp tất cả lại và nó 
dẫn đến những cơ hội rất thú vị.

00:10:19.888 --> 00:10:21.380
Ví dụ, trong ngành y,

00:10:21.380 --> 00:10:23.905
một nhóm ở Boston thông báo họ đã tìm ra

00:10:23.905 --> 00:10:26.854
hàng chục tính năng lâm sàng mới

00:10:26.854 --> 00:10:31.120
của các khối u để giúp các
bác sĩ tiên đoán bệnh ung thư.

00:10:32.220 --> 00:10:34.516
Tương tự, ở Stanford,

00:10:34.516 --> 00:10:38.179
một nhóm thông báo rằng, dựa vào 
các hình phóng đại của mô,

00:10:38.179 --> 00:10:40.560
họ phát triển hệ thống "máy biết học"

00:10:40.560 --> 00:10:43.142
còn tốt hơn cả các nhà nghiên cứu bệnh học

00:10:43.142 --> 00:10:47.519
nhờ thế làm tăng khả năng sống sót
của các bệnh nhân ung thư.

00:10:47.519 --> 00:10:50.764
Trong cả hai trường hợp, không chỉ việc 
tiên đoán chính xác hơn,

00:10:50.764 --> 00:10:53.266
mà còn tạo ra ngành 
khoa học mới rất triển vọng.

00:10:53.276 --> 00:10:54.781
Trong lĩnh vực X-quang,

00:10:54.781 --> 00:10:57.876
chúng là những chỉ số lâm sàng
mới mà con người có thể hiểu.

00:10:57.876 --> 00:10:59.668
Trong lĩnh vực bệnh học,

00:10:59.668 --> 00:11:04.168
hệ thống máy tính đã cho thấy rằng 
những tế bào xung quanh khối u

00:11:04.168 --> 00:11:07.508
cũng quan trọng như chính tế bào ung thư

00:11:07.508 --> 00:11:09.260
trong việc chẩn đoán bệnh.

00:11:09.260 --> 00:11:14.621
Điều này ngược với những gì các nhà 
bệnh học được dạy trong nhiều thập kỷ qua.

00:11:14.621 --> 00:11:17.913
Trong mỗi trường hợp trên,
chúng là các hệ thống được phát triển

00:11:17.913 --> 00:11:21.534
bởi sự hợp tác của các chuyên gia y tế
và các chuyên gia "máy biết học",

00:11:21.534 --> 00:11:24.275
nhưng từ năm trước,
chúng tôi đã tiến khá xa.

00:11:24.275 --> 00:11:27.824
Đây là một ví dụ về xác định khu vực 
ung thư

00:11:27.824 --> 00:11:30.354
của mô người dưới kính hiển vi.

00:11:30.354 --> 00:11:34.967
Hệ thống có thể xác định những 
khu vực chính xác hơn

00:11:34.967 --> 00:11:37.742
hoặc tương đương các nhà bệnh học,

00:11:37.742 --> 00:11:41.134
nhưng vì nó được xây dựng với 
"học sâu" không có chuyên gia ngành y

00:11:41.134 --> 00:11:43.660
nên những người không chuyên 
cũng có thể dùng.

00:11:44.730 --> 00:11:47.285
Ví dụ như việc phân đoạn nơ ron này.

00:11:47.285 --> 00:11:50.953
Máy giúp chúng tôi phân đoạn nơ ron 
chính xác như các chuyên gia,

00:11:50.953 --> 00:11:53.670
nhưng hệ thống này lại được thiết kế với
"học sâu"

00:11:53.670 --> 00:11:56.921
bởi những người không có 
chuyên môn y khoa.

NOTE Paragraph

00:11:56.921 --> 00:12:00.148
Còn tôi, cũng không có nền tảng về y khoa,

00:12:00.148 --> 00:12:03.875
thế mà tôi dường như có đầy đủ năng lực 
để mở một công ty về ngành y,

00:12:03.875 --> 00:12:06.021
và tôi đã làm.

00:12:06.021 --> 00:12:07.761
Tôi đã từng sợ trước khi bắt đầu,

00:12:07.761 --> 00:12:10.650
nhưng lý thuyết cho thấy mọi người có thể

00:12:10.650 --> 00:12:16.142
dùng những kỹ thuật phân tích dữ liệu 
để có được một nền y học hiệu quả.

00:12:16.142 --> 00:12:18.622
Và may mắn là tôi nhận được 
những phản hồi rất tốt,

00:12:18.622 --> 00:12:20.978
không chỉ từ truyền thông 
mà còn từ giới y khoa,

00:12:20.978 --> 00:12:23.322
họ luôn ủng hộ.

00:12:23.322 --> 00:12:27.471
Về lý thuyết, chúng tôi có thể lấy phần 
giữa của quy trình

00:12:27.471 --> 00:12:30.364
và làm phân tích dữ liệu 
càng nhiều càng tốt,

00:12:30.364 --> 00:12:33.429
phần còn lại dành cho bác sĩ.

00:12:33.429 --> 00:12:35.031
Tôi muốn đưa ra một ví dụ.

00:12:35.031 --> 00:12:39.975
Thông thường ta cần 15 phút 
để làm một xét nghiệm chẩn đoán

00:12:39.975 --> 00:12:41.929
và tôi sẽ làm cho bạn xem

00:12:41.929 --> 00:12:45.416
tôi nén nó thành 3 phút 
bằng cách cắt bớt bỏ một số phần.

00:12:45.416 --> 00:12:48.477
Thay vì cho bạn xem quá trình 
một xét nghiệm chẩn đoán y học,

00:12:48.477 --> 00:12:51.846
tôi sẽ cho các bạn xem một xét nghiệm
chẩn đoán hình ảnh xe hơi,

00:12:51.846 --> 00:12:54.068
vì như thế sẽ dễ hiểu cho mọi người.

NOTE Paragraph

00:12:54.068 --> 00:12:57.269
Chúng tôi bắt đầu với khoảng 1,5 triệu 
hình ảnh xe hơi,

00:12:57.269 --> 00:13:00.475
tôi muốn tạo tiêu chuẩn để 
gom chúng lại vào góc

00:13:00.475 --> 00:13:02.698
của bức hình đang được chụp.

00:13:02.698 --> 00:13:06.586
Những bức hình này không gắn nhãn trước,
nên tôi phải bắt đầu từ số không.

00:13:06.586 --> 00:13:08.451
Giải thuật "học sâu"

00:13:08.451 --> 00:13:12.158
có thể tự xác định 
vùng cấu trúc trong những bức ảnh này.

00:13:12.158 --> 00:13:15.778
Rất thuận lợi, bây giờ con người 
và máy tính có thể làm việc cùng nhau.

00:13:15.778 --> 00:13:17.956
Như các bạn đang thấy đây, con người

00:13:17.956 --> 00:13:20.631
đang nói cho máy tính biết 
lĩnh vực cần quan tâm

00:13:20.631 --> 00:13:25.281
mà họ muốn máy tính sử dụng để 
cải thiện giải thuật của nó.

00:13:25.281 --> 00:13:29.577
Những hệ thống "học sâu" này thực ra là
không gian 16,000 chiều,

00:13:29.577 --> 00:13:33.009
bạn có thể thấy ở đây máy tính quay
quanh không gian đó,

00:13:33.009 --> 00:13:35.001
cố gắng tìm vùng mới của cấu trúc.

00:13:35.001 --> 00:13:36.782
Và khi nó làm thành công,

00:13:36.782 --> 00:13:40.786
người sử dụng máy có thể tìm thấy
khu vực đáng quan tâm.

00:13:40.786 --> 00:13:43.208
Ở đây, máy tính đã tìm ra những vùng đó,

00:13:43.208 --> 00:13:45.770
ví dụ, các góc.

00:13:45.770 --> 00:13:47.376
Khi chúng tôi thực hiện,

00:13:47.376 --> 00:13:49.716
chúng tôi lần lượt nói cho máy tính

00:13:49.716 --> 00:13:52.144
các loại mảng cấu trúc 
mà chúng tôi tìm kiếm.

00:13:52.144 --> 00:13:53.916
Hãy liên tưởng xét nghiệm chuẩn đoán,

00:13:53.916 --> 00:13:57.266
ví dụ, một chuyên gia bệnh học 
xác định những vùng của bệnh ,

00:13:57.266 --> 00:14:02.292
hoặc một bác sĩ X-quang cho thấy nốt sần
có thể gây phiền phức,

00:14:02.292 --> 00:14:04.851
và đôi khi nó gây khó cho giải thuật.

00:14:04.851 --> 00:14:06.815
Trong trường hợp này, giải thuật hơi rối.

00:14:06.815 --> 00:14:09.365
Phần trước và sau của xe rất
giống nhau nên dễ nhầm.

00:14:09.365 --> 00:14:11.437
Chúng tôi phải cẩn thận hơn,

00:14:11.437 --> 00:14:14.669
chọn bằng tay phần trước để thấy 
sự khác biệt với phần sau,

00:14:14.669 --> 00:14:20.175
sau đó bảo với máy tính rằng đây là
tiêu chuẩn nhận dạng nhóm

00:14:20.175 --> 00:14:21.523
mà chúng tôi quan tâm.

NOTE Paragraph

00:14:21.523 --> 00:14:24.200
Chúng tôi làm điều đó,
thỉnh thoảng bỏ qua,

00:14:24.200 --> 00:14:26.446
sau đó luyện tập giải thuật 
cho "máy biết học"

00:14:26.446 --> 00:14:28.420
dựa trên hàng trăm lần như thế này,

00:14:28.420 --> 00:14:30.445
chúng tôi hy vọng nó hoàn thiện hơn.

00:14:30.445 --> 00:14:33.518
Các bạn thấy đó, nó đang bắt đầu làm mờ
vài bức ảnh,

00:14:33.518 --> 00:14:38.226
cho thấy rằng nó đã nhận ra cách 
để hiểu những hình đó.

00:14:38.226 --> 00:14:41.128
Chúng tôi có thể dùng khái niệm này cho
các bức ảnh tương tự,

00:14:41.128 --> 00:14:43.222
và dùng các bức ảnh tương tự, bạn thấy đó,

00:14:43.222 --> 00:14:47.241
máy tính có thể tìm thấy
phần trước của chiếc xe.

00:14:47.241 --> 00:14:50.189
Lúc này, con người có thể nói cho máy tính

00:14:50.189 --> 00:14:52.482
ok, đúng rồi, bạn đã làm rất tốt.

NOTE Paragraph

00:14:53.652 --> 00:14:55.837
Nhưng đôi khi, đối với máy

00:14:55.837 --> 00:14:59.511
việc tách các nhóm hình vẫn còn khó.

00:14:59.511 --> 00:15:03.395
Ngay cả khi chúng tôi để nhiều thời gian 
cho máy tính xoay xở,

00:15:03.399 --> 00:15:06.744
nhưng chúng tôi vẫn thấy phía trái 
và phía phải bức ảnh

00:15:06.744 --> 00:15:08.222
bị chọn nhầm lẫn.

00:15:08.222 --> 00:15:10.362
Để cho máy tính thêm vài gợi ý,

00:15:10.362 --> 00:15:13.338
chúng tôi nói: ok, hãy thử và tìm 
một chi tiết

00:15:13.338 --> 00:15:15.945
khác biệt rõ ràng nhất
giữa bên trái và bên phải

00:15:15.945 --> 00:15:18.067
bằng giải thuật "học sâu" này.

00:15:18.067 --> 00:15:21.009
Và với gợi ý đó, à, nó đã thành công.

00:15:21.009 --> 00:15:23.891
Nó được giao nhiệm vụ tìm ra cách
nhận ra các đối tượng này

00:15:23.891 --> 00:15:26.271
rồi tách rời chúng ra.

NOTE Paragraph

00:15:26.271 --> 00:15:28.709
Các bạn đã nắm được cách làm này.

00:15:28.709 --> 00:15:36.906
Trong trường hợp này máy tính 
không thể thay con người,

00:15:36.906 --> 00:15:39.546
nhưng cả hai làm việc chung với nhau.

00:15:39.546 --> 00:15:43.096
Điều chúng tôi đang làm là thay thế 
những thứ mà trước đây cần một đội

00:15:43.096 --> 00:15:45.098
5 hoặc 6 người làm trong 7 năm

00:15:45.098 --> 00:15:47.703
bằng một công việc trong 15 phút

00:15:47.703 --> 00:15:50.208
của một người.

NOTE Paragraph

00:15:50.208 --> 00:15:54.158
Quá trình nhận ra và tách hình 
được lặp lại 4 hoặc 5 lần.

00:15:54.158 --> 00:15:56.017
Các bạn thấy chúng tôi có 62%

00:15:56.017 --> 00:15:58.976
trong số 1.5 triệu bức ảnh 
được phân loại chính xác.

00:15:58.976 --> 00:16:01.448
Và ở mức độ này, chúng tôi có thể
bắt đầu với

00:16:01.448 --> 00:16:02.745
những nhóm lớn,

00:16:02.745 --> 00:16:05.664
kiểm tra chúng để bảo đảm không còn lỗi.

00:16:05.664 --> 00:16:09.616
Nơi nào có lỗi, chúng tôi sẽ cho
máy tính biết.

00:16:09.616 --> 00:16:12.661
Và dùng dạng quá trình này cho từng nhóm
khác nhau,

00:16:12.661 --> 00:16:15.148
bây giờ, chúng tôi đạt đến 80% tỉ lệ 
thành công

00:16:15.148 --> 00:16:17.563
trong việc phân loại 1.5 triệu tấm ảnh.

00:16:17.563 --> 00:16:19.641
Lúc này, với trường hợp

00:16:19.641 --> 00:16:23.220
tìm thấy những tấm 
không được phân loại đúng,

00:16:23.220 --> 00:16:26.108
chúng tôi cố gắng tìm hiểu lý do.

00:16:26.108 --> 00:16:27.851
Và sử dụng cách tiếp cận trên,

00:16:27.851 --> 00:16:31.972
với 15 phút chúng tôi đạt tỉ lệ phân loại
97%.

NOTE Paragraph

00:16:31.972 --> 00:16:36.572
Vậy kỹ thuật này có thể cho chúng ta
chỉnh sửa một vấn đề lớn,

00:16:36.578 --> 00:16:39.614
mà toàn bộ chuyên gia trên 
thế giới cũng không đủ số để làm.

00:16:39.614 --> 00:16:43.103
Diễn đàn Kinh tế Thế giới nói rằng 
vào giữa thập kỷ 2010 và 2020

00:16:43.103 --> 00:16:45.727
số lượng bác sĩ bị thiếu 
so với nhu cầu của thế giới,

00:16:45.727 --> 00:16:47.840
và phải mất khoảng 300 năm

00:16:47.840 --> 00:16:50.734
để đào tạo đủ số nhân sự cho vấn đề này.

00:16:50.734 --> 00:16:53.619
Hãy tưởng tượng, liệu chúng ta có thể 
nâng hiệu năng của họ

00:16:53.619 --> 00:16:56.458
qua cách tiếp cận "học sâu"?

NOTE Paragraph

00:16:56.458 --> 00:16:58.690
Tôi rất thích việc tạo ra những cơ hội.

00:16:58.690 --> 00:17:01.279
Tôi cũng quan tâm đến 
các vấn đề khó cần giải quyết.

00:17:01.279 --> 00:17:04.403
Vấn đề ở đây là ở mỗi khu vực 
màu xanh da trời trên bản đồ,

00:17:04.403 --> 00:17:08.172
ngành dịch vụ chiếm 80% nhân lực.

00:17:08.172 --> 00:17:09.959
Ngành dịch vụ gì vậy?

00:17:09.959 --> 00:17:11.473
Các dịch vụ trong bảng này.

00:17:11.473 --> 00:17:15.627
Máy tính cũng vừa mới học 
được cách làm các dịch vụ này.

00:17:15.627 --> 00:17:19.431
Vậy công việc của 80% nhân lực 
trong các nước phát triển

00:17:19.431 --> 00:17:21.963
sẽ được máy tính học để làm thay.

00:17:21.963 --> 00:17:23.403
Điều đó có nghĩa là gì?

00:17:23.403 --> 00:17:25.986
À, sẽ ổn thôi.
Họ sẽ làm các công việc khác.

00:17:25.986 --> 00:17:28.693
Ví dụ, sẽ có nhiều việc hơn cho
các nhà khoa học dữ liệu.

00:17:28.693 --> 00:17:29.510
À cũng không hẳn.

00:17:29.510 --> 00:17:32.628
Vì các nhà khoa học dữ liệu 
không cần nhiều thời gian nữa.

00:17:32.628 --> 00:17:35.880
Ví dụ, bốn giải thuật này được xây dựng
bởi cùng một người.

00:17:35.880 --> 00:17:38.318
Các bạn nghĩ chuyện này 
đã xảy ra trước đây rồi,

00:17:38.318 --> 00:17:42.126
trong quá khứ nhiều máy móc 
được làm ra và tiếp theo là

00:17:42.126 --> 00:17:44.378
và nhiều người đã phải 
chuyển sang việc mới,

00:17:44.378 --> 00:17:46.494
nhưng việc mới của thời nay này sẽ là gì?

00:17:46.494 --> 00:17:48.365
Thật khó để dự đoán được điều này,

00:17:48.365 --> 00:17:51.104
vì khả năng của con người 
thì chỉ tăng từng bước,

00:17:51.104 --> 00:17:53.666
nhưng với một hệ thống "học sâu",

00:17:53.666 --> 00:17:56.893
chúng ta có khả năng phát triển rất nhanh.

00:17:56.893 --> 00:17:58.498
Và chúng ta ở đây.

00:17:58.498 --> 00:18:00.559
Chúng ta thấy những thứ xung quanh

00:18:00.559 --> 00:18:03.235
và chúng ta nói: "Ôi, máy tính
vẫn ngốc lắm", lo gì ?

00:18:03.235 --> 00:18:06.664
Nhưng trong 5 năm nữa, máy tính
sẽ không còn như vậy.

00:18:06.664 --> 00:18:10.529
Chúng ta cần suy nghĩ tới 
khả năng này ngay từ bây giờ.

NOTE Paragraph

00:18:10.529 --> 00:18:12.579
Chúng ta thấy một lần
như vậy trước đây rồi.

00:18:12.579 --> 00:18:13.966
Trong cách mạng công nghiệp,

00:18:13.966 --> 00:18:16.817
chúng ta đã thấy những thay đổi 
nhờ các động cơ.

00:18:17.667 --> 00:18:20.805
Mặc dù vậy, sau đó mọi thứ
trở nên bình thường.

00:18:20.805 --> 00:18:22.507
Đã có vài đảo lộn trong xã hội,

00:18:22.507 --> 00:18:25.946
nhưng một khi động cơ được dùng 
để tạo ra những thuận lợi cho cuộc sống,

00:18:25.946 --> 00:18:28.300
thì mọi thứ đi vào ổn định.

00:18:28.300 --> 00:18:29.773
Cuộc cách mạng "máy biết học"

00:18:29.773 --> 00:18:32.682
sẽ rất khác với 
Cuộc cách mạng công nghiệp,

00:18:32.682 --> 00:18:35.632
vì Cách mạng "máy biết học sẽ
không bao giờ dừng lại.

00:18:35.632 --> 00:18:38.614
Máy tính càng giỏi 
trong các hoạt động trí tuệ,

00:18:38.614 --> 00:18:42.862
thì chúng tạo nên những 
máy tính càng thông minh hơn,

00:18:42.862 --> 00:18:44.770
và đây chính là kiểu thay đổi

00:18:44.770 --> 00:18:47.248
mà thế giới chưa bao giờ trải qua,

00:18:47.248 --> 00:18:50.554
những phán đoán trước đây của bạn 
có thể sẽ không chính xác.

NOTE Paragraph

00:18:50.974 --> 00:18:52.754
Điều này tác động lên chính chúng ta.

00:18:52.754 --> 00:18:56.384
Trong 25 năm trước, khi năng suất
thiết bị tăng,

00:18:56.400 --> 00:19:00.588
thì năng suất lao động không tăng, 
mà thậm chí còn hơi giảm.

NOTE Paragraph

00:19:01.408 --> 00:19:04.149
Tôi nghĩ chúng ta cần
thảo luận về vấn đề này từ bây giờ.

00:19:04.149 --> 00:19:07.176
Khi tôi nói với mọi người 
về tình hình này,

00:19:07.176 --> 00:19:08.666
họ thường tỏ vẻ coi thường.

00:19:08.666 --> 00:19:10.339
Đúng, máy tính không thể suy nghĩ,

00:19:10.339 --> 00:19:13.367
chúng không có cảm xúc, không hiểu thơ ca,

00:19:13.367 --> 00:19:15.888
nhưng ta không lường 
trước được cách chúng làm việc.

00:19:15.888 --> 00:19:17.374
Vậy chuyện gì đây?

00:19:17.374 --> 00:19:19.178
Bây giờ, máy tính có thể làm

00:19:19.178 --> 00:19:21.897
những việc mà con người 
cần cả đời để thực hiện,

00:19:21.897 --> 00:19:23.628
đây là thời điểm để
chúng ta nghĩ tới

00:19:23.628 --> 00:19:28.015
cách điều chỉnh cấu trúc xã hội
và cấu trúc kinh tế

00:19:28.015 --> 00:19:29.855
để thận trọng với hiện thực mới này.

00:19:29.855 --> 00:19:31.388
Xin cảm ơn.

00:19:31.388 --> 00:19:32.190
(Tiếng vỗ tay)