1
00:00:00,880 --> 00:00:04,893
Ngày xưa nếu bạn muốn máy tính
thực hiện thao tác mới,

2
00:00:04,893 --> 00:00:06,447
thì bạn phải lập trình nó trước.

3
00:00:06,447 --> 00:00:09,858
Đối với những bạn ở đây
chưa từng lập trình,

4
00:00:09,858 --> 00:00:13,360
việc này đòi hỏi phải lập sơ đồ chi tiết

5
00:00:13,360 --> 00:00:16,727
từng bước một cho điều
bạn muốn máy tính thực hiện

6
00:00:16,727 --> 00:00:19,089
để đạt được mục tiêu của bạn.

7
00:00:19,089 --> 00:00:22,585
Nếu bạn muốn làm một việc mà chính bạn
cũng không biết cách làm,

8
00:00:22,585 --> 00:00:24,648
thì đây sẽ là một thử thách khá lớn.

9
00:00:24,648 --> 00:00:28,131
Đây là thử thách mà người đàn ông này, 
Arthur Samuel, gặp phải.

10
00:00:28,131 --> 00:00:32,208
Vào năm 1956, ông muốn chiếc máy tính này

11
00:00:32,208 --> 00:00:34,548
có thể đánh bại ông trong môn cờ tướng.

12
00:00:34,548 --> 00:00:36,588
Làm sao mà bạn có thể viết ra chương trình

13
00:00:36,588 --> 00:00:40,394
tỉ mỉ, chi tiết về cách chơi 
cờ tướng giỏi hơn chính bạn ?

14
00:00:40,394 --> 00:00:42,116
Vậy là ông nảy ra một ý tưởng:

15
00:00:42,116 --> 00:00:45,840
ông để máy tính tự chơi lại hàng ngàn lần

16
00:00:45,840 --> 00:00:48,364
và tự học cách chơi cờ.

17
00:00:48,364 --> 00:00:51,544
Và quả nhiên cách này hiệu quả,
và thật sự, đến năm 1962,

18
00:00:51,544 --> 00:00:55,561
chiếc máy này đã đánh bại 
quán quân bang Connecticut.

19
00:00:55,561 --> 00:00:58,534
Arthur Samuel là cha đẻ của 
lĩnh vực machine learning,

20
00:00:58,534 --> 00:01:00,251
và tôi rất biết ơn ông,

21
00:01:00,251 --> 00:01:03,014
bởi tôi là một người làm trong 
ngành "máy biết học".

22
00:01:03,014 --> 00:01:04,479
Tôi từng là Chủ tịch ở Kaggle

23
00:01:04,479 --> 00:01:07,867
một cộng đồng gồm hơn 200,000 
chuyên gia về "máy biết học".

24
00:01:07,867 --> 00:01:09,925
Kaggle tổ chức các cuộc thi

25
00:01:09,925 --> 00:01:13,633
với thử thách là 
những vấn đề chưa có lời giải,

26
00:01:13,633 --> 00:01:17,470
và họ đã thành công hàng trăm lần.

27
00:01:17,470 --> 00:01:19,940
Với vị thế thuận lợi đó, 
tôi đã khám phá ra

28
00:01:19,940 --> 00:01:23,890
rất nhiều thứ mà "máy biết học" có thể 
làm được trước đây, làm được bây giờ,

29
00:01:23,890 --> 00:01:26,252
và những gì nó có thể làm trong tương lai.

30
00:01:26,252 --> 00:01:30,675
Có lẽ sự thành công vang dội đầu tiên 
của "máy biết học" là Google

31
00:01:30,675 --> 00:01:33,784
Google cho ta thấy nó có thể 
tìm kiếm thông tin

32
00:01:33,784 --> 00:01:35,536
bằng cách sử dụng thuật toán,

33
00:01:35,536 --> 00:01:38,437
và thuật toán này dựa trên
"máy biết học",

34
00:01:38,437 --> 00:01:42,323
Kể từ đó, đã có rất nhiều thành công
về mặt thương mại của "máy biết học".

35
00:01:42,323 --> 00:01:44,160
Công ty như Amazon và Netflix

36
00:01:44,160 --> 00:01:47,876
sử dụng "máy biết học"để gợi ý 
những sản phẩm bạn có thể muốn mua,

37
00:01:47,876 --> 00:01:49,896
các bộ phim bạn có thể muốn xem.

38
00:01:49,896 --> 00:01:51,703
Đôi khi nó làm ta 
rùng mình.

39
00:01:51,703 --> 00:01:53,657
Các công ty như LinkedIn và Facebook

40
00:01:53,657 --> 00:01:56,251
đôi khi sẽ nói cho bạn biết ai có thể
là bạn bè của bạn

41
00:01:56,251 --> 00:01:58,228
và bạn không hiểu nổi làm sao họ tìm ra,

42
00:01:58,228 --> 00:02:01,195
và đó là vì họ dùng đến sức mạnh của
"máy biết học".

43
00:02:01,195 --> 00:02:04,152
Đây là thuật toán tự học cách xử lý
từ cơ sở dữ liệu,

44
00:02:04,152 --> 00:02:07,399
thay vì được lập trình sẵn trước đó.

45
00:02:07,399 --> 00:02:09,877
Đây cũng là cách IBM thành công

46
00:02:09,877 --> 00:02:13,739
trong việc khiến cho Watson đánh bại 
hai nhà vô địch chương trình "Jeopardy",

47
00:02:13,739 --> 00:02:16,964
bằng cách trả lời những câu hỏi hóc 
búa và phức tạp như :

48
00:02:16,964 --> 00:02:19,799
[Sư tử Nimrud bị mất tại bảo tàng 
quốc gia thành phố ...

49
00:02:19,799 --> 00:02:23,034
Đây cũng là cơ sở cho
những xe hơi tự lái đầu tiên.

50
00:02:23,034 --> 00:02:25,856
Nếu chúng phân biệt 
được sự khác nhau giữa

51
00:02:25,856 --> 00:02:28,488
cây xanh và người đi bộ,
thì đó là việc rất quan trọng.

52
00:02:28,488 --> 00:02:31,075
Chúng ta không biết cách viết 
những chương trình này,

53
00:02:31,075 --> 00:02:34,072
nhưng với "máy biết học", điều đó
trở thành có thể.

54
00:02:34,072 --> 00:02:36,680
Và thực tế, loại xe này đã đi được 
cả triệu dặm

55
00:02:36,680 --> 00:02:40,186
trên những con đường bình thường 
mà không gây tai nạn nào.

56
00:02:40,196 --> 00:02:44,110
Bây giờ chúng ta biết máy tính
có thể học được,

57
00:02:44,110 --> 00:02:46,010
và chúng có thể học
cách làm những việc

58
00:02:46,010 --> 00:02:48,848
mà đôi khi chính chúng ta 
không biết cách làm,

59
00:02:48,848 --> 00:02:51,733
hoặc có thể chúng làm tốt hơn ta.

60
00:02:51,733 --> 00:02:55,928
Một trong những ví dụ ngoạn mục nhất
về "máy biết học" tôi từng thấy

61
00:02:55,928 --> 00:02:58,320
là dự án tôi tham gia ở Kaggle

62
00:02:58,320 --> 00:03:01,911
nơi đó có một anh chàng điều khiển 
một nhóm, anh ta tên là Geofrey Hinton

63
00:03:01,911 --> 00:03:03,463
đến từ Đại học Toronto

64
00:03:03,463 --> 00:03:06,140
nhóm này thắng cuộc thi về
chế tạo máy phát hiện ma túy.

65
00:03:06,140 --> 00:03:08,987
Bây giờ, điều phi thường ở đây 
không phải là họ đánh bại

66
00:03:08,987 --> 00:03:13,000
tất cả các giải thuật phát triển bới Merk
hay các cộng đồng học thuật quốc tế khác

67
00:03:13,000 --> 00:03:18,061
mà chính là họ không có thành viên nào 
chuyên về hóa, sinh hay khoa học đời sống,

68
00:03:18,061 --> 00:03:20,230
và họ đã tạo ra chiếc máy 
chỉ trong 2 tuần.

69
00:03:20,230 --> 00:03:21,611
Làm thế nào mà họ làm được?

70
00:03:22,421 --> 00:03:25,342
Họ dùng 1 siêu giải thuật
gọi là deep learning: "học sâu".

71
00:03:25,342 --> 00:03:28,291
Thành công này quan trọng 
đến mức đã được lên

72
00:03:28,291 --> 00:03:31,412
trang bìa tờ New York Times
vài tuần sau đó.

73
00:03:31,412 --> 00:03:34,147
Đây là Geoffrey Hinton ở đây bên bìa trái.

74
00:03:34,147 --> 00:03:38,488
"Học sâu" là một giải thuật lấy 
cảm hứng từ cách làm việc của não người,

75
00:03:38,488 --> 00:03:40,300
và kết quả là giải thuật này

76
00:03:40,300 --> 00:03:44,141
về lý thuyết, không có giới hạn cho 
những gì nó có thể làm.

77
00:03:44,141 --> 00:03:46,964
Bạn đưa vào càng nhiều dữ liệu và
cho càng nhiều thời gian,

78
00:03:46,964 --> 00:03:48,276
thì nó càng làm tốt.

79
00:03:48,276 --> 00:03:50,615
Trong bài báo này, Tờ New York Times
cũng nói về

80
00:03:50,615 --> 00:03:52,857
một kết quả tuyệt vời khác 
của "học sâu"

81
00:03:52,857 --> 00:03:55,569
mà tôi sẽ cho các bạn xem bây giờ.

82
00:03:55,569 --> 00:04:00,510
Đó là máy tính có thể nghe và hiểu.

83
00:04:00,510 --> 00:04:03,221
(Video) Richard Rashid: 
Bây giờ là bước cuối cùng

84
00:04:03,221 --> 00:04:06,246
mà tôi muốn làm trong quá trình này

85
00:04:06,246 --> 00:04:10,961
là nói chuyện với các bạn bằng 
tiếng Trung.

86
00:04:10,961 --> 00:04:13,596
Điểm mấu chốt đó là,

87
00:04:13,596 --> 00:04:18,598
chúng tôi có thể lấy lượng lớn
thông tin từ những người nói tiếng Trung

88
00:04:18,598 --> 00:04:21,128
và tạo ra hệ thống chuyển văn bản 
thành giọng nói

89
00:04:21,128 --> 00:04:25,801
nó giúp lấy văn bản tiếng Trung chuyển 
thành tiếng Trung,

90
00:04:25,801 --> 00:04:29,929
và sau đó chúng tôi đã thực hiện khoảng 
1 giờ để lấy giọng của chính tôi

91
00:04:29,929 --> 00:04:31,820
từ đó chúng tôi đã điều chỉnh

92
00:04:31,820 --> 00:04:36,364
hệ thống chuyển 'văn bản-lời nói'
để cho ra được giọng nói giống tôi.

93
00:04:36,364 --> 00:04:38,904
Lần nữa, kết quả không hoàn hảo.

94
00:04:38,904 --> 00:04:41,552
Thực tế vẫn còn một vài lỗi.

95
00:04:41,552 --> 00:04:44,036
( tiếng Trung).

96
00:04:44,036 --> 00:04:47,403
(vỗ tay)

97
00:04:49,446 --> 00:04:53,022
Còn nhiều việc để làm trong lĩnh vực này.

98
00:04:53,022 --> 00:04:56,667
( tiếng Trung)

99
00:04:56,667 --> 00:05:00,100
( vỗ tay)

100
00:05:01,345 --> 00:05:04,744
Jeremy Howard: đó là trong một hội thảo
về "máy biết học" ở Trung Quốc.

101
00:05:04,744 --> 00:05:07,114
Thực ra ở hội thảo học thuật, các bạn

102
00:05:07,114 --> 00:05:09,011
thường ít nghe tiếng vỗ tay tự phát,

103
00:05:09,011 --> 00:05:12,687
ngay cả ở các hội thảo của TEDx,
hay vỗ tay thoải mái đi.

104
00:05:12,687 --> 00:05:15,482
Những điều bạn thấy đó
đang diễn ra với "học sâu".

105
00:05:15,482 --> 00:05:17,007
( vỗ tay) Cảm ơn.

106
00:05:17,007 --> 00:05:19,289
Viết lại lời tiếng tiếng Anh
bằng "học sâu".

107
00:05:19,289 --> 00:05:22,701
Dịch sang tiếng Trung có văn bản
ở trên bên phải, do "học sâu",

108
00:05:22,701 --> 00:05:26,008
và xây dựng giọng nói cũng nhờ 
"học sâu".

109
00:05:26,008 --> 00:05:29,242
"Học sâu" thật sự phi thường.

110
00:05:29,242 --> 00:05:32,341
Nó là một giải thuật đơn giản mà có vẻ 
làm được hầu hết mọi thứ,

111
00:05:32,341 --> 00:05:35,452
và tôi phát hiện trước đó một năm,
nó còn học nhìn thấy.

112
00:05:35,452 --> 00:05:37,628
Trong cuộc thi ở Đức,

113
00:05:37,628 --> 00:05:40,225
cuộc thi 'Nhận biết Tín hiệu
Giao thông Benchmark',

114
00:05:40,225 --> 00:05:43,618
"học sâu" nhận biết các 
tín hiệu giao thông,như cái này.

115
00:05:43,618 --> 00:05:45,712
Nó không chỉ nhận biết tín hiệu giao thông

116
00:05:45,712 --> 00:05:47,470
tốt hơn bất kỳ giải thuật nào khác,

117
00:05:47,470 --> 00:05:50,189
mà còn làm tốt hơn cả con người,

118
00:05:50,189 --> 00:05:52,041
tốt hơn gấp đôi.

119
00:05:52,041 --> 00:05:54,037
Năm 2011, chúng tôi có thử nghiệm đầu tiên

120
00:05:54,037 --> 00:05:57,442
cho thấy máy tính có thể nhìn
tốt hơn con người.

121
00:05:57,442 --> 00:05:59,491
Từ đó, rất nhiều điều đã xảy ra.

122
00:05:59,491 --> 00:06:03,005
Năm 2012, Google thông báo họ đã có một
giải thuật "học sâu"

123
00:06:03,005 --> 00:06:04,420
xem được video trên YouTube

124
00:06:04,420 --> 00:06:07,857
và lấy dữ liệu từ 16,000 máy tính trong
một tháng,

125
00:06:07,857 --> 00:06:12,218
và máy tính đã học một cách độc lập
các khái niệm "người" và "mèo"

126
00:06:12,218 --> 00:06:14,027
chỉ bằng việc xem các videos.

127
00:06:14,027 --> 00:06:16,379
Cách này rất giống
cách học của con người.

128
00:06:16,379 --> 00:06:19,119
Không cần khái niệm có sẵn,
ta học từ cái ta nhìn thấy,

129
00:06:19,119 --> 00:06:22,450
ta có thể hiểu trực tiếp
bản chất của sự vật đó.

130
00:06:22,450 --> 00:06:25,819
Cũng trong năm 2012, Geoffrey Hinton,


131
00:06:25,819 --> 00:06:28,677
chiến thắng cuộc thi
ImageNet rất nổi tiếng,

132
00:06:28,677 --> 00:06:32,818
vì đã tìm ra cách để xác định 
một trong số nửa triệu tấm ảnh

133
00:06:32,818 --> 00:06:34,256
được giao trước.

134
00:06:34,256 --> 00:06:37,789
Từ 2014, chúng tôi đã giảm
còn 6% tỉ lệ lỗi

135
00:06:37,789 --> 00:06:39,242
trong việc nhận diện hình ảnh.

136
00:06:39,242 --> 00:06:41,268
Với dạng việc này, 
máy cũng hơn con người.

137
00:06:41,268 --> 00:06:45,037
Thật vậy, máy rất siêu trong lĩnh vực này,

138
00:06:45,037 --> 00:06:47,306
và đang được ứng dụng trong công nghiệp.

139
00:06:47,306 --> 00:06:50,348
Ví dụ, năm ngoái Google thông báo

140
00:06:50,348 --> 00:06:54,933
họ đã lập bản đồ mọi địa điểm ở Pháp 
trong 2 giờ,

141
00:06:54,933 --> 00:06:58,380
và cách họ làm là nạp những hình ảnh 
đường phố

142
00:06:58,380 --> 00:07:02,699
vào giải thuật "học sâu" để nhận diện
và đọc số nhà.

143
00:07:02,699 --> 00:07:04,919
Hãy tưởng tượng trước đây 
mất bao lâu:

144
00:07:04,919 --> 00:07:08,274
vài chục người làm việc trong nhiều năm.

145
00:07:08,274 --> 00:07:10,185
Điều này cũng diễn ra ở Trung Quốc.

146
00:07:10,185 --> 00:07:14,221
Tôi thấy Baidu cũng là một dạng 
Google ở Trung Quốc,

147
00:07:14,221 --> 00:07:16,504
và những gì bạn thấy ở trên bên góc trái

148
00:07:16,504 --> 00:07:20,478
là một ví dụ về một bức ảnh tôi tải lên 
hệ thống "học sâu" của Baidu

149
00:07:20,478 --> 00:07:24,247
và ở dưới bạn có thể thấy kết quả 
hệ thống xử lý bức ảnh

150
00:07:24,247 --> 00:07:26,483
và nó đã tìm ra những bức hình tương tự.

151
00:07:26,483 --> 00:07:29,219
Những bức hình tương tự thực ra có 
nền tương tự,

152
00:07:29,219 --> 00:07:30,877
hướng của khuôn mặt tương tự,

153
00:07:30,877 --> 00:07:32,665
và cả một số hình có lưỡi thè ra.

154
00:07:32,665 --> 00:07:35,695
Đây không phải là đối chiếu văn bản 
của trang web.

155
00:07:35,695 --> 00:07:37,107
Tôi chỉ upload một tấm ảnh.

156
00:07:37,107 --> 00:07:41,128
Vậy chúng ta đang có những chiếc máy tính
thực sự hiểu được những gì chúng nhìn thấy

157
00:07:41,128 --> 00:07:42,752
và có thể nhờ đó tìm dữ liệu

158
00:07:42,752 --> 00:07:46,306
của hàng trăm triệu tấm ảnh.

159
00:07:46,306 --> 00:07:49,536
Điều đó có nghĩa là gì khi máy tính 
có thể nhìn thấy?

160
00:07:49,536 --> 00:07:51,553
À, máy tính không chỉ có thể
nhìn thấy.

161
00:07:51,553 --> 00:07:53,622
Thật ra, "học sâu"
còn làm được nhiều hơn.

162
00:07:53,622 --> 00:07:56,570
Những câu phức tạp và đầy 
nét khác biệt tinh tế như câu này

163
00:07:56,570 --> 00:07:59,394
giờ đã được hiểu bởi giải thuật "học sâu".

164
00:07:59,394 --> 00:08:00,697
Như các bạn thấy ở đây,


165
00:08:00,697 --> 00:08:03,465
hệ thống nền Stanford này đang chiếu điểm
đỏ ở trên

166
00:08:03,465 --> 00:08:07,384
đã tìm ra rằng câu này thể hiện tình cảm
tiêu cực.

167
00:08:07,384 --> 00:08:10,790
"học sâu" thực sự đang gần giống như
con người

168
00:08:10,802 --> 00:08:15,923
trong việc hiểu chủ đề các câu 
và nội dung diễn đạt.

169
00:08:15,923 --> 00:08:18,651
"học sâu" có thể đọc tiếng Trung,

170
00:08:18,651 --> 00:08:21,807
giống như người nói tiếng Trung bản xứ.

171
00:08:21,807 --> 00:08:23,975
Giải thuật này phát triển ở Thụy Sĩ

172
00:08:23,975 --> 00:08:27,331
bởi những người không 
biết tí gì tiếng Trung.

173
00:08:27,331 --> 00:08:29,382
Như tôi đã nói, "học sâu"

174
00:08:29,382 --> 00:08:31,601
là phương tiện tốt nhất 
trong lĩnh vực này,

175
00:08:31,601 --> 00:08:36,718
vì nó có thể hiểu 
thậm chí như người bản địa.

176
00:08:36,718 --> 00:08:39,682
Đây là hệ thống chúng tôi trang bị
ở công ty tôi,

177
00:08:39,682 --> 00:08:41,728
công ty tôi muốn sử dụng 
và kết hợp tất cả.

178
00:08:41,728 --> 00:08:44,189
Đây là những tấm hình không kèm theo
dòng chữ nào,

179
00:08:44,189 --> 00:08:46,541
vì tôi viết những câu vào chỗ này,

180
00:08:46,541 --> 00:08:49,510
nhờ đó nó hiểu những tấm hình này

181
00:08:49,510 --> 00:08:51,189
và tìm ra chúng nói về cái gì

182
00:08:51,189 --> 00:08:54,352
và tìm những tấm hình có ý 
tương tự với dòng chữ tôi đang viết.

183
00:08:54,352 --> 00:08:57,108
Vậy các bạn thấy đó, nó thực sự hiểu
được câu tôi viết

184
00:08:57,108 --> 00:08:59,332
và thực sự hiểu những tấm hình này.

185
00:08:59,332 --> 00:09:01,891
Tôi biết các bạn từng thấy điều tương tự
trên Google,

186
00:09:01,891 --> 00:09:04,666
khi bạn viết điều gì đó và chúng hiện
lên các tấm ảnh,

187
00:09:04,666 --> 00:09:08,090
nhưng thực sự những gì nó đang làm là 
tìm những trang web theo dòng chữ.

188
00:09:08,090 --> 00:09:11,091
Điều này rất khác với việc thực việc hiểu
những tấm ảnh.

189
00:09:11,091 --> 00:09:13,843
Đây là điều mà máy tính chỉ có thể làm

190
00:09:13,843 --> 00:09:17,091
lần đầu tiên cách đây vài tháng.

191
00:09:17,091 --> 00:09:21,182
Chúng ta thấy máy tính không chỉ 
nhìn thấy được mà chúng còn đọc được,

192
00:09:21,182 --> 00:09:24,947
và dĩ nhiên chúng tôi cho thấy chúng còn
hiểu được những gì chúng nghe.

193
00:09:24,947 --> 00:09:28,389
Có lẽ không còn ngạc nhiên khi tôi nói 
với các bạn chúng có thể viết.

194
00:09:28,389 --> 00:09:33,172
Ở đây là những dòng văn bản tôi tạo ra
bằng giải thuật "học sâu" hôm qua.

195
00:09:33,172 --> 00:09:37,096
Và đây là những văn bản giải thuật ở 
Stanford tạo ra.

196
00:09:37,096 --> 00:09:38,860
Mỗi câu được tạo ra

197
00:09:38,860 --> 00:09:43,109
bằng giải thuật "học sâu" nhằm mô tả
những bức ảnh này.

198
00:09:43,109 --> 00:09:47,581
Trước đây giải thuật này chưa bao giờ
thấy một người đàn ông áo đen chơi ghita

199
00:09:47,581 --> 00:09:49,801
Nhưng nó đã thấy đàn ông,
và đã thấy màu đen,

200
00:09:49,801 --> 00:09:51,400
và nó cũng đã thấy đàn ghita,

201
00:09:51,400 --> 00:09:55,694
rồi nó đã tự tạo ra 
chú thích của tấm ảnh này.

202
00:09:55,694 --> 00:09:59,196
Máy vẫn chưa đạt đến mức như 
con người, nhưng cũng khá gần rồi.

203
00:09:59,196 --> 00:10:03,264
Trong các thí nghiệm máy viết phụ đề
cho hình, số phụ đề được người ta chọn

204
00:10:03,264 --> 00:10:04,791
chỉ ở tỉ lệ 1/4.

205
00:10:04,791 --> 00:10:06,855
Nhưng hệ thống này giờ 
chỉ mới 2 tuần tuổi,

206
00:10:06,855 --> 00:10:08,701
nên có thể trong năm tới,

207
00:10:08,701 --> 00:10:11,502
giải thuật máy tính sẽ còn
hơn cả con người

208
00:10:11,502 --> 00:10:13,364
và tỉ lệ được chọn sẽ cao hơn.

209
00:10:13,364 --> 00:10:16,413
Máy tính cũng có thể viết.

210
00:10:16,413 --> 00:10:19,888
Chúng tôi kết hợp tất cả lại và nó 
dẫn đến những cơ hội rất thú vị.

211
00:10:19,888 --> 00:10:21,380
Ví dụ, trong ngành y,

212
00:10:21,380 --> 00:10:23,905
một nhóm ở Boston thông báo họ đã tìm ra

213
00:10:23,905 --> 00:10:26,854
hàng chục tính năng lâm sàng mới

214
00:10:26,854 --> 00:10:31,120
của các khối u để giúp các
bác sĩ tiên đoán bệnh ung thư.

215
00:10:32,220 --> 00:10:34,516
Tương tự, ở Stanford,

216
00:10:34,516 --> 00:10:38,179
một nhóm thông báo rằng, dựa vào 
các hình phóng đại của mô,

217
00:10:38,179 --> 00:10:40,560
họ phát triển hệ thống "máy biết học"

218
00:10:40,560 --> 00:10:43,142
còn tốt hơn cả các nhà nghiên cứu bệnh học

219
00:10:43,142 --> 00:10:47,519
nhờ thế làm tăng khả năng sống sót
của các bệnh nhân ung thư.

220
00:10:47,519 --> 00:10:50,764
Trong cả hai trường hợp, không chỉ việc 
tiên đoán chính xác hơn,

221
00:10:50,764 --> 00:10:53,266
mà còn tạo ra ngành 
khoa học mới rất triển vọng.

222
00:10:53,276 --> 00:10:54,781
Trong lĩnh vực X-quang,

223
00:10:54,781 --> 00:10:57,876
chúng là những chỉ số lâm sàng
mới mà con người có thể hiểu.

224
00:10:57,876 --> 00:10:59,668
Trong lĩnh vực bệnh học,

225
00:10:59,668 --> 00:11:04,168
hệ thống máy tính đã cho thấy rằng 
những tế bào xung quanh khối u

226
00:11:04,168 --> 00:11:07,508
cũng quan trọng như chính tế bào ung thư

227
00:11:07,508 --> 00:11:09,260
trong việc chẩn đoán bệnh.

228
00:11:09,260 --> 00:11:14,621
Điều này ngược với những gì các nhà 
bệnh học được dạy trong nhiều thập kỷ qua.

229
00:11:14,621 --> 00:11:17,913
Trong mỗi trường hợp trên,
chúng là các hệ thống được phát triển

230
00:11:17,913 --> 00:11:21,534
bởi sự hợp tác của các chuyên gia y tế
và các chuyên gia "máy biết học",

231
00:11:21,534 --> 00:11:24,275
nhưng từ năm trước,
chúng tôi đã tiến khá xa.

232
00:11:24,275 --> 00:11:27,824
Đây là một ví dụ về xác định khu vực 
ung thư

233
00:11:27,824 --> 00:11:30,354
của mô người dưới kính hiển vi.

234
00:11:30,354 --> 00:11:34,967
Hệ thống có thể xác định những 
khu vực chính xác hơn

235
00:11:34,967 --> 00:11:37,742
hoặc tương đương các nhà bệnh học,

236
00:11:37,742 --> 00:11:41,134
nhưng vì nó được xây dựng với 
"học sâu" không có chuyên gia ngành y

237
00:11:41,134 --> 00:11:43,660
nên những người không chuyên 
cũng có thể dùng.

238
00:11:44,730 --> 00:11:47,285
Ví dụ như việc phân đoạn nơ ron này.

239
00:11:47,285 --> 00:11:50,953
Máy giúp chúng tôi phân đoạn nơ ron 
chính xác như các chuyên gia,

240
00:11:50,953 --> 00:11:53,670
nhưng hệ thống này lại được thiết kế với
"học sâu"

241
00:11:53,670 --> 00:11:56,921
bởi những người không có 
chuyên môn y khoa.

242
00:11:56,921 --> 00:12:00,148
Còn tôi, cũng không có nền tảng về y khoa,

243
00:12:00,148 --> 00:12:03,875
thế mà tôi dường như có đầy đủ năng lực 
để mở một công ty về ngành y,

244
00:12:03,875 --> 00:12:06,021
và tôi đã làm.

245
00:12:06,021 --> 00:12:07,761
Tôi đã từng sợ trước khi bắt đầu,

246
00:12:07,761 --> 00:12:10,650
nhưng lý thuyết cho thấy mọi người có thể

247
00:12:10,650 --> 00:12:16,142
dùng những kỹ thuật phân tích dữ liệu 
để có được một nền y học hiệu quả.

248
00:12:16,142 --> 00:12:18,622
Và may mắn là tôi nhận được 
những phản hồi rất tốt,

249
00:12:18,622 --> 00:12:20,978
không chỉ từ truyền thông 
mà còn từ giới y khoa,

250
00:12:20,978 --> 00:12:23,322
họ luôn ủng hộ.

251
00:12:23,322 --> 00:12:27,471
Về lý thuyết, chúng tôi có thể lấy phần 
giữa của quy trình

252
00:12:27,471 --> 00:12:30,364
và làm phân tích dữ liệu 
càng nhiều càng tốt,

253
00:12:30,364 --> 00:12:33,429
phần còn lại dành cho bác sĩ.

254
00:12:33,429 --> 00:12:35,031
Tôi muốn đưa ra một ví dụ.

255
00:12:35,031 --> 00:12:39,975
Thông thường ta cần 15 phút 
để làm một xét nghiệm chẩn đoán

256
00:12:39,975 --> 00:12:41,929
và tôi sẽ làm cho bạn xem

257
00:12:41,929 --> 00:12:45,416
tôi nén nó thành 3 phút 
bằng cách cắt bớt bỏ một số phần.

258
00:12:45,416 --> 00:12:48,477
Thay vì cho bạn xem quá trình 
một xét nghiệm chẩn đoán y học,

259
00:12:48,477 --> 00:12:51,846
tôi sẽ cho các bạn xem một xét nghiệm
chẩn đoán hình ảnh xe hơi,

260
00:12:51,846 --> 00:12:54,068
vì như thế sẽ dễ hiểu cho mọi người.

261
00:12:54,068 --> 00:12:57,269
Chúng tôi bắt đầu với khoảng 1,5 triệu 
hình ảnh xe hơi,

262
00:12:57,269 --> 00:13:00,475
tôi muốn tạo tiêu chuẩn để 
gom chúng lại vào góc

263
00:13:00,475 --> 00:13:02,698
của bức hình đang được chụp.

264
00:13:02,698 --> 00:13:06,586
Những bức hình này không gắn nhãn trước,
nên tôi phải bắt đầu từ số không.

265
00:13:06,586 --> 00:13:08,451
Giải thuật "học sâu"

266
00:13:08,451 --> 00:13:12,158
có thể tự xác định 
vùng cấu trúc trong những bức ảnh này.

267
00:13:12,158 --> 00:13:15,778
Rất thuận lợi, bây giờ con người 
và máy tính có thể làm việc cùng nhau.

268
00:13:15,778 --> 00:13:17,956
Như các bạn đang thấy đây, con người

269
00:13:17,956 --> 00:13:20,631
đang nói cho máy tính biết 
lĩnh vực cần quan tâm

270
00:13:20,631 --> 00:13:25,281
mà họ muốn máy tính sử dụng để 
cải thiện giải thuật của nó.

271
00:13:25,281 --> 00:13:29,577
Những hệ thống "học sâu" này thực ra là
không gian 16,000 chiều,

272
00:13:29,577 --> 00:13:33,009
bạn có thể thấy ở đây máy tính quay
quanh không gian đó,

273
00:13:33,009 --> 00:13:35,001
cố gắng tìm vùng mới của cấu trúc.

274
00:13:35,001 --> 00:13:36,782
Và khi nó làm thành công,

275
00:13:36,782 --> 00:13:40,786
người sử dụng máy có thể tìm thấy
khu vực đáng quan tâm.

276
00:13:40,786 --> 00:13:43,208
Ở đây, máy tính đã tìm ra những vùng đó,

277
00:13:43,208 --> 00:13:45,770
ví dụ, các góc.

278
00:13:45,770 --> 00:13:47,376
Khi chúng tôi thực hiện,

279
00:13:47,376 --> 00:13:49,716
chúng tôi lần lượt nói cho máy tính

280
00:13:49,716 --> 00:13:52,144
các loại mảng cấu trúc 
mà chúng tôi tìm kiếm.

281
00:13:52,144 --> 00:13:53,916
Hãy liên tưởng xét nghiệm chuẩn đoán,

282
00:13:53,916 --> 00:13:57,266
ví dụ, một chuyên gia bệnh học 
xác định những vùng của bệnh ,

283
00:13:57,266 --> 00:14:02,292
hoặc một bác sĩ X-quang cho thấy nốt sần
có thể gây phiền phức,

284
00:14:02,292 --> 00:14:04,851
và đôi khi nó gây khó cho giải thuật.

285
00:14:04,851 --> 00:14:06,815
Trong trường hợp này, giải thuật hơi rối.

286
00:14:06,815 --> 00:14:09,365
Phần trước và sau của xe rất
giống nhau nên dễ nhầm.

287
00:14:09,365 --> 00:14:11,437
Chúng tôi phải cẩn thận hơn,

288
00:14:11,437 --> 00:14:14,669
chọn bằng tay phần trước để thấy 
sự khác biệt với phần sau,

289
00:14:14,669 --> 00:14:20,175
sau đó bảo với máy tính rằng đây là
tiêu chuẩn nhận dạng nhóm

290
00:14:20,175 --> 00:14:21,523
mà chúng tôi quan tâm.

291
00:14:21,523 --> 00:14:24,200
Chúng tôi làm điều đó,
thỉnh thoảng bỏ qua,

292
00:14:24,200 --> 00:14:26,446
sau đó luyện tập giải thuật 
cho "máy biết học"

293
00:14:26,446 --> 00:14:28,420
dựa trên hàng trăm lần như thế này,

294
00:14:28,420 --> 00:14:30,445
chúng tôi hy vọng nó hoàn thiện hơn.

295
00:14:30,445 --> 00:14:33,518
Các bạn thấy đó, nó đang bắt đầu làm mờ
vài bức ảnh,

296
00:14:33,518 --> 00:14:38,226
cho thấy rằng nó đã nhận ra cách 
để hiểu những hình đó.

297
00:14:38,226 --> 00:14:41,128
Chúng tôi có thể dùng khái niệm này cho
các bức ảnh tương tự,

298
00:14:41,128 --> 00:14:43,222
và dùng các bức ảnh tương tự, bạn thấy đó,

299
00:14:43,222 --> 00:14:47,241
máy tính có thể tìm thấy
phần trước của chiếc xe.

300
00:14:47,241 --> 00:14:50,189
Lúc này, con người có thể nói cho máy tính

301
00:14:50,189 --> 00:14:52,482
ok, đúng rồi, bạn đã làm rất tốt.

302
00:14:53,652 --> 00:14:55,837
Nhưng đôi khi, đối với máy

303
00:14:55,837 --> 00:14:59,511
việc tách các nhóm hình vẫn còn khó.

304
00:14:59,511 --> 00:15:03,395
Ngay cả khi chúng tôi để nhiều thời gian 
cho máy tính xoay xở,

305
00:15:03,399 --> 00:15:06,744
nhưng chúng tôi vẫn thấy phía trái 
và phía phải bức ảnh

306
00:15:06,744 --> 00:15:08,222
bị chọn nhầm lẫn.

307
00:15:08,222 --> 00:15:10,362
Để cho máy tính thêm vài gợi ý,

308
00:15:10,362 --> 00:15:13,338
chúng tôi nói: ok, hãy thử và tìm 
một chi tiết

309
00:15:13,338 --> 00:15:15,945
khác biệt rõ ràng nhất
giữa bên trái và bên phải

310
00:15:15,945 --> 00:15:18,067
bằng giải thuật "học sâu" này.

311
00:15:18,067 --> 00:15:21,009
Và với gợi ý đó, à, nó đã thành công.

312
00:15:21,009 --> 00:15:23,891
Nó được giao nhiệm vụ tìm ra cách
nhận ra các đối tượng này

313
00:15:23,891 --> 00:15:26,271
rồi tách rời chúng ra.

314
00:15:26,271 --> 00:15:28,709
Các bạn đã nắm được cách làm này.

315
00:15:28,709 --> 00:15:36,906
Trong trường hợp này máy tính 
không thể thay con người,

316
00:15:36,906 --> 00:15:39,546
nhưng cả hai làm việc chung với nhau.

317
00:15:39,546 --> 00:15:43,096
Điều chúng tôi đang làm là thay thế 
những thứ mà trước đây cần một đội

318
00:15:43,096 --> 00:15:45,098
5 hoặc 6 người làm trong 7 năm

319
00:15:45,098 --> 00:15:47,703
bằng một công việc trong 15 phút

320
00:15:47,703 --> 00:15:50,208
của một người.

321
00:15:50,208 --> 00:15:54,158
Quá trình nhận ra và tách hình 
được lặp lại 4 hoặc 5 lần.

322
00:15:54,158 --> 00:15:56,017
Các bạn thấy chúng tôi có 62%

323
00:15:56,017 --> 00:15:58,976
trong số 1.5 triệu bức ảnh 
được phân loại chính xác.

324
00:15:58,976 --> 00:16:01,448
Và ở mức độ này, chúng tôi có thể
bắt đầu với

325
00:16:01,448 --> 00:16:02,745
những nhóm lớn,

326
00:16:02,745 --> 00:16:05,664
kiểm tra chúng để bảo đảm không còn lỗi.

327
00:16:05,664 --> 00:16:09,616
Nơi nào có lỗi, chúng tôi sẽ cho
máy tính biết.

328
00:16:09,616 --> 00:16:12,661
Và dùng dạng quá trình này cho từng nhóm
khác nhau,

329
00:16:12,661 --> 00:16:15,148
bây giờ, chúng tôi đạt đến 80% tỉ lệ 
thành công

330
00:16:15,148 --> 00:16:17,563
trong việc phân loại 1.5 triệu tấm ảnh.

331
00:16:17,563 --> 00:16:19,641
Lúc này, với trường hợp

332
00:16:19,641 --> 00:16:23,220
tìm thấy những tấm 
không được phân loại đúng,

333
00:16:23,220 --> 00:16:26,108
chúng tôi cố gắng tìm hiểu lý do.

334
00:16:26,108 --> 00:16:27,851
Và sử dụng cách tiếp cận trên,

335
00:16:27,851 --> 00:16:31,972
với 15 phút chúng tôi đạt tỉ lệ phân loại
97%.

336
00:16:31,972 --> 00:16:36,572
Vậy kỹ thuật này có thể cho chúng ta
chỉnh sửa một vấn đề lớn,

337
00:16:36,578 --> 00:16:39,614
mà toàn bộ chuyên gia trên 
thế giới cũng không đủ số để làm.

338
00:16:39,614 --> 00:16:43,103
Diễn đàn Kinh tế Thế giới nói rằng 
vào giữa thập kỷ 2010 và 2020

339
00:16:43,103 --> 00:16:45,727
số lượng bác sĩ bị thiếu 
so với nhu cầu của thế giới,

340
00:16:45,727 --> 00:16:47,840
và phải mất khoảng 300 năm

341
00:16:47,840 --> 00:16:50,734
để đào tạo đủ số nhân sự cho vấn đề này.

342
00:16:50,734 --> 00:16:53,619
Hãy tưởng tượng, liệu chúng ta có thể 
nâng hiệu năng của họ

343
00:16:53,619 --> 00:16:56,458
qua cách tiếp cận "học sâu"?

344
00:16:56,458 --> 00:16:58,690
Tôi rất thích việc tạo ra những cơ hội.

345
00:16:58,690 --> 00:17:01,279
Tôi cũng quan tâm đến 
các vấn đề khó cần giải quyết.

346
00:17:01,279 --> 00:17:04,403
Vấn đề ở đây là ở mỗi khu vực 
màu xanh da trời trên bản đồ,

347
00:17:04,403 --> 00:17:08,172
ngành dịch vụ chiếm 80% nhân lực.

348
00:17:08,172 --> 00:17:09,959
Ngành dịch vụ gì vậy?

349
00:17:09,959 --> 00:17:11,473
Các dịch vụ trong bảng này.

350
00:17:11,473 --> 00:17:15,627
Máy tính cũng vừa mới học 
được cách làm các dịch vụ này.

351
00:17:15,627 --> 00:17:19,431
Vậy công việc của 80% nhân lực 
trong các nước phát triển

352
00:17:19,431 --> 00:17:21,963
sẽ được máy tính học để làm thay.

353
00:17:21,963 --> 00:17:23,403
Điều đó có nghĩa là gì?

354
00:17:23,403 --> 00:17:25,986
À, sẽ ổn thôi.
Họ sẽ làm các công việc khác.

355
00:17:25,986 --> 00:17:28,693
Ví dụ, sẽ có nhiều việc hơn cho
các nhà khoa học dữ liệu.

356
00:17:28,693 --> 00:17:29,510
À cũng không hẳn.

357
00:17:29,510 --> 00:17:32,628
Vì các nhà khoa học dữ liệu 
không cần nhiều thời gian nữa.

358
00:17:32,628 --> 00:17:35,880
Ví dụ, bốn giải thuật này được xây dựng
bởi cùng một người.

359
00:17:35,880 --> 00:17:38,318
Các bạn nghĩ chuyện này 
đã xảy ra trước đây rồi,

360
00:17:38,318 --> 00:17:42,126
trong quá khứ nhiều máy móc 
được làm ra và tiếp theo là

361
00:17:42,126 --> 00:17:44,378
và nhiều người đã phải 
chuyển sang việc mới,

362
00:17:44,378 --> 00:17:46,494
nhưng việc mới của thời nay này sẽ là gì?

363
00:17:46,494 --> 00:17:48,365
Thật khó để dự đoán được điều này,

364
00:17:48,365 --> 00:17:51,104
vì khả năng của con người 
thì chỉ tăng từng bước,

365
00:17:51,104 --> 00:17:53,666
nhưng với một hệ thống "học sâu",

366
00:17:53,666 --> 00:17:56,893
chúng ta có khả năng phát triển rất nhanh.

367
00:17:56,893 --> 00:17:58,498
Và chúng ta ở đây.

368
00:17:58,498 --> 00:18:00,559
Chúng ta thấy những thứ xung quanh

369
00:18:00,559 --> 00:18:03,235
và chúng ta nói: "Ôi, máy tính
vẫn ngốc lắm", lo gì ?

370
00:18:03,235 --> 00:18:06,664
Nhưng trong 5 năm nữa, máy tính
sẽ không còn như vậy.

371
00:18:06,664 --> 00:18:10,529
Chúng ta cần suy nghĩ tới 
khả năng này ngay từ bây giờ.

372
00:18:10,529 --> 00:18:12,579
Chúng ta thấy một lần
như vậy trước đây rồi.

373
00:18:12,579 --> 00:18:13,966
Trong cách mạng công nghiệp,

374
00:18:13,966 --> 00:18:16,817
chúng ta đã thấy những thay đổi 
nhờ các động cơ.

375
00:18:17,667 --> 00:18:20,805
Mặc dù vậy, sau đó mọi thứ
trở nên bình thường.

376
00:18:20,805 --> 00:18:22,507
Đã có vài đảo lộn trong xã hội,

377
00:18:22,507 --> 00:18:25,946
nhưng một khi động cơ được dùng 
để tạo ra những thuận lợi cho cuộc sống,

378
00:18:25,946 --> 00:18:28,300
thì mọi thứ đi vào ổn định.

379
00:18:28,300 --> 00:18:29,773
Cuộc cách mạng "máy biết học"

380
00:18:29,773 --> 00:18:32,682
sẽ rất khác với 
Cuộc cách mạng công nghiệp,

381
00:18:32,682 --> 00:18:35,632
vì Cách mạng "máy biết học sẽ
không bao giờ dừng lại.

382
00:18:35,632 --> 00:18:38,614
Máy tính càng giỏi 
trong các hoạt động trí tuệ,

383
00:18:38,614 --> 00:18:42,862
thì chúng tạo nên những 
máy tính càng thông minh hơn,

384
00:18:42,862 --> 00:18:44,770
và đây chính là kiểu thay đổi

385
00:18:44,770 --> 00:18:47,248
mà thế giới chưa bao giờ trải qua,

386
00:18:47,248 --> 00:18:50,554
những phán đoán trước đây của bạn 
có thể sẽ không chính xác.

387
00:18:50,974 --> 00:18:52,754
Điều này tác động lên chính chúng ta.

388
00:18:52,754 --> 00:18:56,384
Trong 25 năm trước, khi năng suất
thiết bị tăng,

389
00:18:56,400 --> 00:19:00,588
thì năng suất lao động không tăng, 
mà thậm chí còn hơi giảm.

390
00:19:01,408 --> 00:19:04,149
Tôi nghĩ chúng ta cần
thảo luận về vấn đề này từ bây giờ.

391
00:19:04,149 --> 00:19:07,176
Khi tôi nói với mọi người 
về tình hình này,

392
00:19:07,176 --> 00:19:08,666
họ thường tỏ vẻ coi thường.

393
00:19:08,666 --> 00:19:10,339
Đúng, máy tính không thể suy nghĩ,

394
00:19:10,339 --> 00:19:13,367
chúng không có cảm xúc, không hiểu thơ ca,

395
00:19:13,367 --> 00:19:15,888
nhưng ta không lường 
trước được cách chúng làm việc.

396
00:19:15,888 --> 00:19:17,374
Vậy chuyện gì đây?

397
00:19:17,374 --> 00:19:19,178
Bây giờ, máy tính có thể làm

398
00:19:19,178 --> 00:19:21,897
những việc mà con người 
cần cả đời để thực hiện,

399
00:19:21,897 --> 00:19:23,628
đây là thời điểm để
chúng ta nghĩ tới

400
00:19:23,628 --> 00:19:28,015
cách điều chỉnh cấu trúc xã hội
và cấu trúc kinh tế

401
00:19:28,015 --> 00:19:29,855
để thận trọng với hiện thực mới này.

402
00:19:29,855 --> 00:19:31,388
Xin cảm ơn.

403
00:19:31,388 --> 00:19:32,190
(Tiếng vỗ tay)