Ngày xưa nếu bạn muốn máy tính thực hiện thao tác mới, thì bạn phải lập trình nó trước. Đối với những bạn ở đây chưa từng lập trình, việc này đòi hỏi phải lập sơ đồ chi tiết từng bước một cho điều bạn muốn máy tính thực hiện để đạt được mục tiêu của bạn. Nếu bạn muốn làm một việc mà chính bạn cũng không biết cách làm, thì đây sẽ là một thử thách khá lớn. Đây là thử thách mà người đàn ông này, Arthur Samuel, gặp phải. Vào năm 1956, ông muốn chiếc máy tính này có thể đánh bại ông trong môn cờ tướng. Làm sao mà bạn có thể viết ra chương trình tỉ mỉ, chi tiết về cách chơi cờ tướng giỏi hơn chính bạn ? Vậy là ông nảy ra một ý tưởng: ông để máy tính tự chơi lại hàng ngàn lần và tự học cách chơi cờ. Và quả nhiên cách này hiệu quả, và thật sự, đến năm 1962, chiếc máy này đã đánh bại quán quân bang Connecticut. Arthur Samuel là cha đẻ của lĩnh vực machine learning, và tôi rất biết ơn ông, bởi tôi là một người làm trong ngành "máy biết học". Tôi từng là Chủ tịch ở Kaggle một cộng đồng gồm hơn 200,000 chuyên gia về "máy biết học". Kaggle tổ chức các cuộc thi với thử thách là những vấn đề chưa có lời giải, và họ đã thành công hàng trăm lần. Với vị thế thuận lợi đó, tôi đã khám phá ra rất nhiều thứ mà "máy biết học" có thể làm được trước đây, làm được bây giờ, và những gì nó có thể làm trong tương lai. Có lẽ sự thành công vang dội đầu tiên của "máy biết học" là Google Google cho ta thấy nó có thể tìm kiếm thông tin bằng cách sử dụng thuật toán, và thuật toán này dựa trên "máy biết học", Kể từ đó, đã có rất nhiều thành công về mặt thương mại của "máy biết học". Công ty như Amazon và Netflix sử dụng "máy biết học"để gợi ý những sản phẩm bạn có thể muốn mua, các bộ phim bạn có thể muốn xem. Đôi khi nó làm ta rùng mình. Các công ty như LinkedIn và Facebook đôi khi sẽ nói cho bạn biết ai có thể là bạn bè của bạn và bạn không hiểu nổi làm sao họ tìm ra, và đó là vì họ dùng đến sức mạnh của "máy biết học". Đây là thuật toán tự học cách xử lý từ cơ sở dữ liệu, thay vì được lập trình sẵn trước đó. Đây cũng là cách IBM thành công trong việc khiến cho Watson đánh bại hai nhà vô địch chương trình "Jeopardy", bằng cách trả lời những câu hỏi hóc búa và phức tạp như : [Sư tử Nimrud bị mất tại bảo tàng quốc gia thành phố ... Đây cũng là cơ sở cho những xe hơi tự lái đầu tiên. Nếu chúng phân biệt được sự khác nhau giữa cây xanh và người đi bộ, thì đó là việc rất quan trọng. Chúng ta không biết cách viết những chương trình này, nhưng với "máy biết học", điều đó trở thành có thể. Và thực tế, loại xe này đã đi được cả triệu dặm trên những con đường bình thường mà không gây tai nạn nào. Bây giờ chúng ta biết máy tính có thể học được, và chúng có thể học cách làm những việc mà đôi khi chính chúng ta không biết cách làm, hoặc có thể chúng làm tốt hơn ta. Một trong những ví dụ ngoạn mục nhất về "máy biết học" tôi từng thấy là dự án tôi tham gia ở Kaggle nơi đó có một anh chàng điều khiển một nhóm, anh ta tên là Geofrey Hinton đến từ Đại học Toronto nhóm này thắng cuộc thi về chế tạo máy phát hiện ma túy. Bây giờ, điều phi thường ở đây không phải là họ đánh bại tất cả các giải thuật phát triển bới Merk hay các cộng đồng học thuật quốc tế khác mà chính là họ không có thành viên nào chuyên về hóa, sinh hay khoa học đời sống, và họ đã tạo ra chiếc máy chỉ trong 2 tuần. Làm thế nào mà họ làm được? Họ dùng 1 siêu giải thuật gọi là deep learning: "học sâu". Thành công này quan trọng đến mức đã được lên trang bìa tờ New York Times vài tuần sau đó. Đây là Geoffrey Hinton ở đây bên bìa trái. "Học sâu" là một giải thuật lấy cảm hứng từ cách làm việc của não người, và kết quả là giải thuật này về lý thuyết, không có giới hạn cho những gì nó có thể làm. Bạn đưa vào càng nhiều dữ liệu và cho càng nhiều thời gian, thì nó càng làm tốt. Trong bài báo này, Tờ New York Times cũng nói về một kết quả tuyệt vời khác của "học sâu" mà tôi sẽ cho các bạn xem bây giờ. Đó là máy tính có thể nghe và hiểu. (Video) Richard Rashid: Bây giờ là bước cuối cùng mà tôi muốn làm trong quá trình này là nói chuyện với các bạn bằng tiếng Trung. Điểm mấu chốt đó là, chúng tôi có thể lấy lượng lớn thông tin từ những người nói tiếng Trung và tạo ra hệ thống chuyển văn bản thành giọng nói nó giúp lấy văn bản tiếng Trung chuyển thành tiếng Trung, và sau đó chúng tôi đã thực hiện khoảng 1 giờ để lấy giọng của chính tôi từ đó chúng tôi đã điều chỉnh hệ thống chuyển 'văn bản-lời nói' để cho ra được giọng nói giống tôi. Lần nữa, kết quả không hoàn hảo. Thực tế vẫn còn một vài lỗi. ( tiếng Trung). (vỗ tay) Còn nhiều việc để làm trong lĩnh vực này. ( tiếng Trung) ( vỗ tay) Jeremy Howard: đó là trong một hội thảo về "máy biết học" ở Trung Quốc. Thực ra ở hội thảo học thuật, các bạn thường ít nghe tiếng vỗ tay tự phát, ngay cả ở các hội thảo của TEDx, hay vỗ tay thoải mái đi. Những điều bạn thấy đó đang diễn ra với "học sâu". ( vỗ tay) Cảm ơn. Viết lại lời tiếng tiếng Anh bằng "học sâu". Dịch sang tiếng Trung có văn bản ở trên bên phải, do "học sâu", và xây dựng giọng nói cũng nhờ "học sâu". "Học sâu" thật sự phi thường. Nó là một giải thuật đơn giản mà có vẻ làm được hầu hết mọi thứ, và tôi phát hiện trước đó một năm, nó còn học nhìn thấy. Trong cuộc thi ở Đức, cuộc thi 'Nhận biết Tín hiệu Giao thông Benchmark', "học sâu" nhận biết các tín hiệu giao thông,như cái này. Nó không chỉ nhận biết tín hiệu giao thông tốt hơn bất kỳ giải thuật nào khác, mà còn làm tốt hơn cả con người, tốt hơn gấp đôi. Năm 2011, chúng tôi có thử nghiệm đầu tiên cho thấy máy tính có thể nhìn tốt hơn con người. Từ đó, rất nhiều điều đã xảy ra. Năm 2012, Google thông báo họ đã có một giải thuật "học sâu" xem được video trên YouTube và lấy dữ liệu từ 16,000 máy tính trong một tháng, và máy tính đã học một cách độc lập các khái niệm "người" và "mèo" chỉ bằng việc xem các videos. Cách này rất giống cách học của con người. Không cần khái niệm có sẵn, ta học từ cái ta nhìn thấy, ta có thể hiểu trực tiếp bản chất của sự vật đó. Cũng trong năm 2012, Geoffrey Hinton, chiến thắng cuộc thi ImageNet rất nổi tiếng, vì đã tìm ra cách để xác định một trong số nửa triệu tấm ảnh được giao trước. Từ 2014, chúng tôi đã giảm còn 6% tỉ lệ lỗi trong việc nhận diện hình ảnh. Với dạng việc này, máy cũng hơn con người. Thật vậy, máy rất siêu trong lĩnh vực này, và đang được ứng dụng trong công nghiệp. Ví dụ, năm ngoái Google thông báo họ đã lập bản đồ mọi địa điểm ở Pháp trong 2 giờ, và cách họ làm là nạp những hình ảnh đường phố vào giải thuật "học sâu" để nhận diện và đọc số nhà. Hãy tưởng tượng trước đây mất bao lâu: vài chục người làm việc trong nhiều năm. Điều này cũng diễn ra ở Trung Quốc. Tôi thấy Baidu cũng là một dạng Google ở Trung Quốc, và những gì bạn thấy ở trên bên góc trái là một ví dụ về một bức ảnh tôi tải lên hệ thống "học sâu" của Baidu và ở dưới bạn có thể thấy kết quả hệ thống xử lý bức ảnh và nó đã tìm ra những bức hình tương tự. Những bức hình tương tự thực ra có nền tương tự, hướng của khuôn mặt tương tự, và cả một số hình có lưỡi thè ra. Đây không phải là đối chiếu văn bản của trang web. Tôi chỉ upload một tấm ảnh. Vậy chúng ta đang có những chiếc máy tính thực sự hiểu được những gì chúng nhìn thấy và có thể nhờ đó tìm dữ liệu của hàng trăm triệu tấm ảnh. Điều đó có nghĩa là gì khi máy tính có thể nhìn thấy? À, máy tính không chỉ có thể nhìn thấy. Thật ra, "học sâu" còn làm được nhiều hơn. Những câu phức tạp và đầy nét khác biệt tinh tế như câu này giờ đã được hiểu bởi giải thuật "học sâu". Như các bạn thấy ở đây, hệ thống nền Stanford này đang chiếu điểm đỏ ở trên đã tìm ra rằng câu này thể hiện tình cảm tiêu cực. "học sâu" thực sự đang gần giống như con người trong việc hiểu chủ đề các câu và nội dung diễn đạt. "học sâu" có thể đọc tiếng Trung, giống như người nói tiếng Trung bản xứ. Giải thuật này phát triển ở Thụy Sĩ bởi những người không biết tí gì tiếng Trung. Như tôi đã nói, "học sâu" là phương tiện tốt nhất trong lĩnh vực này, vì nó có thể hiểu thậm chí như người bản địa. Đây là hệ thống chúng tôi trang bị ở công ty tôi, công ty tôi muốn sử dụng và kết hợp tất cả. Đây là những tấm hình không kèm theo dòng chữ nào, vì tôi viết những câu vào chỗ này, nhờ đó nó hiểu những tấm hình này và tìm ra chúng nói về cái gì và tìm những tấm hình có ý tương tự với dòng chữ tôi đang viết. Vậy các bạn thấy đó, nó thực sự hiểu được câu tôi viết và thực sự hiểu những tấm hình này. Tôi biết các bạn từng thấy điều tương tự trên Google, khi bạn viết điều gì đó và chúng hiện lên các tấm ảnh, nhưng thực sự những gì nó đang làm là tìm những trang web theo dòng chữ. Điều này rất khác với việc thực việc hiểu những tấm ảnh. Đây là điều mà máy tính chỉ có thể làm lần đầu tiên cách đây vài tháng. Chúng ta thấy máy tính không chỉ nhìn thấy được mà chúng còn đọc được, và dĩ nhiên chúng tôi cho thấy chúng còn hiểu được những gì chúng nghe. Có lẽ không còn ngạc nhiên khi tôi nói với các bạn chúng có thể viết. Ở đây là những dòng văn bản tôi tạo ra bằng giải thuật "học sâu" hôm qua. Và đây là những văn bản giải thuật ở Stanford tạo ra. Mỗi câu được tạo ra bằng giải thuật "học sâu" nhằm mô tả những bức ảnh này. Trước đây giải thuật này chưa bao giờ thấy một người đàn ông áo đen chơi ghita Nhưng nó đã thấy đàn ông, và đã thấy màu đen, và nó cũng đã thấy đàn ghita, rồi nó đã tự tạo ra chú thích của tấm ảnh này. Máy vẫn chưa đạt đến mức như con người, nhưng cũng khá gần rồi. Trong các thí nghiệm máy viết phụ đề cho hình, số phụ đề được người ta chọn chỉ ở tỉ lệ 1/4. Nhưng hệ thống này giờ chỉ mới 2 tuần tuổi, nên có thể trong năm tới, giải thuật máy tính sẽ còn hơn cả con người và tỉ lệ được chọn sẽ cao hơn. Máy tính cũng có thể viết. Chúng tôi kết hợp tất cả lại và nó dẫn đến những cơ hội rất thú vị. Ví dụ, trong ngành y, một nhóm ở Boston thông báo họ đã tìm ra hàng chục tính năng lâm sàng mới của các khối u để giúp các bác sĩ tiên đoán bệnh ung thư. Tương tự, ở Stanford, một nhóm thông báo rằng, dựa vào các hình phóng đại của mô, họ phát triển hệ thống "máy biết học" còn tốt hơn cả các nhà nghiên cứu bệnh học nhờ thế làm tăng khả năng sống sót của các bệnh nhân ung thư. Trong cả hai trường hợp, không chỉ việc tiên đoán chính xác hơn, mà còn tạo ra ngành khoa học mới rất triển vọng. Trong lĩnh vực X-quang, chúng là những chỉ số lâm sàng mới mà con người có thể hiểu. Trong lĩnh vực bệnh học, hệ thống máy tính đã cho thấy rằng những tế bào xung quanh khối u cũng quan trọng như chính tế bào ung thư trong việc chẩn đoán bệnh. Điều này ngược với những gì các nhà bệnh học được dạy trong nhiều thập kỷ qua. Trong mỗi trường hợp trên, chúng là các hệ thống được phát triển bởi sự hợp tác của các chuyên gia y tế và các chuyên gia "máy biết học", nhưng từ năm trước, chúng tôi đã tiến khá xa. Đây là một ví dụ về xác định khu vực ung thư của mô người dưới kính hiển vi. Hệ thống có thể xác định những khu vực chính xác hơn hoặc tương đương các nhà bệnh học, nhưng vì nó được xây dựng với "học sâu" không có chuyên gia ngành y nên những người không chuyên cũng có thể dùng. Ví dụ như việc phân đoạn nơ ron này. Máy giúp chúng tôi phân đoạn nơ ron chính xác như các chuyên gia, nhưng hệ thống này lại được thiết kế với "học sâu" bởi những người không có chuyên môn y khoa. Còn tôi, cũng không có nền tảng về y khoa, thế mà tôi dường như có đầy đủ năng lực để mở một công ty về ngành y, và tôi đã làm. Tôi đã từng sợ trước khi bắt đầu, nhưng lý thuyết cho thấy mọi người có thể dùng những kỹ thuật phân tích dữ liệu để có được một nền y học hiệu quả. Và may mắn là tôi nhận được những phản hồi rất tốt, không chỉ từ truyền thông mà còn từ giới y khoa, họ luôn ủng hộ. Về lý thuyết, chúng tôi có thể lấy phần giữa của quy trình và làm phân tích dữ liệu càng nhiều càng tốt, phần còn lại dành cho bác sĩ. Tôi muốn đưa ra một ví dụ. Thông thường ta cần 15 phút để làm một xét nghiệm chẩn đoán và tôi sẽ làm cho bạn xem tôi nén nó thành 3 phút bằng cách cắt bớt bỏ một số phần. Thay vì cho bạn xem quá trình một xét nghiệm chẩn đoán y học, tôi sẽ cho các bạn xem một xét nghiệm chẩn đoán hình ảnh xe hơi, vì như thế sẽ dễ hiểu cho mọi người. Chúng tôi bắt đầu với khoảng 1,5 triệu hình ảnh xe hơi, tôi muốn tạo tiêu chuẩn để gom chúng lại vào góc của bức hình đang được chụp. Những bức hình này không gắn nhãn trước, nên tôi phải bắt đầu từ số không. Giải thuật "học sâu" có thể tự xác định vùng cấu trúc trong những bức ảnh này. Rất thuận lợi, bây giờ con người và máy tính có thể làm việc cùng nhau. Như các bạn đang thấy đây, con người đang nói cho máy tính biết lĩnh vực cần quan tâm mà họ muốn máy tính sử dụng để cải thiện giải thuật của nó. Những hệ thống "học sâu" này thực ra là không gian 16,000 chiều, bạn có thể thấy ở đây máy tính quay quanh không gian đó, cố gắng tìm vùng mới của cấu trúc. Và khi nó làm thành công, người sử dụng máy có thể tìm thấy khu vực đáng quan tâm. Ở đây, máy tính đã tìm ra những vùng đó, ví dụ, các góc. Khi chúng tôi thực hiện, chúng tôi lần lượt nói cho máy tính các loại mảng cấu trúc mà chúng tôi tìm kiếm. Hãy liên tưởng xét nghiệm chuẩn đoán, ví dụ, một chuyên gia bệnh học xác định những vùng của bệnh , hoặc một bác sĩ X-quang cho thấy nốt sần có thể gây phiền phức, và đôi khi nó gây khó cho giải thuật. Trong trường hợp này, giải thuật hơi rối. Phần trước và sau của xe rất giống nhau nên dễ nhầm. Chúng tôi phải cẩn thận hơn, chọn bằng tay phần trước để thấy sự khác biệt với phần sau, sau đó bảo với máy tính rằng đây là tiêu chuẩn nhận dạng nhóm mà chúng tôi quan tâm. Chúng tôi làm điều đó, thỉnh thoảng bỏ qua, sau đó luyện tập giải thuật cho "máy biết học" dựa trên hàng trăm lần như thế này, chúng tôi hy vọng nó hoàn thiện hơn. Các bạn thấy đó, nó đang bắt đầu làm mờ vài bức ảnh, cho thấy rằng nó đã nhận ra cách để hiểu những hình đó. Chúng tôi có thể dùng khái niệm này cho các bức ảnh tương tự, và dùng các bức ảnh tương tự, bạn thấy đó, máy tính có thể tìm thấy phần trước của chiếc xe. Lúc này, con người có thể nói cho máy tính ok, đúng rồi, bạn đã làm rất tốt. Nhưng đôi khi, đối với máy việc tách các nhóm hình vẫn còn khó. Ngay cả khi chúng tôi để nhiều thời gian cho máy tính xoay xở, nhưng chúng tôi vẫn thấy phía trái và phía phải bức ảnh bị chọn nhầm lẫn. Để cho máy tính thêm vài gợi ý, chúng tôi nói: ok, hãy thử và tìm một chi tiết khác biệt rõ ràng nhất giữa bên trái và bên phải bằng giải thuật "học sâu" này. Và với gợi ý đó, à, nó đã thành công. Nó được giao nhiệm vụ tìm ra cách nhận ra các đối tượng này rồi tách rời chúng ra. Các bạn đã nắm được cách làm này. Trong trường hợp này máy tính không thể thay con người, nhưng cả hai làm việc chung với nhau. Điều chúng tôi đang làm là thay thế những thứ mà trước đây cần một đội 5 hoặc 6 người làm trong 7 năm bằng một công việc trong 15 phút của một người. Quá trình nhận ra và tách hình được lặp lại 4 hoặc 5 lần. Các bạn thấy chúng tôi có 62% trong số 1.5 triệu bức ảnh được phân loại chính xác. Và ở mức độ này, chúng tôi có thể bắt đầu với những nhóm lớn, kiểm tra chúng để bảo đảm không còn lỗi. Nơi nào có lỗi, chúng tôi sẽ cho máy tính biết. Và dùng dạng quá trình này cho từng nhóm khác nhau, bây giờ, chúng tôi đạt đến 80% tỉ lệ thành công trong việc phân loại 1.5 triệu tấm ảnh. Lúc này, với trường hợp tìm thấy những tấm không được phân loại đúng, chúng tôi cố gắng tìm hiểu lý do. Và sử dụng cách tiếp cận trên, với 15 phút chúng tôi đạt tỉ lệ phân loại 97%. Vậy kỹ thuật này có thể cho chúng ta chỉnh sửa một vấn đề lớn, mà toàn bộ chuyên gia trên thế giới cũng không đủ số để làm. Diễn đàn Kinh tế Thế giới nói rằng vào giữa thập kỷ 2010 và 2020 số lượng bác sĩ bị thiếu so với nhu cầu của thế giới, và phải mất khoảng 300 năm để đào tạo đủ số nhân sự cho vấn đề này. Hãy tưởng tượng, liệu chúng ta có thể nâng hiệu năng của họ qua cách tiếp cận "học sâu"? Tôi rất thích việc tạo ra những cơ hội. Tôi cũng quan tâm đến các vấn đề khó cần giải quyết. Vấn đề ở đây là ở mỗi khu vực màu xanh da trời trên bản đồ, ngành dịch vụ chiếm 80% nhân lực. Ngành dịch vụ gì vậy? Các dịch vụ trong bảng này. Máy tính cũng vừa mới học được cách làm các dịch vụ này. Vậy công việc của 80% nhân lực trong các nước phát triển sẽ được máy tính học để làm thay. Điều đó có nghĩa là gì? À, sẽ ổn thôi. Họ sẽ làm các công việc khác. Ví dụ, sẽ có nhiều việc hơn cho các nhà khoa học dữ liệu. À cũng không hẳn. Vì các nhà khoa học dữ liệu không cần nhiều thời gian nữa. Ví dụ, bốn giải thuật này được xây dựng bởi cùng một người. Các bạn nghĩ chuyện này đã xảy ra trước đây rồi, trong quá khứ nhiều máy móc được làm ra và tiếp theo là và nhiều người đã phải chuyển sang việc mới, nhưng việc mới của thời nay này sẽ là gì? Thật khó để dự đoán được điều này, vì khả năng của con người thì chỉ tăng từng bước, nhưng với một hệ thống "học sâu", chúng ta có khả năng phát triển rất nhanh. Và chúng ta ở đây. Chúng ta thấy những thứ xung quanh và chúng ta nói: "Ôi, máy tính vẫn ngốc lắm", lo gì ? Nhưng trong 5 năm nữa, máy tính sẽ không còn như vậy. Chúng ta cần suy nghĩ tới khả năng này ngay từ bây giờ. Chúng ta thấy một lần như vậy trước đây rồi. Trong cách mạng công nghiệp, chúng ta đã thấy những thay đổi nhờ các động cơ. Mặc dù vậy, sau đó mọi thứ trở nên bình thường. Đã có vài đảo lộn trong xã hội, nhưng một khi động cơ được dùng để tạo ra những thuận lợi cho cuộc sống, thì mọi thứ đi vào ổn định. Cuộc cách mạng "máy biết học" sẽ rất khác với Cuộc cách mạng công nghiệp, vì Cách mạng "máy biết học sẽ không bao giờ dừng lại. Máy tính càng giỏi trong các hoạt động trí tuệ, thì chúng tạo nên những máy tính càng thông minh hơn, và đây chính là kiểu thay đổi mà thế giới chưa bao giờ trải qua, những phán đoán trước đây của bạn có thể sẽ không chính xác. Điều này tác động lên chính chúng ta. Trong 25 năm trước, khi năng suất thiết bị tăng, thì năng suất lao động không tăng, mà thậm chí còn hơi giảm. Tôi nghĩ chúng ta cần thảo luận về vấn đề này từ bây giờ. Khi tôi nói với mọi người về tình hình này, họ thường tỏ vẻ coi thường. Đúng, máy tính không thể suy nghĩ, chúng không có cảm xúc, không hiểu thơ ca, nhưng ta không lường trước được cách chúng làm việc. Vậy chuyện gì đây? Bây giờ, máy tính có thể làm những việc mà con người cần cả đời để thực hiện, đây là thời điểm để chúng ta nghĩ tới cách điều chỉnh cấu trúc xã hội và cấu trúc kinh tế để thận trọng với hiện thực mới này. Xin cảm ơn. (Tiếng vỗ tay)