WEBVTT 00:00:00.880 --> 00:00:04.595 در گذشته اگه می خواستین یه رایانه کار جدیدی انجام بده، NOTE Paragraph 00:00:04.595 --> 00:00:06.447 باید برنامه اش رو بهش می دادین. 00:00:06.477 --> 00:00:09.858 خوب، برای اونایی که تا حالا برنامه ننوشتن، 00:00:09.858 --> 00:00:13.360 این کار نیاز به تعریف جزئیات طاقت فرسای 00:00:13.360 --> 00:00:16.727 تک تک مراحلی داره که میخواین رایانه انجام بده 00:00:16.727 --> 00:00:19.089 تا به هدف مورد نظر شما برسه. 00:00:19.089 --> 00:00:22.585 حالا، اگه بخواین کاری انجام بدین که خودتون نمی دونین چطور انجام میشه، 00:00:22.585 --> 00:00:24.648 با چالش بزرگی روبرو میشین. NOTE Paragraph 00:00:24.648 --> 00:00:28.131 خوب، این چالشی بود که رو در روی این مرد، آرتور ساموئل، قرار داشت. 00:00:28.131 --> 00:00:29.928 او در سال ۱۹۵۶، می خواست این رایانه 00:00:29.928 --> 00:00:35.048 بتونه اونو تو بازی چکرز (دام، جنگ نادر) شکست بده. 00:00:35.048 --> 00:00:36.618 چطور میتونین برنامهای بنویسین، 00:00:36.618 --> 00:00:40.394 که با تمام جزئیات طاقت فرسا، به رایانه بگه چجوری می تونه تو بازی چکرز از شما بهتر باشه؟ 00:00:40.394 --> 00:00:42.116 خوب، ایده ای به ذهنش رسید: 00:00:42.116 --> 00:00:45.840 اجازه داد رایانه هزاران بار با خودش بازی کنه، 00:00:45.840 --> 00:00:48.364 و یاد بگیره چطور چکرز بازی کنه. 00:00:48.364 --> 00:00:50.763 و در واقع موفق شد، و در عمل، تا سال ۱۹۶۲، 00:00:53.162 --> 00:00:55.561 این رایانه تونسته بود قهرمان ایالت کانکتیکات رو شکست بده. NOTE Paragraph 00:00:55.561 --> 00:00:58.534 پس آرتور ساموئل پدر یادگیری ماشینی بود، 00:00:58.534 --> 00:01:00.251 و من دین بزرگی بهش دارم، 00:01:00.251 --> 00:01:03.014 چون کارم یادگیری ماشینیه. 00:01:03.014 --> 00:01:04.479 من رئیس کاگل بودم، 00:01:04.479 --> 00:01:07.867 با بیش از دویست هزار نفر که کارشون یادگیری ماشینیه. 00:01:07.867 --> 00:01:09.925 کاگل مسابقاتی برگزار می کنه 00:01:09.925 --> 00:01:13.633 و از شرکت کننده ها می خواد مسئله هایی رو که قبلاً حل نشده ن حل کنن، 00:01:13.633 --> 00:01:17.470 و این رقابت صدها بار موفق بوده. 00:01:17.470 --> 00:01:19.940 پس به دلیل همین امتیاز، تونستم چیزای زیادی 00:01:19.940 --> 00:01:23.890 درباره کارهایی بفهمم که یادگیری ماشینی در گذشته می تونست بکنه، امروز می تونه بکنه، 00:01:23.890 --> 00:01:26.252 و در آینده می تونه بکنه. 00:01:26.252 --> 00:01:30.675 احتمالاً اولین موفقیت بزرگ تجاری یادگیری ماشینی گوگل بود، 00:01:30.675 --> 00:01:33.784 گوگل نشون داد یافتن اطلاعات 00:01:33.784 --> 00:01:35.536 از راه الگوریتم رایانه امکان پذیره، 00:01:35.536 --> 00:01:38.437 و اساس این الگوریتم، یادگیری ماشینیه. 00:01:38.437 --> 00:01:42.323 از اون هنگام، یادگیری ماشینی به موفقیتهای تجاری بسیاری دست یافته. 00:01:42.323 --> 00:01:44.160 شرکت هایی مانند آمازون و نتفلیکس 00:01:44.160 --> 00:01:47.876 برای پیشنهاد محصولاتی که احتمالاً دوست دارین بخرین از یادگیری ماشینی استفاده می کنن، 00:01:47.876 --> 00:01:49.896 یا فیلمهایی که احتمالاً دوست دارین ببینین. 00:01:49.896 --> 00:01:51.703 گاهی این کار به طور نامحسوس انجام می شه. 00:01:51.703 --> 00:01:53.657 شرکتهایی مانند لینکدین و فیسبوک 00:01:53.657 --> 00:01:56.251 گاهی به شما درباره دوستهاتون می گن 00:01:56.251 --> 00:01:58.228 و شما نمی دونین این کارو چجوری انجام میدن، 00:01:58.228 --> 00:02:01.195 و دلیلش اینه که از قدرت یادگیری ماشینی استفاده می کنن. 00:02:01.195 --> 00:02:04.152 اینها الگوریتم هایی هستن که یاد گرفتن این کار رو با داده ها انجام بدن 00:02:04.152 --> 00:02:07.399 به جای اینکه با دست برنامه ربزی بشن. NOTE Paragraph 00:02:07.399 --> 00:02:09.877 آی بی ام هم به همین ترتیب موفق شد 00:02:09.877 --> 00:02:13.739 کاری بکنه که واتسون در مسابقه تلویزیونی "محک" دو نفر از قهرمانان جهان رو شکست بده، 00:02:13.739 --> 00:02:16.964 با پاسخ به پرسشهای بسیار ریز و پیچیده مانند این یکی. 00:02:16.964 --> 00:02:19.799 [شیء باستانی "شیر نیمرود" در سال ۲۰۰۳ (به همراه اشیای دیگر) از موزه ملی این شهر به سرقت رفت] 00:02:19.799 --> 00:02:23.034 همچنین به همین دلیله که حالا می تونیم اولین خودروهای بدون راننده رو ببینیم. 00:02:23.034 --> 00:02:25.856 اگه بخواین تفاوت 00:02:25.856 --> 00:02:28.488 یه درخت و یه عابر پیاده رو تشخیص بدین، خوب، این خیلی مهمه. 00:02:28.488 --> 00:02:31.075 نمی دونیم چطور این برنامه ها رو با دست بنویسیم، 00:02:31.075 --> 00:02:34.072 اما حالا با یادگیری ماشینی، این کار امکان پذیره. 00:02:34.072 --> 00:02:36.680 و در واقع، این ماشین بیش از یک و نیم میلیون کیلومتر 00:02:36.680 --> 00:02:40.186 بدون هیچ تصادفی در جاده های عادی راه رفته. NOTE Paragraph 00:02:40.196 --> 00:02:44.110 پس حالا می دونیم که رایانه ها می تونن یاد بگیرن، 00:02:44.110 --> 00:02:46.010 و رایانه ها می تونن کارهایی رو یاد بگیرن 00:02:46.010 --> 00:02:48.848 که در واقع خود ما گاهی نمی تونیم انجام بدیم، 00:02:48.848 --> 00:02:51.733 یا شاید اونا بهتر از ما انجام می دن. 00:02:51.733 --> 00:02:55.928 یکی از عجیب ترین نمونه های یادگیری ماشینی که دیده ام 00:02:55.928 --> 00:02:58.320 در پروژه ای بود که در کاگل داشتم 00:02:58.320 --> 00:03:01.911 و در اون گروهی به سرپرستی جفری هینتون 00:03:01.911 --> 00:03:03.463 از دانشگاه تورونتو 00:03:03.463 --> 00:03:06.140 برنده مسابقه ی کشف خودکار دارو شد. 00:03:06.140 --> 00:03:08.987 خوب، نکته فوق العاده فقط این نبود که اونها 00:03:08.987 --> 00:03:13.000 همه الگوریتم های طراحی شده توسط مِرک یا دانشگاههای بین المللی رو شکست دادن، 00:03:13.000 --> 00:03:18.061 بلکه این بود که هیچ یک از اعضای گروه، هیچ زمینه ای از شیمی یا زیست شناسی یا علوم زیستی نداشتن، 00:03:18.061 --> 00:03:20.230 و این کار رو در دو هفته انجام دادن. 00:03:20.230 --> 00:03:21.611 چطور این کار رو کردن؟ 00:03:22.421 --> 00:03:25.342 اونها از الگوریتم فوق العاده ای به نام یادگیری عمیق استفاده کردن. 00:03:25.342 --> 00:03:28.291 این خبر چنان مهم بود که موفقیت اونها 00:03:28.291 --> 00:03:31.412 چند هفته بعد روی جلد نیویورک تایمز منعکس شد. 00:03:31.412 --> 00:03:34.147 این جفری هینتونه اینجا سمت چپ. 00:03:34.147 --> 00:03:38.488 یادگیری عمیق الگوریتمی بر اساس نحوه کار مغز انسانه، 00:03:38.488 --> 00:03:40.300 و در نتیجه الگوریتمیه 00:03:40.300 --> 00:03:44.141 که از نظر تئوری هیچ محدودیتی در توانایی انجام کار نداره. 00:03:44.141 --> 00:03:46.964 هر چه داده بیشتری به اون بدین، و با گذشت زمان 00:03:46.964 --> 00:03:48.276 بهتر می شه. NOTE Paragraph 00:03:48.276 --> 00:03:50.615 همچنین نیویورک تایمز در این مطلب 00:03:50.615 --> 00:03:52.857 به یه نتیجه خارق العاده دیگه از یادگیری عمیق اشاره کرد 00:03:52.857 --> 00:03:55.569 که حالا به شما نشون میدم. 00:03:55.569 --> 00:04:00.510 اینجا می بینین که رایانه ها می تونن گوش بدن و بفهمن. NOTE Paragraph 00:04:00.510 --> 00:04:03.221 (ویدئو) ریچارد رشید: حالا، آخرین مرحله ای 00:04:03.221 --> 00:04:06.246 که میخوام انجام بدم 00:04:06.246 --> 00:04:10.961 در واقع اینه که به زبان چینی با تو صحبت کنم. 00:04:10.961 --> 00:04:13.596 نکته ی مهم اینه که 00:04:13.596 --> 00:04:18.598 تونستیم حجم بالایی از اطلاعات رو از تعداد زیادی چینی زبان جمع کنیم 00:04:18.598 --> 00:04:21.128 و یه سیستم نوشتار-به-گفتار ایجاد کنیم 00:04:21.128 --> 00:04:25.801 که نوشته های چینی رو به زبان چینی تبدیل می کنه، 00:04:25.801 --> 00:04:29.929 و بعد حدود یه ساعت از صدای خودمو ضبط کردیم 00:04:29.929 --> 00:04:31.820 و از اون برای تنظیم 00:04:31.820 --> 00:04:36.364 سیستم استاندارد نوشتار-به-گفتار استفاده کردیم تا شبیه من بشه. 00:04:36.364 --> 00:04:38.904 باز هم نتیجه ایده آل نیست. 00:04:38.904 --> 00:04:41.552 در واقع اشتباههایی وجود داره. 00:04:41.552 --> 00:04:44.036 (به زبان چینی) 00:04:44.036 --> 00:04:47.403 (تشویق) 00:04:49.446 --> 00:04:53.022 در این زمینه کار زیادی باید انجام بشه. 00:04:53.022 --> 00:04:56.667 (به زبان چینی) 00:04:56.667 --> 00:05:00.100 (تشویق) NOTE Paragraph 00:05:01.345 --> 00:05:04.744 جرمی هووارد: خوب، اینجا یه کنفرانس درباره یادگیری ماشین تو چینه. 00:05:04.744 --> 00:05:07.114 در واقع در اغلب کنفرانسهای دانشگاهی، 00:05:07.114 --> 00:05:09.011 حضار اینطوری خودبخود تشویق نمی کنن، 00:05:09.011 --> 00:05:12.687 البته گاهی در کنفرانسهای تدکس پیش میاد، راحت باشین. 00:05:12.687 --> 00:05:15.482 همه چیزهایی که اونجا دیدین حاصل یادگیری عمیق بود. 00:05:15.482 --> 00:05:17.007 (تشویق) متشکرم. 00:05:17.007 --> 00:05:19.289 رونویسی به انگلیسی یادگیری عمیق بود. 00:05:19.289 --> 00:05:22.701 رونویسی به چینی و نوشته ی بالا سمت راست، یادگیری عمیق، 00:05:22.701 --> 00:05:26.008 و شکل گیری صدا نیز یادگیری عمیق بود. NOTE Paragraph 00:05:26.008 --> 00:05:29.242 یادگیری عمیق چنین پدیده ی خارق العاده ایه. 00:05:29.242 --> 00:05:32.341 یه الگوریتم واحد که به نظر میرسه بتونه تقریباً هر کاری بکنه، 00:05:32.341 --> 00:05:35.452 و فهمیدم که یه سال قبل، دیدن رو هم یاد گرفته. 00:05:35.452 --> 00:05:37.628 در این مسابقه عجیب از آلمان 00:05:37.628 --> 00:05:40.225 به نام مسابقه تشخیص تابلوهای ترافیکی آلمان، 00:05:40.225 --> 00:05:43.618 یادگیری عمیق تابلوهایی مثل این رو یاد گرفته بود. 00:05:43.618 --> 00:05:45.712 نه تنها میتونست تابلوها رو 00:05:45.712 --> 00:05:47.470 بهتر از هر الگوریتم دیگه ای بشناسه، 00:05:47.470 --> 00:05:50.189 بلکه جدول نشون میداد از انسان هم بهتره، 00:05:50.189 --> 00:05:52.041 تقریباً دو برابر بهتر از انسان. 00:05:52.041 --> 00:05:54.037 پس تا سال ۲۰۱۱، اولین نمونه ی 00:05:54.037 --> 00:05:57.442 رایانه هایی رو داشتیم که بهتر از انسان می بینن. 00:05:57.442 --> 00:05:59.491 از اون موقع، اتفاقات زیادی افتاده. 00:05:59.491 --> 00:06:03.005 گوگل در سال ۲۰۱۲ اعلام کرد که دارای الگوریتم یادگیری عمیقی 00:06:03.005 --> 00:06:04.420 که ویدئوهای یوتیوب رو می بینه هستند 00:06:04.420 --> 00:06:07.857 و داده های اونو در عرض یه ماه تو ۱۶ هزار رایانه پردازش میکنه، 00:06:07.857 --> 00:06:12.218 و رایانه بطور مستقل موضوعاتی مثل آدمها و گربه ها رو یاد گرفته 00:06:12.218 --> 00:06:14.027 فقط با تماشای ویدئو. 00:06:14.027 --> 00:06:16.379 تا حدود زیادی شبیه یادگیری آدمه. 00:06:16.379 --> 00:06:19.119 برای یاد گرفتن آدمها لازم نیست به اونا بگین چیزی که می بینن چیه، 00:06:19.119 --> 00:06:22.450 بلکه خودشون یاد میگیرن این چیزها چیه. 00:06:22.450 --> 00:06:25.819 همین طور در سال ۲۰۱۲، جفری هینتون که قبلاً دیدیمش، 00:06:25.819 --> 00:06:28.677 مسسابقه ی بسیار معروف ایمیج نت رو برنده شد، 00:06:28.677 --> 00:06:32.818 که باید یک و نیم میلیون عکس رو نگاه می کرد 00:06:32.818 --> 00:06:34.256 و می گفت عکس چی هستن. 00:06:34.256 --> 00:06:37.789 حالا در سال ۲۰۱۴ تونستیم خطا رو به شش درصد 00:06:37.789 --> 00:06:39.242 در شناسایی تصویر پایین بیاریم. 00:06:39.242 --> 00:06:41.268 این هم بهتر از آدمه. NOTE Paragraph 00:06:41.268 --> 00:06:45.037 پس ماشین تو این کار خیلی بهتره، 00:06:45.037 --> 00:06:47.306 و حالا دارن تو صنعت ازش استفاده میکنن. 00:06:47.306 --> 00:06:50.348 مثلاً گوگل سال پیش اعلام کرد 00:06:50.348 --> 00:06:54.933 نقشه ی همه جای فرانسه رو در عرض دو ساعت تهیه کرده، 00:06:54.933 --> 00:06:58.380 و این کارو با استفاده از تصاویر دوربینهای خیابان انجام دادن 00:06:58.380 --> 00:07:02.699 و یه الگوریتم یادگیری عمیق که میتونست شماره خیابونها رو بخونه و بشناسه. 00:07:02.699 --> 00:07:04.919 تصور کنین قبلاً می تونست چقدر طول بکشه: 00:07:04.919 --> 00:07:08.274 چندین نفر، چندین سال. 00:07:08.274 --> 00:07:10.185 همین اتفاق داره تو چین میفته. 00:07:10.185 --> 00:07:14.221 بایدو یه جور گوگل چینیه، فکر کنم، 00:07:14.221 --> 00:07:16.504 و چیزی که اینجا سمت چپ و بالا می بینین 00:07:16.504 --> 00:07:20.478 نمونه ای از تصویریه که من در سیستم یادگیری عمیق بایدو آپلود کردم، 00:07:20.478 --> 00:07:24.247 و پایینش می تونین ببینین که سیستم فهمیده اون تصویر چیه 00:07:24.247 --> 00:07:26.483 و تصاویر مشابه رو پیدا کرده. 00:07:26.483 --> 00:07:29.219 تصاویر مشابه در واقع دارای زمینه مشابه، 00:07:29.219 --> 00:07:30.877 و جهت مشابه چهره ها هستن، 00:07:30.877 --> 00:07:32.665 حتی زبون بعضیا بیرونه. 00:07:32.665 --> 00:07:35.695 این جستجوی واضح یه متن از یه صفحه وب نیست. 00:07:35.695 --> 00:07:37.107 تمام چیزی که آپلود کردم یه تصویر بود. 00:07:37.107 --> 00:07:41.128 پس حالا رایانه هایی داریم که چیزی رو که می بینن واقعاً میفهمن 00:07:41.128 --> 00:07:42.752 و بنابراین میتونن بانکهای اطلاعاتی 00:07:42.752 --> 00:07:46.306 صدها میلیون تصویری رو در یه لحظه جستجو کنن. NOTE Paragraph 00:07:46.306 --> 00:07:49.536 پس حالا اینکه رایانه ها میتونن ببینن یعنی چی؟ 00:07:49.536 --> 00:07:51.553 خوب، فقط این نیست که رایانه ها میتونن ببینن. 00:07:51.553 --> 00:07:53.622 در واقع، یادگیری عمیق بیشتر از این انجام داده. 00:07:53.622 --> 00:07:56.570 جملات پیچیده و ظریف مثل این یکی 00:07:56.570 --> 00:07:59.394 حالا با الگوریتم های یادگیری عمیق قابل فهمه. 00:07:59.394 --> 00:08:00.697 همون طور که میتونین اینجا ببینین، 00:08:00.697 --> 00:08:03.465 این سیستم مستقر در استنفورد که نقطه قرمزی اون بالا داره 00:08:03.465 --> 00:08:07.384 به این نتیجه رسیده که این جمله بار عاطفی منفی داره. 00:08:07.384 --> 00:08:10.790 حالا در واقع یادگیری عمیق به عملکرد انسان نزدیک شده 00:08:10.802 --> 00:08:15.923 در فهم اینکه جمله ها درباره ی چیه وهر جمله درباره اون چیزها چی میگه. 00:08:15.923 --> 00:08:18.651 هم چنین، یادگیری عمیق برای خواندن متون چینی به کار رفته، 00:08:18.651 --> 00:08:21.807 باز هم در سطحی که معادل حرف زدن یه آدم چینی تبار اصیله، 00:08:21.807 --> 00:08:23.975 این الگوریتم در سویس ساخته شده 00:08:23.975 --> 00:08:27.331 توسط افرادی که هیچ کدوم نمی تونن چینی حرف بزنن یا بفهمن. 00:08:27.331 --> 00:08:29.382 همون طور که گفتم، با استفاده از یادگیری عمیق 00:08:29.382 --> 00:08:31.601 یعنی استفاده از بهترین سیستم موجود در دنیا در این مورد، 00:08:31.601 --> 00:08:36.718 حتی در مقایسه با فهم یه آدم بومی اصیل. NOTE Paragraph 00:08:36.718 --> 00:08:39.682 این سیستمیه که ما تو شرکتمون جمع کردیم 00:08:39.682 --> 00:08:41.728 که نشون میده همه این چیزها کنار هم جمع شده. 00:08:41.728 --> 00:08:44.189 اینها تصاویریه که هیچ متنی به اونها پیوست نیست، 00:08:44.189 --> 00:08:46.541 و همینکه اینجا جمله هایی تایپ میکنم، 00:08:46.541 --> 00:08:49.510 در همون لحظه داره اون تصاویر رو میفهمه 00:08:49.510 --> 00:08:51.189 و داره تصمیم میگیره موضوع اونا چیه 00:08:51.189 --> 00:08:54.352 و تصاویری رو که شبیه متنیه که من دارم می نویسم پیدا می کنه. 00:08:54.352 --> 00:08:57.108 پس می تونین ببینین که در واقع جمله های منو میفهمه 00:08:57.108 --> 00:08:59.332 و در واقع این تصاویر رو میفهمه. 00:08:59.332 --> 00:09:01.891 میدونم یه چیزی شبیه اینو تو گوگل دیدین، 00:09:01.891 --> 00:09:04.666 اونجا میتونین چیزهایی تایپ کنین و تصاویری به شما نشون میده، 00:09:04.666 --> 00:09:08.090 اما در واقع کاری که انجام میده اینه که صفحه وب رو دنبال اون متن میگرده. 00:09:08.090 --> 00:09:11.091 این با فهم واقعی تصاویر خیلی فرق داره. 00:09:11.091 --> 00:09:13.843 این چیزیه که رایانه ها فقط تونستن 00:09:13.843 --> 00:09:17.091 برای اولین بار در چند ماه اخیر انجامش بدن. NOTE Paragraph 00:09:17.091 --> 00:09:21.182 پس حالا می بینیم که رایانه ها هم می تونن ببینن و هم میتونن بخونن، 00:09:21.182 --> 00:09:24.947 و البته، نشون دادیم که میتونن چیزی رو که می شنون بفهمن. 00:09:24.947 --> 00:09:28.389 شاید حالا عجیب نباشه که میخوام بگم میتونن بنویسن. 00:09:28.389 --> 00:09:33.172 این متنیه که دیروز با یه الگوریتم یادگیری عمیق ایجاد کردم. 00:09:33.172 --> 00:09:37.096 و این متنیه که یه الگوریتم از استنفورد ایجاد کرده. 00:09:37.096 --> 00:09:38.860 هر دو جمله توسط 00:09:38.860 --> 00:09:43.109 الگوریتم یادگیری عمیق برای توصیف این تصاویر ایجاد شده. 00:09:43.109 --> 00:09:47.581 این الگوریتم قبلاً هرگز ندیده بود یه مرد با پیراهن مشکی گیتار بنوازد. 00:09:47.581 --> 00:09:49.801 قبلاً یه مرد دیده بود، قبلاً مشکی دیده بود، 00:09:49.801 --> 00:09:51.400 قبلاً یه گیتار دیده بود، 00:09:51.400 --> 00:09:55.694 اما بدون کمک کسی توانست چنین توصیف نابی از این تصویر ایجاد کند. 00:09:55.694 --> 00:09:59.196 البته هنوز به سطح عملکرد انسان نرسیده ایم، اما به آن نزدیک شده ایم. 00:09:59.196 --> 00:10:03.264 در آزمونها، افراد توصیف های رایانه رو 00:10:03.264 --> 00:10:04.791 به نسبت یک به چهار ترجیح میدن. 00:10:04.791 --> 00:10:06.855 حالا این سیستم فقط دو هفته س به وجود اومده، 00:10:06.855 --> 00:10:08.701 بنابراین در عرض یه سال آینده، 00:10:08.701 --> 00:10:11.502 الگوریتم رایانه ای احتمالاً انسان رو پشت سر میذاره 00:10:11.502 --> 00:10:13.364 با این سرعت که کارها پیش میره. 00:10:13.364 --> 00:10:16.413 پس رایانه ها نوشتن هم بلدن. NOTE Paragraph 00:10:16.413 --> 00:10:19.888 پس همه ی اینها رو کنار هم میذاریم و نتیجه ش فرصت های بسیار مهیجی میشه. 00:10:19.888 --> 00:10:21.380 مثلاً، در پزشکی، 00:10:21.380 --> 00:10:23.905 یه گروه در بوستون اعلام کرده 00:10:23.905 --> 00:10:26.854 چندین ویژگی مهم یالینی 00:10:26.854 --> 00:10:31.120 از تومورها رو پیدا کرده که به دکترها در تعیین پیش آگهی سرطان کمک می کنن. 00:10:32.220 --> 00:10:34.516 به طرز بسیار مشابه، در استنفورد، 00:10:34.516 --> 00:10:38.179 یه گروه اعلام کرده، با نگاه کردن به بافتها، با بزرگنمایی بالا، 00:10:38.179 --> 00:10:40.560 یه سیستم بر اساس یادگیری ماشینی درست کردن 00:10:40.560 --> 00:10:43.142 که در واقع بهتر از دکترهای آسیب شناس 00:10:43.142 --> 00:10:47.519 میزان بقای مبتلایان به سرطان رو پیش بینی می کنه. 00:10:47.519 --> 00:10:50.764 در هر دو مورد فوق، نه تنها پیش بینی ها دقیق تره، 00:10:50.764 --> 00:10:53.266 بلکه جنبه های جدیدی از بصیرت علمی به وجود اومده. 00:10:53.276 --> 00:10:54.781 در مورد رادیولوژی، 00:10:54.781 --> 00:10:57.876 شاخص های بالینی جدیدی به دست اومده که انسان قادر به فهم اونهاست. 00:10:57.876 --> 00:10:59.668 در این مورد آسیب شناسی، 00:10:59.668 --> 00:11:04.168 سیستم رایانه ای در واقع فهمید که سلولهای اطراف سرطان 00:11:04.168 --> 00:11:07.508 به اندازه ی خود سلولهای سرطانی 00:11:07.508 --> 00:11:09.260 در رسیدن به تشخیص مهم هستن. 00:11:09.260 --> 00:11:14.621 این برخلاف چیزیه که دهها ساله به آسیب شناسها یاد میدن. 00:11:14.621 --> 00:11:17.913 در هر یک از دو مورد فوق، اون سیستمها 00:11:17.913 --> 00:11:21.534 با ترکیبی از نظر خبرگان پزشکی و خبرگان یادگیری ماشینی شکل گرفت، 00:11:21.534 --> 00:11:24.275 اما از سال گذشته تا حالا از اون هم جلوتر رفتیم. 00:11:24.275 --> 00:11:27.824 این نمونه ای از تشخیص نواحی سرطانی 00:11:27.824 --> 00:11:30.354 بافتهای انسان در زیر میکروسکوپه. 00:11:30.354 --> 00:11:34.967 سیستمی که اینجا نشون داده شده میتونه اون نواحی رو دقیق تر از 00:11:34.967 --> 00:11:37.742 یا با دقت معادل دکترهای آسیب شناس تشخیص بده، 00:11:37.742 --> 00:11:41.134 اما به طور کامل توسط یادگیری عمیق و بدون کمک تخصصی پزشکی ساخته شده 00:11:41.134 --> 00:11:43.660 توسط افرادی که هیچ سابقه ای در این زمینه ندارن. 00:11:44.730 --> 00:11:47.285 به طور مشابه، اینجا، این قطعه قطعه شدن عصب. 00:11:47.285 --> 00:11:50.953 ما حالا میتونیم اعصاب رو با دقت مشابه انسان قطعه قطعه کنیم، 00:11:50.953 --> 00:11:53.670 اما این سیستم با یادگیری عمیق ایجاد شده 00:11:53.670 --> 00:11:56.921 توسط افرادی که هیچ سابقه ی پزشکی ندارن. NOTE Paragraph 00:11:56.921 --> 00:12:00.148 پس خودم، به عنوان کسی که هیچ سابقه ی پزشکی ندارم، 00:12:00.148 --> 00:12:03.875 به نظر میرسه کاملاً آمادگی دارم یه شرکت جدید پزشکی تأسیس کنم، 00:12:03.875 --> 00:12:06.021 که همین کارو کردم. 00:12:06.021 --> 00:12:07.761 یه جورایی از انجام این کار میترسیدم، 00:12:07.761 --> 00:12:10.650 اما به طور نظری امکانش بود 00:12:10.650 --> 00:12:16.142 که با این فنون تحلیل داده بتونم کار پزشکی بسیار مفیدی انجام بدم. 00:12:16.142 --> 00:12:18.622 و شُکر که بازخوردش خارق العاده بوده، 00:12:18.622 --> 00:12:20.978 نه تنها از رسانه ها بلکه از جامعه ی پزشکی، 00:12:20.978 --> 00:12:23.322 که خیلی حمایت کردن. 00:12:23.322 --> 00:12:27.471 فرضیه اینه که میتونیم قسمت وسط فرآیند پزشکی رو بگیریم 00:12:27.471 --> 00:12:30.364 و اونو تا حد امکان به تحلیل داده ها تبدیل کنیم، 00:12:30.364 --> 00:12:33.429 و کارهایی رو که دکترها بهتر انجام میدن به اونها بسپاریم. 00:12:33.429 --> 00:12:35.031 میخوام یه مثال براتون بزنم. 00:12:35.031 --> 00:12:39.975 حالا به وجود اومدن یه آزمایش تشخیصی جدید حدود ۱۵ دقیقه طول میکشه 00:12:39.975 --> 00:12:41.929 و حالا اینو به طور زنده به شما نشون میدم، 00:12:41.929 --> 00:12:45.416 اما با برش چند قسمت فشرده ش کردم به سه دقیقه. 00:12:45.416 --> 00:12:48.477 بجای آزمایش تشخیص پزشکی 00:12:48.477 --> 00:12:51.846 میخوام یه آزمایش تشخیص تصاویر خودرو براتون بسازم، 00:12:51.846 --> 00:12:54.068 چون چیزیه که همه ی ما میفهمیم. NOTE Paragraph 00:12:54.068 --> 00:12:57.269 پس اینجا با حدود یک و نیم میلیون تصویر خودرو شروع می کنیم، 00:12:57.269 --> 00:13:00.475 و میخوام چیزی درست کنم که بتون اونها رو بر اساس زاویه ی عکاسی 00:13:00.475 --> 00:13:02.698 دسته بندی کنه. 00:13:02.698 --> 00:13:06.586 خوب همه ی این تصاویر بدون برچسب هستن، پس ناچارم از اول شروع کنم. 00:13:06.586 --> 00:13:08.451 با الگوریتم یادگیری عمیق ما، 00:13:08.451 --> 00:13:12.158 این سیستم میتونه به طور خودکار ساختارهای هر تصویر رو شناسایی کنه. 00:13:12.158 --> 00:13:15.778 خوب نکته ی مثبت اینه که حالا انسان و رایانه میتونن با هم کار کنن. 00:13:15.778 --> 00:13:17.956 پس انسان، همون طور که اینجا میتونین ببینین، 00:13:17.956 --> 00:13:20.631 داره موارد مورد نظر رو به رایانه میگه 00:13:20.631 --> 00:13:25.281 و از رایانه میخواد با استفاده از اونها الگوریتم خودشو بهتر کنه. 00:13:25.281 --> 00:13:29.577 حالا این سیستمهای یادگیری عمیق در واقع در فضای ۱۶ هزار بعدی هستن، 00:13:29.577 --> 00:13:33.009 پس اینجا می تونین ببینین رایانه اینو در اون فضا میچرخونه، 00:13:33.009 --> 00:13:35.001 و سعی میکنه ساختارهای جدید رو پیدا کنه. 00:13:35.001 --> 00:13:36.782 و وقتی این کار رو با چنین موفقیتی انجام میده، 00:13:36.782 --> 00:13:40.786 فردی که داره هدایتش میکنه میتونه نواحی مورد نظر رو نشون بده. 00:13:40.786 --> 00:13:43.208 پس اینجا، رایانه موفق شده نواحی، 00:13:43.208 --> 00:13:45.770 مثلاً زاویه ها رو پیدا کنه. 00:13:45.770 --> 00:13:47.376 پس طی این فرآیند، 00:13:47.376 --> 00:13:49.716 به تدریج به رایانه 00:13:49.716 --> 00:13:52.144 نکات بیشتر و بیشتری درباره ی انواع ساختارهای مورد نظرمون میگیم. 00:13:52.144 --> 00:13:53.916 میتونین فرض کنین در یه آزمایش تشخیصی 00:13:53.916 --> 00:13:57.266 این میتونه یه آسیب شناس باشه که مثلاً نواحی آسیب رو شناسایی می کنه، 00:13:57.266 --> 00:14:02.292 یا یه رادیولوژیست که گره های بالقوه مشکل دار رو نشون میده. 00:14:02.292 --> 00:14:04.851 و این گاهی ممکنه برای الگوریتم مشکل باشه. 00:14:04.851 --> 00:14:06.815 در این مورد، یه جورایی سردرگم شد. 00:14:06.815 --> 00:14:09.365 جلو و عقب خودروها همه در همه. 00:14:09.365 --> 00:14:11.437 پس اینجا باید کمی بیشتر دقت کنیم، 00:14:11.437 --> 00:14:14.669 با دست جلو و عقب رو مشخص کنیم، 00:14:14.669 --> 00:14:20.175 بعد به رایانه بگیم این نوع گروهیه 00:14:20.175 --> 00:14:21.523 که منظور ماست. NOTE Paragraph 00:14:21.523 --> 00:14:24.200 پس این کار رو مدتی انجام میدیم، کمی ازش رد میشیم، 00:14:24.200 --> 00:14:26.446 و بعد به الگوریتم یادگیری ماشینی آموزش میدیم 00:14:26.446 --> 00:14:28.420 بر اساس این چند صد چیز، 00:14:28.420 --> 00:14:30.445 و امیدواریم خیلی بهتر بشه. 00:14:30.445 --> 00:14:33.518 حالا میتونین ببینین که بعضی از این تصاویر داره محو میشه، 00:14:33.518 --> 00:14:38.226 که نشون میده خودش کم کم بعضی از اینا رو میشناسه. 00:14:38.226 --> 00:14:41.128 پس میتونیم از این مفهوم تصاویر مشابه استفاده کنیم، 00:14:41.128 --> 00:14:43.222 و با استفاده از تصاویر مشابه، حالا میتونین ببینین که، 00:14:43.222 --> 00:14:47.241 رایانه در این نقطه میتونه فقط جلوی خودروها رو کاملاً بشناسه. 00:14:47.241 --> 00:14:50.189 پس در این نقطه، انسان میتونه به رایانه بگه، 00:14:50.189 --> 00:14:52.482 خوب، بله، کارت خوب بود. NOTE Paragraph 00:14:53.652 --> 00:14:55.837 گاهی، البته، حتی در این نقطه، 00:14:55.837 --> 00:14:59.511 جدا کردن گروهها مشکله. 00:14:59.511 --> 00:15:03.395 در این مورد، حتی بعد از اینکه رایانه مدتی اینجا میچرخه، 00:15:03.399 --> 00:15:06.744 هنوز می بینیم که سمت چپ و راست تصاویر 00:15:06.744 --> 00:15:08.222 همه در همه. 00:15:08.222 --> 00:15:10.362 پس دوباره میتونیم به رایانه کمک کنیم، 00:15:10.362 --> 00:15:13.338 و بگیم خوب، حالا سعی کن زائده ای رو پیدا کنی 00:15:13.338 --> 00:15:15.945 که سمت چپ و راست رو تا حد امکان مشخص کنه 00:15:15.945 --> 00:15:18.067 به کمک این الگوریتم یادگیری عمیق. 00:15:18.067 --> 00:15:21.009 و با این کمک-- آهان، بله، موفق شده. 00:15:21.009 --> 00:15:23.891 تونسته راهی پیدا کنه که درباره این اشیا فکر کنه 00:15:23.891 --> 00:15:26.271 و اینها رو از هم جدا کنه. NOTE Paragraph 00:15:26.271 --> 00:15:28.709 پس ایده رو اینجا گرفتین. 00:15:28.709 --> 00:15:36.906 اینجا رایانه جای انسان رو نمی گیره، 00:15:36.906 --> 00:15:39.546 بلکه با هم کار میکنن. 00:15:39.546 --> 00:15:43.096 کاری که اینجا می کنیم اینه که کاری که وقت یه گروه 00:15:43.096 --> 00:15:45.098 پنج یا شش نفره رو حدود هفت سال می گرفت 00:15:45.098 --> 00:15:47.703 به سیستمی میدیم که همون کار رو در عرض ۱۵ دقیقه انجام میده 00:15:47.703 --> 00:15:50.208 فقط با یه نفر که به تنهایی کار میکنه. NOTE Paragraph 00:15:50.208 --> 00:15:54.158 پس این فرآیند حدود چهار یا پنج بار تکرار میشه. 00:15:54.158 --> 00:15:56.017 می تونین ببینین که حالا موفق شدیم ۶۲ درصد 00:15:56.017 --> 00:15:58.976 از یک و نیم میلیون تصویر رو دسته بندی کنیم. 00:15:58.976 --> 00:16:01.448 و در این نقطه، میتونیم با سرعت تمام 00:16:01.448 --> 00:16:02.745 دسته ها رو به طور کامل بگیریم، 00:16:02.745 --> 00:16:05.664 و هر کدوم رو چک کنیم تا مطمئن بشیم اشتباه نشده. 00:16:05.664 --> 00:16:09.616 در صورت اشتباه، میتونیم اینو به رایانه اطلاع بدیم. 00:16:09.616 --> 00:16:12.661 و با این نوع فرآیند برای هر یک از گروههای مختلف، 00:16:12.661 --> 00:16:15.148 حالا به موفقیت ۸۰ درصد 00:16:15.148 --> 00:16:17.563 در طبقه بندی یک و نیم میلیون تصویر رسیدیم. 00:16:17.563 --> 00:16:19.641 و این نقطه، جاییه که 00:16:19.641 --> 00:16:23.220 تعداد کمی تصویر درست طبقه بندی نشده، 00:16:23.220 --> 00:16:26.108 و سعی می کنه بفهمه چرا. 00:16:26.108 --> 00:16:27.851 و با استفاده از روش فوق، 00:16:27.851 --> 00:16:31.972 در عرض ۱۵ دقیقه به میزان طبقه بندی ۹۷ درصد رسیدیم. NOTE Paragraph 00:16:31.972 --> 00:16:36.572 پس این نوع تکنیک به ما امکان داد یه مشکل بزرگ رو حل کنیم، 00:16:36.578 --> 00:16:39.614 این مشکل که با کمبود نیروی تخصصی پزشکی در جهان روبرو هستیم. 00:16:39.614 --> 00:16:43.103 مجمع جهانی اقتصاد اعلام کرده بین ۱۰ تا ۲۰ برابر 00:16:43.103 --> 00:16:45.727 کمبود پزشک در جهان در حال توسعه وجود داره، 00:16:45.727 --> 00:16:47.840 و حدود ۳۰۰ سال طول میکشه 00:16:47.840 --> 00:16:50.734 تا تعداد کافی پزشک برای حل این مشکل تربیت بشه. 00:16:50.734 --> 00:16:53.619 پس تصور کنین اگه بتونیم کارایی اونا رو افزایش بدیم 00:16:53.619 --> 00:16:56.458 با اساتفاده از این روشهای یادگیری عمیق، چی میشه؟ NOTE Paragraph 00:16:56.458 --> 00:16:58.690 خوب این فرصتها منو به شدت هیجان زده کرده. 00:16:58.690 --> 00:17:01.279 همچنین نگران مشکلات هستم. 00:17:01.279 --> 00:17:04.403 اینجا مشکل اینه که هر ناحیه آبی رنگ در این نقشه 00:17:04.403 --> 00:17:08.172 جاییه که میزان اشتغال در خدمات بیشتر از ۸۰ درصده. 00:17:08.172 --> 00:17:09.959 چه خدماتی؟ 00:17:09.959 --> 00:17:11.473 این خدمات. 00:17:11.473 --> 00:17:15.627 اینها دقیقاً همون چیزهایی هستن که رایانه ها یاد گرفتن انجام بدن. 00:17:15.627 --> 00:17:19.431 پس ۸۰ درصد اشتغال در جهان توسعه یافته 00:17:19.431 --> 00:17:21.963 مربوط به کارهاییه که رایانه ها بلد هستن. 00:17:21.963 --> 00:17:23.403 مفهومش چیه؟ 00:17:23.403 --> 00:17:25.986 خوب، مشکلی نیست. میتونن در مشاغل دیگه جایگزین بشن. 00:17:25.986 --> 00:17:28.693 به عنوان مثال، موقعیتهای شغلی بیشتری برای دانشمندان علوم داده ایجاد میشه. 00:17:28.693 --> 00:17:29.510 خوب، نه واقعاً. 00:17:29.510 --> 00:17:32.628 دانشمندان علوم داده زمان زیادی برای ساختن این چیزها صرف نکردن. 00:17:32.628 --> 00:17:35.880 به عنوان مثال، این چهار الگوریتم همگی توسط یه نفر ساخته شده. 00:17:35.880 --> 00:17:38.318 پس اگه فکر کنید، اوه، قبلاً مشابه همین اتفاق افتاده، 00:17:38.318 --> 00:17:42.126 نتیجه شو در گذشته دیدیم وقتی چیزهای جدید وارد میشه 00:17:42.126 --> 00:17:44.378 و شغلهای جدید جای اونا رو میگیره، 00:17:44.378 --> 00:17:46.494 این شغلهای جدید چه خواهد بود؟ 00:17:46.494 --> 00:17:48.365 برآوردش برامون خیلی سخته، 00:17:48.365 --> 00:17:51.104 چون عملکرد انسانی به تدریج رشد می کنه، 00:17:51.104 --> 00:17:53.666 اما حالا سیستمی داریم به نام یادگیری عمیق، 00:17:53.666 --> 00:17:56.893 که در واقع میدونیم که از نظر توانایی، سرعت رشد تصاعدی داره. 00:17:56.893 --> 00:17:58.498 و ما اینجاییم. 00:17:58.498 --> 00:18:00.559 پس در حال حاضر، چیزهای اطرفمون رو می بینیم 00:18:00.559 --> 00:18:03.235 و میگیم، "اوه، رایانه ها هنوز خیلی عقب هستن." درسته؟ 00:18:03.235 --> 00:18:06.664 اما در عرض پنج سال، رایانه ها از این جدول خارج خواهند شد. 00:18:06.664 --> 00:18:10.529 پس لازمه همین الان شروع به فکر درباره ی این قابلیت کنیم. NOTE Paragraph 00:18:10.529 --> 00:18:12.579 البته اینو قبلاً یه بار دیدیم. 00:18:12.579 --> 00:18:13.966 در انقلاب صنعتی، 00:18:13.966 --> 00:18:16.817 با ورود موتورها شاهد یک گام تغییر در قابلیت بودیم. 00:18:17.667 --> 00:18:20.805 اما نکته این است که پس از مدتی، همه چیز خراب شد. 00:18:20.805 --> 00:18:22.507 گسست اجتماعی اتفاق افتاد، 00:18:22.507 --> 00:18:25.946 اما وقتی استفاده از موتورها برای تولید نیرو در موقعیتهای مختلف شروع شد، 00:18:25.946 --> 00:18:28.300 همه چیز واقعاً عادی شد. 00:18:28.300 --> 00:18:29.773 انقلاب یادگیری ماشینی 00:18:29.773 --> 00:18:32.682 بسیار متفاوت از انقلاب صنعتی خواهد بود، 00:18:32.682 --> 00:18:35.632 چون انقلاب یادگیری ماشینی، هرگز عادی نمی شود. 00:18:35.632 --> 00:18:38.614 هر چه رایانه ها در امور ذهنی بهتر می شوند، 00:18:38.614 --> 00:18:42.862 می تونن رایانه های بهتری بسازن که در امور ذهنی بهتر هستن، 00:18:42.862 --> 00:18:44.770 پس این نوعی تغییر خواهد بود 00:18:44.770 --> 00:18:47.248 که جهان هرگز پیش از این تجربه نکرده، 00:18:47.248 --> 00:18:50.554 پس فهم قبلی شما متفاوت با چیزیه که ممکنه. NOTE Paragraph 00:18:50.974 --> 00:18:52.754 این قبلاً در حال تحت تأثیر قرار دادن ماست. 00:18:52.754 --> 00:18:56.384 در عرض ۲۵ سال اخیر، با افزایش بهره وری سرمایه، 00:18:56.400 --> 00:19:00.588 بهره وری کار ثابت مانده، در واقع کمی هم افت کرده. NOTE Paragraph 00:19:01.408 --> 00:19:04.149 بنابراین میخوام این بحث رو الان شروع کنیم. 00:19:04.149 --> 00:19:07.176 میدونم که اغلب وقتی درباره ی این وضعیت به افراد توضیح میدم، 00:19:07.176 --> 00:19:08.666 ممکنه کسی اعتنا نکنه. 00:19:08.666 --> 00:19:10.339 خوب، رایانه ها در واقع نمی تونن فکر کنن، 00:19:10.339 --> 00:19:13.367 اونها احساس ندارن، شعر رو نمی فهمن، 00:19:13.367 --> 00:19:15.888 ما در واقع نمیدونیم چطور کار میکنن. 00:19:15.888 --> 00:19:17.374 پس چه؟ 00:19:17.374 --> 00:19:19.178 رایانه ها همین الان میتونن کارهایی بکنن 00:19:19.178 --> 00:19:21.897 که انسانها بیشتر وقتشون رو صرفش می کنن و در مقابلش پول میگیرن، 00:19:21.897 --> 00:19:23.628 پس الان وقت آن است که شروع کنیم به فکر 00:19:23.628 --> 00:19:28.015 درباره ی اینکه چطور قراره ساختارهای اجتماعی و ساختارهای اقتصادی خودمونو تغییر بدیم 00:19:28.015 --> 00:19:29.855 تا از این واقعیت جدید آگاه بشیم. 00:19:29.855 --> 00:19:31.388 متشکرم. 00:19:31.388 --> 00:19:32.190 (تشویق)