1 00:00:00,880 --> 00:00:04,595 در گذشته اگه می خواستین یه رایانه کار جدیدی انجام بده، 2 00:00:04,595 --> 00:00:06,447 باید برنامه اش رو بهش می دادین. 3 00:00:06,477 --> 00:00:09,858 خوب، برای اونایی که تا حالا برنامه ننوشتن، 4 00:00:09,858 --> 00:00:13,360 این کار نیاز به تعریف جزئیات طاقت فرسای 5 00:00:13,360 --> 00:00:16,727 تک تک مراحلی داره که میخواین رایانه انجام بده 6 00:00:16,727 --> 00:00:19,089 تا به هدف مورد نظر شما برسه. 7 00:00:19,089 --> 00:00:22,585 حالا، اگه بخواین کاری انجام بدین که خودتون نمی دونین چطور انجام میشه، 8 00:00:22,585 --> 00:00:24,648 با چالش بزرگی روبرو میشین. 9 00:00:24,648 --> 00:00:28,131 خوب، این چالشی بود که رو در روی این مرد، آرتور ساموئل، قرار داشت. 10 00:00:28,131 --> 00:00:29,928 او در سال ۱۹۵۶، می خواست این رایانه 11 00:00:29,928 --> 00:00:35,048 بتونه اونو تو بازی چکرز (دام، جنگ نادر) شکست بده. 12 00:00:35,048 --> 00:00:36,618 چطور میتونین برنامهای بنویسین، 13 00:00:36,618 --> 00:00:40,394 که با تمام جزئیات طاقت فرسا، به رایانه بگه چجوری می تونه تو بازی چکرز از شما بهتر باشه؟ 14 00:00:40,394 --> 00:00:42,116 خوب، ایده ای به ذهنش رسید: 15 00:00:42,116 --> 00:00:45,840 اجازه داد رایانه هزاران بار با خودش بازی کنه، 16 00:00:45,840 --> 00:00:48,364 و یاد بگیره چطور چکرز بازی کنه. 17 00:00:48,364 --> 00:00:50,763 و در واقع موفق شد، و در عمل، تا سال ۱۹۶۲، 18 00:00:53,162 --> 00:00:55,561 این رایانه تونسته بود قهرمان ایالت کانکتیکات رو شکست بده. 19 00:00:55,561 --> 00:00:58,534 پس آرتور ساموئل پدر یادگیری ماشینی بود، 20 00:00:58,534 --> 00:01:00,251 و من دین بزرگی بهش دارم، 21 00:01:00,251 --> 00:01:03,014 چون کارم یادگیری ماشینیه. 22 00:01:03,014 --> 00:01:04,479 من رئیس کاگل بودم، 23 00:01:04,479 --> 00:01:07,867 با بیش از دویست هزار نفر که کارشون یادگیری ماشینیه. 24 00:01:07,867 --> 00:01:09,925 کاگل مسابقاتی برگزار می کنه 25 00:01:09,925 --> 00:01:13,633 و از شرکت کننده ها می خواد مسئله هایی رو که قبلاً حل نشده ن حل کنن، 26 00:01:13,633 --> 00:01:17,470 و این رقابت صدها بار موفق بوده. 27 00:01:17,470 --> 00:01:19,940 پس به دلیل همین امتیاز، تونستم چیزای زیادی 28 00:01:19,940 --> 00:01:23,890 درباره کارهایی بفهمم که یادگیری ماشینی در گذشته می تونست بکنه، امروز می تونه بکنه، 29 00:01:23,890 --> 00:01:26,252 و در آینده می تونه بکنه. 30 00:01:26,252 --> 00:01:30,675 احتمالاً اولین موفقیت بزرگ تجاری یادگیری ماشینی گوگل بود، 31 00:01:30,675 --> 00:01:33,784 گوگل نشون داد یافتن اطلاعات 32 00:01:33,784 --> 00:01:35,536 از راه الگوریتم رایانه امکان پذیره، 33 00:01:35,536 --> 00:01:38,437 و اساس این الگوریتم، یادگیری ماشینیه. 34 00:01:38,437 --> 00:01:42,323 از اون هنگام، یادگیری ماشینی به موفقیتهای تجاری بسیاری دست یافته. 35 00:01:42,323 --> 00:01:44,160 شرکت هایی مانند آمازون و نتفلیکس 36 00:01:44,160 --> 00:01:47,876 برای پیشنهاد محصولاتی که احتمالاً دوست دارین بخرین از یادگیری ماشینی استفاده می کنن، 37 00:01:47,876 --> 00:01:49,896 یا فیلمهایی که احتمالاً دوست دارین ببینین. 38 00:01:49,896 --> 00:01:51,703 گاهی این کار به طور نامحسوس انجام می شه. 39 00:01:51,703 --> 00:01:53,657 شرکتهایی مانند لینکدین و فیسبوک 40 00:01:53,657 --> 00:01:56,251 گاهی به شما درباره دوستهاتون می گن 41 00:01:56,251 --> 00:01:58,228 و شما نمی دونین این کارو چجوری انجام میدن، 42 00:01:58,228 --> 00:02:01,195 و دلیلش اینه که از قدرت یادگیری ماشینی استفاده می کنن. 43 00:02:01,195 --> 00:02:04,152 اینها الگوریتم هایی هستن که یاد گرفتن این کار رو با داده ها انجام بدن 44 00:02:04,152 --> 00:02:07,399 به جای اینکه با دست برنامه ربزی بشن. 45 00:02:07,399 --> 00:02:09,877 آی بی ام هم به همین ترتیب موفق شد 46 00:02:09,877 --> 00:02:13,739 کاری بکنه که واتسون در مسابقه تلویزیونی "محک" دو نفر از قهرمانان جهان رو شکست بده، 47 00:02:13,739 --> 00:02:16,964 با پاسخ به پرسشهای بسیار ریز و پیچیده مانند این یکی. 48 00:02:16,964 --> 00:02:19,799 [شیء باستانی "شیر نیمرود" در سال ۲۰۰۳ (به همراه اشیای دیگر) از موزه ملی این شهر به سرقت رفت] 49 00:02:19,799 --> 00:02:23,034 همچنین به همین دلیله که حالا می تونیم اولین خودروهای بدون راننده رو ببینیم. 50 00:02:23,034 --> 00:02:25,856 اگه بخواین تفاوت 51 00:02:25,856 --> 00:02:28,488 یه درخت و یه عابر پیاده رو تشخیص بدین، خوب، این خیلی مهمه. 52 00:02:28,488 --> 00:02:31,075 نمی دونیم چطور این برنامه ها رو با دست بنویسیم، 53 00:02:31,075 --> 00:02:34,072 اما حالا با یادگیری ماشینی، این کار امکان پذیره. 54 00:02:34,072 --> 00:02:36,680 و در واقع، این ماشین بیش از یک و نیم میلیون کیلومتر 55 00:02:36,680 --> 00:02:40,186 بدون هیچ تصادفی در جاده های عادی راه رفته. 56 00:02:40,196 --> 00:02:44,110 پس حالا می دونیم که رایانه ها می تونن یاد بگیرن، 57 00:02:44,110 --> 00:02:46,010 و رایانه ها می تونن کارهایی رو یاد بگیرن 58 00:02:46,010 --> 00:02:48,848 که در واقع خود ما گاهی نمی تونیم انجام بدیم، 59 00:02:48,848 --> 00:02:51,733 یا شاید اونا بهتر از ما انجام می دن. 60 00:02:51,733 --> 00:02:55,928 یکی از عجیب ترین نمونه های یادگیری ماشینی که دیده ام 61 00:02:55,928 --> 00:02:58,320 در پروژه ای بود که در کاگل داشتم 62 00:02:58,320 --> 00:03:01,911 و در اون گروهی به سرپرستی جفری هینتون 63 00:03:01,911 --> 00:03:03,463 از دانشگاه تورونتو 64 00:03:03,463 --> 00:03:06,140 برنده مسابقه ی کشف خودکار دارو شد. 65 00:03:06,140 --> 00:03:08,987 خوب، نکته فوق العاده فقط این نبود که اونها 66 00:03:08,987 --> 00:03:13,000 همه الگوریتم های طراحی شده توسط مِرک یا دانشگاههای بین المللی رو شکست دادن، 67 00:03:13,000 --> 00:03:18,061 بلکه این بود که هیچ یک از اعضای گروه، هیچ زمینه ای از شیمی یا زیست شناسی یا علوم زیستی نداشتن، 68 00:03:18,061 --> 00:03:20,230 و این کار رو در دو هفته انجام دادن. 69 00:03:20,230 --> 00:03:21,611 چطور این کار رو کردن؟ 70 00:03:22,421 --> 00:03:25,342 اونها از الگوریتم فوق العاده ای به نام یادگیری عمیق استفاده کردن. 71 00:03:25,342 --> 00:03:28,291 این خبر چنان مهم بود که موفقیت اونها 72 00:03:28,291 --> 00:03:31,412 چند هفته بعد روی جلد نیویورک تایمز منعکس شد. 73 00:03:31,412 --> 00:03:34,147 این جفری هینتونه اینجا سمت چپ. 74 00:03:34,147 --> 00:03:38,488 یادگیری عمیق الگوریتمی بر اساس نحوه کار مغز انسانه، 75 00:03:38,488 --> 00:03:40,300 و در نتیجه الگوریتمیه 76 00:03:40,300 --> 00:03:44,141 که از نظر تئوری هیچ محدودیتی در توانایی انجام کار نداره. 77 00:03:44,141 --> 00:03:46,964 هر چه داده بیشتری به اون بدین، و با گذشت زمان 78 00:03:46,964 --> 00:03:48,276 بهتر می شه. 79 00:03:48,276 --> 00:03:50,615 همچنین نیویورک تایمز در این مطلب 80 00:03:50,615 --> 00:03:52,857 به یه نتیجه خارق العاده دیگه از یادگیری عمیق اشاره کرد 81 00:03:52,857 --> 00:03:55,569 که حالا به شما نشون میدم. 82 00:03:55,569 --> 00:04:00,510 اینجا می بینین که رایانه ها می تونن گوش بدن و بفهمن. 83 00:04:00,510 --> 00:04:03,221 (ویدئو) ریچارد رشید: حالا، آخرین مرحله ای 84 00:04:03,221 --> 00:04:06,246 که میخوام انجام بدم 85 00:04:06,246 --> 00:04:10,961 در واقع اینه که به زبان چینی با تو صحبت کنم. 86 00:04:10,961 --> 00:04:13,596 نکته ی مهم اینه که 87 00:04:13,596 --> 00:04:18,598 تونستیم حجم بالایی از اطلاعات رو از تعداد زیادی چینی زبان جمع کنیم 88 00:04:18,598 --> 00:04:21,128 و یه سیستم نوشتار-به-گفتار ایجاد کنیم 89 00:04:21,128 --> 00:04:25,801 که نوشته های چینی رو به زبان چینی تبدیل می کنه، 90 00:04:25,801 --> 00:04:29,929 و بعد حدود یه ساعت از صدای خودمو ضبط کردیم 91 00:04:29,929 --> 00:04:31,820 و از اون برای تنظیم 92 00:04:31,820 --> 00:04:36,364 سیستم استاندارد نوشتار-به-گفتار استفاده کردیم تا شبیه من بشه. 93 00:04:36,364 --> 00:04:38,904 باز هم نتیجه ایده آل نیست. 94 00:04:38,904 --> 00:04:41,552 در واقع اشتباههایی وجود داره. 95 00:04:41,552 --> 00:04:44,036 (به زبان چینی) 96 00:04:44,036 --> 00:04:47,403 (تشویق) 97 00:04:49,446 --> 00:04:53,022 در این زمینه کار زیادی باید انجام بشه. 98 00:04:53,022 --> 00:04:56,667 (به زبان چینی) 99 00:04:56,667 --> 00:05:00,100 (تشویق) 100 00:05:01,345 --> 00:05:04,744 جرمی هووارد: خوب، اینجا یه کنفرانس درباره یادگیری ماشین تو چینه. 101 00:05:04,744 --> 00:05:07,114 در واقع در اغلب کنفرانسهای دانشگاهی، 102 00:05:07,114 --> 00:05:09,011 حضار اینطوری خودبخود تشویق نمی کنن، 103 00:05:09,011 --> 00:05:12,687 البته گاهی در کنفرانسهای تدکس پیش میاد، راحت باشین. 104 00:05:12,687 --> 00:05:15,482 همه چیزهایی که اونجا دیدین حاصل یادگیری عمیق بود. 105 00:05:15,482 --> 00:05:17,007 (تشویق) متشکرم. 106 00:05:17,007 --> 00:05:19,289 رونویسی به انگلیسی یادگیری عمیق بود. 107 00:05:19,289 --> 00:05:22,701 رونویسی به چینی و نوشته ی بالا سمت راست، یادگیری عمیق، 108 00:05:22,701 --> 00:05:26,008 و شکل گیری صدا نیز یادگیری عمیق بود. 109 00:05:26,008 --> 00:05:29,242 یادگیری عمیق چنین پدیده ی خارق العاده ایه. 110 00:05:29,242 --> 00:05:32,341 یه الگوریتم واحد که به نظر میرسه بتونه تقریباً هر کاری بکنه، 111 00:05:32,341 --> 00:05:35,452 و فهمیدم که یه سال قبل، دیدن رو هم یاد گرفته. 112 00:05:35,452 --> 00:05:37,628 در این مسابقه عجیب از آلمان 113 00:05:37,628 --> 00:05:40,225 به نام مسابقه تشخیص تابلوهای ترافیکی آلمان، 114 00:05:40,225 --> 00:05:43,618 یادگیری عمیق تابلوهایی مثل این رو یاد گرفته بود. 115 00:05:43,618 --> 00:05:45,712 نه تنها میتونست تابلوها رو 116 00:05:45,712 --> 00:05:47,470 بهتر از هر الگوریتم دیگه ای بشناسه، 117 00:05:47,470 --> 00:05:50,189 بلکه جدول نشون میداد از انسان هم بهتره، 118 00:05:50,189 --> 00:05:52,041 تقریباً دو برابر بهتر از انسان. 119 00:05:52,041 --> 00:05:54,037 پس تا سال ۲۰۱۱، اولین نمونه ی 120 00:05:54,037 --> 00:05:57,442 رایانه هایی رو داشتیم که بهتر از انسان می بینن. 121 00:05:57,442 --> 00:05:59,491 از اون موقع، اتفاقات زیادی افتاده. 122 00:05:59,491 --> 00:06:03,005 گوگل در سال ۲۰۱۲ اعلام کرد که دارای الگوریتم یادگیری عمیقی 123 00:06:03,005 --> 00:06:04,420 که ویدئوهای یوتیوب رو می بینه هستند 124 00:06:04,420 --> 00:06:07,857 و داده های اونو در عرض یه ماه تو ۱۶ هزار رایانه پردازش میکنه، 125 00:06:07,857 --> 00:06:12,218 و رایانه بطور مستقل موضوعاتی مثل آدمها و گربه ها رو یاد گرفته 126 00:06:12,218 --> 00:06:14,027 فقط با تماشای ویدئو. 127 00:06:14,027 --> 00:06:16,379 تا حدود زیادی شبیه یادگیری آدمه. 128 00:06:16,379 --> 00:06:19,119 برای یاد گرفتن آدمها لازم نیست به اونا بگین چیزی که می بینن چیه، 129 00:06:19,119 --> 00:06:22,450 بلکه خودشون یاد میگیرن این چیزها چیه. 130 00:06:22,450 --> 00:06:25,819 همین طور در سال ۲۰۱۲، جفری هینتون که قبلاً دیدیمش، 131 00:06:25,819 --> 00:06:28,677 مسسابقه ی بسیار معروف ایمیج نت رو برنده شد، 132 00:06:28,677 --> 00:06:32,818 که باید یک و نیم میلیون عکس رو نگاه می کرد 133 00:06:32,818 --> 00:06:34,256 و می گفت عکس چی هستن. 134 00:06:34,256 --> 00:06:37,789 حالا در سال ۲۰۱۴ تونستیم خطا رو به شش درصد 135 00:06:37,789 --> 00:06:39,242 در شناسایی تصویر پایین بیاریم. 136 00:06:39,242 --> 00:06:41,268 این هم بهتر از آدمه. 137 00:06:41,268 --> 00:06:45,037 پس ماشین تو این کار خیلی بهتره، 138 00:06:45,037 --> 00:06:47,306 و حالا دارن تو صنعت ازش استفاده میکنن. 139 00:06:47,306 --> 00:06:50,348 مثلاً گوگل سال پیش اعلام کرد 140 00:06:50,348 --> 00:06:54,933 نقشه ی همه جای فرانسه رو در عرض دو ساعت تهیه کرده، 141 00:06:54,933 --> 00:06:58,380 و این کارو با استفاده از تصاویر دوربینهای خیابان انجام دادن 142 00:06:58,380 --> 00:07:02,699 و یه الگوریتم یادگیری عمیق که میتونست شماره خیابونها رو بخونه و بشناسه. 143 00:07:02,699 --> 00:07:04,919 تصور کنین قبلاً می تونست چقدر طول بکشه: 144 00:07:04,919 --> 00:07:08,274 چندین نفر، چندین سال. 145 00:07:08,274 --> 00:07:10,185 همین اتفاق داره تو چین میفته. 146 00:07:10,185 --> 00:07:14,221 بایدو یه جور گوگل چینیه، فکر کنم، 147 00:07:14,221 --> 00:07:16,504 و چیزی که اینجا سمت چپ و بالا می بینین 148 00:07:16,504 --> 00:07:20,478 نمونه ای از تصویریه که من در سیستم یادگیری عمیق بایدو آپلود کردم، 149 00:07:20,478 --> 00:07:24,247 و پایینش می تونین ببینین که سیستم فهمیده اون تصویر چیه 150 00:07:24,247 --> 00:07:26,483 و تصاویر مشابه رو پیدا کرده. 151 00:07:26,483 --> 00:07:29,219 تصاویر مشابه در واقع دارای زمینه مشابه، 152 00:07:29,219 --> 00:07:30,877 و جهت مشابه چهره ها هستن، 153 00:07:30,877 --> 00:07:32,665 حتی زبون بعضیا بیرونه. 154 00:07:32,665 --> 00:07:35,695 این جستجوی واضح یه متن از یه صفحه وب نیست. 155 00:07:35,695 --> 00:07:37,107 تمام چیزی که آپلود کردم یه تصویر بود. 156 00:07:37,107 --> 00:07:41,128 پس حالا رایانه هایی داریم که چیزی رو که می بینن واقعاً میفهمن 157 00:07:41,128 --> 00:07:42,752 و بنابراین میتونن بانکهای اطلاعاتی 158 00:07:42,752 --> 00:07:46,306 صدها میلیون تصویری رو در یه لحظه جستجو کنن. 159 00:07:46,306 --> 00:07:49,536 پس حالا اینکه رایانه ها میتونن ببینن یعنی چی؟ 160 00:07:49,536 --> 00:07:51,553 خوب، فقط این نیست که رایانه ها میتونن ببینن. 161 00:07:51,553 --> 00:07:53,622 در واقع، یادگیری عمیق بیشتر از این انجام داده. 162 00:07:53,622 --> 00:07:56,570 جملات پیچیده و ظریف مثل این یکی 163 00:07:56,570 --> 00:07:59,394 حالا با الگوریتم های یادگیری عمیق قابل فهمه. 164 00:07:59,394 --> 00:08:00,697 همون طور که میتونین اینجا ببینین، 165 00:08:00,697 --> 00:08:03,465 این سیستم مستقر در استنفورد که نقطه قرمزی اون بالا داره 166 00:08:03,465 --> 00:08:07,384 به این نتیجه رسیده که این جمله بار عاطفی منفی داره. 167 00:08:07,384 --> 00:08:10,790 حالا در واقع یادگیری عمیق به عملکرد انسان نزدیک شده 168 00:08:10,802 --> 00:08:15,923 در فهم اینکه جمله ها درباره ی چیه وهر جمله درباره اون چیزها چی میگه. 169 00:08:15,923 --> 00:08:18,651 هم چنین، یادگیری عمیق برای خواندن متون چینی به کار رفته، 170 00:08:18,651 --> 00:08:21,807 باز هم در سطحی که معادل حرف زدن یه آدم چینی تبار اصیله، 171 00:08:21,807 --> 00:08:23,975 این الگوریتم در سویس ساخته شده 172 00:08:23,975 --> 00:08:27,331 توسط افرادی که هیچ کدوم نمی تونن چینی حرف بزنن یا بفهمن. 173 00:08:27,331 --> 00:08:29,382 همون طور که گفتم، با استفاده از یادگیری عمیق 174 00:08:29,382 --> 00:08:31,601 یعنی استفاده از بهترین سیستم موجود در دنیا در این مورد، 175 00:08:31,601 --> 00:08:36,718 حتی در مقایسه با فهم یه آدم بومی اصیل. 176 00:08:36,718 --> 00:08:39,682 این سیستمیه که ما تو شرکتمون جمع کردیم 177 00:08:39,682 --> 00:08:41,728 که نشون میده همه این چیزها کنار هم جمع شده. 178 00:08:41,728 --> 00:08:44,189 اینها تصاویریه که هیچ متنی به اونها پیوست نیست، 179 00:08:44,189 --> 00:08:46,541 و همینکه اینجا جمله هایی تایپ میکنم، 180 00:08:46,541 --> 00:08:49,510 در همون لحظه داره اون تصاویر رو میفهمه 181 00:08:49,510 --> 00:08:51,189 و داره تصمیم میگیره موضوع اونا چیه 182 00:08:51,189 --> 00:08:54,352 و تصاویری رو که شبیه متنیه که من دارم می نویسم پیدا می کنه. 183 00:08:54,352 --> 00:08:57,108 پس می تونین ببینین که در واقع جمله های منو میفهمه 184 00:08:57,108 --> 00:08:59,332 و در واقع این تصاویر رو میفهمه. 185 00:08:59,332 --> 00:09:01,891 میدونم یه چیزی شبیه اینو تو گوگل دیدین، 186 00:09:01,891 --> 00:09:04,666 اونجا میتونین چیزهایی تایپ کنین و تصاویری به شما نشون میده، 187 00:09:04,666 --> 00:09:08,090 اما در واقع کاری که انجام میده اینه که صفحه وب رو دنبال اون متن میگرده. 188 00:09:08,090 --> 00:09:11,091 این با فهم واقعی تصاویر خیلی فرق داره. 189 00:09:11,091 --> 00:09:13,843 این چیزیه که رایانه ها فقط تونستن 190 00:09:13,843 --> 00:09:17,091 برای اولین بار در چند ماه اخیر انجامش بدن. 191 00:09:17,091 --> 00:09:21,182 پس حالا می بینیم که رایانه ها هم می تونن ببینن و هم میتونن بخونن، 192 00:09:21,182 --> 00:09:24,947 و البته، نشون دادیم که میتونن چیزی رو که می شنون بفهمن. 193 00:09:24,947 --> 00:09:28,389 شاید حالا عجیب نباشه که میخوام بگم میتونن بنویسن. 194 00:09:28,389 --> 00:09:33,172 این متنیه که دیروز با یه الگوریتم یادگیری عمیق ایجاد کردم. 195 00:09:33,172 --> 00:09:37,096 و این متنیه که یه الگوریتم از استنفورد ایجاد کرده. 196 00:09:37,096 --> 00:09:38,860 هر دو جمله توسط 197 00:09:38,860 --> 00:09:43,109 الگوریتم یادگیری عمیق برای توصیف این تصاویر ایجاد شده. 198 00:09:43,109 --> 00:09:47,581 این الگوریتم قبلاً هرگز ندیده بود یه مرد با پیراهن مشکی گیتار بنوازد. 199 00:09:47,581 --> 00:09:49,801 قبلاً یه مرد دیده بود، قبلاً مشکی دیده بود، 200 00:09:49,801 --> 00:09:51,400 قبلاً یه گیتار دیده بود، 201 00:09:51,400 --> 00:09:55,694 اما بدون کمک کسی توانست چنین توصیف نابی از این تصویر ایجاد کند. 202 00:09:55,694 --> 00:09:59,196 البته هنوز به سطح عملکرد انسان نرسیده ایم، اما به آن نزدیک شده ایم. 203 00:09:59,196 --> 00:10:03,264 در آزمونها، افراد توصیف های رایانه رو 204 00:10:03,264 --> 00:10:04,791 به نسبت یک به چهار ترجیح میدن. 205 00:10:04,791 --> 00:10:06,855 حالا این سیستم فقط دو هفته س به وجود اومده، 206 00:10:06,855 --> 00:10:08,701 بنابراین در عرض یه سال آینده، 207 00:10:08,701 --> 00:10:11,502 الگوریتم رایانه ای احتمالاً انسان رو پشت سر میذاره 208 00:10:11,502 --> 00:10:13,364 با این سرعت که کارها پیش میره. 209 00:10:13,364 --> 00:10:16,413 پس رایانه ها نوشتن هم بلدن. 210 00:10:16,413 --> 00:10:19,888 پس همه ی اینها رو کنار هم میذاریم و نتیجه ش فرصت های بسیار مهیجی میشه. 211 00:10:19,888 --> 00:10:21,380 مثلاً، در پزشکی، 212 00:10:21,380 --> 00:10:23,905 یه گروه در بوستون اعلام کرده 213 00:10:23,905 --> 00:10:26,854 چندین ویژگی مهم یالینی 214 00:10:26,854 --> 00:10:31,120 از تومورها رو پیدا کرده که به دکترها در تعیین پیش آگهی سرطان کمک می کنن. 215 00:10:32,220 --> 00:10:34,516 به طرز بسیار مشابه، در استنفورد، 216 00:10:34,516 --> 00:10:38,179 یه گروه اعلام کرده، با نگاه کردن به بافتها، با بزرگنمایی بالا، 217 00:10:38,179 --> 00:10:40,560 یه سیستم بر اساس یادگیری ماشینی درست کردن 218 00:10:40,560 --> 00:10:43,142 که در واقع بهتر از دکترهای آسیب شناس 219 00:10:43,142 --> 00:10:47,519 میزان بقای مبتلایان به سرطان رو پیش بینی می کنه. 220 00:10:47,519 --> 00:10:50,764 در هر دو مورد فوق، نه تنها پیش بینی ها دقیق تره، 221 00:10:50,764 --> 00:10:53,266 بلکه جنبه های جدیدی از بصیرت علمی به وجود اومده. 222 00:10:53,276 --> 00:10:54,781 در مورد رادیولوژی، 223 00:10:54,781 --> 00:10:57,876 شاخص های بالینی جدیدی به دست اومده که انسان قادر به فهم اونهاست. 224 00:10:57,876 --> 00:10:59,668 در این مورد آسیب شناسی، 225 00:10:59,668 --> 00:11:04,168 سیستم رایانه ای در واقع فهمید که سلولهای اطراف سرطان 226 00:11:04,168 --> 00:11:07,508 به اندازه ی خود سلولهای سرطانی 227 00:11:07,508 --> 00:11:09,260 در رسیدن به تشخیص مهم هستن. 228 00:11:09,260 --> 00:11:14,621 این برخلاف چیزیه که دهها ساله به آسیب شناسها یاد میدن. 229 00:11:14,621 --> 00:11:17,913 در هر یک از دو مورد فوق، اون سیستمها 230 00:11:17,913 --> 00:11:21,534 با ترکیبی از نظر خبرگان پزشکی و خبرگان یادگیری ماشینی شکل گرفت، 231 00:11:21,534 --> 00:11:24,275 اما از سال گذشته تا حالا از اون هم جلوتر رفتیم. 232 00:11:24,275 --> 00:11:27,824 این نمونه ای از تشخیص نواحی سرطانی 233 00:11:27,824 --> 00:11:30,354 بافتهای انسان در زیر میکروسکوپه. 234 00:11:30,354 --> 00:11:34,967 سیستمی که اینجا نشون داده شده میتونه اون نواحی رو دقیق تر از 235 00:11:34,967 --> 00:11:37,742 یا با دقت معادل دکترهای آسیب شناس تشخیص بده، 236 00:11:37,742 --> 00:11:41,134 اما به طور کامل توسط یادگیری عمیق و بدون کمک تخصصی پزشکی ساخته شده 237 00:11:41,134 --> 00:11:43,660 توسط افرادی که هیچ سابقه ای در این زمینه ندارن. 238 00:11:44,730 --> 00:11:47,285 به طور مشابه، اینجا، این قطعه قطعه شدن عصب. 239 00:11:47,285 --> 00:11:50,953 ما حالا میتونیم اعصاب رو با دقت مشابه انسان قطعه قطعه کنیم، 240 00:11:50,953 --> 00:11:53,670 اما این سیستم با یادگیری عمیق ایجاد شده 241 00:11:53,670 --> 00:11:56,921 توسط افرادی که هیچ سابقه ی پزشکی ندارن. 242 00:11:56,921 --> 00:12:00,148 پس خودم، به عنوان کسی که هیچ سابقه ی پزشکی ندارم، 243 00:12:00,148 --> 00:12:03,875 به نظر میرسه کاملاً آمادگی دارم یه شرکت جدید پزشکی تأسیس کنم، 244 00:12:03,875 --> 00:12:06,021 که همین کارو کردم. 245 00:12:06,021 --> 00:12:07,761 یه جورایی از انجام این کار میترسیدم، 246 00:12:07,761 --> 00:12:10,650 اما به طور نظری امکانش بود 247 00:12:10,650 --> 00:12:16,142 که با این فنون تحلیل داده بتونم کار پزشکی بسیار مفیدی انجام بدم. 248 00:12:16,142 --> 00:12:18,622 و شُکر که بازخوردش خارق العاده بوده، 249 00:12:18,622 --> 00:12:20,978 نه تنها از رسانه ها بلکه از جامعه ی پزشکی، 250 00:12:20,978 --> 00:12:23,322 که خیلی حمایت کردن. 251 00:12:23,322 --> 00:12:27,471 فرضیه اینه که میتونیم قسمت وسط فرآیند پزشکی رو بگیریم 252 00:12:27,471 --> 00:12:30,364 و اونو تا حد امکان به تحلیل داده ها تبدیل کنیم، 253 00:12:30,364 --> 00:12:33,429 و کارهایی رو که دکترها بهتر انجام میدن به اونها بسپاریم. 254 00:12:33,429 --> 00:12:35,031 میخوام یه مثال براتون بزنم. 255 00:12:35,031 --> 00:12:39,975 حالا به وجود اومدن یه آزمایش تشخیصی جدید حدود ۱۵ دقیقه طول میکشه 256 00:12:39,975 --> 00:12:41,929 و حالا اینو به طور زنده به شما نشون میدم، 257 00:12:41,929 --> 00:12:45,416 اما با برش چند قسمت فشرده ش کردم به سه دقیقه. 258 00:12:45,416 --> 00:12:48,477 بجای آزمایش تشخیص پزشکی 259 00:12:48,477 --> 00:12:51,846 میخوام یه آزمایش تشخیص تصاویر خودرو براتون بسازم، 260 00:12:51,846 --> 00:12:54,068 چون چیزیه که همه ی ما میفهمیم. 261 00:12:54,068 --> 00:12:57,269 پس اینجا با حدود یک و نیم میلیون تصویر خودرو شروع می کنیم، 262 00:12:57,269 --> 00:13:00,475 و میخوام چیزی درست کنم که بتون اونها رو بر اساس زاویه ی عکاسی 263 00:13:00,475 --> 00:13:02,698 دسته بندی کنه. 264 00:13:02,698 --> 00:13:06,586 خوب همه ی این تصاویر بدون برچسب هستن، پس ناچارم از اول شروع کنم. 265 00:13:06,586 --> 00:13:08,451 با الگوریتم یادگیری عمیق ما، 266 00:13:08,451 --> 00:13:12,158 این سیستم میتونه به طور خودکار ساختارهای هر تصویر رو شناسایی کنه. 267 00:13:12,158 --> 00:13:15,778 خوب نکته ی مثبت اینه که حالا انسان و رایانه میتونن با هم کار کنن. 268 00:13:15,778 --> 00:13:17,956 پس انسان، همون طور که اینجا میتونین ببینین، 269 00:13:17,956 --> 00:13:20,631 داره موارد مورد نظر رو به رایانه میگه 270 00:13:20,631 --> 00:13:25,281 و از رایانه میخواد با استفاده از اونها الگوریتم خودشو بهتر کنه. 271 00:13:25,281 --> 00:13:29,577 حالا این سیستمهای یادگیری عمیق در واقع در فضای ۱۶ هزار بعدی هستن، 272 00:13:29,577 --> 00:13:33,009 پس اینجا می تونین ببینین رایانه اینو در اون فضا میچرخونه، 273 00:13:33,009 --> 00:13:35,001 و سعی میکنه ساختارهای جدید رو پیدا کنه. 274 00:13:35,001 --> 00:13:36,782 و وقتی این کار رو با چنین موفقیتی انجام میده، 275 00:13:36,782 --> 00:13:40,786 فردی که داره هدایتش میکنه میتونه نواحی مورد نظر رو نشون بده. 276 00:13:40,786 --> 00:13:43,208 پس اینجا، رایانه موفق شده نواحی، 277 00:13:43,208 --> 00:13:45,770 مثلاً زاویه ها رو پیدا کنه. 278 00:13:45,770 --> 00:13:47,376 پس طی این فرآیند، 279 00:13:47,376 --> 00:13:49,716 به تدریج به رایانه 280 00:13:49,716 --> 00:13:52,144 نکات بیشتر و بیشتری درباره ی انواع ساختارهای مورد نظرمون میگیم. 281 00:13:52,144 --> 00:13:53,916 میتونین فرض کنین در یه آزمایش تشخیصی 282 00:13:53,916 --> 00:13:57,266 این میتونه یه آسیب شناس باشه که مثلاً نواحی آسیب رو شناسایی می کنه، 283 00:13:57,266 --> 00:14:02,292 یا یه رادیولوژیست که گره های بالقوه مشکل دار رو نشون میده. 284 00:14:02,292 --> 00:14:04,851 و این گاهی ممکنه برای الگوریتم مشکل باشه. 285 00:14:04,851 --> 00:14:06,815 در این مورد، یه جورایی سردرگم شد. 286 00:14:06,815 --> 00:14:09,365 جلو و عقب خودروها همه در همه. 287 00:14:09,365 --> 00:14:11,437 پس اینجا باید کمی بیشتر دقت کنیم، 288 00:14:11,437 --> 00:14:14,669 با دست جلو و عقب رو مشخص کنیم، 289 00:14:14,669 --> 00:14:20,175 بعد به رایانه بگیم این نوع گروهیه 290 00:14:20,175 --> 00:14:21,523 که منظور ماست. 291 00:14:21,523 --> 00:14:24,200 پس این کار رو مدتی انجام میدیم، کمی ازش رد میشیم، 292 00:14:24,200 --> 00:14:26,446 و بعد به الگوریتم یادگیری ماشینی آموزش میدیم 293 00:14:26,446 --> 00:14:28,420 بر اساس این چند صد چیز، 294 00:14:28,420 --> 00:14:30,445 و امیدواریم خیلی بهتر بشه. 295 00:14:30,445 --> 00:14:33,518 حالا میتونین ببینین که بعضی از این تصاویر داره محو میشه، 296 00:14:33,518 --> 00:14:38,226 که نشون میده خودش کم کم بعضی از اینا رو میشناسه. 297 00:14:38,226 --> 00:14:41,128 پس میتونیم از این مفهوم تصاویر مشابه استفاده کنیم، 298 00:14:41,128 --> 00:14:43,222 و با استفاده از تصاویر مشابه، حالا میتونین ببینین که، 299 00:14:43,222 --> 00:14:47,241 رایانه در این نقطه میتونه فقط جلوی خودروها رو کاملاً بشناسه. 300 00:14:47,241 --> 00:14:50,189 پس در این نقطه، انسان میتونه به رایانه بگه، 301 00:14:50,189 --> 00:14:52,482 خوب، بله، کارت خوب بود. 302 00:14:53,652 --> 00:14:55,837 گاهی، البته، حتی در این نقطه، 303 00:14:55,837 --> 00:14:59,511 جدا کردن گروهها مشکله. 304 00:14:59,511 --> 00:15:03,395 در این مورد، حتی بعد از اینکه رایانه مدتی اینجا میچرخه، 305 00:15:03,399 --> 00:15:06,744 هنوز می بینیم که سمت چپ و راست تصاویر 306 00:15:06,744 --> 00:15:08,222 همه در همه. 307 00:15:08,222 --> 00:15:10,362 پس دوباره میتونیم به رایانه کمک کنیم، 308 00:15:10,362 --> 00:15:13,338 و بگیم خوب، حالا سعی کن زائده ای رو پیدا کنی 309 00:15:13,338 --> 00:15:15,945 که سمت چپ و راست رو تا حد امکان مشخص کنه 310 00:15:15,945 --> 00:15:18,067 به کمک این الگوریتم یادگیری عمیق. 311 00:15:18,067 --> 00:15:21,009 و با این کمک-- آهان، بله، موفق شده. 312 00:15:21,009 --> 00:15:23,891 تونسته راهی پیدا کنه که درباره این اشیا فکر کنه 313 00:15:23,891 --> 00:15:26,271 و اینها رو از هم جدا کنه. 314 00:15:26,271 --> 00:15:28,709 پس ایده رو اینجا گرفتین. 315 00:15:28,709 --> 00:15:36,906 اینجا رایانه جای انسان رو نمی گیره، 316 00:15:36,906 --> 00:15:39,546 بلکه با هم کار میکنن. 317 00:15:39,546 --> 00:15:43,096 کاری که اینجا می کنیم اینه که کاری که وقت یه گروه 318 00:15:43,096 --> 00:15:45,098 پنج یا شش نفره رو حدود هفت سال می گرفت 319 00:15:45,098 --> 00:15:47,703 به سیستمی میدیم که همون کار رو در عرض ۱۵ دقیقه انجام میده 320 00:15:47,703 --> 00:15:50,208 فقط با یه نفر که به تنهایی کار میکنه. 321 00:15:50,208 --> 00:15:54,158 پس این فرآیند حدود چهار یا پنج بار تکرار میشه. 322 00:15:54,158 --> 00:15:56,017 می تونین ببینین که حالا موفق شدیم ۶۲ درصد 323 00:15:56,017 --> 00:15:58,976 از یک و نیم میلیون تصویر رو دسته بندی کنیم. 324 00:15:58,976 --> 00:16:01,448 و در این نقطه، میتونیم با سرعت تمام 325 00:16:01,448 --> 00:16:02,745 دسته ها رو به طور کامل بگیریم، 326 00:16:02,745 --> 00:16:05,664 و هر کدوم رو چک کنیم تا مطمئن بشیم اشتباه نشده. 327 00:16:05,664 --> 00:16:09,616 در صورت اشتباه، میتونیم اینو به رایانه اطلاع بدیم. 328 00:16:09,616 --> 00:16:12,661 و با این نوع فرآیند برای هر یک از گروههای مختلف، 329 00:16:12,661 --> 00:16:15,148 حالا به موفقیت ۸۰ درصد 330 00:16:15,148 --> 00:16:17,563 در طبقه بندی یک و نیم میلیون تصویر رسیدیم. 331 00:16:17,563 --> 00:16:19,641 و این نقطه، جاییه که 332 00:16:19,641 --> 00:16:23,220 تعداد کمی تصویر درست طبقه بندی نشده، 333 00:16:23,220 --> 00:16:26,108 و سعی می کنه بفهمه چرا. 334 00:16:26,108 --> 00:16:27,851 و با استفاده از روش فوق، 335 00:16:27,851 --> 00:16:31,972 در عرض ۱۵ دقیقه به میزان طبقه بندی ۹۷ درصد رسیدیم. 336 00:16:31,972 --> 00:16:36,572 پس این نوع تکنیک به ما امکان داد یه مشکل بزرگ رو حل کنیم، 337 00:16:36,578 --> 00:16:39,614 این مشکل که با کمبود نیروی تخصصی پزشکی در جهان روبرو هستیم. 338 00:16:39,614 --> 00:16:43,103 مجمع جهانی اقتصاد اعلام کرده بین ۱۰ تا ۲۰ برابر 339 00:16:43,103 --> 00:16:45,727 کمبود پزشک در جهان در حال توسعه وجود داره، 340 00:16:45,727 --> 00:16:47,840 و حدود ۳۰۰ سال طول میکشه 341 00:16:47,840 --> 00:16:50,734 تا تعداد کافی پزشک برای حل این مشکل تربیت بشه. 342 00:16:50,734 --> 00:16:53,619 پس تصور کنین اگه بتونیم کارایی اونا رو افزایش بدیم 343 00:16:53,619 --> 00:16:56,458 با اساتفاده از این روشهای یادگیری عمیق، چی میشه؟ 344 00:16:56,458 --> 00:16:58,690 خوب این فرصتها منو به شدت هیجان زده کرده. 345 00:16:58,690 --> 00:17:01,279 همچنین نگران مشکلات هستم. 346 00:17:01,279 --> 00:17:04,403 اینجا مشکل اینه که هر ناحیه آبی رنگ در این نقشه 347 00:17:04,403 --> 00:17:08,172 جاییه که میزان اشتغال در خدمات بیشتر از ۸۰ درصده. 348 00:17:08,172 --> 00:17:09,959 چه خدماتی؟ 349 00:17:09,959 --> 00:17:11,473 این خدمات. 350 00:17:11,473 --> 00:17:15,627 اینها دقیقاً همون چیزهایی هستن که رایانه ها یاد گرفتن انجام بدن. 351 00:17:15,627 --> 00:17:19,431 پس ۸۰ درصد اشتغال در جهان توسعه یافته 352 00:17:19,431 --> 00:17:21,963 مربوط به کارهاییه که رایانه ها بلد هستن. 353 00:17:21,963 --> 00:17:23,403 مفهومش چیه؟ 354 00:17:23,403 --> 00:17:25,986 خوب، مشکلی نیست. میتونن در مشاغل دیگه جایگزین بشن. 355 00:17:25,986 --> 00:17:28,693 به عنوان مثال، موقعیتهای شغلی بیشتری برای دانشمندان علوم داده ایجاد میشه. 356 00:17:28,693 --> 00:17:29,510 خوب، نه واقعاً. 357 00:17:29,510 --> 00:17:32,628 دانشمندان علوم داده زمان زیادی برای ساختن این چیزها صرف نکردن. 358 00:17:32,628 --> 00:17:35,880 به عنوان مثال، این چهار الگوریتم همگی توسط یه نفر ساخته شده. 359 00:17:35,880 --> 00:17:38,318 پس اگه فکر کنید، اوه، قبلاً مشابه همین اتفاق افتاده، 360 00:17:38,318 --> 00:17:42,126 نتیجه شو در گذشته دیدیم وقتی چیزهای جدید وارد میشه 361 00:17:42,126 --> 00:17:44,378 و شغلهای جدید جای اونا رو میگیره، 362 00:17:44,378 --> 00:17:46,494 این شغلهای جدید چه خواهد بود؟ 363 00:17:46,494 --> 00:17:48,365 برآوردش برامون خیلی سخته، 364 00:17:48,365 --> 00:17:51,104 چون عملکرد انسانی به تدریج رشد می کنه، 365 00:17:51,104 --> 00:17:53,666 اما حالا سیستمی داریم به نام یادگیری عمیق، 366 00:17:53,666 --> 00:17:56,893 که در واقع میدونیم که از نظر توانایی، سرعت رشد تصاعدی داره. 367 00:17:56,893 --> 00:17:58,498 و ما اینجاییم. 368 00:17:58,498 --> 00:18:00,559 پس در حال حاضر، چیزهای اطرفمون رو می بینیم 369 00:18:00,559 --> 00:18:03,235 و میگیم، "اوه، رایانه ها هنوز خیلی عقب هستن." درسته؟ 370 00:18:03,235 --> 00:18:06,664 اما در عرض پنج سال، رایانه ها از این جدول خارج خواهند شد. 371 00:18:06,664 --> 00:18:10,529 پس لازمه همین الان شروع به فکر درباره ی این قابلیت کنیم. 372 00:18:10,529 --> 00:18:12,579 البته اینو قبلاً یه بار دیدیم. 373 00:18:12,579 --> 00:18:13,966 در انقلاب صنعتی، 374 00:18:13,966 --> 00:18:16,817 با ورود موتورها شاهد یک گام تغییر در قابلیت بودیم. 375 00:18:17,667 --> 00:18:20,805 اما نکته این است که پس از مدتی، همه چیز خراب شد. 376 00:18:20,805 --> 00:18:22,507 گسست اجتماعی اتفاق افتاد، 377 00:18:22,507 --> 00:18:25,946 اما وقتی استفاده از موتورها برای تولید نیرو در موقعیتهای مختلف شروع شد، 378 00:18:25,946 --> 00:18:28,300 همه چیز واقعاً عادی شد. 379 00:18:28,300 --> 00:18:29,773 انقلاب یادگیری ماشینی 380 00:18:29,773 --> 00:18:32,682 بسیار متفاوت از انقلاب صنعتی خواهد بود، 381 00:18:32,682 --> 00:18:35,632 چون انقلاب یادگیری ماشینی، هرگز عادی نمی شود. 382 00:18:35,632 --> 00:18:38,614 هر چه رایانه ها در امور ذهنی بهتر می شوند، 383 00:18:38,614 --> 00:18:42,862 می تونن رایانه های بهتری بسازن که در امور ذهنی بهتر هستن، 384 00:18:42,862 --> 00:18:44,770 پس این نوعی تغییر خواهد بود 385 00:18:44,770 --> 00:18:47,248 که جهان هرگز پیش از این تجربه نکرده، 386 00:18:47,248 --> 00:18:50,554 پس فهم قبلی شما متفاوت با چیزیه که ممکنه. 387 00:18:50,974 --> 00:18:52,754 این قبلاً در حال تحت تأثیر قرار دادن ماست. 388 00:18:52,754 --> 00:18:56,384 در عرض ۲۵ سال اخیر، با افزایش بهره وری سرمایه، 389 00:18:56,400 --> 00:19:00,588 بهره وری کار ثابت مانده، در واقع کمی هم افت کرده. 390 00:19:01,408 --> 00:19:04,149 بنابراین میخوام این بحث رو الان شروع کنیم. 391 00:19:04,149 --> 00:19:07,176 میدونم که اغلب وقتی درباره ی این وضعیت به افراد توضیح میدم، 392 00:19:07,176 --> 00:19:08,666 ممکنه کسی اعتنا نکنه. 393 00:19:08,666 --> 00:19:10,339 خوب، رایانه ها در واقع نمی تونن فکر کنن، 394 00:19:10,339 --> 00:19:13,367 اونها احساس ندارن، شعر رو نمی فهمن، 395 00:19:13,367 --> 00:19:15,888 ما در واقع نمیدونیم چطور کار میکنن. 396 00:19:15,888 --> 00:19:17,374 پس چه؟ 397 00:19:17,374 --> 00:19:19,178 رایانه ها همین الان میتونن کارهایی بکنن 398 00:19:19,178 --> 00:19:21,897 که انسانها بیشتر وقتشون رو صرفش می کنن و در مقابلش پول میگیرن، 399 00:19:21,897 --> 00:19:23,628 پس الان وقت آن است که شروع کنیم به فکر 400 00:19:23,628 --> 00:19:28,015 درباره ی اینکه چطور قراره ساختارهای اجتماعی و ساختارهای اقتصادی خودمونو تغییر بدیم 401 00:19:28,015 --> 00:19:29,855 تا از این واقعیت جدید آگاه بشیم. 402 00:19:29,855 --> 00:19:31,388 متشکرم. 403 00:19:31,388 --> 00:19:32,190 (تشویق)