WEBVTT

00:00:00.880 --> 00:00:04.595
در گذشته اگه می خواستین یه رایانه
کار جدیدی انجام بده،

NOTE Paragraph

00:00:04.595 --> 00:00:06.447
باید برنامه اش رو بهش می دادین.

00:00:06.477 --> 00:00:09.858
خوب، برای اونایی که
تا حالا برنامه ننوشتن،

00:00:09.858 --> 00:00:13.360
این کار نیاز به تعریف جزئیات طاقت فرسای

00:00:13.360 --> 00:00:16.727
تک تک مراحلی داره که میخواین
رایانه انجام بده

00:00:16.727 --> 00:00:19.089
تا به هدف مورد نظر شما برسه.

00:00:19.089 --> 00:00:22.585
حالا، اگه بخواین کاری انجام بدین که
خودتون نمی دونین چطور انجام میشه،

00:00:22.585 --> 00:00:24.648
با چالش بزرگی روبرو میشین.

NOTE Paragraph

00:00:24.648 --> 00:00:28.131
خوب، این چالشی بود که رو در روی این مرد، آرتور ساموئل،
قرار داشت.

00:00:28.131 --> 00:00:29.928
او در سال ۱۹۵۶، می خواست این رایانه

00:00:29.928 --> 00:00:35.048
بتونه اونو تو بازی چکرز (دام، جنگ نادر)
شکست بده.

00:00:35.048 --> 00:00:36.618
چطور میتونین برنامهای بنویسین،

00:00:36.618 --> 00:00:40.394
که با تمام جزئیات طاقت فرسا، به رایانه بگه
چجوری می تونه تو بازی چکرز از شما بهتر باشه؟

00:00:40.394 --> 00:00:42.116
خوب، ایده ای به ذهنش رسید:

00:00:42.116 --> 00:00:45.840
اجازه داد رایانه هزاران بار
با خودش بازی کنه،

00:00:45.840 --> 00:00:48.364
و یاد بگیره چطور چکرز بازی کنه.

00:00:48.364 --> 00:00:50.763
و در واقع موفق شد،
و در عمل، تا سال ۱۹۶۲،

00:00:53.162 --> 00:00:55.561
این رایانه تونسته بود
قهرمان ایالت کانکتیکات رو شکست بده.

NOTE Paragraph

00:00:55.561 --> 00:00:58.534
پس آرتور ساموئل
پدر یادگیری ماشینی بود،

00:00:58.534 --> 00:01:00.251
و من دین بزرگی بهش دارم،

00:01:00.251 --> 00:01:03.014
چون کارم یادگیری ماشینیه.

00:01:03.014 --> 00:01:04.479
من رئیس کاگل بودم،

00:01:04.479 --> 00:01:07.867
با بیش از دویست هزار نفر
که کارشون یادگیری ماشینیه.

00:01:07.867 --> 00:01:09.925
کاگل مسابقاتی برگزار می کنه

00:01:09.925 --> 00:01:13.633
و از شرکت کننده ها می خواد
مسئله هایی رو که قبلاً حل نشده ن حل کنن،

00:01:13.633 --> 00:01:17.470
و این رقابت صدها بار موفق بوده.

00:01:17.470 --> 00:01:19.940
پس به دلیل همین امتیاز،
تونستم چیزای زیادی

00:01:19.940 --> 00:01:23.890
درباره کارهایی بفهمم که یادگیری ماشینی
در گذشته می تونست بکنه، امروز می تونه بکنه،

00:01:23.890 --> 00:01:26.252
و در آینده می تونه بکنه.

00:01:26.252 --> 00:01:30.675
احتمالاً اولین موفقیت بزرگ تجاری
یادگیری ماشینی گوگل بود،

00:01:30.675 --> 00:01:33.784
گوگل نشون داد یافتن اطلاعات

00:01:33.784 --> 00:01:35.536
از راه الگوریتم رایانه امکان پذیره،

00:01:35.536 --> 00:01:38.437
و اساس این الگوریتم، یادگیری ماشینیه.

00:01:38.437 --> 00:01:42.323
از اون هنگام، یادگیری ماشینی
به موفقیتهای تجاری بسیاری دست یافته.

00:01:42.323 --> 00:01:44.160
شرکت هایی مانند آمازون و نتفلیکس

00:01:44.160 --> 00:01:47.876
برای پیشنهاد محصولاتی که احتمالاً دوست دارین بخرین
از یادگیری ماشینی استفاده می کنن،

00:01:47.876 --> 00:01:49.896
یا فیلمهایی که احتمالاً دوست دارین ببینین.

00:01:49.896 --> 00:01:51.703
گاهی این کار به طور نامحسوس انجام می شه.

00:01:51.703 --> 00:01:53.657
شرکتهایی مانند لینکدین و فیسبوک

00:01:53.657 --> 00:01:56.251
گاهی به شما درباره دوستهاتون می گن

00:01:56.251 --> 00:01:58.228
و شما نمی دونین این کارو چجوری انجام میدن،

00:01:58.228 --> 00:02:01.195
و دلیلش اینه که
از قدرت یادگیری ماشینی استفاده می کنن.

00:02:01.195 --> 00:02:04.152
اینها الگوریتم هایی هستن که
یاد گرفتن این کار رو با داده ها انجام بدن

00:02:04.152 --> 00:02:07.399
به جای اینکه با دست برنامه ربزی بشن.

NOTE Paragraph

00:02:07.399 --> 00:02:09.877
آی بی ام هم به همین ترتیب موفق شد

00:02:09.877 --> 00:02:13.739
کاری بکنه که واتسون در مسابقه تلویزیونی "محک"
دو نفر از قهرمانان جهان رو شکست بده،

00:02:13.739 --> 00:02:16.964
با پاسخ به پرسشهای بسیار ریز
و پیچیده مانند این یکی.

00:02:16.964 --> 00:02:19.799
[شیء باستانی "شیر نیمرود" در سال ۲۰۰۳
(به همراه اشیای دیگر) از موزه ملی این شهر به سرقت رفت]

00:02:19.799 --> 00:02:23.034
همچنین به همین دلیله که حالا می تونیم
اولین خودروهای بدون راننده رو ببینیم.

00:02:23.034 --> 00:02:25.856
اگه بخواین تفاوت

00:02:25.856 --> 00:02:28.488
یه درخت و یه عابر پیاده رو تشخیص بدین،
خوب، این خیلی مهمه.

00:02:28.488 --> 00:02:31.075
نمی دونیم چطور این برنامه ها رو با دست بنویسیم،

00:02:31.075 --> 00:02:34.072
اما حالا با یادگیری ماشینی،
این کار امکان پذیره.

00:02:34.072 --> 00:02:36.680
و در واقع، این ماشین
بیش از یک و نیم میلیون کیلومتر

00:02:36.680 --> 00:02:40.186
بدون هیچ تصادفی
در جاده های عادی راه رفته.

NOTE Paragraph

00:02:40.196 --> 00:02:44.110
پس حالا می دونیم که رایانه ها
می تونن یاد بگیرن،

00:02:44.110 --> 00:02:46.010
و رایانه ها می تونن کارهایی رو یاد بگیرن

00:02:46.010 --> 00:02:48.848
که در واقع خود ما گاهی
نمی تونیم انجام بدیم،

00:02:48.848 --> 00:02:51.733
یا شاید اونا بهتر از ما انجام می دن.

00:02:51.733 --> 00:02:55.928
یکی از عجیب ترین نمونه های
یادگیری ماشینی که دیده ام

00:02:55.928 --> 00:02:58.320
در پروژه ای بود
که در کاگل داشتم

00:02:58.320 --> 00:03:01.911
و در اون گروهی به سرپرستی جفری هینتون

00:03:01.911 --> 00:03:03.463
از دانشگاه تورونتو

00:03:03.463 --> 00:03:06.140
برنده مسابقه ی کشف خودکار دارو شد.

00:03:06.140 --> 00:03:08.987
خوب، نکته فوق العاده فقط این نبود که اونها

00:03:08.987 --> 00:03:13.000
همه الگوریتم های طراحی شده توسط مِرک یا
دانشگاههای بین المللی رو شکست دادن،

00:03:13.000 --> 00:03:18.061
بلکه این بود که هیچ یک از اعضای گروه، هیچ زمینه ای
از شیمی یا زیست شناسی یا علوم زیستی نداشتن،

00:03:18.061 --> 00:03:20.230
و این کار رو در دو هفته انجام دادن.

00:03:20.230 --> 00:03:21.611
چطور این کار رو کردن؟

00:03:22.421 --> 00:03:25.342
اونها از الگوریتم فوق العاده ای
به نام یادگیری عمیق استفاده کردن.

00:03:25.342 --> 00:03:28.291
این خبر چنان مهم بود که موفقیت اونها

00:03:28.291 --> 00:03:31.412
چند هفته بعد روی جلد نیویورک تایمز منعکس شد.

00:03:31.412 --> 00:03:34.147
این جفری هینتونه
اینجا سمت چپ.

00:03:34.147 --> 00:03:38.488
یادگیری عمیق الگوریتمی بر اساس
نحوه کار مغز انسانه،

00:03:38.488 --> 00:03:40.300
و در نتیجه الگوریتمیه

00:03:40.300 --> 00:03:44.141
که از نظر تئوری هیچ محدودیتی
در توانایی انجام کار نداره.

00:03:44.141 --> 00:03:46.964
هر چه داده بیشتری به اون بدین،
و با گذشت زمان

00:03:46.964 --> 00:03:48.276
بهتر می شه.

NOTE Paragraph

00:03:48.276 --> 00:03:50.615
همچنین نیویورک تایمز در این مطلب

00:03:50.615 --> 00:03:52.857
به یه نتیجه خارق العاده دیگه
از یادگیری عمیق اشاره کرد

00:03:52.857 --> 00:03:55.569
که حالا به شما نشون میدم.

00:03:55.569 --> 00:04:00.510
اینجا می بینین که رایانه ها
می تونن گوش بدن و بفهمن.

NOTE Paragraph

00:04:00.510 --> 00:04:03.221
(ویدئو) ریچارد رشید: حالا، آخرین مرحله ای

00:04:03.221 --> 00:04:06.246
که میخوام انجام بدم

00:04:06.246 --> 00:04:10.961
در واقع اینه که
به زبان چینی با تو صحبت کنم.

00:04:10.961 --> 00:04:13.596
نکته ی مهم اینه که

00:04:13.596 --> 00:04:18.598
تونستیم حجم بالایی از اطلاعات رو
از تعداد زیادی چینی زبان جمع کنیم

00:04:18.598 --> 00:04:21.128
و یه سیستم نوشتار-به-گفتار ایجاد کنیم

00:04:21.128 --> 00:04:25.801
که نوشته های چینی رو
به زبان چینی تبدیل می کنه،

00:04:25.801 --> 00:04:29.929
و بعد حدود یه ساعت
از صدای خودمو ضبط کردیم

00:04:29.929 --> 00:04:31.820
و از اون برای تنظیم

00:04:31.820 --> 00:04:36.364
سیستم استاندارد نوشتار-به-گفتار
استفاده کردیم تا شبیه من بشه.

00:04:36.364 --> 00:04:38.904
باز هم نتیجه ایده آل نیست.

00:04:38.904 --> 00:04:41.552
در واقع اشتباههایی وجود داره.

00:04:41.552 --> 00:04:44.036
(به زبان چینی)

00:04:44.036 --> 00:04:47.403
(تشویق)

00:04:49.446 --> 00:04:53.022
در این زمینه کار زیادی باید انجام بشه.

00:04:53.022 --> 00:04:56.667
(به زبان چینی)

00:04:56.667 --> 00:05:00.100
(تشویق)

NOTE Paragraph

00:05:01.345 --> 00:05:04.744
جرمی هووارد: خوب، اینجا یه کنفرانس
درباره یادگیری ماشین تو چینه.

00:05:04.744 --> 00:05:07.114
در واقع در اغلب کنفرانسهای دانشگاهی،

00:05:07.114 --> 00:05:09.011
حضار اینطوری خودبخود تشویق نمی کنن،

00:05:09.011 --> 00:05:12.687
البته گاهی در کنفرانسهای تدکس پیش میاد،
راحت باشین.

00:05:12.687 --> 00:05:15.482
همه چیزهایی که اونجا دیدین
حاصل یادگیری عمیق بود.

00:05:15.482 --> 00:05:17.007
(تشویق) متشکرم.

00:05:17.007 --> 00:05:19.289
رونویسی به انگلیسی
یادگیری عمیق بود.

00:05:19.289 --> 00:05:22.701
رونویسی به چینی و نوشته ی
بالا سمت راست، یادگیری عمیق،

00:05:22.701 --> 00:05:26.008
و شکل گیری صدا نیز
یادگیری عمیق بود.

NOTE Paragraph

00:05:26.008 --> 00:05:29.242
یادگیری عمیق چنین
پدیده ی خارق العاده ایه.

00:05:29.242 --> 00:05:32.341
یه الگوریتم واحد که به نظر میرسه
بتونه تقریباً هر کاری بکنه،

00:05:32.341 --> 00:05:35.452
و فهمیدم که یه سال قبل،
دیدن رو هم یاد گرفته.

00:05:35.452 --> 00:05:37.628
در این مسابقه عجیب از آلمان

00:05:37.628 --> 00:05:40.225
به نام مسابقه تشخیص
تابلوهای ترافیکی آلمان،

00:05:40.225 --> 00:05:43.618
یادگیری عمیق تابلوهایی
مثل این رو یاد گرفته بود.

00:05:43.618 --> 00:05:45.712
نه تنها میتونست تابلوها رو

00:05:45.712 --> 00:05:47.470
بهتر از هر الگوریتم دیگه ای بشناسه،

00:05:47.470 --> 00:05:50.189
بلکه جدول نشون میداد
از انسان هم بهتره،

00:05:50.189 --> 00:05:52.041
تقریباً دو برابر بهتر از انسان.

00:05:52.041 --> 00:05:54.037
پس تا سال ۲۰۱۱،
اولین نمونه ی

00:05:54.037 --> 00:05:57.442
رایانه هایی رو داشتیم که
بهتر از انسان می بینن.

00:05:57.442 --> 00:05:59.491
از اون موقع، اتفاقات زیادی افتاده.

00:05:59.491 --> 00:06:03.005
گوگل در سال ۲۰۱۲ اعلام کرد که دارای 
الگوریتم یادگیری عمیقی

00:06:03.005 --> 00:06:04.420
که ویدئوهای یوتیوب رو می بینه هستند

00:06:04.420 --> 00:06:07.857
و داده های اونو در عرض یه ماه
تو ۱۶ هزار رایانه پردازش میکنه،

00:06:07.857 --> 00:06:12.218
و رایانه بطور مستقل موضوعاتی
مثل آدمها و گربه ها رو یاد گرفته

00:06:12.218 --> 00:06:14.027
فقط با تماشای ویدئو.

00:06:14.027 --> 00:06:16.379
تا حدود زیادی شبیه
یادگیری آدمه.

00:06:16.379 --> 00:06:19.119
برای یاد گرفتن آدمها لازم نیست
به اونا بگین چیزی که می بینن چیه،

00:06:19.119 --> 00:06:22.450
بلکه خودشون یاد میگیرن این چیزها چیه.

00:06:22.450 --> 00:06:25.819
همین طور در سال ۲۰۱۲،
جفری هینتون که قبلاً دیدیمش،

00:06:25.819 --> 00:06:28.677
مسسابقه ی بسیار معروف
ایمیج نت رو برنده شد،

00:06:28.677 --> 00:06:32.818
که باید یک و نیم میلیون عکس رو نگاه می کرد

00:06:32.818 --> 00:06:34.256
و می گفت عکس چی هستن.

00:06:34.256 --> 00:06:37.789
حالا در سال ۲۰۱۴ تونستیم
خطا رو به شش درصد

00:06:37.789 --> 00:06:39.242
در شناسایی تصویر پایین بیاریم.

00:06:39.242 --> 00:06:41.268
این هم بهتر از آدمه.

NOTE Paragraph

00:06:41.268 --> 00:06:45.037
پس ماشین تو این کار خیلی بهتره،

00:06:45.037 --> 00:06:47.306
و حالا دارن تو صنعت ازش استفاده میکنن.

00:06:47.306 --> 00:06:50.348
مثلاً گوگل سال پیش اعلام کرد

00:06:50.348 --> 00:06:54.933
نقشه ی همه جای فرانسه رو
در عرض دو ساعت تهیه کرده،

00:06:54.933 --> 00:06:58.380
و این کارو با استفاده از تصاویر دوربینهای خیابان انجام دادن

00:06:58.380 --> 00:07:02.699
و یه الگوریتم یادگیری عمیق که میتونست
شماره خیابونها رو بخونه و بشناسه.

00:07:02.699 --> 00:07:04.919
تصور کنین قبلاً می تونست
چقدر طول بکشه:

00:07:04.919 --> 00:07:08.274
چندین نفر، چندین سال.

00:07:08.274 --> 00:07:10.185
همین اتفاق داره تو چین میفته.

00:07:10.185 --> 00:07:14.221
بایدو یه جور گوگل چینیه، فکر کنم،

00:07:14.221 --> 00:07:16.504
و چیزی که اینجا سمت چپ و بالا می بینین

00:07:16.504 --> 00:07:20.478
نمونه ای از تصویریه که من
در سیستم یادگیری عمیق بایدو آپلود کردم،

00:07:20.478 --> 00:07:24.247
و پایینش می تونین ببینین که
سیستم فهمیده اون تصویر چیه

00:07:24.247 --> 00:07:26.483
و تصاویر مشابه رو پیدا کرده.

00:07:26.483 --> 00:07:29.219
تصاویر مشابه در واقع دارای زمینه مشابه،

00:07:29.219 --> 00:07:30.877
و جهت مشابه چهره ها هستن،

00:07:30.877 --> 00:07:32.665
حتی زبون بعضیا بیرونه.

00:07:32.665 --> 00:07:35.695
این جستجوی واضح یه متن
از یه صفحه وب نیست.

00:07:35.695 --> 00:07:37.107
تمام چیزی که آپلود کردم یه تصویر بود.

00:07:37.107 --> 00:07:41.128
پس حالا رایانه هایی داریم که
چیزی رو که می بینن واقعاً میفهمن

00:07:41.128 --> 00:07:42.752
و بنابراین میتونن بانکهای اطلاعاتی

00:07:42.752 --> 00:07:46.306
صدها میلیون تصویری رو
در یه لحظه جستجو کنن.

NOTE Paragraph

00:07:46.306 --> 00:07:49.536
پس حالا اینکه رایانه ها میتونن ببینن
یعنی چی؟

00:07:49.536 --> 00:07:51.553
خوب، فقط این نیست که
رایانه ها میتونن ببینن.

00:07:51.553 --> 00:07:53.622
در واقع، یادگیری عمیق
بیشتر از این انجام داده.

00:07:53.622 --> 00:07:56.570
جملات پیچیده و ظریف مثل این یکی

00:07:56.570 --> 00:07:59.394
حالا با الگوریتم های
یادگیری عمیق قابل فهمه.

00:07:59.394 --> 00:08:00.697
همون طور که میتونین اینجا ببینین،

00:08:00.697 --> 00:08:03.465
این سیستم مستقر در استنفورد
که نقطه قرمزی اون بالا داره

00:08:03.465 --> 00:08:07.384
به این نتیجه رسیده که این جمله
بار عاطفی منفی داره.

00:08:07.384 --> 00:08:10.790
حالا در واقع یادگیری عمیق
به عملکرد انسان نزدیک شده

00:08:10.802 --> 00:08:15.923
در فهم اینکه جمله ها درباره ی چیه
وهر جمله درباره اون چیزها چی میگه.

00:08:15.923 --> 00:08:18.651
هم چنین، یادگیری عمیق
برای خواندن متون چینی به کار رفته،

00:08:18.651 --> 00:08:21.807
باز هم در سطحی که معادل
حرف زدن یه آدم چینی تبار اصیله،

00:08:21.807 --> 00:08:23.975
این الگوریتم در سویس ساخته شده

00:08:23.975 --> 00:08:27.331
توسط افرادی که هیچ کدوم نمی تونن
چینی حرف بزنن یا بفهمن.

00:08:27.331 --> 00:08:29.382
همون طور که گفتم،
با استفاده از یادگیری عمیق

00:08:29.382 --> 00:08:31.601
یعنی استفاده از بهترین سیستم
موجود در دنیا در این مورد،

00:08:31.601 --> 00:08:36.718
حتی در مقایسه با
فهم یه آدم بومی اصیل.

NOTE Paragraph

00:08:36.718 --> 00:08:39.682
این سیستمیه که ما
تو شرکتمون جمع کردیم

00:08:39.682 --> 00:08:41.728
که نشون میده همه این چیزها
کنار هم جمع شده.

00:08:41.728 --> 00:08:44.189
اینها تصاویریه که هیچ متنی
به اونها پیوست نیست،

00:08:44.189 --> 00:08:46.541
و همینکه اینجا جمله هایی تایپ میکنم،

00:08:46.541 --> 00:08:49.510
در همون لحظه داره اون تصاویر رو میفهمه

00:08:49.510 --> 00:08:51.189
و داره تصمیم میگیره
موضوع اونا چیه

00:08:51.189 --> 00:08:54.352
و تصاویری رو که شبیه متنیه که
من دارم می نویسم پیدا می کنه.

00:08:54.352 --> 00:08:57.108
پس می تونین ببینین که در واقع
جمله های منو میفهمه

00:08:57.108 --> 00:08:59.332
و در واقع این تصاویر رو میفهمه.

00:08:59.332 --> 00:09:01.891
میدونم یه چیزی شبیه اینو
تو گوگل دیدین،

00:09:01.891 --> 00:09:04.666
اونجا میتونین چیزهایی تایپ کنین و
تصاویری به شما نشون میده،

00:09:04.666 --> 00:09:08.090
اما در واقع کاری که انجام میده اینه که
صفحه وب رو دنبال اون متن میگرده.

00:09:08.090 --> 00:09:11.091
این با فهم واقعی تصاویر خیلی فرق داره.

00:09:11.091 --> 00:09:13.843
این چیزیه که رایانه ها فقط تونستن

00:09:13.843 --> 00:09:17.091
برای اولین بار در چند ماه اخیر انجامش بدن.

NOTE Paragraph

00:09:17.091 --> 00:09:21.182
پس حالا می بینیم که رایانه ها
هم می تونن ببینن و هم میتونن بخونن،

00:09:21.182 --> 00:09:24.947
و البته، نشون دادیم که میتونن
چیزی رو که می شنون بفهمن.

00:09:24.947 --> 00:09:28.389
شاید حالا عجیب نباشه که
میخوام بگم میتونن بنویسن.

00:09:28.389 --> 00:09:33.172
این متنیه که دیروز
با یه الگوریتم یادگیری عمیق ایجاد کردم.

00:09:33.172 --> 00:09:37.096
و این متنیه که یه الگوریتم
از استنفورد ایجاد کرده.

00:09:37.096 --> 00:09:38.860
هر دو جمله توسط

00:09:38.860 --> 00:09:43.109
الگوریتم یادگیری عمیق برای
توصیف این تصاویر ایجاد شده.

00:09:43.109 --> 00:09:47.581
این الگوریتم قبلاً هرگز ندیده بود
یه مرد با پیراهن مشکی گیتار بنوازد.

00:09:47.581 --> 00:09:49.801
قبلاً یه مرد دیده بود،
قبلاً مشکی دیده بود،

00:09:49.801 --> 00:09:51.400
قبلاً یه گیتار دیده بود،

00:09:51.400 --> 00:09:55.694
اما بدون کمک کسی توانست چنین توصیف
نابی از این تصویر ایجاد کند.

00:09:55.694 --> 00:09:59.196
البته هنوز به سطح عملکرد انسان نرسیده ایم،
اما به آن نزدیک شده ایم.

00:09:59.196 --> 00:10:03.264
در آزمونها، افراد توصیف های رایانه رو

00:10:03.264 --> 00:10:04.791
به نسبت یک به چهار ترجیح میدن.

00:10:04.791 --> 00:10:06.855
حالا این سیستم فقط دو هفته س به وجود اومده،

00:10:06.855 --> 00:10:08.701
بنابراین در عرض یه سال آینده،

00:10:08.701 --> 00:10:11.502
الگوریتم رایانه ای احتمالاً انسان رو پشت سر میذاره

00:10:11.502 --> 00:10:13.364
با این سرعت که کارها پیش میره.

00:10:13.364 --> 00:10:16.413
پس رایانه ها نوشتن هم بلدن.

NOTE Paragraph

00:10:16.413 --> 00:10:19.888
پس همه ی اینها رو کنار هم میذاریم و
نتیجه ش فرصت های بسیار مهیجی میشه.

00:10:19.888 --> 00:10:21.380
مثلاً، در پزشکی،

00:10:21.380 --> 00:10:23.905
یه گروه در بوستون اعلام کرده


00:10:23.905 --> 00:10:26.854
چندین ویژگی مهم یالینی

00:10:26.854 --> 00:10:31.120
از تومورها رو پیدا کرده که به دکترها
در تعیین پیش آگهی سرطان کمک می کنن.

00:10:32.220 --> 00:10:34.516
به طرز بسیار مشابه، در استنفورد،

00:10:34.516 --> 00:10:38.179
یه گروه اعلام کرده،
با نگاه کردن به بافتها، با بزرگنمایی بالا،

00:10:38.179 --> 00:10:40.560
یه سیستم بر اساس یادگیری
ماشینی درست کردن

00:10:40.560 --> 00:10:43.142
که در واقع بهتر از دکترهای آسیب شناس

00:10:43.142 --> 00:10:47.519
میزان بقای مبتلایان به سرطان رو
پیش بینی می کنه.

00:10:47.519 --> 00:10:50.764
در هر دو مورد فوق،
نه تنها پیش بینی ها دقیق تره،

00:10:50.764 --> 00:10:53.266
بلکه جنبه های جدیدی از بصیرت علمی
به وجود اومده.

00:10:53.276 --> 00:10:54.781
در مورد رادیولوژی،

00:10:54.781 --> 00:10:57.876
شاخص های بالینی جدیدی به دست اومده
که انسان قادر به فهم اونهاست.

00:10:57.876 --> 00:10:59.668
در این مورد آسیب شناسی،

00:10:59.668 --> 00:11:04.168
سیستم رایانه ای در واقع فهمید
که سلولهای اطراف سرطان

00:11:04.168 --> 00:11:07.508
به اندازه ی خود سلولهای سرطانی

00:11:07.508 --> 00:11:09.260
در رسیدن به تشخیص مهم هستن.

00:11:09.260 --> 00:11:14.621
این برخلاف چیزیه که دهها ساله
به آسیب شناسها یاد میدن.

00:11:14.621 --> 00:11:17.913
در هر یک از دو مورد فوق،
اون سیستمها

00:11:17.913 --> 00:11:21.534
با ترکیبی از نظر خبرگان پزشکی
و خبرگان یادگیری ماشینی شکل گرفت،

00:11:21.534 --> 00:11:24.275
اما از سال گذشته تا حالا
از اون هم جلوتر رفتیم.

00:11:24.275 --> 00:11:27.824
این نمونه ای از تشخیص نواحی سرطانی

00:11:27.824 --> 00:11:30.354
بافتهای انسان در زیر میکروسکوپه.

00:11:30.354 --> 00:11:34.967
سیستمی که اینجا نشون داده شده
میتونه اون نواحی رو دقیق تر از

00:11:34.967 --> 00:11:37.742
یا با دقت معادل دکترهای آسیب شناس
تشخیص بده،

00:11:37.742 --> 00:11:41.134
اما به طور کامل توسط یادگیری عمیق و
بدون کمک تخصصی پزشکی ساخته شده

00:11:41.134 --> 00:11:43.660
توسط افرادی که
هیچ سابقه ای در این زمینه ندارن.

00:11:44.730 --> 00:11:47.285
به طور مشابه، اینجا،
این قطعه قطعه شدن عصب.

00:11:47.285 --> 00:11:50.953
ما حالا میتونیم اعصاب رو با دقت
مشابه انسان قطعه قطعه کنیم،

00:11:50.953 --> 00:11:53.670
اما این سیستم با یادگیری عمیق ایجاد شده

00:11:53.670 --> 00:11:56.921
توسط افرادی که هیچ سابقه ی پزشکی ندارن.

NOTE Paragraph

00:11:56.921 --> 00:12:00.148
پس خودم، به عنوان کسی که
هیچ سابقه ی پزشکی ندارم،

00:12:00.148 --> 00:12:03.875
به نظر میرسه کاملاً آمادگی دارم
یه شرکت جدید پزشکی تأسیس کنم،

00:12:03.875 --> 00:12:06.021
که همین کارو کردم.

00:12:06.021 --> 00:12:07.761
یه جورایی از انجام این کار میترسیدم،

00:12:07.761 --> 00:12:10.650
اما به طور نظری امکانش بود

00:12:10.650 --> 00:12:16.142
که با این فنون تحلیل داده بتونم
کار پزشکی بسیار مفیدی انجام بدم.

00:12:16.142 --> 00:12:18.622
و شُکر که بازخوردش خارق العاده بوده،

00:12:18.622 --> 00:12:20.978
نه تنها از رسانه ها
بلکه از جامعه ی پزشکی،

00:12:20.978 --> 00:12:23.322
که خیلی حمایت کردن.

00:12:23.322 --> 00:12:27.471
فرضیه اینه که میتونیم
قسمت وسط فرآیند پزشکی رو بگیریم

00:12:27.471 --> 00:12:30.364
و اونو تا حد امکان
به تحلیل داده ها تبدیل کنیم،

00:12:30.364 --> 00:12:33.429
و کارهایی رو که دکترها بهتر انجام میدن
به اونها بسپاریم.

00:12:33.429 --> 00:12:35.031
میخوام یه مثال براتون بزنم.

00:12:35.031 --> 00:12:39.975
حالا به وجود اومدن یه آزمایش تشخیصی جدید
حدود ۱۵ دقیقه طول میکشه

00:12:39.975 --> 00:12:41.929
و حالا اینو به طور زنده به شما نشون میدم،

00:12:41.929 --> 00:12:45.416
اما با برش چند قسمت فشرده ش کردم به سه دقیقه.

00:12:45.416 --> 00:12:48.477
بجای آزمایش تشخیص پزشکی

00:12:48.477 --> 00:12:51.846
میخوام یه آزمایش تشخیص تصاویر
خودرو براتون بسازم،

00:12:51.846 --> 00:12:54.068
چون چیزیه که همه ی ما میفهمیم.

NOTE Paragraph

00:12:54.068 --> 00:12:57.269
پس اینجا با حدود یک و نیم میلیون
تصویر خودرو شروع می کنیم،

00:12:57.269 --> 00:13:00.475
و میخوام چیزی درست کنم که بتون
اونها رو بر اساس زاویه ی عکاسی

00:13:00.475 --> 00:13:02.698
دسته بندی کنه.

00:13:02.698 --> 00:13:06.586
خوب همه ی این تصاویر بدون برچسب هستن،
پس ناچارم از اول شروع کنم.

00:13:06.586 --> 00:13:08.451
با الگوریتم یادگیری عمیق ما،

00:13:08.451 --> 00:13:12.158
این سیستم میتونه به طور خودکار
ساختارهای هر تصویر رو شناسایی کنه.

00:13:12.158 --> 00:13:15.778
خوب نکته ی مثبت اینه که حالا انسان 
و رایانه میتونن با هم کار کنن.

00:13:15.778 --> 00:13:17.956
پس انسان، همون طور که اینجا میتونین ببینین،

00:13:17.956 --> 00:13:20.631
داره موارد مورد نظر رو
به رایانه میگه

00:13:20.631 --> 00:13:25.281
و از رایانه میخواد با استفاده
از اونها الگوریتم خودشو بهتر کنه.

00:13:25.281 --> 00:13:29.577
حالا این سیستمهای یادگیری عمیق
در واقع در فضای ۱۶ هزار بعدی هستن،

00:13:29.577 --> 00:13:33.009
پس اینجا می تونین ببینین
رایانه اینو در اون فضا میچرخونه،

00:13:33.009 --> 00:13:35.001
و سعی میکنه ساختارهای
جدید رو پیدا کنه.

00:13:35.001 --> 00:13:36.782
و وقتی این کار رو
با چنین موفقیتی انجام میده،

00:13:36.782 --> 00:13:40.786
فردی که داره هدایتش میکنه
میتونه نواحی مورد نظر رو نشون بده.

00:13:40.786 --> 00:13:43.208
پس اینجا، رایانه موفق شده نواحی،

00:13:43.208 --> 00:13:45.770
مثلاً زاویه ها رو پیدا کنه.

00:13:45.770 --> 00:13:47.376
پس طی این فرآیند،

00:13:47.376 --> 00:13:49.716
به تدریج به رایانه

00:13:49.716 --> 00:13:52.144
نکات بیشتر و بیشتری درباره ی
انواع ساختارهای مورد نظرمون میگیم.

00:13:52.144 --> 00:13:53.916
میتونین فرض کنین در یه آزمایش تشخیصی

00:13:53.916 --> 00:13:57.266
این میتونه یه آسیب شناس باشه که مثلاً
نواحی آسیب رو شناسایی می کنه،

00:13:57.266 --> 00:14:02.292
یا یه رادیولوژیست که گره های
بالقوه مشکل دار رو نشون میده.

00:14:02.292 --> 00:14:04.851
و این گاهی ممکنه
برای الگوریتم مشکل باشه.

00:14:04.851 --> 00:14:06.815
در این مورد، یه جورایی سردرگم شد.

00:14:06.815 --> 00:14:09.365
جلو و عقب خودروها همه در همه.

00:14:09.365 --> 00:14:11.437
پس اینجا باید کمی بیشتر دقت کنیم،

00:14:11.437 --> 00:14:14.669
با دست جلو و عقب رو مشخص کنیم،

00:14:14.669 --> 00:14:20.175
بعد به رایانه بگیم
این نوع گروهیه

00:14:20.175 --> 00:14:21.523
که منظور ماست.

NOTE Paragraph

00:14:21.523 --> 00:14:24.200
پس این کار رو مدتی انجام میدیم،
کمی ازش رد میشیم،

00:14:24.200 --> 00:14:26.446
و بعد به الگوریتم یادگیری
ماشینی آموزش میدیم

00:14:26.446 --> 00:14:28.420
بر اساس این چند صد چیز،

00:14:28.420 --> 00:14:30.445
و امیدواریم خیلی بهتر بشه.

00:14:30.445 --> 00:14:33.518
حالا میتونین ببینین که
بعضی از این تصاویر داره محو میشه،

00:14:33.518 --> 00:14:38.226
که نشون میده خودش کم کم
بعضی از اینا رو میشناسه.

00:14:38.226 --> 00:14:41.128
پس میتونیم از این مفهوم تصاویر مشابه
استفاده کنیم،

00:14:41.128 --> 00:14:43.222
و با استفاده از تصاویر مشابه،
حالا میتونین ببینین که،

00:14:43.222 --> 00:14:47.241
رایانه در این نقطه میتونه
فقط جلوی خودروها رو کاملاً بشناسه.

00:14:47.241 --> 00:14:50.189
پس در این نقطه، انسان
میتونه به رایانه بگه،

00:14:50.189 --> 00:14:52.482
خوب، بله، کارت خوب بود.

NOTE Paragraph

00:14:53.652 --> 00:14:55.837
گاهی، البته، حتی در این نقطه،

00:14:55.837 --> 00:14:59.511
جدا کردن گروهها مشکله.

00:14:59.511 --> 00:15:03.395
در این مورد، حتی بعد از اینکه رایانه
مدتی اینجا میچرخه،

00:15:03.399 --> 00:15:06.744
هنوز می بینیم که سمت چپ و راست تصاویر

00:15:06.744 --> 00:15:08.222
همه در همه.

00:15:08.222 --> 00:15:10.362
پس دوباره میتونیم به رایانه کمک کنیم،

00:15:10.362 --> 00:15:13.338
و بگیم خوب، حالا سعی کن
زائده ای رو پیدا کنی

00:15:13.338 --> 00:15:15.945
که سمت چپ و راست رو
تا حد امکان مشخص کنه

00:15:15.945 --> 00:15:18.067
به کمک این الگوریتم یادگیری عمیق.

00:15:18.067 --> 00:15:21.009
و با این کمک--
آهان، بله، موفق شده.

00:15:21.009 --> 00:15:23.891
تونسته راهی پیدا کنه
که درباره این اشیا فکر کنه

00:15:23.891 --> 00:15:26.271
و اینها رو از هم جدا کنه.

NOTE Paragraph

00:15:26.271 --> 00:15:28.709
پس ایده رو اینجا گرفتین.

00:15:28.709 --> 00:15:36.906
اینجا رایانه جای انسان رو نمی گیره،

00:15:36.906 --> 00:15:39.546
بلکه با هم کار میکنن.

00:15:39.546 --> 00:15:43.096
کاری که اینجا می کنیم اینه که
کاری که وقت یه گروه

00:15:43.096 --> 00:15:45.098
پنج یا شش نفره رو
حدود هفت سال می گرفت

00:15:45.098 --> 00:15:47.703
به سیستمی میدیم که همون کار رو
در عرض ۱۵ دقیقه انجام میده

00:15:47.703 --> 00:15:50.208
فقط با یه نفر که
به تنهایی کار میکنه.

NOTE Paragraph

00:15:50.208 --> 00:15:54.158
پس این فرآیند 
حدود چهار یا پنج بار تکرار میشه.

00:15:54.158 --> 00:15:56.017
می تونین ببینین که حالا
موفق شدیم ۶۲ درصد

00:15:56.017 --> 00:15:58.976
از یک و نیم میلیون تصویر رو
دسته بندی کنیم.

00:15:58.976 --> 00:16:01.448
و در این نقطه،
میتونیم با سرعت تمام

00:16:01.448 --> 00:16:02.745
دسته ها رو به طور کامل بگیریم،

00:16:02.745 --> 00:16:05.664
و هر کدوم رو چک کنیم تا
مطمئن بشیم اشتباه نشده.

00:16:05.664 --> 00:16:09.616
در صورت اشتباه، میتونیم
اینو به رایانه اطلاع بدیم.

00:16:09.616 --> 00:16:12.661
و با این نوع فرآیند
برای هر یک از گروههای مختلف،

00:16:12.661 --> 00:16:15.148
حالا به موفقیت ۸۰ درصد

00:16:15.148 --> 00:16:17.563
در طبقه بندی یک و نیم میلیون تصویر رسیدیم.

00:16:17.563 --> 00:16:19.641
و این نقطه، جاییه که

00:16:19.641 --> 00:16:23.220
تعداد کمی تصویر درست طبقه بندی نشده،

00:16:23.220 --> 00:16:26.108
و سعی می کنه بفهمه چرا.

00:16:26.108 --> 00:16:27.851
و با استفاده از روش فوق،

00:16:27.851 --> 00:16:31.972
در عرض ۱۵ دقیقه
به میزان طبقه بندی ۹۷ درصد رسیدیم.

NOTE Paragraph

00:16:31.972 --> 00:16:36.572
پس این نوع تکنیک
به ما امکان داد یه مشکل بزرگ رو حل کنیم،

00:16:36.578 --> 00:16:39.614
این مشکل که با کمبود نیروی تخصصی
پزشکی در جهان روبرو هستیم.

00:16:39.614 --> 00:16:43.103
مجمع جهانی اقتصاد اعلام کرده
بین ۱۰ تا ۲۰ برابر

00:16:43.103 --> 00:16:45.727
کمبود پزشک در
جهان در حال توسعه وجود داره،

00:16:45.727 --> 00:16:47.840
و حدود ۳۰۰ سال طول میکشه

00:16:47.840 --> 00:16:50.734
تا تعداد کافی پزشک
برای حل این مشکل تربیت بشه.

00:16:50.734 --> 00:16:53.619
پس تصور کنین اگه بتونیم
کارایی اونا رو افزایش بدیم

00:16:53.619 --> 00:16:56.458
با اساتفاده از این روشهای
یادگیری عمیق، چی میشه؟

NOTE Paragraph

00:16:56.458 --> 00:16:58.690
خوب این فرصتها منو
به شدت هیجان زده کرده.

00:16:58.690 --> 00:17:01.279
همچنین نگران مشکلات هستم.

00:17:01.279 --> 00:17:04.403
اینجا مشکل اینه که
هر ناحیه آبی رنگ در این نقشه

00:17:04.403 --> 00:17:08.172
جاییه که میزان اشتغال در خدمات
بیشتر از ۸۰ درصده.

00:17:08.172 --> 00:17:09.959
چه خدماتی؟

00:17:09.959 --> 00:17:11.473
این خدمات.

00:17:11.473 --> 00:17:15.627
اینها دقیقاً همون چیزهایی هستن
که رایانه ها یاد گرفتن انجام بدن.

00:17:15.627 --> 00:17:19.431
پس ۸۰ درصد اشتغال در جهان توسعه یافته

00:17:19.431 --> 00:17:21.963
مربوط به کارهاییه که
رایانه ها بلد هستن.

00:17:21.963 --> 00:17:23.403
مفهومش چیه؟

00:17:23.403 --> 00:17:25.986
خوب، مشکلی نیست.
میتونن در مشاغل دیگه جایگزین بشن.

00:17:25.986 --> 00:17:28.693
به عنوان مثال، موقعیتهای شغلی بیشتری
برای دانشمندان علوم داده ایجاد میشه.


00:17:28.693 --> 00:17:29.510
خوب، نه واقعاً.

00:17:29.510 --> 00:17:32.628
دانشمندان علوم داده زمان زیادی
برای ساختن این چیزها صرف نکردن.

00:17:32.628 --> 00:17:35.880
به عنوان مثال، این چهار الگوریتم
همگی توسط یه نفر ساخته شده.

00:17:35.880 --> 00:17:38.318
پس اگه فکر کنید، اوه،
قبلاً مشابه همین اتفاق افتاده،

00:17:38.318 --> 00:17:42.126
نتیجه شو در گذشته دیدیم
وقتی چیزهای جدید وارد میشه

00:17:42.126 --> 00:17:44.378
و شغلهای جدید جای اونا رو میگیره،

00:17:44.378 --> 00:17:46.494
این شغلهای جدید چه خواهد بود؟

00:17:46.494 --> 00:17:48.365
برآوردش برامون خیلی سخته،

00:17:48.365 --> 00:17:51.104
چون عملکرد انسانی به تدریج رشد می کنه،

00:17:51.104 --> 00:17:53.666
اما حالا سیستمی داریم به نام یادگیری عمیق،

00:17:53.666 --> 00:17:56.893
که در واقع میدونیم که از نظر توانایی،
سرعت رشد تصاعدی داره.

00:17:56.893 --> 00:17:58.498
و ما اینجاییم.

00:17:58.498 --> 00:18:00.559
پس در حال حاضر، چیزهای اطرفمون رو می بینیم

00:18:00.559 --> 00:18:03.235
و میگیم، "اوه، رایانه ها
هنوز خیلی عقب هستن." درسته؟

00:18:03.235 --> 00:18:06.664
اما در عرض پنج سال،
رایانه ها از این جدول خارج خواهند شد.

00:18:06.664 --> 00:18:10.529
پس لازمه همین الان شروع به
فکر درباره ی این قابلیت کنیم.

NOTE Paragraph

00:18:10.529 --> 00:18:12.579
البته اینو قبلاً یه بار دیدیم.

00:18:12.579 --> 00:18:13.966
در انقلاب صنعتی،

00:18:13.966 --> 00:18:16.817
با ورود موتورها شاهد
یک گام تغییر در قابلیت بودیم.

00:18:17.667 --> 00:18:20.805
اما نکته این است
که پس از مدتی، همه چیز خراب شد.

00:18:20.805 --> 00:18:22.507
گسست اجتماعی اتفاق افتاد،

00:18:22.507 --> 00:18:25.946
اما وقتی استفاده از موتورها برای تولید
نیرو در موقعیتهای مختلف شروع شد،


00:18:25.946 --> 00:18:28.300
همه چیز واقعاً عادی شد.

00:18:28.300 --> 00:18:29.773
انقلاب یادگیری ماشینی

00:18:29.773 --> 00:18:32.682
بسیار متفاوت از
انقلاب صنعتی خواهد بود،

00:18:32.682 --> 00:18:35.632
چون انقلاب یادگیری ماشینی،
هرگز عادی نمی شود.

00:18:35.632 --> 00:18:38.614
هر چه رایانه ها در امور ذهنی
بهتر می شوند،

00:18:38.614 --> 00:18:42.862
می تونن رایانه های بهتری بسازن
که در امور ذهنی بهتر هستن،

00:18:42.862 --> 00:18:44.770
پس این نوعی تغییر خواهد بود

00:18:44.770 --> 00:18:47.248
که جهان هرگز پیش از این
تجربه نکرده،

00:18:47.248 --> 00:18:50.554
پس فهم قبلی شما متفاوت با
چیزیه که ممکنه.

NOTE Paragraph

00:18:50.974 --> 00:18:52.754
این قبلاً در حال
تحت تأثیر قرار دادن ماست.

00:18:52.754 --> 00:18:56.384
در عرض ۲۵ سال اخیر،
با افزایش بهره وری سرمایه،

00:18:56.400 --> 00:19:00.588
بهره وری کار ثابت مانده،
در واقع کمی هم افت کرده.

NOTE Paragraph

00:19:01.408 --> 00:19:04.149
بنابراین میخوام این بحث رو
الان شروع کنیم.

00:19:04.149 --> 00:19:07.176
میدونم که اغلب وقتی درباره ی
این وضعیت به افراد توضیح میدم،

00:19:07.176 --> 00:19:08.666
ممکنه کسی اعتنا نکنه.

00:19:08.666 --> 00:19:10.339
خوب، رایانه ها در واقع نمی تونن فکر کنن،

00:19:10.339 --> 00:19:13.367
اونها احساس ندارن،
شعر رو نمی فهمن،

00:19:13.367 --> 00:19:15.888
ما در واقع نمیدونیم چطور کار میکنن.

00:19:15.888 --> 00:19:17.374
پس چه؟

00:19:17.374 --> 00:19:19.178
رایانه ها همین الان میتونن
کارهایی بکنن

00:19:19.178 --> 00:19:21.897
که انسانها بیشتر وقتشون رو
صرفش می کنن و در مقابلش پول میگیرن،

00:19:21.897 --> 00:19:23.628
پس الان وقت آن است
که شروع کنیم به فکر

00:19:23.628 --> 00:19:28.015
درباره ی اینکه چطور قراره ساختارهای اجتماعی
و ساختارهای اقتصادی خودمونو تغییر بدیم

00:19:28.015 --> 00:19:29.855
تا از این واقعیت جدید آگاه بشیم.

00:19:29.855 --> 00:19:31.388
متشکرم.

00:19:31.388 --> 00:19:32.190
(تشویق)