WEBVTT

00:00:00.800 --> 00:00:04.054
من مدیر گروهی در گوگل هستم
که در مورد هوش مصنوعی کار میکند؛

00:00:04.054 --> 00:00:08.598
به عبارت دیگر، راهکارهای مهندسی
برای اینکه رایانهها و دستگاه ها

00:00:08.622 --> 00:00:11.041
بتوانند بعضی از کارهای مغز رو انجام بدهند.

00:00:11.439 --> 00:00:14.538
و این ما رو به مغز و همچنین

00:00:14.562 --> 00:00:15.851
علوم اعصاب علاقهمند میکند،

00:00:15.875 --> 00:00:20.047
و خصوصا به کارهایی که مغزمان انجام میدهد

00:00:20.071 --> 00:00:24.113
که همچنان بسیار فراتر
از کارایی رایانههاست.

NOTE Paragraph

00:00:25.209 --> 00:00:28.818
از دیدگاه تاریخی، یکی از این حوزهها
ادراک بوده است،

00:00:28.842 --> 00:00:31.881
فرایندی که درآن چیزهای دنیای بیرون --

00:00:31.905 --> 00:00:33.489
اصوات و تصاویر --

00:00:33.513 --> 00:00:35.691
میتوانند به موضوعاتی ذهنی تبدیل شوند.

00:00:36.235 --> 00:00:38.752
این برای مغز ما اساسی است،

00:00:38.776 --> 00:00:41.240
و همچنین بسیار مفید در یک رایانه.

00:00:41.636 --> 00:00:44.986
برای مثال، آلگوریتمهای ادراک ماشینی،
که گروه ما تولید میکنند،

00:00:45.010 --> 00:00:48.884
چیزی است که تصاویر شما
در گوگل فوتو را قابل جستجو میکنند،

00:00:48.908 --> 00:00:50.485
با توجه به چیزهایی که در آنهاست.

00:00:51.594 --> 00:00:55.087
روی دیگر ادراک خلاقیت است:

00:00:55.111 --> 00:00:58.149
تبدیل موضوع به چیزی آنجا در جهان.

00:00:58.173 --> 00:01:01.728
در سال گذشته،
کار ما در ادراک ماشین

00:01:01.752 --> 00:01:06.611
به شکلی غیر منتظره با 
دنیای خلاقیت ماشینی مرتبط شد

00:01:06.635 --> 00:01:07.795
و هنر ماشینی.

NOTE Paragraph

00:01:08.556 --> 00:01:11.840
به نظر من میکلآنژ دیدگاه عمیقی

00:01:11.864 --> 00:01:15.520
در ارتباط دوگانه میان
ادراک و خلاقیت داشت.

00:01:16.023 --> 00:01:18.029
این گفته مشهوری از اوست:

00:01:18.053 --> 00:01:21.376
«هر قطعه سنگی شرایط خاص خود را دارد،

00:01:22.036 --> 00:01:25.038
و وظیفه مجسمهساز کشف آن است.»

00:01:26.029 --> 00:01:29.245
به نظر من آنچه میکلآنژعنوان میکند

00:01:29.269 --> 00:01:32.449
این است که خلاقیت ما از راه ادراک است،

00:01:32.473 --> 00:01:35.496
و اینکه خود ادراک، ناشی از تصور است

00:01:35.520 --> 00:01:37.981
که ماده اولیه خلاقیت است.

NOTE Paragraph

00:01:38.691 --> 00:01:42.616
عضوی که تمامی تفکر و ادراک و تصور را
بر عهده دارد،

00:01:42.640 --> 00:01:44.228
مسلما، مغز است.

00:01:45.089 --> 00:01:47.634
و میخواهم تا تاریخچه مختصری

00:01:47.658 --> 00:01:49.960
از آنچه در باره مغز میدانیم بگویم.

00:01:50.496 --> 00:01:52.942
چون برخلاف، مثلا، 
قلب یا رودهها،

00:01:52.966 --> 00:01:56.110
خیلی از اعمال مغزرا با تنها نگاه کردن
به آن نمیفهمی،

00:01:56.134 --> 00:01:57.546
حداقل با چشم معمولی.

00:01:57.983 --> 00:02:00.399
اولین کالبد شناسانی
که به مغز توجه کردند

00:02:00.423 --> 00:02:04.230
انواع اسمهای عجیب و غریب را 
به ساختارهای سطحی آن دادند،

00:02:04.254 --> 00:02:06.687
مثل هیپوکمپوس، یعنی «میگوی کوچک».

00:02:06.711 --> 00:02:09.475
ولی البته این چیزها توضیح زیادی

00:02:09.499 --> 00:02:11.817
از آنچه واقعا در درون آن
اتفاق میافتد نمی دهد.

NOTE Paragraph

00:02:12.780 --> 00:02:16.393
اولین کسی که، به نظرم، واقعا
یک بررسی از آنچه

00:02:16.417 --> 00:02:18.347
واقعا در مغز اتفاق میافتد انجام داد

00:02:18.371 --> 00:02:22.291
عصب شناس بزرگ اسپانیایی،
سانتیاگو رامون ای کاخال بود،

00:02:22.315 --> 00:02:23.859
در قرن ۱۹،

00:02:23.883 --> 00:02:27.638
که از میکروسکوپ و رنگ آمیزی
خاصی استفاده کرد

00:02:27.662 --> 00:02:31.832
که به انتخاب میتوانست با تضاد رنگ خوبی

00:02:31.856 --> 00:02:33.864
هر سلول مغز را پر یا روکش کند،

00:02:33.888 --> 00:02:37.042
تا بتواند شروع به درک کارایی ظاهری آن کند.

00:02:37.972 --> 00:02:40.863
و اینها طراحیهایی است
که او از نورونها ساخته

00:02:40.887 --> 00:02:42.096
در قرن ۱۹ میلادی.

NOTE Paragraph

00:02:42.120 --> 00:02:44.004
این از مغز یک پرنده است.

00:02:44.028 --> 00:02:47.085
و اینجا انواع بسیار مختلفی از سلولها
را میبینید،

00:02:47.109 --> 00:02:50.544
حتی خود نظریه سلولی
در این زمان بسیار جدید بود.

00:02:50.568 --> 00:02:51.846
و این ساختارها،

00:02:51.870 --> 00:02:54.129
این سلولها که دارای ارایش درختی هستند،

00:02:54.153 --> 00:02:56.871
این شاخهها که میتوانند
تا فاصلههای بسیار زیاد بروند --

00:02:56.871 --> 00:02:58.401
در آن زمان بسیار جدید بودند.

00:02:58.779 --> 00:03:01.682
درست مثل سیم کشی میمانند.

00:03:01.706 --> 00:03:05.163
و برای بعضی ها در قرن ۱۹ خیلی بدیهی بود؛

00:03:05.187 --> 00:03:09.501
انقلاب الکتریسیته 
و سیم کشی تازه شروع شده بود.

00:03:09.964 --> 00:03:11.142
اما از خیلی جنبهها،

00:03:11.166 --> 00:03:14.479
این ریز طراحیهای تشریحی
توسط رامون ای کاخال، مثل این،

00:03:14.503 --> 00:03:16.835
همچنان در نوع خود بینظیرند.

NOTE Paragraph

00:03:16.859 --> 00:03:18.713
هنوز بعد از یک قرن،

00:03:18.737 --> 00:03:21.562
میخواهیم کاری که رامون ای کاخال
شروع کرده را تمام کنیم.

00:03:21.586 --> 00:03:24.720
این ها اطلاعات خامی هستند
که همکارانمان

00:03:24.744 --> 00:03:27.625
در انستیتو عصب شناسی ماکس پلانک
تهیه کرده اند.

00:03:27.649 --> 00:03:29.439
و کاری که همکارانمان انجام دادهاند

00:03:29.463 --> 00:03:34.464
تصویربرداری از بافت کوچکی از مغز است.

00:03:34.488 --> 00:03:37.814
کل نمونه در اندازه یک میلیمتر مکعب است.

00:03:37.838 --> 00:03:40.459
و من بخش خیلی خیلی کوچکی
از آن را به شما نشان میدهم.

00:03:40.483 --> 00:03:42.829
آن میله در چپ اندازه یک میکرون است.

00:03:42.853 --> 00:03:45.262
ساختاری که میبینید یک میتوکندری است

00:03:45.286 --> 00:03:47.330
که به اندازه یک باکتری آست.

00:03:47.354 --> 00:03:48.905
و اینها برشهای پشت هم هستند

00:03:48.929 --> 00:03:52.077
در این بخش بسیار بسیار کوچک بافت.

00:03:52.101 --> 00:03:54.504
تنها برای مقایسه،

00:03:54.528 --> 00:03:58.320
قطر یک تار مو حدود ۱۰۰ میکرون است.

00:03:58.344 --> 00:04:00.618
پس ما به چیزهایی خیلی، خیلی کوچکتر

00:04:00.642 --> 00:04:02.040
از یک تار مو نگاه میکنیم.

NOTE Paragraph

00:04:02.064 --> 00:04:06.095
و با استفاده از این نوع 
برشهای میکروسکوپ الکترونی،

00:04:06.119 --> 00:04:11.127
میتوان نورونهای
سه بعدی مثل این را بازسازی کرد.

00:04:11.151 --> 00:04:14.308
پس اینها به شکلی مشابه 
کارهای رامون ای کاخال است.

00:04:14.332 --> 00:04:15.824
فقط چند نورون مشخص شدهاند،

00:04:15.848 --> 00:04:18.629
چون در غیر این صورت نمیتوانستیم 
چیزی را ببینیم.

00:04:18.653 --> 00:04:19.965
چون آنقدر شلوغ،

00:04:19.989 --> 00:04:21.319
و پر از ساختارهای،

00:04:21.343 --> 00:04:24.067
ارتباطی از یک نورون به دیگری بود.

NOTE Paragraph

00:04:25.293 --> 00:04:28.097
پس رامون ای کاخال 
از زمانهاش کمی جلوتر بود،

00:04:28.121 --> 00:04:30.676
و پیشرفت در فهمیدن مغز

00:04:30.700 --> 00:04:32.971
در چند دهه بعد به کندی پیش میرفت.

00:04:33.455 --> 00:04:36.308
ما میدانستیم که نورونها
از الکتریسیته استفاده میکنند،

00:04:36.332 --> 00:04:39.268
تا زمان جنگ جهانی دوم،
فناوری ما به اندازهای پیشرفت کرد

00:04:39.292 --> 00:04:42.098
تا شروع به آزمایش های الکتریکی
روی نورونهای زنده کنیم

00:04:42.122 --> 00:04:44.228
تا درک بهتری از کارکردشان داشته باشیم.

00:04:44.631 --> 00:04:48.987
و این همان وقتی بود
که رایانهها اختراع شدند،

00:04:49.011 --> 00:04:52.111
کاملا بر مبنای ایده و الگو سازی از مغز --

00:04:52.135 --> 00:04:55.220
«ماشینهای هوشمندی» 
که آلن تورینگ نام گذاری کرده بود،

00:04:55.244 --> 00:04:57.235
یکی از پدران علوم رایانه.

NOTE Paragraph

00:04:57.923 --> 00:05:02.555
وارن مک کلوچ و والتر پیتس
به طرح های رامون ای کاخال

00:05:02.579 --> 00:05:03.896
از قشر بینایی نگاه کردند،

00:05:03.920 --> 00:05:05.482
که اینجا نشان میدهم.

00:05:05.506 --> 00:05:09.948
این قشری است که تصاویری که
از چشم میآید را پردازش میکند.

00:05:10.424 --> 00:05:13.932
و از نظر آنها، مثل مدارات الکتریکی بود.

00:05:14.353 --> 00:05:18.188
در نتیجه جزئیات زیادی
در مدارات مک کلوچ و پیتس وجود دارند

00:05:18.212 --> 00:05:19.564
که کاملا درست نیستند.

00:05:19.588 --> 00:05:20.823
اما این ایده اولیه

00:05:20.847 --> 00:05:24.839
که قشر بینایی مانند تعدادی
مدارات رایانهای عمل میکند

00:05:24.863 --> 00:05:27.609
که بصورت سری اطلاعات را 
از یکی به دیگری انتقال میدهد،

00:05:27.633 --> 00:05:29.235
در پایه صحیح بود.

NOTE Paragraph

00:05:29.259 --> 00:05:31.609
بگذارید لحظهای در مورد

00:05:31.633 --> 00:05:35.665
روشی که برای پردازش اطلاعات تصویری
نیاز داریم صحبت کنیم.

00:05:36.228 --> 00:05:38.969
وظیفه اصلی ادراک

00:05:38.993 --> 00:05:43.187
دریافت تصویری مثل این و بیان،

00:05:43.211 --> 00:05:44.387
« این پرنده است،»

00:05:44.411 --> 00:05:47.285
که واقعا موضوع سادهای برای مغز ماست.

00:05:47.309 --> 00:05:50.730
اما باید بدانید که برای یک رایانه،

00:05:50.754 --> 00:05:53.841
تا چند سال پیش تقریبا غیر ممکن بود.

00:05:53.865 --> 00:05:55.781
برای روش های سنتی رایانه

00:05:55.805 --> 00:05:58.312
انجام این کار ساده نیست.

NOTE Paragraph

00:05:59.366 --> 00:06:01.918
اتفاقی که بین پیکسلهای تصویر،

00:06:01.942 --> 00:06:05.970
بین تصویر پرنده
و کلمه «پرنده» اتفاق میافتد،

00:06:05.994 --> 00:06:08.808
اساسا دستهای از نورونهای متصل به هم است

00:06:08.832 --> 00:06:09.987
در یک شبکه عصبی،

00:06:10.011 --> 00:06:11.234
که اینجا درنمودار است.

00:06:11.258 --> 00:06:14.530
این شبکه عصبی میتواند از نوع زیستی
و درون قشر بینایی ما باشد،

00:06:14.554 --> 00:06:16.716
یا، این روزها، ما شروع کردهایم تا

00:06:16.740 --> 00:06:19.194
این شبکه های عصبی را در رایانه مدل کنیم.

00:06:19.834 --> 00:06:22.187
و به شما نشان میدهم که واقعا شبیه چه است.

NOTE Paragraph

00:06:22.211 --> 00:06:25.627
پس پیکسل ها که میتوانند ازدید شما
اولین لایه عصبی باشند،

00:06:25.651 --> 00:06:27.890
و این در واقع،
همانطوری است که چشم کار میکند --

00:06:27.914 --> 00:06:29.577
که عصبهای شبکیه هستند.

00:06:29.601 --> 00:06:31.011
و آنهایی که مستقیما

00:06:31.011 --> 00:06:34.528
از یک لایه به لایه دیگرعصبی
متصل میشوند،

00:06:34.552 --> 00:06:37.585
همگی از طریق سیناپسهایی 
با وزنهای مختلف متصل میشوند.

00:06:37.609 --> 00:06:38.944
رفتار این شبکه

00:06:38.968 --> 00:06:42.252
از طریق قدرت همه این سیناپسها 
مشخص میگردد.

00:06:42.276 --> 00:06:45.564
اینها رفتار محاسباتی شبکه را معین میکنند.

00:06:45.588 --> 00:06:47.058
و در پایان،

00:06:47.082 --> 00:06:49.529
عصب، یا گروه کوچکی از اعصاب را داری

00:06:49.553 --> 00:06:51.340
که مثلا، کلمه «پرنده» را روشن میکند.

NOTE Paragraph

00:06:51.824 --> 00:06:54.956
حالا این سه موضوع را مدل میکنم --

00:06:54.980 --> 00:06:59.676
پیکسلهای ورودی سیناپسهای شبکه عصبی،

00:06:59.700 --> 00:07:01.285
و خروجی پرنده --

00:07:01.309 --> 00:07:04.366
با سه متغیر: X، W و Y.

00:07:04.853 --> 00:07:06.664
حدود یک میلیون X داریم --

00:07:06.688 --> 00:07:08.641
یک میلیون پیکسل در تصویر.

00:07:08.665 --> 00:07:11.111
میلیاردها یا تریلیاردها W داریم،

00:07:11.135 --> 00:07:14.556
که نشان دهنده وزن این سیناپسها
در شبکه عصبیاند.

00:07:14.580 --> 00:07:16.455
و تعداد بسیار کمی Y وجود دارد،

00:07:16.479 --> 00:07:18.337
که خروجیهای آن شبکهاند.

00:07:18.361 --> 00:07:20.110
کلمه «پرنده» چهار حرف دارد، درسته؟

00:07:21.088 --> 00:07:24.514
حالا بگذارید فرض کنیم این
فقط یک معادله ساده است،

00:07:24.538 --> 00:07:26.701
X ضربدر W میشود Y.

00:07:26.725 --> 00:07:28.761
من ضربدر را در گیومه گذاشتهام

00:07:28.785 --> 00:07:31.065
چون اتفاقی که واقعا میافته،

00:07:31.089 --> 00:07:34.135
مجموعه واقعا پیچیدهای از عملیات ریاضیه.

NOTE Paragraph

00:07:35.172 --> 00:07:36.393
این یک معادله است،

00:07:36.417 --> 00:07:38.089
که سه متغیر داره.

00:07:38.113 --> 00:07:40.839
و همه ما میدانیم که
اگه یک معادله داشته باشیم،

00:07:40.863 --> 00:07:44.505
میتوانیم یک متغیر را با دانستن
دو متغیر دیگه بدست آوریم.

00:07:45.158 --> 00:07:48.538
پس در نتیجه،

00:07:48.562 --> 00:07:51.435
به این شکل، مشخص میشود که
تصویر یک پرنده، پرنده است،

00:07:51.459 --> 00:07:52.733
این یکی:

00:07:52.757 --> 00:07:56.216
اینجاست که Y مجهوله
و X و W معلوم.

00:07:56.240 --> 00:07:58.699
شبکه عصبی معلومه،
پیکسلها معلومند.

00:07:58.723 --> 00:08:02.050
همونطور که میبینید، نسبتا یک 
مسئله سر راسته.

00:08:02.074 --> 00:08:04.260
دو رو ضربدر سه میکنی و تمومه.

00:08:04.862 --> 00:08:06.985
من یک شبکه عصبی مصنوعی رو نشونتون میدهم

00:08:07.009 --> 00:08:09.305
که اخیرا ساختیم
که دقیقا همین کار رو میکنه.

NOTE Paragraph

00:08:09.634 --> 00:08:12.494
این بصورت زنده کار میکنه
روی یک گوشی موبایل،

00:08:12.518 --> 00:08:15.831
و البته این،
خودش واقعا عالیه،

00:08:15.855 --> 00:08:19.323
اون تلفن همراه میتونه میلیونها و 
میلیاردها عملیات رو

00:08:19.347 --> 00:08:20.595
در ثانیه انجام بده.

00:08:20.619 --> 00:08:22.234
چیزی که میبینید تلفن هست

00:08:22.258 --> 00:08:25.805
به عکسهای پرندههای مختلف نگاه میکنه،

00:08:25.829 --> 00:08:28.544
و نه تنها میگه که
« آره، این یک پرنده است»،

00:08:28.568 --> 00:08:31.979
بلکه نوع پرنده رو هم 
با شبکهای از این نوع تعیین میکنه.

00:08:32.890 --> 00:08:34.716
پس در این تصویر،

00:08:34.740 --> 00:08:38.542
X و W معلومند،
و Y مجهول.

00:08:38.566 --> 00:08:41.074
معلومه که، من قسمت خیلی سخت رو مخفی کردم،

00:08:41.098 --> 00:08:44.959
که ما چطور W رو پیدا میکنیم،

00:08:44.983 --> 00:08:47.170
مغزی که این کارها رو میکنه؟

00:08:47.194 --> 00:08:49.028
ما واقعا چطور این مدل رو پیدا میکنیم؟

NOTE Paragraph

00:08:49.418 --> 00:08:52.651
پس این مدل یادگیری برای W حل شده،

00:08:52.675 --> 00:08:55.322
اگه به شکل یک معادله ساده نگاهش کنیم

00:08:55.346 --> 00:08:57.346
که به اونها به شکل عدد نگاه میکنیم،

00:08:57.370 --> 00:09:00.057
معلومه که چکار میکنیم: ۶=۲xW ،

00:09:00.081 --> 00:09:03.393
خوب، به دو تقسیمش میکنیم و تمومه.

00:09:04.001 --> 00:09:06.221
مشکل این ضریبه،

00:09:06.823 --> 00:09:07.974
خوب، تقسیم --

00:09:07.998 --> 00:09:11.119
ما از تقسیم استفاده میکنیم چون
معکوس ضربه،

00:09:11.143 --> 00:09:12.583
اما همونطور که گفتم،

00:09:12.607 --> 00:09:15.056
ضرب واقعا حرف درستی نیست.

00:09:15.080 --> 00:09:18.406
این یک عملیات خیلی، خیلی پیچیده غیر خطیه؛

00:09:18.430 --> 00:09:20.134
که معکوس نداره.

00:09:20.158 --> 00:09:23.308
پس باید راهی پیدا کنیم تا 
معادله رو حل کنیم

00:09:23.332 --> 00:09:25.356
بدون استفاده از تقسیم.

00:09:25.380 --> 00:09:27.723
و راه اون نسبتا سادهاست.

00:09:27.747 --> 00:09:30.418
کافیه فقط، از یک کلک جبر استفاده کنیم،

00:09:30.442 --> 00:09:33.348
و شش رو به سمت راست معادله ببریم.

00:09:33.372 --> 00:09:35.198
حالا، هنوز از ضرب استفاده میکنیم.

00:09:35.675 --> 00:09:39.255
و اون صفر --رو بگذارید
به عنوان خطا در نظر بگیریم.

00:09:39.279 --> 00:09:41.894
به عبارت دیگر، اگر معادله
را برای W به شکل صحیح حل کنیم،

00:09:41.894 --> 00:09:43.474
مقدار خطا صفر میشود.

00:09:43.498 --> 00:09:45.436
و اگر درست عمل نکنیم،

00:09:45.460 --> 00:09:47.209
مقدار خطا صفر نمیشود.

NOTE Paragraph

00:09:47.233 --> 00:09:50.599
پس میتونیم حدس بزنیم 
تا مقدار خطا رو حداقل کنیم،

00:09:50.623 --> 00:09:53.310
و اینها کارهایی است که رایانهها
در اون استادند.

00:09:53.334 --> 00:09:54.927
پس یه فرض اولیه میکنی:

00:09:54.951 --> 00:09:56.107
فرض کنیم W=0 ؟

00:09:56.131 --> 00:09:57.371
پس خطا معادل ۶ است.

00:09:57.395 --> 00:09:58.921
پس اگه W=۱ بود چی؟ خطا ۴ میشود.

00:09:58.921 --> 00:10:01.232
و رایانه به شکلی مارکوپولو بازی میکنه،

00:10:01.256 --> 00:10:03.623
و مقدار خطا رو نزدیک به صفر کاهش میده.

00:10:03.647 --> 00:10:07.021
و به این شکل مقدار تقریبی W بدست میآید

00:10:07.045 --> 00:10:10.701
معمولا، هیچوقت دقیقا به آن نمی رسد،
ولی بعد از نزدیک ده مرحله،

00:10:10.725 --> 00:10:15.349
ما به W=۲.۹۹ میرسیم،
که به اندازه کافی مناسبه،

00:10:16.302 --> 00:10:18.116
و این مرحله یادگیریه.

NOTE Paragraph

00:10:18.140 --> 00:10:20.870
خوب حالا اتفاقی که اینجا میافته

00:10:20.894 --> 00:10:25.272
اینه که تعداد زیادی X های معلوم
و Yهای معلوم رو استفاده میکنیم

00:10:25.296 --> 00:10:28.750
و از روش تکرار W رو 
محاسبه میکنیم.

00:10:28.774 --> 00:10:32.330
این دقیقا همون روشیه
که ما یادگیری رو انجام میدهیم.

00:10:32.354 --> 00:10:34.784
مثل نوزادان ، تعداد خیلی، خیلی زیادی 
تصویر میبینیم

00:10:34.784 --> 00:10:37.241
و بهشون میگیم، « این پرنده است؛
و این پرنده نیست.»

00:10:37.714 --> 00:10:39.812
و در طول زمان، از طریق تکرار،

00:10:39.836 --> 00:10:42.764
W را برای آن اتصالات عصبی بدست میاوریم.

NOTE Paragraph

00:10:43.460 --> 00:10:47.546
پس حالا، ما برای بدست آوردن
Y مقدارهای X و W رو ثابت نگاه داشتیم؛

00:10:47.570 --> 00:10:49.417
و این ادراک سریع روزانهاست.

00:10:49.441 --> 00:10:51.204
فهمیدیم، که چطور W را محاسبه کنیم،

00:10:51.228 --> 00:10:53.131
این یادگیری، خیلی سخت تره،

00:10:53.155 --> 00:10:55.140
چون باید خطا رو حداقل کنیم،

00:10:55.164 --> 00:10:56.931
با استفاده از کلی نمونه برای یادگیری.

NOTE Paragraph

00:10:56.931 --> 00:11:00.062
و حدود یک سال قبل،
آلکس موردیوینسف، در تیم ما،

00:11:00.086 --> 00:11:03.636
تصمیم گرفت تا بررسی کنه چه اتفاقی میافته
اگر اون رو برای X حل کنیم،

00:11:03.660 --> 00:11:05.697
اگه مقدار مشخصی برای W و Y داشته باشیم.

00:11:06.124 --> 00:11:07.275
به عبارت دیگر،

00:11:07.299 --> 00:11:08.701
میدونید که این یک پرنده است،

00:11:08.701 --> 00:11:11.978
شبکه عصبی که 
روی پرنده آموزش دیده رو دارید،

00:11:12.002 --> 00:11:14.346
چه تصویری از پرنده بدست میاد؟

00:11:15.034 --> 00:11:20.058
معلوم شده که با استفاده از
همون شیوه کمینه کردن خطا،

00:11:20.082 --> 00:11:23.512
میتونه با شبکهای که
برای تشخیص پرنده آموزش دیده،

00:11:23.536 --> 00:11:26.924
و نتیجه اون معلوم شد که ...

00:11:30.400 --> 00:11:31.705
تصویر پرنده است.

00:11:32.814 --> 00:11:36.551
این تصویر پرندههاست که کاملا توسط 
یک شبکه عصبی ایجاد شده

00:11:36.575 --> 00:11:38.401
که برای تضخیص پرنده آموزش دیده،

00:11:38.425 --> 00:11:41.963
تنها با حل کردن آن برای X بجای Y،

00:11:41.987 --> 00:11:43.275
و تکرار اون.

NOTE Paragraph

00:11:43.732 --> 00:11:45.579
این یک مثال سرگرم کننده دیگه است.

00:11:45.603 --> 00:11:49.040
این کاری است که توسط مایک تایکا
در گروه ما انجام شده،

00:11:49.064 --> 00:11:51.372
که «رژه حیوانات» نامیده میشود.

00:11:51.396 --> 00:11:54.272
که من رو بیاد کارهای هنری 
ویلیام کنتریج میاندازه،

00:11:54.296 --> 00:11:56.785
که طراحی های دستی انجام میداده،

00:11:56.809 --> 00:11:58.569
طرح میکرده، و اونها رو محو میکرده،

00:11:58.569 --> 00:11:59.691
و با اون فیلم میساخته.

00:11:59.715 --> 00:12:00.866
در این حالت،

00:12:00.890 --> 00:12:04.167
کاری که مایک انجام میده
تغییر Y در فضای حیوانات مختلف است،

00:12:04.191 --> 00:12:06.573
در شبکهای که برای تشخیص و تعیین

00:12:06.597 --> 00:12:08.407
حیولنات مختلف از همدیگر طراحی شده.

00:12:08.431 --> 00:12:12.272
و شما این تصاویر گرافیکی اشتر گونه که از
حیوانی به دیگری تبدیل میشه رو میبینید.

NOTE Paragraph

00:12:14.221 --> 00:12:18.835
اینجا او و الکس با هم سعی کردهاند

00:12:18.859 --> 00:12:21.618
تا Y ها رو به فضای دو بعدی تبدیل کنند،

00:12:21.642 --> 00:12:25.080
و اینطوری نقشهای از فضای 
همه چیزهایی بسازند

00:12:25.104 --> 00:12:26.823
که توسط این شبکه شناخته میشود.

00:12:26.847 --> 00:12:28.870
با انجام این تحلیل ها

00:12:28.894 --> 00:12:31.276
یا تولید تصویر در کل سطح،

00:12:31.300 --> 00:12:34.146
با تغییر Y روی سطح،
یه نوع نقشه تولید میکنی --

00:12:34.170 --> 00:12:37.311
یک نقشه تصویری از همه چیزهایی
که شبکه میتونه تشخیص بده.

00:12:37.335 --> 00:12:40.200
همه حیوانات اینجا هستند؛
«گورکن» درست اونجاست.

NOTE Paragraph

00:12:40.919 --> 00:12:43.398
اینکار رو میتونی
با انواع دیگر شبکه انجام بدی.

00:12:43.422 --> 00:12:46.296
این شبکهای است که برای تشخیص
چهره طراحی شده،

00:12:46.320 --> 00:12:48.320
برای تشخیص یک صورت از صورت دیگر.

00:12:48.344 --> 00:12:51.593
و اینجا، در Y، ما مقداری رو میگذاریم
که بیانگر «من» هست،

00:12:51.617 --> 00:12:53.192
مقادیر صورت خودم.

00:12:53.216 --> 00:12:54.922
و اگه معادله رو برای X حل کنیم،

00:12:54.946 --> 00:12:57.564
این چیز عجیب،

00:12:57.588 --> 00:13:02.016
تصویر روانپریشی از من،
شبیه سبک کوبیسم، سور رئال

00:13:02.040 --> 00:13:03.846
از چند زاویه دید همزمان.

00:13:03.870 --> 00:13:06.604
دلیل اینکه تصویر از چند زاویه دید همزمان 
تولید شده

00:13:06.628 --> 00:13:10.315
اینه که شبکه برای این طراحی شده

00:13:10.339 --> 00:13:12.815
تا تغییر وضعیت صورت مبهم نباشه،

00:13:12.839 --> 00:13:16.215
یا اگر به اون با نورهای مختلف نگاه بشه.

00:13:16.239 --> 00:13:18.324
پس وقتی این بازسازی ها رو انجام بدهی،

00:13:18.348 --> 00:13:20.652
اگر یک تصویر راهنما نداشته باشی،

00:13:20.676 --> 00:13:21.887
یا اطلاعات اولیه،

00:13:21.911 --> 00:13:25.676
ترکیبی از زوایای دید مختلف بدست میآوری،

00:13:25.700 --> 00:13:27.068
چون مبهمه.

00:13:27.786 --> 00:13:32.009
این نتیجهای است که آلکس وقتی از تصویر
صورت خودش به عنوان راهنما

00:13:32.033 --> 00:13:35.354
در فرایند بهینه سازی
برای ایجاد صورت من استفاده کرده.

00:13:36.284 --> 00:13:38.612
به نظر عالی نیست.

00:13:38.636 --> 00:13:40.510
هنوز باید کارهای زیادی

00:13:40.534 --> 00:13:42.987
در بهینه سازی و روشهای آن
انجام شود.

00:13:43.011 --> 00:13:45.838
اما شروع کردهایم تا چیزی 
شبیه به صورتی منسجم بدست آوریم ،

00:13:45.862 --> 00:13:47.876
که از صورت من به عنوان مبنا استفاده کرده.

NOTE Paragraph

00:13:48.892 --> 00:13:51.393
نیاز نیست تا از یک صفحه خالی شروع کنی

00:13:51.417 --> 00:13:52.573
یا از نویز سفید.

00:13:52.597 --> 00:13:53.961
اگر معادله را برای X حل کنی،

00:13:53.961 --> 00:13:57.814
می تونی با یک X شروع کنی،
که خودش تصویر دیگری است.

00:13:57.838 --> 00:14:00.394
که همین نمونهایست که میبینید.

00:14:00.418 --> 00:14:04.540
این شبکهای است که طراحی شده

00:14:04.564 --> 00:14:07.813
تا تمامی انواع اشیاء را طبقه بندی کند --
ساختههای انسان، حیوانات ...

00:14:07.813 --> 00:14:10.300
اینجا با تصویری از ابر شروع میکنیم،

00:14:10.324 --> 00:14:11.995
و همونطور که بهنینه سازی میکنیم.

00:14:12.019 --> 00:14:16.505
اساسا، این شبکه چیزی را
که در ابرها میبیند را پیدا میکند.

00:14:16.931 --> 00:14:19.251
و هرچه بیشتر روی آن وقت بگذاری،

00:14:19.275 --> 00:14:22.028
چیزهای بیشتری در آن میبینی.

00:14:23.004 --> 00:14:26.379
میتوان از شبکه عصبی تشخیص صورت
برای خبال پردازی در آن استفاده کرد،

00:14:26.403 --> 00:14:28.215
و چیزهای عجیب و غریب زیادی میبینی.

NOTE Paragraph

00:14:28.239 --> 00:14:29.389
( خنده حضار )

NOTE Paragraph

00:14:30.401 --> 00:14:33.145
یا، مایک آزمایشهای دیگری انجام داده

00:14:33.169 --> 00:14:37.074
که در آن عکسهای ابر را گرفته،

00:14:37.098 --> 00:14:40.605
خیال پردازی، بزرگ نمایی، خیال پردازی،
بزرک نمایی.

00:14:40.629 --> 00:14:41.780
و به این شکل،

00:14:41.804 --> 00:14:45.479
به نظرم، به شکلی
در یک وضعیت گیجی شبکه قرار میگیری ،

00:14:45.503 --> 00:14:49.183
یا نوعی از ترکیبهای آزاد،

00:14:49.207 --> 00:14:51.434
که در آن شبکه دم خودش را میخورد.

00:14:51.458 --> 00:14:54.879
پس هر تصویر حالا پایهای برای،

00:14:54.903 --> 00:14:56.324
« فکر میکنم بعدی چیه؟

00:14:56.348 --> 00:14:59.151
فکر میکنم بعدی چیه؟
فکر میکنم بعدی چیه؟» خواهد بود

NOTE Paragraph

00:14:59.487 --> 00:15:02.423
اولین باری که برای عموم

00:15:02.447 --> 00:15:07.884
و گروهی به نام «تحصیلات عالی» 
در سیاتل این را نشان دادم --

00:15:07.908 --> 00:15:10.345
درست وقتی بود که ماریجوانا قانونی شد.

NOTE Paragraph

00:15:10.369 --> 00:15:12.784
( خنده حضار )

NOTE Paragraph

00:15:14.627 --> 00:15:16.731
خوب باید زودتر جمع بندی کنم

00:15:16.755 --> 00:15:21.010
با اشاره به اینکه 
این فناوری هنوز محدود نشده.

00:15:21.034 --> 00:15:24.699
من تنها مثالهای کاملا تصویری
آن را نشان دادم چون دیدنشان لذت بخش است.

00:15:24.723 --> 00:15:27.174
ولی این تنها یک فناوری تصویری نیست.

00:15:27.198 --> 00:15:29.191
همکار هنری ما، راس گودوین،

00:15:29.215 --> 00:15:32.886
آزمایشهایی انجام داده که در آن 
دوربینی عکس می گیرد،

00:15:32.910 --> 00:15:37.144
و رایانهای که در کوله پشتیاش است
در موردش با شبکه عصبی شعری میگوید،

00:15:37.168 --> 00:15:39.112
با توجه به محتویات تصویر.

00:15:39.136 --> 00:15:42.083
و این شبکه عصبی شاعر روی

00:15:42.107 --> 00:15:44.341
مجموعه بزرگی 
از اشعار قرن بیستم آموزش دیده.

00:15:44.365 --> 00:15:45.864
و به نظر من اشعارش،

00:15:45.888 --> 00:15:47.802
واقعا، خیلی هم بد نیست.

NOTE Paragraph

00:15:47.826 --> 00:15:49.210
( خنده حضار )

NOTE Paragraph

00:15:49.234 --> 00:15:50.393
در خاتمه،

00:15:50.417 --> 00:15:52.549
فکر کنم میکل آنژ،

00:15:52.573 --> 00:15:53.807
درست میگفت که؛

00:15:53.831 --> 00:15:57.267
ادراک و خلاقیت
ذاتا بسیار به هم نزدیکند.

00:15:57.611 --> 00:16:00.245
چیزهایی که دیدیم شبکه های عصبیاند

00:16:00.269 --> 00:16:02.572
که تنها آموزش دیدهاند تا تشخیص دهند،

00:16:02.596 --> 00:16:04.838
یا چیزهای متفاوتی را در دنیا بشناسند،

00:16:04.862 --> 00:16:08.023
و میتوانند معکوس عمل کنند و تولید کنند.

00:16:08.047 --> 00:16:09.830
یکی از چیزهایی که به نظرم میرسد

00:16:09.854 --> 00:16:12.252
این است که تنها میکل آنژ نیست

00:16:12.276 --> 00:16:14.728
که مجسمهای در قطعهای سنگ میبیند،

00:16:14.752 --> 00:16:18.390
بلکه هر مخلوقی، هر موجودی،
هر موجود فرازمینی

00:16:18.414 --> 00:16:22.071
که بتواند گونه ای از
فعالیتی ادراکی داشته باشد

00:16:22.095 --> 00:16:23.480
هم میتواند خلاقیت داشته باشد

00:16:23.500 --> 00:16:26.718
چون واقعا یک دستگاه
هر دو کار را انجام میدهد.

NOTE Paragraph

00:16:26.742 --> 00:16:31.274
همچنین، به نظر من
ادراک و خلاقیت به هیچ وجه

00:16:31.298 --> 00:16:32.508
تنها مختص انسان نیستند.

00:16:32.532 --> 00:16:36.240
مدلهای رایانهای را میبینیم
که دقیقا اینگونه کارها را انجام میدهند.

00:16:36.264 --> 00:16:39.592
و نباید تعجب کرد؛
چون مغز هم محاسباتی است.

NOTE Paragraph

00:16:39.616 --> 00:16:41.273
و در پایان،

00:16:41.297 --> 00:16:45.965
برنامه ریزی رایانه شروع به
طراحی دستگاههای هوشمند کرده است.

00:16:45.989 --> 00:16:48.451
وساخت آن قطعا پس از این نظر

00:16:48.475 --> 00:16:51.488
که چطور میتوانیم 
دستگاهها را هوشمند کنیم انجام شده.

00:16:51.512 --> 00:16:53.674
و نهایتا حالا شروع به انجام آن کردهایم

00:16:53.698 --> 00:16:56.104
بعضی از وعدههای 
این پیشگامان،

00:16:56.128 --> 00:16:57.841
تورینگ و فون نومان

00:16:57.865 --> 00:17:00.130
و مک کولچ و پیت.

00:17:00.154 --> 00:17:04.252
و از دید من رایانه تنها برای حسابداری

00:17:04.276 --> 00:17:06.423
یا بازی کندیکراش و این چیزها نیست.

00:17:06.447 --> 00:17:09.025
از آغاز آنها را
بر مبنای ذهنمان ساخته ایم.

00:17:09.049 --> 00:17:12.318
و به ما این امکان را دادند
تا ذهنمان را بهتربشناسیم

00:17:12.342 --> 00:17:13.871
و توسعه دهیم.

NOTE Paragraph

00:17:14.627 --> 00:17:15.794
خیلی از شما متشکرم.

NOTE Paragraph

00:17:15.818 --> 00:17:21.757
( تشویق حضار )