WEBVTT 00:00:00.800 --> 00:00:04.054 من مدیر گروهی در گوگل هستم که در مورد هوش مصنوعی کار میکند؛ 00:00:04.054 --> 00:00:08.598 به عبارت دیگر، راهکارهای مهندسی برای اینکه رایانهها و دستگاه ها 00:00:08.622 --> 00:00:11.041 بتوانند بعضی از کارهای مغز رو انجام بدهند. 00:00:11.439 --> 00:00:14.538 و این ما رو به مغز و همچنین 00:00:14.562 --> 00:00:15.851 علوم اعصاب علاقهمند میکند، 00:00:15.875 --> 00:00:20.047 و خصوصا به کارهایی که مغزمان انجام میدهد 00:00:20.071 --> 00:00:24.113 که همچنان بسیار فراتر از کارایی رایانههاست. NOTE Paragraph 00:00:25.209 --> 00:00:28.818 از دیدگاه تاریخی، یکی از این حوزهها ادراک بوده است، 00:00:28.842 --> 00:00:31.881 فرایندی که درآن چیزهای دنیای بیرون -- 00:00:31.905 --> 00:00:33.489 اصوات و تصاویر -- 00:00:33.513 --> 00:00:35.691 میتوانند به موضوعاتی ذهنی تبدیل شوند. 00:00:36.235 --> 00:00:38.752 این برای مغز ما اساسی است، 00:00:38.776 --> 00:00:41.240 و همچنین بسیار مفید در یک رایانه. 00:00:41.636 --> 00:00:44.986 برای مثال، آلگوریتمهای ادراک ماشینی، که گروه ما تولید میکنند، 00:00:45.010 --> 00:00:48.884 چیزی است که تصاویر شما در گوگل فوتو را قابل جستجو میکنند، 00:00:48.908 --> 00:00:50.485 با توجه به چیزهایی که در آنهاست. 00:00:51.594 --> 00:00:55.087 روی دیگر ادراک خلاقیت است: 00:00:55.111 --> 00:00:58.149 تبدیل موضوع به چیزی آنجا در جهان. 00:00:58.173 --> 00:01:01.728 در سال گذشته، کار ما در ادراک ماشین 00:01:01.752 --> 00:01:06.611 به شکلی غیر منتظره با دنیای خلاقیت ماشینی مرتبط شد 00:01:06.635 --> 00:01:07.795 و هنر ماشینی. NOTE Paragraph 00:01:08.556 --> 00:01:11.840 به نظر من میکلآنژ دیدگاه عمیقی 00:01:11.864 --> 00:01:15.520 در ارتباط دوگانه میان ادراک و خلاقیت داشت. 00:01:16.023 --> 00:01:18.029 این گفته مشهوری از اوست: 00:01:18.053 --> 00:01:21.376 «هر قطعه سنگی شرایط خاص خود را دارد، 00:01:22.036 --> 00:01:25.038 و وظیفه مجسمهساز کشف آن است.» 00:01:26.029 --> 00:01:29.245 به نظر من آنچه میکلآنژعنوان میکند 00:01:29.269 --> 00:01:32.449 این است که خلاقیت ما از راه ادراک است، 00:01:32.473 --> 00:01:35.496 و اینکه خود ادراک، ناشی از تصور است 00:01:35.520 --> 00:01:37.981 که ماده اولیه خلاقیت است. NOTE Paragraph 00:01:38.691 --> 00:01:42.616 عضوی که تمامی تفکر و ادراک و تصور را بر عهده دارد، 00:01:42.640 --> 00:01:44.228 مسلما، مغز است. 00:01:45.089 --> 00:01:47.634 و میخواهم تا تاریخچه مختصری 00:01:47.658 --> 00:01:49.960 از آنچه در باره مغز میدانیم بگویم. 00:01:50.496 --> 00:01:52.942 چون برخلاف، مثلا، قلب یا رودهها، 00:01:52.966 --> 00:01:56.110 خیلی از اعمال مغزرا با تنها نگاه کردن به آن نمیفهمی، 00:01:56.134 --> 00:01:57.546 حداقل با چشم معمولی. 00:01:57.983 --> 00:02:00.399 اولین کالبد شناسانی که به مغز توجه کردند 00:02:00.423 --> 00:02:04.230 انواع اسمهای عجیب و غریب را به ساختارهای سطحی آن دادند، 00:02:04.254 --> 00:02:06.687 مثل هیپوکمپوس، یعنی «میگوی کوچک». 00:02:06.711 --> 00:02:09.475 ولی البته این چیزها توضیح زیادی 00:02:09.499 --> 00:02:11.817 از آنچه واقعا در درون آن اتفاق میافتد نمی دهد. NOTE Paragraph 00:02:12.780 --> 00:02:16.393 اولین کسی که، به نظرم، واقعا یک بررسی از آنچه 00:02:16.417 --> 00:02:18.347 واقعا در مغز اتفاق میافتد انجام داد 00:02:18.371 --> 00:02:22.291 عصب شناس بزرگ اسپانیایی، سانتیاگو رامون ای کاخال بود، 00:02:22.315 --> 00:02:23.859 در قرن ۱۹، 00:02:23.883 --> 00:02:27.638 که از میکروسکوپ و رنگ آمیزی خاصی استفاده کرد 00:02:27.662 --> 00:02:31.832 که به انتخاب میتوانست با تضاد رنگ خوبی 00:02:31.856 --> 00:02:33.864 هر سلول مغز را پر یا روکش کند، 00:02:33.888 --> 00:02:37.042 تا بتواند شروع به درک کارایی ظاهری آن کند. 00:02:37.972 --> 00:02:40.863 و اینها طراحیهایی است که او از نورونها ساخته 00:02:40.887 --> 00:02:42.096 در قرن ۱۹ میلادی. NOTE Paragraph 00:02:42.120 --> 00:02:44.004 این از مغز یک پرنده است. 00:02:44.028 --> 00:02:47.085 و اینجا انواع بسیار مختلفی از سلولها را میبینید، 00:02:47.109 --> 00:02:50.544 حتی خود نظریه سلولی در این زمان بسیار جدید بود. 00:02:50.568 --> 00:02:51.846 و این ساختارها، 00:02:51.870 --> 00:02:54.129 این سلولها که دارای ارایش درختی هستند، 00:02:54.153 --> 00:02:56.871 این شاخهها که میتوانند تا فاصلههای بسیار زیاد بروند -- 00:02:56.871 --> 00:02:58.401 در آن زمان بسیار جدید بودند. 00:02:58.779 --> 00:03:01.682 درست مثل سیم کشی میمانند. 00:03:01.706 --> 00:03:05.163 و برای بعضی ها در قرن ۱۹ خیلی بدیهی بود؛ 00:03:05.187 --> 00:03:09.501 انقلاب الکتریسیته و سیم کشی تازه شروع شده بود. 00:03:09.964 --> 00:03:11.142 اما از خیلی جنبهها، 00:03:11.166 --> 00:03:14.479 این ریز طراحیهای تشریحی توسط رامون ای کاخال، مثل این، 00:03:14.503 --> 00:03:16.835 همچنان در نوع خود بینظیرند. NOTE Paragraph 00:03:16.859 --> 00:03:18.713 هنوز بعد از یک قرن، 00:03:18.737 --> 00:03:21.562 میخواهیم کاری که رامون ای کاخال شروع کرده را تمام کنیم. 00:03:21.586 --> 00:03:24.720 این ها اطلاعات خامی هستند که همکارانمان 00:03:24.744 --> 00:03:27.625 در انستیتو عصب شناسی ماکس پلانک تهیه کرده اند. 00:03:27.649 --> 00:03:29.439 و کاری که همکارانمان انجام دادهاند 00:03:29.463 --> 00:03:34.464 تصویربرداری از بافت کوچکی از مغز است. 00:03:34.488 --> 00:03:37.814 کل نمونه در اندازه یک میلیمتر مکعب است. 00:03:37.838 --> 00:03:40.459 و من بخش خیلی خیلی کوچکی از آن را به شما نشان میدهم. 00:03:40.483 --> 00:03:42.829 آن میله در چپ اندازه یک میکرون است. 00:03:42.853 --> 00:03:45.262 ساختاری که میبینید یک میتوکندری است 00:03:45.286 --> 00:03:47.330 که به اندازه یک باکتری آست. 00:03:47.354 --> 00:03:48.905 و اینها برشهای پشت هم هستند 00:03:48.929 --> 00:03:52.077 در این بخش بسیار بسیار کوچک بافت. 00:03:52.101 --> 00:03:54.504 تنها برای مقایسه، 00:03:54.528 --> 00:03:58.320 قطر یک تار مو حدود ۱۰۰ میکرون است. 00:03:58.344 --> 00:04:00.618 پس ما به چیزهایی خیلی، خیلی کوچکتر 00:04:00.642 --> 00:04:02.040 از یک تار مو نگاه میکنیم. NOTE Paragraph 00:04:02.064 --> 00:04:06.095 و با استفاده از این نوع برشهای میکروسکوپ الکترونی، 00:04:06.119 --> 00:04:11.127 میتوان نورونهای سه بعدی مثل این را بازسازی کرد. 00:04:11.151 --> 00:04:14.308 پس اینها به شکلی مشابه کارهای رامون ای کاخال است. 00:04:14.332 --> 00:04:15.824 فقط چند نورون مشخص شدهاند، 00:04:15.848 --> 00:04:18.629 چون در غیر این صورت نمیتوانستیم چیزی را ببینیم. 00:04:18.653 --> 00:04:19.965 چون آنقدر شلوغ، 00:04:19.989 --> 00:04:21.319 و پر از ساختارهای، 00:04:21.343 --> 00:04:24.067 ارتباطی از یک نورون به دیگری بود. NOTE Paragraph 00:04:25.293 --> 00:04:28.097 پس رامون ای کاخال از زمانهاش کمی جلوتر بود، 00:04:28.121 --> 00:04:30.676 و پیشرفت در فهمیدن مغز 00:04:30.700 --> 00:04:32.971 در چند دهه بعد به کندی پیش میرفت. 00:04:33.455 --> 00:04:36.308 ما میدانستیم که نورونها از الکتریسیته استفاده میکنند، 00:04:36.332 --> 00:04:39.268 تا زمان جنگ جهانی دوم، فناوری ما به اندازهای پیشرفت کرد 00:04:39.292 --> 00:04:42.098 تا شروع به آزمایش های الکتریکی روی نورونهای زنده کنیم 00:04:42.122 --> 00:04:44.228 تا درک بهتری از کارکردشان داشته باشیم. 00:04:44.631 --> 00:04:48.987 و این همان وقتی بود که رایانهها اختراع شدند، 00:04:49.011 --> 00:04:52.111 کاملا بر مبنای ایده و الگو سازی از مغز -- 00:04:52.135 --> 00:04:55.220 «ماشینهای هوشمندی» که آلن تورینگ نام گذاری کرده بود، 00:04:55.244 --> 00:04:57.235 یکی از پدران علوم رایانه. NOTE Paragraph 00:04:57.923 --> 00:05:02.555 وارن مک کلوچ و والتر پیتس به طرح های رامون ای کاخال 00:05:02.579 --> 00:05:03.896 از قشر بینایی نگاه کردند، 00:05:03.920 --> 00:05:05.482 که اینجا نشان میدهم. 00:05:05.506 --> 00:05:09.948 این قشری است که تصاویری که از چشم میآید را پردازش میکند. 00:05:10.424 --> 00:05:13.932 و از نظر آنها، مثل مدارات الکتریکی بود. 00:05:14.353 --> 00:05:18.188 در نتیجه جزئیات زیادی در مدارات مک کلوچ و پیتس وجود دارند 00:05:18.212 --> 00:05:19.564 که کاملا درست نیستند. 00:05:19.588 --> 00:05:20.823 اما این ایده اولیه 00:05:20.847 --> 00:05:24.839 که قشر بینایی مانند تعدادی مدارات رایانهای عمل میکند 00:05:24.863 --> 00:05:27.609 که بصورت سری اطلاعات را از یکی به دیگری انتقال میدهد، 00:05:27.633 --> 00:05:29.235 در پایه صحیح بود. NOTE Paragraph 00:05:29.259 --> 00:05:31.609 بگذارید لحظهای در مورد 00:05:31.633 --> 00:05:35.665 روشی که برای پردازش اطلاعات تصویری نیاز داریم صحبت کنیم. 00:05:36.228 --> 00:05:38.969 وظیفه اصلی ادراک 00:05:38.993 --> 00:05:43.187 دریافت تصویری مثل این و بیان، 00:05:43.211 --> 00:05:44.387 « این پرنده است،» 00:05:44.411 --> 00:05:47.285 که واقعا موضوع سادهای برای مغز ماست. 00:05:47.309 --> 00:05:50.730 اما باید بدانید که برای یک رایانه، 00:05:50.754 --> 00:05:53.841 تا چند سال پیش تقریبا غیر ممکن بود. 00:05:53.865 --> 00:05:55.781 برای روش های سنتی رایانه 00:05:55.805 --> 00:05:58.312 انجام این کار ساده نیست. NOTE Paragraph 00:05:59.366 --> 00:06:01.918 اتفاقی که بین پیکسلهای تصویر، 00:06:01.942 --> 00:06:05.970 بین تصویر پرنده و کلمه «پرنده» اتفاق میافتد، 00:06:05.994 --> 00:06:08.808 اساسا دستهای از نورونهای متصل به هم است 00:06:08.832 --> 00:06:09.987 در یک شبکه عصبی، 00:06:10.011 --> 00:06:11.234 که اینجا درنمودار است. 00:06:11.258 --> 00:06:14.530 این شبکه عصبی میتواند از نوع زیستی و درون قشر بینایی ما باشد، 00:06:14.554 --> 00:06:16.716 یا، این روزها، ما شروع کردهایم تا 00:06:16.740 --> 00:06:19.194 این شبکه های عصبی را در رایانه مدل کنیم. 00:06:19.834 --> 00:06:22.187 و به شما نشان میدهم که واقعا شبیه چه است. NOTE Paragraph 00:06:22.211 --> 00:06:25.627 پس پیکسل ها که میتوانند ازدید شما اولین لایه عصبی باشند، 00:06:25.651 --> 00:06:27.890 و این در واقع، همانطوری است که چشم کار میکند -- 00:06:27.914 --> 00:06:29.577 که عصبهای شبکیه هستند. 00:06:29.601 --> 00:06:31.011 و آنهایی که مستقیما 00:06:31.011 --> 00:06:34.528 از یک لایه به لایه دیگرعصبی متصل میشوند، 00:06:34.552 --> 00:06:37.585 همگی از طریق سیناپسهایی با وزنهای مختلف متصل میشوند. 00:06:37.609 --> 00:06:38.944 رفتار این شبکه 00:06:38.968 --> 00:06:42.252 از طریق قدرت همه این سیناپسها مشخص میگردد. 00:06:42.276 --> 00:06:45.564 اینها رفتار محاسباتی شبکه را معین میکنند. 00:06:45.588 --> 00:06:47.058 و در پایان، 00:06:47.082 --> 00:06:49.529 عصب، یا گروه کوچکی از اعصاب را داری 00:06:49.553 --> 00:06:51.340 که مثلا، کلمه «پرنده» را روشن میکند. NOTE Paragraph 00:06:51.824 --> 00:06:54.956 حالا این سه موضوع را مدل میکنم -- 00:06:54.980 --> 00:06:59.676 پیکسلهای ورودی سیناپسهای شبکه عصبی، 00:06:59.700 --> 00:07:01.285 و خروجی پرنده -- 00:07:01.309 --> 00:07:04.366 با سه متغیر: X، W و Y. 00:07:04.853 --> 00:07:06.664 حدود یک میلیون X داریم -- 00:07:06.688 --> 00:07:08.641 یک میلیون پیکسل در تصویر. 00:07:08.665 --> 00:07:11.111 میلیاردها یا تریلیاردها W داریم، 00:07:11.135 --> 00:07:14.556 که نشان دهنده وزن این سیناپسها در شبکه عصبیاند. 00:07:14.580 --> 00:07:16.455 و تعداد بسیار کمی Y وجود دارد، 00:07:16.479 --> 00:07:18.337 که خروجیهای آن شبکهاند. 00:07:18.361 --> 00:07:20.110 کلمه «پرنده» چهار حرف دارد، درسته؟ 00:07:21.088 --> 00:07:24.514 حالا بگذارید فرض کنیم این فقط یک معادله ساده است، 00:07:24.538 --> 00:07:26.701 X ضربدر W میشود Y. 00:07:26.725 --> 00:07:28.761 من ضربدر را در گیومه گذاشتهام 00:07:28.785 --> 00:07:31.065 چون اتفاقی که واقعا میافته، 00:07:31.089 --> 00:07:34.135 مجموعه واقعا پیچیدهای از عملیات ریاضیه. NOTE Paragraph 00:07:35.172 --> 00:07:36.393 این یک معادله است، 00:07:36.417 --> 00:07:38.089 که سه متغیر داره. 00:07:38.113 --> 00:07:40.839 و همه ما میدانیم که اگه یک معادله داشته باشیم، 00:07:40.863 --> 00:07:44.505 میتوانیم یک متغیر را با دانستن دو متغیر دیگه بدست آوریم. 00:07:45.158 --> 00:07:48.538 پس در نتیجه، 00:07:48.562 --> 00:07:51.435 به این شکل، مشخص میشود که تصویر یک پرنده، پرنده است، 00:07:51.459 --> 00:07:52.733 این یکی: 00:07:52.757 --> 00:07:56.216 اینجاست که Y مجهوله و X و W معلوم. 00:07:56.240 --> 00:07:58.699 شبکه عصبی معلومه، پیکسلها معلومند. 00:07:58.723 --> 00:08:02.050 همونطور که میبینید، نسبتا یک مسئله سر راسته. 00:08:02.074 --> 00:08:04.260 دو رو ضربدر سه میکنی و تمومه. 00:08:04.862 --> 00:08:06.985 من یک شبکه عصبی مصنوعی رو نشونتون میدهم 00:08:07.009 --> 00:08:09.305 که اخیرا ساختیم که دقیقا همین کار رو میکنه. NOTE Paragraph 00:08:09.634 --> 00:08:12.494 این بصورت زنده کار میکنه روی یک گوشی موبایل، 00:08:12.518 --> 00:08:15.831 و البته این، خودش واقعا عالیه، 00:08:15.855 --> 00:08:19.323 اون تلفن همراه میتونه میلیونها و میلیاردها عملیات رو 00:08:19.347 --> 00:08:20.595 در ثانیه انجام بده. 00:08:20.619 --> 00:08:22.234 چیزی که میبینید تلفن هست 00:08:22.258 --> 00:08:25.805 به عکسهای پرندههای مختلف نگاه میکنه، 00:08:25.829 --> 00:08:28.544 و نه تنها میگه که « آره، این یک پرنده است»، 00:08:28.568 --> 00:08:31.979 بلکه نوع پرنده رو هم با شبکهای از این نوع تعیین میکنه. 00:08:32.890 --> 00:08:34.716 پس در این تصویر، 00:08:34.740 --> 00:08:38.542 X و W معلومند، و Y مجهول. 00:08:38.566 --> 00:08:41.074 معلومه که، من قسمت خیلی سخت رو مخفی کردم، 00:08:41.098 --> 00:08:44.959 که ما چطور W رو پیدا میکنیم، 00:08:44.983 --> 00:08:47.170 مغزی که این کارها رو میکنه؟ 00:08:47.194 --> 00:08:49.028 ما واقعا چطور این مدل رو پیدا میکنیم؟ NOTE Paragraph 00:08:49.418 --> 00:08:52.651 پس این مدل یادگیری برای W حل شده، 00:08:52.675 --> 00:08:55.322 اگه به شکل یک معادله ساده نگاهش کنیم 00:08:55.346 --> 00:08:57.346 که به اونها به شکل عدد نگاه میکنیم، 00:08:57.370 --> 00:09:00.057 معلومه که چکار میکنیم: ۶=۲xW ، 00:09:00.081 --> 00:09:03.393 خوب، به دو تقسیمش میکنیم و تمومه. 00:09:04.001 --> 00:09:06.221 مشکل این ضریبه، 00:09:06.823 --> 00:09:07.974 خوب، تقسیم -- 00:09:07.998 --> 00:09:11.119 ما از تقسیم استفاده میکنیم چون معکوس ضربه، 00:09:11.143 --> 00:09:12.583 اما همونطور که گفتم، 00:09:12.607 --> 00:09:15.056 ضرب واقعا حرف درستی نیست. 00:09:15.080 --> 00:09:18.406 این یک عملیات خیلی، خیلی پیچیده غیر خطیه؛ 00:09:18.430 --> 00:09:20.134 که معکوس نداره. 00:09:20.158 --> 00:09:23.308 پس باید راهی پیدا کنیم تا معادله رو حل کنیم 00:09:23.332 --> 00:09:25.356 بدون استفاده از تقسیم. 00:09:25.380 --> 00:09:27.723 و راه اون نسبتا سادهاست. 00:09:27.747 --> 00:09:30.418 کافیه فقط، از یک کلک جبر استفاده کنیم، 00:09:30.442 --> 00:09:33.348 و شش رو به سمت راست معادله ببریم. 00:09:33.372 --> 00:09:35.198 حالا، هنوز از ضرب استفاده میکنیم. 00:09:35.675 --> 00:09:39.255 و اون صفر --رو بگذارید به عنوان خطا در نظر بگیریم. 00:09:39.279 --> 00:09:41.894 به عبارت دیگر، اگر معادله را برای W به شکل صحیح حل کنیم، 00:09:41.894 --> 00:09:43.474 مقدار خطا صفر میشود. 00:09:43.498 --> 00:09:45.436 و اگر درست عمل نکنیم، 00:09:45.460 --> 00:09:47.209 مقدار خطا صفر نمیشود. NOTE Paragraph 00:09:47.233 --> 00:09:50.599 پس میتونیم حدس بزنیم تا مقدار خطا رو حداقل کنیم، 00:09:50.623 --> 00:09:53.310 و اینها کارهایی است که رایانهها در اون استادند. 00:09:53.334 --> 00:09:54.927 پس یه فرض اولیه میکنی: 00:09:54.951 --> 00:09:56.107 فرض کنیم W=0 ؟ 00:09:56.131 --> 00:09:57.371 پس خطا معادل ۶ است. 00:09:57.395 --> 00:09:58.921 پس اگه W=۱ بود چی؟ خطا ۴ میشود. 00:09:58.921 --> 00:10:01.232 و رایانه به شکلی مارکوپولو بازی میکنه، 00:10:01.256 --> 00:10:03.623 و مقدار خطا رو نزدیک به صفر کاهش میده. 00:10:03.647 --> 00:10:07.021 و به این شکل مقدار تقریبی W بدست میآید 00:10:07.045 --> 00:10:10.701 معمولا، هیچوقت دقیقا به آن نمی رسد، ولی بعد از نزدیک ده مرحله، 00:10:10.725 --> 00:10:15.349 ما به W=۲.۹۹ میرسیم، که به اندازه کافی مناسبه، 00:10:16.302 --> 00:10:18.116 و این مرحله یادگیریه. NOTE Paragraph 00:10:18.140 --> 00:10:20.870 خوب حالا اتفاقی که اینجا میافته 00:10:20.894 --> 00:10:25.272 اینه که تعداد زیادی X های معلوم و Yهای معلوم رو استفاده میکنیم 00:10:25.296 --> 00:10:28.750 و از روش تکرار W رو محاسبه میکنیم. 00:10:28.774 --> 00:10:32.330 این دقیقا همون روشیه که ما یادگیری رو انجام میدهیم. 00:10:32.354 --> 00:10:34.784 مثل نوزادان ، تعداد خیلی، خیلی زیادی تصویر میبینیم 00:10:34.784 --> 00:10:37.241 و بهشون میگیم، « این پرنده است؛ و این پرنده نیست.» 00:10:37.714 --> 00:10:39.812 و در طول زمان، از طریق تکرار، 00:10:39.836 --> 00:10:42.764 W را برای آن اتصالات عصبی بدست میاوریم. NOTE Paragraph 00:10:43.460 --> 00:10:47.546 پس حالا، ما برای بدست آوردن Y مقدارهای X و W رو ثابت نگاه داشتیم؛ 00:10:47.570 --> 00:10:49.417 و این ادراک سریع روزانهاست. 00:10:49.441 --> 00:10:51.204 فهمیدیم، که چطور W را محاسبه کنیم، 00:10:51.228 --> 00:10:53.131 این یادگیری، خیلی سخت تره، 00:10:53.155 --> 00:10:55.140 چون باید خطا رو حداقل کنیم، 00:10:55.164 --> 00:10:56.931 با استفاده از کلی نمونه برای یادگیری. NOTE Paragraph 00:10:56.931 --> 00:11:00.062 و حدود یک سال قبل، آلکس موردیوینسف، در تیم ما، 00:11:00.086 --> 00:11:03.636 تصمیم گرفت تا بررسی کنه چه اتفاقی میافته اگر اون رو برای X حل کنیم، 00:11:03.660 --> 00:11:05.697 اگه مقدار مشخصی برای W و Y داشته باشیم. 00:11:06.124 --> 00:11:07.275 به عبارت دیگر، 00:11:07.299 --> 00:11:08.701 میدونید که این یک پرنده است، 00:11:08.701 --> 00:11:11.978 شبکه عصبی که روی پرنده آموزش دیده رو دارید، 00:11:12.002 --> 00:11:14.346 چه تصویری از پرنده بدست میاد؟ 00:11:15.034 --> 00:11:20.058 معلوم شده که با استفاده از همون شیوه کمینه کردن خطا، 00:11:20.082 --> 00:11:23.512 میتونه با شبکهای که برای تشخیص پرنده آموزش دیده، 00:11:23.536 --> 00:11:26.924 و نتیجه اون معلوم شد که ... 00:11:30.400 --> 00:11:31.705 تصویر پرنده است. 00:11:32.814 --> 00:11:36.551 این تصویر پرندههاست که کاملا توسط یک شبکه عصبی ایجاد شده 00:11:36.575 --> 00:11:38.401 که برای تضخیص پرنده آموزش دیده، 00:11:38.425 --> 00:11:41.963 تنها با حل کردن آن برای X بجای Y، 00:11:41.987 --> 00:11:43.275 و تکرار اون. NOTE Paragraph 00:11:43.732 --> 00:11:45.579 این یک مثال سرگرم کننده دیگه است. 00:11:45.603 --> 00:11:49.040 این کاری است که توسط مایک تایکا در گروه ما انجام شده، 00:11:49.064 --> 00:11:51.372 که «رژه حیوانات» نامیده میشود. 00:11:51.396 --> 00:11:54.272 که من رو بیاد کارهای هنری ویلیام کنتریج میاندازه، 00:11:54.296 --> 00:11:56.785 که طراحی های دستی انجام میداده، 00:11:56.809 --> 00:11:58.569 طرح میکرده، و اونها رو محو میکرده، 00:11:58.569 --> 00:11:59.691 و با اون فیلم میساخته. 00:11:59.715 --> 00:12:00.866 در این حالت، 00:12:00.890 --> 00:12:04.167 کاری که مایک انجام میده تغییر Y در فضای حیوانات مختلف است، 00:12:04.191 --> 00:12:06.573 در شبکهای که برای تشخیص و تعیین 00:12:06.597 --> 00:12:08.407 حیولنات مختلف از همدیگر طراحی شده. 00:12:08.431 --> 00:12:12.272 و شما این تصاویر گرافیکی اشتر گونه که از حیوانی به دیگری تبدیل میشه رو میبینید. NOTE Paragraph 00:12:14.221 --> 00:12:18.835 اینجا او و الکس با هم سعی کردهاند 00:12:18.859 --> 00:12:21.618 تا Y ها رو به فضای دو بعدی تبدیل کنند، 00:12:21.642 --> 00:12:25.080 و اینطوری نقشهای از فضای همه چیزهایی بسازند 00:12:25.104 --> 00:12:26.823 که توسط این شبکه شناخته میشود. 00:12:26.847 --> 00:12:28.870 با انجام این تحلیل ها 00:12:28.894 --> 00:12:31.276 یا تولید تصویر در کل سطح، 00:12:31.300 --> 00:12:34.146 با تغییر Y روی سطح، یه نوع نقشه تولید میکنی -- 00:12:34.170 --> 00:12:37.311 یک نقشه تصویری از همه چیزهایی که شبکه میتونه تشخیص بده. 00:12:37.335 --> 00:12:40.200 همه حیوانات اینجا هستند؛ «گورکن» درست اونجاست. NOTE Paragraph 00:12:40.919 --> 00:12:43.398 اینکار رو میتونی با انواع دیگر شبکه انجام بدی. 00:12:43.422 --> 00:12:46.296 این شبکهای است که برای تشخیص چهره طراحی شده، 00:12:46.320 --> 00:12:48.320 برای تشخیص یک صورت از صورت دیگر. 00:12:48.344 --> 00:12:51.593 و اینجا، در Y، ما مقداری رو میگذاریم که بیانگر «من» هست، 00:12:51.617 --> 00:12:53.192 مقادیر صورت خودم. 00:12:53.216 --> 00:12:54.922 و اگه معادله رو برای X حل کنیم، 00:12:54.946 --> 00:12:57.564 این چیز عجیب، 00:12:57.588 --> 00:13:02.016 تصویر روانپریشی از من، شبیه سبک کوبیسم، سور رئال 00:13:02.040 --> 00:13:03.846 از چند زاویه دید همزمان. 00:13:03.870 --> 00:13:06.604 دلیل اینکه تصویر از چند زاویه دید همزمان تولید شده 00:13:06.628 --> 00:13:10.315 اینه که شبکه برای این طراحی شده 00:13:10.339 --> 00:13:12.815 تا تغییر وضعیت صورت مبهم نباشه، 00:13:12.839 --> 00:13:16.215 یا اگر به اون با نورهای مختلف نگاه بشه. 00:13:16.239 --> 00:13:18.324 پس وقتی این بازسازی ها رو انجام بدهی، 00:13:18.348 --> 00:13:20.652 اگر یک تصویر راهنما نداشته باشی، 00:13:20.676 --> 00:13:21.887 یا اطلاعات اولیه، 00:13:21.911 --> 00:13:25.676 ترکیبی از زوایای دید مختلف بدست میآوری، 00:13:25.700 --> 00:13:27.068 چون مبهمه. 00:13:27.786 --> 00:13:32.009 این نتیجهای است که آلکس وقتی از تصویر صورت خودش به عنوان راهنما 00:13:32.033 --> 00:13:35.354 در فرایند بهینه سازی برای ایجاد صورت من استفاده کرده. 00:13:36.284 --> 00:13:38.612 به نظر عالی نیست. 00:13:38.636 --> 00:13:40.510 هنوز باید کارهای زیادی 00:13:40.534 --> 00:13:42.987 در بهینه سازی و روشهای آن انجام شود. 00:13:43.011 --> 00:13:45.838 اما شروع کردهایم تا چیزی شبیه به صورتی منسجم بدست آوریم ، 00:13:45.862 --> 00:13:47.876 که از صورت من به عنوان مبنا استفاده کرده. NOTE Paragraph 00:13:48.892 --> 00:13:51.393 نیاز نیست تا از یک صفحه خالی شروع کنی 00:13:51.417 --> 00:13:52.573 یا از نویز سفید. 00:13:52.597 --> 00:13:53.961 اگر معادله را برای X حل کنی، 00:13:53.961 --> 00:13:57.814 می تونی با یک X شروع کنی، که خودش تصویر دیگری است. 00:13:57.838 --> 00:14:00.394 که همین نمونهایست که میبینید. 00:14:00.418 --> 00:14:04.540 این شبکهای است که طراحی شده 00:14:04.564 --> 00:14:07.813 تا تمامی انواع اشیاء را طبقه بندی کند -- ساختههای انسان، حیوانات ... 00:14:07.813 --> 00:14:10.300 اینجا با تصویری از ابر شروع میکنیم، 00:14:10.324 --> 00:14:11.995 و همونطور که بهنینه سازی میکنیم. 00:14:12.019 --> 00:14:16.505 اساسا، این شبکه چیزی را که در ابرها میبیند را پیدا میکند. 00:14:16.931 --> 00:14:19.251 و هرچه بیشتر روی آن وقت بگذاری، 00:14:19.275 --> 00:14:22.028 چیزهای بیشتری در آن میبینی. 00:14:23.004 --> 00:14:26.379 میتوان از شبکه عصبی تشخیص صورت برای خبال پردازی در آن استفاده کرد، 00:14:26.403 --> 00:14:28.215 و چیزهای عجیب و غریب زیادی میبینی. NOTE Paragraph 00:14:28.239 --> 00:14:29.389 ( خنده حضار ) NOTE Paragraph 00:14:30.401 --> 00:14:33.145 یا، مایک آزمایشهای دیگری انجام داده 00:14:33.169 --> 00:14:37.074 که در آن عکسهای ابر را گرفته، 00:14:37.098 --> 00:14:40.605 خیال پردازی، بزرگ نمایی، خیال پردازی، بزرک نمایی. 00:14:40.629 --> 00:14:41.780 و به این شکل، 00:14:41.804 --> 00:14:45.479 به نظرم، به شکلی در یک وضعیت گیجی شبکه قرار میگیری ، 00:14:45.503 --> 00:14:49.183 یا نوعی از ترکیبهای آزاد، 00:14:49.207 --> 00:14:51.434 که در آن شبکه دم خودش را میخورد. 00:14:51.458 --> 00:14:54.879 پس هر تصویر حالا پایهای برای، 00:14:54.903 --> 00:14:56.324 « فکر میکنم بعدی چیه؟ 00:14:56.348 --> 00:14:59.151 فکر میکنم بعدی چیه؟ فکر میکنم بعدی چیه؟» خواهد بود NOTE Paragraph 00:14:59.487 --> 00:15:02.423 اولین باری که برای عموم 00:15:02.447 --> 00:15:07.884 و گروهی به نام «تحصیلات عالی» در سیاتل این را نشان دادم -- 00:15:07.908 --> 00:15:10.345 درست وقتی بود که ماریجوانا قانونی شد. NOTE Paragraph 00:15:10.369 --> 00:15:12.784 ( خنده حضار ) NOTE Paragraph 00:15:14.627 --> 00:15:16.731 خوب باید زودتر جمع بندی کنم 00:15:16.755 --> 00:15:21.010 با اشاره به اینکه این فناوری هنوز محدود نشده. 00:15:21.034 --> 00:15:24.699 من تنها مثالهای کاملا تصویری آن را نشان دادم چون دیدنشان لذت بخش است. 00:15:24.723 --> 00:15:27.174 ولی این تنها یک فناوری تصویری نیست. 00:15:27.198 --> 00:15:29.191 همکار هنری ما، راس گودوین، 00:15:29.215 --> 00:15:32.886 آزمایشهایی انجام داده که در آن دوربینی عکس می گیرد، 00:15:32.910 --> 00:15:37.144 و رایانهای که در کوله پشتیاش است در موردش با شبکه عصبی شعری میگوید، 00:15:37.168 --> 00:15:39.112 با توجه به محتویات تصویر. 00:15:39.136 --> 00:15:42.083 و این شبکه عصبی شاعر روی 00:15:42.107 --> 00:15:44.341 مجموعه بزرگی از اشعار قرن بیستم آموزش دیده. 00:15:44.365 --> 00:15:45.864 و به نظر من اشعارش، 00:15:45.888 --> 00:15:47.802 واقعا، خیلی هم بد نیست. NOTE Paragraph 00:15:47.826 --> 00:15:49.210 ( خنده حضار ) NOTE Paragraph 00:15:49.234 --> 00:15:50.393 در خاتمه، 00:15:50.417 --> 00:15:52.549 فکر کنم میکل آنژ، 00:15:52.573 --> 00:15:53.807 درست میگفت که؛ 00:15:53.831 --> 00:15:57.267 ادراک و خلاقیت ذاتا بسیار به هم نزدیکند. 00:15:57.611 --> 00:16:00.245 چیزهایی که دیدیم شبکه های عصبیاند 00:16:00.269 --> 00:16:02.572 که تنها آموزش دیدهاند تا تشخیص دهند، 00:16:02.596 --> 00:16:04.838 یا چیزهای متفاوتی را در دنیا بشناسند، 00:16:04.862 --> 00:16:08.023 و میتوانند معکوس عمل کنند و تولید کنند. 00:16:08.047 --> 00:16:09.830 یکی از چیزهایی که به نظرم میرسد 00:16:09.854 --> 00:16:12.252 این است که تنها میکل آنژ نیست 00:16:12.276 --> 00:16:14.728 که مجسمهای در قطعهای سنگ میبیند، 00:16:14.752 --> 00:16:18.390 بلکه هر مخلوقی، هر موجودی، هر موجود فرازمینی 00:16:18.414 --> 00:16:22.071 که بتواند گونه ای از فعالیتی ادراکی داشته باشد 00:16:22.095 --> 00:16:23.480 هم میتواند خلاقیت داشته باشد 00:16:23.500 --> 00:16:26.718 چون واقعا یک دستگاه هر دو کار را انجام میدهد. NOTE Paragraph 00:16:26.742 --> 00:16:31.274 همچنین، به نظر من ادراک و خلاقیت به هیچ وجه 00:16:31.298 --> 00:16:32.508 تنها مختص انسان نیستند. 00:16:32.532 --> 00:16:36.240 مدلهای رایانهای را میبینیم که دقیقا اینگونه کارها را انجام میدهند. 00:16:36.264 --> 00:16:39.592 و نباید تعجب کرد؛ چون مغز هم محاسباتی است. NOTE Paragraph 00:16:39.616 --> 00:16:41.273 و در پایان، 00:16:41.297 --> 00:16:45.965 برنامه ریزی رایانه شروع به طراحی دستگاههای هوشمند کرده است. 00:16:45.989 --> 00:16:48.451 وساخت آن قطعا پس از این نظر 00:16:48.475 --> 00:16:51.488 که چطور میتوانیم دستگاهها را هوشمند کنیم انجام شده. 00:16:51.512 --> 00:16:53.674 و نهایتا حالا شروع به انجام آن کردهایم 00:16:53.698 --> 00:16:56.104 بعضی از وعدههای این پیشگامان، 00:16:56.128 --> 00:16:57.841 تورینگ و فون نومان 00:16:57.865 --> 00:17:00.130 و مک کولچ و پیت. 00:17:00.154 --> 00:17:04.252 و از دید من رایانه تنها برای حسابداری 00:17:04.276 --> 00:17:06.423 یا بازی کندیکراش و این چیزها نیست. 00:17:06.447 --> 00:17:09.025 از آغاز آنها را بر مبنای ذهنمان ساخته ایم. 00:17:09.049 --> 00:17:12.318 و به ما این امکان را دادند تا ذهنمان را بهتربشناسیم 00:17:12.342 --> 00:17:13.871 و توسعه دهیم. NOTE Paragraph 00:17:14.627 --> 00:17:15.794 خیلی از شما متشکرم. NOTE Paragraph 00:17:15.818 --> 00:17:21.757 ( تشویق حضار )