من مدیر گروهی در گوگل هستم
که در مورد هوش مصنوعی کار میکند؛
به عبارت دیگر، راهکارهای مهندسی
برای اینکه رایانهها و دستگاه ها
بتوانند بعضی از کارهای مغز رو انجام بدهند.
و این ما رو به مغز و همچنین
علوم اعصاب علاقهمند میکند،
و خصوصا به کارهایی که مغزمان انجام میدهد
که همچنان بسیار فراتر
از کارایی رایانههاست.
از دیدگاه تاریخی، یکی از این حوزهها
ادراک بوده است،
فرایندی که درآن چیزهای دنیای بیرون --
اصوات و تصاویر --
میتوانند به موضوعاتی ذهنی تبدیل شوند.
این برای مغز ما اساسی است،
و همچنین بسیار مفید در یک رایانه.
برای مثال، آلگوریتمهای ادراک ماشینی،
که گروه ما تولید میکنند،
چیزی است که تصاویر شما
در گوگل فوتو را قابل جستجو میکنند،
با توجه به چیزهایی که در آنهاست.
روی دیگر ادراک خلاقیت است:
تبدیل موضوع به چیزی آنجا در جهان.
در سال گذشته،
کار ما در ادراک ماشین
به شکلی غیر منتظره با
دنیای خلاقیت ماشینی مرتبط شد
و هنر ماشینی.
به نظر من میکلآنژ دیدگاه عمیقی
در ارتباط دوگانه میان
ادراک و خلاقیت داشت.
این گفته مشهوری از اوست:
«هر قطعه سنگی شرایط خاص خود را دارد،
و وظیفه مجسمهساز کشف آن است.»
به نظر من آنچه میکلآنژعنوان میکند
این است که خلاقیت ما از راه ادراک است،
و اینکه خود ادراک، ناشی از تصور است
که ماده اولیه خلاقیت است.
عضوی که تمامی تفکر و ادراک و تصور را
بر عهده دارد،
مسلما، مغز است.
و میخواهم تا تاریخچه مختصری
از آنچه در باره مغز میدانیم بگویم.
چون برخلاف، مثلا،
قلب یا رودهها،
خیلی از اعمال مغزرا با تنها نگاه کردن
به آن نمیفهمی،
حداقل با چشم معمولی.
اولین کالبد شناسانی
که به مغز توجه کردند
انواع اسمهای عجیب و غریب را
به ساختارهای سطحی آن دادند،
مثل هیپوکمپوس، یعنی «میگوی کوچک».
ولی البته این چیزها توضیح زیادی
از آنچه واقعا در درون آن
اتفاق میافتد نمی دهد.
اولین کسی که، به نظرم، واقعا
یک بررسی از آنچه
واقعا در مغز اتفاق میافتد انجام داد
عصب شناس بزرگ اسپانیایی،
سانتیاگو رامون ای کاخال بود،
در قرن ۱۹،
که از میکروسکوپ و رنگ آمیزی
خاصی استفاده کرد
که به انتخاب میتوانست با تضاد رنگ خوبی
هر سلول مغز را پر یا روکش کند،
تا بتواند شروع به درک کارایی ظاهری آن کند.
و اینها طراحیهایی است
که او از نورونها ساخته
در قرن ۱۹ میلادی.
این از مغز یک پرنده است.
و اینجا انواع بسیار مختلفی از سلولها
را میبینید،
حتی خود نظریه سلولی
در این زمان بسیار جدید بود.
و این ساختارها،
این سلولها که دارای ارایش درختی هستند،
این شاخهها که میتوانند
تا فاصلههای بسیار زیاد بروند --
در آن زمان بسیار جدید بودند.
درست مثل سیم کشی میمانند.
و برای بعضی ها در قرن ۱۹ خیلی بدیهی بود؛
انقلاب الکتریسیته
و سیم کشی تازه شروع شده بود.
اما از خیلی جنبهها،
این ریز طراحیهای تشریحی
توسط رامون ای کاخال، مثل این،
همچنان در نوع خود بینظیرند.
هنوز بعد از یک قرن،
میخواهیم کاری که رامون ای کاخال
شروع کرده را تمام کنیم.
این ها اطلاعات خامی هستند
که همکارانمان
در انستیتو عصب شناسی ماکس پلانک
تهیه کرده اند.
و کاری که همکارانمان انجام دادهاند
تصویربرداری از بافت کوچکی از مغز است.
کل نمونه در اندازه یک میلیمتر مکعب است.
و من بخش خیلی خیلی کوچکی
از آن را به شما نشان میدهم.
آن میله در چپ اندازه یک میکرون است.
ساختاری که میبینید یک میتوکندری است
که به اندازه یک باکتری آست.
و اینها برشهای پشت هم هستند
در این بخش بسیار بسیار کوچک بافت.
تنها برای مقایسه،
قطر یک تار مو حدود ۱۰۰ میکرون است.
پس ما به چیزهایی خیلی، خیلی کوچکتر
از یک تار مو نگاه میکنیم.
و با استفاده از این نوع
برشهای میکروسکوپ الکترونی،
میتوان نورونهای
سه بعدی مثل این را بازسازی کرد.
پس اینها به شکلی مشابه
کارهای رامون ای کاخال است.
فقط چند نورون مشخص شدهاند،
چون در غیر این صورت نمیتوانستیم
چیزی را ببینیم.
چون آنقدر شلوغ،
و پر از ساختارهای،
ارتباطی از یک نورون به دیگری بود.
پس رامون ای کاخال
از زمانهاش کمی جلوتر بود،
و پیشرفت در فهمیدن مغز
در چند دهه بعد به کندی پیش میرفت.
ما میدانستیم که نورونها
از الکتریسیته استفاده میکنند،
تا زمان جنگ جهانی دوم،
فناوری ما به اندازهای پیشرفت کرد
تا شروع به آزمایش های الکتریکی
روی نورونهای زنده کنیم
تا درک بهتری از کارکردشان داشته باشیم.
و این همان وقتی بود
که رایانهها اختراع شدند،
کاملا بر مبنای ایده و الگو سازی از مغز --
«ماشینهای هوشمندی»
که آلن تورینگ نام گذاری کرده بود،
یکی از پدران علوم رایانه.
وارن مک کلوچ و والتر پیتس
به طرح های رامون ای کاخال
از قشر بینایی نگاه کردند،
که اینجا نشان میدهم.
این قشری است که تصاویری که
از چشم میآید را پردازش میکند.
و از نظر آنها، مثل مدارات الکتریکی بود.
در نتیجه جزئیات زیادی
در مدارات مک کلوچ و پیتس وجود دارند
که کاملا درست نیستند.
اما این ایده اولیه
که قشر بینایی مانند تعدادی
مدارات رایانهای عمل میکند
که بصورت سری اطلاعات را
از یکی به دیگری انتقال میدهد،
در پایه صحیح بود.
بگذارید لحظهای در مورد
روشی که برای پردازش اطلاعات تصویری
نیاز داریم صحبت کنیم.
وظیفه اصلی ادراک
دریافت تصویری مثل این و بیان،
« این پرنده است،»
که واقعا موضوع سادهای برای مغز ماست.
اما باید بدانید که برای یک رایانه،
تا چند سال پیش تقریبا غیر ممکن بود.
برای روش های سنتی رایانه
انجام این کار ساده نیست.
اتفاقی که بین پیکسلهای تصویر،
بین تصویر پرنده
و کلمه «پرنده» اتفاق میافتد،
اساسا دستهای از نورونهای متصل به هم است
در یک شبکه عصبی،
که اینجا درنمودار است.
این شبکه عصبی میتواند از نوع زیستی
و درون قشر بینایی ما باشد،
یا، این روزها، ما شروع کردهایم تا
این شبکه های عصبی را در رایانه مدل کنیم.
و به شما نشان میدهم که واقعا شبیه چه است.
پس پیکسل ها که میتوانند ازدید شما
اولین لایه عصبی باشند،
و این در واقع،
همانطوری است که چشم کار میکند --
که عصبهای شبکیه هستند.
و آنهایی که مستقیما
از یک لایه به لایه دیگرعصبی
متصل میشوند،
همگی از طریق سیناپسهایی
با وزنهای مختلف متصل میشوند.
رفتار این شبکه
از طریق قدرت همه این سیناپسها
مشخص میگردد.
اینها رفتار محاسباتی شبکه را معین میکنند.
و در پایان،
عصب، یا گروه کوچکی از اعصاب را داری
که مثلا، کلمه «پرنده» را روشن میکند.
حالا این سه موضوع را مدل میکنم --
پیکسلهای ورودی سیناپسهای شبکه عصبی،
و خروجی پرنده --
با سه متغیر: X، W و Y.
حدود یک میلیون X داریم --
یک میلیون پیکسل در تصویر.
میلیاردها یا تریلیاردها W داریم،
که نشان دهنده وزن این سیناپسها
در شبکه عصبیاند.
و تعداد بسیار کمی Y وجود دارد،
که خروجیهای آن شبکهاند.
کلمه «پرنده» چهار حرف دارد، درسته؟
حالا بگذارید فرض کنیم این
فقط یک معادله ساده است،
X ضربدر W میشود Y.
من ضربدر را در گیومه گذاشتهام
چون اتفاقی که واقعا میافته،
مجموعه واقعا پیچیدهای از عملیات ریاضیه.
این یک معادله است،
که سه متغیر داره.
و همه ما میدانیم که
اگه یک معادله داشته باشیم،
میتوانیم یک متغیر را با دانستن
دو متغیر دیگه بدست آوریم.
پس در نتیجه،
به این شکل، مشخص میشود که
تصویر یک پرنده، پرنده است،
این یکی:
اینجاست که Y مجهوله
و X و W معلوم.
شبکه عصبی معلومه،
پیکسلها معلومند.
همونطور که میبینید، نسبتا یک
مسئله سر راسته.
دو رو ضربدر سه میکنی و تمومه.
من یک شبکه عصبی مصنوعی رو نشونتون میدهم
که اخیرا ساختیم
که دقیقا همین کار رو میکنه.
این بصورت زنده کار میکنه
روی یک گوشی موبایل،
و البته این،
خودش واقعا عالیه،
اون تلفن همراه میتونه میلیونها و
میلیاردها عملیات رو
در ثانیه انجام بده.
چیزی که میبینید تلفن هست
به عکسهای پرندههای مختلف نگاه میکنه،
و نه تنها میگه که
« آره، این یک پرنده است»،
بلکه نوع پرنده رو هم
با شبکهای از این نوع تعیین میکنه.
پس در این تصویر،
X و W معلومند،
و Y مجهول.
معلومه که، من قسمت خیلی سخت رو مخفی کردم،
که ما چطور W رو پیدا میکنیم،
مغزی که این کارها رو میکنه؟
ما واقعا چطور این مدل رو پیدا میکنیم؟
پس این مدل یادگیری برای W حل شده،
اگه به شکل یک معادله ساده نگاهش کنیم
که به اونها به شکل عدد نگاه میکنیم،
معلومه که چکار میکنیم: ۶=۲xW ،
خوب، به دو تقسیمش میکنیم و تمومه.
مشکل این ضریبه،
خوب، تقسیم --
ما از تقسیم استفاده میکنیم چون
معکوس ضربه،
اما همونطور که گفتم،
ضرب واقعا حرف درستی نیست.
این یک عملیات خیلی، خیلی پیچیده غیر خطیه؛
که معکوس نداره.
پس باید راهی پیدا کنیم تا
معادله رو حل کنیم
بدون استفاده از تقسیم.
و راه اون نسبتا سادهاست.
کافیه فقط، از یک کلک جبر استفاده کنیم،
و شش رو به سمت راست معادله ببریم.
حالا، هنوز از ضرب استفاده میکنیم.
و اون صفر --رو بگذارید
به عنوان خطا در نظر بگیریم.
به عبارت دیگر، اگر معادله
را برای W به شکل صحیح حل کنیم،
مقدار خطا صفر میشود.
و اگر درست عمل نکنیم،
مقدار خطا صفر نمیشود.
پس میتونیم حدس بزنیم
تا مقدار خطا رو حداقل کنیم،
و اینها کارهایی است که رایانهها
در اون استادند.
پس یه فرض اولیه میکنی:
فرض کنیم W=0 ؟
پس خطا معادل ۶ است.
پس اگه W=۱ بود چی؟ خطا ۴ میشود.
و رایانه به شکلی مارکوپولو بازی میکنه،
و مقدار خطا رو نزدیک به صفر کاهش میده.
و به این شکل مقدار تقریبی W بدست میآید
معمولا، هیچوقت دقیقا به آن نمی رسد،
ولی بعد از نزدیک ده مرحله،
ما به W=۲.۹۹ میرسیم،
که به اندازه کافی مناسبه،
و این مرحله یادگیریه.
خوب حالا اتفاقی که اینجا میافته
اینه که تعداد زیادی X های معلوم
و Yهای معلوم رو استفاده میکنیم
و از روش تکرار W رو
محاسبه میکنیم.
این دقیقا همون روشیه
که ما یادگیری رو انجام میدهیم.
مثل نوزادان ، تعداد خیلی، خیلی زیادی
تصویر میبینیم
و بهشون میگیم، « این پرنده است؛
و این پرنده نیست.»
و در طول زمان، از طریق تکرار،
W را برای آن اتصالات عصبی بدست میاوریم.
پس حالا، ما برای بدست آوردن
Y مقدارهای X و W رو ثابت نگاه داشتیم؛
و این ادراک سریع روزانهاست.
فهمیدیم، که چطور W را محاسبه کنیم،
این یادگیری، خیلی سخت تره،
چون باید خطا رو حداقل کنیم،
با استفاده از کلی نمونه برای یادگیری.
و حدود یک سال قبل،
آلکس موردیوینسف، در تیم ما،
تصمیم گرفت تا بررسی کنه چه اتفاقی میافته
اگر اون رو برای X حل کنیم،
اگه مقدار مشخصی برای W و Y داشته باشیم.
به عبارت دیگر،
میدونید که این یک پرنده است،
شبکه عصبی که
روی پرنده آموزش دیده رو دارید،
چه تصویری از پرنده بدست میاد؟
معلوم شده که با استفاده از
همون شیوه کمینه کردن خطا،
میتونه با شبکهای که
برای تشخیص پرنده آموزش دیده،
و نتیجه اون معلوم شد که ...
تصویر پرنده است.
این تصویر پرندههاست که کاملا توسط
یک شبکه عصبی ایجاد شده
که برای تضخیص پرنده آموزش دیده،
تنها با حل کردن آن برای X بجای Y،
و تکرار اون.
این یک مثال سرگرم کننده دیگه است.
این کاری است که توسط مایک تایکا
در گروه ما انجام شده،
که «رژه حیوانات» نامیده میشود.
که من رو بیاد کارهای هنری
ویلیام کنتریج میاندازه،
که طراحی های دستی انجام میداده،
طرح میکرده، و اونها رو محو میکرده،
و با اون فیلم میساخته.
در این حالت،
کاری که مایک انجام میده
تغییر Y در فضای حیوانات مختلف است،
در شبکهای که برای تشخیص و تعیین
حیولنات مختلف از همدیگر طراحی شده.
و شما این تصاویر گرافیکی اشتر گونه که از
حیوانی به دیگری تبدیل میشه رو میبینید.
اینجا او و الکس با هم سعی کردهاند
تا Y ها رو به فضای دو بعدی تبدیل کنند،
و اینطوری نقشهای از فضای
همه چیزهایی بسازند
که توسط این شبکه شناخته میشود.
با انجام این تحلیل ها
یا تولید تصویر در کل سطح،
با تغییر Y روی سطح،
یه نوع نقشه تولید میکنی --
یک نقشه تصویری از همه چیزهایی
که شبکه میتونه تشخیص بده.
همه حیوانات اینجا هستند؛
«گورکن» درست اونجاست.
اینکار رو میتونی
با انواع دیگر شبکه انجام بدی.
این شبکهای است که برای تشخیص
چهره طراحی شده،
برای تشخیص یک صورت از صورت دیگر.
و اینجا، در Y، ما مقداری رو میگذاریم
که بیانگر «من» هست،
مقادیر صورت خودم.
و اگه معادله رو برای X حل کنیم،
این چیز عجیب،
تصویر روانپریشی از من،
شبیه سبک کوبیسم، سور رئال
از چند زاویه دید همزمان.
دلیل اینکه تصویر از چند زاویه دید همزمان
تولید شده
اینه که شبکه برای این طراحی شده
تا تغییر وضعیت صورت مبهم نباشه،
یا اگر به اون با نورهای مختلف نگاه بشه.
پس وقتی این بازسازی ها رو انجام بدهی،
اگر یک تصویر راهنما نداشته باشی،
یا اطلاعات اولیه،
ترکیبی از زوایای دید مختلف بدست میآوری،
چون مبهمه.
این نتیجهای است که آلکس وقتی از تصویر
صورت خودش به عنوان راهنما
در فرایند بهینه سازی
برای ایجاد صورت من استفاده کرده.
به نظر عالی نیست.
هنوز باید کارهای زیادی
در بهینه سازی و روشهای آن
انجام شود.
اما شروع کردهایم تا چیزی
شبیه به صورتی منسجم بدست آوریم ،
که از صورت من به عنوان مبنا استفاده کرده.
نیاز نیست تا از یک صفحه خالی شروع کنی
یا از نویز سفید.
اگر معادله را برای X حل کنی،
می تونی با یک X شروع کنی،
که خودش تصویر دیگری است.
که همین نمونهایست که میبینید.
این شبکهای است که طراحی شده
تا تمامی انواع اشیاء را طبقه بندی کند --
ساختههای انسان، حیوانات ...
اینجا با تصویری از ابر شروع میکنیم،
و همونطور که بهنینه سازی میکنیم.
اساسا، این شبکه چیزی را
که در ابرها میبیند را پیدا میکند.
و هرچه بیشتر روی آن وقت بگذاری،
چیزهای بیشتری در آن میبینی.
میتوان از شبکه عصبی تشخیص صورت
برای خبال پردازی در آن استفاده کرد،
و چیزهای عجیب و غریب زیادی میبینی.
( خنده حضار )
یا، مایک آزمایشهای دیگری انجام داده
که در آن عکسهای ابر را گرفته،
خیال پردازی، بزرگ نمایی، خیال پردازی،
بزرک نمایی.
و به این شکل،
به نظرم، به شکلی
در یک وضعیت گیجی شبکه قرار میگیری ،
یا نوعی از ترکیبهای آزاد،
که در آن شبکه دم خودش را میخورد.
پس هر تصویر حالا پایهای برای،
« فکر میکنم بعدی چیه؟
فکر میکنم بعدی چیه؟
فکر میکنم بعدی چیه؟» خواهد بود
اولین باری که برای عموم
و گروهی به نام «تحصیلات عالی»
در سیاتل این را نشان دادم --
درست وقتی بود که ماریجوانا قانونی شد.
( خنده حضار )
خوب باید زودتر جمع بندی کنم
با اشاره به اینکه
این فناوری هنوز محدود نشده.
من تنها مثالهای کاملا تصویری
آن را نشان دادم چون دیدنشان لذت بخش است.
ولی این تنها یک فناوری تصویری نیست.
همکار هنری ما، راس گودوین،
آزمایشهایی انجام داده که در آن
دوربینی عکس می گیرد،
و رایانهای که در کوله پشتیاش است
در موردش با شبکه عصبی شعری میگوید،
با توجه به محتویات تصویر.
و این شبکه عصبی شاعر روی
مجموعه بزرگی
از اشعار قرن بیستم آموزش دیده.
و به نظر من اشعارش،
واقعا، خیلی هم بد نیست.
( خنده حضار )
در خاتمه،
فکر کنم میکل آنژ،
درست میگفت که؛
ادراک و خلاقیت
ذاتا بسیار به هم نزدیکند.
چیزهایی که دیدیم شبکه های عصبیاند
که تنها آموزش دیدهاند تا تشخیص دهند،
یا چیزهای متفاوتی را در دنیا بشناسند،
و میتوانند معکوس عمل کنند و تولید کنند.
یکی از چیزهایی که به نظرم میرسد
این است که تنها میکل آنژ نیست
که مجسمهای در قطعهای سنگ میبیند،
بلکه هر مخلوقی، هر موجودی،
هر موجود فرازمینی
که بتواند گونه ای از
فعالیتی ادراکی داشته باشد
هم میتواند خلاقیت داشته باشد
چون واقعا یک دستگاه
هر دو کار را انجام میدهد.
همچنین، به نظر من
ادراک و خلاقیت به هیچ وجه
تنها مختص انسان نیستند.
مدلهای رایانهای را میبینیم
که دقیقا اینگونه کارها را انجام میدهند.
و نباید تعجب کرد؛
چون مغز هم محاسباتی است.
و در پایان،
برنامه ریزی رایانه شروع به
طراحی دستگاههای هوشمند کرده است.
وساخت آن قطعا پس از این نظر
که چطور میتوانیم
دستگاهها را هوشمند کنیم انجام شده.
و نهایتا حالا شروع به انجام آن کردهایم
بعضی از وعدههای
این پیشگامان،
تورینگ و فون نومان
و مک کولچ و پیت.
و از دید من رایانه تنها برای حسابداری
یا بازی کندیکراش و این چیزها نیست.
از آغاز آنها را
بر مبنای ذهنمان ساخته ایم.
و به ما این امکان را دادند
تا ذهنمان را بهتربشناسیم
و توسعه دهیم.
خیلی از شما متشکرم.
( تشویق حضار )