Дозвольте вам дещо показати.
(Відео) Дівчинка: Так, це кіт,
який сидить на ліжку.
Хлопчик гладить слона.
Ті люди сідають в літак.
Літак дуже великий.
Фей-Фей Лі: Це трирічна дитина,
яка описує те,
що бачить на фотографіях.
Ще багато чого їй треба
вивчити про цей світ,
проте вже зараз їй під силу
одне дуже важливе завдання:
вона розуміє, що вона бачить.
Наше суспільство найбільш технологічно
розвинене, ніж будь-коли.
Ми відправляємо людей на місяць,
ми створюємо телефони, які говорять,
ми налаштовуємо радіостанції так,
щоб вони грали лише нашу улюблену музику.
Проте наші найбільш передові
механізми і комп'ютери
все ще не можуть впоратися
з цим завданням.
Сьогодні я тут, щоб розповісти вам
про найостанніші досягнення
у наших дослідженнях
комп'ютерного розпізнавання об'єктів,
однієї з найбільш передових
і потенційно революційних
технологій в комп'ютерній науці.
Так, ми розробили прототипи машин,
які можуть самостійно рухатися,
але без розумного розпізнавання,
для них не буде різниці
між зім'ятим пакетом на дорозі,
по якому можна проїхати,
і камінням такого розміру,
що його краще об'їхати.
Ми створили неймовірні
мегапіксельні фотокамери,
але ми не навчили сліпих бачити.
Безпілотні літаки можуть літати
на величезні відстані, але не мають
достатніх
розпізнавальних технологій,
щоб допомогти нам прослідкувати
за змінами в тропічних лісах.
Ми скрізь маємо камери
відеоспостереження,
але вони не попереджають нас,
коли дитина тоне в басейні.
Фото та відео стали
невід'ємними частинами глобального життя.
Вони накопичуються з такою швидкістю,
що людина або група людей
не можуть навіть сподіватися на те,
щоб переглянути їх усі,
і ми з вами робимо свій внесок
у це на TED сьогодні.
Проте наші найпередовіші програми
все ще намагаються навчитися
керувати цією численною
базою даних.
Іншими словами,
ми всі як суспільство
залишаємося достатньо сліпими,
оскільки наші найрозумніші машини
все ще сліпі.
Ви можете запитати:
"Чому це так важко?"
Камери роблять знімки,
такі як ось цей,
шляхом перетворення світла
на двовимірну сукупність цифр,
відомих як пікселі,
але це лише мертві цифри.
Вони самі по собі не несуть значення.
Так само, як слухати
не одне й те саме, що чути,
робити фото не одне й те саме,
що бачити,
а під баченням ми маємо на увазі
розуміння.
Насправді, матері природі
знадобилося 540 млн. років важкої роботи,
щоб впоратися з цим завданням,
і більшість з її зусиль
було спрямовано на розвиток в нашому мозку
органу з обробки візуальної інформації,
і це не лише очі.
Бачення розпочинається з очей,
але насправді відбувається в мозку.
Вже 15 років, починаючи з
отримання докторського ступеня в Калтех
і потім, очоливши
Стенфордську лабораторію Vision Lab,
я працюю з моїми наставниками,
співробітниками і студентами,
щоб навчити комп'ютери бачити.
Наша сфера дослідження називається
комп'ютерне бачення
та машинне навчання, що є складовою
частиною сфери штучного інтелекту.
Тож, в кінцевому рахунку, ми хочемо
навчити машини бачити так само, як ми:
називати об'єкти, розпізнавати людей,
виводити 3D геометрію речей,
розуміти стосунки, емоції,
дії та наміри.
Ми з вами складаємо
цілі історії про людей, місця та речі,
лише глянувши на них.
Перший крок до досягнення цієї мети -
навчити комп'ютер бачити об'єкти,
будівельні блоки нашого візуального світу.
Простими словами,
уявіть цей процес навчання,
як демонстрацію комп'ютерам
певних тренувальних зображень
конкретних об'єктів, скажімо, котів,
і розробку моделей, які б навчалися,
споглядаючи ці зображення.
Наскільки це може бути складно?
Адже кіт - це всього лише
сукупність форм і кольорів,
і раніше саме так ми і підходили
до моделювання об'єкту.
Ми задавали комп'ютеру алгоритм
математичною мовою,
що кіт має круглу морду,
пухке тіло,
два загострених вуха
і довгого хвоста,
і цього було достатньо.
Але як щодо цього кота?
(Сміх)
Він увесь вигнутий.
Тож потрібно додати іншу форму
та іншу перспективу до моделі об'єкта.
Але що як кіт сховався?
Як щодо цих грайливих котів?
Ви мене зрозуміли.
Навіть така проста річ,
як домашня тварина
може привнести до моделі об'єкту
численну кількість варіацій,
а це ж лише один об'єкт.
Майже вісім років тому,
дуже просте і глибоке спостереження
змінило напрям моїх думок.
Ніхто не говорить дитині, як треба бачити,
особливо у перші роки.
Вони навчаються цьому через
досвід та на прикладах з реального світу.
Якщо розглядати очі дитини
як пару біологічних камер,
вони сприймають одне зображення
приблизно кожних 200 мілісекунд,
середній час для руху ока.
Тож до трирічного віку дитина побачить
сотні мільйонів зображень
реального світу.
Це дуже багато учбових прикладів.
Тож, замість того, щоб зосереджуватися
виключно на покращенні алгоритмів,
мій здогад полягає в тому, щоб дати
алгоритмам певний вид тренувальних даних,
кількісно і якісно схожих на ті,
які дитина отримує через досвід.
Як тільки ми це зрозуміли,
нам необхідно було
зібрати сукупність даних,
яка включатиме в себе значно більше
зображень, ніж ми мали до цього,
можливо, в тисячі разів більше.
Разом з професором з Прінстонського
університету Кай Лі
ми заснували проект ImageNet у 2007 році.
На щастя, нам не довелося встановлювати
камери на голови
і чекати протягом багатьох років.
Ми звернулися до Інтернету,
найбільшої колекції зображень
за всю історію людства.
Ми завантажили близько
мільярда зображень
і за допомогою такої платформи
краудсорсингу, як Amazon Mechanical Turk,
ми дали назву кожному зображенню.
На своєму піку ImageNet була
одним з найбільших роботодавців
для працівників на
Amazon Mechanical Turk:
разом майже 50 000 працівників
з 167 країн світу
допомагали нам чистити,
сортувати та називати
майже мільярд
зображень-кандидатів.
От скільки знадобилося зусиль,
щоб охопити хоча б частину
зображень,
які дитячий мозок сприймає
у перші роки життя.
Зараз ця ідея
щодо використання великої кількості даних
для навчання комп'ютерних алгоритмів,
може адаватися очевидною.
Але у 2007 вона не була
настільки очевидною.
Певний час ми були абсолютно самотніми
на цьому шляху.
Деякі дружні колеги радили мені
робити щось більш корисне на моїй посаді,
і ми постійно намагалися знайти
фінансування для нашого дослідження.
Якось я навіть пожартувала
перед моїми випускниками,
що я б знову відкрила свою хімчистку,
аби фінансувати ImageNet.
Саме так я заробляла гроші,
навчаючись в коледжі.
Тож ми продовжували.
У 2009 проект ImageNet
мав базу даних у 15 мільйонів зображень
з 22 000 класів об'єктів і речей,
впорядкованих щоденними
англійськими словами.
Кількісно і якісно
це був безпрецедентний масштаб.
Для прикладу, у випадку з котами
ми мали більше 62 000 котів
з усіма видами зовнішності
і в усіх позах,
а також усіх порід,
як домашніх, так і диких.
Ми були у захваті від
досягнення ImageNet,
і хотіли, щоб увесь науковий світ
мав користь з цього,
тож, за зразком TED,
ми відкрили усі дані
для усього наукового світу
безкоштовно.
(Оплески)
Наразі, маючи дані
для наповнення мозку комп'ютера,
ми готові повернутися
до алгоритмів.
Виявилося, що та велика кількість
інформації, отримана з ImageNet,
ідеально підходить для конкретного класу
навчальних алгоритмів для машин,
який називається
"згорнутою нейронною мережею",
що була розроблена Куніхіко Фукушімою,
Геоффом Гінтоном та Янном Лекуном
у 1970 - 80-х роках.
Подібно до мозку, який складається
з мільйонів поєднаних нейронів,
базова операційна одиниця
в нейронній мережі
складається з нейроноподібних вузлів.
Вона приймає інформацію від одних вузлів
і передає її до інших.
Більше того, ці сотні тисяч,
або навіть мільйони вузлів
організовані в ієрархічні шари,
так само, як і мозок.
Типова нейронна мережа, яку
ми використовуємо для тренування
нашої моделі розпізнавання об'єкту,
має 24 мільйони вузлів,
140 мільйонів параметрів
і 15 мільярдів зв'язків.
Це величезна модель.
Оснащена великою кількістю даних
з ImageNet
і сучасними процесорами,
для тренування такої гігантської моделі,
згорнута нейронна мережа
продемонструвала неочікувані результати.
ЇЇ виграшна архітектура
демонструє неймовірні нові результати
у розпізнаванні об'єкта.
Це комп'ютер говорить нам,
що на фото є кіт
і де саме кіт знаходиться.
Звичайно, на фото є й інші речі,
окрім котів,
тож комп'ютерний алгоритм каже нам,
що на фото є хлопець
і плюшевий ведмедик;
собака, людина і маленький
паперовий змій на задньому плані;
або фото, на якому багато всього:
чоловік, скейтборд,
огорожа, ліхтарний стовп і так далі.
У випадках, коли комп'ютер не впевнений
у тому, що він бачить,
ми навчили його бути достатньо розумним
і давати припущення,
а не брати на себе забагато,
як і ми самі зробили б.
Проте у інших випадках
алгоритм нашого комп'ютера
з вражаючою точністю
називає об'єкти,
такі як марка, модель та
рік випуску машин.
Застосувавши цей алгоритм до мільйонів
зображень Google Street View,
які включають сотні американських міст,
ми виявили дещо дуже цікаве:
по-перше, він підтвердив
відому істину про те,
що ціни на машини залежать від
прибутків домашніх господарств.
Але неочікувано виявилося,
що ціни на машини також корелюються
з рівнем злочинності в містах,
і навіть з моделлю голосування
в різних штатах.
Зачекайте хвилинку. Чи це вже воно?
Чи комп'ютер вже досяг
чи навіть перевищив людські можливості?
Не так швидко.
Наразі ми навчили комп'ютер
бачити об'єкти.
Так само, як немовля
вчиться вимовляти слова.
Це неймовірне досягнення,
але це лише перший крок.
Згодом буде досягнуто
наступний етап розвитку,
коли діти починають спілкуватися
за допомогою речень.
Замість того, щоб сказати,
що на фото є кіт,
маленька дівчинка каже нам,
що є кіт, який лежить на ліжку.
Щоб навчити комп'ютер
бачити фото і формулювати речення,
тісний союз між величезною кількістю даних
та навчальним алгоритмом для машин
повинен запрацювати на новому рівні.
Зараз комп'ютер повинен навчатися,
використовуючи як фото,
так і речення природної мови,
за допомогою яких спілкуються люди.
Подібно до того, як мозок
поєднує бачення та мову,
ми розробили модель,
яка поєднує частини візуальних речей,
таких як візуальні фрагменти,
зі словами та фразами у реченнях.
Близько 4 місяців тому,
ми нарешті поєднали усе це докупи
і створили одну з перших
моделей комп'ютерного розпізнавання,
яка здатна створювати
подібні до людських речення,
коли бачить фото вперше.
Зараз я продемонструю вам,
що говорить комп'ютер,
коли бачить фото,
які описувала маленька дівчинка
на початку моєї доповіді.
(Відео) Комп'ютер: Чоловік
стоїть поряд зі слоном.
Великий літак стоїть
на злітно-посадковій смузі.
ФФЛ: Звичайно, ми продовжуємо наполегливо
працювати над удосконаленням алгоритмів,
і йому ще треба багато чого навчитися.
(Оплески)
Комп'ютер все ще допускає помилки.
(Відео) Комп'ютер: Кіт лежить на ліжку
в ковдрі.
ФФЛ: Звичайно, коли він бачить
дуже багато котів,
він вважає, що все має виглядати, як кіт.
(Відео) Комп'ютер: Хлопець
тримає бейсбольну біту.
(Сміх)
ФФЛ: Або, якщо він не бачив зубну щітку,
він переплутає її з бейсбольною битою.
(Відео) Комп'ютер: Чоловік їде на коні
по вулиці біля будинку.
(Сміх)
ФФЛ: Ми не вчили комп'ютери
розуміти мистецтво.
(Відео) Комп'ютер: Зебра стоїть
на полі, вкритому травою.
ФФЛ: Він не навчився цінувати
надзвичайну красу природи,
як це робимо ми з вами.
Ми пройшли довгий шлях.
Було важко дістатися
від 0 до 3 років.
Але справжній виклик -
це пройти від 3 років до 13 і далі.
Дозвольте мені нагадати вам це фото
з хлопчиком і пирогом.
Ми вже навчили комп'ютер
бачити об'єкти
і навіть розповідати прості історії
про те, що він бачить на фото.
(Відео) Комп'ютер: Людина сидить
за столом з пирогом.
ФФЛ: Але на фото присутні
значно більше об'єктів,
ніж лише людина і пиріг.
Повз увагу комп'ютера проходить те,
що це спеціальний італійський пиріг,
який їдять виключно на Паску.
Хлопець одягнутий у свою
улюблену футболку,
яку йому батько привіз із Сіднею.
Ми з вами можемо сказати,
наскільки він щасливий
і що саме у нього на думці
в цей момент.
Це мій син Лео.
У моїх пошуках візуального інтелекту
я постійно думаю про Лео
і майбутній світ, у якому йому
доведеться жити.
Коли машини зможуть бачити,
лікарі та медсестри отримають
додаткові пари невтомних очей,
які допомагатимуть їм у діагностуванні
та догляді за хворими.
Машини їздитимуть обачніше
і безпечніше на дорогах.
Роботи, а не лише люди,
допомагатимуть у зонах катастроф
рятувати поранених людей.
За допомогою машин
ми відкриємо нові види,
кращі матеріали
і дослідимо небачені нові можливості.
Потроху ми даємо машинам зір.
Спочатку ми вчимо їх бачити.
Потім вони допоможуть
нам бачити краще.
Вперше людські очі
вже не єдині,
що можуть спостерігати
і досліджувати наш світ.
Ми не лише будемо використовувати
інтелект машин,
ми також будемо співпрацювати з ними
різними неймовірними способами.
Я бачу своє завдання у тому,
щоб надати комп'ютерам
візуальний інтелект
і створити краще майбутнє
для Лео і для світу.
Дякую
(Оплески)