Як ми вчимо комп'ютери розуміти зображення
-
0:02 - 0:06Дозвольте вам дещо показати.
-
0:06 - 0:10(Відео) Дівчинка: Так, це кіт,
який сидить на ліжку. -
0:10 - 0:14Хлопчик гладить слона.
-
0:14 - 0:19Ті люди сідають в літак.
-
0:19 - 0:21Літак дуже великий.
-
0:21 - 0:24Фей-Фей Лі: Це трирічна дитина,
-
0:24 - 0:27яка описує те,
що бачить на фотографіях. -
0:27 - 0:30Ще багато чого їй треба
вивчити про цей світ, -
0:30 - 0:35проте вже зараз їй під силу
одне дуже важливе завдання: -
0:35 - 0:38вона розуміє, що вона бачить.
-
0:38 - 0:42Наше суспільство найбільш технологічно
розвинене, ніж будь-коли. -
0:42 - 0:46Ми відправляємо людей на місяць,
ми створюємо телефони, які говорять, -
0:46 - 0:51ми налаштовуємо радіостанції так,
щоб вони грали лише нашу улюблену музику. -
0:51 - 0:55Проте наші найбільш передові
механізми і комп'ютери -
0:55 - 0:58все ще не можуть впоратися
з цим завданням. -
0:58 - 1:01Сьогодні я тут, щоб розповісти вам
про найостанніші досягнення -
1:01 - 1:05у наших дослідженнях
комп'ютерного розпізнавання об'єктів, -
1:05 - 1:10однієї з найбільш передових
і потенційно революційних -
1:10 - 1:13технологій в комп'ютерній науці.
-
1:13 - 1:17Так, ми розробили прототипи машин,
які можуть самостійно рухатися, -
1:17 - 1:21але без розумного розпізнавання,
для них не буде різниці -
1:21 - 1:25між зім'ятим пакетом на дорозі,
по якому можна проїхати, -
1:25 - 1:29і камінням такого розміру,
що його краще об'їхати. -
1:29 - 1:33Ми створили неймовірні
мегапіксельні фотокамери, -
1:33 - 1:36але ми не навчили сліпих бачити.
-
1:36 - 1:40Безпілотні літаки можуть літати
на величезні відстані, але не мають -
1:40 - 1:42достатніх
розпізнавальних технологій, -
1:42 - 1:45щоб допомогти нам прослідкувати
за змінами в тропічних лісах. -
1:45 - 1:48Ми скрізь маємо камери
відеоспостереження, -
1:48 - 1:53але вони не попереджають нас,
коли дитина тоне в басейні. -
1:54 - 2:00Фото та відео стали
невід'ємними частинами глобального життя. -
2:00 - 2:04Вони накопичуються з такою швидкістю,
що людина або група людей -
2:04 - 2:07не можуть навіть сподіватися на те,
щоб переглянути їх усі, -
2:07 - 2:11і ми з вами робимо свій внесок
у це на TED сьогодні. -
2:11 - 2:16Проте наші найпередовіші програми
все ще намагаються навчитися -
2:16 - 2:20керувати цією численною
базою даних. -
2:20 - 2:25Іншими словами,
ми всі як суспільство -
2:25 - 2:27залишаємося достатньо сліпими,
-
2:27 - 2:30оскільки наші найрозумніші машини
все ще сліпі. -
2:32 - 2:34Ви можете запитати:
"Чому це так важко?" -
2:34 - 2:37Камери роблять знімки,
такі як ось цей, -
2:37 - 2:41шляхом перетворення світла
на двовимірну сукупність цифр, -
2:41 - 2:43відомих як пікселі,
-
2:43 - 2:45але це лише мертві цифри.
-
2:45 - 2:48Вони самі по собі не несуть значення.
-
2:48 - 2:52Так само, як слухати
не одне й те саме, що чути, -
2:52 - 2:57робити фото не одне й те саме,
що бачити, -
2:57 - 3:00а під баченням ми маємо на увазі
розуміння. -
3:01 - 3:07Насправді, матері природі
знадобилося 540 млн. років важкої роботи, -
3:07 - 3:09щоб впоратися з цим завданням,
-
3:09 - 3:11і більшість з її зусиль
-
3:11 - 3:17було спрямовано на розвиток в нашому мозку
органу з обробки візуальної інформації, -
3:17 - 3:19і це не лише очі.
-
3:19 - 3:22Бачення розпочинається з очей,
-
3:22 - 3:26але насправді відбувається в мозку.
-
3:26 - 3:31Вже 15 років, починаючи з
отримання докторського ступеня в Калтех -
3:31 - 3:34і потім, очоливши
Стенфордську лабораторію Vision Lab, -
3:34 - 3:39я працюю з моїми наставниками,
співробітниками і студентами, -
3:39 - 3:42щоб навчити комп'ютери бачити.
-
3:43 - 3:46Наша сфера дослідження називається
комп'ютерне бачення -
3:46 - 3:50та машинне навчання, що є складовою
частиною сфери штучного інтелекту. -
3:51 - 3:56Тож, в кінцевому рахунку, ми хочемо
навчити машини бачити так само, як ми: -
3:56 - 4:02називати об'єкти, розпізнавати людей,
виводити 3D геометрію речей, -
4:02 - 4:08розуміти стосунки, емоції,
дії та наміри. -
4:08 - 4:14Ми з вами складаємо
цілі історії про людей, місця та речі, -
4:14 - 4:16лише глянувши на них.
-
4:17 - 4:23Перший крок до досягнення цієї мети -
навчити комп'ютер бачити об'єкти, -
4:23 - 4:26будівельні блоки нашого візуального світу.
-
4:26 - 4:30Простими словами,
уявіть цей процес навчання, -
4:30 - 4:33як демонстрацію комп'ютерам
певних тренувальних зображень -
4:33 - 4:37конкретних об'єктів, скажімо, котів,
-
4:37 - 4:41і розробку моделей, які б навчалися,
споглядаючи ці зображення. -
4:41 - 4:43Наскільки це може бути складно?
-
4:43 - 4:47Адже кіт - це всього лише
сукупність форм і кольорів, -
4:47 - 4:52і раніше саме так ми і підходили
до моделювання об'єкту. -
4:52 - 4:55Ми задавали комп'ютеру алгоритм
математичною мовою, -
4:55 - 4:59що кіт має круглу морду,
пухке тіло, -
4:59 - 5:01два загострених вуха
і довгого хвоста, -
5:01 - 5:02і цього було достатньо.
-
5:03 - 5:05Але як щодо цього кота?
-
5:05 - 5:06(Сміх)
-
5:06 - 5:08Він увесь вигнутий.
-
5:08 - 5:12Тож потрібно додати іншу форму
та іншу перспективу до моделі об'єкта. -
5:12 - 5:14Але що як кіт сховався?
-
5:15 - 5:17Як щодо цих грайливих котів?
-
5:19 - 5:22Ви мене зрозуміли.
-
5:22 - 5:25Навіть така проста річ,
як домашня тварина -
5:25 - 5:29може привнести до моделі об'єкту
численну кількість варіацій, -
5:29 - 5:32а це ж лише один об'єкт.
-
5:33 - 5:35Майже вісім років тому,
-
5:35 - 5:40дуже просте і глибоке спостереження
змінило напрям моїх думок. -
5:41 - 5:44Ніхто не говорить дитині, як треба бачити,
-
5:44 - 5:46особливо у перші роки.
-
5:46 - 5:51Вони навчаються цьому через
досвід та на прикладах з реального світу. -
5:51 - 5:54Якщо розглядати очі дитини
-
5:54 - 5:57як пару біологічних камер,
-
5:57 - 6:01вони сприймають одне зображення
приблизно кожних 200 мілісекунд, -
6:01 - 6:04середній час для руху ока.
-
6:04 - 6:10Тож до трирічного віку дитина побачить
сотні мільйонів зображень -
6:10 - 6:11реального світу.
-
6:11 - 6:14Це дуже багато учбових прикладів.
-
6:14 - 6:20Тож, замість того, щоб зосереджуватися
виключно на покращенні алгоритмів, -
6:20 - 6:26мій здогад полягає в тому, щоб дати
алгоритмам певний вид тренувальних даних, -
6:26 - 6:29кількісно і якісно схожих на ті,
-
6:29 - 6:33які дитина отримує через досвід.
-
6:33 - 6:35Як тільки ми це зрозуміли,
-
6:35 - 6:38нам необхідно було
зібрати сукупність даних, -
6:38 - 6:42яка включатиме в себе значно більше
зображень, ніж ми мали до цього, -
6:42 - 6:45можливо, в тисячі разів більше.
-
6:45 - 6:49Разом з професором з Прінстонського
університету Кай Лі -
6:49 - 6:54ми заснували проект ImageNet у 2007 році.
-
6:54 - 6:57На щастя, нам не довелося встановлювати
камери на голови -
6:57 - 6:59і чекати протягом багатьох років.
-
6:59 - 7:01Ми звернулися до Інтернету,
-
7:01 - 7:05найбільшої колекції зображень
за всю історію людства. -
7:05 - 7:08Ми завантажили близько
мільярда зображень -
7:08 - 7:14і за допомогою такої платформи
краудсорсингу, як Amazon Mechanical Turk, -
7:14 - 7:16ми дали назву кожному зображенню.
-
7:16 - 7:21На своєму піку ImageNet була
одним з найбільших роботодавців -
7:21 - 7:24для працівників на
Amazon Mechanical Turk: -
7:24 - 7:28разом майже 50 000 працівників
-
7:28 - 7:32з 167 країн світу
-
7:32 - 7:36допомагали нам чистити,
сортувати та називати -
7:36 - 7:40майже мільярд
зображень-кандидатів. -
7:41 - 7:43От скільки знадобилося зусиль,
-
7:43 - 7:47щоб охопити хоча б частину
зображень, -
7:47 - 7:51які дитячий мозок сприймає
у перші роки життя. -
7:52 - 7:56Зараз ця ідея
щодо використання великої кількості даних -
7:56 - 8:01для навчання комп'ютерних алгоритмів,
може адаватися очевидною. -
8:01 - 8:05Але у 2007 вона не була
настільки очевидною. -
8:05 - 8:09Певний час ми були абсолютно самотніми
на цьому шляху. -
8:09 - 8:14Деякі дружні колеги радили мені
робити щось більш корисне на моїй посаді, -
8:14 - 8:18і ми постійно намагалися знайти
фінансування для нашого дослідження. -
8:18 - 8:20Якось я навіть пожартувала
перед моїми випускниками, -
8:20 - 8:24що я б знову відкрила свою хімчистку,
аби фінансувати ImageNet. -
8:24 - 8:29Саме так я заробляла гроші,
навчаючись в коледжі. -
8:29 - 8:31Тож ми продовжували.
-
8:31 - 8:35У 2009 проект ImageNet
-
8:35 - 8:39мав базу даних у 15 мільйонів зображень
-
8:39 - 8:44з 22 000 класів об'єктів і речей,
-
8:44 - 8:47впорядкованих щоденними
англійськими словами. -
8:47 - 8:50Кількісно і якісно
-
8:50 - 8:53це був безпрецедентний масштаб.
-
8:53 - 8:56Для прикладу, у випадку з котами
-
8:56 - 8:59ми мали більше 62 000 котів
-
8:59 - 9:03з усіма видами зовнішності
і в усіх позах, -
9:03 - 9:08а також усіх порід,
як домашніх, так і диких. -
9:08 - 9:12Ми були у захваті від
досягнення ImageNet, -
9:12 - 9:16і хотіли, щоб увесь науковий світ
мав користь з цього, -
9:16 - 9:20тож, за зразком TED,
ми відкрили усі дані -
9:20 - 9:23для усього наукового світу
безкоштовно. -
9:25 - 9:29(Оплески)
-
9:29 - 9:34Наразі, маючи дані
для наповнення мозку комп'ютера, -
9:34 - 9:38ми готові повернутися
до алгоритмів. -
9:38 - 9:43Виявилося, що та велика кількість
інформації, отримана з ImageNet, -
9:43 - 9:48ідеально підходить для конкретного класу
навчальних алгоритмів для машин, -
9:48 - 9:50який називається
"згорнутою нейронною мережею", -
9:50 - 9:55що була розроблена Куніхіко Фукушімою,
Геоффом Гінтоном та Янном Лекуном -
9:55 - 9:59у 1970 - 80-х роках.
-
9:59 - 10:05Подібно до мозку, який складається
з мільйонів поєднаних нейронів, -
10:05 - 10:08базова операційна одиниця
в нейронній мережі -
10:08 - 10:11складається з нейроноподібних вузлів.
-
10:11 - 10:13Вона приймає інформацію від одних вузлів
-
10:13 - 10:16і передає її до інших.
-
10:16 - 10:21Більше того, ці сотні тисяч,
або навіть мільйони вузлів -
10:21 - 10:24організовані в ієрархічні шари,
-
10:24 - 10:27так само, як і мозок.
-
10:27 - 10:31Типова нейронна мережа, яку
ми використовуємо для тренування -
10:31 - 10:35нашої моделі розпізнавання об'єкту,
має 24 мільйони вузлів, -
10:35 - 10:38140 мільйонів параметрів
-
10:38 - 10:41і 15 мільярдів зв'язків.
-
10:41 - 10:43Це величезна модель.
-
10:43 - 10:47Оснащена великою кількістю даних
з ImageNet -
10:47 - 10:52і сучасними процесорами,
для тренування такої гігантської моделі, -
10:52 - 10:55згорнута нейронна мережа
-
10:55 - 10:58продемонструвала неочікувані результати.
-
10:58 - 11:01ЇЇ виграшна архітектура
-
11:01 - 11:06демонструє неймовірні нові результати
у розпізнаванні об'єкта. -
11:06 - 11:09Це комп'ютер говорить нам,
-
11:09 - 11:11що на фото є кіт
-
11:11 - 11:13і де саме кіт знаходиться.
-
11:13 - 11:15Звичайно, на фото є й інші речі,
окрім котів, -
11:15 - 11:18тож комп'ютерний алгоритм каже нам,
-
11:18 - 11:21що на фото є хлопець
і плюшевий ведмедик; -
11:21 - 11:25собака, людина і маленький
паперовий змій на задньому плані; -
11:25 - 11:28або фото, на якому багато всього:
-
11:28 - 11:33чоловік, скейтборд,
огорожа, ліхтарний стовп і так далі. -
11:33 - 11:38У випадках, коли комп'ютер не впевнений
у тому, що він бачить, -
11:39 - 11:42ми навчили його бути достатньо розумним
-
11:42 - 11:46і давати припущення,
а не брати на себе забагато, -
11:46 - 11:48як і ми самі зробили б.
-
11:48 - 11:53Проте у інших випадках
алгоритм нашого комп'ютера -
11:53 - 11:55з вражаючою точністю
називає об'єкти, -
11:55 - 11:59такі як марка, модель та
рік випуску машин. -
11:59 - 12:04Застосувавши цей алгоритм до мільйонів
зображень Google Street View, -
12:04 - 12:07які включають сотні американських міст,
-
12:07 - 12:10ми виявили дещо дуже цікаве:
-
12:10 - 12:14по-перше, він підтвердив
відому істину про те, -
12:14 - 12:17що ціни на машини залежать від
-
12:17 - 12:19прибутків домашніх господарств.
-
12:19 - 12:24Але неочікувано виявилося,
що ціни на машини також корелюються -
12:24 - 12:26з рівнем злочинності в містах,
-
12:27 - 12:31і навіть з моделлю голосування
в різних штатах. -
12:32 - 12:34Зачекайте хвилинку. Чи це вже воно?
-
12:34 - 12:39Чи комп'ютер вже досяг
чи навіть перевищив людські можливості? -
12:39 - 12:42Не так швидко.
-
12:42 - 12:46Наразі ми навчили комп'ютер
бачити об'єкти. -
12:46 - 12:51Так само, як немовля
вчиться вимовляти слова. -
12:51 - 12:54Це неймовірне досягнення,
-
12:54 - 12:56але це лише перший крок.
-
12:56 - 13:00Згодом буде досягнуто
наступний етап розвитку, -
13:00 - 13:03коли діти починають спілкуватися
за допомогою речень. -
13:03 - 13:08Замість того, щоб сказати,
що на фото є кіт, -
13:08 - 13:13маленька дівчинка каже нам,
що є кіт, який лежить на ліжку. -
13:13 - 13:18Щоб навчити комп'ютер
бачити фото і формулювати речення, -
13:18 - 13:22тісний союз між величезною кількістю даних
та навчальним алгоритмом для машин -
13:22 - 13:25повинен запрацювати на новому рівні.
-
13:25 - 13:29Зараз комп'ютер повинен навчатися,
використовуючи як фото, -
13:29 - 13:32так і речення природної мови,
-
13:32 - 13:35за допомогою яких спілкуються люди.
-
13:35 - 13:39Подібно до того, як мозок
поєднує бачення та мову, -
13:39 - 13:44ми розробили модель,
яка поєднує частини візуальних речей, -
13:44 - 13:46таких як візуальні фрагменти,
-
13:46 - 13:50зі словами та фразами у реченнях.
-
13:50 - 13:53Близько 4 місяців тому,
-
13:53 - 13:56ми нарешті поєднали усе це докупи
-
13:56 - 13:59і створили одну з перших
моделей комп'ютерного розпізнавання, -
13:59 - 14:03яка здатна створювати
подібні до людських речення, -
14:03 - 14:07коли бачить фото вперше.
-
14:07 - 14:12Зараз я продемонструю вам,
що говорить комп'ютер, -
14:12 - 14:14коли бачить фото,
-
14:14 - 14:17які описувала маленька дівчинка
на початку моєї доповіді. -
14:20 - 14:23(Відео) Комп'ютер: Чоловік
стоїть поряд зі слоном. -
14:24 - 14:28Великий літак стоїть
на злітно-посадковій смузі. -
14:29 - 14:33ФФЛ: Звичайно, ми продовжуємо наполегливо
працювати над удосконаленням алгоритмів, -
14:33 - 14:36і йому ще треба багато чого навчитися.
-
14:36 - 14:38(Оплески)
-
14:40 - 14:43Комп'ютер все ще допускає помилки.
-
14:43 - 14:46(Відео) Комп'ютер: Кіт лежить на ліжку
в ковдрі. -
14:46 - 14:49ФФЛ: Звичайно, коли він бачить
дуже багато котів, -
14:49 - 14:52він вважає, що все має виглядати, як кіт.
-
14:53 - 14:56(Відео) Комп'ютер: Хлопець
тримає бейсбольну біту. -
14:56 - 14:58(Сміх)
-
14:58 - 15:03ФФЛ: Або, якщо він не бачив зубну щітку,
він переплутає її з бейсбольною битою. -
15:03 - 15:07(Відео) Комп'ютер: Чоловік їде на коні
по вулиці біля будинку. -
15:07 - 15:09(Сміх)
-
15:09 - 15:12ФФЛ: Ми не вчили комп'ютери
розуміти мистецтво. -
15:14 - 15:17(Відео) Комп'ютер: Зебра стоїть
на полі, вкритому травою. -
15:17 - 15:20ФФЛ: Він не навчився цінувати
надзвичайну красу природи, -
15:20 - 15:22як це робимо ми з вами.
-
15:22 - 15:25Ми пройшли довгий шлях.
-
15:25 - 15:30Було важко дістатися
від 0 до 3 років. -
15:30 - 15:35Але справжній виклик -
це пройти від 3 років до 13 і далі. -
15:35 - 15:39Дозвольте мені нагадати вам це фото
з хлопчиком і пирогом. -
15:39 - 15:44Ми вже навчили комп'ютер
бачити об'єкти -
15:44 - 15:48і навіть розповідати прості історії
про те, що він бачить на фото. -
15:48 - 15:52(Відео) Комп'ютер: Людина сидить
за столом з пирогом. -
15:52 - 15:54ФФЛ: Але на фото присутні
значно більше об'єктів, -
15:54 - 15:56ніж лише людина і пиріг.
-
15:56 - 16:01Повз увагу комп'ютера проходить те,
що це спеціальний італійський пиріг, -
16:01 - 16:04який їдять виключно на Паску.
-
16:04 - 16:07Хлопець одягнутий у свою
улюблену футболку, -
16:07 - 16:11яку йому батько привіз із Сіднею.
-
16:11 - 16:15Ми з вами можемо сказати,
наскільки він щасливий -
16:15 - 16:18і що саме у нього на думці
в цей момент. -
16:19 - 16:22Це мій син Лео.
-
16:22 - 16:25У моїх пошуках візуального інтелекту
-
16:25 - 16:27я постійно думаю про Лео
-
16:27 - 16:30і майбутній світ, у якому йому
доведеться жити. -
16:30 - 16:32Коли машини зможуть бачити,
-
16:32 - 16:37лікарі та медсестри отримають
додаткові пари невтомних очей, -
16:37 - 16:41які допомагатимуть їм у діагностуванні
та догляді за хворими. -
16:41 - 16:45Машини їздитимуть обачніше
і безпечніше на дорогах. -
16:45 - 16:48Роботи, а не лише люди,
-
16:48 - 16:53допомагатимуть у зонах катастроф
рятувати поранених людей. -
16:54 - 16:58За допомогою машин
ми відкриємо нові види, -
16:58 - 17:02кращі матеріали
і дослідимо небачені нові можливості. -
17:03 - 17:07Потроху ми даємо машинам зір.
-
17:07 - 17:10Спочатку ми вчимо їх бачити.
-
17:10 - 17:13Потім вони допоможуть
нам бачити краще. -
17:13 - 17:17Вперше людські очі
вже не єдині, -
17:17 - 17:20що можуть спостерігати
і досліджувати наш світ. -
17:20 - 17:23Ми не лише будемо використовувати
інтелект машин, -
17:23 - 17:30ми також будемо співпрацювати з ними
різними неймовірними способами. -
17:30 - 17:32Я бачу своє завдання у тому,
-
17:32 - 17:34щоб надати комп'ютерам
візуальний інтелект -
17:34 - 17:40і створити краще майбутнє
для Лео і для світу. -
17:40 - 17:41Дякую
-
17:41 - 17:45(Оплески)
- Title:
- Як ми вчимо комп'ютери розуміти зображення
- Speaker:
- Фей-Фей Лі
- Description:
-
Коли немовля дивиться на фото, воно може розрізняти прості елементи: кота, книжку, стілець. Зараз комп'ютери достатньо розумні, щоб робити те саме. Що далі? У своїй захоплюючій доповіді експерт з комп'ютерного бачення Фей-Фей Лі розповідає про останні досягнення (включаючи базу даних з 15 мільйонів зображень, створену її командою, щоб навчити комп'ютер розуміти зображення) і плани на майбутнє.
- Video Language:
- English
- Team:
- closed TED
- Project:
- TEDTalks
- Duration:
- 17:58
Khrystyna Romashko approved Ukrainian subtitles for How we're teaching computers to understand pictures | ||
Khrystyna Romashko edited Ukrainian subtitles for How we're teaching computers to understand pictures | ||
Khrystyna Romashko accepted Ukrainian subtitles for How we're teaching computers to understand pictures | ||
Khrystyna Romashko edited Ukrainian subtitles for How we're teaching computers to understand pictures | ||
Khrystyna Romashko edited Ukrainian subtitles for How we're teaching computers to understand pictures | ||
Tetiana Katsimon edited Ukrainian subtitles for How we're teaching computers to understand pictures | ||
Tetiana Katsimon edited Ukrainian subtitles for How we're teaching computers to understand pictures | ||
Tetiana Katsimon edited Ukrainian subtitles for How we're teaching computers to understand pictures |