6.4. Вариативные ал-тмы и машинное обучение. Опорные векторы, гиперплоскость, альтернатива Лагранжа

Edit subtitles

0:01 - 0:05

Итак, сначала мы изучим эти квантовые
машины опорных векторов,
0:07 - 0:09

и это не те
0:11 - 0:13

квантовые машины опорных векторов,
0:15 - 0:16

о которых идет речь в этой таблице.
0:16 - 0:20

Нужно учитывать, что квантовое машинное
обучение является
0:20 - 0:22

очень молодой областью,
0:24 - 0:28

которая разрабатывается максимум
в последние 3-4 года.
0:28 - 0:33

И некоторые понятия и термины
ещё не устоялись,
0:33 - 0:38

и существует несколько различных методов,
которые называются одинаково
0:38 - 0:40

или очень похоже.
0:40 - 0:42

Так что это не тот прием,
0:42 - 0:46

который используется для получения
экспоненциального ускорения,
0:46 - 0:48

это другой подход.
0:52 - 0:53

Это важно отметить.
0:53 - 0:55

Но идея заключается в том,
0:57 - 0:59

чтобы попытаться
1:00 - 1:02

продвинуть,
1:02 - 1:05

передать идею машин опорных
векторов, приема,
1:06 - 1:09

который используется в классическом
машинном обучении,
1:09 - 1:12

очень популярного приема в классическом
машинном обучении,
1:12 - 1:16

в сферу квантовых вычислений для
1:19 - 1:21

получения преимущества, для
1:23 - 1:26

усовершенствования этих методов.
1:27 - 1:29

Так что, если вы не знаете,
1:29 - 1:31

что такое машины опорных векторов,
1:31 - 1:35

это методы машинного обучения,
1:35 - 1:39

используемые для классификации данных.
Представьте, например, что у вас есть
1:39 - 1:42

какие-то данные определенного класса.
1:42 - 1:45

Мы пытаемся отличить
1:46 - 1:50

черные экземпляры от белых.
1:50 - 1:56

И думаю, можно попытаться разделить их
с помощью гиперплоскости.
1:56 - 1:59

В данном случае, так как мы в двухмерном
пространстве,
1:59 - 2:01

это просто линия.
2:01 - 2:03

И затем вычисляем
2:03 - 2:08

расстояние от нового экземпляра
до этой линии, чтобы понять,
2:08 - 2:12

в какой части плоскости он находится.
2:12 - 2:16

И затем вы относите его к классу
белых или черных.
2:17 - 2:22

На этой же идее основан и перцептрон,
2:22 - 2:25

классический алгоритм нейронной машины.
2:25 - 2:29

Но концепция машины опорных векторов
заключается в том, что
2:29 - 2:32

можно использовать несколько разных
гиперплоскостей,
2:32 - 2:34

чтобы разделить данные.
2:34 - 2:38

Например, Н1 не подойдет, потому что
она не отделяет
2:39 - 2:43

черное от белого, а вот Н2 и Н3
2:43 - 2:46

могут выполнить эту задачу, могут отделить
2:49 - 2:51

черные круги от белых.
2:51 - 2:54

Итак, какую мы должны выбрать?
2:54 - 2:57

Идея машин опорных векторов
в том, что вы должны
2:58 - 3:02

выбрать ту, у которой расстояние
от ближайших
3:02 - 3:07

экземпляров каждого класса
до гиперплоскости
3:08 - 3:09

самое большое.
3:09 - 3:11

Например, в данном случае
3:11 - 3:17

черные образцы находятся слишком близко
к гиперплоскости, белые экземпляры
3:17 - 3:19

слишком близко к гиперплоскости.
3:19 - 3:21

А если я использую вот эту гиперплоскость,
3:21 - 3:23

то расстояние здесь больше.
3:24 - 3:28

Так что, чтобы вычислить эту гиперплоскость,
3:28 - 3:30

вы можете
3:31 - 3:32

присвоить
3:34 - 3:36

значения «1» и «-1»,
3:36 - 3:39

например, черным и белым кругам.
3:39 - 3:40

А затем вычисляете
3:42 - 3:46

вот это произведение гиперплоскости,
параметров гиперплоскости,
3:47 - 3:51

которая используется для разделения,
и одного из экземпляров.
3:51 - 3:54

И оно получится либо положительным, либо
отрицательным.
3:54 - 3:59

Если оно положительное, вы относите
экземпляр к классу «+1».
3:59 - 4:04

Если оно отрицательное, вы относите
экземпляр к классу «-1».
4:04 - 4:06

Итак, вам нужно, чтобы
4:06 - 4:12

произведение фактического уровня экземпляра
и этого значения, которые вы вычислили
4:12 - 4:16

и используете для классификации экземпляра
как положительного или отрицательного,
4:16 - 4:19

их произведение должно быть
положительным.
4:20 - 4:24

Если оно отрицательное, то и класс
должен быть отрицательным.
4:24 - 4:28

Или, наверное, лучше сказать, что если
класс отрицательный,
4:28 - 4:30

то ваше предвычисление должно также
быть отрицательным,
4:30 - 4:33

а если класс положительный, реальный класс
положительный,
4:34 - 4:35

то и предвычисление должно быть
положительным.
4:36 - 4:38

Итак, вот нужное вам ограничение.
4:38 - 4:43

И при этом ограничении, для всех имеющихся
экземпляров учебных данных,
4:45 - 4:52

вот это значение, единица, деленная
на абсолютное значение нормы W,
4:52 - 4:55

коэффициенты гиперплоскости,
4:55 - 4:57

дает вам разделение.
4:58 - 5:01

Так что вам нужно сделать
5:01 - 5:07

это значение как можно большим, чтобы
разделение было как можно большим.
5:07 - 5:12

То есть вам нужно минимизировать обратную
величину вот этого значения.
5:13 - 5:17

Итак, вы можете использовать эту формулу
в классическом машинном обучении,
5:17 - 5:21

чтобы получить гиперплоскость,
5:21 - 5:26

разделяющую экземпляры с наибольшим
возможным полем.
5:27 - 5:28

В чем же проблема?
5:28 - 5:33

Проблема здесь в том, что вы применяете
это условие ко всем экземплярам.
5:33 - 5:40

В этом случае, где круги могут быть линейно
разделены, вы можете найти
5:40 - 5:42

эту гиперплоскость.
5:42 - 5:43

Но в общем случае
5:44 - 5:47

у вас могут быть выбросы здесь, некоторые
5:47 - 5:52

белые круги в этой части, некоторые черные
круги близко к белым,
5:52 - 5:57

и найти гиперплоскость, которая бы полность
отделила
5:57 - 6:01

черные экземпляры от белых, невозможно.
6:02 - 6:07

В этом случае мы используем формулу
модели машины опорных векторов,
6:07 - 6:10

которая называется мягкой маржой
(или мягким зазором),
6:10 - 6:16

в котором мы позволяем нарушать эти
условия в определенном диапазоне.
6:16 - 6:22

Но при этом мы хотим, чтобы такое нарушение
происходило не слишком часто.
6:23 - 6:27

Вот это условие штрафа, регулирующее
условие,
6:27 - 6:31

и если возникает много нарушений
этого условия,
6:31 - 6:37

то общая стоимость модели повышается,
и она не будет выбрана.
6:40 - 6:44

Так что прием добавления такого регулирующего
условия является достаточно распространенным
6:46 - 6:49

во многих методах машинного обучения,
6:50 - 6:53

давая модели больше гибкости, но не
6:55 - 7:02

позволяя полной свободы и бесконечного
нарушения многих условий.
7:04 - 7:09

Итак. Для решения такого рода задач,
или для моделей с такого рода
7:10 - 7:15

проблемой оптимизации (как обычно формулируют
это для машин с опорными векторами),
7:15 - 7:21

мы обычно рассматриваем так называемую
двойную формулу
7:21 - 7:22

машины с опорными векторами.
7:22 - 7:24

Вместо решения этого типа задач,
7:24 - 7:25

мы решаем
7:26 - 7:28

связанную с ними задачу, получаемую
7:28 - 7:31

с помощью множителей Лагранжа
и тому подобных вещей.
7:32 - 7:35

Она имеет точно такое же решение,
7:35 - 7:40

но формулируется в терминах
коэффициентов α «i»,
7:40 - 7:43

которые должны находиться между «0»
и этим регулирующим
7:44 - 7:46

условием, которое мы добавили
7:47 - 7:49

в случае мягкой маржи
7:49 - 7:51

в соответствии с этим ограничением,
7:53 - 7:57

и функцией, которую нам нужно максимизировать
7:58 - 7:59

(это важно отметить).
7:59 - 8:04

Она выражена вот этими произведениями,
вот этими внутренними произведениями,
8:06 - 8:09

экземпляров учебных данных, которыми
мы располагаем.
8:10 - 8:13

И можно доказать, что если
мы решим эту задачу,
8:13 - 8:21

её решение даст нам решение исходной
задачи, вот этой задачи оптимизации.
8:21 - 8:22

И мы сможем восстановить
8:23 - 8:30

значения W и В из коэффициентов α «i»,
которые мы получили при решении
8:30 - 8:31

задачи максимизации.
8:32 - 8:36

И на самом деле, можно использовать
α «i» непосредственно, чтобы
8:37 - 8:39

классифицировать новые экземпляры.
8:39 - 8:42

И, опять же, используя то, что учитывает
8:43 - 8:46

внутреннее произведение экземпляров
8:48 - 8:50

(экземпляров учебных данных)
8:50 - 8:53

и нового экземпляра, который нам нужно
классифицировать.
8:54 - 8:58

Мы можем это использовать для определения
8:58 - 9:02

общих характеристик модели
машины опорных векторов,
9:02 - 9:06

которая вместо гиперплоскости
или линейного разделения
9:07 - 9:13

использует более общие функции, или более
общие границы для разделения данных.
9:13 - 9:17

Может случиться, что у вас есть данные,
9:17 - 9:21

которые нужно классифицировать, и которые
не могут быть разделены линейно.
9:21 - 9:23

Как вот в этом случае. Но вы можете
9:24 - 9:29

определить другую функцию, другую границу,
которая отделит
9:29 - 9:32

в этом случае синие круги от от красных.
9:33 - 9:40

Иногда это разделение может быть выражено,
как линейное разделение,
9:41 - 9:44

но в более многомерном пространстве.
9:44 - 9:49

Мы можем встроить исходное пространство ввода
в так называемое пространство признаков,
9:49 - 9:54

и тогда данные, неразделимые в
пространстве ввода,
9:54 - 9:57

можно линейно разделить в пространстве
признаков.
9:58 - 10:01

Итак, мы обозначаем экземпляр xi
10:01 - 10:06

на векторах более многомерного
пространства,
10:10 - 10:11

используя
10:13 - 10:15

функцию, которая называется картой
характеристик,
10:15 - 10:19

эту φ, которая переводит пространство ввода
в более многомерное пространство,
10:19 - 10:21

и затем решаем
10:21 - 10:24

задачу машины опорных векторов
10:24 - 10:26

в этом более многомерном пространстве.
10:26 - 10:29

И можно увидеть, что это хорошо работает
10:29 - 10:35

для классических машин опорных векторов
во многих случаях.
10:35 - 10:41

И идея заключается в том, что мы можем
преобразовать задачу оптимизации,
10:43 - 10:46

рассматривая это более многомерное
пространство,
10:46 - 10:49

и из двойной формулы мы получаем
10:50 - 10:52

очень похожую задачу, но теперь вместо
10:53 - 10:55

вычисления внутреннего произведения
10:56 - 11:00

изначальных экземпляров в пространстве
ввода нам нужно вычислить
11:01 - 11:02

внутреннее произведение
11:03 - 11:06

трансформирующих векторов
в пространстве признаков.
11:06 - 11:09

А остальная часть формулы
точно такая же.
11:09 - 11:14

И затем, чтобы вычислить уровень
и классифицировать экземпляр,
11:14 - 11:17

нам не нужно
11:18 - 11:20

непосредственно вычислять
это преобразование.
11:20 - 11:25

Возможно, это преобразование дает
нам что-то очень многомерное,
11:25 - 11:29

или даже бесконечномерное,
что иногда случается.
11:29 - 11:33

Но до тех пор, пока мы можем вычислить
эти внутренние произведения
11:33 - 11:37

из выражений исходных точек,
11:37 - 11:41

мы можем решить задачу и классифицировать
новые экземпляры.
11:43 - 11:48

Функцию, которая вычисляет это внутреннее
произведение в пространстве признаков,
11:48 - 11:53

называют «ядром», и поэтому вот это
называют «ядерным трюком».
11:55 - 11:58

Эта теория полностью взята из классического
машинного обучения,
12:00 - 12:05

но дело в том, что мы можем исследовать
эту идею ядерного трюка для
12:06 - 12:11

использования карты характеристик, получаемую
из вариационной формы.
12:12 - 12:19

Почему это интересно, или как это может
помочь получить что-то
12:21 - 12:25

более эффективное, или дающее
лучшие результаты,
12:25 - 12:29

чем классическое машинное обучение, или
классические машины опорных векторов?
12:29 - 12:30

Помните, что
12:32 - 12:35

в гильбертовом пространстве, в котором у нас находятся
12:36 - 12:37

эти состояния кубитов,
12:37 - 12:41

размер растет по экспоненте
с ростом числа кубитов.
12:41 - 12:43

Так что идея,
12:43 - 12:47

предложенная, например, в 2019 г.,
12:47 - 12:51

в прошлом году исследователями из IBM,
12:52 - 12:54

заключается в том, чтобы встроить
12:54 - 12:57

наше пространство ввода в гильбертово
пространство
12:58 - 13:01

с помощью одной из этих вариационных схем,
13:01 - 13:04

то есть мы используем вводные данные
в качестве параметров
13:04 - 13:07

в вариационной форме, и затем
13:07 - 13:11

вычислять внутреннее произведение
с помощью квантового компьютера.
13:11 - 13:16

Для определенных карт характеристик,
13:16 - 13:18

для определенных вариационных форм
13:19 - 13:22

это невозможно сделать с помощью
классических вычислений,
13:22 - 13:25

поскольку вы работаете с этим
экспоненциальным
13:25 - 13:27

количеством параметров, ну или
предполагается,
13:27 - 13:33

что это невозможно сделать с помощью
классических вычислений.
13:33 - 13:34

Вы знаете, что у нас нет
13:36 - 13:39

математических доказательств такого
факта, но
13:39 - 13:42

все свидетельствует именно об этом.
13:42 - 13:44

В общем, может быть
13:45 - 13:46

полезно
13:47 - 13:52

изучить возможность встраивания
наших данных
13:52 - 13:53

в гильбертово пространство,
13:53 - 13:58

обработки этих данных с помощью квантового
компьютера, вычисления
13:58 - 14:00

этого внутреннего произведения и затем
14:01 - 14:05

решения соответствующей задачи
14:05 - 14:09

максимизации в двойной формуле
для машин опорных векторов,
14:10 - 14:11

чтобы получить
14:12 - 14:14

коэффициенты α «i».
14:14 - 14:17

А затем, когда нам снова понадобится
классифицировать новый экземпляр,
14:17 - 14:19

мы используем вот эту формулу
14:20 - 14:24

для получения уровня, и вот это вычисление
14:26 - 14:30

внутреннего произведения выполняется опять
с помощью квантового компьютера.
14:30 - 14:34

И мы уже знаем, как вычислять такое
внутреннее произведение.
14:35 - 14:37

Это точно такая же ситуация,
14:37 - 14:42

как и с моделью VQE, когда мы пытались
вычислить
14:44 - 14:48

внутреннее произведение основного состояния
на новые состояния, которые мы доказывали.
14:48 - 14:52

А в данном случае это даже проще,
потому что
14:52 - 14:54

у нас нет исходного состояния.
14:54 - 14:57

Исходное состояние всегда «0»,
и у нас есть эта
14:57 - 14:59

вариационная форма, которая преобразовывает
15:01 - 15:04

входные данные, первоначальные входные
данные,
15:06 - 15:08

представляя
15:09 - 15:11

их как состояния в гильбертовом
пространстве.
15:11 - 15:16

И для того, чтобы вычислить внутреннее
произведение (то, что нам нужно),
15:17 - 15:20

определить функцию ядра, такую,
как вот эта,
15:21 - 15:25

единственное, что нам нужно, это подобная
вот этой схема.
15:26 - 15:27

И повторюсь, мы запускаем схему,
15:28 - 15:29

объяснение
15:31 - 15:34

точно такое же, как и для VQE,
15:35 - 15:39

точно такой же трюк и мы использовали…
15:43 - 15:51

Итак, мы запускаем схему, чтобы оценить
частоту измерения «0»,
15:51 - 15:56

и это позволяет нам оценить
вот это значение.
15:57 - 15:58

А затем
15:59 - 16:02

мы решаем задачу с помощью классических
приемов, задачу
16:02 - 16:06

двойственной формулировки машины опорных
векторов, мы получаем α «i»,
16:07 - 16:09

и когда нам нужно классифицировать
новый экземпляр,
16:10 - 16:12

мы используем эту формулу,
16:13 - 16:16

а для вычисления ядра, для вычисления
внутреннего произведения
16:16 - 16:19

мы используем вот такую схему.
16:20 - 16:26

Итак, вот идея квантовых машин опорных
векторов в этой формуле, которую
16:26 - 16:31

в прошлом году предложили
исследователи из IBM.
16:31 - 16:37

И это уже используется в физике
высоких энергий.
16:37 - 16:42

Я взял этот слайд из презентации к семинару,
16:43 - 16:46

который проводил Сао Ланг Ву
16:47 - 16:50

чуть больше месяца назад. Я разместил
16:52 - 16:52

ссылку
16:53 - 16:55

на видеозапись этого семинара
16:55 - 16:59

на странице Indico, потому что считаю его
очень-очень интересным.
16:59 - 17:01

На нем рассказывается о различных
17:02 - 17:05

моделях квантового машинного обучения,
которое используется
17:05 - 17:07

для решения задач в физике высоких энергий.
17:07 - 17:10

И это имеет прямое отношение к нашей
сегодняшней теме.
17:11 - 17:14

Я хочу показать вам несколько примеров того,
17:16 - 17:19

как группа исследователей, возглавляемая
Сао Ланг Ву,
17:20 - 17:24

использует эти техники для решения задач
в физике высоких энергий.
17:25 - 17:30

Я хочу отметить, что среди исследователей,
участвующих
17:30 - 17:35

в этих экспериментах, есть два исследователя
17:35 - 17:40

из Открытой лаборатории ЦЕРНа, которая
сотрудничает с другими организациями
17:41 - 17:44

для получения таких интересных результатов.
17:45 - 17:50

Итак, повторюсь, идея в том, чтобы, как я
вам показывал и на прошлой неделе,
17:52 - 17:54

классифицировать
17:55 - 18:01

серию событий столкновения частиц,
18:02 - 18:06

чтобы увидеть, получился ли бозон Хиггса.
18:06 - 18:08

У нас есть сигнал,
18:09 - 18:14

набор событий и фон, и мы хотим
отделить сигнал от фона.
18:15 - 18:19

То есть это задача классификации, в которой
мы можем присвоить, например,
18:19 - 18:22

уровень «1» сигналу, уровень «-1»
18:22 - 18:25

фону, и мы можем использовать
конечно же,
18:25 - 18:28

приемы классического машинного обучения,
18:28 - 18:30

такие как машины опорных векторов.
18:30 - 18:32

А если можно использовать машины опорных
векторов,
18:32 - 18:34

то также можно использовать и квантовые
машины опорных векторов,
18:35 - 18:37

и именно это и сделали указанные
исследователи.
18:38 - 18:42

И сейчас я вам показываю часть результатов
18:43 - 18:45

семинара, а также
18:47 - 18:52

общедоступные слайды этого семинара.
18:52 - 18:55

Мне кажется, я не разместил ссылку,
но я это сделаю.
18:55 - 18:58

Результатов намного больше, но здесь
я вам показываю, что
18:59 - 19:01

эти результаты, запущенные
19:02 - 19:05

на эмуляторе Аmazon AWS,
19:07 - 19:10

были немного лучше в плане
19:10 - 19:16

способности классификации, чем,
например, у дерева бинарных…
19:16 - 19:19

нет, думаю, это усиленное дерево
решений (boosted decision tree),
19:19 - 19:21

метода классического машинного обучения
19:21 - 19:24

или машин опорных векторов.
Разница небольшая,
19:24 - 19:27

но она показывает, что с помощью...
19:27 - 19:33

Они пробовали как с помощью Эмулятора IBM,
так и с помощью эмулятора Amazon,
19:33 - 19:36

получить преимущество или большую
19:36 - 19:40

дискриминационную способность с помощью
таких методов.
19:41 - 19:44

Конечно, эксперименты, которые мы
можем проводить
19:45 - 19:47

на данный момент, очень ограничены,
потому что у наших компьютеров
19:49 - 19:54

есть большое ограничение по кубитам,
19:56 - 20:02

и наши возможности моделирования также
очень ограничены, мы не можем
20:02 - 20:05

продвинуться дальше, боюсь соврать,
20:06 - 20:11

10 кубитов, как здесь, или дальше
20 кубитов, что-то около того.
20:12 - 20:16

Так что мы ожидаем, что когда у нас будут
квантовые компьютеры
20:16 - 20:18

больших размеров, которые мы
сможем использовать
20:18 - 20:19

для такого рода экспериментов,
20:19 - 20:23

мы сможем получить еще большую
производительность.
20:24 - 20:26

Я также хочу заметить, что
20:27 - 20:31

Amazon недавно запустил программу
20:31 - 20:35

на платформе AWS,
20:35 - 20:39

в которой можно использовать несколько
различных
20:39 - 20:42

не только эмуляторов, но также и несколько
различных
20:42 - 20:44

реальных квантовых устройств.
20:44 - 20:45

Они сотрудничают,
20:46 - 20:52

мне кажется, с IonQ, Rigetti и D-Wave.
20:54 - 20:57

И насколько я знаю, использование
этой программы не бесплатно,
20:57 - 20:59

как IBM Quantum Experience,
20:59 - 21:02

Но если вы ищете
21:02 - 21:04

альтернативные возможности или
21:05 - 21:08

платформы для проведения своих
экспериментов,
21:09 - 21:11

то ее также можно рассмотреть.
21:12 - 21:14

Итак, это один из результатов.
21:14 - 21:19

Ещё один результат такого метода
квантовых машин опорных
21:21 - 21:28

векторов для классификации этих событий
показан на этом слайде,
21:28 - 21:29

на этом графике.
21:29 - 21:35

Обратите внимание, что здесь в учебных
целях было использовано 3 200 событий,
21:35 - 21:36

это немного,
21:38 - 21:43

но здесь показано, что даже с меньшим
количеством событий
21:43 - 21:48

квантовые методы, квантовые машины
опорных векторов
21:49 - 21:50

могут дать значения…
21:50 - 21:53

Ну, неточность здесь достаточно большая,
21:53 - 21:57

трудно сказать, что здесь есть реальное
преимущество, но это
21:58 - 22:01

также согласуется с типом экспериментов…
22:05 - 22:08

С типом экспериментов, которые я вам
показывал на прошлой неделе,
22:08 - 22:13

с использованием метода квантового
отжига, также для классификации.
22:14 - 22:15

Итак, это распространенная
22:15 - 22:18

тема в этих последних экспериментах.
22:18 - 22:20

Представляется, что
22:22 - 22:29

квантовые версии этих классических методов:
в случае квантового отжига
22:30 - 22:32

можно говорить о
22:32 - 22:36

сравнении с этими нейронными
сетями и некоторыми
22:36 - 22:38

деревьями решений, в случае
22:40 - 22:44

с квантовыми машинами опорных векторов
можно провести сравнение
22:44 - 22:46

с классическими машинами опорных
векторов и другими
22:48 - 22:50

классическими методами, но, похоже,
22:51 - 22:56

квантовые методы могут обучаться быстрее
с меньшим количеством экземпляров.
22:57 - 23:01

Это всего лишь гипотеза, она не доказана,
23:02 - 23:06

чтобы делать выводы, нужно еще много
экспериментов,
23:06 - 23:07

но эта тема распространена,
23:08 - 23:14

не только в этих двух работах, но и в других
недавно опубликованных.
23:15 - 23:21

Также верно, что эти модели, похоже,
быстрее выравниваются,
23:22 - 23:27

они не намного выигрывают
от новых экземпляров.
23:28 - 23:32

Но мне кажется, здесь есть кое-что
интересное для исследований.
23:32 - 23:37

И я уверен, что в ближайшем будущем это
будет исследовано более подробно.
23:39 - 23:42

Итак, перед тем, как перейти к следующей
модели квантового
23:43 - 23:46

машинного обучения… Есть ли у вас какие-то
23:48 - 23:51

вопросы на данном этапе? Нет?
23:52 - 23:54

Тогда я
23:56 - 23:57

покажу,
23:59 - 24:01

как запускать такие
24:03 - 24:06

машины опорных векторов, квантовые машины
опорных векторов,
24:06 - 24:08

в IBM Quantum Experience.
24:08 - 24:12

Конечно, эти квантовые машины
опорных векторов
24:13 - 24:15

реализованы в Qiskit, в Aqua,
24:15 - 24:18

потому что фактически они были предложены
исследователями из IBM.
24:18 - 24:21

Повторюсь, я запустил этот эксперимент
24:22 - 24:27

заранее, чтобы показать вам результаты
и не ждать здесь 10 минут,
24:30 - 24:32

пока программа закончит работу.
24:32 - 24:34

И также я хотел бы заметить,
24:36 - 24:38

что некоторые из вас пытались запустить
24:39 - 24:41

этот блокнот
24:42 - 24:43

перед лекцией.
24:44 - 24:47

Я опубликовал его вчера, и некоторые
люди уже
24:48 - 24:50

попытались его запустить.
24:50 - 24:53

Но в некоторых инсталляциях
с ним могут быть проблемы.
24:53 - 24:59

У меня в локальной инсталляции
они иногда возникали.
24:59 - 25:00

Это происходит из-за
25:02 - 25:07

несовместимости между библиотекой
matplotlib
25:10 - 25:14

и какой-то версией параллельного исполнения,
используемой в Qiskit.
25:14 - 25:19

Это происходит не всегда, не во всех
установках, например, здесь, в
25:21 - 25:25

IBM Quantum Experience, все прекрасно
работает.
25:25 - 25:30

У меня здесь блокнот с результатами, но вы
можете его запустить «с нуля»,
25:31 - 25:33

с самого начала, и он будет работать.
25:33 - 25:35

Но если вы столкнетесь с такой проблемой,
25:36 - 25:40

то она скорее всего связана
с использованием
25:40 - 25:43

библиотеки matplotlib.
25:45 - 25:48

Я забыл об этой проблеме, спасибо
25:49 - 25:51

Богдану Пульвеску,
25:53 - 25:56

за то, что сообщил мне об этой проблеме.
25:56 - 26:02

И я знаю, с чем она связана, и в IBM знают,
но, думаю, не могут её решить,
26:02 - 26:05

потому что она не связана непосредственно
с Qiskit.
26:06 - 26:09

Но я попробую создать
26:10 - 26:11

новую версию
26:13 - 26:15

блокнота без графиков,
26:15 - 26:20

чтобы вы тоже могли запустить её на своём
компьютере и локальной инсталляции.
26:20 - 26:22

Но если вы не можете этого сделать или
26:23 - 26:25

если хотите увидеть результаты сейчас,
26:25 - 26:27

вы можете открыть его в IBM
Quantum Experience,
26:27 - 26:29

и там он будет работать.
26:30 - 26:30

Итак,
26:32 - 26:33

сейчас я…
26:36 - 26:38

Вот поэтому я и хотел иметь здесь
эти графики, потому что
26:39 - 26:43

с ними проще понять, что я делаю…
26:43 - 26:45

Итак, сначала я генерирую
26:45 - 26:50

условный набор экземпляров для обучения
классификатора.
26:51 - 26:53

Я хочу отделить красные круги
от синих кругов.
26:53 - 26:58

Я просто построил кривую нормального
распределения
26:59 - 27:03

для красных кругов, и другую кривую
нормального распределения с другим
27:04 - 27:06

средним значением для синих кругов.
27:06 - 27:08

И затем я
27:09 - 27:10

определяю эту
27:10 - 27:13

карту характеристик, которую собираюсь
использовать,
27:13 - 27:17

эту вариационную форму, которую
собираюсь использовать, чтобы
27:18 - 27:21

перевести, или преобразовать, или встроить
27:21 - 27:24

входные данные в гильбертово пространство.
27:26 - 27:29

И есть много способов сделать это.
Это еще одна
27:29 - 27:31

область для исследований, которую я нахожу
27:31 - 27:35

очень интересной, и в ней сейчас идет
очень активная работа,
27:36 - 27:39

потому что все эти модели совсем недавние,
и здесь…
27:42 - 27:47

Вопрос в том, какой способ встраивания
данных самый лучший.
27:49 - 27:53

Я покажу вам в следующей модели,
в квантовых нейронных сетях,
27:53 - 27:55

или в квантовых вариационных
классификаторах,
27:55 - 27:58

некоторые результаты, теоретические
результаты,
27:58 - 28:01

над которыми работают некоторые
исследователи,
28:01 - 28:03

чтобы изучить
28:05 - 28:08

эти карты характеристик и понять,
какая из них лучше.
28:08 - 28:11

Но идея заключается в том, что для исследования
28:11 - 28:14

или использования возможностей
квантовых вычислений,
28:14 - 28:16

нужно, чтобы было запутывание.
28:17 - 28:19

Потому что если запутывания нет, то
28:22 - 28:25

это можно легко смоделировать и с помощью
классического компьютера.
28:25 - 28:26

Вот поэтому
28:27 - 28:31

практически все эти карты характеристик
содержат запутывание.
28:31 - 28:37

Здесь есть несколько подходов,
вращение фаз
28:37 - 28:39

и различные вентили.
28:40 - 28:42

И до этого момента это практически
искусство.
28:42 - 28:44

Вам нужно
28:46 - 28:49

определить карту характеристик, пытаясь
28:49 - 28:53

использовать некоторые из этих возможностей,
и загрузить наилучшую
28:53 - 28:54

карту характеристик в ваши данные.
28:55 - 28:56

Но, например, в этом случае
28:56 - 29:01

я использую вот эту карту, предоставленную
в Qiskit, Aqua,
29:02 - 29:04

и готовую к использованию.
29:04 - 29:07

И затем я просто должен
29:07 - 29:09

запросить выполнение
29:11 - 29:14

квантовой машины опорных векторов (QSVM),
указав, какую
29:15 - 29:20

карту характеристик хочу использовать и,
конечно, передать квантовую программу,
29:20 - 29:23

в данном случае это эмулятор
вектора состояния,
29:23 - 29:25

чтобы выполнить это вычисление быстрее.
29:25 - 29:28

А затем я обучаю QSVM
29:29 - 29:31

с помощью учебного ввода и учебных уровней.
29:32 - 29:33

В этой части
29:34 - 29:36

ввод встроен в
29:38 - 29:41

гильбертово пространство, внутренние
произведения
29:41 - 29:46

вычисляются с помощью квантовых схем,
а затем эти значения
29:47 - 29:52

используются для максимизации
двойной формулы QSVM,
29:52 - 29:53

чтобы получить коэффициенты.
29:54 - 29:55

И после этого
29:58 - 30:04

я получил несколько значений, несколько
дополнительных значений из тех же
30:05 - 30:07

кривых нормального распределения,
чтобы протестировать
30:07 - 30:13

и затем использовать QSVM, которую я
уже научил классифицировать.
30:13 - 30:18

Точность получилась не большая,
но и не плохая.
30:18 - 30:22

Я имею в виду, эта задача очень простая,
она не очень сложная, но
30:22 - 30:30

я не оптимизировал эту вариационную
форму, просто взял готовую,
30:30 - 30:33

и получил точность 80%.
30:34 - 30:39

Я могу это использовать также
в реальных ситуациях.
30:39 - 30:40

Например, в Aqua
30:41 - 30:43

есть возможность доступа
30:44 - 30:47

к некоторым предопределенным
наборам данных,
30:47 - 30:51

широко используемых в условиях
машинного обучения.
30:51 - 30:55

Например, здесь вы видите набор данных
о раке груди.
30:56 - 31:00

Оранжевые круги и синие круги.
31:00 - 31:03

И я опять использовал карту характеристик.
31:03 - 31:06

В данном случае карта, которую
я использовал, даже проще,
31:07 - 31:08

чем вот эта.
31:09 - 31:14

И я запустил задачу классификации
и получил 0.8.
31:15 - 31:16

А теперь
31:17 - 31:20

об эксперименте, о котором я вам говорил как
31:21 - 31:23

об очень интересном.
31:23 - 31:25

Я попробую его провести с другой картой.
31:27 - 31:29

Я увеличил количество повторений
31:30 - 31:31

этого блока.
31:31 - 31:36

В картах характеристик очень полезно
31:36 - 31:37

иметь простой блок,
31:37 - 31:39

повторяющийся несколько раз.
31:39 - 31:43

И с помощью этого я получаю
31:43 - 31:47

чуть большую точность классификации.
31:48 - 31:52

И так вы можете играть с различными картами
характеристик, различными
31:53 - 31:57

настройками, количеством экземпляров и т.д.
И смотреть, что получится.
32:02 - 32:04

Вернёмся теперь
32:04 - 32:07

к последней на сегодня модели, которую
я вам хотел показать.
32:08 - 32:09

Так,
32:12 - 32:17

в чате есть вопросы. Богдан Пульвеску
пишет, что
32:17 - 32:22

в новой версии Qiskit, версии 0.23.1,
проблема решена.
32:22 - 32:27

То есть если вы установите обновление
с новой версией, то проблем не будет.
32:27 - 32:33

А Ричард Политка (надеюсь, я произношу
имя правильно)
32:33 - 32:34

спрашивает:
32:35 - 32:39

«Если я правильно понял пример с ТТН,
то каждая характеристика
32:39 - 32:41

равна одному кубиту?»
32:42 - 32:45

Да, думаю, да.
32:45 - 32:49

Он имеет в виду, или она имеет в виду
вот этот пример.
32:51 - 32:52

Не думаю, что
32:54 - 32:56

они раскрывают
32:58 - 33:02

реальные карты, которыми пользуются,
33:02 - 33:06

потому что они всё ещё изучаются.
33:07 - 33:10

Но, думаю, в данном случае
они используют…
33:10 - 33:16

Они сокращают характеристику, которую
используют для классификации,
33:16 - 33:19

и затем используют один кубит
для каждой характеристики.
33:19 - 33:22

Я не до конца уверен, но думаю, что это так.
33:23 - 33:25

Есть и другие способы встраивания
33:26 - 33:30

данных, которые могут использовать кубиты
более
33:31 - 33:33

экономично.
33:33 - 33:37

Вы можете встроить больше информации
с тем же количеством кубитов,
33:37 - 33:40

и это было бы интересно изучить.
33:40 - 33:43

Но, думаю, здесь именно такой случай.
Итак, вопрос.
33:43 - 33:47

«Можем ли мы взять лучший квантовый
эмулятор на уровне
33:47 - 33:50

50 кубитов и сравнить его с усиленным
33:51 - 33:54

деревом решений машины опорных векторов
с 50 характеристиками?
33:54 - 33:57

Возможности классификации заключаются
не только в количестве данных,
33:57 - 33:58

но и в количестве характеристик»,
33:58 - 34:00

Вы абсолютно правы! Я имею в виду, что это
34:00 - 34:03

всего лишь предварительный эксперимент.
34:03 - 34:08

А скорее, все эксперименты в этом
направлении, о которых я знаю,
34:09 - 34:10

очень черновые.
34:11 - 34:14

Но здесь есть одно ограничение, конечно,
34:17 - 34:22

даже в очень мощном классическом симуляторе
квантового устройства,
34:23 - 34:28

скажем, не думаю, что даже сможем получить
50 кубитов, скажем, 40 кубитов.
34:29 - 34:33

И даже в этом случае время обучения
достаточно большое.
34:33 - 34:36

Так что я не думаю, что кто-то
это уже сделал,
34:37 - 34:39

но это очень важно.
34:39 - 34:41

Я имею в виду, то, что написал Ричард.
34:42 - 34:44

Сравнение количества характеристик,
которые вам нужны.
34:47 - 34:50

И в этом направлении ещё предстоит
много работы.
34:51 - 34:57

Qmware.com может быть полезным.
Я не знаком с этим, видимо,
34:59 - 35:03

эмулятором, о котором пишет Маркус Флитц,
35:04 - 35:05

но я попробую, попробую.
35:07 - 35:11

Да, существует очень много разных
эмуляторов, и ведётся
35:11 - 35:16

много работы в этом направлении, и все эти
ресурсы представляют большой интерес.
35:16 - 35:21

Я расскажу немного о квантовых эмуляторах
на следующей неделе.
35:23 - 35:28

Но почти каждую неделю появляется
что-то новое.
35:30 - 35:32

Есть ли ещё вопросы по этой теме?
35:37 - 35:42

Спасибо за вопросы, за обратную связь,
она тоже очень интересна.
35:43 - 35:46

И в этом и суть сессии в Зуме, чтобы можно
было взаимодействовать,
35:47 - 35:49

и, конечно, для тех, кто смотрит
35:49 - 35:53

веб-трансляцию или запись, помните,
что можете мне написать
35:54 - 35:58

по электронной почте, и я постараюсь
по возможности ответить
35:59 - 36:01

на все вопросы.

Title:: 6.4. Вариативные ал-тмы и машинное обучение. Опорные векторы, гиперплоскость, альтернатива Лагранжа
Description:: more » « less
Video Language:: English
Duration:: 36:02

	Юрий Ярцев edited Russian subtitles for 6.4. Вариативные ал-тмы и машинное обучение. Опорные векторы, гиперплоскость, альтернатива Лагранжа
	Юрий Ярцев edited Russian subtitles for 6.4. Вариативные ал-тмы и машинное обучение. Опорные векторы, гиперплоскость, альтернатива Лагранжа

Russian subtitles

Incomplete

Revisions

Revision 2 Edited

Юрий Ярцев

6.4. Вариативные ал-тмы и машинное обучение. Опорные векторы, гиперплоскость, альтернатива Лагранжа

Revisions

Our website uses cookies

Operating cookies (Required)