< Return to Video

6.4. Вариативные ал-тмы и машинное обучение. Опорные векторы, гиперплоскость, альтернатива Лагранжа

  • 0:01 - 0:05
    Итак, сначала мы изучим эти квантовые
    машины опорных векторов,
  • 0:07 - 0:09
    и это не те
  • 0:11 - 0:13
    квантовые машины опорных векторов,
  • 0:15 - 0:16
    о которых идет речь в этой таблице.
  • 0:16 - 0:20
    Нужно учитывать, что квантовое машинное
    обучение является
  • 0:20 - 0:22
    очень молодой областью,
  • 0:24 - 0:28
    которая разрабатывается максимум
    в последние 3-4 года.
  • 0:28 - 0:33
    И некоторые понятия и термины
    ещё не устоялись,
  • 0:33 - 0:38
    и существует несколько различных методов,
    которые называются одинаково
  • 0:38 - 0:40
    или очень похоже.
  • 0:40 - 0:42
    Так что это не тот прием,
  • 0:42 - 0:46
    который используется для получения
    экспоненциального ускорения,
  • 0:46 - 0:48
    это другой подход.
  • 0:52 - 0:53
    Это важно отметить.
  • 0:53 - 0:55
    Но идея заключается в том,
  • 0:57 - 0:59
    чтобы попытаться
  • 1:00 - 1:02
    продвинуть,
  • 1:02 - 1:05
    передать идею машин опорных
    векторов, приема,
  • 1:06 - 1:09
    который используется в классическом
    машинном обучении,
  • 1:09 - 1:12
    очень популярного приема в классическом
    машинном обучении,
  • 1:12 - 1:16
    в сферу квантовых вычислений для
  • 1:19 - 1:21
    получения преимущества, для
  • 1:23 - 1:26
    усовершенствования этих методов.
  • 1:27 - 1:29
    Так что, если вы не знаете,
  • 1:29 - 1:31
    что такое машины опорных векторов,
  • 1:31 - 1:35
    это методы машинного обучения,
  • 1:35 - 1:39
    используемые для классификации данных.
    Представьте, например, что у вас есть
  • 1:39 - 1:42
    какие-то данные определенного класса.
  • 1:42 - 1:45
    Мы пытаемся отличить
  • 1:46 - 1:50
    черные экземпляры от белых.
  • 1:50 - 1:56
    И думаю, можно попытаться разделить их
    с помощью гиперплоскости.
  • 1:56 - 1:59
    В данном случае, так как мы в двухмерном
    пространстве,
  • 1:59 - 2:01
    это просто линия.
  • 2:01 - 2:03
    И затем вычисляем
  • 2:03 - 2:08
    расстояние от нового экземпляра
    до этой линии, чтобы понять,
  • 2:08 - 2:12
    в какой части плоскости он находится.
  • 2:12 - 2:16
    И затем вы относите его к классу
    белых или черных.
  • 2:17 - 2:22
    На этой же идее основан и перцептрон,
  • 2:22 - 2:25
    классический алгоритм нейронной машины.
  • 2:25 - 2:29
    Но концепция машины опорных векторов
    заключается в том, что
  • 2:29 - 2:32
    можно использовать несколько разных
    гиперплоскостей,
  • 2:32 - 2:34
    чтобы разделить данные.
  • 2:34 - 2:38
    Например, Н1 не подойдет, потому что
    она не отделяет
  • 2:39 - 2:43
    черное от белого, а вот Н2 и Н3
  • 2:43 - 2:46
    могут выполнить эту задачу, могут отделить
  • 2:49 - 2:51
    черные круги от белых.
  • 2:51 - 2:54
    Итак, какую мы должны выбрать?
  • 2:54 - 2:57
    Идея машин опорных векторов
    в том, что вы должны
  • 2:58 - 3:02
    выбрать ту, у которой расстояние
    от ближайших
  • 3:02 - 3:07
    экземпляров каждого класса
    до гиперплоскости
  • 3:08 - 3:09
    самое большое.
  • 3:09 - 3:11
    Например, в данном случае
  • 3:11 - 3:17
    черные образцы находятся слишком близко
    к гиперплоскости, белые экземпляры
  • 3:17 - 3:19
    слишком близко к гиперплоскости.
  • 3:19 - 3:21
    А если я использую вот эту гиперплоскость,
  • 3:21 - 3:23
    то расстояние здесь больше.
  • 3:24 - 3:28
    Так что, чтобы вычислить эту гиперплоскость,
  • 3:28 - 3:30
    вы можете
  • 3:31 - 3:32
    присвоить
  • 3:34 - 3:36
    значения «1» и «-1»,
  • 3:36 - 3:39
    например, черным и белым кругам.
  • 3:39 - 3:40
    А затем вычисляете
  • 3:42 - 3:46
    вот это произведение гиперплоскости,
    параметров гиперплоскости,
  • 3:47 - 3:51
    которая используется для разделения,
    и одного из экземпляров.
  • 3:51 - 3:54
    И оно получится либо положительным, либо
    отрицательным.
  • 3:54 - 3:59
    Если оно положительное, вы относите
    экземпляр к классу «+1».
  • 3:59 - 4:04
    Если оно отрицательное, вы относите
    экземпляр к классу «-1».
  • 4:04 - 4:06
    Итак, вам нужно, чтобы
  • 4:06 - 4:12
    произведение фактического уровня экземпляра
    и этого значения, которые вы вычислили
  • 4:12 - 4:16
    и используете для классификации экземпляра
    как положительного или отрицательного,
  • 4:16 - 4:19
    их произведение должно быть
    положительным.
  • 4:20 - 4:24
    Если оно отрицательное, то и класс
    должен быть отрицательным.
  • 4:24 - 4:28
    Или, наверное, лучше сказать, что если
    класс отрицательный,
  • 4:28 - 4:30
    то ваше предвычисление должно также
    быть отрицательным,
  • 4:30 - 4:33
    а если класс положительный, реальный класс
    положительный,
  • 4:34 - 4:35
    то и предвычисление должно быть
    положительным.
  • 4:36 - 4:38
    Итак, вот нужное вам ограничение.
  • 4:38 - 4:43
    И при этом ограничении, для всех имеющихся
    экземпляров учебных данных,
  • 4:45 - 4:52
    вот это значение, единица, деленная
    на абсолютное значение нормы W,
  • 4:52 - 4:55
    коэффициенты гиперплоскости,
  • 4:55 - 4:57
    дает вам разделение.
  • 4:58 - 5:01
    Так что вам нужно сделать
  • 5:01 - 5:07
    это значение как можно большим, чтобы
    разделение было как можно большим.
  • 5:07 - 5:12
    То есть вам нужно минимизировать обратную
    величину вот этого значения.
  • 5:13 - 5:17
    Итак, вы можете использовать эту формулу
    в классическом машинном обучении,
  • 5:17 - 5:21
    чтобы получить гиперплоскость,
  • 5:21 - 5:26
    разделяющую экземпляры с наибольшим
    возможным полем.
  • 5:27 - 5:28
    В чем же проблема?
  • 5:28 - 5:33
    Проблема здесь в том, что вы применяете
    это условие ко всем экземплярам.
  • 5:33 - 5:40
    В этом случае, где круги могут быть линейно
    разделены, вы можете найти
  • 5:40 - 5:42
    эту гиперплоскость.
  • 5:42 - 5:43
    Но в общем случае
  • 5:44 - 5:47
    у вас могут быть выбросы здесь, некоторые
  • 5:47 - 5:52
    белые круги в этой части, некоторые черные
    круги близко к белым,
  • 5:52 - 5:57
    и найти гиперплоскость, которая бы полность
    отделила
  • 5:57 - 6:01
    черные экземпляры от белых, невозможно.
  • 6:02 - 6:07
    В этом случае мы используем формулу
    модели машины опорных векторов,
  • 6:07 - 6:10
    которая называется мягкой маржой
    (или мягким зазором),
  • 6:10 - 6:16
    в котором мы позволяем нарушать эти
    условия в определенном диапазоне.
  • 6:16 - 6:22
    Но при этом мы хотим, чтобы такое нарушение
    происходило не слишком часто.
  • 6:23 - 6:27
    Вот это условие штрафа, регулирующее
    условие,
  • 6:27 - 6:31
    и если возникает много нарушений
    этого условия,
  • 6:31 - 6:37
    то общая стоимость модели повышается,
    и она не будет выбрана.
  • 6:40 - 6:44
    Так что прием добавления такого регулирующего
    условия является достаточно распространенным
  • 6:46 - 6:49
    во многих методах машинного обучения,
  • 6:50 - 6:53
    давая модели больше гибкости, но не
  • 6:55 - 7:02
    позволяя полной свободы и бесконечного
    нарушения многих условий.
  • 7:04 - 7:09
    Итак. Для решения такого рода задач,
    или для моделей с такого рода
  • 7:10 - 7:15
    проблемой оптимизации (как обычно формулируют
    это для машин с опорными векторами),
  • 7:15 - 7:21
    мы обычно рассматриваем так называемую
    двойную формулу
  • 7:21 - 7:22
    машины с опорными векторами.
  • 7:22 - 7:24
    Вместо решения этого типа задач,
  • 7:24 - 7:25
    мы решаем
  • 7:26 - 7:28
    связанную с ними задачу, получаемую
  • 7:28 - 7:31
    с помощью множителей Лагранжа
    и тому подобных вещей.
  • 7:32 - 7:35
    Она имеет точно такое же решение,
  • 7:35 - 7:40
    но формулируется в терминах
    коэффициентов α «i»,
  • 7:40 - 7:43
    которые должны находиться между «0»
    и этим регулирующим
  • 7:44 - 7:46
    условием, которое мы добавили
  • 7:47 - 7:49
    в случае мягкой маржи
  • 7:49 - 7:51
    в соответствии с этим ограничением,
  • 7:53 - 7:57
    и функцией, которую нам нужно максимизировать
  • 7:58 - 7:59
    (это важно отметить).
  • 7:59 - 8:04
    Она выражена вот этими произведениями,
    вот этими внутренними произведениями,
  • 8:06 - 8:09
    экземпляров учебных данных, которыми
    мы располагаем.
  • 8:10 - 8:13
    И можно доказать, что если
    мы решим эту задачу,
  • 8:13 - 8:21
    её решение даст нам решение исходной
    задачи, вот этой задачи оптимизации.
  • 8:21 - 8:22
    И мы сможем восстановить
  • 8:23 - 8:30
    значения W и В из коэффициентов α «i»,
    которые мы получили при решении
  • 8:30 - 8:31
    задачи максимизации.
  • 8:32 - 8:36
    И на самом деле, можно использовать
    α «i» непосредственно, чтобы
  • 8:37 - 8:39
    классифицировать новые экземпляры.
  • 8:39 - 8:42
    И, опять же, используя то, что учитывает
  • 8:43 - 8:46
    внутреннее произведение экземпляров
  • 8:48 - 8:50
    (экземпляров учебных данных)
  • 8:50 - 8:53
    и нового экземпляра, который нам нужно
    классифицировать.
  • 8:54 - 8:58
    Мы можем это использовать для определения
  • 8:58 - 9:02
    общих характеристик модели
    машины опорных векторов,
  • 9:02 - 9:06
    которая вместо гиперплоскости
    или линейного разделения
  • 9:07 - 9:13
    использует более общие функции, или более
    общие границы для разделения данных.
  • 9:13 - 9:17
    Может случиться, что у вас есть данные,
  • 9:17 - 9:21
    которые нужно классифицировать, и которые
    не могут быть разделены линейно.
  • 9:21 - 9:23
    Как вот в этом случае. Но вы можете
  • 9:24 - 9:29
    определить другую функцию, другую границу,
    которая отделит
  • 9:29 - 9:32
    в этом случае синие круги от от красных.
  • 9:33 - 9:40
    Иногда это разделение может быть выражено,
    как линейное разделение,
  • 9:41 - 9:44
    но в более многомерном пространстве.
  • 9:44 - 9:49
    Мы можем встроить исходное пространство ввода
    в так называемое пространство признаков,
  • 9:49 - 9:54
    и тогда данные, неразделимые в
    пространстве ввода,
  • 9:54 - 9:57
    можно линейно разделить в пространстве
    признаков.
  • 9:58 - 10:01
    Итак, мы обозначаем экземпляр xi
  • 10:01 - 10:06
    на векторах более многомерного
    пространства,
  • 10:10 - 10:11
    используя
  • 10:13 - 10:15
    функцию, которая называется картой
    характеристик,
  • 10:15 - 10:19
    эту φ, которая переводит пространство ввода
    в более многомерное пространство,
  • 10:19 - 10:21
    и затем решаем
  • 10:21 - 10:24
    задачу машины опорных векторов
  • 10:24 - 10:26
    в этом более многомерном пространстве.
  • 10:26 - 10:29
    И можно увидеть, что это хорошо работает
  • 10:29 - 10:35
    для классических машин опорных векторов
    во многих случаях.
  • 10:35 - 10:41
    И идея заключается в том, что мы можем
    преобразовать задачу оптимизации,
  • 10:43 - 10:46
    рассматривая это более многомерное
    пространство,
  • 10:46 - 10:49
    и из двойной формулы мы получаем
  • 10:50 - 10:52
    очень похожую задачу, но теперь вместо
  • 10:53 - 10:55
    вычисления внутреннего произведения
  • 10:56 - 11:00
    изначальных экземпляров в пространстве
    ввода нам нужно вычислить
  • 11:01 - 11:02
    внутреннее произведение
  • 11:03 - 11:06
    трансформирующих векторов
    в пространстве признаков.
  • 11:06 - 11:09
    А остальная часть формулы
    точно такая же.
  • 11:09 - 11:14
    И затем, чтобы вычислить уровень
    и классифицировать экземпляр,
  • 11:14 - 11:17
    нам не нужно
  • 11:18 - 11:20
    непосредственно вычислять
    это преобразование.
  • 11:20 - 11:25
    Возможно, это преобразование дает
    нам что-то очень многомерное,
  • 11:25 - 11:29
    или даже бесконечномерное,
    что иногда случается.
  • 11:29 - 11:33
    Но до тех пор, пока мы можем вычислить
    эти внутренние произведения
  • 11:33 - 11:37
    из выражений исходных точек,
  • 11:37 - 11:41
    мы можем решить задачу и классифицировать
    новые экземпляры.
  • 11:43 - 11:48
    Функцию, которая вычисляет это внутреннее
    произведение в пространстве признаков,
  • 11:48 - 11:53
    называют «ядром», и поэтому вот это
    называют «ядерным трюком».
  • 11:55 - 11:58
    Эта теория полностью взята из классического
    машинного обучения,
  • 12:00 - 12:05
    но дело в том, что мы можем исследовать
    эту идею ядерного трюка для
  • 12:06 - 12:11
    использования карты характеристик, получаемую
    из вариационной формы.
  • 12:12 - 12:19
    Почему это интересно, или как это может
    помочь получить что-то
  • 12:21 - 12:25
    более эффективное, или дающее
    лучшие результаты,
  • 12:25 - 12:29
    чем классическое машинное обучение, или
    классические машины опорных векторов?
  • 12:29 - 12:30
    Помните, что
  • 12:32 - 12:35
    в гильбертовом пространстве, в котором у нас находятся
  • 12:36 - 12:37
    эти состояния кубитов,
  • 12:37 - 12:41
    размер растет по экспоненте
    с ростом числа кубитов.
  • 12:41 - 12:43
    Так что идея,
  • 12:43 - 12:47
    предложенная, например, в 2019 г.,
  • 12:47 - 12:51
    в прошлом году исследователями из IBM,
  • 12:52 - 12:54
    заключается в том, чтобы встроить
  • 12:54 - 12:57
    наше пространство ввода в гильбертово
    пространство
  • 12:58 - 13:01
    с помощью одной из этих вариационных схем,
  • 13:01 - 13:04
    то есть мы используем вводные данные
    в качестве параметров
  • 13:04 - 13:07
    в вариационной форме, и затем
  • 13:07 - 13:11
    вычислять внутреннее произведение
    с помощью квантового компьютера.
  • 13:11 - 13:16
    Для определенных карт характеристик,
  • 13:16 - 13:18
    для определенных вариационных форм
  • 13:19 - 13:22
    это невозможно сделать с помощью
    классических вычислений,
  • 13:22 - 13:25
    поскольку вы работаете с этим
    экспоненциальным
  • 13:25 - 13:27
    количеством параметров, ну или
    предполагается,
  • 13:27 - 13:33
    что это невозможно сделать с помощью
    классических вычислений.
  • 13:33 - 13:34
    Вы знаете, что у нас нет
  • 13:36 - 13:39
    математических доказательств такого
    факта, но
  • 13:39 - 13:42
    все свидетельствует именно об этом.
  • 13:42 - 13:44
    В общем, может быть
  • 13:45 - 13:46
    полезно
  • 13:47 - 13:52
    изучить возможность встраивания
    наших данных
  • 13:52 - 13:53
    в гильбертово пространство,
  • 13:53 - 13:58
    обработки этих данных с помощью квантового
    компьютера, вычисления
  • 13:58 - 14:00
    этого внутреннего произведения и затем
  • 14:01 - 14:05
    решения соответствующей задачи
  • 14:05 - 14:09
    максимизации в двойной формуле
    для машин опорных векторов,
  • 14:10 - 14:11
    чтобы получить
  • 14:12 - 14:14
    коэффициенты α «i».
  • 14:14 - 14:17
    А затем, когда нам снова понадобится
    классифицировать новый экземпляр,
  • 14:17 - 14:19
    мы используем вот эту формулу
  • 14:20 - 14:24
    для получения уровня, и вот это вычисление
  • 14:26 - 14:30
    внутреннего произведения выполняется опять
    с помощью квантового компьютера.
  • 14:30 - 14:34
    И мы уже знаем, как вычислять такое
    внутреннее произведение.
  • 14:35 - 14:37
    Это точно такая же ситуация,
  • 14:37 - 14:42
    как и с моделью VQE, когда мы пытались
    вычислить
  • 14:44 - 14:48
    внутреннее произведение основного состояния
    на новые состояния, которые мы доказывали.
  • 14:48 - 14:52
    А в данном случае это даже проще,
    потому что
  • 14:52 - 14:54
    у нас нет исходного состояния.
  • 14:54 - 14:57
    Исходное состояние всегда «0»,
    и у нас есть эта
  • 14:57 - 14:59
    вариационная форма, которая преобразовывает
  • 15:01 - 15:04
    входные данные, первоначальные входные
    данные,
  • 15:06 - 15:08
    представляя
  • 15:09 - 15:11
    их как состояния в гильбертовом
    пространстве.
  • 15:11 - 15:16
    И для того, чтобы вычислить внутреннее
    произведение (то, что нам нужно),
  • 15:17 - 15:20
    определить функцию ядра, такую,
    как вот эта,
  • 15:21 - 15:25
    единственное, что нам нужно, это подобная
    вот этой схема.
  • 15:26 - 15:27
    И повторюсь, мы запускаем схему,
  • 15:28 - 15:29
    объяснение
  • 15:31 - 15:34
    точно такое же, как и для VQE,
  • 15:35 - 15:39
    точно такой же трюк и мы использовали…
  • 15:43 - 15:51
    Итак, мы запускаем схему, чтобы оценить
    частоту измерения «0»,
  • 15:51 - 15:56
    и это позволяет нам оценить
    вот это значение.
  • 15:57 - 15:58
    А затем
  • 15:59 - 16:02
    мы решаем задачу с помощью классических
    приемов, задачу
  • 16:02 - 16:06
    двойственной формулировки машины опорных
    векторов, мы получаем α «i»,
  • 16:07 - 16:09
    и когда нам нужно классифицировать
    новый экземпляр,
  • 16:10 - 16:12
    мы используем эту формулу,
  • 16:13 - 16:16
    а для вычисления ядра, для вычисления
    внутреннего произведения
  • 16:16 - 16:19
    мы используем вот такую схему.
  • 16:20 - 16:26
    Итак, вот идея квантовых машин опорных
    векторов в этой формуле, которую
  • 16:26 - 16:31
    в прошлом году предложили
    исследователи из IBM.
  • 16:31 - 16:37
    И это уже используется в физике
    высоких энергий.
  • 16:37 - 16:42
    Я взял этот слайд из презентации к семинару,
  • 16:43 - 16:46
    который проводил Сао Ланг Ву
  • 16:47 - 16:50
    чуть больше месяца назад. Я разместил
  • 16:52 - 16:52
    ссылку
  • 16:53 - 16:55
    на видеозапись этого семинара
  • 16:55 - 16:59
    на странице Indico, потому что считаю его
    очень-очень интересным.
  • 16:59 - 17:01
    На нем рассказывается о различных
  • 17:02 - 17:05
    моделях квантового машинного обучения,
    которое используется
  • 17:05 - 17:07
    для решения задач в физике высоких энергий.
  • 17:07 - 17:10
    И это имеет прямое отношение к нашей
    сегодняшней теме.
  • 17:11 - 17:14
    Я хочу показать вам несколько примеров того,
  • 17:16 - 17:19
    как группа исследователей, возглавляемая
    Сао Ланг Ву,
  • 17:20 - 17:24
    использует эти техники для решения задач
    в физике высоких энергий.
  • 17:25 - 17:30
    Я хочу отметить, что среди исследователей,
    участвующих
  • 17:30 - 17:35
    в этих экспериментах, есть два исследователя
  • 17:35 - 17:40
    из Открытой лаборатории ЦЕРНа, которая
    сотрудничает с другими организациями
  • 17:41 - 17:44
    для получения таких интересных результатов.
  • 17:45 - 17:50
    Итак, повторюсь, идея в том, чтобы, как я
    вам показывал и на прошлой неделе,
  • 17:52 - 17:54
    классифицировать
  • 17:55 - 18:01
    серию событий столкновения частиц,
  • 18:02 - 18:06
    чтобы увидеть, получился ли бозон Хиггса.
  • 18:06 - 18:08
    У нас есть сигнал,
  • 18:09 - 18:14
    набор событий и фон, и мы хотим
    отделить сигнал от фона.
  • 18:15 - 18:19
    То есть это задача классификации, в которой
    мы можем присвоить, например,
  • 18:19 - 18:22
    уровень «1» сигналу, уровень «-1»
  • 18:22 - 18:25
    фону, и мы можем использовать
    конечно же,
  • 18:25 - 18:28
    приемы классического машинного обучения,
  • 18:28 - 18:30
    такие как машины опорных векторов.
  • 18:30 - 18:32
    А если можно использовать машины опорных
    векторов,
  • 18:32 - 18:34
    то также можно использовать и квантовые
    машины опорных векторов,
  • 18:35 - 18:37
    и именно это и сделали указанные
    исследователи.
  • 18:38 - 18:42
    И сейчас я вам показываю часть результатов
  • 18:43 - 18:45
    семинара, а также
  • 18:47 - 18:52
    общедоступные слайды этого семинара.
  • 18:52 - 18:55
    Мне кажется, я не разместил ссылку,
    но я это сделаю.
  • 18:55 - 18:58
    Результатов намного больше, но здесь
    я вам показываю, что
  • 18:59 - 19:01
    эти результаты, запущенные
  • 19:02 - 19:05
    на эмуляторе Аmazon AWS,
  • 19:07 - 19:10
    были немного лучше в плане
  • 19:10 - 19:16
    способности классификации, чем,
    например, у дерева бинарных…
  • 19:16 - 19:19
    нет, думаю, это усиленное дерево
    решений (boosted decision tree),
  • 19:19 - 19:21
    метода классического машинного обучения
  • 19:21 - 19:24
    или машин опорных векторов.
    Разница небольшая,
  • 19:24 - 19:27
    но она показывает, что с помощью...
  • 19:27 - 19:33
    Они пробовали как с помощью Эмулятора IBM,
    так и с помощью эмулятора Amazon,
  • 19:33 - 19:36
    получить преимущество или большую
  • 19:36 - 19:40
    дискриминационную способность с помощью
    таких методов.
  • 19:41 - 19:44
    Конечно, эксперименты, которые мы
    можем проводить
  • 19:45 - 19:47
    на данный момент, очень ограничены,
    потому что у наших компьютеров
  • 19:49 - 19:54
    есть большое ограничение по кубитам,
  • 19:56 - 20:02
    и наши возможности моделирования также
    очень ограничены, мы не можем
  • 20:02 - 20:05
    продвинуться дальше, боюсь соврать,
  • 20:06 - 20:11
    10 кубитов, как здесь, или дальше
    20 кубитов, что-то около того.
  • 20:12 - 20:16
    Так что мы ожидаем, что когда у нас будут
    квантовые компьютеры
  • 20:16 - 20:18
    больших размеров, которые мы
    сможем использовать
  • 20:18 - 20:19
    для такого рода экспериментов,
  • 20:19 - 20:23
    мы сможем получить еще большую
    производительность.
  • 20:24 - 20:26
    Я также хочу заметить, что
  • 20:27 - 20:31
    Amazon недавно запустил программу
  • 20:31 - 20:35
    на платформе AWS,
  • 20:35 - 20:39
    в которой можно использовать несколько
    различных
  • 20:39 - 20:42
    не только эмуляторов, но также и несколько
    различных
  • 20:42 - 20:44
    реальных квантовых устройств.
  • 20:44 - 20:45
    Они сотрудничают,
  • 20:46 - 20:52
    мне кажется, с IonQ, Rigetti и D-Wave.
  • 20:54 - 20:57
    И насколько я знаю, использование
    этой программы не бесплатно,
  • 20:57 - 20:59
    как IBM Quantum Experience,
  • 20:59 - 21:02
    Но если вы ищете
  • 21:02 - 21:04
    альтернативные возможности или
  • 21:05 - 21:08
    платформы для проведения своих
    экспериментов,
  • 21:09 - 21:11
    то ее также можно рассмотреть.
  • 21:12 - 21:14
    Итак, это один из результатов.
  • 21:14 - 21:19
    Ещё один результат такого метода
    квантовых машин опорных
  • 21:21 - 21:28
    векторов для классификации этих событий
    показан на этом слайде,
  • 21:28 - 21:29
    на этом графике.
  • 21:29 - 21:35
    Обратите внимание, что здесь в учебных
    целях было использовано 3 200 событий,
  • 21:35 - 21:36
    это немного,
  • 21:38 - 21:43
    но здесь показано, что даже с меньшим
    количеством событий
  • 21:43 - 21:48
    квантовые методы, квантовые машины
    опорных векторов
  • 21:49 - 21:50
    могут дать значения…
  • 21:50 - 21:53
    Ну, неточность здесь достаточно большая,
  • 21:53 - 21:57
    трудно сказать, что здесь есть реальное
    преимущество, но это
  • 21:58 - 22:01
    также согласуется с типом экспериментов…
  • 22:05 - 22:08
    С типом экспериментов, которые я вам
    показывал на прошлой неделе,
  • 22:08 - 22:13
    с использованием метода квантового
    отжига, также для классификации.
  • 22:14 - 22:15
    Итак, это распространенная
  • 22:15 - 22:18
    тема в этих последних экспериментах.
  • 22:18 - 22:20
    Представляется, что
  • 22:22 - 22:29
    квантовые версии этих классических методов:
    в случае квантового отжига
  • 22:30 - 22:32
    можно говорить о
  • 22:32 - 22:36
    сравнении с этими нейронными
    сетями и некоторыми
  • 22:36 - 22:38
    деревьями решений, в случае
  • 22:40 - 22:44
    с квантовыми машинами опорных векторов
    можно провести сравнение
  • 22:44 - 22:46
    с классическими машинами опорных
    векторов и другими
  • 22:48 - 22:50
    классическими методами, но, похоже,
  • 22:51 - 22:56
    квантовые методы могут обучаться быстрее
    с меньшим количеством экземпляров.
  • 22:57 - 23:01
    Это всего лишь гипотеза, она не доказана,
  • 23:02 - 23:06
    чтобы делать выводы, нужно еще много
    экспериментов,
  • 23:06 - 23:07
    но эта тема распространена,
  • 23:08 - 23:14
    не только в этих двух работах, но и в других
    недавно опубликованных.
  • 23:15 - 23:21
    Также верно, что эти модели, похоже,
    быстрее выравниваются,
  • 23:22 - 23:27
    они не намного выигрывают
    от новых экземпляров.
  • 23:28 - 23:32
    Но мне кажется, здесь есть кое-что
    интересное для исследований.
  • 23:32 - 23:37
    И я уверен, что в ближайшем будущем это
    будет исследовано более подробно.
  • 23:39 - 23:42
    Итак, перед тем, как перейти к следующей
    модели квантового
  • 23:43 - 23:46
    машинного обучения… Есть ли у вас какие-то
  • 23:48 - 23:51
    вопросы на данном этапе? Нет?
  • 23:52 - 23:54
    Тогда я
  • 23:56 - 23:57
    покажу,
  • 23:59 - 24:01
    как запускать такие
  • 24:03 - 24:06
    машины опорных векторов, квантовые машины
    опорных векторов,
  • 24:06 - 24:08
    в IBM Quantum Experience.
  • 24:08 - 24:12
    Конечно, эти квантовые машины
    опорных векторов
  • 24:13 - 24:15
    реализованы в Qiskit, в Aqua,
  • 24:15 - 24:18
    потому что фактически они были предложены
    исследователями из IBM.
  • 24:18 - 24:21
    Повторюсь, я запустил этот эксперимент
  • 24:22 - 24:27
    заранее, чтобы показать вам результаты
    и не ждать здесь 10 минут,
  • 24:30 - 24:32
    пока программа закончит работу.
  • 24:32 - 24:34
    И также я хотел бы заметить,
  • 24:36 - 24:38
    что некоторые из вас пытались запустить
  • 24:39 - 24:41
    этот блокнот
  • 24:42 - 24:43
    перед лекцией.
  • 24:44 - 24:47
    Я опубликовал его вчера, и некоторые
    люди уже
  • 24:48 - 24:50
    попытались его запустить.
  • 24:50 - 24:53
    Но в некоторых инсталляциях
    с ним могут быть проблемы.
  • 24:53 - 24:59
    У меня в локальной инсталляции
    они иногда возникали.
  • 24:59 - 25:00
    Это происходит из-за
  • 25:02 - 25:07
    несовместимости между библиотекой
    matplotlib
  • 25:10 - 25:14
    и какой-то версией параллельного исполнения,
    используемой в Qiskit.
  • 25:14 - 25:19
    Это происходит не всегда, не во всех
    установках, например, здесь, в
  • 25:21 - 25:25
    IBM Quantum Experience, все прекрасно
    работает.
  • 25:25 - 25:30
    У меня здесь блокнот с результатами, но вы
    можете его запустить «с нуля»,
  • 25:31 - 25:33
    с самого начала, и он будет работать.
  • 25:33 - 25:35
    Но если вы столкнетесь с такой проблемой,
  • 25:36 - 25:40
    то она скорее всего связана
    с использованием
  • 25:40 - 25:43
    библиотеки matplotlib.
  • 25:45 - 25:48
    Я забыл об этой проблеме, спасибо
  • 25:49 - 25:51
    Богдану Пульвеску,
  • 25:53 - 25:56
    за то, что сообщил мне об этой проблеме.
  • 25:56 - 26:02
    И я знаю, с чем она связана, и в IBM знают,
    но, думаю, не могут её решить,
  • 26:02 - 26:05
    потому что она не связана непосредственно
    с Qiskit.
  • 26:06 - 26:09
    Но я попробую создать
  • 26:10 - 26:11
    новую версию
  • 26:13 - 26:15
    блокнота без графиков,
  • 26:15 - 26:20
    чтобы вы тоже могли запустить её на своём
    компьютере и локальной инсталляции.
  • 26:20 - 26:22
    Но если вы не можете этого сделать или
  • 26:23 - 26:25
    если хотите увидеть результаты сейчас,
  • 26:25 - 26:27
    вы можете открыть его в IBM
    Quantum Experience,
  • 26:27 - 26:29
    и там он будет работать.
  • 26:30 - 26:30
    Итак,
  • 26:32 - 26:33
    сейчас я…
  • 26:36 - 26:38
    Вот поэтому я и хотел иметь здесь
    эти графики, потому что
  • 26:39 - 26:43
    с ними проще понять, что я делаю…
  • 26:43 - 26:45
    Итак, сначала я генерирую
  • 26:45 - 26:50
    условный набор экземпляров для обучения
    классификатора.
  • 26:51 - 26:53
    Я хочу отделить красные круги
    от синих кругов.
  • 26:53 - 26:58
    Я просто построил кривую нормального
    распределения
  • 26:59 - 27:03
    для красных кругов, и другую кривую
    нормального распределения с другим
  • 27:04 - 27:06
    средним значением для синих кругов.
  • 27:06 - 27:08
    И затем я
  • 27:09 - 27:10
    определяю эту
  • 27:10 - 27:13
    карту характеристик, которую собираюсь
    использовать,
  • 27:13 - 27:17
    эту вариационную форму, которую
    собираюсь использовать, чтобы
  • 27:18 - 27:21
    перевести, или преобразовать, или встроить
  • 27:21 - 27:24
    входные данные в гильбертово пространство.
  • 27:26 - 27:29
    И есть много способов сделать это.
    Это еще одна
  • 27:29 - 27:31
    область для исследований, которую я нахожу
  • 27:31 - 27:35
    очень интересной, и в ней сейчас идет
    очень активная работа,
  • 27:36 - 27:39
    потому что все эти модели совсем недавние,
    и здесь…
  • 27:42 - 27:47
    Вопрос в том, какой способ встраивания
    данных самый лучший.
  • 27:49 - 27:53
    Я покажу вам в следующей модели,
    в квантовых нейронных сетях,
  • 27:53 - 27:55
    или в квантовых вариационных
    классификаторах,
  • 27:55 - 27:58
    некоторые результаты, теоретические
    результаты,
  • 27:58 - 28:01
    над которыми работают некоторые
    исследователи,
  • 28:01 - 28:03
    чтобы изучить
  • 28:05 - 28:08
    эти карты характеристик и понять,
    какая из них лучше.
  • 28:08 - 28:11
    Но идея заключается в том, что для исследования
  • 28:11 - 28:14
    или использования возможностей
    квантовых вычислений,
  • 28:14 - 28:16
    нужно, чтобы было запутывание.
  • 28:17 - 28:19
    Потому что если запутывания нет, то
  • 28:22 - 28:25
    это можно легко смоделировать и с помощью
    классического компьютера.
  • 28:25 - 28:26
    Вот поэтому
  • 28:27 - 28:31
    практически все эти карты характеристик
    содержат запутывание.
  • 28:31 - 28:37
    Здесь есть несколько подходов,
    вращение фаз
  • 28:37 - 28:39
    и различные вентили.
  • 28:40 - 28:42
    И до этого момента это практически
    искусство.
  • 28:42 - 28:44
    Вам нужно
  • 28:46 - 28:49
    определить карту характеристик, пытаясь
  • 28:49 - 28:53
    использовать некоторые из этих возможностей,
    и загрузить наилучшую
  • 28:53 - 28:54
    карту характеристик в ваши данные.
  • 28:55 - 28:56
    Но, например, в этом случае
  • 28:56 - 29:01
    я использую вот эту карту, предоставленную
    в Qiskit, Aqua,
  • 29:02 - 29:04
    и готовую к использованию.
  • 29:04 - 29:07
    И затем я просто должен
  • 29:07 - 29:09
    запросить выполнение
  • 29:11 - 29:14
    квантовой машины опорных векторов (QSVM),
    указав, какую
  • 29:15 - 29:20
    карту характеристик хочу использовать и,
    конечно, передать квантовую программу,
  • 29:20 - 29:23
    в данном случае это эмулятор
    вектора состояния,
  • 29:23 - 29:25
    чтобы выполнить это вычисление быстрее.
  • 29:25 - 29:28
    А затем я обучаю QSVM
  • 29:29 - 29:31
    с помощью учебного ввода и учебных уровней.
  • 29:32 - 29:33
    В этой части
  • 29:34 - 29:36
    ввод встроен в
  • 29:38 - 29:41
    гильбертово пространство, внутренние
    произведения
  • 29:41 - 29:46
    вычисляются с помощью квантовых схем,
    а затем эти значения
  • 29:47 - 29:52
    используются для максимизации
    двойной формулы QSVM,
  • 29:52 - 29:53
    чтобы получить коэффициенты.
  • 29:54 - 29:55
    И после этого
  • 29:58 - 30:04
    я получил несколько значений, несколько
    дополнительных значений из тех же
  • 30:05 - 30:07
    кривых нормального распределения,
    чтобы протестировать
  • 30:07 - 30:13
    и затем использовать QSVM, которую я
    уже научил классифицировать.
  • 30:13 - 30:18
    Точность получилась не большая,
    но и не плохая.
  • 30:18 - 30:22
    Я имею в виду, эта задача очень простая,
    она не очень сложная, но
  • 30:22 - 30:30
    я не оптимизировал эту вариационную
    форму, просто взял готовую,
  • 30:30 - 30:33
    и получил точность 80%.
  • 30:34 - 30:39
    Я могу это использовать также
    в реальных ситуациях.
  • 30:39 - 30:40
    Например, в Aqua
  • 30:41 - 30:43
    есть возможность доступа
  • 30:44 - 30:47
    к некоторым предопределенным
    наборам данных,
  • 30:47 - 30:51
    широко используемых в условиях
    машинного обучения.
  • 30:51 - 30:55
    Например, здесь вы видите набор данных
    о раке груди.
  • 30:56 - 31:00
    Оранжевые круги и синие круги.
  • 31:00 - 31:03
    И я опять использовал карту характеристик.
  • 31:03 - 31:06
    В данном случае карта, которую
    я использовал, даже проще,
  • 31:07 - 31:08
    чем вот эта.
  • 31:09 - 31:14
    И я запустил задачу классификации
    и получил 0.8.
  • 31:15 - 31:16
    А теперь
  • 31:17 - 31:20
    об эксперименте, о котором я вам говорил как
  • 31:21 - 31:23
    об очень интересном.
  • 31:23 - 31:25
    Я попробую его провести с другой картой.
  • 31:27 - 31:29
    Я увеличил количество повторений
  • 31:30 - 31:31
    этого блока.
  • 31:31 - 31:36
    В картах характеристик очень полезно
  • 31:36 - 31:37
    иметь простой блок,
  • 31:37 - 31:39
    повторяющийся несколько раз.
  • 31:39 - 31:43
    И с помощью этого я получаю
  • 31:43 - 31:47
    чуть большую точность классификации.
  • 31:48 - 31:52
    И так вы можете играть с различными картами
    характеристик, различными
  • 31:53 - 31:57
    настройками, количеством экземпляров и т.д.
    И смотреть, что получится.
  • 32:02 - 32:04
    Вернёмся теперь
  • 32:04 - 32:07
    к последней на сегодня модели, которую
    я вам хотел показать.
  • 32:08 - 32:09
    Так,
  • 32:12 - 32:17
    в чате есть вопросы. Богдан Пульвеску
    пишет, что
  • 32:17 - 32:22
    в новой версии Qiskit, версии 0.23.1,
    проблема решена.
  • 32:22 - 32:27
    То есть если вы установите обновление
    с новой версией, то проблем не будет.
  • 32:27 - 32:33
    А Ричард Политка (надеюсь, я произношу
    имя правильно)
  • 32:33 - 32:34
    спрашивает:
  • 32:35 - 32:39
    «Если я правильно понял пример с ТТН,
    то каждая характеристика
  • 32:39 - 32:41
    равна одному кубиту?»
  • 32:42 - 32:45
    Да, думаю, да.
  • 32:45 - 32:49
    Он имеет в виду, или она имеет в виду
    вот этот пример.
  • 32:51 - 32:52
    Не думаю, что
  • 32:54 - 32:56
    они раскрывают
  • 32:58 - 33:02
    реальные карты, которыми пользуются,
  • 33:02 - 33:06
    потому что они всё ещё изучаются.
  • 33:07 - 33:10
    Но, думаю, в данном случае
    они используют…
  • 33:10 - 33:16
    Они сокращают характеристику, которую
    используют для классификации,
  • 33:16 - 33:19
    и затем используют один кубит
    для каждой характеристики.
  • 33:19 - 33:22
    Я не до конца уверен, но думаю, что это так.
  • 33:23 - 33:25
    Есть и другие способы встраивания
  • 33:26 - 33:30
    данных, которые могут использовать кубиты
    более
  • 33:31 - 33:33
    экономично.
  • 33:33 - 33:37
    Вы можете встроить больше информации
    с тем же количеством кубитов,
  • 33:37 - 33:40
    и это было бы интересно изучить.
  • 33:40 - 33:43
    Но, думаю, здесь именно такой случай.
    Итак, вопрос.
  • 33:43 - 33:47
    «Можем ли мы взять лучший квантовый
    эмулятор на уровне
  • 33:47 - 33:50
    50 кубитов и сравнить его с усиленным
  • 33:51 - 33:54
    деревом решений машины опорных векторов
    с 50 характеристиками?
  • 33:54 - 33:57
    Возможности классификации заключаются
    не только в количестве данных,
  • 33:57 - 33:58
    но и в количестве характеристик»,
  • 33:58 - 34:00
    Вы абсолютно правы! Я имею в виду, что это
  • 34:00 - 34:03
    всего лишь предварительный эксперимент.
  • 34:03 - 34:08
    А скорее, все эксперименты в этом
    направлении, о которых я знаю,
  • 34:09 - 34:10
    очень черновые.
  • 34:11 - 34:14
    Но здесь есть одно ограничение, конечно,
  • 34:17 - 34:22
    даже в очень мощном классическом симуляторе
    квантового устройства,
  • 34:23 - 34:28
    скажем, не думаю, что даже сможем получить
    50 кубитов, скажем, 40 кубитов.
  • 34:29 - 34:33
    И даже в этом случае время обучения
    достаточно большое.
  • 34:33 - 34:36
    Так что я не думаю, что кто-то
    это уже сделал,
  • 34:37 - 34:39
    но это очень важно.
  • 34:39 - 34:41
    Я имею в виду, то, что написал Ричард.
  • 34:42 - 34:44
    Сравнение количества характеристик,
    которые вам нужны.
  • 34:47 - 34:50
    И в этом направлении ещё предстоит
    много работы.
  • 34:51 - 34:57
    Qmware.com может быть полезным.
    Я не знаком с этим, видимо,
  • 34:59 - 35:03
    эмулятором, о котором пишет Маркус Флитц,
  • 35:04 - 35:05
    но я попробую, попробую.
  • 35:07 - 35:11
    Да, существует очень много разных
    эмуляторов, и ведётся
  • 35:11 - 35:16
    много работы в этом направлении, и все эти
    ресурсы представляют большой интерес.
  • 35:16 - 35:21
    Я расскажу немного о квантовых эмуляторах
    на следующей неделе.
  • 35:23 - 35:28
    Но почти каждую неделю появляется
    что-то новое.
  • 35:30 - 35:32
    Есть ли ещё вопросы по этой теме?
  • 35:37 - 35:42
    Спасибо за вопросы, за обратную связь,
    она тоже очень интересна.
  • 35:43 - 35:46
    И в этом и суть сессии в Зуме, чтобы можно
    было взаимодействовать,
  • 35:47 - 35:49
    и, конечно, для тех, кто смотрит
  • 35:49 - 35:53
    веб-трансляцию или запись, помните,
    что можете мне написать
  • 35:54 - 35:58
    по электронной почте, и я постараюсь
    по возможности ответить
  • 35:59 - 36:01
    на все вопросы.
Title:
6.4. Вариативные ал-тмы и машинное обучение. Опорные векторы, гиперплоскость, альтернатива Лагранжа
Description:

more » « less
Video Language:
English
Duration:
36:02

Russian subtitles

Incomplete

Revisions