Return to Video

cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

  • 0:00 - 0:02
    Основной доклад
  • 0:02 - 0:04
    Бенджамин Янг (PanLex)
  • 0:06 - 0:09
    В настоящее время на планете
  • 0:09 - 0:11
    существует около 7 500 языков.
  • 0:12 - 0:14
    По оценкам экспертов,
  • 0:14 - 0:18
    около 70% из них могут исчезнуть
  • 0:18 - 0:20
    к концу 21 века.
  • 0:22 - 0:24
    Каждый раз, когда умирает язык,
  • 0:25 - 0:27
    утрачивается связь,
  • 0:27 - 0:31
    существовавшая сотни или тысячи лет,
  • 0:31 - 0:35
    с культурой, историей,
  • 0:35 - 0:38
    традициями и знаниями.
  • 0:39 - 0:42
    Лингвист Кеннет Хейл как-то сказал,
  • 0:42 - 0:44
    что смерть любого языка --
  • 0:44 - 0:47
    всё равно что бомба, сброшенная на Лувр.
  • 0:49 - 0:52
    Вопрос в том,
  • 0:53 - 0:55
    почему языки умирают?
  • 0:56 - 1:00
    Наверное, самый простой ответ --
  • 1:00 - 1:03
    вы сразу представляете себе
    авторитарные режимы,
  • 1:03 - 1:05
    которые не дают людям
    говорить на своих родных языках,
  • 1:06 - 1:10
    наказывают детей, если они говорят
    на родном языке в школе.
  • 1:10 - 1:13
    Или как правительства
    закрывают радиостанции,
  • 1:13 - 1:15
    вещающие на миноритарном языке.
  • 1:15 - 1:17
    Такое и правда происходило в прошлом,
  • 1:17 - 1:19
    и, отчасти, происходит и сегодня.
  • 1:20 - 1:23
    Но на самом деле
  • 1:23 - 1:27
    львиную долю случаев исчезновения языков
  • 1:27 - 1:30
    можно объяснить
  • 1:31 - 1:33
    гораздо проще.
  • 1:34 - 1:36
    Языки вымирают,
  • 1:36 - 1:38
    потому что их не передают
  • 1:38 - 1:40
    от одного поколения к другому.
  • 1:42 - 1:44
    Каждый раз, когда у человека,
  • 1:44 - 1:46
    владеющего миноритарным языком,
    рождается ребёнок,
  • 1:47 - 1:50
    этот человек начинает думать.
  • 1:51 - 1:53
    Он задаётся вопросом:
  • 1:54 - 1:56
    «Стоит ли мне передавать
    мой язык моему ребёнку
  • 1:57 - 2:01
    или же я лучше буду учить его
    только мажоритарному языку?»
  • 2:01 - 2:03
    И так у них в голове
  • 2:04 - 2:06
    возникают весы,
  • 2:07 - 2:08
    куда они кладут камешек
  • 2:10 - 2:11
    каждый раз,
  • 2:11 - 2:14
    когда у них есть возможность
    использовать родной язык
  • 2:15 - 2:18
    для общения, для обращения
    к традиционной культуре,
  • 2:20 - 2:22
    и этот камешек кладётся
    на левую чашу весов.
  • 2:22 - 2:24
    И каждый раз, когда так случается,
  • 2:24 - 2:26
    что они не могут
    использовать родной язык,
  • 2:26 - 2:28
    и вместо него должны прибегать
    к мажоритарному языку,
  • 2:28 - 2:30
    они кладут камешек на правую чашу весов.
  • 2:32 - 2:35
    Возможность говорить
    на родном языке даёт людям
  • 2:35 - 2:37
    силу и гордость,
  • 2:37 - 2:39
    и поэтому камешки на левой чаше
    обычно чуть тяжелее.
  • 2:39 - 2:42
    Но если на правой чаше
    будет достаточно камешков,
  • 2:43 - 2:45
    то в итоге весы склонятся
    в её сторону,
  • 2:45 - 2:47
    и когда человек будет принимать решение
  • 2:47 - 2:49
    передавать ли свой язык ребёнку или нет,
  • 2:49 - 2:51
    он будет считать свой родной язык
  • 2:51 - 2:53
    обузой, а не даром.
  • 2:55 - 2:59
    Вопрос в том, как мы можем это изменить?
  • 2:59 - 3:02
    Давайте сперва задумаемся над тем,
  • 3:04 - 3:05
    что для каждого языка
  • 3:05 - 3:08
    есть определённые сферы социальной жизни,
    где он применяется.
  • 3:08 - 3:09
    Поэтому любой язык,
  • 3:09 - 3:11
    который является для кого-то родным,
  • 3:11 - 3:13
    может использоваться в кругу семьи.
  • 3:14 - 3:17
    Небольшое число языков
    может использоваться внутри общины,
  • 3:17 - 3:19
    ещё какое-то небольшое число --
    в одном регионе,
  • 3:19 - 3:22
    и небольшая группа языков
    может использоваться
  • 3:23 - 3:25
    для международного общения.
  • 3:26 - 3:29
    И даже в этих сферах
  • 3:29 - 3:32
    встаёт вопрос, может ли человек
    использовать свой язык
  • 3:32 - 3:36
    в сферах образования, торговли
  • 3:36 - 3:38
    или в области технологии?
  • 3:39 - 3:42
    Чтобы лучше объяснить,
  • 3:43 - 3:46
    о чём я говорю, я расскажу анекдот.
  • 3:48 - 3:50
    Допустим, вы отправляетесь
  • 3:50 - 3:52
    в путешествие вашей мечты в Индию
  • 3:53 - 3:56
    с восьмичасовой остановкой в Стамбуле.
  • 3:57 - 4:01
    Вы, может, и не собирались
    посещать Турцию,
  • 4:01 - 4:04
    но у вас пересадка,
    и ваш турецкий друг рассказывал
  • 4:04 - 4:06
    о чудесном ресторанчике
  • 4:06 - 4:07
    недалеко от аэропорта,
  • 4:08 - 4:11
    и вы говорите себе: «Может,
    я загляну туда во время остановки».
  • 4:11 - 4:13
    Вы выходите из аэропорта,
  • 4:14 - 4:15
    добираетесь до ресторана,
  • 4:15 - 4:17
    и вам подают меню --
  • 4:17 - 4:19
    а оно всё на турецком!
  • 4:20 - 4:23
    Давайте договоримся,
    для чистоты эксперимента,
  • 4:23 - 4:24
    что по-турецки вы не говорите.
  • 4:25 - 4:27
    Что вы будете делать?
  • 4:28 - 4:30
    Если вам повезёт,
  • 4:30 - 4:32
    вы найдёте кого-то,
    кто владеет вашим родным языком:
  • 4:32 - 4:34
    немецким, английским и так далее.
  • 4:36 - 4:38
    Но, допустим, вам не повезло,
  • 4:38 - 4:41
    и никто в ресторане не говорит
    ни по-немецки ни по-английски.
  • 4:42 - 4:43
    Так что вы будете делать?
  • 4:43 - 4:46
    Если вы рассуждаете как я --
    а большинство так и сделает --
  • 4:46 - 4:48
    вы прибегнете к помощи технологий:
  • 4:50 - 4:52
    к машинному переводу
    или электронному словарю.
  • 4:53 - 4:54
    Будете отдельно искать каждое слово
  • 4:54 - 4:58
    и в итоге закажете себе
    восхитительное турецкое блюдо.
  • 5:00 - 5:03
    Но давайте вместо этого
    представим такой вариант,
  • 5:04 - 5:06
    при котором вы носитель
    миноритарного языка.
  • 5:07 - 5:09
    Например, нижнелужицкого языка.
  • 5:09 - 5:11
    Нижнелужицкий язык --
    это исчезающий язык,
  • 5:11 - 5:12
    на котором говорят здесь, в Германии,
  • 5:12 - 5:17
    примерно в 130 километрах
    к юго-востоку от этого места.
  • 5:18 - 5:21
    На нём говорит только пара тысяч человек,
    преимущественно пожилых.
  • 5:23 - 5:25
    Допустим, ваш родной язык --
    нижнелужицкий.
  • 5:25 - 5:27
    Вы очутились в ресторане.
  • 5:27 - 5:28
    Вероятность найти в ресторане человека,
  • 5:28 - 5:31
    владеющего вашим родным языком, --
    крайне мала.
  • 5:32 - 5:36
    Но, опять же, вы можете прибегнуть
    к помощи технологий.
  • 5:37 - 5:39
    Однако, для вашего родного языка
  • 5:39 - 5:42
    технических решений не существует.
  • 5:42 - 5:45
    Вам придётся использовать
    немецкий или английский
  • 5:45 - 5:47
    в качестве языка-посредника к турецкому.
  • 5:49 - 5:52
    Конечно, вы в итоге всё равно получите
    восхитительное турецкое блюдо,
  • 5:52 - 5:55
    но вы станете думать о том,
    как бы трудно на вашем месте
  • 5:55 - 5:57
    пришлось вашему дедушке,
    который немецким не владел.
  • 5:58 - 6:00
    Это всего один случай,
  • 6:00 - 6:05
    но он станет камушком
    на правой чаше весов,
  • 6:05 - 6:07
    и, может, потом вы будете размышлять:
  • 6:07 - 6:10
    «Если у меня будут дети,
    или ещё один ребёнок,
  • 6:11 - 6:15
    я не буду передавать им мой язык
  • 6:15 - 6:17
    из-за всех трудностей,
    с которыми мне пришлось столкнуться».
  • 6:19 - 6:21
    А теперь представьте себе
  • 6:21 - 6:26
    гораздо более серьёзную ситуацию --
  • 6:26 - 6:28
    например, вы оказались в больнице.
  • 6:31 - 6:36
    И вот здесь-то мы и можем помочь --
  • 6:37 - 6:40
    «мы» -- это я и вы в этом зале.
  • 6:41 - 6:44
    У нас есть средства,
    которые могут помочь.
  • 6:45 - 6:47
    Если технические средства
    станут доступны для носителей
  • 6:47 - 6:49
    миноритарных или малоиспользуемых языков,
  • 6:51 - 6:54
    то мы немного склоним
    в нашу сторону левую чашу весов.
  • 6:54 - 6:56
    Люди не должны думать,
  • 6:56 - 6:58
    что обязаны использовать миноритарный язык
  • 6:58 - 6:59
    для общения с внешним миром,
  • 7:02 - 7:06
    это просто расширяет сферы его применения.
  • 7:08 - 7:11
    В идеале,
  • 7:11 - 7:13
    хорошо бы было автоматически
    переводить на любой язык в мире.
  • 7:13 - 7:17
    Но, к сожалению, это неосуществимо.
  • 7:17 - 7:20
    Машинный перевод требует
    больших корпусов текста.
  • 7:20 - 7:21
    А для многих языков,
  • 7:21 - 7:23
    которые исчезают или мало используются,
  • 7:23 - 7:25
    таких данных просто нет.
  • 7:26 - 7:28
    Многие из них бесписьменные,
  • 7:29 - 7:33
    а потому невозможно получить
    достаточно данных для создания
  • 7:33 - 7:34
    системы машинного перевода.
  • 7:34 - 7:38
    Но зато нам доступны лексические данные.
  • 7:40 - 7:43
    Благодаря работе многих лингвистов
  • 7:43 - 7:45
    за последние несколько сотен лет
  • 7:48 - 7:50
    были составлены словари и грамматики
  • 7:50 - 7:52
    большинства мировых языков.
  • 7:54 - 7:57
    Но, к сожалению, многие из этих работ
  • 7:57 - 8:01
    не доступны для мира
  • 8:01 - 8:04
    и уж тем более для носителей
    этих миноритарных языков.
  • 8:05 - 8:08
    Это выходит непреднамеренно,
    зачастую потому,
  • 8:08 - 8:11
    что первоначальный тираж
    этих словарей был небольшим,
  • 8:11 - 8:13
    и единственные экземпляры
  • 8:13 - 8:16
    пылятся где-то
    в университетских библиотеках.
  • 8:18 - 8:21
    Но у нас есть возможность
    извлечь эти данные
  • 8:21 - 8:23
    и сделать их доступными
    для всего мира.
  • 8:24 - 8:28
    Фонд Викимедиа --
    это одна из лучших организаций,
  • 8:28 - 8:31
    даже скажу -- ей лучше всех в мире
  • 8:31 - 8:33
    удаётся делать данные доступными
  • 8:33 - 8:37
    для большей части населения этой планеты.
  • 8:39 - 8:40
    Давайте этим и займёмся.
  • 8:41 - 8:43
    Чтобы немного рассказать о том,
  • 8:43 - 8:45
    что мы делаем в этом направлении,
  • 8:45 - 8:48
    я бы хотел представить вам
    мою организацию -- PanLex,
  • 8:49 - 8:52
    которая пытается
  • 8:52 - 8:54
    собрать лексические данные
    для этой цели.
  • 8:55 - 8:57
    Она зародилась 12 лет назад
  • 8:57 - 9:00
    как научно-исследовательский проект
    в Вашингтонском университете.
  • 9:00 - 9:01
    Его задачей было показать,
  • 9:01 - 9:04
    что переводы с языка на язык
    посредством другого языка
  • 9:04 - 9:07
    могут служить
    действенным методом перевода,
  • 9:07 - 9:09
    в особенности перевода слов.
  • 9:09 - 9:12
    Вот пример из данных самого PanLex.
  • 9:13 - 9:14
    Здесь показано, как мы переводим
  • 9:14 - 9:18
    слово «ev» с турецкого языка,
    оно означает «дом»,
  • 9:18 - 9:20
    на нижнелужицкий язык,
  • 9:20 - 9:21
    о котором я рассказывал ранее.
  • 9:21 - 9:23
    Маловероятно,
  • 9:24 - 9:26
    что где-то есть
    турецко-нижнелужицкий словарь,
  • 9:26 - 9:28
    но если мы пропустим слово
  • 9:28 - 9:30
    через много-много
    разных языков-посредников,
  • 9:30 - 9:33
    то сможем получить его удачный перевод.
  • 9:34 - 9:37
    Когда мы продемонстрировали это
    в нашем исследовательском проекте,
  • 9:37 - 9:40
    основатель PanLex,
    доктор Джонатан Пул,
  • 9:41 - 9:44
    решил: «Почему бы это
    и вправду не сделать?»
  • 9:44 - 9:45
    Поэтому он основал
    некоммерческую организацию,
  • 9:45 - 9:49
    чтобы собрать как можно больше
    лексических данных и сделать их открытыми.
  • 9:49 - 9:51
    Этим мы и занимаемся уже 12 лет.
  • 9:51 - 9:55
    За это время мы собрали тысячи словарей,
  • 9:55 - 9:56
    извлекли из них лексические данные,
  • 9:56 - 9:58
    и составили базу данных,
  • 9:58 - 10:01
    которая позволяет осуществлять
    опосредованный перевод
  • 10:01 - 10:04
    через любой из...
  • 10:04 - 10:06
    Сейчас у нас есть около 5 500
  • 10:06 - 10:08
    из 7 500 языков мира.
  • 10:09 - 10:11
    И, конечно,
  • 10:11 - 10:12
    мы пытаемся увеличить это число
  • 10:12 - 10:15
    и увеличить число данных
    по каждому отдельному языку.
  • 10:17 - 10:21
    И тогда возникает вопрос:
  • 10:22 - 10:26
    что мы сможем сделать,
    чтобы объединить усилия?
  • 10:27 - 10:29
    Мы в PanLex счастливы видеть,
  • 10:29 - 10:31
    как происходит накопление
    лексических данных,
  • 10:31 - 10:34
    которым недавно занялись Викиданные.
  • 10:35 - 10:38
    Так увлекательно наблюдать
    за деятельностью организаций,
  • 10:38 - 10:39
    работающих в одной области,
  • 10:39 - 10:41
    но занимающихся разными направлениями.
  • 10:42 - 10:44
    Мы так рады видеть,
  • 10:45 - 10:46
    результаты этого в Викиданных.
  • 10:46 - 10:51
    И мы надеемся на сотрудничество
    с Викиданными.
  • 10:54 - 10:56
    Мне кажется, что опыт,
  • 10:56 - 10:58
    который мы приобрели за эти 12 лет
  • 10:58 - 11:02
    не только в сборе лексических данных,
    но и в проектировании баз данных,
  • 11:02 - 11:04
    может пригодиться Викиданным.
  • 11:04 - 11:07
    И, с другой стороны, я думаю...
  • 11:08 - 11:11
    Я в особенности счастлив,
    что Викиданные могут использовать
  • 11:12 - 11:15
    краудсорсинг для сбора данных.
  • 11:15 - 11:18
    В данный момент PanLex использует только
  • 11:18 - 11:21
    печатные словари
    или другие источники лексических данных,
  • 11:21 - 11:23
    но мы не используем краудсорсинг.
  • 11:23 - 11:25
    У нас просто нет для этого
    технических возможностей.
  • 11:25 - 11:27
    И, конечно, Фонд Викимедиа --
  • 11:27 - 11:29
    это мировой эксперт
    в области краудсорсинга.
  • 11:32 - 11:34
    И мне не терпится увидеть,
  • 11:34 - 11:36
    как мы вместе сможем применить наш опыт.
  • 11:39 - 11:42
    Но, в целом, мне кажется,
    задуматься надо вот о чём:
  • 11:42 - 11:43
    когда мы начинали работать над этим,
  • 11:43 - 11:45
    это казалось нам не особо важным.
  • 11:45 - 11:48
    Мы просто сидим,
    изучая грамматические формы
  • 11:48 - 11:52
    или пролистываем словари, древние словари,
  • 11:52 - 11:54
    а иногда даже
    недавно опубликованные словари,
  • 11:54 - 11:57
    и изучаем орфографию слов,
  • 11:57 - 12:00
    и это кажется такой мелочью.
  • 12:00 - 12:03
    Но изредка нам надо
    оглядываться на сделанное.
  • 12:03 - 12:05
    Хоть порой то, что мы делаем,
  • 12:06 - 12:09
    может показаться рутинным,
  • 12:10 - 12:12
    мы занимаемся крайне важной работой.
  • 12:13 - 12:16
    На мой взгляд, это самый лучший способ
  • 12:16 - 12:19
    помочь исчезающим языкам и сделать всё,
  • 12:19 - 12:21
    чтобы лингвистическое разнообразие
    нашей планеты
  • 12:21 - 12:25
    сохранилось до конца этого века
    или даже дольше.
  • 12:26 - 12:30
    Вполне вероятно, что работа,
    которой мы сегодня занимаемся,
  • 12:30 - 12:33
    повлечёт за собой сохранение языков
  • 12:33 - 12:35
    и их передачу следующим поколениям,
  • 12:35 - 12:37
    и не даст им исчезнуть.
  • 12:39 - 12:41
    Просто помните,
  • 12:41 - 12:43
    что даже если вы просто
    сидите за компьютером
  • 12:43 - 12:45
    и правите отдельную статью,
  • 12:45 - 12:50
    и добавляете форму данных
    какого-то миноритарного языка
  • 12:50 - 12:52
    для каждого существительного,
  • 12:52 - 12:55
    даже то немногое, что вы делаете сейчас,
  • 12:55 - 12:58
    может оказаться причиной того,
  • 12:58 - 12:59
    что язык просуществует
  • 12:59 - 13:01
    до конца этого века или даже дольше.
  • 13:03 - 13:04
    Большое спасибо,
  • 13:04 - 13:06
    и я готов ответить на ваши вопросы.
  • 13:06 - 13:08
    (аплодисменты)
  • 13:24 - 13:25
    (голос из зала 1) Спасибо!
  • 13:25 - 13:27
    - Спасибо за ваш доклад.
    - Спасибо.
  • 13:27 - 13:29
    (голос из зала 1) У меня есть вопрос
    насчёт словарей.
  • 13:29 - 13:31
    Вы сказали, что работаете
    с печатными изданиями?
  • 13:31 - 13:32
    - Да.
    - (голос из зала 1) Вопрос:
  • 13:32 - 13:35
    какие данные вы берёте из этих словарей
  • 13:35 - 13:38
    и как вы выходите из ситуации
    с авторскими правами?
  • 13:38 - 13:41
    Так и думал, что меня
    первым делом об этом спросят.
  • 13:41 - 13:43
    (смех)
  • 13:43 - 13:46
    Начнём с того, что в PanLex
  • 13:46 - 13:50
    мы проконсультировались у наших юристов:
  • 13:53 - 13:57
    хотя составление и систематизация
    словаря охраняется авторским правом,
  • 13:57 - 14:03
    сам перевод слов авторским правом
    не охраняется.
  • 14:04 - 14:06
    Вот хороший тому пример:
  • 14:06 - 14:10
    по законодательству США
    телефонный справочник охраняется
  • 14:11 - 14:12
    авторским правом.
  • 14:12 - 14:17
    Но само утверждение, что номер
    такого-то человека -- такое-то число,
  • 14:17 - 14:18
    не охраняется.
  • 14:22 - 14:23
    Как я уже сказал,
  • 14:23 - 14:25
    вот так, согласно нашим правоведам,
  • 14:25 - 14:27
    мы выходим из этой ситуации.
  • 14:27 - 14:31
    Но если и этот правовой аргумент
    недостаточно убедителен,
  • 14:31 - 14:32
    то следует помнить,
  • 14:32 - 14:38
    что у большинства этих лексических данных
  • 14:39 - 14:41
    авторские права уже истекли.
  • 14:41 - 14:43
    У значительного числа словарей
    авторские права истекли,
  • 14:43 - 14:44
    и они могут свободно использоваться.
  • 14:44 - 14:47
    Но, к примеру, совсем другое дело --
  • 14:47 - 14:50
    если мы работаем
    с недавно вышедшим словарём,
  • 14:50 - 14:52
    мы не станем его сканировать
    и распознавать,
  • 14:52 - 14:53
    мы просто напишем его составителю.
  • 14:53 - 14:58
    На деле, большинство лингвистов рады,
  • 14:58 - 15:00
    что мы можем сделать их данные
    доступными для всех.
  • 15:00 - 15:01
    И они говорят: «Конечно, пожалуйста,
  • 15:01 - 15:03
    загрузите их
    и сделайте доступными для всех».
  • 15:06 - 15:08
    Так что, по крайней мере
    согласно нашим юристам,
  • 15:08 - 15:09
    мы можем это делать,
  • 15:09 - 15:11
    но если вы не хотите этим заморачиваться,
  • 15:11 - 15:16
    очень легко получить эти данные
    в открытом доступе.
  • 15:26 - 15:28
    - (голос из зала 2) Здравствуйте.
    - Здравствуйте.
  • 15:28 - 15:30
    (голос из зала 2) Расскажите,
  • 15:30 - 15:35
    как человек, владеющий нижнелужицким,
    получает доступ к данным.
  • 15:35 - 15:38
    А именно, как эта информация
    к нему поступает
  • 15:38 - 15:41
    и как это может помочь убедить его
  • 15:41 - 15:43
    попробовать...
  • 15:43 - 15:46
    Отличный вопрос,
    над которым я сам много думал,
  • 15:46 - 15:50
    потому что считаю,
    что обеспечение доступа к данным --
  • 15:50 - 15:53
    это на самом деле
    многоступенчатый процесс.
  • 15:53 - 15:56
    Во-первых, это сохранение данных,
    надо следить, чтобы данные не исчезали.
  • 15:56 - 15:59
    Во-вторых, надо следить, чтобы с ними
    можно было взаимодействовать
  • 15:59 - 16:02
    и использовать их.
  • 16:02 - 16:06
    И, в-третьих, надо убедиться,
    что они доступны всем.
  • 16:06 - 16:07
    Если говорить о PanLex,
  • 16:07 - 16:10
    у нас для этого можно использовать
    интерфейс API,
  • 16:10 - 16:12
    но обычный пользователь
    его использовать не сможет.
  • 16:12 - 16:15
    Но мы разработали и другие интерфейсы.
  • 16:15 - 16:20
    Если вы зайдёте на translate.panlex.org,
  • 16:20 - 16:23
    вы сможете переводить
    на основе нашей базы данных.
  • 16:23 - 16:26
    Если хотите поковыряться в API,
    зайдите на dev.panlex.org,
  • 16:26 - 16:29
    и вы сможете найти кучу информации
    по API, или наберите api.panlex.org.
  • 16:31 - 16:33
    Но необходим и следующий шаг:
  • 16:33 - 16:37
    даже если вы сделаете ваши данные
    полностью доступными для всех,
  • 16:37 - 16:41
    со всеми нужными сервисами,
    позволяющими получить к ним доступ,
  • 16:41 - 16:43
    если вы не будете эти сервисы продвигать,
  • 16:43 - 16:45
    люди не смогут их использовать.
  • 16:45 - 16:47
    И, честно говоря...
  • 16:49 - 16:51
    Мы это мало обсуждаем,
  • 16:51 - 16:53
    и у нас нет верного решения
    для этой проблемы.
  • 16:53 - 16:55
    Как нам обеспечить...
  • 16:55 - 16:57
    Например, я совсем недавно,
  • 16:57 - 17:00
    всего пару лет назад, узнал о Викиданных,
  • 17:00 - 17:03
    а ведь я интересуюсь такими вещами.
  • 17:03 - 17:07
    Так как нам разрекламировать себя?
  • 17:07 - 17:09
    Я пока оставлю этот вопрос открытым.
  • 17:09 - 17:11
    У меня нет на него верного ответа.
  • 17:11 - 17:13
    Но для того, чтобы это сделать,
  • 17:13 - 17:15
    нам нужно выполнить самые первые шаги.
  • 17:22 - 17:25
    (голос из зала 3) Разве для осуществления
    машинного перевода
  • 17:25 - 17:28
    нам не нужна память переводов?
  • 17:28 - 17:31
    Я не уверен, что отдельных слов,
  • 17:31 - 17:33
    которые мы вносим в Викиданные,
  • 17:33 - 17:37
    словосочетаний,
    которые мы вносим в Викиданные,
  • 17:37 - 17:41
    или как обычные элементы Викиданных,
    или как лексемы Викиданных,
  • 17:41 - 17:44
    хватит для осуществления
    надлежащего перевода.
  • 17:44 - 17:47
    Нам нужны целые предложения,
    например, для...
  • 17:47 - 17:48
    (Бенджамин) Да, точно.
  • 17:49 - 17:51
    (голос из зала 3) И где мы получим
    такую структуру данных?
  • 17:51 - 17:55
    Я не уверен, что сейчас
  • 17:55 - 18:00
    Викиданные могут хорошо справиться
  • 18:00 - 18:03
    с проблемой памяти переводов,
  • 18:04 - 18:06
    TranslateWiki.net
  • 18:06 - 18:09
    частично заполняет это пробел...
  • 18:12 - 18:15
    Должны ли мы что-то с этим сделать
    или мы должны...
  • 18:15 - 18:17
    Я крайне вам признателен за вопрос,
  • 18:17 - 18:19
    я уже затрагивал его,
  • 18:19 - 18:21
    но с удовольствием отвечу ещё раз.
  • 18:21 - 18:25
    Именно по этой причине PanLex и работает
    с лексическими данными,
  • 18:25 - 18:27
    и вот почему мне так нравятся
    лексические данные
  • 18:27 - 18:30
    как противовес...
    Не как противовес, а как дополнение
  • 18:30 - 18:35
    к системам машинного перевода
    и вообще к машинному переводу.
  • 18:36 - 18:39
    Как вы сказали, машинный перевод
    требует определённых данных,
  • 18:40 - 18:43
    и для большинства мировых языков
    таких данных нет.
  • 18:43 - 18:45
    По большинству мировых языков
  • 18:45 - 18:46
    они просто не получены.
  • 18:47 - 18:48
    Но это не значит, что мы должны сдаться.
  • 18:48 - 18:50
    С чего бы?
  • 18:51 - 18:54
    Если мне нужно перевести меню на турецком,
  • 18:55 - 18:59
    перевод лексем отлично для этого подойдёт.
  • 18:59 - 19:02
    Я не говорю, что его можно использовать
  • 19:02 - 19:05
    для идеального перевода связного текста.
  • 19:05 - 19:07
    Под переводом лексем
    я имею в виду пословный перевод,
  • 19:07 - 19:10
    а пословный перевод
    может быть крайне полезен,
  • 19:12 - 19:15
    Смешно вспоминать,
    но у нас и не было доступа
  • 19:15 - 19:17
    к хорошей системе машинного перевода.
  • 19:17 - 19:20
    До недавнего времени
    ни у кого не было к ним доступа.
  • 19:20 - 19:24
    Мы все обходились словарями,
  • 19:24 - 19:28
    и это прекрасный источник данных.
  • 19:28 - 19:31
    И раз у нас есть данные,
    почему бы не сделать их доступными
  • 19:31 - 19:34
    для всего мира
    и для носителей этих языков?
  • 19:36 - 19:39
    (голос из зала 4) Здравствуйте,
    какими принципами
  • 19:39 - 19:41
    вы руководствуетесь, когда носители...
    Я здесь!
  • 19:41 - 19:43
    - Где вы? Так, вижу.
    - (голос из зала 4) Извините. (смеётся)
  • 19:43 - 19:45
    ...когда сами носители
  • 19:45 - 19:47
    против размещения
    каких-то данных в PanLex?
  • 19:47 - 19:49
    Отличный вопрос!
  • 19:49 - 19:52
    Мы это решаем так:
  • 19:52 - 19:56
    если словарь уже опубликован
    и доступен для общественности --
  • 19:57 - 19:58
    это хороший знак.
  • 19:58 - 20:02
    Если вы можете найти его в магазине
    или в университетской библиотеке,
  • 20:02 - 20:05
    или в публичной библиотеке,
    открытой для всех,
  • 20:05 - 20:08
    это верный признак того,
    что носители это уже решили.
  • 20:08 - 20:15
    (голос из зала 4) [неразборчиво]
  • 20:16 - 20:18
    (голос из зала 5) Пожалуйста,
    [неразборчиво], в микрофон.
  • 20:19 - 20:20
    Повторите, пожалуйста!
  • 20:20 - 20:23
    (голос из зала 4) У лингвистов
    не всегда есть разрешение носителей языка
  • 20:23 - 20:24
    на публикацию таких вещей,
  • 20:24 - 20:28
    они частенько публикуют что-то
    без согласия носителей.
  • 20:28 - 20:29
    Да, это совершенно верно!
  • 20:30 - 20:33
    Даже скажу, это...
  • 20:33 - 20:34
    Это случается.
  • 20:34 - 20:37
    Но, я бы сказал,
    в незначительном числе случаев,
  • 20:37 - 20:41
    как правило, в Северной Америке,
  • 20:41 - 20:43
    но иногда это случается
    и с языками Южной Америки.
  • 20:45 - 20:46
    Мы должны это учитывать.
  • 20:46 - 20:49
    Если мы, например, узнаём о том,
  • 20:49 - 20:52
    что какие-то данные в PanLex
  • 20:52 - 20:56
    не должны стать доступными
    для всего остального мира,
  • 20:56 - 20:58
    то, конечно, мы их удалим.
  • 20:58 - 20:59
    (голос из зала 4) Хорошо.
  • 21:01 - 21:02
    Мы можем и не прислушаться,
  • 21:02 - 21:04
    если речь идёт об авторских правах,
  • 21:04 - 21:07
    но мы прислушаемся
    к традиционным общинам,
  • 21:07 - 21:08
    и это главное отличие.
  • 21:08 - 21:10
    (голос из зала 4)
    Да, это я и имела в виду.
  • 21:15 - 21:17
    И возникает интересный момент,
  • 21:17 - 21:18
    который заключается в том,
  • 21:19 - 21:22
    что иногда это большой вопрос:
    а кто выступает от имени носителей?
  • 21:23 - 21:28
    Я как-то посещал Юго-Запад США
  • 21:28 - 21:30
    и работал с людьми,
  • 21:30 - 21:32
    которые занимались
    родными языками народов пуэбло.
  • 21:36 - 21:39
    Существует около
    шести языков народов пуэбло --
  • 21:39 - 21:40
    смотря как их делить --
  • 21:40 - 21:42
    на которых говорят в этом регионе.
  • 21:42 - 21:44
    Но на этих языках говорят
    в 18 разных поселениях,
  • 21:44 - 21:47
    и у каждого есть
    свои племенные правительства,
  • 21:47 - 21:50
    и у каждого может быть своя точка зрения,
  • 21:50 - 21:54
    стоит ли раскрывать
    свой язык посторонним или нет.
  • 21:57 - 21:58
    Например, Зуни-Пуэбло --
  • 21:58 - 22:01
    единственное поселение пуэбло,
    в котором говорят на языке зуни.
  • 22:03 - 22:05
    И им хочется,
    чтобы их язык распространялся,
  • 22:05 - 22:08
    на нём есть надписи на указателях
    и всём таком, что здорово.
  • 22:08 - 22:11
    Но о некоторых других языках
  • 22:11 - 22:12
    одно поселение может сказать:
  • 22:13 - 22:16
    «Мы не хотим, чтобы
    посторонние знали наш язык».
  • 22:16 - 22:19
    Но в соседнем поселении,
    говорящем на том же языке, вам скажут:
  • 22:19 - 22:22
    «Мы хотим, чтобы наш язык
    был доступен для посторонних
  • 22:22 - 22:24
    через эти технические средства,
  • 22:24 - 22:27
    потому что мы хотим,
    чтобы наш язык существовал дальше».
  • 22:27 - 22:29
    И это поднимает
    очень интересную этическую дилемму.
  • 22:29 - 22:32
    Потому что если вы
    прекратите изучение, сказав:
  • 22:32 - 22:35
    «Хорошо, я прекращаю, потому что
    то поселение сказало прекратить» --
  • 22:35 - 22:37
    не нарушаете ли вы интересы
    другого поселения,
  • 22:37 - 22:39
    потому что они и правда хотят,
    чтобы вы его распространили.
  • 22:39 - 22:43
    Думаю, на этот вопрос
    нет однозначного ответа.
  • 22:43 - 22:45
    Но, по крайней мере,
    если говорить о PanLex...
  • 22:45 - 22:48
    Хочу отметить,
    что мы с таким не сталкивались,
  • 22:48 - 22:50
    насколько мне известно.
  • 22:51 - 22:53
    Это может быть частично из-за того...
  • 22:54 - 22:55
    Возвращаясь к его вопросу,
  • 22:56 - 22:58
    нам нужно активнее продвигать наш продукт.
    (смеётся)
  • 22:59 - 23:02
    Но, в целом, насколько я знаю,
  • 23:02 - 23:04
    у нас таких проблем не возникало.
  • 23:04 - 23:07
    Но наша стратегия тут такова:
  • 23:07 - 23:11
    если носители скажут,
    что не хотят своих данных в базе,
  • 23:11 - 23:12
    то мы их удалим.
  • 23:12 - 23:15
    (голос из зала 4) У нас такое было
    в Викиданных и Википедии...
  • 23:15 - 23:16
    - Да ?
    - (голос из зала 4) В комментариях.
  • 23:16 - 23:18
    - Да?
    - (голос из зала 4) Часто.
  • 23:18 - 23:20
    Могу такое представить в комментариях
    к фотографиям или чему-то такому.
  • 23:20 - 23:22
    (голос из зала 4) Именно.
  • 23:27 - 23:33
    (голос из зала 6) У меня есть вопрос
    насчёт краудсорсинга.
  • 23:34 - 23:37
    Когда мы работаем
    вместе с пользователями и просим их
  • 23:37 - 23:40
    аннотировать или добавлять данные
    в массив данных,
  • 23:40 - 23:44
    меня немного пугает то,
  • 23:45 - 23:49
    что как редактор я могу видеть только,
    что каких-то данных не хватает.
  • 23:49 - 23:53
    Но если я буду знать,
    какие из них наиболее важны,
  • 23:54 - 23:57
    когда буду тратить на это всё время,
  • 23:58 - 24:01
    то это бы послужило хорошей мотивацией.
  • 24:01 - 24:04
    Хотелось бы узнать,
    есть ли у вас какая-то система,
  • 24:04 - 24:08
    вроде этого: мы знаем,
    какие пробелы есть в наших данных,
  • 24:08 - 24:12
    мы можем лингвистически обосновать,
  • 24:12 - 24:16
    что если мы разметим именно эти данные,
    то они окажут наибольшее воздействие.
  • 24:16 - 24:17
    Мне представляется,
  • 24:18 - 24:21
    что лексема «дом» будет обладать
    большой силой воздействия...
  • 24:21 - 24:25
    Может, даже не лексемы,
    а какие-то данные или что-то такое.
  • 24:25 - 24:29
    Мне интересно,
    если ли у вас что-то такое,
  • 24:30 - 24:35
    что можно использовать,
    чтобы направлять усилия пользователей?
  • 24:36 - 24:37
    Отличный вопрос.
  • 24:37 - 24:41
    У Викиданных есть много...
  • 24:41 - 24:45
    Извините, у PanLex есть
    множество списков Сводеша.
  • 24:45 - 24:48
    Вероятно, у нас самое большое собрание
    списков Сводеша в мире,
  • 24:48 - 24:49
    что любопытно.
  • 24:49 - 24:50
    Уточню, список Сводеша --
  • 24:50 - 24:56
    это стандартизированный перечень
    лексических элементов,
  • 24:56 - 25:00
    который может использоваться
    для анализа языков.
  • 25:00 - 25:03
    Он содержит самые базовые понятия.
  • 25:03 - 25:05
    Есть разные виды списков Сводеша.
  • 25:05 - 25:07
    Обычно в них 100 или 213 элементов,
  • 25:07 - 25:09
    и они могут содержать
  • 25:09 - 25:13
    слова типа «дом», и «глаз», и «кожа»,
  • 25:13 - 25:14
    и другие базовые понятия,
  • 25:14 - 25:16
    которые вы сможете найти в любом языке.
  • 25:16 - 25:20
    И лучше всего вначале делать доступным
  • 25:20 - 25:23
    именно этот тип данных.
  • 25:29 - 25:31
    Как я уже говорил,
  • 25:31 - 25:34
    мы ещё не занимались краудсорсингом,
  • 25:34 - 25:36
    и мы очень рады
    использовать эту возможность.
  • 25:36 - 25:38
    Я так счастлив рассказывать
  • 25:38 - 25:39
    на конференции о том,
  • 25:39 - 25:43
    как можно использовать краудсорсинг
  • 25:43 - 25:46
    и о его организации,
  • 25:46 - 25:49
    и вопросы такого рода могут возникать.
  • 25:51 - 25:53
    Пожалуй, мой ответ вам будет таков:
  • 25:53 - 25:55
    у нас есть перечень приоритетных задач...
  • 25:55 - 25:58
    Могу точно сказать, у нас есть список,
  • 25:58 - 26:00
    какие языки мы разыскиваем
    в первую очередь.
  • 26:00 - 26:02
    Мы ищем такие языки,
  • 26:02 - 26:05
    для которых сейчас нет никаких
    технических решений, --
  • 26:05 - 26:07
    и это чаще всего миноритарные языки,
  • 26:07 - 26:09
    и обычно это миноритарные языки --
  • 26:09 - 26:12
    и уделяем им внимание в первую очередь.
  • 26:14 - 26:17
    Но если говорить об отдельных
    лексических элементах,
  • 26:17 - 26:20
    обычно мы загружаем новые данные,
  • 26:20 - 26:23
    внося в базу всё, что есть в словаре.
  • 26:23 - 26:26
    Мы полагаемся на словарь
  • 26:26 - 26:28
    в плане выбора лексических элементов,
  • 26:28 - 26:32
    а не ищем понятие «дом» по всем языкам.
  • 26:32 - 26:35
    Но когда дело дойдёт до краудсорсинга,
    нам надо будет расставить приоритеты.
  • 26:35 - 26:38
    Это такая возможность
    для исследований и развития.
  • 26:40 - 26:43
    (голос из зала 7) Здравствуйте, я Виктор.
    Это потрясающе.
  • 26:45 - 26:47
    У вас есть слайды на эту тему --
  • 26:47 - 26:49
    вы можете немного рассказать
    о техническом состоянии,
  • 26:49 - 26:51
    об обмене данными,
  • 26:51 - 26:57
    потоками данных
    между Викиданными и PanLex.
  • 26:57 - 27:00
    Вы его уже внедрили?
  • 27:00 - 27:04
    И как вы решаете проблемы,
  • 27:04 - 27:07
    связанные с обменом информацией
    или с системой обратной связи
  • 27:07 - 27:10
    между PanLex и Викиданными?
  • 27:10 - 27:14
    Мы пока официально
    не присоединены к Викиданным,
  • 27:14 - 27:15
    и, повторюсь, это то,
  • 27:15 - 27:18
    что я очень хочу обсудить сегодня
    с участниками конференции.
  • 27:18 - 27:21
    У нас есть обмен информацией
    с Викисловарём,
  • 27:22 - 27:25
    но, честно скажу,
    Викиданные больше подходят
  • 27:25 - 27:27
    для поиска нужной нам информации.
  • 27:27 - 27:29
    Там только лексические данные,
  • 27:29 - 27:32
    и нам меньше придётся заниматься
    анализом данных и их извлечением.
  • 27:33 - 27:37
    И мой ответ: пока нет,
    но мы бы очень этого хотели.
  • 27:37 - 27:40
    (голос из зала 7)
    А что может этому препятствовать?
  • 27:40 - 27:44
    Викиданные уже поддерживают
    несколько языков,
  • 27:44 - 27:47
    но я зашёл на translate.panlex.org,
  • 27:47 - 27:49
    и вы поддерживаете
    много разных диалектов,
  • 27:49 - 27:51
    гораздо больше, чем Викиданные.
  • 27:51 - 27:53
    В чём, по-вашему, разница
  • 27:53 - 27:57
    между мгновенным переводом
    и пословным,
  • 27:57 - 27:59
    прикладной задачей
  • 28:00 - 28:04
    и попыткой построить карту знаний?
  • 28:04 - 28:06
    Картирование знаний
    было бы интересной задачей.
  • 28:06 - 28:07
    Мы с интересом обсуждали то,
  • 28:07 - 28:12
    как Викиданные организуют
    их лексические данные,
  • 28:12 - 28:14
    ваши лексические данные,
  • 28:14 - 28:16
    и как мы организуем
    наши лексические данные.
  • 28:16 - 28:21
    И есть нюансы, которые потребуют
    иного способа картирования,
  • 28:21 - 28:25
    он необязательно будет
    целиком автоматизированным,
  • 28:25 - 28:27
    но мы сможем разработать методы,
    которые позволят нам это сделать.
  • 28:27 - 28:31
    Вы привели в пример диалекты языка.
  • 28:31 - 28:34
    Мы становимся крайне «дотошными»,
    когда речь идёт о диалектах.
  • 28:34 - 28:36
    То есть у нас есть источник,
    который говорит,
  • 28:36 - 28:39
    что на вот этом диалекте
  • 28:39 - 28:42
    говорят на левом берегу реки
    в Папуа-Новой Гвинее,
  • 28:42 - 28:43
    а другой источник скажет нам,
  • 28:43 - 28:45
    что на таком диалекте говорят
    на правом берегу реки,
  • 28:45 - 28:47
    то мы будем их считать отдельными языками.
  • 28:47 - 28:51
    Мы так поступаем, чтобы сохранить
    как можно больше данных.
  • 28:52 - 28:54
    Картирование данных так,
    как это делают Викиданные...
  • 28:54 - 28:57
    Я бы очень хотел обсудить,
  • 28:57 - 29:01
    какие коды используются для языков
  • 29:01 - 29:06
    в Викиданных.
  • 29:08 - 29:12
    Для этого мы тоже используем
    очень «дотошный» способ.
  • 29:14 - 29:17
    Мы обычно пользуемся стандартом ISO 6393,
  • 29:18 - 29:20
    который предлагает справочник «Этнолог»,
  • 29:20 - 29:24
    и к каждому индивидуальному коду
    мы добавляем различные варианты,
  • 29:24 - 29:26
    а также уже существующие наборы символов
  • 29:26 - 29:29
    для региональных диалектов и социолектов.
  • 29:30 - 29:33
    Тут есть возможности
    для обсуждения и работы.
  • 29:36 - 29:39
    (голос из зала 8) Есть ли у вас конвейер
    для оптического распознавания символов?
  • 29:39 - 29:45
    Потому что мы пытались
    распознавать язык майя
  • 29:45 - 29:48
    и результатов не добились.
  • 29:48 - 29:50
    Он ничего не может распознать.
  • 29:50 - 29:53
    - О да! (смеётся)
    - (голос из зала 8) И...да.
  • 29:53 - 29:56
    Если можно использовать ваши конвейеры...
  • 29:56 - 30:00
    И ещё вопрос: бывает, что коды ISO
    не совпадают друг с другом,
  • 30:00 - 30:02
    иногда они утверждают:
  • 30:02 - 30:04
    «Это один язык, а это совершенно другой»,
  • 30:04 - 30:07
    но есть источники,
    которые утверждают совсем другое,
  • 30:07 - 30:10
    вы об этом говорили,
    но они часто используют разные коды.
  • 30:10 - 30:13
    Как вы с этим справляетесь?
  • 30:13 - 30:15
    Замечательный вопрос!
  • 30:15 - 30:17
    Мне он очень понравился.
  • 30:17 - 30:20
    По сути, мы не пользуемся
    каким-то конкретным конвейером,
  • 30:20 - 30:24
    мы всё делаем на основе источника данных
    и в зависимости от источника.
  • 30:24 - 30:26
    Одна из причин, по которой мы так делаем:
    часто у нас есть источники,
  • 30:26 - 30:28
    которые не требуется распознавать
  • 30:28 - 30:30
    и которые доступны для некоторых языков,
  • 30:30 - 30:33
    и мы используем именно их,
    потому что с ними меньше всего работы.
  • 30:33 - 30:35
    Но если мы и вправду хотим
    тщательно изучить
  • 30:35 - 30:37
    некоторые источники у нас в архиве,
  • 30:37 - 30:41
    нам потребуется разработать
    мощный конвейер распознавания текста.
  • 30:41 - 30:44
    Но есть ещё один момент,
    как вы уже упоминали...
  • 30:44 - 30:49
    Люди, которые разрабатывают
    модули распознавания текста,
  • 30:49 - 30:53
    не понимают, каким экстремальным нагрузкам
    мы можем их подвергнуть.
  • 30:53 - 30:55
    Настоящее веселье --
  • 30:55 - 30:58
    попробовать распознать
    русско-тибетский словарь.
  • 30:59 - 31:01
    Это очень трудно, как оказалось...
  • 31:01 - 31:04
    Мы сдались и наняли человека
    это всё перепечатать,
  • 31:04 - 31:06
    и это оказалось вполне реально.
  • 31:06 - 31:07
    И оказалось,
  • 31:07 - 31:10
    эта потрясающая русская женщина
    научилась читать по-тибетски,
  • 31:10 - 31:13
    чтобы всё это перепечатать,
    что впечатляло.
  • 31:15 - 31:18
    Думаю, если вы имеете дело
    с текстами с латинским шрифтом,
  • 31:18 - 31:23
    то можно разработать
    полноценное ПО для распознавания,
  • 31:23 - 31:25
    работающее с многоязычными источниками,
  • 31:25 - 31:27
    полагаю, вы получите на выходе четвёрку,
  • 31:27 - 31:28
    если будете работать с текстами
  • 31:28 - 31:31
    16-го века на языке майя,
    в смысле, цифру «четыре».
  • 31:34 - 31:38
    Но есть источники,
  • 31:38 - 31:40
    которые распознать не получится никогда,
  • 31:40 - 31:42
    или которые потребуют
    такой огромной работы...
  • 31:43 - 31:47
    Мы сейчас этим немного занимаемся.
  • 31:47 - 31:49
    В PanLex мы ведём ещё один проект:
  • 31:49 - 31:54
    мы переносим в электронный вид
    классическую литературу Бали,
  • 31:54 - 31:58
    она существует только в виде рукописей,
  • 31:58 - 32:00
    поэтому её не распознать.
  • 32:00 - 32:02
    Мы нашли множество балийцев,
    чтобы их перепечатать,
  • 32:02 - 32:05
    и это превратилось
    в замечательный культурный проект на Бали,
  • 32:05 - 32:07
    он получил огласку и всё такое.
  • 32:07 - 32:09
    По-моему,
  • 32:09 - 32:11
    программы распознавания текста
    использовать необязательно,
  • 32:11 - 32:13
    но задач много.
  • 32:13 - 32:15
    Было бы неплохо иметь
    хорошее ПО для распознавания текста.
  • 32:17 - 32:21
    И если тут кто-то без ума
    от многоязычного распознавания текста,
  • 32:21 - 32:23
    то поговорите потом со мной.
  • 32:30 - 32:31
    (голос из зала 9) Спасибо вам за доклад.
  • 32:31 - 32:35
    Вы упоминали интеграцию
  • 32:35 - 32:37
    PanLex и Викиданных,
  • 32:37 - 32:39
    но в подробности не вдавались.
  • 32:39 - 32:43
    Я проверил лицензию ваших данных:
    это СС0, то есть общественное достояние.
  • 32:43 - 32:44
    - Да.
    - (голос из зала 9) Здорово!
  • 32:44 - 32:46
    И для интеграции есть два варианта:
  • 32:46 - 32:49
    мы можем или импортировать данные,
  • 32:49 - 32:53
    или сделать что-то похожее на то,
    что мы делали с Freebase:
  • 32:53 - 32:56
    мы тогда получили
    всю базу данных от Freebase,
  • 32:56 - 32:59
    импортировали её и создали ссылку,
  • 32:59 - 33:04
    внешний идентификатор
    на базу данных Freebase.
  • 33:04 - 33:08
    Думаете ли вы о чём-то подобном?
  • 33:08 - 33:10
    Или вы просто хотите создать...
  • 33:15 - 33:19
    ...независимую базу данных,
    которая будет связана с Викиданными?
  • 33:19 - 33:21
    Да, прекрасный вопрос,
  • 33:21 - 33:23
    и мне кажется,
    что это пока далеко идущие планы
  • 33:23 - 33:26
    по сравнению с теми вещами,
    которые я уже обдумывал,
  • 33:26 - 33:30
    отчасти из-за того, как я уже сказал,
  • 33:30 - 33:32
    что настройка совместной работы
    двух баз данных --
  • 33:32 - 33:34
    это уже сам по себе шаг.
  • 33:34 - 33:35
    Думаю, в качестве первого шага
  • 33:35 - 33:38
    мы можем объединить
    наши знания и навыки.
  • 33:38 - 33:40
    У нас большой опыт
  • 33:40 - 33:43
    в классификации свойств отдельных лексем,
  • 33:43 - 33:45
    и я бы хотел им поделиться.
  • 33:46 - 33:49
    Но объединить две базы данных
    было бы замечательно.
  • 33:49 - 33:51
    Я на 100% «за»!
  • 33:51 - 33:54
    Думаю, было бы проще,
  • 33:54 - 33:56
    связать именно Викиданные с PanLex,
  • 33:56 - 33:59
    но, может, тут я пристрастен,
    ведь я представляю, как это получится.
  • 34:02 - 34:06
    Да, пока Викиданные согласны
  • 34:06 - 34:10
    со всем этим лицензированием...
    Или же мы что-то придумаем,
  • 34:10 - 34:12
    но, думаю, это отличная идея.
  • 34:13 - 34:16
    Просто нужно понять, какими способами
    можно связать сами данные.
  • 34:16 - 34:22
    Я могу представить только один вариант:
    правки в Викиданных сразу загружаются
  • 34:23 - 34:26
    в базу данных PanLex,
  • 34:26 - 34:29
    чтобы не приходилось
  • 34:29 - 34:31
    подгружать их каждый...
  • 34:31 - 34:36
    Сделать на Викиданных интерфейс для PanLex
    с возможностью краудсорсинга --
  • 34:36 - 34:37
    это было бы чудесно.
  • 34:37 - 34:40
    Возможность использовать PanLex
    для мгновенных переводов,
  • 34:40 - 34:42
    возможность переводить
    через лексические элементы Викиданных --
  • 34:42 - 34:44
    это было бы прекрасно.
  • 34:55 - 35:00
    (голос из зала 10) Получается,
    что при проверке семантической сети
  • 35:00 - 35:04
    все дыры в ней закрываются
    за счёт механизма логического вывода?
  • 35:06 - 35:10
    Если так подумать,
    то как в таком методе перевода
  • 35:10 - 35:13
    вы решаете проблему
    семантических несоответствий
  • 35:13 - 35:16
    и грамматических несоответствий?
  • 35:16 - 35:19
    Например, если вы попытаетесь перевести
    что-то на немецкий,
  • 35:19 - 35:22
    то вы можете просто присоединить
    пару слов друг к другу,
  • 35:22 - 35:26
    и у вас получится что-то осмысленное,
  • 35:26 - 35:29
    но, с другой стороны, я читал,
  • 35:31 - 35:34
    что не в каждом языке
  • 35:35 - 35:40
    есть одна и та же
    система разделения цветов, например.
  • 35:42 - 35:44
    Вы говорите, что каждый язык
    делит цвета по-разному?
  • 35:44 - 35:45
    Или одинаково?
  • 35:46 - 35:48
    (голос из зала 10) Наверное,
    речь шла об эволюции языка:
  • 35:48 - 35:52
    они начали с белого и чёрного, а затем...
  • 35:52 - 35:53
    Да, цветовая иерархия!
  • 35:53 - 35:54
    Она хорошо показывает,
  • 35:54 - 35:57
    как это работает, да?
  • 35:58 - 36:01
    По сути, если у вас
    есть один язык-посредник...
  • 36:02 - 36:05
    Так интересно бывает, когда читаешь статьи
    по машинному переводу,
  • 36:05 - 36:08
    потому что иногда они говорят
    о каком-то абстрактном языке-посреднике,
  • 36:08 - 36:10
    они говорят:
    «Да, там есть язык-посредник»,
  • 36:10 - 36:12
    а потом ты читаешь и понимаешь:
    «Это английский».
  • 36:12 - 36:17
    Этот способ пословного перевода
    пропускает слово
  • 36:17 - 36:20
    через много разных языков-посредников.
  • 36:21 - 36:26
    Он даже может разрешать
    семантическую неоднозначность.
  • 36:26 - 36:28
    Ведь пока вы пропускаете
    слово через языки,
  • 36:28 - 36:33
    в которых есть
    схожие семантические границы слова,
  • 36:33 - 36:37
    вы сможете избежать
  • 36:37 - 36:40
    появления неоднозначности
    при переводе через язык-посредник.
  • 36:40 - 36:43
    Возьмём как пример цветовую иерархию:
  • 36:43 - 36:46
    если вы возьмёте язык, в котором
    есть одно слово для зелёного и синего,
  • 36:46 - 36:51
    вам переведут это слово как «синий»
  • 36:51 - 36:53
    на ваш единственный язык-посредник,
  • 36:53 - 36:54
    а затем и на другой язык,
  • 36:54 - 36:57
    в котором будет
    другое разделение цветов,
  • 36:57 - 37:00
    и, в конечном итоге, у вас возникнет
    семантическая неоднозначность.
  • 37:00 - 37:02
    Но если пропустить слово
    через множество языков,
  • 37:02 - 37:06
    в которых есть только один
    лексический элемент для зелёного и синего,
  • 37:06 - 37:11
    тогда эта семантическая специфика
  • 37:11 - 37:17
    дойдёт и до целевого языка.
  • 37:18 - 37:21
    Что касается грамматических особенностей,
  • 37:21 - 37:23
    PanLex с самого начала,
    прежде всего, собирал
  • 37:23 - 37:29
    лексемы и лексические формы.
  • 37:30 - 37:32
    И под этим я подразумеваю всё,
  • 37:32 - 37:34
    что вы можете взять
    в качестве вокабулы в словаре.
  • 37:35 - 37:38
    И в данный момент мы особо не занимаемся
  • 37:39 - 37:41
    сбором грамматических форм слов,
  • 37:41 - 37:43
    вроде числа и тому подобного,
  • 37:43 - 37:45
    или форм прошедшего или настоящего.
  • 37:45 - 37:46
    Но мы этим интересуемся.
  • 37:46 - 37:48
    Всегда важно помнить,
  • 37:48 - 37:51
    что так как у нас в приоритете...
  • 37:51 - 37:54
    ...малоиспользуемые и исчезающие
    миноритарные языки,
  • 37:55 - 37:58
    мы хотим сделать всё,
    чтобы хоть какие-то данные были доступны,
  • 37:58 - 38:00
    пока мы не сделаем всё идеально.
  • 38:02 - 38:03
    Мне так нравится высказывание:
  • 38:03 - 38:05
    «Не превращай лучшее во врага хорошего»,
  • 38:05 - 38:06
    и так мы и намерены поступать.
  • 38:07 - 38:09
    Мы крайне заинтересованы в том,
  • 38:09 - 38:12
    чтобы научиться обрабатывать
    грамматические формы
  • 38:12 - 38:14
    и переводить через грамматические формы.
  • 38:14 - 38:16
    Мы уже проводили исследования,
  • 38:16 - 38:17
    но полностью это ещё не внедрили.
  • 38:25 - 38:29
    (голос из зала 11)
    Полагаю, для всех этих 7 500 языков
  • 38:30 - 38:33
    вы используете словари,
    написанные для нас,
  • 38:33 - 38:36
    но у всех ли этих языков есть
    письменная форма?
  • 38:36 - 38:38
    И как вы тогда поступаете?..
  • 38:38 - 38:40
    Замечательный вопрос.
  • 38:42 - 38:45
    Да, многие из этих языков,
  • 38:45 - 38:48
    как вы прекрасно знаете, бесписьменные.
  • 38:48 - 38:51
    Любой язык, у которого есть словарь,
  • 38:51 - 38:52
    обладает какой-то орфографией,
  • 38:52 - 38:57
    и мы опираемся на орфографию,
    использованную в словаре.
  • 38:57 - 39:00
    Иногда мы её слегка подправляем,
  • 39:01 - 39:03
    если можем гарантировать,
    что язык ничего не потеряет.
  • 39:03 - 39:05
    Но мы стараемся избегать этого
    насколько возможно.
  • 39:08 - 39:11
    Мы не занимаемся
  • 39:11 - 39:13
    разработкой орфографии для языков,
  • 39:13 - 39:15
    потому что порой она не разработана,
  • 39:15 - 39:17
    если на этих языках мало публикаций.
  • 39:21 - 39:22
    Например,
  • 39:22 - 39:26
    в Новой Гвинее есть много языков,
  • 39:26 - 39:29
    которые могут и не использовать
    общепринятую орфографию,
  • 39:29 - 39:31
    но некоторые лингвисты кое-что придумали,
  • 39:31 - 39:32
    и это уже хорошее начало.
  • 39:33 - 39:37
    Мы также собираем транскрипции,
    если они даются в словарях,
  • 39:37 - 39:38
    и это ещё один способ --
  • 39:38 - 39:41
    собирать транскрипции,
    сделанные с помощью МФА,
  • 39:41 - 39:42
    если такие есть.
  • 39:42 - 39:43
    И их тоже можно использовать.
  • 39:43 - 39:46
    Но обычно мы такое не используем
    для языка-посредника,
  • 39:46 - 39:48
    потому что это может вносить
    неоднозначности.
  • 39:53 - 39:55
    (Голос из зала 12) Спасибо.
    Может, это очень глупый вопрос,
  • 39:56 - 40:01
    но на слайде все языки-посредники,
    с которыми вы работаете?
  • 40:01 - 40:02
    Нет, нет!
  • 40:02 - 40:04
    (голос из зала 12) Хорошо. Спасибо.
  • 40:04 - 40:06
    Нет, рад, что вы спросили,
    это объясняет вопрос.
  • 40:06 - 40:11
    Это скриншот с translate.panlex.org.
  • 40:11 - 40:13
    Когда вы делаете перевод,
  • 40:13 - 40:15
    вы получаете список переводов справа.
  • 40:15 - 40:18
    Если вы кликните по кнопке dot dot dot,
    то получите вот такой граф.
  • 40:18 - 40:22
    А здесь показаны языки-посредники,
  • 40:22 - 40:24
    топ-20 по расчётам --
  • 40:24 - 40:26
    я мог бы рассказать,
    как мы это подсчитываем,
  • 40:26 - 40:27
    но это сейчас не так важно --
  • 40:27 - 40:30
    по числу наиболее используемых языков.
  • 40:30 - 40:33
    Но для перевода мы используем
    гораздо больше 20 языков.
  • 40:33 - 40:36
    Я показал только 20 --
    потому что если у вас их больше 20 --
  • 40:36 - 40:38
    на деле, это что-то вроде
    физической симуляции,
  • 40:38 - 40:40
    вы можете их перемещать,
    и они будут изгибаться.
  • 40:40 - 40:42
    Если их больше 20,
    ваш компьютер с ума сойдёт.
  • 40:45 - 40:47
    Это просто для иллюстрации.
  • 40:56 - 40:58
    (голос из зала 13) Лейла,
    из Фонда Викимедиа.
  • 40:58 - 41:00
    Небольшой комментарий...
  • 41:00 - 41:03
    Вы в своём докладе несколько раз
    упоминали Фонд Викимедиа.
  • 41:03 - 41:07
    Если вы хотите вносить,
    получать и обрабатывать данные
  • 41:07 - 41:09
    или сотрудничать с Викиданными,
  • 41:09 - 41:11
    может, Wikimedia Deutschland
    лучше подойдёт
  • 41:11 - 41:13
    для обсуждения этого?
  • 41:13 - 41:16
    Потому что Викиданные --
    это проект Wikimedia Deutschland,
  • 41:16 - 41:18
    и вся их команда там,
  • 41:18 - 41:20
    и сообщество волонтёров Викиданных --
  • 41:20 - 41:24
    идеальное место для обсуждения
  • 41:24 - 41:26
    любого рода обмена данными
  • 41:26 - 41:31
    или работой над сближением
    PanLex и Викиданных.
  • 41:32 - 41:33
    Отлично, большое спасибо,
  • 41:33 - 41:35
    потому что я не особо знаком
  • 41:35 - 41:38
    со всеми тонкостями структуры того,
  • 41:38 - 41:40
    как все проекты взаимодействуют
    друг с другом.
  • 41:40 - 41:42
    Судя по смешкам, всё довольно запутано.
  • 41:42 - 41:44
    Но мы бы хотели поговорить с теми,
  • 41:44 - 41:48
    кто отвечает за Викиданные.
  • 41:48 - 41:52
    Вы уж там разберитесь,
  • 41:53 - 41:56
    а мы очень хотим поговорить именно с теми,
    кто отвечает за Викиданные,
  • 41:56 - 41:58
    а именно со всеми вами, волонтёрами!
  • 42:03 - 42:05
    Ещё вопросы?
  • 42:10 - 42:14
    Хорошо, если у кого-то будут
    ещё вопросы помимо этих
  • 42:14 - 42:18
    или тех, на которые я отвечал, --
    тонкости и особенности всех этих вещей, --
  • 42:18 - 42:20
    подойдите ко мне поговорить,
    я буду очень рад.
  • 42:20 - 42:24
    Особенно, если вы работаете со всем,
    что затрагивает лексические штуки,
  • 42:24 - 42:29
    всем, что затрагивает
    исчезающие миноритарные языки
  • 42:29 - 42:30
    или малоиспользуемые языки,
  • 42:30 - 42:34
    а также Юникод,
    им я тоже занимаюсь.
  • 42:36 - 42:38
    Спасибо вам большое,
  • 42:38 - 42:40
    и спасибо, что пригласили меня выступить,
  • 42:40 - 42:41
    надеюсь, вам всё понравилось.
  • 42:41 - 42:44
    (аплодисменты)
Title:
cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4
Video Language:
English
Duration:
42:53

Russian subtitles

Revisions