cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

Edit subtitles

0:00 - 0:02

Основной доклад
0:02 - 0:04

Бенджамин Янг (PanLex)
0:06 - 0:09

В настоящее время на планете
0:09 - 0:11

существует около 7 500 языков.
0:12 - 0:14

По оценкам экспертов,
0:14 - 0:18

около 70% из них могут исчезнуть
0:18 - 0:20

к концу 21 века.
0:22 - 0:24

Каждый раз, когда умирает язык,
0:25 - 0:27

утрачивается связь,
0:27 - 0:31

существовавшая сотни или тысячи лет,
0:31 - 0:35

с культурой, историей,
0:35 - 0:38

традициями и знаниями.
0:39 - 0:42

Лингвист Кеннет Хейл как-то сказал,
0:42 - 0:44

что смерть любого языка --
0:44 - 0:47

всё равно что бомба, сброшенная на Лувр.
0:49 - 0:52

Вопрос в том,
0:53 - 0:55

почему языки умирают?
0:56 - 1:00

Наверное, самый простой ответ --
1:00 - 1:03

вы сразу представляете себе
авторитарные режимы,
1:03 - 1:05

которые не дают людям
говорить на своих родных языках,
1:06 - 1:10

наказывают детей, если они говорят
на родном языке в школе.
1:10 - 1:13

Или как правительства
закрывают радиостанции,
1:13 - 1:15

вещающие на миноритарном языке.
1:15 - 1:17

Такое и правда происходило в прошлом,
1:17 - 1:19

и, отчасти, происходит и сегодня.
1:20 - 1:23

Но на самом деле
1:23 - 1:27

львиную долю случаев исчезновения языков
1:27 - 1:30

можно объяснить
1:31 - 1:33

гораздо проще.
1:34 - 1:36

Языки вымирают,
1:36 - 1:38

потому что их не передают
1:38 - 1:40

от одного поколения к другому.
1:42 - 1:44

Каждый раз, когда у человека,
1:44 - 1:46

владеющего миноритарным языком,
рождается ребёнок,
1:47 - 1:50

этот человек начинает думать.
1:51 - 1:53

Он задаётся вопросом:
1:54 - 1:56

«Стоит ли мне передавать
мой язык моему ребёнку
1:57 - 2:01

или же я лучше буду учить его
только мажоритарному языку?»
2:01 - 2:03

И так у них в голове
2:04 - 2:06

возникают весы,
2:07 - 2:08

куда они кладут камешек
2:10 - 2:11

каждый раз,
2:11 - 2:14

когда у них есть возможность
использовать родной язык
2:15 - 2:18

для общения, для обращения
к традиционной культуре,
2:20 - 2:22

и этот камешек кладётся
на левую чашу весов.
2:22 - 2:24

И каждый раз, когда так случается,
2:24 - 2:26

что они не могут
использовать родной язык,
2:26 - 2:28

и вместо него должны прибегать
к мажоритарному языку,
2:28 - 2:30

они кладут камешек на правую чашу весов.
2:32 - 2:35

Возможность говорить
на родном языке даёт людям
2:35 - 2:37

силу и гордость,
2:37 - 2:39

и поэтому камешки на левой чаше
обычно чуть тяжелее.
2:39 - 2:42

Но если на правой чаше
будет достаточно камешков,
2:43 - 2:45

то в итоге весы склонятся
в её сторону,
2:45 - 2:47

и когда человек будет принимать решение
2:47 - 2:49

передавать ли свой язык ребёнку или нет,
2:49 - 2:51

он будет считать свой родной язык
2:51 - 2:53

обузой, а не даром.
2:55 - 2:59

Вопрос в том, как мы можем это изменить?
2:59 - 3:02

Давайте сперва задумаемся над тем,
3:04 - 3:05

что для каждого языка
3:05 - 3:08

есть определённые сферы социальной жизни,
где он применяется.
3:08 - 3:09

Поэтому любой язык,
3:09 - 3:11

который является для кого-то родным,
3:11 - 3:13

может использоваться в кругу семьи.
3:14 - 3:17

Небольшое число языков
может использоваться внутри общины,
3:17 - 3:19

ещё какое-то небольшое число --
в одном регионе,
3:19 - 3:22

и небольшая группа языков
может использоваться
3:23 - 3:25

для международного общения.
3:26 - 3:29

И даже в этих сферах
3:29 - 3:32

встаёт вопрос, может ли человек
использовать свой язык
3:32 - 3:36

в сферах образования, торговли
3:36 - 3:38

или в области технологии?
3:39 - 3:42

Чтобы лучше объяснить,
3:43 - 3:46

о чём я говорю, я расскажу анекдот.
3:48 - 3:50

Допустим, вы отправляетесь
3:50 - 3:52

в путешествие вашей мечты в Индию
3:53 - 3:56

с восьмичасовой остановкой в Стамбуле.
3:57 - 4:01

Вы, может, и не собирались
посещать Турцию,
4:01 - 4:04

но у вас пересадка,
и ваш турецкий друг рассказывал
4:04 - 4:06

о чудесном ресторанчике
4:06 - 4:07

недалеко от аэропорта,
4:08 - 4:11

и вы говорите себе: «Может,
я загляну туда во время остановки».
4:11 - 4:13

Вы выходите из аэропорта,
4:14 - 4:15

добираетесь до ресторана,
4:15 - 4:17

и вам подают меню --
4:17 - 4:19

а оно всё на турецком!
4:20 - 4:23

Давайте договоримся,
для чистоты эксперимента,
4:23 - 4:24

что по-турецки вы не говорите.
4:25 - 4:27

Что вы будете делать?
4:28 - 4:30

Если вам повезёт,
4:30 - 4:32

вы найдёте кого-то,
кто владеет вашим родным языком:
4:32 - 4:34

немецким, английским и так далее.
4:36 - 4:38

Но, допустим, вам не повезло,
4:38 - 4:41

и никто в ресторане не говорит
ни по-немецки ни по-английски.
4:42 - 4:43

Так что вы будете делать?
4:43 - 4:46

Если вы рассуждаете как я --
а большинство так и сделает --
4:46 - 4:48

вы прибегнете к помощи технологий:
4:50 - 4:52

к машинному переводу
или электронному словарю.
4:53 - 4:54

Будете отдельно искать каждое слово
4:54 - 4:58

и в итоге закажете себе
восхитительное турецкое блюдо.
5:00 - 5:03

Но давайте вместо этого
представим такой вариант,
5:04 - 5:06

при котором вы носитель
миноритарного языка.
5:07 - 5:09

Например, нижнелужицкого языка.
5:09 - 5:11

Нижнелужицкий язык --
это исчезающий язык,
5:11 - 5:12

на котором говорят здесь, в Германии,
5:12 - 5:17

примерно в 130 километрах
к юго-востоку от этого места.
5:18 - 5:21

На нём говорит только пара тысяч человек,
преимущественно пожилых.
5:23 - 5:25

Допустим, ваш родной язык --
нижнелужицкий.
5:25 - 5:27

Вы очутились в ресторане.
5:27 - 5:28

Вероятность найти в ресторане человека,
5:28 - 5:31

владеющего вашим родным языком, --
крайне мала.
5:32 - 5:36

Но, опять же, вы можете прибегнуть
к помощи технологий.
5:37 - 5:39

Однако, для вашего родного языка
5:39 - 5:42

технических решений не существует.
5:42 - 5:45

Вам придётся использовать
немецкий или английский
5:45 - 5:47

в качестве языка-посредника к турецкому.
5:49 - 5:52

Конечно, вы в итоге всё равно получите
восхитительное турецкое блюдо,
5:52 - 5:55

но вы станете думать о том,
как бы трудно на вашем месте
5:55 - 5:57

пришлось вашему дедушке,
который немецким не владел.
5:58 - 6:00

Это всего один случай,
6:00 - 6:05

но он станет камушком
на правой чаше весов,
6:05 - 6:07

и, может, потом вы будете размышлять:
6:07 - 6:10

«Если у меня будут дети,
или ещё один ребёнок,
6:11 - 6:15

я не буду передавать им мой язык
6:15 - 6:17

из-за всех трудностей,
с которыми мне пришлось столкнуться».
6:19 - 6:21

А теперь представьте себе
6:21 - 6:26

гораздо более серьёзную ситуацию --
6:26 - 6:28

например, вы оказались в больнице.
6:31 - 6:36

И вот здесь-то мы и можем помочь --
6:37 - 6:40

«мы» -- это я и вы в этом зале.
6:41 - 6:44

У нас есть средства,
которые могут помочь.
6:45 - 6:47

Если технические средства
станут доступны для носителей
6:47 - 6:49

миноритарных или малоиспользуемых языков,
6:51 - 6:54

то мы немного склоним
в нашу сторону левую чашу весов.
6:54 - 6:56

Люди не должны думать,
6:56 - 6:58

что обязаны использовать миноритарный язык
6:58 - 6:59

для общения с внешним миром,
7:02 - 7:06

это просто расширяет сферы его применения.
7:08 - 7:11

В идеале,
7:11 - 7:13

хорошо бы было автоматически
переводить на любой язык в мире.
7:13 - 7:17

Но, к сожалению, это неосуществимо.
7:17 - 7:20

Машинный перевод требует
больших корпусов текста.
7:20 - 7:21

А для многих языков,
7:21 - 7:23

которые исчезают или мало используются,
7:23 - 7:25

таких данных просто нет.
7:26 - 7:28

Многие из них бесписьменные,
7:29 - 7:33

а потому невозможно получить
достаточно данных для создания
7:33 - 7:34

системы машинного перевода.
7:34 - 7:38

Но зато нам доступны лексические данные.
7:40 - 7:43

Благодаря работе многих лингвистов
7:43 - 7:45

за последние несколько сотен лет
7:48 - 7:50

были составлены словари и грамматики
7:50 - 7:52

большинства мировых языков.
7:54 - 7:57

Но, к сожалению, многие из этих работ
7:57 - 8:01

не доступны для мира
8:01 - 8:04

и уж тем более для носителей
этих миноритарных языков.
8:05 - 8:08

Это выходит непреднамеренно,
зачастую потому,
8:08 - 8:11

что первоначальный тираж
этих словарей был небольшим,
8:11 - 8:13

и единственные экземпляры
8:13 - 8:16

пылятся где-то
в университетских библиотеках.
8:18 - 8:21

Но у нас есть возможность
извлечь эти данные
8:21 - 8:23

и сделать их доступными
для всего мира.
8:24 - 8:28

Фонд Викимедиа --
это одна из лучших организаций,
8:28 - 8:31

даже скажу -- ей лучше всех в мире
8:31 - 8:33

удаётся делать данные доступными
8:33 - 8:37

для большей части населения этой планеты.
8:39 - 8:40

Давайте этим и займёмся.
8:41 - 8:43

Чтобы немного рассказать о том,
8:43 - 8:45

что мы делаем в этом направлении,
8:45 - 8:48

я бы хотел представить вам
мою организацию -- PanLex,
8:49 - 8:52

которая пытается
8:52 - 8:54

собрать лексические данные
для этой цели.
8:55 - 8:57

Она зародилась 12 лет назад
8:57 - 9:00

как научно-исследовательский проект
в Вашингтонском университете.
9:00 - 9:01

Его задачей было показать,
9:01 - 9:04

что переводы с языка на язык
посредством другого языка
9:04 - 9:07

могут служить
действенным методом перевода,
9:07 - 9:09

в особенности перевода слов.
9:09 - 9:12

Вот пример из данных самого PanLex.
9:13 - 9:14

Здесь показано, как мы переводим
9:14 - 9:18

слово «ev» с турецкого языка,
оно означает «дом»,
9:18 - 9:20

на нижнелужицкий язык,
9:20 - 9:21

о котором я рассказывал ранее.
9:21 - 9:23

Маловероятно,
9:24 - 9:26

что где-то есть
турецко-нижнелужицкий словарь,
9:26 - 9:28

но если мы пропустим слово
9:28 - 9:30

через много-много
разных языков-посредников,
9:30 - 9:33

то сможем получить его удачный перевод.
9:34 - 9:37

Когда мы продемонстрировали это
в нашем исследовательском проекте,
9:37 - 9:40

основатель PanLex,
доктор Джонатан Пул,
9:41 - 9:44

решил: «Почему бы это
и вправду не сделать?»
9:44 - 9:45

Поэтому он основал
некоммерческую организацию,
9:45 - 9:49

чтобы собрать как можно больше
лексических данных и сделать их открытыми.
9:49 - 9:51

Этим мы и занимаемся уже 12 лет.
9:51 - 9:55

За это время мы собрали тысячи словарей,
9:55 - 9:56

извлекли из них лексические данные,
9:56 - 9:58

и составили базу данных,
9:58 - 10:01

которая позволяет осуществлять
опосредованный перевод
10:01 - 10:04

через любой из...
10:04 - 10:06

Сейчас у нас есть около 5 500
10:06 - 10:08

из 7 500 языков мира.
10:09 - 10:11

И, конечно,
10:11 - 10:12

мы пытаемся увеличить это число
10:12 - 10:15

и увеличить число данных
по каждому отдельному языку.
10:17 - 10:21

И тогда возникает вопрос:
10:22 - 10:26

что мы сможем сделать,
чтобы объединить усилия?
10:27 - 10:29

Мы в PanLex счастливы видеть,
10:29 - 10:31

как происходит накопление
лексических данных,
10:31 - 10:34

которым недавно занялись Викиданные.
10:35 - 10:38

Так увлекательно наблюдать
за деятельностью организаций,
10:38 - 10:39

работающих в одной области,
10:39 - 10:41

но занимающихся разными направлениями.
10:42 - 10:44

Мы так рады видеть,
10:45 - 10:46

результаты этого в Викиданных.
10:46 - 10:51

И мы надеемся на сотрудничество
с Викиданными.
10:54 - 10:56

Мне кажется, что опыт,
10:56 - 10:58

который мы приобрели за эти 12 лет
10:58 - 11:02

не только в сборе лексических данных,
но и в проектировании баз данных,
11:02 - 11:04

может пригодиться Викиданным.
11:04 - 11:07

И, с другой стороны, я думаю...
11:08 - 11:11

Я в особенности счастлив,
что Викиданные могут использовать
11:12 - 11:15

краудсорсинг для сбора данных.
11:15 - 11:18

В данный момент PanLex использует только
11:18 - 11:21

печатные словари
или другие источники лексических данных,
11:21 - 11:23

но мы не используем краудсорсинг.
11:23 - 11:25

У нас просто нет для этого
технических возможностей.
11:25 - 11:27

И, конечно, Фонд Викимедиа --
11:27 - 11:29

это мировой эксперт
в области краудсорсинга.
11:32 - 11:34

И мне не терпится увидеть,
11:34 - 11:36

как мы вместе сможем применить наш опыт.
11:39 - 11:42

Но, в целом, мне кажется,
задуматься надо вот о чём:
11:42 - 11:43

когда мы начинали работать над этим,
11:43 - 11:45

это казалось нам не особо важным.
11:45 - 11:48

Мы просто сидим,
изучая грамматические формы
11:48 - 11:52

или пролистываем словари, древние словари,
11:52 - 11:54

а иногда даже
недавно опубликованные словари,
11:54 - 11:57

и изучаем орфографию слов,
11:57 - 12:00

и это кажется такой мелочью.
12:00 - 12:03

Но изредка нам надо
оглядываться на сделанное.
12:03 - 12:05

Хоть порой то, что мы делаем,
12:06 - 12:09

может показаться рутинным,
12:10 - 12:12

мы занимаемся крайне важной работой.
12:13 - 12:16

На мой взгляд, это самый лучший способ
12:16 - 12:19

помочь исчезающим языкам и сделать всё,
12:19 - 12:21

чтобы лингвистическое разнообразие
нашей планеты
12:21 - 12:25

сохранилось до конца этого века
или даже дольше.
12:26 - 12:30

Вполне вероятно, что работа,
которой мы сегодня занимаемся,
12:30 - 12:33

повлечёт за собой сохранение языков
12:33 - 12:35

и их передачу следующим поколениям,
12:35 - 12:37

и не даст им исчезнуть.
12:39 - 12:41

Просто помните,
12:41 - 12:43

что даже если вы просто
сидите за компьютером
12:43 - 12:45

и правите отдельную статью,
12:45 - 12:50

и добавляете форму данных
какого-то миноритарного языка
12:50 - 12:52

для каждого существительного,
12:52 - 12:55

даже то немногое, что вы делаете сейчас,
12:55 - 12:58

может оказаться причиной того,
12:58 - 12:59

что язык просуществует
12:59 - 13:01

до конца этого века или даже дольше.
13:03 - 13:04

Большое спасибо,
13:04 - 13:06

и я готов ответить на ваши вопросы.
13:06 - 13:08

(аплодисменты)
13:24 - 13:25

(голос из зала 1) Спасибо!
13:25 - 13:27

- Спасибо за ваш доклад.
- Спасибо.
13:27 - 13:29

(голос из зала 1) У меня есть вопрос
насчёт словарей.
13:29 - 13:31

Вы сказали, что работаете
с печатными изданиями?
13:31 - 13:32

- Да.
- (голос из зала 1) Вопрос:
13:32 - 13:35

какие данные вы берёте из этих словарей
13:35 - 13:38

и как вы выходите из ситуации
с авторскими правами?
13:38 - 13:41

Так и думал, что меня
первым делом об этом спросят.
13:41 - 13:43

(смех)
13:43 - 13:46

Начнём с того, что в PanLex
13:46 - 13:50

мы проконсультировались у наших юристов:
13:53 - 13:57

хотя составление и систематизация
словаря охраняется авторским правом,
13:57 - 14:03

сам перевод слов авторским правом
не охраняется.
14:04 - 14:06

Вот хороший тому пример:
14:06 - 14:10

по законодательству США
телефонный справочник охраняется
14:11 - 14:12

авторским правом.
14:12 - 14:17

Но само утверждение, что номер
такого-то человека -- такое-то число,
14:17 - 14:18

не охраняется.
14:22 - 14:23

Как я уже сказал,
14:23 - 14:25

вот так, согласно нашим правоведам,
14:25 - 14:27

мы выходим из этой ситуации.
14:27 - 14:31

Но если и этот правовой аргумент
недостаточно убедителен,
14:31 - 14:32

то следует помнить,
14:32 - 14:38

что у большинства этих лексических данных
14:39 - 14:41

авторские права уже истекли.
14:41 - 14:43

У значительного числа словарей
авторские права истекли,
14:43 - 14:44

и они могут свободно использоваться.
14:44 - 14:47

Но, к примеру, совсем другое дело --
14:47 - 14:50

если мы работаем
с недавно вышедшим словарём,
14:50 - 14:52

мы не станем его сканировать
и распознавать,
14:52 - 14:53

мы просто напишем его составителю.
14:53 - 14:58

На деле, большинство лингвистов рады,
14:58 - 15:00

что мы можем сделать их данные
доступными для всех.
15:00 - 15:01

И они говорят: «Конечно, пожалуйста,
15:01 - 15:03

загрузите их
и сделайте доступными для всех».
15:06 - 15:08

Так что, по крайней мере
согласно нашим юристам,
15:08 - 15:09

мы можем это делать,
15:09 - 15:11

но если вы не хотите этим заморачиваться,
15:11 - 15:16

очень легко получить эти данные
в открытом доступе.
15:26 - 15:28

- (голос из зала 2) Здравствуйте.
- Здравствуйте.
15:28 - 15:30

(голос из зала 2) Расскажите,
15:30 - 15:35

как человек, владеющий нижнелужицким,
получает доступ к данным.
15:35 - 15:38

А именно, как эта информация
к нему поступает
15:38 - 15:41

и как это может помочь убедить его
15:41 - 15:43

попробовать...
15:43 - 15:46

Отличный вопрос,
над которым я сам много думал,
15:46 - 15:50

потому что считаю,
что обеспечение доступа к данным --
15:50 - 15:53

это на самом деле
многоступенчатый процесс.
15:53 - 15:56

Во-первых, это сохранение данных,
надо следить, чтобы данные не исчезали.
15:56 - 15:59

Во-вторых, надо следить, чтобы с ними
можно было взаимодействовать
15:59 - 16:02

и использовать их.
16:02 - 16:06

И, в-третьих, надо убедиться,
что они доступны всем.
16:06 - 16:07

Если говорить о PanLex,
16:07 - 16:10

у нас для этого можно использовать
интерфейс API,
16:10 - 16:12

но обычный пользователь
его использовать не сможет.
16:12 - 16:15

Но мы разработали и другие интерфейсы.
16:15 - 16:20

Если вы зайдёте на translate.panlex.org,
16:20 - 16:23

вы сможете переводить
на основе нашей базы данных.
16:23 - 16:26

Если хотите поковыряться в API,
зайдите на dev.panlex.org,
16:26 - 16:29

и вы сможете найти кучу информации
по API, или наберите api.panlex.org.
16:31 - 16:33

Но необходим и следующий шаг:
16:33 - 16:37

даже если вы сделаете ваши данные
полностью доступными для всех,
16:37 - 16:41

со всеми нужными сервисами,
позволяющими получить к ним доступ,
16:41 - 16:43

если вы не будете эти сервисы продвигать,
16:43 - 16:45

люди не смогут их использовать.
16:45 - 16:47

И, честно говоря...
16:49 - 16:51

Мы это мало обсуждаем,
16:51 - 16:53

и у нас нет верного решения
для этой проблемы.
16:53 - 16:55

Как нам обеспечить...
16:55 - 16:57

Например, я совсем недавно,
16:57 - 17:00

всего пару лет назад, узнал о Викиданных,
17:00 - 17:03

а ведь я интересуюсь такими вещами.
17:03 - 17:07

Так как нам разрекламировать себя?
17:07 - 17:09

Я пока оставлю этот вопрос открытым.
17:09 - 17:11

У меня нет на него верного ответа.
17:11 - 17:13

Но для того, чтобы это сделать,
17:13 - 17:15

нам нужно выполнить самые первые шаги.
17:22 - 17:25

(голос из зала 3) Разве для осуществления
машинного перевода
17:25 - 17:28

нам не нужна память переводов?
17:28 - 17:31

Я не уверен, что отдельных слов,
17:31 - 17:33

которые мы вносим в Викиданные,
17:33 - 17:37

словосочетаний,
которые мы вносим в Викиданные,
17:37 - 17:41

или как обычные элементы Викиданных,
или как лексемы Викиданных,
17:41 - 17:44

хватит для осуществления
надлежащего перевода.
17:44 - 17:47

Нам нужны целые предложения,
например, для...
17:47 - 17:48

(Бенджамин) Да, точно.
17:49 - 17:51

(голос из зала 3) И где мы получим
такую структуру данных?
17:51 - 17:55

Я не уверен, что сейчас
17:55 - 18:00

Викиданные могут хорошо справиться
18:00 - 18:03

с проблемой памяти переводов,
18:04 - 18:06

TranslateWiki.net
18:06 - 18:09

частично заполняет это пробел...
18:12 - 18:15

Должны ли мы что-то с этим сделать
или мы должны...
18:15 - 18:17

Я крайне вам признателен за вопрос,
18:17 - 18:19

я уже затрагивал его,
18:19 - 18:21

но с удовольствием отвечу ещё раз.
18:21 - 18:25

Именно по этой причине PanLex и работает
с лексическими данными,
18:25 - 18:27

и вот почему мне так нравятся
лексические данные
18:27 - 18:30

как противовес...
Не как противовес, а как дополнение
18:30 - 18:35

к системам машинного перевода
и вообще к машинному переводу.
18:36 - 18:39

Как вы сказали, машинный перевод
требует определённых данных,
18:40 - 18:43

и для большинства мировых языков
таких данных нет.
18:43 - 18:45

По большинству мировых языков
18:45 - 18:46

они просто не получены.
18:47 - 18:48

Но это не значит, что мы должны сдаться.
18:48 - 18:50

С чего бы?
18:51 - 18:54

Если мне нужно перевести меню на турецком,
18:55 - 18:59

перевод лексем отлично для этого подойдёт.
18:59 - 19:02

Я не говорю, что его можно использовать
19:02 - 19:05

для идеального перевода связного текста.
19:05 - 19:07

Под переводом лексем
я имею в виду пословный перевод,
19:07 - 19:10

а пословный перевод
может быть крайне полезен,
19:12 - 19:15

Смешно вспоминать,
но у нас и не было доступа
19:15 - 19:17

к хорошей системе машинного перевода.
19:17 - 19:20

До недавнего времени
ни у кого не было к ним доступа.
19:20 - 19:24

Мы все обходились словарями,
19:24 - 19:28

и это прекрасный источник данных.
19:28 - 19:31

И раз у нас есть данные,
почему бы не сделать их доступными
19:31 - 19:34

для всего мира
и для носителей этих языков?
19:36 - 19:39

(голос из зала 4) Здравствуйте,
какими принципами
19:39 - 19:41

вы руководствуетесь, когда носители...
Я здесь!
19:41 - 19:43

- Где вы? Так, вижу.
- (голос из зала 4) Извините. (смеётся)
19:43 - 19:45

...когда сами носители
19:45 - 19:47

против размещения
каких-то данных в PanLex?
19:47 - 19:49

Отличный вопрос!
19:49 - 19:52

Мы это решаем так:
19:52 - 19:56

если словарь уже опубликован
и доступен для общественности --
19:57 - 19:58

это хороший знак.
19:58 - 20:02

Если вы можете найти его в магазине
или в университетской библиотеке,
20:02 - 20:05

или в публичной библиотеке,
открытой для всех,
20:05 - 20:08

это верный признак того,
что носители это уже решили.
20:08 - 20:15

(голос из зала 4) [неразборчиво]
20:16 - 20:18

(голос из зала 5) Пожалуйста,
[неразборчиво], в микрофон.
20:19 - 20:20

Повторите, пожалуйста!
20:20 - 20:23

(голос из зала 4) У лингвистов
не всегда есть разрешение носителей языка
20:23 - 20:24

на публикацию таких вещей,
20:24 - 20:28

они частенько публикуют что-то
без согласия носителей.
20:28 - 20:29

Да, это совершенно верно!
20:30 - 20:33

Даже скажу, это...
20:33 - 20:34

Это случается.
20:34 - 20:37

Но, я бы сказал,
в незначительном числе случаев,
20:37 - 20:41

как правило, в Северной Америке,
20:41 - 20:43

но иногда это случается
и с языками Южной Америки.
20:45 - 20:46

Мы должны это учитывать.
20:46 - 20:49

Если мы, например, узнаём о том,
20:49 - 20:52

что какие-то данные в PanLex
20:52 - 20:56

не должны стать доступными
для всего остального мира,
20:56 - 20:58

то, конечно, мы их удалим.
20:58 - 20:59

(голос из зала 4) Хорошо.
21:01 - 21:02

Мы можем и не прислушаться,
21:02 - 21:04

если речь идёт об авторских правах,
21:04 - 21:07

но мы прислушаемся
к традиционным общинам,
21:07 - 21:08

и это главное отличие.
21:08 - 21:10

(голос из зала 4)
Да, это я и имела в виду.
21:15 - 21:17

И возникает интересный момент,
21:17 - 21:18

который заключается в том,
21:19 - 21:22

что иногда это большой вопрос:
а кто выступает от имени носителей?
21:23 - 21:28

Я как-то посещал Юго-Запад США
21:28 - 21:30

и работал с людьми,
21:30 - 21:32

которые занимались
родными языками народов пуэбло.
21:36 - 21:39

Существует около
шести языков народов пуэбло --
21:39 - 21:40

смотря как их делить --
21:40 - 21:42

на которых говорят в этом регионе.
21:42 - 21:44

Но на этих языках говорят
в 18 разных поселениях,
21:44 - 21:47

и у каждого есть
свои племенные правительства,
21:47 - 21:50

и у каждого может быть своя точка зрения,
21:50 - 21:54

стоит ли раскрывать
свой язык посторонним или нет.
21:57 - 21:58

Например, Зуни-Пуэбло --
21:58 - 22:01

единственное поселение пуэбло,
в котором говорят на языке зуни.
22:03 - 22:05

И им хочется,
чтобы их язык распространялся,
22:05 - 22:08

на нём есть надписи на указателях
и всём таком, что здорово.
22:08 - 22:11

Но о некоторых других языках
22:11 - 22:12

одно поселение может сказать:
22:13 - 22:16

«Мы не хотим, чтобы
посторонние знали наш язык».
22:16 - 22:19

Но в соседнем поселении,
говорящем на том же языке, вам скажут:
22:19 - 22:22

«Мы хотим, чтобы наш язык
был доступен для посторонних
22:22 - 22:24

через эти технические средства,
22:24 - 22:27

потому что мы хотим,
чтобы наш язык существовал дальше».
22:27 - 22:29

И это поднимает
очень интересную этическую дилемму.
22:29 - 22:32

Потому что если вы
прекратите изучение, сказав:
22:32 - 22:35

«Хорошо, я прекращаю, потому что
то поселение сказало прекратить» --
22:35 - 22:37

не нарушаете ли вы интересы
другого поселения,
22:37 - 22:39

потому что они и правда хотят,
чтобы вы его распространили.
22:39 - 22:43

Думаю, на этот вопрос
нет однозначного ответа.
22:43 - 22:45

Но, по крайней мере,
если говорить о PanLex...
22:45 - 22:48

Хочу отметить,
что мы с таким не сталкивались,
22:48 - 22:50

насколько мне известно.
22:51 - 22:53

Это может быть частично из-за того...
22:54 - 22:55

Возвращаясь к его вопросу,
22:56 - 22:58

нам нужно активнее продвигать наш продукт.
(смеётся)
22:59 - 23:02

Но, в целом, насколько я знаю,
23:02 - 23:04

у нас таких проблем не возникало.
23:04 - 23:07

Но наша стратегия тут такова:
23:07 - 23:11

если носители скажут,
что не хотят своих данных в базе,
23:11 - 23:12

то мы их удалим.
23:12 - 23:15

(голос из зала 4) У нас такое было
в Викиданных и Википедии...
23:15 - 23:16

- Да ?
- (голос из зала 4) В комментариях.
23:16 - 23:18

- Да?
- (голос из зала 4) Часто.
23:18 - 23:20

Могу такое представить в комментариях
к фотографиям или чему-то такому.
23:20 - 23:22

(голос из зала 4) Именно.
23:27 - 23:33

(голос из зала 6) У меня есть вопрос
насчёт краудсорсинга.
23:34 - 23:37

Когда мы работаем
вместе с пользователями и просим их
23:37 - 23:40

аннотировать или добавлять данные
в массив данных,
23:40 - 23:44

меня немного пугает то,
23:45 - 23:49

что как редактор я могу видеть только,
что каких-то данных не хватает.
23:49 - 23:53

Но если я буду знать,
какие из них наиболее важны,
23:54 - 23:57

когда буду тратить на это всё время,
23:58 - 24:01

то это бы послужило хорошей мотивацией.
24:01 - 24:04

Хотелось бы узнать,
есть ли у вас какая-то система,
24:04 - 24:08

вроде этого: мы знаем,
какие пробелы есть в наших данных,
24:08 - 24:12

мы можем лингвистически обосновать,
24:12 - 24:16

что если мы разметим именно эти данные,
то они окажут наибольшее воздействие.
24:16 - 24:17

Мне представляется,
24:18 - 24:21

что лексема «дом» будет обладать
большой силой воздействия...
24:21 - 24:25

Может, даже не лексемы,
а какие-то данные или что-то такое.
24:25 - 24:29

Мне интересно,
если ли у вас что-то такое,
24:30 - 24:35

что можно использовать,
чтобы направлять усилия пользователей?
24:36 - 24:37

Отличный вопрос.
24:37 - 24:41

У Викиданных есть много...
24:41 - 24:45

Извините, у PanLex есть
множество списков Сводеша.
24:45 - 24:48

Вероятно, у нас самое большое собрание
списков Сводеша в мире,
24:48 - 24:49

что любопытно.
24:49 - 24:50

Уточню, список Сводеша --
24:50 - 24:56

это стандартизированный перечень
лексических элементов,
24:56 - 25:00

который может использоваться
для анализа языков.
25:00 - 25:03

Он содержит самые базовые понятия.
25:03 - 25:05

Есть разные виды списков Сводеша.
25:05 - 25:07

Обычно в них 100 или 213 элементов,
25:07 - 25:09

и они могут содержать
25:09 - 25:13

слова типа «дом», и «глаз», и «кожа»,
25:13 - 25:14

и другие базовые понятия,
25:14 - 25:16

которые вы сможете найти в любом языке.
25:16 - 25:20

И лучше всего вначале делать доступным
25:20 - 25:23

именно этот тип данных.
25:29 - 25:31

Как я уже говорил,
25:31 - 25:34

мы ещё не занимались краудсорсингом,
25:34 - 25:36

и мы очень рады
использовать эту возможность.
25:36 - 25:38

Я так счастлив рассказывать
25:38 - 25:39

на конференции о том,
25:39 - 25:43

как можно использовать краудсорсинг
25:43 - 25:46

и о его организации,
25:46 - 25:49

и вопросы такого рода могут возникать.
25:51 - 25:53

Пожалуй, мой ответ вам будет таков:
25:53 - 25:55

у нас есть перечень приоритетных задач...
25:55 - 25:58

Могу точно сказать, у нас есть список,
25:58 - 26:00

какие языки мы разыскиваем
в первую очередь.
26:00 - 26:02

Мы ищем такие языки,
26:02 - 26:05

для которых сейчас нет никаких
технических решений, --
26:05 - 26:07

и это чаще всего миноритарные языки,
26:07 - 26:09

и обычно это миноритарные языки --
26:09 - 26:12

и уделяем им внимание в первую очередь.
26:14 - 26:17

Но если говорить об отдельных
лексических элементах,
26:17 - 26:20

обычно мы загружаем новые данные,
26:20 - 26:23

внося в базу всё, что есть в словаре.
26:23 - 26:26

Мы полагаемся на словарь
26:26 - 26:28

в плане выбора лексических элементов,
26:28 - 26:32

а не ищем понятие «дом» по всем языкам.
26:32 - 26:35

Но когда дело дойдёт до краудсорсинга,
нам надо будет расставить приоритеты.
26:35 - 26:38

Это такая возможность
для исследований и развития.
26:40 - 26:43

(голос из зала 7) Здравствуйте, я Виктор.
Это потрясающе.
26:45 - 26:47

У вас есть слайды на эту тему --
26:47 - 26:49

вы можете немного рассказать
о техническом состоянии,
26:49 - 26:51

об обмене данными,
26:51 - 26:57

потоками данных
между Викиданными и PanLex.
26:57 - 27:00

Вы его уже внедрили?
27:00 - 27:04

И как вы решаете проблемы,
27:04 - 27:07

связанные с обменом информацией
или с системой обратной связи
27:07 - 27:10

между PanLex и Викиданными?
27:10 - 27:14

Мы пока официально
не присоединены к Викиданным,
27:14 - 27:15

и, повторюсь, это то,
27:15 - 27:18

что я очень хочу обсудить сегодня
с участниками конференции.
27:18 - 27:21

У нас есть обмен информацией
с Викисловарём,
27:22 - 27:25

но, честно скажу,
Викиданные больше подходят
27:25 - 27:27

для поиска нужной нам информации.
27:27 - 27:29

Там только лексические данные,
27:29 - 27:32

и нам меньше придётся заниматься
анализом данных и их извлечением.
27:33 - 27:37

И мой ответ: пока нет,
но мы бы очень этого хотели.
27:37 - 27:40

(голос из зала 7)
А что может этому препятствовать?
27:40 - 27:44

Викиданные уже поддерживают
несколько языков,
27:44 - 27:47

но я зашёл на translate.panlex.org,
27:47 - 27:49

и вы поддерживаете
много разных диалектов,
27:49 - 27:51

гораздо больше, чем Викиданные.
27:51 - 27:53

В чём, по-вашему, разница
27:53 - 27:57

между мгновенным переводом
и пословным,
27:57 - 27:59

прикладной задачей
28:00 - 28:04

и попыткой построить карту знаний?
28:04 - 28:06

Картирование знаний
было бы интересной задачей.
28:06 - 28:07

Мы с интересом обсуждали то,
28:07 - 28:12

как Викиданные организуют
их лексические данные,
28:12 - 28:14

ваши лексические данные,
28:14 - 28:16

и как мы организуем
наши лексические данные.
28:16 - 28:21

И есть нюансы, которые потребуют
иного способа картирования,
28:21 - 28:25

он необязательно будет
целиком автоматизированным,
28:25 - 28:27

но мы сможем разработать методы,
которые позволят нам это сделать.
28:27 - 28:31

Вы привели в пример диалекты языка.
28:31 - 28:34

Мы становимся крайне «дотошными»,
когда речь идёт о диалектах.
28:34 - 28:36

То есть у нас есть источник,
который говорит,
28:36 - 28:39

что на вот этом диалекте
28:39 - 28:42

говорят на левом берегу реки
в Папуа-Новой Гвинее,
28:42 - 28:43

а другой источник скажет нам,
28:43 - 28:45

что на таком диалекте говорят
на правом берегу реки,
28:45 - 28:47

то мы будем их считать отдельными языками.
28:47 - 28:51

Мы так поступаем, чтобы сохранить
как можно больше данных.
28:52 - 28:54

Картирование данных так,
как это делают Викиданные...
28:54 - 28:57

Я бы очень хотел обсудить,
28:57 - 29:01

какие коды используются для языков
29:01 - 29:06

в Викиданных.
29:08 - 29:12

Для этого мы тоже используем
очень «дотошный» способ.
29:14 - 29:17

Мы обычно пользуемся стандартом ISO 6393,
29:18 - 29:20

который предлагает справочник «Этнолог»,
29:20 - 29:24

и к каждому индивидуальному коду
мы добавляем различные варианты,
29:24 - 29:26

а также уже существующие наборы символов
29:26 - 29:29

для региональных диалектов и социолектов.
29:30 - 29:33

Тут есть возможности
для обсуждения и работы.
29:36 - 29:39

(голос из зала 8) Есть ли у вас конвейер
для оптического распознавания символов?
29:39 - 29:45

Потому что мы пытались
распознавать язык майя
29:45 - 29:48

и результатов не добились.
29:48 - 29:50

Он ничего не может распознать.
29:50 - 29:53

- О да! (смеётся)
- (голос из зала 8) И...да.
29:53 - 29:56

Если можно использовать ваши конвейеры...
29:56 - 30:00

И ещё вопрос: бывает, что коды ISO
не совпадают друг с другом,
30:00 - 30:02

иногда они утверждают:
30:02 - 30:04

«Это один язык, а это совершенно другой»,
30:04 - 30:07

но есть источники,
которые утверждают совсем другое,
30:07 - 30:10

вы об этом говорили,
но они часто используют разные коды.
30:10 - 30:13

Как вы с этим справляетесь?
30:13 - 30:15

Замечательный вопрос!
30:15 - 30:17

Мне он очень понравился.
30:17 - 30:20

По сути, мы не пользуемся
каким-то конкретным конвейером,
30:20 - 30:24

мы всё делаем на основе источника данных
и в зависимости от источника.
30:24 - 30:26

Одна из причин, по которой мы так делаем:
часто у нас есть источники,
30:26 - 30:28

которые не требуется распознавать
30:28 - 30:30

и которые доступны для некоторых языков,
30:30 - 30:33

и мы используем именно их,
потому что с ними меньше всего работы.
30:33 - 30:35

Но если мы и вправду хотим
тщательно изучить
30:35 - 30:37

некоторые источники у нас в архиве,
30:37 - 30:41

нам потребуется разработать
мощный конвейер распознавания текста.
30:41 - 30:44

Но есть ещё один момент,
как вы уже упоминали...
30:44 - 30:49

Люди, которые разрабатывают
модули распознавания текста,
30:49 - 30:53

не понимают, каким экстремальным нагрузкам
мы можем их подвергнуть.
30:53 - 30:55

Настоящее веселье --
30:55 - 30:58

попробовать распознать
русско-тибетский словарь.
30:59 - 31:01

Это очень трудно, как оказалось...
31:01 - 31:04

Мы сдались и наняли человека
это всё перепечатать,
31:04 - 31:06

и это оказалось вполне реально.
31:06 - 31:07

И оказалось,
31:07 - 31:10

эта потрясающая русская женщина
научилась читать по-тибетски,
31:10 - 31:13

чтобы всё это перепечатать,
что впечатляло.
31:15 - 31:18

Думаю, если вы имеете дело
с текстами с латинским шрифтом,
31:18 - 31:23

то можно разработать
полноценное ПО для распознавания,
31:23 - 31:25

работающее с многоязычными источниками,
31:25 - 31:27

полагаю, вы получите на выходе четвёрку,
31:27 - 31:28

если будете работать с текстами
31:28 - 31:31

16-го века на языке майя,
в смысле, цифру «четыре».
31:34 - 31:38

Но есть источники,
31:38 - 31:40

которые распознать не получится никогда,
31:40 - 31:42

или которые потребуют
такой огромной работы...
31:43 - 31:47

Мы сейчас этим немного занимаемся.
31:47 - 31:49

В PanLex мы ведём ещё один проект:
31:49 - 31:54

мы переносим в электронный вид
классическую литературу Бали,
31:54 - 31:58

она существует только в виде рукописей,
31:58 - 32:00

поэтому её не распознать.
32:00 - 32:02

Мы нашли множество балийцев,
чтобы их перепечатать,
32:02 - 32:05

и это превратилось
в замечательный культурный проект на Бали,
32:05 - 32:07

он получил огласку и всё такое.
32:07 - 32:09

По-моему,
32:09 - 32:11

программы распознавания текста
использовать необязательно,
32:11 - 32:13

но задач много.
32:13 - 32:15

Было бы неплохо иметь
хорошее ПО для распознавания текста.
32:17 - 32:21

И если тут кто-то без ума
от многоязычного распознавания текста,
32:21 - 32:23

то поговорите потом со мной.
32:30 - 32:31

(голос из зала 9) Спасибо вам за доклад.
32:31 - 32:35

Вы упоминали интеграцию
32:35 - 32:37

PanLex и Викиданных,
32:37 - 32:39

но в подробности не вдавались.
32:39 - 32:43

Я проверил лицензию ваших данных:
это СС0, то есть общественное достояние.
32:43 - 32:44

- Да.
- (голос из зала 9) Здорово!
32:44 - 32:46

И для интеграции есть два варианта:
32:46 - 32:49

мы можем или импортировать данные,
32:49 - 32:53

или сделать что-то похожее на то,
что мы делали с Freebase:
32:53 - 32:56

мы тогда получили
всю базу данных от Freebase,
32:56 - 32:59

импортировали её и создали ссылку,
32:59 - 33:04

внешний идентификатор
на базу данных Freebase.
33:04 - 33:08

Думаете ли вы о чём-то подобном?
33:08 - 33:10

Или вы просто хотите создать...
33:15 - 33:19

...независимую базу данных,
которая будет связана с Викиданными?
33:19 - 33:21

Да, прекрасный вопрос,
33:21 - 33:23

и мне кажется,
что это пока далеко идущие планы
33:23 - 33:26

по сравнению с теми вещами,
которые я уже обдумывал,
33:26 - 33:30

отчасти из-за того, как я уже сказал,
33:30 - 33:32

что настройка совместной работы
двух баз данных --
33:32 - 33:34

это уже сам по себе шаг.
33:34 - 33:35

Думаю, в качестве первого шага
33:35 - 33:38

мы можем объединить
наши знания и навыки.
33:38 - 33:40

У нас большой опыт
33:40 - 33:43

в классификации свойств отдельных лексем,
33:43 - 33:45

и я бы хотел им поделиться.
33:46 - 33:49

Но объединить две базы данных
было бы замечательно.
33:49 - 33:51

Я на 100% «за»!
33:51 - 33:54

Думаю, было бы проще,
33:54 - 33:56

связать именно Викиданные с PanLex,
33:56 - 33:59

но, может, тут я пристрастен,
ведь я представляю, как это получится.
34:02 - 34:06

Да, пока Викиданные согласны
34:06 - 34:10

со всем этим лицензированием...
Или же мы что-то придумаем,
34:10 - 34:12

но, думаю, это отличная идея.
34:13 - 34:16

Просто нужно понять, какими способами
можно связать сами данные.
34:16 - 34:22

Я могу представить только один вариант:
правки в Викиданных сразу загружаются
34:23 - 34:26

в базу данных PanLex,
34:26 - 34:29

чтобы не приходилось
34:29 - 34:31

подгружать их каждый...
34:31 - 34:36

Сделать на Викиданных интерфейс для PanLex
с возможностью краудсорсинга --
34:36 - 34:37

это было бы чудесно.
34:37 - 34:40

Возможность использовать PanLex
для мгновенных переводов,
34:40 - 34:42

возможность переводить
через лексические элементы Викиданных --
34:42 - 34:44

это было бы прекрасно.
34:55 - 35:00

(голос из зала 10) Получается,
что при проверке семантической сети
35:00 - 35:04

все дыры в ней закрываются
за счёт механизма логического вывода?
35:06 - 35:10

Если так подумать,
то как в таком методе перевода
35:10 - 35:13

вы решаете проблему
семантических несоответствий
35:13 - 35:16

и грамматических несоответствий?
35:16 - 35:19

Например, если вы попытаетесь перевести
что-то на немецкий,
35:19 - 35:22

то вы можете просто присоединить
пару слов друг к другу,
35:22 - 35:26

и у вас получится что-то осмысленное,
35:26 - 35:29

но, с другой стороны, я читал,
35:31 - 35:34

что не в каждом языке
35:35 - 35:40

есть одна и та же
система разделения цветов, например.
35:42 - 35:44

Вы говорите, что каждый язык
делит цвета по-разному?
35:44 - 35:45

Или одинаково?
35:46 - 35:48

(голос из зала 10) Наверное,
речь шла об эволюции языка:
35:48 - 35:52

они начали с белого и чёрного, а затем...
35:52 - 35:53

Да, цветовая иерархия!
35:53 - 35:54

Она хорошо показывает,
35:54 - 35:57

как это работает, да?
35:58 - 36:01

По сути, если у вас
есть один язык-посредник...
36:02 - 36:05

Так интересно бывает, когда читаешь статьи
по машинному переводу,
36:05 - 36:08

потому что иногда они говорят
о каком-то абстрактном языке-посреднике,
36:08 - 36:10

они говорят:
«Да, там есть язык-посредник»,
36:10 - 36:12

а потом ты читаешь и понимаешь:
«Это английский».
36:12 - 36:17

Этот способ пословного перевода
пропускает слово
36:17 - 36:20

через много разных языков-посредников.
36:21 - 36:26

Он даже может разрешать
семантическую неоднозначность.
36:26 - 36:28

Ведь пока вы пропускаете
слово через языки,
36:28 - 36:33

в которых есть
схожие семантические границы слова,
36:33 - 36:37

вы сможете избежать
36:37 - 36:40

появления неоднозначности
при переводе через язык-посредник.
36:40 - 36:43

Возьмём как пример цветовую иерархию:
36:43 - 36:46

если вы возьмёте язык, в котором
есть одно слово для зелёного и синего,
36:46 - 36:51

вам переведут это слово как «синий»
36:51 - 36:53

на ваш единственный язык-посредник,
36:53 - 36:54

а затем и на другой язык,
36:54 - 36:57

в котором будет
другое разделение цветов,
36:57 - 37:00

и, в конечном итоге, у вас возникнет
семантическая неоднозначность.
37:00 - 37:02

Но если пропустить слово
через множество языков,
37:02 - 37:06

в которых есть только один
лексический элемент для зелёного и синего,
37:06 - 37:11

тогда эта семантическая специфика
37:11 - 37:17

дойдёт и до целевого языка.
37:18 - 37:21

Что касается грамматических особенностей,
37:21 - 37:23

PanLex с самого начала,
прежде всего, собирал
37:23 - 37:29

лексемы и лексические формы.
37:30 - 37:32

И под этим я подразумеваю всё,
37:32 - 37:34

что вы можете взять
в качестве вокабулы в словаре.
37:35 - 37:38

И в данный момент мы особо не занимаемся
37:39 - 37:41

сбором грамматических форм слов,
37:41 - 37:43

вроде числа и тому подобного,
37:43 - 37:45

или форм прошедшего или настоящего.
37:45 - 37:46

Но мы этим интересуемся.
37:46 - 37:48

Всегда важно помнить,
37:48 - 37:51

что так как у нас в приоритете...
37:51 - 37:54

...малоиспользуемые и исчезающие
миноритарные языки,
37:55 - 37:58

мы хотим сделать всё,
чтобы хоть какие-то данные были доступны,
37:58 - 38:00

пока мы не сделаем всё идеально.
38:02 - 38:03

Мне так нравится высказывание:
38:03 - 38:05

«Не превращай лучшее во врага хорошего»,
38:05 - 38:06

и так мы и намерены поступать.
38:07 - 38:09

Мы крайне заинтересованы в том,
38:09 - 38:12

чтобы научиться обрабатывать
грамматические формы
38:12 - 38:14

и переводить через грамматические формы.
38:14 - 38:16

Мы уже проводили исследования,
38:16 - 38:17

но полностью это ещё не внедрили.
38:25 - 38:29

(голос из зала 11)
Полагаю, для всех этих 7 500 языков
38:30 - 38:33

вы используете словари,
написанные для нас,
38:33 - 38:36

но у всех ли этих языков есть
письменная форма?
38:36 - 38:38

И как вы тогда поступаете?..
38:38 - 38:40

Замечательный вопрос.
38:42 - 38:45

Да, многие из этих языков,
38:45 - 38:48

как вы прекрасно знаете, бесписьменные.
38:48 - 38:51

Любой язык, у которого есть словарь,
38:51 - 38:52

обладает какой-то орфографией,
38:52 - 38:57

и мы опираемся на орфографию,
использованную в словаре.
38:57 - 39:00

Иногда мы её слегка подправляем,
39:01 - 39:03

если можем гарантировать,
что язык ничего не потеряет.
39:03 - 39:05

Но мы стараемся избегать этого
насколько возможно.
39:08 - 39:11

Мы не занимаемся
39:11 - 39:13

разработкой орфографии для языков,
39:13 - 39:15

потому что порой она не разработана,
39:15 - 39:17

если на этих языках мало публикаций.
39:21 - 39:22

Например,
39:22 - 39:26

в Новой Гвинее есть много языков,
39:26 - 39:29

которые могут и не использовать
общепринятую орфографию,
39:29 - 39:31

но некоторые лингвисты кое-что придумали,
39:31 - 39:32

и это уже хорошее начало.
39:33 - 39:37

Мы также собираем транскрипции,
если они даются в словарях,
39:37 - 39:38

и это ещё один способ --
39:38 - 39:41

собирать транскрипции,
сделанные с помощью МФА,
39:41 - 39:42

если такие есть.
39:42 - 39:43

И их тоже можно использовать.
39:43 - 39:46

Но обычно мы такое не используем
для языка-посредника,
39:46 - 39:48

потому что это может вносить
неоднозначности.
39:53 - 39:55

(Голос из зала 12) Спасибо.
Может, это очень глупый вопрос,
39:56 - 40:01

но на слайде все языки-посредники,
с которыми вы работаете?
40:01 - 40:02

Нет, нет!
40:02 - 40:04

(голос из зала 12) Хорошо. Спасибо.
40:04 - 40:06

Нет, рад, что вы спросили,
это объясняет вопрос.
40:06 - 40:11

Это скриншот с translate.panlex.org.
40:11 - 40:13

Когда вы делаете перевод,
40:13 - 40:15

вы получаете список переводов справа.
40:15 - 40:18

Если вы кликните по кнопке dot dot dot,
то получите вот такой граф.
40:18 - 40:22

А здесь показаны языки-посредники,
40:22 - 40:24

топ-20 по расчётам --
40:24 - 40:26

я мог бы рассказать,
как мы это подсчитываем,
40:26 - 40:27

но это сейчас не так важно --
40:27 - 40:30

по числу наиболее используемых языков.
40:30 - 40:33

Но для перевода мы используем
гораздо больше 20 языков.
40:33 - 40:36

Я показал только 20 --
потому что если у вас их больше 20 --
40:36 - 40:38

на деле, это что-то вроде
физической симуляции,
40:38 - 40:40

вы можете их перемещать,
и они будут изгибаться.
40:40 - 40:42

Если их больше 20,
ваш компьютер с ума сойдёт.
40:45 - 40:47

Это просто для иллюстрации.
40:56 - 40:58

(голос из зала 13) Лейла,
из Фонда Викимедиа.
40:58 - 41:00

Небольшой комментарий...
41:00 - 41:03

Вы в своём докладе несколько раз
упоминали Фонд Викимедиа.
41:03 - 41:07

Если вы хотите вносить,
получать и обрабатывать данные
41:07 - 41:09

или сотрудничать с Викиданными,
41:09 - 41:11

может, Wikimedia Deutschland
лучше подойдёт
41:11 - 41:13

для обсуждения этого?
41:13 - 41:16

Потому что Викиданные --
это проект Wikimedia Deutschland,
41:16 - 41:18

и вся их команда там,
41:18 - 41:20

и сообщество волонтёров Викиданных --
41:20 - 41:24

идеальное место для обсуждения
41:24 - 41:26

любого рода обмена данными
41:26 - 41:31

или работой над сближением
PanLex и Викиданных.
41:32 - 41:33

Отлично, большое спасибо,
41:33 - 41:35

потому что я не особо знаком
41:35 - 41:38

со всеми тонкостями структуры того,
41:38 - 41:40

как все проекты взаимодействуют
друг с другом.
41:40 - 41:42

Судя по смешкам, всё довольно запутано.
41:42 - 41:44

Но мы бы хотели поговорить с теми,
41:44 - 41:48

кто отвечает за Викиданные.
41:48 - 41:52

Вы уж там разберитесь,
41:53 - 41:56

а мы очень хотим поговорить именно с теми,
кто отвечает за Викиданные,
41:56 - 41:58

а именно со всеми вами, волонтёрами!
42:03 - 42:05

Ещё вопросы?
42:10 - 42:14

Хорошо, если у кого-то будут
ещё вопросы помимо этих
42:14 - 42:18

или тех, на которые я отвечал, --
тонкости и особенности всех этих вещей, --
42:18 - 42:20

подойдите ко мне поговорить,
я буду очень рад.
42:20 - 42:24

Особенно, если вы работаете со всем,
что затрагивает лексические штуки,
42:24 - 42:29

всем, что затрагивает
исчезающие миноритарные языки
42:29 - 42:30

или малоиспользуемые языки,
42:30 - 42:34

а также Юникод,
им я тоже занимаюсь.
42:36 - 42:38

Спасибо вам большое,
42:38 - 42:40

и спасибо, что пригласили меня выступить,
42:40 - 42:41

надеюсь, вам всё понравилось.
42:41 - 42:44

(аплодисменты)

Title:: cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4
Video Language:: English
Duration:: 42:53

Bar Sch edited Russian subtitles for cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

Russian subtitles

Revisions

Revision 1 Uploaded

Bar Sch

cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

Revisions

Our website uses cookies

Operating cookies (Required)