cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

Edit subtitles

0:00 - 0:02

Викиданные и языки
0:02 - 0:05

Лидия Пинчер
0:06 - 0:07

(Лидия) Спасибо большое.
0:07 - 0:11

Языки – одна из важных тем
на этой конференции.
0:14 - 0:19

Хочу дать вам общее представление о том,
0:19 - 0:20

как мы работаем с языками,
0:20 - 0:22

и какие у нас есть возможности.
0:27 - 0:29

ДОСТУПНЫЕ ЗНАНИЯ ДЛЯ БОЛЬШЕГО ЧИСЛА ЛЮДЕЙ
0:29 - 0:33

Цель Викиданных -- доступные знания
для большего числа людей.
0:33 - 0:37

А для этого нужны языки,
0:38 - 0:43

учитывая то, что наша жизнь
всё больше зависит от технологий.
0:44 - 0:49

Как сказал сегодня наш главный спикер,
0:50 - 0:52

люди не успевают
за некоторыми технологиями,
0:52 - 0:55

потому что не знают определённого языка.
0:55 - 0:58

И это плохо.
0:59 - 1:02

Мы хотим это исправить.
1:03 - 1:06

Чтобы изменить это, нужны две вещи.
1:06 - 1:11

Первое -- дать людям контент на их языке.
1:11 - 1:13

Второе -- дать людям возможность
1:13 - 1:16

взаимодействовать на их языке
1:16 - 1:19

в этих приложениях или программах.
1:20 - 1:25

Викиданные работают в обеих случаях.
1:25 - 1:28

Первое -- контент на вашем языке,
1:28 - 1:31

то есть элементы и свойства,
1:31 - 1:33

способы описания мира.
1:33 - 1:35

Конечно, этого недостаточно,
1:35 - 1:39

но это позволяет вам двигаться вперёд.
1:40 - 1:42

Второе -- взаимодействие на вашем языке.
1:42 - 1:46

Здесь идут в ход лексемы,
1:46 - 1:49

если вы хотите поговорить
с персональным цифровым помощником
1:49 - 1:55

или вам нужно перевести текст
с помощью гаджета.
1:56 - 1:59

Давайте рассмотрим контент на вашем языке.
1:59 - 2:03

Что у нас есть в элементах и свойствах?
2:05 - 2:10

В этих элементах и свойствах
крайне важны метки.
2:10 - 2:15

Нам нужно знать название сущности,
о которой мы говорим.
2:16 - 2:20

И вместо того, чтобы говорить о Q5,
2:20 - 2:22

англоязычные люди знают,
что это значит «human»,
2:22 - 2:25

немецкоязычные знают, что это «mensch»,
2:25 - 2:26

и так далее.
2:26 - 2:30

Эти метки на элементах и свойствах
2:30 - 2:34

создают мост между людьми и машинами.
2:34 - 2:35

А также между самими людьми,
2:35 - 2:40

делая знания всё более доступными.
2:41 - 2:43

КАК ВЫГЛЯДИТ НАШ ОХВАТ?
2:43 - 2:46

Это хорошее устремление.
2:46 - 2:48

Как это выглядит?
2:48 - 2:50

Вот так.
2:51 - 2:52

Здесь вы видите,
2:52 - 2:58

что большинство элементов
в Викиданных имеют по две метки,
2:58 - 3:01

то есть метки на двух языках.
3:02 - 3:04

Потом на одном, потом на трёх,
3:04 - 3:06

а дальше вообще всё грустно.
3:07 - 3:08

(тихий смех)
3:10 - 3:13

Над этим нужно поработать.
3:14 - 3:15

Но с другой стороны,
3:15 - 3:17

могло быть и хуже.
3:17 - 3:20

Я ожидала, что в среднем будет одна.
3:20 - 3:23

Поэтому было очень приятно увидеть две.
(хихикает)
3:24 - 3:25

КАКИЕ ЯЗЫКИ МЫ ИСПОЛЬЗУЕМ?
3:25 - 3:26

Хорошо.
3:27 - 3:30

Но нас интересует
не только количество меток
3:30 - 3:34

на элементах и свойствах.
3:34 - 3:36

Нас также интересует,
на каких языках эти метки.
3:38 - 3:44

Здесь вы видите диаграмму языков,
3:44 - 3:47

на которых у нас есть метки для Элементов.
3:47 - 3:51

Наибольшую часть занимают Другие.
3:51 - 3:54

Здесь 100 самых распространённых языков,
3:55 - 3:59

остальные вошли в категорию Другие,
чтобы диаграмму можно было читать.
4:00 - 4:02

Здесь есть английский и нидерландский,
4:03 - 4:04

французский,
4:06 - 4:09

и конечно же, астурийский.
4:10 - 4:12

- (голос из зала 1) Ого!
- Да, ого!
4:14 - 4:17

Итак, здесь вы видите дисбаланс,
4:17 - 4:20

и у английского языка
большое преимущество.
4:21 - 4:24

Если посмотреть
на то же самое в Свойствах,
4:24 - 4:26

то здесь ситуация выглядит лучше.
4:27 - 4:33

Возможно, за счёт того,
что свойств намного меньше.
4:33 - 4:37

Поэтому даже маленькие сообщества
могут успевать за этим.
4:37 - 4:39

И очень важная часть Викиданных --
4:39 - 4:41

это локализация на вашем языке.
4:41 - 4:42

То есть это хорошо.
4:46 - 4:48

В случае с астурийским языком мы видим,
4:48 - 4:54

что даже маленькие сообщества
могут значительно изменить ситуацию
4:54 - 4:57

благодаря упорной работе и самоотдаче,
4:57 - 4:58

и это очень круто.
4:59 - 5:02

У КАКОГО СВОЙСТВА БОЛЬШЕ ВСЕГО МЕТОК?
5:02 - 5:03

У меня для вас вопрос:
5:04 - 5:05

если взять все свойства в Викиданных,
5:05 - 5:07

которые не являются
внешними идентификаторами,
5:08 - 5:10

какие из них имеют больше всего
меток, то есть больше всего языков?
5:11 - 5:14

(аудитория) [неразборчиво]
5:14 - 5:17

Я слышу версию «экземпляр класса»?
5:18 - 5:19

Неправильно.
5:20 - 5:22

Это изображение.
(хихикает)
5:23 - 5:26

Поэтому, если вы говорите на языке,
5:26 - 5:29

в котором еще нет метки
для экземпляра класса,
5:29 - 5:30

то стоит её добавить.
5:32 - 5:36

Сейчас у него есть 148 меток.
5:38 - 5:41

Ещё один слайд.
5:43 - 5:44

Этот график показывает,
5:44 - 5:49

сколько контента доступно
на определённом языке,
5:49 - 5:52

и какая доля этого контента используется.
5:52 - 5:55

На этой кривой вы видите,
5:55 - 6:01

что большая часть контента доступна
на английском и с английскими метками,
6:02 - 6:04

и её часто используют.
6:04 - 6:06

Дальше она спадает.
6:06 - 6:09

Вы также видите выпадающие точки,
6:09 - 6:15

где есть неожиданно много контента,
6:17 - 6:19

что очень хорошо.
6:21 - 6:25

Проблема в том, что его мало используют.
6:26 - 6:28

Астурийский и нидерландский
должны быть выше,
6:29 - 6:32

и я думаю, что нужно
помочь этим сообществам
6:33 - 6:36

увеличить использование
собранных ими данных.
6:36 - 6:37

Это было бы очень полезно.
6:43 - 6:48

Эта аналитика
показывает хорошую тенденцию --
6:48 - 6:51

часто используемые элементы
6:51 - 6:55

также имеют больше меток.
6:55 - 6:58

Или наоборот -- это не совсем понятно.
7:00 - 7:03

МЫ ПОМОГАЕМ ТОЛЬКО
РАСПРОСТРАНЁННЫМ ЯЗЫКАМ?
7:03 - 7:05

Ещё один вопрос:
7:05 - 7:07

мы помогаем
только распространённым языкам?
7:08 - 7:11

Или мы помогаем всем?
7:13 - 7:17

Здесь мы видим группирование языков.
7:18 - 7:22

Языки в каждой группе
склонны иметь общие метки.
7:26 - 7:29

Вы видите, как они собираются в кластеры.
7:31 - 7:34

Здесь похожие кластеры,
разными цветами показано,
7:34 - 7:39

насколько живым, используемым
7:40 - 7:43

или исчезающим является язык.
7:43 - 7:45

Здесь вы видите хорошую тенденцию --
7:45 - 7:49

распространённые и исчезающие языки
7:50 - 7:54

не образовывают два разных кластера.
7:54 - 7:59

Но они смешиваются,
8:00 - 8:05

и это намного лучше,
чем обратная ситуация,
8:05 - 8:09

в которой распространённые языки
8:10 - 8:12

помогают друг другу.
8:13 - 8:14

Это не тот случай.
8:14 - 8:17

И это очень хорошо.
8:17 - 8:20

Когда я это увидела, то подумала,
что это очень хорошо.
8:23 - 8:25

Здесь похожая тенденция,
8:26 - 8:28

мы рассмотрели
8:30 - 8:34

статус языков
8:34 - 8:36

и количество меток в них.
8:39 - 8:43

Вы видите, что распространённые языки
явно выигрывают,
8:43 - 8:44

как и ожидалось.
8:46 - 8:47

Но вы также видите,
8:49 - 8:54

что языки 2, 3, и возможно, 4 категорий
8:54 - 8:59

находятся в неплохой ситуации,
8:59 - 9:02

если говорить об их представлении
в Викиданных.
9:03 - 9:06

Это очень хороший результат.
9:08 - 9:09

Сейчас вы видите аналогичный график
9:09 - 9:12

степени использования контента
с этими метками
9:12 - 9:15

в Википедии, например,
9:17 - 9:23

и мы видим похожую картину.
9:24 - 9:30

Это говорит о том, что эти сообщества
9:30 - 9:35

вносят много меток
для часто используемых элементов.
9:36 - 9:40

Тут есть выпадающие точки,
и в этих случаях мы можем
9:42 - 9:48

помочь этим сообществам
эффективно применить свои усилия.
9:49 - 9:53

Но в общем мне нравится эта картина.
9:53 - 9:55

ВЗАИМОДЕЙСТВИЕ В ВАШЕМ ЯЗЫКЕ
9:57 - 10:00

Это были элементы и свойства Викиданных.
10:01 - 10:03

Теперь рассмотрим
взаимодействие в ваших языках.
10:03 - 10:05

Это лексемы в Викиданных,
10:05 - 10:09

где мы описываем слова,
их формы и значения.
10:10 - 10:13

Мы занимаемся этим с мая прошлого года,
10:16 - 10:19

и количество контента растёт.
10:20 - 10:22

Синим цветом обозначены лексемы,
10:22 - 10:26

красным -- формы этих лексем,
10:26 - 10:30

жёлтым -- смыслы лексем.
10:31 - 10:34

Эти сообщества --
вернёмся к этому позже --
10:34 - 10:40

потратили много времени
на создание форм и смыслов для лексем,
10:40 - 10:43

что очень полезно,
10:43 - 10:48

потому что это создаёт
ядро нужного набора данных.
10:51 - 10:55

Мы рассмотрели все языки,
10:55 - 10:58

имеющие лексемы на Викиданных.
10:58 - 11:01

У нас есть слова,
11:02 - 11:04

сейчас это 310 языков.
11:05 - 11:08

Как вы думаете, какой язык
11:08 - 11:12

имеет больше всего лексем на Викиданных?
11:12 - 11:15

(аудитория) Шведский [неразборчиво]
11:19 - 11:20

Как?
11:20 - 11:22

(голос из зала 2) Немецкий.
11:22 - 11:24

Извините, я услышала это раньше.
11:24 - 11:25

Это русский.
11:28 - 11:30

Русский далеко впереди.
11:32 - 11:34

Чтобы вам было понятнее,
11:36 - 11:37

есть разные мнения,
11:37 - 11:42

но я читала, что, например,
для разговорного уровня
11:42 - 11:45

на другом языке
достаточно знать от 1000 до 3000 слов,
11:45 - 11:49

и от 4000 до 10 000 слов
для продвинутого уровня.
11:52 - 11:55

Поэтому нам нужно ещё поработать.
11:58 - 12:03

Также хочу обратить
ваше внимание на баскский язык,
12:03 - 12:08

там примерно 10 000 лексем.
12:09 - 12:13

Если посмотреть на количество форм
для этих лексем,
12:14 - 12:16

то баскский находится довольно высоко,
12:18 - 12:20

и это очень круто.
12:20 - 12:25

Вам стоит пойти на лекцию,
которая объясняет этот случай.
12:27 - 12:31

Если посмотреть на количество смыслов,
то есть значений слов,
12:32 - 12:35

то баскский будет на первом месте.
12:35 - 12:37

Думаю, это заслуживает аплодисментов.
12:37 - 12:39

(аплодисменты)
12:43 - 12:46

КАКАЯ ЛЕКСЕМА ИМЕЕТ
БОЛЬШЕ ВСЕГО ПЕРЕВОДОВ?
12:46 - 12:47

Ещё один вопрос:
12:47 - 12:50

какая лексема имеет
больше всего переводов?
12:50 - 12:54

- (аудитория) Кошки. [неразборчиво]
- Дуглас Адамс. [неразборчиво]
12:57 - 13:00

Хорошие варианты, но нет.
13:01 - 13:04

Вот она, это русское слово «вода».
13:10 - 13:12

Мы много говорили о том,
13:12 - 13:16

сколько у нас есть лексем, форм и смыслов,
13:16 - 13:20

но это только одна часть.
13:20 - 13:22

Вторая часть --
13:22 - 13:25

это описание этих лексем,
форм и смыслов таким способом,
13:25 - 13:27

чтобы их могла прочитать машина.
13:28 - 13:30

Для этого есть утверждения,
как в элементах.
13:31 - 13:36

Одно из свойств -- пример использования.
13:36 - 13:39

Тот, кто использует эти данные,
13:39 - 13:42

может понять,
как использовать это слово в контексте,
13:42 - 13:44

например, как цитату.
13:45 - 13:47

Здесь на первом месте польский.
13:48 - 13:50

Носители польского хорошо потрудились.
13:54 - 13:58

Другое полезное свойство -- МФА,
международный фонетический алфавит,
13:58 - 14:00

то есть произношение слова.
14:01 - 14:04

Очевидно, что русскому языку
14:05 - 14:08

нужно много МФА-утверждений.
14:10 - 14:13

Зато польский на втором месте.
14:17 - 14:21

И наконец, запись произношения.
14:21 - 14:23

Это ссылки на файлы в Викискладе,
14:23 - 14:26

где кто-то говорит слово,
14:26 - 14:30

и вы слышите произношение носителя языка.
14:30 - 14:33

Это на случай, если вы не можете
прочитать МФА, например.
14:35 - 14:39

Ещё есть очень хороший Википроект,
14:39 - 14:40

называется Lingua Libre,
14:41 - 14:45

там можно делать аудиозаписи слов
на вашем языке.
14:45 - 14:48

Потом их добавляют
к лексемам на Викиданных,
14:48 - 14:52

чтобы люди знали,
как произносить ваши слова.
14:54 - 14:56

(голос из зала 3) [неразборчиво]
14:56 - 14:58

Если вы поищете «Lingua Libre»,
14:58 - 15:01

и я уверена, что кто-то может
выложить это в Telegram-канале.
15:03 - 15:04

Эти ребята крутые.
15:04 - 15:07

Они много чего сделали с Викибазой.
15:08 - 15:09

ЧТО ДЕЛАТЬ ДАЛЬШЕ?
15:09 - 15:10

Хорошо.
15:13 - 15:17

Теперь вопрос: что делать дальше?
15:19 - 15:22

Судя по числаv, которые я вам показала,
15:23 - 15:25

мы провели большую работу для того,
15:25 - 15:28

чтобы больше людей
могли получить больше знаний
15:28 - 15:31

о языках на Викиданных.
15:33 - 15:36

Но нам ещё много чего нужно сделать.
15:39 - 15:42

Вы тоже можете помочь, например,
15:42 - 15:45

организовывать марафоны меток,
то есть собирать людей,
15:45 - 15:50

чтобы ставить метки
на элементы в Викиданных,
15:51 - 15:55

или устроить вики-марафон
для лексем в вашем языке,
15:55 - 15:59

чтобы внести распространённые слова
в Викиданные.
16:01 - 16:03

Или используйте инструмент
типа Terminator,
16:03 - 16:08

который поможет найти
самые важные элементы в вашем языке,
16:08 - 16:12

у которых до сих пор нет метки.
16:13 - 16:18

Важность определяется
частотой использования
16:18 - 16:22

в других элементах Викиданных
в виде ссылок в утверждениях.
16:26 - 16:30

Что касается лексем,
16:31 - 16:35

у нас уже есть базовое количество,
16:35 - 16:41

и теперь их нужно расширять,
добавлять больше утверждений,
16:41 - 16:44

так, чтобы на их основе
16:44 - 16:47

можно было создавать
полноценные приложения.
16:48 - 16:51

Потому что мы приближаемся
к этой критической массе,
16:51 - 16:54

но до создания серьёзных приложений
16:54 - 16:57

всё ещё далеко.
16:58 - 17:02

И я надеюсь, что вы к нам присоединитесь.
17:03 - 17:07

Наши друзья
17:07 - 17:10

немного нам помогают.
17:10 - 17:12

Бруно, не хочешь ли выйти...
17:12 - 17:14

ЛЕКСИЧЕСКИЕ МАСКИ ДЛЯ ВАЛИДАЦИИ ЛЕКСИКОНОВ
17:14 - 17:17

...и рассказать нам о лексических масках?
17:18 - 17:19

(Бруно) Спасибо, Лидия.
17:19 - 17:22

Спасибо за возможность
презентовать нашу работу,
17:22 - 17:25

которую мы делаем в Google вместе с Денни.
17:25 - 17:29

Многие из вас его знают.
17:30 - 17:32

Я лингвист в Google,
17:32 - 17:36

и я очень рад встретить здесь
таких же языковых энтузиастов.
17:37 - 17:39

Мы также создаём лексиконы,
17:39 - 17:43

и мы создали технологию, или подход,
17:43 - 17:46

который может быть полезным для вас.
17:46 - 17:48

Для наглядности,
17:48 - 17:52

здесь моя лекция
о лексикографическом фоне.
17:53 - 17:54

Когда мы создаём базу данных лексикона,
17:54 - 17:59

их очень трудно поддерживать,
обеспечивать устойчивость
17:59 - 18:00

и обмен данными,
18:00 - 18:02

думаю, вы это знаете.
18:03 - 18:06

Мы пытаемся унифицировать
лингвистическую особенность и свойства,
18:06 - 18:09

которые описывают эти лексемы и формы.
18:09 - 18:11

Эта проблема пока что не решена,
18:11 - 18:14

но есть некоторые попытки унификации.
18:14 - 18:15

Чего действительно не хватает --
18:15 - 18:19

и эта проблема была у нас
с начала проекта в Google --
18:19 - 18:22

это попыток создать внутреннюю структуру,
18:22 - 18:26

которая описывает,
как должна выглядеть словарная статья,
18:26 - 18:29

какие данные
или какая информация у нас есть,
18:29 - 18:32

и ожидаемые характеристики.
18:33 - 18:38

И мы придумали маску лексикона.
18:39 - 18:45

Маска лексикона описывает то,
что должно быть в статье,
18:45 - 18:47

в лексикографической статье,
для того, чтобы она была полной
18:47 - 18:51

в контексте количества форм,
ожидаемых для лексемы,
18:51 - 18:56

а также количества особенностей,
ожидаемых для каждой из этих форм.
18:56 - 18:58

Вот пример с итальянскими прилагательными.
18:58 - 19:02

В итальянском языке вы ожидаете
увидеть четыре формы прилагательных,
19:02 - 19:05

и каждая из этих форм имеет
специфическую комбинацию особенностей,
19:05 - 19:08

касающихся рода и числа.
19:09 - 19:12

Это то, что мы ожидаем
от итальянских прилагательных.
19:13 - 19:16

Конечно, можно создать
чрезвычайно сложные маски,
19:16 - 19:21

как для спряжения французских глаголов,
которое занимает много места,
19:21 - 19:23

а маску для русского языка
я показывать не буду,
19:23 - 19:25

потому что она не поместится на экране.
19:26 - 19:30

Также у нас есть некоторые
детальные характеристики,
19:30 - 19:33

потому что мы учитываем различия
на уровне форм.
19:33 - 19:38

Здесь есть русские существительные,
которые имеют три числа
19:38 - 19:40

и несколько падежей с разными формами,
19:40 - 19:43

но у них также есть характеристика
на уровне статьи,
19:43 - 19:46

которая указывает,
что существительное имеет
19:46 - 19:50

свойственные ему род
и характеристику одушевлённости,
19:50 - 19:52

которые также описаны в маске.
19:55 - 19:59

Мы также хотим выделить то,
что маска определяет,
19:59 - 20:02

как в общем должна выглядеть статья.
20:02 - 20:07

У вас могут быть маски поменьше,
для недостаточных глаголов формы,
20:07 - 20:11

или для недостаточных глаголов лексемы,
которые есть в языке.
20:11 - 20:15

Вот самая простая форма
французских глаголов,
20:15 - 20:20

которые имеют только
третье лицо единственного числа
20:20 - 20:24

для всех погодных глаголов вроде
«дождит» или «снежит», как в английском.
20:25 - 20:26

То есть мы различаем эти два уровня.
20:27 - 20:30

Мы в Google используем это так:
20:30 - 20:33

если у нас есть лексикон,
который мы хотим использовать,
20:33 - 20:38

мы используем маску,
чтобы буквально бросить лексиконы,
20:38 - 20:40

все статьи, через маску
20:40 - 20:44

и посмотреть, в какой статье
есть проблемы со структурой.
20:44 - 20:47

Возможно, нам не хватает формы?
Или лингвистической особенности?
20:47 - 20:51

Если есть проблема, люди её оценивают,
20:51 - 20:54

или смотрят, пройдёт ли она через маску.
20:54 - 20:58

Это очень мощный инструмент
для проверки качества структуры.
20:59 - 21:02

Сегодня мы с радостью объявляем,
21:02 - 21:05

что мы можем открыть
исходные коды нашей маски.
21:06 - 21:08

Вот эта схема.
21:08 - 21:09

Если хотите, мы можем распространить
21:09 - 21:13

и передать их в Викиданные
в виде ShEx-файлов.
21:13 - 21:17

Это ShEx-файл
для немецких существительных,
21:17 - 21:20

и Денни занимается конвертацией
из наших внутренних спецификаций
21:20 - 21:23

в более доступные спецификации.
21:24 - 21:28

Сейчас мы работаем с 25 языками.
21:28 - 21:29

Мы ожидаем рост с нашей стороны,
21:29 - 21:34

но мы также ищем возможности
сотрудничества для других языков.
21:34 - 21:40

Денни и Лукас занимаются
одним из таких совместных проектов.
21:41 - 21:45

У Лукаса есть отличные инструменты
для интерфейса,
21:45 - 21:51

который поможет пользователям
или составителям добавлять больше форм.
21:51 - 21:54

Если вы хотите добавить
французское прилагательное,
21:54 - 21:59

интерфейс подскажет вам,
сколько форм ожидается,
21:59 - 22:02

и какие лингвистические особенности
должны быть у этой формы.
22:02 - 22:06

То есть наша маска поможет
определить и расширить инструмент.
22:07 - 22:08

У меня всё.
22:09 - 22:10

(Лидия) Спасибо большое.
22:10 - 22:12

(аплодисменты)
22:14 - 22:17

Хорошо.
Есть вопросы?
22:17 - 22:19

Хотите ещё поговорить о лексемах?
22:20 - 22:22

- (голос из зала 4) Да.
- Да. (хихикает)
22:33 - 22:35

(голос из зала 4) Вы говорили о том,
22:35 - 22:39

чтобы больше людей
могли использовать больше языков.
22:39 - 22:42

Но есть много языков,
которые нельзя использовать в Викиданных.
22:42 - 22:45

Как вы решаете эту проблему?
22:46 - 22:48

«Нельзя использовать в Викиданных» --
22:48 - 22:50

вы имеете в виду ввод меток?
22:50 - 22:53

- (голос из зала 4) Меток, описаний.
- Понятно.
22:53 - 22:55

С лексемами немного другая ситуация,
22:55 - 22:58

потому что для них нет такого ограничения.
22:59 - 23:05

Для меток на элементах и свойствах
ограничение есть,
23:05 - 23:12

потому что мы хотели убедиться,
23:12 - 23:14

что люди не начнут писать что попало
23:14 - 23:17

и что это не выйдет из-под контроля.
23:19 - 23:23

Если маленькое сообщество хочет
работать с одним языком,
23:24 - 23:27

обратитесь к нам и мы вам поможем.
23:27 - 23:29

(голос из зала 4) Мы сделали это в мае
на хакатоне в Праге,
23:29 - 23:32

и смогли начать использовать
наш язык лишь в августе.
23:32 - 23:35

- Да.
- (голос из зала 4) Это очень медленно.
23:35 - 23:38

Да, к сожалению, это очень медленно.
23:38 - 23:40

Мы работаем с Комиссией по языку
23:40 - 23:46

над решением некоторых фундаментальных...
23:50 - 23:55

Например, договориться о том,
какие языки «разрешены».
23:56 - 23:59

Это происходит очень медленно,
24:00 - 24:04

поэтому ваш запрос занял столько времени.
24:05 - 24:06

(голос из зала 4) Спасибо.
24:07 - 24:08

(голос из зала 5) Спасибо вам.
24:08 - 24:11

Лидия, если вы помните статистику,
которую вы показывали,
24:11 - 24:13

количество лексем в языках.
24:13 - 24:18

Вы посчитали все формы как единицу данных,
24:18 - 24:20

или только лексемы?
24:21 - 24:23

(Лидия) Вы имеете в виду эту?
24:23 - 24:24

Какую именно?
24:24 - 24:26

(голос из зала 5) Да, эту.
24:26 - 24:28

Если вы помните,
это количество обозначает
24:28 - 24:32

все формы для всех лексем
или только количество лексем?
24:32 - 24:35

- Нет, только количество лексем.
- (голос из зала 5) Только количество.
24:35 - 24:37

То есть это просто статистика,
24:37 - 24:39

потому что если добавить ещё и формы --
24:39 - 24:41

потому я и спрашиваю --
24:41 - 24:43

тогда все языки с флективной морфологией,
24:43 - 24:45

такие как русский, сербский,
словенский и другие,
24:45 - 24:48

имеют преимущество,
потому что в них очень много форм.
24:48 - 24:52

(Лидия) Да, это сильно влияет
на количество форм.
24:52 - 24:54

(голос из зала 5)
Да, этот слайд. Спасибо.
24:57 - 25:00

(голос из зала 6) У меня вопрос о...
25:01 - 25:07

Когда мы говорим
о фактических элементах и свойствах,
25:07 - 25:09

Как я понимаю,
25:09 - 25:12

пока что нет способа
дать фактический источник
25:12 - 25:15

для существующих меток и описаний.
25:15 - 25:18

Например, если вы говорите
25:18 - 25:21

о свойстве элемента,
25:21 - 25:24

вы можете получить противоречивые метки.
25:25 - 25:26

Да.
25:26 - 25:28

(голос из зала 6) То есть этот человек...
25:28 - 25:31

Например, мы раньше говорили
об автохтонных понятиях.
25:31 - 25:36

Согласно одному источнику,
этот человек -- норвежский художник.
25:36 - 25:39

Согласно другому источнику --
он саамский художник.
25:40 - 25:43

Ещё у нас была проблема в эстонском,
25:43 - 25:48

где нам нужно было
изменить терминологию на официальную,
25:48 - 25:49

в официальных лексиконах,
25:49 - 25:52

но мы не могли указать причину
25:52 - 25:54

и источник изменений,
25:54 - 25:56

и не могли обосновать,
почему это нужно сделать.
25:56 - 25:57

Это выглядело, как будто случайный человек
25:57 - 26:00

просто так изменяет термины.
26:00 - 26:03

Появится ли у нас возможность
26:03 - 26:06

указывать надлежащие источники
для языковых данных?
26:07 - 26:12

Частично это возможно.
26:12 - 26:16

Например, если у вас есть
элемент для личности,
26:17 - 26:23

есть утверждение, имя,
фамилия этой личности и так далее,
26:23 - 26:26

тогда вы можете добавить ссылку на это.
26:28 - 26:33

Я сомневаюсь, стоит ли усложнять ссылки
26:33 - 26:36

для меток и описаний,
26:36 - 26:39

но если люди уверены,
26:39 - 26:45

что утверждение имеет недостаточно ссылок,
26:45 - 26:47

то это нужно обсудить.
26:49 - 26:53

Боюсь, что это добавит сложности
26:53 - 26:57

для, надеюсь, немногих случаев,
26:57 - 27:00

но я не против изменений,
27:00 - 27:04

если люди на этом настаивают.
27:04 - 27:08

(голос из зала 6) Тогда это
не должно быть опцией по умолчанию,
27:08 - 27:12

которую видят все новички в интерфейсе.
27:12 - 27:16

Например «Нажмите,
если хотите уточнить информацию».
27:18 - 27:23

Знаете ли вы, как часто
это будет использоваться?
27:25 - 27:26

(голос из зала 6) Например, в эстонском...
27:26 - 27:29

Думаю, также и в других языках...
27:29 - 27:34

Например, официальное название
с утверждённым переводом
27:34 - 27:36

на английский
27:36 - 27:40

определённого типа муниципалитета.
27:41 - 27:42

Например, в моём случае
27:42 - 27:44

мы использовали слово «приход»,
27:45 - 27:51

его исходное значение в эстонском --
что-то вроде церковного прихода,
27:51 - 27:52

то есть это происхождение слова,
27:52 - 27:55

но не современный официальный перевод.
27:55 - 27:59

В этом случае стоит добавить его
как утверждение официального названия,
27:59 - 28:01

и также добавить туда ссылку.
28:02 - 28:03

(голос из зала 6) Хорошо.
28:05 - 28:07

Ещё вопросы?
Да?
28:08 - 28:10

(голос из зала 7)
У меня два коротких замечания.
28:10 - 28:14

Вы отметили, что астурийский язык
занимает хорошую позицию,
28:14 - 28:16

но я думаю, что это ложный артефакт.
28:16 - 28:18

Давайте подробнее.
28:18 - 28:20

(голос из зала 7)
Я думаю, что это сделал бот,
28:20 - 28:24

который вставил личные имена,
собственные имена,
28:24 - 28:27

и сказал: «Это как во французском
или испанском»,
28:27 - 28:29

и просто скопировал всё это.
28:29 - 28:30

Об этом говорит хотя бы то,
28:30 - 28:33

что в астурийском
вы не увидите таких усилий там,
28:33 - 28:37

где действительно нужен перевод,
например, в названиях свойств
28:37 - 28:40

или названиях элементов, которые
не являются собственными именами.
28:40 - 28:41

Асаф, вы разбиваете мне сердце.
28:41 - 28:43

(голос из зала 7) Я знаю.
Люблю портить праздники.
28:43 - 28:48

Но у меня есть хорошие новости
о количестве произношений.
28:49 - 28:53

Как вы знаете, на Викискладе
полно файлов с произношениями,
28:55 - 29:01

например, для нидерландского языка
их не меньше 300 000,
29:02 - 29:05

и всё это надо как-то обработать.
29:05 - 29:08

Так что если кому-то
нужен сторонний проект,
29:08 - 29:09

то на Викискладе вы найдёте очень много
29:09 - 29:13

классифицированных файлов с произношениями
29:13 - 29:17

в категории «Произношение» по языкам.
29:17 - 29:23

Их нужно привязать к лексемам
и добавить в Lexeme.
29:23 - 29:25

И ещё, можете ли вы сказать что-нибудь
29:25 - 29:27

о плане действий,
29:27 - 29:29

насчёт того, сколько инвестиций
29:29 - 29:32

и всего прочего мы можем ожидать
от Lexeme в будущем году,
29:32 - 29:34

потому что я жду с нетерпением.
29:35 - 29:37

Ждетё с нетерпением? (хихикает)
29:37 - 29:39

- (голос из зала 7) Ожидаю большего.
- Да. (хихикает)
29:45 - 29:49

Сейчас мы больше заняты
Викибазой и качеством данных,
29:51 - 29:55

хотим увидеть результативность,
29:55 - 30:02

затем нам нужно найти проблемные точки,
30:02 - 30:06

а потом вернуться к улучшению
лексикографических данных.
30:07 - 30:10

Очень хочется услышать ваше мнение
30:10 - 30:14

по поводу того, куда нам двигаться,
30:14 - 30:16

какие изменения вы хотите видеть,
30:16 - 30:20

чтобы мы могли решить, как это сделать.
30:21 - 30:23

Но вы, конечно, правы,
30:23 - 30:26

там ещё много работы
с технической стороны.
30:31 - 30:36

(голос из зала 8) Когда мы загружали
баскские слова с формами --
30:36 - 30:38

вы увидите кое-что из этого --
30:38 - 30:41

и на прошлой неделе мы сказали:
«Ого, мы заняли первое место.»
30:43 - 30:45

Об этом даже пресса пишет:
30:45 - 30:49

«Ого, баски заняли первое место в чём-то.»
30:49 - 30:51

(смеётся)
30:51 - 30:53

И тогда люди спрашивают:
«А для чего это нужно?»
30:55 - 30:57

Тут мы не знаем, что ответить.
30:57 - 30:58

Можно сказать,
30:58 - 31:02

что это поможет компьютерам
лучше понимать языки,
31:02 - 31:05

но какие инструменты
мы можем создать в будущем?
31:05 - 31:07

На это у нас нет чёткого ответа.
31:07 - 31:11

Возможно, ответ есть у вас.
31:11 - 31:13

(хихикает) Не знаю,
есть ли у меня чёткий ответ,
31:13 - 31:15

зато есть просто ответ.
31:15 - 31:20

Пока что, как я говорила [неразборчиво],
31:20 - 31:22

мы не достигли той критической массы,
31:22 - 31:26

которая позволяет создать
много интересных инструментов.
31:26 - 31:28

Некоторые инструменты уже существуют.
31:28 - 31:32

Например, на днях [Эстер Панделия]
31:32 - 31:34

выпустила инструмент, где можно увидеть...
31:36 - 31:39

Кажется, там были слова на глобусе,
31:39 - 31:42

их происхождение и распространение.
31:43 - 31:44

Я точно не знаю.
31:44 - 31:46

Но она ответила в Project chat
на Викиданных,
31:46 - 31:49

можете поискать там.
31:50 - 31:52

Мы видели эти первые инструменты,
31:52 - 31:56

как тогда, когда начинали
создавать Викиданные.
31:57 - 32:00

Сначала некоторые...это была просто сеть,
32:00 - 32:03

что-то вроде: «Смотри,
эта штука связана с той штукой.»
32:05 - 32:07

Когда мы собрали больше данных
32:07 - 32:10

и достигли некоторой критической массы,
32:12 - 32:15

появились более мощные приложения,
32:16 - 32:17

например, Histropedia,
32:19 - 32:22

или вопросы и ответы
32:22 - 32:27

в персональном цифровом
помощнике Platypus, и так далее.
32:27 - 32:30

Мы видим похожую ситуацию с лексемами.
32:31 - 32:35

Мы на том уровне,
где можно создать такие маленькие...
32:35 - 32:37

«Смотрите, тут есть связь
между двумя вещами»,
32:38 - 32:43

и есть перевод этого слова
в этом языковом уровне,
32:43 - 32:48

и чем больше мы развиваем это,
чем больше слов описываем,
32:48 - 32:50

тем больше возможностей появляется.
32:50 - 32:52

Какие именно возможности?
32:53 - 32:59

Бен, наш главный спикер,
говорил о переводах,
33:00 - 33:03

о возможности перевода
с одного языка на другой.
33:03 - 33:08

И мой коллега Йенс всегда говорит о том,
33:08 - 33:11

что Евросоюз ищет переводчика
33:11 - 33:17

с мальтийского на шведский,
если не ошибаюсь.
33:17 - 33:19

- (голос из зала) Эстонский.
- Эстонский.
33:22 - 33:26

Это редкая комбинация.
33:27 - 33:32

Но если собрать все эти языки
в один машинно-читаемый массив,
33:32 - 33:33

то вы сможете это сделать,
33:33 - 33:37

вы сможете найти словарь
33:37 - 33:42

для перевода с эстонского
на мальтийский и обратно.
33:43 - 33:46

Внесение в словари языковых комбинаций,
33:46 - 33:48

которых там не было раньше,
33:48 - 33:51

потому что на них не было спроса,
33:51 - 33:56

достаточного для финансовой выгоды.
33:56 - 33:57

Теперь мы можем это сделать.
34:00 - 34:02

Затем следующее поколение.
34:02 - 34:04

Люси говорила о том,
34:04 - 34:07

как она работает с Хэтти
34:09 - 34:10

над генерацией текста,
34:10 - 34:15

чтобы начать писать статьи в Википедии
на языках меньшинств.
34:15 - 34:20

Для этого нужны данные о словах
34:20 - 34:22

и знание языка.
34:24 - 34:28

Это то, что мне вспомнилось
на данный момент.
34:29 - 34:30

Возможно, аудитория предложит больше идей
34:30 - 34:34

насчёт того, что мы будем делать
с этими выдающимися данными.
34:38 - 34:41

(голос из зала 9)
Я отклонюсь от темы лексем.
34:41 - 34:43

Я хочу спросить,
34:43 - 34:46

как я, как член сообщества,
34:46 - 34:50

могу повлиять на приоритет задания,
если приходит новый пользователь,
34:50 - 34:57

и он может указать, какие языки
он хочет видеть и редактировать
34:57 - 35:01

без знания каких-то
секретных словесных шаблонов.
35:02 - 35:05

Возможно, в этом году появится
технический список желаний
35:05 - 35:07

без тем Википедии.
35:07 - 35:11

Надеюсь, мы все сможем
проголосовать за эту вещь,
35:11 - 35:14

которую мы семь лет не могли исправить.
35:14 - 35:18

Есть ли у вас идеи
и замечания на этот счёт?
35:18 - 35:20

Вы имеете в виду,
35:20 - 35:24

что пользователь,
не зарегистрированный в Викиданных,
35:24 - 35:26

не может просто изменить язык?
35:26 - 35:28

(голос из зала 9) Нет,
для [неразборчиво] пользователей.
35:28 - 35:31

Если они вошли в систему,
35:31 - 35:35

они могут изменить язык вверху страницы
35:36 - 35:38

и он появится там,
35:40 - 35:42

где есть описание метки [неразборчиво],
35:42 - 35:44

и его можно будет редактировать.
35:46 - 35:49

(голос из зала 9)
Чаще всего в рабочем процессе
35:49 - 35:52

нужно иметь доступ ко многим языкам,
35:52 - 35:55

но это не всегда возможно.
35:55 - 35:59

Хорошо, давайте встретимся
после доклада и обсудим это.
36:02 - 36:04

Отлично.
Ещё вопросы?
36:06 - 36:07

Да?
36:11 - 36:13

(голос из зала 10) Спасибо за презентацию.
36:14 - 36:15

Можете прокомментировать
36:15 - 36:19

состояние корреляции
с сообществом Викисловаря?
36:19 - 36:22

Насколько я знаю, ведутся дискуссии
36:22 - 36:26

об импортировании
некоторых элементов работы,
36:26 - 36:31

но там есть проблемы с лицензированием
и некоторые разногласия.
36:31 - 36:32

(Лидия) Да.
36:32 - 36:36

Сообщества Викисловаря
потратили много времени
36:37 - 36:39

на его создание.
36:39 - 36:43

Они создали
36:43 - 36:48

невероятно сложные и комплексные шаблоны
36:48 - 36:54

для создания удобных таблиц,
которые автоматически генерируют формы,
36:54 - 36:56

и ещё много разных впечатляющих
36:56 - 37:00

и невообразимых вещей.
37:02 - 37:08

И конечно же, они вложили в это
много времени и усилий.
37:09 - 37:12

Поэтому их можно понять,
37:12 - 37:17

они не хотят, чтобы результаты их работы
37:18 - 37:19

кто-то взял просто так.
37:19 - 37:21

Поэтому такая ситуация.
37:23 - 37:25

И это нормально.
37:26 - 37:31

Сейчас первые сообщества
Викисловаря говорят о том,
37:31 - 37:34

чтобы передать и импортировать
некоторые данные в Викиданные.
37:34 - 37:39

Вы уже видели русский,
это один из таких случаев.
37:40 - 37:42

И я ожидаю большего.
37:44 - 37:47

Но это медленный процесс,
37:47 - 37:49

такой же медленный,
37:49 - 37:52

как внедрение данных
из Викиданных в Википедию.
37:53 - 37:56

С другой стороны, нужно упростить
37:56 - 37:59

использование данных
из лексем в Викисловаре,
37:59 - 38:02

чтобы они могли пользоваться ими
38:02 - 38:06

и делиться данными
с разными Викисловарями,
38:06 - 38:09

что сейчас почти невозможно.
38:09 - 38:11

И это ужасно, так же,
как это было в Википедии.
38:14 - 38:16

Дождитесь подарка на день рождения.
(хихикает)
38:20 - 38:21

Да?
38:22 - 38:25

(голос из зала 11) Когда я думала,
как решить эту проблему,
38:25 - 38:28

то не хотела говорить,
потому что это казалось мне глупым,
38:28 - 38:32

но я думаю, что в Викисловаре
уже есть некоторый контент,
38:32 - 38:35

и я знаю, что мы не можем
передать его в Викиданные
38:35 - 38:37

из-за разницы в лицензиях.
38:37 - 38:40

Но я думаю, что с этим
можно что-то сделать.
38:40 - 38:45

Возможно, мы можем
получить разрешение сообществ
38:46 - 38:51

после общего голосования,
38:52 - 38:58

чтобы активные участники сообщества
проголосовали и сказали,
38:58 - 39:03

хотят ли они принять или передать контент,
39:03 - 39:05

для которого они могут
создать лексемы в Викиданных.
39:06 - 39:09

Иначе это непродуктивно.
39:10 - 39:14

Это как раз тот разговор,
39:14 - 39:18

который нужно начать
в сообществах Викисловаря.
39:18 - 39:25

Для нас было бы неуместным
навязывать им это.
39:26 - 39:31

Но я думаю, что это стоит обсудить.
39:31 - 39:34

Также важно понимать,
39:34 - 39:39

что есть разница между тем,
что легально разрешено,
39:39 - 39:43

тем, что мы должны делать,
39:43 - 39:46

и тем, чего хотят или не хотят эти люди.
39:46 - 39:47

Поэтому, даже если это легально,
39:47 - 39:51

но другие сообщества Викисловаря
этого не хотят,
39:51 - 39:54

то здесь нужно быть осторожными.
39:59 - 40:02

Возьмите микрофон для трансляции.
40:05 - 40:07

(голос из зала 12)
Всё это очень интересно,
40:08 - 40:12

и я уже думаю, как рассказать
об этом моим студентам
40:12 - 40:16

и как включить это в курс лекций,
40:16 - 40:19

в нашу работу, учебный процесс.
40:19 - 40:22

На данный момент
40:23 - 40:24

мне не хватает знаний,
40:24 - 40:27

но я думаю, что наша документация
40:28 - 40:30

нуждается в улучшении.
40:30 - 40:33

Было бы хорошо сделать
интересные видео,
40:33 - 40:36

которые объясняют, как это работает.
40:36 - 40:40

Мы могли бы их использовать,
40:40 - 40:42

чтобы заинтересовать студентов
40:42 - 40:47

и объяснить людям, как это здорово.
40:47 - 40:52

Просто подумайте
о документации и образовании.
40:52 - 40:54

Я думаю, многое можно сделать.
40:54 - 40:59

Есть много задач,
к которым можно привлечь...
41:00 - 41:02

...ну, не начальную школу,
41:02 - 41:05

но хотя бы старших школьников.
41:06 - 41:11

Очень бы хотелось
использовать этот потенциал,
41:11 - 41:15

хотя пока что я плохо разбираюсь в этом
41:15 - 41:20

и не могу ставить задачи или...
41:20 - 41:22

...делать что-нибудь на практике.
41:22 - 41:26

Если у вас есть
любые идеи по этому поводу,
41:26 - 41:30

я с удовольствием их выслушаю.
41:31 - 41:32

Да, мы поговорим об этом.
41:35 - 41:37

Ещё вопросы?
41:38 - 41:39

Кто-то поднимал руку.
41:39 - 41:41

Не помню, кто именно.
41:46 - 41:50

(голос из зала 13) Если мы не можем
импортировать из Викисловаря,
41:50 - 41:56

есть ли согласованные мероприятия,
чтобы найти другие окрытые источники,
41:56 - 41:57

возможно, все данные,
41:59 - 42:03

как-то отфильтровать и организовать их,
42:03 - 42:08

чтобы их можно было
легко проверить для импорта?
42:09 - 42:11

Первые мероприятия уже есть.
42:11 - 42:15

Я так понимаю,
баскский язык -- одно из них.
42:15 - 42:17

Хотите рассказать об этом?
42:18 - 42:20

(голос из зала 14) [inaudible]
42:23 - 42:27

Фактический ответ -- заплатить за это...
42:28 - 42:33

У нас есть договор с подрядчиком,
с которым мы обычно работаем.
42:35 - 42:38

Они создают словари --
42:40 - 42:42

и ещё много чего, словари в том числе.
42:42 - 42:47

Мы договорились с ними о создании
бесплатного словаря для студентов.
42:47 - 42:53

Мы бы взяли часто употребляемые слова
и начали загружать их
42:53 - 42:56

с внешним идентификатором
и схемой этих вещей.
42:56 - 43:03

Но у нас была дискуссия,
оставлять ли это на лицензии CC0,
43:03 - 43:05

потому что у них есть
словарь с лицензией CC BY
43:07 - 43:10

и они поняли, в чём разница.
43:10 - 43:14

Поэтому была дискуссия.
43:14 - 43:20

Но я думаю, что в будущем мы сможем
предоставить инструменты или примеры,
43:20 - 43:22

и я думаю, что будут другие словари,
43:22 - 43:24

с которыми мы сможем работать.
43:24 - 43:29

Я также думаю, что Викисловарь
должен двигаться в этом направлении,
43:29 - 43:32

но это уже другая большая дискуссия.
43:33 - 43:34

Кроме того,
43:34 - 43:39

Леа общается с людьми из Окситании,
43:39 - 43:42

которые работают
над окситанскими словарями,
43:42 - 43:45

и сейчас они работают
над совместным проектом в шумерском.
43:52 - 43:53

Ещё вопросы?
44:01 - 44:05

(голос из зала 15) Привет!
Мы хотим импортировать окситанские данные.
44:05 - 44:07

Отлично!
44:07 - 44:09

(голос из зала 15)
И у нас небольшая проблема.
44:09 - 44:14

Мы не знаем, как представить
всё разнообразие лексем.
44:14 - 44:18

У нас шесть диалектов,
44:18 - 44:24

и мы хотим указать,
в каком диалекте используется лексема,
44:24 - 44:27

и у нас нет подходящего
C0-утверждения, чтобы это сделать.
44:27 - 44:31

Пока сегмента не существует,
44:32 - 44:34

это не позволяет нам [неразборчиво]
44:34 - 44:38

потому что нам придётся сделать это снова,
44:38 - 44:42

когда мы сможем
[экспортировать] утверждение.
44:42 - 44:45

И это сложно,
потому что это утверждение
44:45 - 44:48

заинтересует немногих людей,
44:48 - 44:53

потому что оно касается
в основном языков меньшинств.
44:53 - 44:57

Один человек спросит об этом.
44:57 - 45:00

Но, как у наших коллег басков,
45:00 - 45:06

один человек может привлечь тысячи других,
45:06 - 45:11

может быть, это не много,
45:11 - 45:14

но для нас это очень важно.
45:15 - 45:18

У вас уже есть
новое предложение о свойствах,
45:18 - 45:19

или вам нужна помощь в его создании?
45:22 - 45:24

(голос из зала 15) Мы просили об этом
четыре месяца назад.
45:25 - 45:29

Хорошо, попросим кого-нибудь
помочь с этим предложением.
45:30 - 45:33

Думаю, здесь достаточно людей,
которые могут это сделать.
45:33 - 45:36

(голос из зала 15) Предложение о свойствах
[говорит по-французски]
45:36 - 45:37

(голос из зала) Нам не ответили.
45:37 - 45:40

(голос из зала 15) Нам не ответили,
и мы не знаем, как это сделать,
45:40 - 45:43

потому что мы не из сообщества Викиданных.
45:45 - 45:48

Здесь есть люди, которые могут вам помочь.
45:49 - 45:52

Поднимите руку, кто возьмёт...
45:53 - 45:54

(голос из зала 16) Я могу.
45:54 - 45:56

Мне кажется очень интересным то,
45:56 - 45:59

что только вариант формы
45:59 - 46:03

может управлять этим территориально,
46:03 - 46:05

с помощью координат или картографии.
46:06 - 46:08

А также разные произношения,
46:08 - 46:12

думаю, это бывает во многих языках.
46:13 - 46:16

Нам нужно как-то реализовать это
[неразборчиво],
46:16 - 46:19

я займусь поиском свойства.
46:20 - 46:21

Отлично.
46:21 - 46:24

Вы получите поддержку
для вашего предложения о свойствах.
46:26 - 46:27

Спасибо вам.
46:28 - 46:30

Хорошо, есть ещё вопросы?
46:32 - 46:33

Финн.
46:34 - 46:35

Финн -- один из тех людей,
46:35 - 46:38

которые создают разработки
на основе лексикографических данных.
46:38 - 46:40

(Финн) У меня небольшой вопрос
46:40 - 46:44

о вариациях в произношении.
46:45 - 46:48

Их нелегко внести в...
46:49 - 46:53

Конечно, одно и то же слово
может иметь разные формы.
46:56 - 46:58

Не знаю, мне кажется...
47:00 - 47:04

Если не сделать это таким способом,
то будет трудно уточнить...
47:05 - 47:06

Хотя я не знаю,
47:06 - 47:10

это мелкая техническая проблема или...
47:10 - 47:11

Давайте вместе разберёмся.
47:12 - 47:15

Хочется увидеть пример.
47:17 - 47:18

Асаф.
47:27 - 47:28

(Асаф) Спасибо.
47:29 - 47:34

Я могу дать очень хороший пример
из моего родного языка, иврита.
47:34 - 47:38

В иврите есть два основных варианта
47:39 - 47:42

для выражения почти каждого слова,
47:43 - 47:48

потому что традиционное написание
47:48 - 47:50

пропускает многие гласные буквы.
47:51 - 47:55

Поэтому в современных изданиях
Библии и поэзии
47:55 - 47:57

используются диакритические знаки.
47:57 - 48:03

Но эти знаки никогда не используются
в современной прозе,
48:03 - 48:06

газетах, на уличных вывесках.
48:06 - 48:11

В ежедневном обиходе добавляются гласные
48:12 - 48:14

и не используются диакритические знаки,
48:14 - 48:16

потому что они громоздкие
48:16 - 48:18

и пишутся по правилам,
которых никто не знает.
48:19 - 48:21

Поэтому есть два варианта:
48:21 - 48:25

повседневный вариант для прозы,
48:25 - 48:28

и отдельно Библия с поэзией,
48:28 - 48:32

которые написаны
традиционным текстом с диакритикой.
48:32 - 48:33

Чтобы быть полезной,
48:33 - 48:37

Lexeme должна распознавать
обе вариации каждого слова
48:37 - 48:40

и каждую форму каждого слова.
48:41 - 48:43

То есть это случай
очень обширного использования
48:43 - 48:46

официальных устойчивых вариантов.
48:46 - 48:49

Это не диалекты и не региональные языки,
48:49 - 48:54

это две сосуществующие
морфологические системы.
48:55 - 48:59

Я тоже пока что не знаю,
как выразить это в Lexeme,
48:59 - 49:03

и это не даёт мне -- частично
отвечаю на вопрос Магнуса --
49:03 - 49:05

загрузить готовые части
49:05 - 49:09

самого большого словаря иврита,
который есть в открытом доступе,
49:09 - 49:13

и который я оцифровываю
уже несколько лет.
49:13 - 49:15

Большая часть уже готова,
49:15 - 49:17

но я не выкладываю её в Lexeme,
49:17 - 49:20

потому что я не знаю,
как решить эту проблему.
49:20 - 49:23

Хорошо, решим эту проблему здесь.
(хихикает)
49:25 - 49:26

Должна быть какая-то возможность.
49:30 - 49:32

Ещё вопросы?
49:37 - 49:40

Если нет, спасибо вам большое.
49:41 - 49:43

(аплодисменты)

Title:: cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4
Video Language:: English
Duration:: 49:51

Bar Sch edited Russian subtitles for cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

Russian subtitles

Revisions

Revision 1 Uploaded

Bar Sch

cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

Revisions

Our website uses cookies

Operating cookies (Required)