WEBVTT
00:00:00.111 --> 00:00:02.191
Викиданные и языки
00:00:02.191 --> 00:00:05.477
Лидия Пинчер
00:00:06.223 --> 00:00:07.362
(Лидия) Спасибо большое.
00:00:07.362 --> 00:00:11.244
Языки – одна из важных тем
на этой конференции.
00:00:14.220 --> 00:00:18.508
Хочу дать вам общее представление о том,
00:00:18.508 --> 00:00:19.812
как мы работаем с языками,
00:00:20.264 --> 00:00:22.167
и какие у нас есть возможности.
00:00:26.591 --> 00:00:29.021
ДОСТУПНЫЕ ЗНАНИЯ ДЛЯ БОЛЬШЕГО ЧИСЛА ЛЮДЕЙ
00:00:29.036 --> 00:00:32.580
Цель Викиданных -- доступные знания
для большего числа людей.
00:00:32.580 --> 00:00:37.168
А для этого нужны языки,
00:00:38.205 --> 00:00:43.291
учитывая то, что наша жизнь
всё больше зависит от технологий.
00:00:44.114 --> 00:00:48.873
Как сказал сегодня наш главный спикер,
00:00:49.723 --> 00:00:51.588
люди не успевают
за некоторыми технологиями,
00:00:51.588 --> 00:00:54.790
потому что не знают определённого языка.
00:00:55.320 --> 00:00:57.573
И это плохо.
00:00:58.633 --> 00:01:02.097
Мы хотим это исправить.
00:01:02.927 --> 00:01:05.841
Чтобы изменить это, нужны две вещи.
00:01:06.411 --> 00:01:11.000
Первое -- дать людям контент на их языке.
00:01:11.270 --> 00:01:12.955
Второе -- дать людям возможность
00:01:12.955 --> 00:01:15.910
взаимодействовать на их языке
00:01:15.910 --> 00:01:19.189
в этих приложениях или программах.
00:01:20.367 --> 00:01:24.897
Викиданные работают в обеих случаях.
00:01:25.277 --> 00:01:27.928
Первое -- контент на вашем языке,
00:01:28.408 --> 00:01:31.099
то есть элементы и свойства,
00:01:31.319 --> 00:01:33.082
способы описания мира.
00:01:33.082 --> 00:01:35.085
Конечно, этого недостаточно,
00:01:35.085 --> 00:01:39.294
но это позволяет вам двигаться вперёд.
00:01:39.764 --> 00:01:41.847
Второе -- взаимодействие на вашем языке.
00:01:41.847 --> 00:01:46.389
Здесь идут в ход лексемы,
00:01:46.389 --> 00:01:49.382
если вы хотите поговорить
с персональным цифровым помощником
00:01:49.382 --> 00:01:54.918
или вам нужно перевести текст
с помощью гаджета.
00:01:56.404 --> 00:01:59.254
Давайте рассмотрим контент на вашем языке.
00:01:59.254 --> 00:02:03.396
Что у нас есть в элементах и свойствах?
00:02:05.406 --> 00:02:09.966
В этих элементах и свойствах
крайне важны метки.
00:02:10.236 --> 00:02:14.866
Нам нужно знать название сущности,
о которой мы говорим.
00:02:15.656 --> 00:02:19.987
И вместо того, чтобы говорить о Q5,
00:02:19.987 --> 00:02:22.180
англоязычные люди знают,
что это значит «human»,
00:02:22.180 --> 00:02:24.706
немецкоязычные знают, что это «mensch»,
00:02:24.706 --> 00:02:25.974
и так далее.
00:02:26.284 --> 00:02:29.742
Эти метки на элементах и свойствах
00:02:29.742 --> 00:02:33.619
создают мост между людьми и машинами.
00:02:33.619 --> 00:02:35.439
А также между самими людьми,
00:02:35.439 --> 00:02:40.115
делая знания всё более доступными.
00:02:41.183 --> 00:02:43.270
КАК ВЫГЛЯДИТ НАШ ОХВАТ?
00:02:43.270 --> 00:02:46.290
Это хорошее устремление.
00:02:46.290 --> 00:02:48.192
Как это выглядит?
00:02:48.342 --> 00:02:49.607
Вот так.
00:02:50.947 --> 00:02:52.416
Здесь вы видите,
00:02:52.416 --> 00:02:58.496
что большинство элементов
в Викиданных имеют по две метки,
00:02:58.496 --> 00:03:00.527
то есть метки на двух языках.
00:03:01.697 --> 00:03:03.851
Потом на одном, потом на трёх,
00:03:03.851 --> 00:03:05.865
а дальше вообще всё грустно.
00:03:06.781 --> 00:03:08.411
(тихий смех)
00:03:10.047 --> 00:03:12.713
Над этим нужно поработать.
00:03:14.185 --> 00:03:15.319
Но с другой стороны,
00:03:15.319 --> 00:03:17.478
могло быть и хуже.
00:03:17.478 --> 00:03:19.560
Я ожидала, что в среднем будет одна.
00:03:19.560 --> 00:03:22.503
Поэтому было очень приятно увидеть две.
(хихикает)
00:03:23.822 --> 00:03:24.921
КАКИЕ ЯЗЫКИ МЫ ИСПОЛЬЗУЕМ?
00:03:24.921 --> 00:03:26.186
Хорошо.
00:03:27.156 --> 00:03:29.527
Но нас интересует
не только количество меток
00:03:29.527 --> 00:03:33.742
на элементах и свойствах.
00:03:33.742 --> 00:03:36.365
Нас также интересует,
на каких языках эти метки.
00:03:38.045 --> 00:03:43.764
Здесь вы видите диаграмму языков,
00:03:43.764 --> 00:03:46.838
на которых у нас есть метки для Элементов.
00:03:46.838 --> 00:03:50.669
Наибольшую часть занимают Другие.
00:03:51.229 --> 00:03:53.863
Здесь 100 самых распространённых языков,
00:03:54.533 --> 00:03:58.902
остальные вошли в категорию Другие,
чтобы диаграмму можно было читать.
00:03:59.542 --> 00:04:02.142
Здесь есть английский и нидерландский,
00:04:03.002 --> 00:04:04.144
французский,
00:04:05.924 --> 00:04:08.809
и конечно же, астурийский.
00:04:09.659 --> 00:04:11.889
- (голос из зала 1) Ого!
- Да, ого!
00:04:13.899 --> 00:04:16.954
Итак, здесь вы видите дисбаланс,
00:04:16.954 --> 00:04:20.114
и у английского языка
большое преимущество.
00:04:21.236 --> 00:04:24.107
Если посмотреть
на то же самое в Свойствах,
00:04:24.367 --> 00:04:25.839
то здесь ситуация выглядит лучше.
00:04:27.399 --> 00:04:32.750
Возможно, за счёт того,
что свойств намного меньше.
00:04:32.750 --> 00:04:36.640
Поэтому даже маленькие сообщества
могут успевать за этим.
00:04:36.640 --> 00:04:39.173
И очень важная часть Викиданных --
00:04:39.173 --> 00:04:40.989
это локализация на вашем языке.
00:04:41.159 --> 00:04:42.204
То есть это хорошо.
00:04:45.752 --> 00:04:48.122
В случае с астурийским языком мы видим,
00:04:48.122 --> 00:04:53.698
что даже маленькие сообщества
могут значительно изменить ситуацию
00:04:54.448 --> 00:04:57.085
благодаря упорной работе и самоотдаче,
00:04:57.085 --> 00:04:58.310
и это очень круто.
00:04:59.158 --> 00:05:01.846
У КАКОГО СВОЙСТВА БОЛЬШЕ ВСЕГО МЕТОК?
00:05:01.846 --> 00:05:03.110
У меня для вас вопрос:
00:05:03.530 --> 00:05:05.493
если взять все свойства в Викиданных,
00:05:05.493 --> 00:05:07.377
которые не являются
внешними идентификаторами,
00:05:07.597 --> 00:05:10.358
какие из них имеют больше всего
меток, то есть больше всего языков?
00:05:10.977 --> 00:05:13.847
(аудитория) [неразборчиво]
00:05:13.847 --> 00:05:16.696
Я слышу версию «экземпляр класса»?
00:05:17.506 --> 00:05:19.443
Неправильно.
00:05:19.983 --> 00:05:22.210
Это изображение.
(хихикает)
00:05:23.230 --> 00:05:26.366
Поэтому, если вы говорите на языке,
00:05:26.366 --> 00:05:28.621
в котором еще нет метки
для экземпляра класса,
00:05:28.621 --> 00:05:30.190
то стоит её добавить.
00:05:32.102 --> 00:05:35.676
Сейчас у него есть 148 меток.
00:05:37.688 --> 00:05:41.249
Ещё один слайд.
00:05:42.631 --> 00:05:44.162
Этот график показывает,
00:05:44.162 --> 00:05:49.321
сколько контента доступно
на определённом языке,
00:05:49.321 --> 00:05:52.042
и какая доля этого контента используется.
00:05:52.042 --> 00:05:55.448
На этой кривой вы видите,
00:05:55.448 --> 00:06:00.987
что большая часть контента доступна
на английском и с английскими метками,
00:06:01.507 --> 00:06:03.915
и её часто используют.
00:06:04.295 --> 00:06:06.449
Дальше она спадает.
00:06:06.449 --> 00:06:09.436
Вы также видите выпадающие точки,
00:06:09.436 --> 00:06:14.803
где есть неожиданно много контента,
00:06:16.903 --> 00:06:19.449
что очень хорошо.
00:06:20.839 --> 00:06:24.945
Проблема в том, что его мало используют.
00:06:25.565 --> 00:06:28.482
Астурийский и нидерландский
должны быть выше,
00:06:28.742 --> 00:06:32.234
и я думаю, что нужно
помочь этим сообществам
00:06:33.266 --> 00:06:35.563
увеличить использование
собранных ими данных.
00:06:35.563 --> 00:06:37.472
Это было бы очень полезно.
00:06:42.910 --> 00:06:48.110
Эта аналитика
показывает хорошую тенденцию --
00:06:48.300 --> 00:06:51.378
часто используемые элементы
00:06:51.378 --> 00:06:55.295
также имеют больше меток.
00:06:55.295 --> 00:06:58.188
Или наоборот -- это не совсем понятно.
00:06:59.850 --> 00:07:02.510
МЫ ПОМОГАЕМ ТОЛЬКО
РАСПРОСТРАНЁННЫМ ЯЗЫКАМ?
00:07:02.513 --> 00:07:04.636
Ещё один вопрос:
00:07:04.636 --> 00:07:07.009
мы помогаем
только распространённым языкам?
00:07:07.899 --> 00:07:11.147
Или мы помогаем всем?
00:07:12.757 --> 00:07:17.413
Здесь мы видим группирование языков.
00:07:17.743 --> 00:07:21.832
Языки в каждой группе
склонны иметь общие метки.
00:07:26.042 --> 00:07:28.599
Вы видите, как они собираются в кластеры.
00:07:30.779 --> 00:07:34.065
Здесь похожие кластеры,
разными цветами показано,
00:07:34.065 --> 00:07:39.475
насколько живым, используемым
00:07:40.455 --> 00:07:42.996
или исчезающим является язык.
00:07:42.996 --> 00:07:44.642
Здесь вы видите хорошую тенденцию --
00:07:44.642 --> 00:07:49.036
распространённые и исчезающие языки
00:07:49.566 --> 00:07:53.673
не образовывают два разных кластера.
00:07:53.673 --> 00:07:58.942
Но они смешиваются,
00:08:00.262 --> 00:08:04.625
и это намного лучше,
чем обратная ситуация,
00:08:04.625 --> 00:08:09.467
в которой распространённые языки
00:08:10.197 --> 00:08:12.164
помогают друг другу.
00:08:12.744 --> 00:08:14.306
Это не тот случай.
00:08:14.306 --> 00:08:17.417
И это очень хорошо.
00:08:17.417 --> 00:08:20.042
Когда я это увидела, то подумала,
что это очень хорошо.
00:08:23.474 --> 00:08:25.199
Здесь похожая тенденция,
00:08:26.239 --> 00:08:27.890
мы рассмотрели
00:08:30.230 --> 00:08:34.222
статус языков
00:08:34.222 --> 00:08:35.995
и количество меток в них.
00:08:39.367 --> 00:08:42.937
Вы видите, что распространённые языки
явно выигрывают,
00:08:42.937 --> 00:08:44.248
как и ожидалось.
00:08:45.508 --> 00:08:47.312
Но вы также видите,
00:08:49.303 --> 00:08:53.977
что языки 2, 3, и возможно, 4 категорий
00:08:54.407 --> 00:08:59.280
находятся в неплохой ситуации,
00:08:59.280 --> 00:09:02.367
если говорить об их представлении
в Викиданных.
00:09:03.287 --> 00:09:05.818
Это очень хороший результат.
00:09:07.646 --> 00:09:09.129
Сейчас вы видите аналогичный график
00:09:09.129 --> 00:09:12.418
степени использования контента
с этими метками
00:09:12.418 --> 00:09:15.085
в Википедии, например,
00:09:17.455 --> 00:09:22.563
и мы видим похожую картину.
00:09:23.603 --> 00:09:29.703
Это говорит о том, что эти сообщества
00:09:29.703 --> 00:09:34.504
вносят много меток
для часто используемых элементов.
00:09:36.410 --> 00:09:40.493
Тут есть выпадающие точки,
и в этих случаях мы можем
00:09:41.683 --> 00:09:48.202
помочь этим сообществам
эффективно применить свои усилия.
00:09:49.312 --> 00:09:52.663
Но в общем мне нравится эта картина.
00:09:53.123 --> 00:09:55.373
ВЗАИМОДЕЙСТВИЕ В ВАШЕМ ЯЗЫКЕ
00:09:56.603 --> 00:09:59.844
Это были элементы и свойства Викиданных.
00:10:00.714 --> 00:10:03.033
Теперь рассмотрим
взаимодействие в ваших языках.
00:10:03.033 --> 00:10:05.203
Это лексемы в Викиданных,
00:10:05.203 --> 00:10:08.944
где мы описываем слова,
их формы и значения.
00:10:10.167 --> 00:10:13.131
Мы занимаемся этим с мая прошлого года,
00:10:16.461 --> 00:10:19.127
и количество контента растёт.
00:10:20.114 --> 00:10:22.269
Синим цветом обозначены лексемы,
00:10:22.269 --> 00:10:25.938
красным -- формы этих лексем,
00:10:25.938 --> 00:10:29.910
жёлтым -- смыслы лексем.
00:10:30.991 --> 00:10:34.451
Эти сообщества --
вернёмся к этому позже --
00:10:34.451 --> 00:10:39.863
потратили много времени
на создание форм и смыслов для лексем,
00:10:39.863 --> 00:10:42.953
что очень полезно,
00:10:42.953 --> 00:10:47.853
потому что это создаёт
ядро нужного набора данных.
00:10:50.562 --> 00:10:55.133
Мы рассмотрели все языки,
00:10:55.133 --> 00:10:57.906
имеющие лексемы на Викиданных.
00:10:57.906 --> 00:11:01.003
У нас есть слова,
00:11:01.713 --> 00:11:04.244
сейчас это 310 языков.
00:11:04.884 --> 00:11:08.290
Как вы думаете, какой язык
00:11:08.290 --> 00:11:11.949
имеет больше всего лексем на Викиданных?
00:11:11.953 --> 00:11:15.120
(аудитория) Шведский [неразборчиво]
00:11:19.183 --> 00:11:20.216
Как?
00:11:20.216 --> 00:11:21.741
(голос из зала 2) Немецкий.
00:11:21.741 --> 00:11:23.902
Извините, я услышала это раньше.
00:11:23.902 --> 00:11:25.111
Это русский.
00:11:28.011 --> 00:11:29.504
Русский далеко впереди.
00:11:31.897 --> 00:11:33.692
Чтобы вам было понятнее,
00:11:35.652 --> 00:11:36.816
есть разные мнения,
00:11:36.816 --> 00:11:41.631
но я читала, что, например,
для разговорного уровня
00:11:42.231 --> 00:11:45.450
на другом языке
достаточно знать от 1000 до 3000 слов,
00:11:45.450 --> 00:11:49.461
и от 4000 до 10 000 слов
для продвинутого уровня.
00:11:51.591 --> 00:11:55.092
Поэтому нам нужно ещё поработать.
00:11:58.483 --> 00:12:02.829
Также хочу обратить
ваше внимание на баскский язык,
00:12:03.279 --> 00:12:07.524
там примерно 10 000 лексем.
00:12:09.244 --> 00:12:13.003
Если посмотреть на количество форм
для этих лексем,
00:12:14.163 --> 00:12:16.497
то баскский находится довольно высоко,
00:12:18.257 --> 00:12:20.006
и это очень круто.
00:12:20.006 --> 00:12:24.930
Вам стоит пойти на лекцию,
которая объясняет этот случай.
00:12:27.341 --> 00:12:30.765
Если посмотреть на количество смыслов,
то есть значений слов,
00:12:32.015 --> 00:12:34.551
то баскский будет на первом месте.
00:12:34.921 --> 00:12:37.102
Думаю, это заслуживает аплодисментов.
00:12:37.102 --> 00:12:38.921
(аплодисменты)
00:12:42.949 --> 00:12:45.678
КАКАЯ ЛЕКСЕМА ИМЕЕТ
БОЛЬШЕ ВСЕГО ПЕРЕВОДОВ?
00:12:45.678 --> 00:12:47.118
Ещё один вопрос:
00:12:47.118 --> 00:12:50.151
какая лексема имеет
больше всего переводов?
00:12:50.361 --> 00:12:54.274
- (аудитория) Кошки. [неразборчиво]
- Дуглас Адамс. [неразборчиво]
00:12:56.766 --> 00:12:59.674
Хорошие варианты, но нет.
00:13:01.012 --> 00:13:04.017
Вот она, это русское слово «вода».
00:13:09.571 --> 00:13:12.253
Мы много говорили о том,
00:13:12.253 --> 00:13:16.412
сколько у нас есть лексем, форм и смыслов,
00:13:16.412 --> 00:13:20.323
но это только одна часть.
00:13:20.323 --> 00:13:21.515
Вторая часть --
00:13:21.515 --> 00:13:25.161
это описание этих лексем,
форм и смыслов таким способом,
00:13:25.161 --> 00:13:27.037
чтобы их могла прочитать машина.
00:13:27.647 --> 00:13:30.039
Для этого есть утверждения,
как в элементах.
00:13:31.479 --> 00:13:36.362
Одно из свойств -- пример использования.
00:13:36.362 --> 00:13:38.582
Тот, кто использует эти данные,
00:13:38.582 --> 00:13:42.089
может понять,
как использовать это слово в контексте,
00:13:42.089 --> 00:13:44.158
например, как цитату.
00:13:45.396 --> 00:13:47.113
Здесь на первом месте польский.
00:13:47.900 --> 00:13:49.694
Носители польского хорошо потрудились.
00:13:54.219 --> 00:13:57.680
Другое полезное свойство -- МФА,
международный фонетический алфавит,
00:13:57.680 --> 00:13:59.806
то есть произношение слова.
00:14:00.876 --> 00:14:03.684
Очевидно, что русскому языку
00:14:05.134 --> 00:14:07.516
нужно много МФА-утверждений.
00:14:10.419 --> 00:14:13.314
Зато польский на втором месте.
00:14:17.148 --> 00:14:20.753
И наконец, запись произношения.
00:14:20.753 --> 00:14:23.372
Это ссылки на файлы в Викискладе,
00:14:23.372 --> 00:14:25.689
где кто-то говорит слово,
00:14:25.689 --> 00:14:29.913
и вы слышите произношение носителя языка.
00:14:29.913 --> 00:14:32.871
Это на случай, если вы не можете
прочитать МФА, например.
00:14:34.959 --> 00:14:39.115
Ещё есть очень хороший Википроект,
00:14:39.115 --> 00:14:40.354
называется Lingua Libre,
00:14:40.884 --> 00:14:45.173
там можно делать аудиозаписи слов
на вашем языке.
00:14:45.173 --> 00:14:47.836
Потом их добавляют
к лексемам на Викиданных,
00:14:48.446 --> 00:14:51.763
чтобы люди знали,
как произносить ваши слова.
00:14:53.663 --> 00:14:55.694
(голос из зала 3) [неразборчиво]
00:14:55.694 --> 00:14:57.665
Если вы поищете «Lingua Libre»,
00:14:57.665 --> 00:15:00.981
и я уверена, что кто-то может
выложить это в Telegram-канале.
00:15:03.138 --> 00:15:04.241
Эти ребята крутые.
00:15:04.491 --> 00:15:06.726
Они много чего сделали с Викибазой.
00:15:07.961 --> 00:15:09.416
ЧТО ДЕЛАТЬ ДАЛЬШЕ?
00:15:09.416 --> 00:15:10.427
Хорошо.
00:15:12.706 --> 00:15:17.055
Теперь вопрос: что делать дальше?
00:15:19.165 --> 00:15:22.010
Судя по числаv, которые я вам показала,
00:15:23.030 --> 00:15:25.172
мы провели большую работу для того,
00:15:25.172 --> 00:15:27.890
чтобы больше людей
могли получить больше знаний
00:15:28.430 --> 00:15:30.950
о языках на Викиданных.
00:15:32.530 --> 00:15:36.392
Но нам ещё много чего нужно сделать.
00:15:38.992 --> 00:15:42.341
Вы тоже можете помочь, например,
00:15:42.341 --> 00:15:44.921
организовывать марафоны меток,
то есть собирать людей,
00:15:44.921 --> 00:15:49.964
чтобы ставить метки
на элементы в Викиданных,
00:15:50.914 --> 00:15:55.121
или устроить вики-марафон
для лексем в вашем языке,
00:15:55.121 --> 00:15:58.952
чтобы внести распространённые слова
в Викиданные.
00:16:00.773 --> 00:16:03.285
Или используйте инструмент
типа Terminator,
00:16:03.285 --> 00:16:08.143
который поможет найти
самые важные элементы в вашем языке,
00:16:08.493 --> 00:16:11.549
у которых до сих пор нет метки.
00:16:13.274 --> 00:16:18.359
Важность определяется
частотой использования
00:16:18.359 --> 00:16:22.203
в других элементах Викиданных
в виде ссылок в утверждениях.
00:16:25.768 --> 00:16:30.022
Что касается лексем,
00:16:31.342 --> 00:16:35.169
у нас уже есть базовое количество,
00:16:35.169 --> 00:16:41.163
и теперь их нужно расширять,
добавлять больше утверждений,
00:16:41.163 --> 00:16:44.401
так, чтобы на их основе
00:16:44.401 --> 00:16:47.291
можно было создавать
полноценные приложения.
00:16:48.141 --> 00:16:50.795
Потому что мы приближаемся
к этой критической массе,
00:16:50.795 --> 00:16:53.616
но до создания серьёзных приложений
00:16:53.616 --> 00:16:56.624
всё ещё далеко.
00:16:58.277 --> 00:17:01.680
И я надеюсь, что вы к нам присоединитесь.
00:17:02.583 --> 00:17:07.103
Наши друзья
00:17:07.103 --> 00:17:09.793
немного нам помогают.
00:17:09.793 --> 00:17:12.262
Бруно, не хочешь ли выйти...
00:17:12.262 --> 00:17:14.002
ЛЕКСИЧЕСКИЕ МАСКИ ДЛЯ ВАЛИДАЦИИ ЛЕКСИКОНОВ
00:17:14.002 --> 00:17:16.854
...и рассказать нам о лексических масках?
00:17:17.541 --> 00:17:18.567
(Бруно) Спасибо, Лидия.
00:17:18.567 --> 00:17:21.519
Спасибо за возможность
презентовать нашу работу,
00:17:21.519 --> 00:17:24.810
которую мы делаем в Google вместе с Денни.
00:17:24.810 --> 00:17:29.295
Многие из вас его знают.
00:17:30.126 --> 00:17:32.030
Я лингвист в Google,
00:17:32.030 --> 00:17:36.150
и я очень рад встретить здесь
таких же языковых энтузиастов.
00:17:36.620 --> 00:17:39.278
Мы также создаём лексиконы,
00:17:39.278 --> 00:17:42.606
и мы создали технологию, или подход,
00:17:42.606 --> 00:17:45.589
который может быть полезным для вас.
00:17:46.369 --> 00:17:48.455
Для наглядности,
00:17:48.455 --> 00:17:52.068
здесь моя лекция
о лексикографическом фоне.
00:17:52.788 --> 00:17:54.347
Когда мы создаём базу данных лексикона,
00:17:54.347 --> 00:17:58.623
их очень трудно поддерживать,
обеспечивать устойчивость
00:17:58.623 --> 00:18:00.125
и обмен данными,
00:18:00.125 --> 00:18:01.867
думаю, вы это знаете.
00:18:02.517 --> 00:18:05.927
Мы пытаемся унифицировать
лингвистическую особенность и свойства,
00:18:05.927 --> 00:18:09.184
которые описывают эти лексемы и формы.
00:18:09.184 --> 00:18:10.936
Эта проблема пока что не решена,
00:18:10.936 --> 00:18:13.778
но есть некоторые попытки унификации.
00:18:13.778 --> 00:18:15.289
Чего действительно не хватает --
00:18:15.289 --> 00:18:18.732
и эта проблема была у нас
с начала проекта в Google --
00:18:18.732 --> 00:18:21.607
это попыток создать внутреннюю структуру,
00:18:22.197 --> 00:18:25.910
которая описывает,
как должна выглядеть словарная статья,
00:18:25.910 --> 00:18:28.581
какие данные
или какая информация у нас есть,
00:18:28.581 --> 00:18:31.907
и ожидаемые характеристики.
00:18:32.747 --> 00:18:38.187
И мы придумали маску лексикона.
00:18:38.897 --> 00:18:44.841
Маска лексикона описывает то,
что должно быть в статье,
00:18:44.841 --> 00:18:47.329
в лексикографической статье,
для того, чтобы она была полной
00:18:47.329 --> 00:18:51.436
в контексте количества форм,
ожидаемых для лексемы,
00:18:51.436 --> 00:18:55.607
а также количества особенностей,
ожидаемых для каждой из этих форм.
00:18:56.397 --> 00:18:58.329
Вот пример с итальянскими прилагательными.
00:18:58.329 --> 00:19:02.002
В итальянском языке вы ожидаете
увидеть четыре формы прилагательных,
00:19:02.002 --> 00:19:05.383
и каждая из этих форм имеет
специфическую комбинацию особенностей,
00:19:05.383 --> 00:19:07.946
касающихся рода и числа.
00:19:08.606 --> 00:19:12.492
Это то, что мы ожидаем
от итальянских прилагательных.
00:19:12.672 --> 00:19:16.176
Конечно, можно создать
чрезвычайно сложные маски,
00:19:16.176 --> 00:19:20.563
как для спряжения французских глаголов,
которое занимает много места,
00:19:20.783 --> 00:19:23.487
а маску для русского языка
я показывать не буду,
00:19:23.487 --> 00:19:25.378
потому что она не поместится на экране.
00:19:26.308 --> 00:19:29.531
Также у нас есть некоторые
детальные характеристики,
00:19:29.531 --> 00:19:33.421
потому что мы учитываем различия
на уровне форм.
00:19:33.421 --> 00:19:37.544
Здесь есть русские существительные,
которые имеют три числа
00:19:37.544 --> 00:19:40.048
и несколько падежей с разными формами,
00:19:40.048 --> 00:19:43.086
но у них также есть характеристика
на уровне статьи,
00:19:43.086 --> 00:19:45.590
которая указывает,
что существительное имеет
00:19:45.590 --> 00:19:49.743
свойственные ему род
и характеристику одушевлённости,
00:19:50.133 --> 00:19:52.488
которые также описаны в маске.
00:19:54.518 --> 00:19:58.779
Мы также хотим выделить то,
что маска определяет,
00:19:58.779 --> 00:20:01.874
как в общем должна выглядеть статья.
00:20:01.874 --> 00:20:07.158
У вас могут быть маски поменьше,
для недостаточных глаголов формы,
00:20:07.158 --> 00:20:11.282
или для недостаточных глаголов лексемы,
которые есть в языке.
00:20:11.282 --> 00:20:14.537
Вот самая простая форма
французских глаголов,
00:20:14.537 --> 00:20:19.729
которые имеют только
третье лицо единственного числа
00:20:19.729 --> 00:20:23.809
для всех погодных глаголов вроде
«дождит» или «снежит», как в английском.
00:20:24.537 --> 00:20:26.493
То есть мы различаем эти два уровня.
00:20:26.923 --> 00:20:29.962
Мы в Google используем это так:
00:20:29.962 --> 00:20:32.643
если у нас есть лексикон,
который мы хотим использовать,
00:20:33.063 --> 00:20:38.309
мы используем маску,
чтобы буквально бросить лексиконы,
00:20:38.309 --> 00:20:40.163
все статьи, через маску
00:20:40.163 --> 00:20:44.093
и посмотреть, в какой статье
есть проблемы со структурой.
00:20:44.093 --> 00:20:46.703
Возможно, нам не хватает формы?
Или лингвистической особенности?
00:20:46.703 --> 00:20:51.497
Если есть проблема, люди её оценивают,
00:20:51.497 --> 00:20:53.751
или смотрят, пройдёт ли она через маску.
00:20:53.751 --> 00:20:57.924
Это очень мощный инструмент
для проверки качества структуры.
00:20:59.427 --> 00:21:01.964
Сегодня мы с радостью объявляем,
00:21:01.964 --> 00:21:05.408
что мы можем открыть
исходные коды нашей маски.
00:21:05.948 --> 00:21:07.573
Вот эта схема.
00:21:07.573 --> 00:21:09.477
Если хотите, мы можем распространить
00:21:09.477 --> 00:21:13.483
и передать их в Викиданные
в виде ShEx-файлов.
00:21:13.483 --> 00:21:16.688
Это ShEx-файл
для немецких существительных,
00:21:16.688 --> 00:21:20.428
и Денни занимается конвертацией
из наших внутренних спецификаций
00:21:20.428 --> 00:21:23.406
в более доступные спецификации.
00:21:23.666 --> 00:21:27.522
Сейчас мы работаем с 25 языками.
00:21:27.522 --> 00:21:29.225
Мы ожидаем рост с нашей стороны,
00:21:29.225 --> 00:21:34.040
но мы также ищем возможности
сотрудничества для других языков.
00:21:34.350 --> 00:21:40.268
Денни и Лукас занимаются
одним из таких совместных проектов.
00:21:40.728 --> 00:21:45.052
У Лукаса есть отличные инструменты
для интерфейса,
00:21:45.052 --> 00:21:51.061
который поможет пользователям
или составителям добавлять больше форм.
00:21:51.061 --> 00:21:54.151
Если вы хотите добавить
французское прилагательное,
00:21:54.151 --> 00:21:59.057
интерфейс подскажет вам,
сколько форм ожидается,
00:21:59.057 --> 00:22:01.562
и какие лингвистические особенности
должны быть у этой формы.
00:22:01.562 --> 00:22:06.268
То есть наша маска поможет
определить и расширить инструмент.
00:22:07.238 --> 00:22:08.385
У меня всё.
00:22:08.791 --> 00:22:10.358
(Лидия) Спасибо большое.
00:22:10.358 --> 00:22:11.993
(аплодисменты)
00:22:14.249 --> 00:22:16.891
Хорошо.
Есть вопросы?
00:22:16.891 --> 00:22:19.221
Хотите ещё поговорить о лексемах?
00:22:19.817 --> 00:22:21.505
- (голос из зала 4) Да.
- Да. (хихикает)
00:22:33.485 --> 00:22:35.380
(голос из зала 4) Вы говорили о том,
00:22:35.380 --> 00:22:38.796
чтобы больше людей
могли использовать больше языков.
00:22:39.106 --> 00:22:42.444
Но есть много языков,
которые нельзя использовать в Викиданных.
00:22:42.444 --> 00:22:44.588
Как вы решаете эту проблему?
00:22:45.889 --> 00:22:47.686
«Нельзя использовать в Викиданных» --
00:22:47.686 --> 00:22:50.308
вы имеете в виду ввод меток?
00:22:50.308 --> 00:22:52.578
- (голос из зала 4) Меток, описаний.
- Понятно.
00:22:52.578 --> 00:22:55.498
С лексемами немного другая ситуация,
00:22:55.498 --> 00:22:57.793
потому что для них нет такого ограничения.
00:22:58.923 --> 00:23:05.003
Для меток на элементах и свойствах
ограничение есть,
00:23:05.433 --> 00:23:12.411
потому что мы хотели убедиться,
00:23:12.411 --> 00:23:14.229
что люди не начнут писать что попало
00:23:14.229 --> 00:23:17.399
и что это не выйдет из-под контроля.
00:23:19.349 --> 00:23:23.328
Если маленькое сообщество хочет
работать с одним языком,
00:23:23.898 --> 00:23:26.787
обратитесь к нам и мы вам поможем.
00:23:26.787 --> 00:23:29.202
(голос из зала 4) Мы сделали это в мае
на хакатоне в Праге,
00:23:29.202 --> 00:23:32.459
и смогли начать использовать
наш язык лишь в августе.
00:23:32.459 --> 00:23:35.135
- Да.
- (голос из зала 4) Это очень медленно.
00:23:35.135 --> 00:23:37.504
Да, к сожалению, это очень медленно.
00:23:37.854 --> 00:23:39.883
Мы работаем с Комиссией по языку
00:23:39.883 --> 00:23:46.048
над решением некоторых фундаментальных...
00:23:49.537 --> 00:23:55.377
Например, договориться о том,
какие языки «разрешены».
00:23:56.047 --> 00:23:59.398
Это происходит очень медленно,
00:23:59.988 --> 00:24:04.178
поэтому ваш запрос занял столько времени.
00:24:04.778 --> 00:24:05.963
(голос из зала 4) Спасибо.
00:24:06.615 --> 00:24:07.950
(голос из зала 5) Спасибо вам.
00:24:07.950 --> 00:24:10.938
Лидия, если вы помните статистику,
которую вы показывали,
00:24:10.938 --> 00:24:12.886
количество лексем в языках.
00:24:12.886 --> 00:24:17.599
Вы посчитали все формы как единицу данных,
00:24:17.599 --> 00:24:20.034
или только лексемы?
00:24:21.289 --> 00:24:22.941
(Лидия) Вы имеете в виду эту?
00:24:22.941 --> 00:24:24.053
Какую именно?
NOTE Paragraph
00:24:24.053 --> 00:24:25.529
(голос из зала 5) Да, эту.
00:24:25.797 --> 00:24:28.341
Если вы помните,
это количество обозначает
00:24:28.341 --> 00:24:31.954
все формы для всех лексем
или только количество лексем?
00:24:31.954 --> 00:24:35.395
- Нет, только количество лексем.
- (голос из зала 5) Только количество.
00:24:35.395 --> 00:24:36.797
То есть это просто статистика,
00:24:36.797 --> 00:24:39.390
потому что если добавить ещё и формы --
00:24:39.390 --> 00:24:40.614
потому я и спрашиваю --
00:24:40.614 --> 00:24:42.817
тогда все языки с флективной морфологией,
00:24:42.817 --> 00:24:45.027
такие как русский, сербский,
словенский и другие,
00:24:45.027 --> 00:24:47.616
имеют преимущество,
потому что в них очень много форм.
00:24:47.616 --> 00:24:51.990
(Лидия) Да, это сильно влияет
на количество форм.
00:24:51.990 --> 00:24:53.851
(голос из зала 5)
Да, этот слайд. Спасибо.
00:24:56.546 --> 00:25:00.224
(голос из зала 6) У меня вопрос о...
00:25:00.644 --> 00:25:06.824
Когда мы говорим
о фактических элементах и свойствах,
00:25:07.124 --> 00:25:08.901
Как я понимаю,
00:25:08.901 --> 00:25:11.955
пока что нет способа
дать фактический источник
00:25:11.955 --> 00:25:14.726
для существующих меток и описаний.
00:25:14.726 --> 00:25:18.047
Например, если вы говорите
00:25:18.047 --> 00:25:20.920
о свойстве элемента,
00:25:20.920 --> 00:25:24.009
вы можете получить противоречивые метки.
00:25:24.509 --> 00:25:25.739
Да.
00:25:25.739 --> 00:25:27.662
(голос из зала 6) То есть этот человек...
00:25:28.402 --> 00:25:30.781
Например, мы раньше говорили
об автохтонных понятиях.
00:25:30.781 --> 00:25:35.965
Согласно одному источнику,
этот человек -- норвежский художник.
00:25:35.965 --> 00:25:38.750
Согласно другому источнику --
он саамский художник.
00:25:39.550 --> 00:25:42.883
Ещё у нас была проблема в эстонском,
00:25:42.883 --> 00:25:47.729
где нам нужно было
изменить терминологию на официальную,
00:25:47.729 --> 00:25:49.482
в официальных лексиконах,
00:25:49.482 --> 00:25:52.262
но мы не могли указать причину
00:25:52.262 --> 00:25:53.596
и источник изменений,
00:25:53.596 --> 00:25:55.541
и не могли обосновать,
почему это нужно сделать.
00:25:55.541 --> 00:25:57.230
Это выглядело, как будто случайный человек
00:25:57.230 --> 00:25:59.615
просто так изменяет термины.
00:25:59.615 --> 00:26:02.520
Появится ли у нас возможность
00:26:02.520 --> 00:26:06.355
указывать надлежащие источники
для языковых данных?
00:26:07.045 --> 00:26:11.568
Частично это возможно.
00:26:11.568 --> 00:26:15.958
Например, если у вас есть
элемент для личности,
00:26:16.968 --> 00:26:22.720
есть утверждение, имя,
фамилия этой личности и так далее,
00:26:22.720 --> 00:26:26.056
тогда вы можете добавить ссылку на это.
00:26:28.211 --> 00:26:32.544
Я сомневаюсь, стоит ли усложнять ссылки
00:26:32.544 --> 00:26:35.557
для меток и описаний,
00:26:35.557 --> 00:26:38.624
но если люди уверены,
00:26:38.624 --> 00:26:44.939
что утверждение имеет недостаточно ссылок,
00:26:44.939 --> 00:26:46.803
то это нужно обсудить.
00:26:49.079 --> 00:26:52.873
Боюсь, что это добавит сложности
00:26:53.303 --> 00:26:56.523
для, надеюсь, немногих случаев,
00:26:57.393 --> 00:27:00.188
но я не против изменений,
00:27:00.188 --> 00:27:04.087
если люди на этом настаивают.
00:27:04.087 --> 00:27:08.177
(голос из зала 6) Тогда это
не должно быть опцией по умолчанию,
00:27:08.177 --> 00:27:12.452
которую видят все новички в интерфейсе.
00:27:12.452 --> 00:27:16.190
Например «Нажмите,
если хотите уточнить информацию».
00:27:17.632 --> 00:27:23.368
Знаете ли вы, как часто
это будет использоваться?
00:27:24.520 --> 00:27:26.423
(голос из зала 6) Например, в эстонском...
00:27:26.423 --> 00:27:28.844
Думаю, также и в других языках...
00:27:29.274 --> 00:27:34.203
Например, официальное название
с утверждённым переводом
00:27:34.203 --> 00:27:35.686
на английский
00:27:36.206 --> 00:27:40.314
определённого типа муниципалитета.
00:27:40.614 --> 00:27:42.182
Например, в моём случае
00:27:42.182 --> 00:27:44.409
мы использовали слово «приход»,
00:27:45.159 --> 00:27:50.575
его исходное значение в эстонском --
что-то вроде церковного прихода,
00:27:50.575 --> 00:27:51.899
то есть это происхождение слова,
00:27:51.899 --> 00:27:54.809
но не современный официальный перевод.
00:27:55.189 --> 00:27:58.993
В этом случае стоит добавить его
как утверждение официального названия,
00:27:58.993 --> 00:28:00.817
и также добавить туда ссылку.
00:28:02.032 --> 00:28:03.158
(голос из зала 6) Хорошо.
00:28:05.186 --> 00:28:06.572
Ещё вопросы?
Да?
00:28:07.682 --> 00:28:10.044
(голос из зала 7)
У меня два коротких замечания.
00:28:10.044 --> 00:28:13.934
Вы отметили, что астурийский язык
занимает хорошую позицию,
00:28:13.934 --> 00:28:16.455
но я думаю, что это ложный артефакт.
00:28:16.455 --> 00:28:17.724
Давайте подробнее.
00:28:17.724 --> 00:28:19.748
(голос из зала 7)
Я думаю, что это сделал бот,
00:28:19.748 --> 00:28:24.068
который вставил личные имена,
собственные имена,
00:28:24.068 --> 00:28:27.172
и сказал: «Это как во французском
или испанском»,
00:28:27.172 --> 00:28:28.558
и просто скопировал всё это.
00:28:28.558 --> 00:28:30.256
Об этом говорит хотя бы то,
00:28:30.256 --> 00:28:33.316
что в астурийском
вы не увидите таких усилий там,
00:28:33.316 --> 00:28:36.955
где действительно нужен перевод,
например, в названиях свойств
00:28:36.955 --> 00:28:39.648
или названиях элементов, которые
не являются собственными именами.
00:28:39.648 --> 00:28:41.219
Асаф, вы разбиваете мне сердце.
00:28:41.219 --> 00:28:43.198
(голос из зала 7) Я знаю.
Люблю портить праздники.
00:28:43.198 --> 00:28:48.458
Но у меня есть хорошие новости
о количестве произношений.
00:28:49.408 --> 00:28:53.215
Как вы знаете, на Викискладе
полно файлов с произношениями,
00:28:54.508 --> 00:29:01.102
например, для нидерландского языка
их не меньше 300 000,
00:29:01.912 --> 00:29:05.051
и всё это надо как-то обработать.
00:29:05.051 --> 00:29:07.697
Так что если кому-то
нужен сторонний проект,
00:29:07.697 --> 00:29:09.427
то на Викискладе вы найдёте очень много
00:29:09.427 --> 00:29:13.280
классифицированных файлов с произношениями
00:29:13.280 --> 00:29:16.893
в категории «Произношение» по языкам.
00:29:16.893 --> 00:29:22.780
Их нужно привязать к лексемам
и добавить в Lexeme.
00:29:23.180 --> 00:29:25.484
И ещё, можете ли вы сказать что-нибудь
00:29:25.484 --> 00:29:26.585
о плане действий,
00:29:26.585 --> 00:29:28.757
насчёт того, сколько инвестиций
00:29:28.757 --> 00:29:31.995
и всего прочего мы можем ожидать
от Lexeme в будущем году,
00:29:31.995 --> 00:29:34.020
потому что я жду с нетерпением.
00:29:34.949 --> 00:29:36.974
Ждетё с нетерпением? (хихикает)
00:29:36.974 --> 00:29:39.118
- (голос из зала 7) Ожидаю большего.
- Да. (хихикает)
00:29:44.541 --> 00:29:49.293
Сейчас мы больше заняты
Викибазой и качеством данных,
00:29:51.493 --> 00:29:55.087
хотим увидеть результативность,
00:29:55.087 --> 00:30:01.646
затем нам нужно найти проблемные точки,
00:30:01.646 --> 00:30:06.003
а потом вернуться к улучшению
лексикографических данных.
00:30:06.903 --> 00:30:09.790
Очень хочется услышать ваше мнение
00:30:09.790 --> 00:30:14.136
по поводу того, куда нам двигаться,
00:30:14.136 --> 00:30:15.966
какие изменения вы хотите видеть,
00:30:15.966 --> 00:30:20.250
чтобы мы могли решить, как это сделать.
00:30:21.125 --> 00:30:22.810
Но вы, конечно, правы,
00:30:22.810 --> 00:30:25.712
там ещё много работы
с технической стороны.
00:30:30.573 --> 00:30:35.848
(голос из зала 8) Когда мы загружали
баскские слова с формами --
00:30:35.848 --> 00:30:37.768
вы увидите кое-что из этого --
00:30:37.768 --> 00:30:41.329
и на прошлой неделе мы сказали:
«Ого, мы заняли первое место.»
00:30:42.919 --> 00:30:44.928
Об этом даже пресса пишет:
00:30:44.928 --> 00:30:49.338
«Ого, баски заняли первое место в чём-то.»
00:30:49.338 --> 00:30:50.606
(смеётся)
00:30:50.606 --> 00:30:53.318
И тогда люди спрашивают:
«А для чего это нужно?»
00:30:54.678 --> 00:30:56.849
Тут мы не знаем, что ответить.
00:30:56.849 --> 00:30:57.888
Можно сказать,
00:30:57.888 --> 00:31:01.801
что это поможет компьютерам
лучше понимать языки,
00:31:01.801 --> 00:31:05.279
но какие инструменты
мы можем создать в будущем?
00:31:05.279 --> 00:31:07.467
На это у нас нет чёткого ответа.
00:31:07.467 --> 00:31:10.625
Возможно, ответ есть у вас.
00:31:10.625 --> 00:31:12.742
(хихикает) Не знаю,
есть ли у меня чёткий ответ,
00:31:12.742 --> 00:31:14.746
зато есть просто ответ.
00:31:15.480 --> 00:31:20.425
Пока что, как я говорила [неразборчиво],
00:31:20.425 --> 00:31:21.924
мы не достигли той критической массы,
00:31:21.924 --> 00:31:25.529
которая позволяет создать
много интересных инструментов.
00:31:25.529 --> 00:31:27.707
Некоторые инструменты уже существуют.
00:31:28.267 --> 00:31:31.912
Например, на днях [Эстер Панделия]
00:31:31.912 --> 00:31:33.877
выпустила инструмент, где можно увидеть...
00:31:35.837 --> 00:31:38.889
Кажется, там были слова на глобусе,
00:31:38.889 --> 00:31:41.761
их происхождение и распространение.
00:31:42.631 --> 00:31:44.090
Я точно не знаю.
00:31:44.090 --> 00:31:46.346
Но она ответила в Project chat
на Викиданных,
00:31:46.346 --> 00:31:48.984
можете поискать там.
00:31:49.574 --> 00:31:51.805
Мы видели эти первые инструменты,
00:31:51.805 --> 00:31:55.696
как тогда, когда начинали
создавать Викиданные.
00:31:56.846 --> 00:31:59.602
Сначала некоторые...это была просто сеть,
00:31:59.602 --> 00:32:03.424
что-то вроде: «Смотри,
эта штука связана с той штукой.»
00:32:04.824 --> 00:32:07.059
Когда мы собрали больше данных
00:32:07.059 --> 00:32:10.352
и достигли некоторой критической массы,
00:32:11.852 --> 00:32:14.747
появились более мощные приложения,
00:32:15.677 --> 00:32:17.356
например, Histropedia,
00:32:19.126 --> 00:32:21.988
или вопросы и ответы
00:32:21.988 --> 00:32:26.663
в персональном цифровом
помощнике Platypus, и так далее.
00:32:26.663 --> 00:32:29.668
Мы видим похожую ситуацию с лексемами.
00:32:31.198 --> 00:32:34.650
Мы на том уровне,
где можно создать такие маленькие...
00:32:34.650 --> 00:32:37.214
«Смотрите, тут есть связь
между двумя вещами»,
00:32:37.864 --> 00:32:42.738
и есть перевод этого слова
в этом языковом уровне,
00:32:42.738 --> 00:32:47.747
и чем больше мы развиваем это,
чем больше слов описываем,
00:32:47.747 --> 00:32:49.533
тем больше возможностей появляется.
00:32:49.533 --> 00:32:51.795
Какие именно возможности?
00:32:53.482 --> 00:32:59.483
Бен, наш главный спикер,
говорил о переводах,
00:33:00.103 --> 00:33:03.115
о возможности перевода
с одного языка на другой.
00:33:03.455 --> 00:33:07.929
И мой коллега Йенс всегда говорит о том,
00:33:07.929 --> 00:33:11.452
что Евросоюз ищет переводчика
00:33:11.452 --> 00:33:17.439
с мальтийского на шведский,
если не ошибаюсь.
00:33:17.439 --> 00:33:19.436
- (голос из зала) Эстонский.
- Эстонский.
00:33:22.016 --> 00:33:26.211
Это редкая комбинация.
00:33:27.211 --> 00:33:31.735
Но если собрать все эти языки
в один машинно-читаемый массив,
00:33:31.735 --> 00:33:33.143
то вы сможете это сделать,
00:33:33.143 --> 00:33:36.857
вы сможете найти словарь
00:33:36.857 --> 00:33:41.735
для перевода с эстонского
на мальтийский и обратно.
00:33:42.935 --> 00:33:45.607
Внесение в словари языковых комбинаций,
00:33:45.607 --> 00:33:47.911
которых там не было раньше,
00:33:47.911 --> 00:33:51.050
потому что на них не было спроса,
00:33:51.050 --> 00:33:55.540
достаточного для финансовой выгоды.
00:33:55.540 --> 00:33:57.147
Теперь мы можем это сделать.
00:33:59.797 --> 00:34:02.318
Затем следующее поколение.
00:34:02.318 --> 00:34:03.653
Люси говорила о том,
00:34:03.653 --> 00:34:07.106
как она работает с Хэтти
00:34:08.536 --> 00:34:10.136
над генерацией текста,
00:34:10.136 --> 00:34:14.673
чтобы начать писать статьи в Википедии
на языках меньшинств.
00:34:15.423 --> 00:34:19.512
Для этого нужны данные о словах
00:34:19.512 --> 00:34:22.479
и знание языка.
00:34:23.769 --> 00:34:28.013
Это то, что мне вспомнилось
на данный момент.
00:34:28.693 --> 00:34:30.494
Возможно, аудитория предложит больше идей
00:34:30.494 --> 00:34:34.353
насчёт того, что мы будем делать
с этими выдающимися данными.
00:34:37.693 --> 00:34:40.892
(голос из зала 9)
Я отклонюсь от темы лексем.
00:34:40.892 --> 00:34:42.666
Я хочу спросить,
00:34:42.666 --> 00:34:45.634
как я, как член сообщества,
00:34:45.634 --> 00:34:50.135
могу повлиять на приоритет задания,
если приходит новый пользователь,
00:34:50.135 --> 00:34:56.644
и он может указать, какие языки
он хочет видеть и редактировать
00:34:56.644 --> 00:35:01.135
без знания каких-то
секретных словесных шаблонов.
00:35:02.145 --> 00:35:05.053
Возможно, в этом году появится
технический список желаний
00:35:05.053 --> 00:35:07.040
без тем Википедии.
00:35:07.040 --> 00:35:11.379
Надеюсь, мы все сможем
проголосовать за эту вещь,
00:35:11.379 --> 00:35:13.918
которую мы семь лет не могли исправить.
00:35:14.218 --> 00:35:17.607
Есть ли у вас идеи
и замечания на этот счёт?
00:35:18.217 --> 00:35:20.328
Вы имеете в виду,
00:35:20.328 --> 00:35:23.518
что пользователь,
не зарегистрированный в Викиданных,
00:35:23.518 --> 00:35:25.621
не может просто изменить язык?
00:35:25.621 --> 00:35:27.989
(голос из зала 9) Нет,
для [неразборчиво] пользователей.
00:35:28.309 --> 00:35:30.689
Если они вошли в систему,
00:35:30.689 --> 00:35:34.601
они могут изменить язык вверху страницы
00:35:35.891 --> 00:35:38.099
и он появится там,
00:35:39.769 --> 00:35:42.013
где есть описание метки [неразборчиво],
00:35:42.013 --> 00:35:43.583
и его можно будет редактировать.
00:35:45.657 --> 00:35:49.009
(голос из зала 9)
Чаще всего в рабочем процессе
00:35:49.009 --> 00:35:52.447
нужно иметь доступ ко многим языкам,
00:35:52.447 --> 00:35:55.419
но это не всегда возможно.
00:35:55.419 --> 00:35:58.584
Хорошо, давайте встретимся
после доклада и обсудим это.
00:36:01.562 --> 00:36:04.089
Отлично.
Ещё вопросы?
00:36:05.534 --> 00:36:06.536
Да?
00:36:11.305 --> 00:36:13.196
(голос из зала 10) Спасибо за презентацию.
00:36:14.106 --> 00:36:15.127
Можете прокомментировать
00:36:15.127 --> 00:36:19.307
состояние корреляции
с сообществом Викисловаря?
00:36:19.307 --> 00:36:22.296
Насколько я знаю, ведутся дискуссии
00:36:22.296 --> 00:36:26.051
об импортировании
некоторых элементов работы,
00:36:26.051 --> 00:36:30.843
но там есть проблемы с лицензированием
и некоторые разногласия.
00:36:30.843 --> 00:36:31.848
(Лидия) Да.
00:36:31.848 --> 00:36:36.330
Сообщества Викисловаря
потратили много времени
00:36:37.320 --> 00:36:39.473
на его создание.
00:36:39.473 --> 00:36:42.643
Они создали
00:36:43.193 --> 00:36:47.554
невероятно сложные и комплексные шаблоны
00:36:47.554 --> 00:36:53.614
для создания удобных таблиц,
которые автоматически генерируют формы,
00:36:53.614 --> 00:36:56.392
и ещё много разных впечатляющих
00:36:56.392 --> 00:37:00.413
и невообразимых вещей.
00:37:02.311 --> 00:37:07.724
И конечно же, они вложили в это
много времени и усилий.
00:37:09.364 --> 00:37:11.801
Поэтому их можно понять,
00:37:11.801 --> 00:37:17.116
они не хотят, чтобы результаты их работы
00:37:18.046 --> 00:37:19.102
кто-то взял просто так.
00:37:19.102 --> 00:37:21.491
Поэтому такая ситуация.
00:37:22.761 --> 00:37:25.137
И это нормально.
00:37:25.737 --> 00:37:31.192
Сейчас первые сообщества
Викисловаря говорят о том,
00:37:31.192 --> 00:37:34.329
чтобы передать и импортировать
некоторые данные в Викиданные.
00:37:34.329 --> 00:37:39.095
Вы уже видели русский,
это один из таких случаев.
00:37:40.375 --> 00:37:42.355
И я ожидаю большего.
00:37:43.635 --> 00:37:46.800
Но это медленный процесс,
00:37:46.800 --> 00:37:49.383
такой же медленный,
00:37:49.383 --> 00:37:51.909
как внедрение данных
из Викиданных в Википедию.
00:37:52.849 --> 00:37:56.183
С другой стороны, нужно упростить
00:37:56.183 --> 00:37:59.132
использование данных
из лексем в Викисловаре,
00:37:59.132 --> 00:38:02.209
чтобы они могли пользоваться ими
00:38:02.209 --> 00:38:05.531
и делиться данными
с разными Викисловарями,
00:38:05.531 --> 00:38:08.853
что сейчас почти невозможно.
00:38:08.853 --> 00:38:11.350
И это ужасно, так же,
как это было в Википедии.
00:38:13.860 --> 00:38:16.325
Дождитесь подарка на день рождения.
(хихикает)
00:38:19.938 --> 00:38:20.992
Да?
00:38:22.459 --> 00:38:24.827
(голос из зала 11) Когда я думала,
как решить эту проблему,
00:38:24.827 --> 00:38:28.168
то не хотела говорить,
потому что это казалось мне глупым,
00:38:28.168 --> 00:38:32.003
но я думаю, что в Викисловаре
уже есть некоторый контент,
00:38:32.003 --> 00:38:34.978
и я знаю, что мы не можем
передать его в Викиданные
00:38:34.978 --> 00:38:37.048
из-за разницы в лицензиях.
00:38:37.048 --> 00:38:39.631
Но я думаю, что с этим
можно что-то сделать.
00:38:40.321 --> 00:38:45.443
Возможно, мы можем
получить разрешение сообществ
00:38:45.913 --> 00:38:51.205
после общего голосования,
00:38:52.075 --> 00:38:57.522
чтобы активные участники сообщества
проголосовали и сказали,
00:38:57.522 --> 00:39:02.523
хотят ли они принять или передать контент,
00:39:02.523 --> 00:39:05.208
для которого они могут
создать лексемы в Викиданных.
00:39:06.238 --> 00:39:08.537
Иначе это непродуктивно.
00:39:09.568 --> 00:39:14.203
Это как раз тот разговор,
00:39:14.203 --> 00:39:18.249
который нужно начать
в сообществах Викисловаря.
00:39:18.249 --> 00:39:24.647
Для нас было бы неуместным
навязывать им это.
00:39:25.917 --> 00:39:31.142
Но я думаю, что это стоит обсудить.
00:39:31.142 --> 00:39:33.898
Также важно понимать,
00:39:33.898 --> 00:39:39.082
что есть разница между тем,
что легально разрешено,
00:39:39.082 --> 00:39:43.147
тем, что мы должны делать,
00:39:43.147 --> 00:39:45.516
и тем, чего хотят или не хотят эти люди.
00:39:45.736 --> 00:39:47.329
Поэтому, даже если это легально,
00:39:47.329 --> 00:39:50.640
но другие сообщества Викисловаря
этого не хотят,
00:39:50.640 --> 00:39:53.537
то здесь нужно быть осторожными.
00:39:58.886 --> 00:40:02.489
Возьмите микрофон для трансляции.
00:40:04.540 --> 00:40:07.299
(голос из зала 12)
Всё это очень интересно,
00:40:07.979 --> 00:40:12.009
и я уже думаю, как рассказать
об этом моим студентам
00:40:12.319 --> 00:40:15.558
и как включить это в курс лекций,
00:40:15.558 --> 00:40:18.531
в нашу работу, учебный процесс.
00:40:18.531 --> 00:40:22.271
На данный момент
00:40:22.871 --> 00:40:24.116
мне не хватает знаний,
00:40:24.116 --> 00:40:27.188
но я думаю, что наша документация
00:40:27.808 --> 00:40:30.082
нуждается в улучшении.
00:40:30.082 --> 00:40:33.437
Было бы хорошо сделать
интересные видео,
00:40:33.437 --> 00:40:35.898
которые объясняют, как это работает.
00:40:35.898 --> 00:40:39.948
Мы могли бы их использовать,
00:40:39.948 --> 00:40:41.985
чтобы заинтересовать студентов
00:40:41.985 --> 00:40:47.072
и объяснить людям, как это здорово.
00:40:47.072 --> 00:40:52.001
Просто подумайте
о документации и образовании.
00:40:52.001 --> 00:40:54.480
Я думаю, многое можно сделать.
00:40:54.480 --> 00:40:58.585
Есть много задач,
к которым можно привлечь...
00:41:00.125 --> 00:41:02.033
...ну, не начальную школу,
00:41:02.033 --> 00:41:05.495
но хотя бы старших школьников.
00:41:05.915 --> 00:41:10.866
Очень бы хотелось
использовать этот потенциал,
00:41:10.866 --> 00:41:15.272
хотя пока что я плохо разбираюсь в этом
00:41:15.272 --> 00:41:19.500
и не могу ставить задачи или...
00:41:20.430 --> 00:41:22.155
...делать что-нибудь на практике.
00:41:22.155 --> 00:41:25.772
Если у вас есть
любые идеи по этому поводу,
00:41:25.772 --> 00:41:29.648
я с удовольствием их выслушаю.
00:41:30.508 --> 00:41:32.129
Да, мы поговорим об этом.
00:41:35.473 --> 00:41:37.139
Ещё вопросы?
00:41:37.809 --> 00:41:39.195
Кто-то поднимал руку.
00:41:39.195 --> 00:41:40.505
Не помню, кто именно.
00:41:45.739 --> 00:41:49.996
(голос из зала 13) Если мы не можем
импортировать из Викисловаря,
00:41:49.996 --> 00:41:55.772
есть ли согласованные мероприятия,
чтобы найти другие окрытые источники,
00:41:55.772 --> 00:41:57.459
возможно, все данные,
00:41:58.769 --> 00:42:03.167
как-то отфильтровать и организовать их,
00:42:03.167 --> 00:42:08.210
чтобы их можно было
легко проверить для импорта?
00:42:09.093 --> 00:42:11.181
Первые мероприятия уже есть.
00:42:11.181 --> 00:42:14.769
Я так понимаю,
баскский язык -- одно из них.
00:42:14.769 --> 00:42:17.474
Хотите рассказать об этом?
00:42:18.426 --> 00:42:20.130
(голос из зала 14) [inaudible]
00:42:23.166 --> 00:42:27.148
Фактический ответ -- заплатить за это...
00:42:28.374 --> 00:42:33.381
У нас есть договор с подрядчиком,
с которым мы обычно работаем.
00:42:34.801 --> 00:42:38.265
Они создают словари --
00:42:40.315 --> 00:42:42.458
и ещё много чего, словари в том числе.
00:42:42.458 --> 00:42:47.473
Мы договорились с ними о создании
бесплатного словаря для студентов.
00:42:47.473 --> 00:42:52.782
Мы бы взяли часто употребляемые слова
и начали загружать их
00:42:52.782 --> 00:42:55.590
с внешним идентификатором
и схемой этих вещей.
00:42:56.420 --> 00:43:02.902
Но у нас была дискуссия,
оставлять ли это на лицензии CC0,
00:43:03.212 --> 00:43:05.322
потому что у них есть
словарь с лицензией CC BY
00:43:06.537 --> 00:43:10.326
и они поняли, в чём разница.
00:43:10.326 --> 00:43:13.866
Поэтому была дискуссия.
00:43:13.866 --> 00:43:19.709
Но я думаю, что в будущем мы сможем
предоставить инструменты или примеры,
00:43:19.709 --> 00:43:21.761
и я думаю, что будут другие словари,
00:43:21.761 --> 00:43:24.016
с которыми мы сможем работать.
00:43:24.016 --> 00:43:29.274
Я также думаю, что Викисловарь
должен двигаться в этом направлении,
00:43:29.274 --> 00:43:32.170
но это уже другая большая дискуссия.
00:43:33.285 --> 00:43:34.487
Кроме того,
00:43:34.487 --> 00:43:38.839
Леа общается с людьми из Окситании,
00:43:38.839 --> 00:43:41.827
которые работают
над окситанскими словарями,
00:43:41.827 --> 00:43:45.138
и сейчас они работают
над совместным проектом в шумерском.
00:43:51.644 --> 00:43:53.303
Ещё вопросы?
00:44:01.487 --> 00:44:05.349
(голос из зала 15) Привет!
Мы хотим импортировать окситанские данные.
00:44:05.349 --> 00:44:06.505
Отлично!
00:44:06.505 --> 00:44:08.678
(голос из зала 15)
И у нас небольшая проблема.
00:44:09.078 --> 00:44:14.215
Мы не знаем, как представить
всё разнообразие лексем.
00:44:14.215 --> 00:44:17.893
У нас шесть диалектов,
00:44:17.893 --> 00:44:24.014
и мы хотим указать,
в каком диалекте используется лексема,
00:44:24.014 --> 00:44:27.285
и у нас нет подходящего
C0-утверждения, чтобы это сделать.
00:44:27.285 --> 00:44:31.105
Пока сегмента не существует,
00:44:31.635 --> 00:44:34.465
это не позволяет нам [неразборчиво]
00:44:34.465 --> 00:44:37.603
потому что нам придётся сделать это снова,
00:44:37.603 --> 00:44:42.076
когда мы сможем
[экспортировать] утверждение.
00:44:42.076 --> 00:44:44.551
И это сложно,
потому что это утверждение
00:44:44.551 --> 00:44:47.802
заинтересует немногих людей,
00:44:47.802 --> 00:44:53.174
потому что оно касается
в основном языков меньшинств.
00:44:53.444 --> 00:44:56.933
Один человек спросит об этом.
00:44:56.933 --> 00:45:00.022
Но, как у наших коллег басков,
00:45:00.022 --> 00:45:06.082
один человек может привлечь тысячи других,
00:45:06.082 --> 00:45:10.884
может быть, это не много,
00:45:10.884 --> 00:45:14.136
но для нас это очень важно.
00:45:14.874 --> 00:45:17.600
У вас уже есть
новое предложение о свойствах,
00:45:17.600 --> 00:45:19.400
или вам нужна помощь в его создании?
00:45:21.524 --> 00:45:24.300
(голос из зала 15) Мы просили об этом
четыре месяца назад.
00:45:24.720 --> 00:45:28.635
Хорошо, попросим кого-нибудь
помочь с этим предложением.
00:45:30.159 --> 00:45:32.912
Думаю, здесь достаточно людей,
которые могут это сделать.
00:45:32.912 --> 00:45:35.512
(голос из зала 15) Предложение о свойствах
[говорит по-французски]
00:45:35.512 --> 00:45:36.965
(голос из зала) Нам не ответили.
00:45:36.965 --> 00:45:39.699
(голос из зала 15) Нам не ответили,
и мы не знаем, как это сделать,
00:45:39.699 --> 00:45:42.953
потому что мы не из сообщества Викиданных.
00:45:44.694 --> 00:45:48.497
Здесь есть люди, которые могут вам помочь.
00:45:48.817 --> 00:45:52.134
Поднимите руку, кто возьмёт...
00:45:52.574 --> 00:45:53.644
(голос из зала 16) Я могу.
00:45:53.644 --> 00:45:55.512
Мне кажется очень интересным то,
00:45:55.512 --> 00:45:59.059
что только вариант формы
00:45:59.059 --> 00:46:02.607
может управлять этим территориально,
00:46:02.607 --> 00:46:04.995
с помощью координат или картографии.
00:46:05.595 --> 00:46:07.815
А также разные произношения,
00:46:07.815 --> 00:46:11.837
думаю, это бывает во многих языках.
00:46:12.607 --> 00:46:16.262
Нам нужно как-то реализовать это
[неразборчиво],
00:46:16.262 --> 00:46:18.865
я займусь поиском свойства.
00:46:19.782 --> 00:46:20.933
Отлично.
00:46:20.933 --> 00:46:24.446
Вы получите поддержку
для вашего предложения о свойствах.
00:46:26.136 --> 00:46:27.297
Спасибо вам.
00:46:28.153 --> 00:46:30.261
Хорошо, есть ещё вопросы?
00:46:32.410 --> 00:46:33.474
Финн.
00:46:33.974 --> 00:46:35.055
Финн -- один из тех людей,
00:46:35.055 --> 00:46:38.031
которые создают разработки
на основе лексикографических данных.
00:46:38.031 --> 00:46:40.085
(Финн) У меня небольшой вопрос
00:46:40.405 --> 00:46:44.226
о вариациях в произношении.
00:46:44.896 --> 00:46:48.002
Их нелегко внести в...
00:46:48.532 --> 00:46:53.368
Конечно, одно и то же слово
может иметь разные формы.
00:46:56.327 --> 00:46:58.448
Не знаю, мне кажется...
00:46:59.558 --> 00:47:03.535
Если не сделать это таким способом,
то будет трудно уточнить...
00:47:04.771 --> 00:47:05.888
Хотя я не знаю,
00:47:05.888 --> 00:47:09.731
это мелкая техническая проблема или...
00:47:09.731 --> 00:47:11.252
Давайте вместе разберёмся.
00:47:11.642 --> 00:47:15.230
Хочется увидеть пример.
00:47:17.478 --> 00:47:18.478
Асаф.
00:47:26.886 --> 00:47:28.396
(Асаф) Спасибо.
00:47:29.386 --> 00:47:33.685
Я могу дать очень хороший пример
из моего родного языка, иврита.
00:47:34.205 --> 00:47:38.275
В иврите есть два основных варианта
00:47:38.825 --> 00:47:42.326
для выражения почти каждого слова,
00:47:42.786 --> 00:47:47.640
потому что традиционное написание
00:47:47.640 --> 00:47:50.044
пропускает многие гласные буквы.
00:47:50.934 --> 00:47:55.207
Поэтому в современных изданиях
Библии и поэзии
00:47:55.207 --> 00:47:57.071
используются диакритические знаки.
00:47:57.461 --> 00:48:02.670
Но эти знаки никогда не используются
в современной прозе,
00:48:02.670 --> 00:48:05.974
газетах, на уличных вывесках.
00:48:05.974 --> 00:48:11.099
В ежедневном обиходе добавляются гласные
00:48:11.859 --> 00:48:13.519
и не используются диакритические знаки,
00:48:13.519 --> 00:48:15.607
потому что они громоздкие
00:48:15.607 --> 00:48:17.893
и пишутся по правилам,
которых никто не знает.
00:48:18.633 --> 00:48:20.531
Поэтому есть два варианта:
00:48:20.531 --> 00:48:25.322
повседневный вариант для прозы,
00:48:25.322 --> 00:48:27.827
и отдельно Библия с поэзией,
00:48:27.827 --> 00:48:32.200
которые написаны
традиционным текстом с диакритикой.
00:48:32.200 --> 00:48:33.302
Чтобы быть полезной,
00:48:33.302 --> 00:48:37.428
Lexeme должна распознавать
обе вариации каждого слова
00:48:37.428 --> 00:48:39.747
и каждую форму каждого слова.
00:48:40.677 --> 00:48:43.391
То есть это случай
очень обширного использования
00:48:43.391 --> 00:48:46.340
официальных устойчивых вариантов.
00:48:46.340 --> 00:48:49.052
Это не диалекты и не региональные языки,
00:48:49.332 --> 00:48:53.627
это две сосуществующие
морфологические системы.
00:48:54.537 --> 00:48:58.926
Я тоже пока что не знаю,
как выразить это в Lexeme,
00:48:58.926 --> 00:49:02.800
и это не даёт мне -- частично
отвечаю на вопрос Магнуса --
00:49:02.800 --> 00:49:05.238
загрузить готовые части
00:49:05.238 --> 00:49:09.394
самого большого словаря иврита,
который есть в открытом доступе,
00:49:09.394 --> 00:49:12.701
и который я оцифровываю
уже несколько лет.
00:49:13.141 --> 00:49:14.803
Большая часть уже готова,
00:49:14.803 --> 00:49:16.549
но я не выкладываю её в Lexeme,
00:49:16.549 --> 00:49:19.865
потому что я не знаю,
как решить эту проблему.
00:49:20.245 --> 00:49:23.387
Хорошо, решим эту проблему здесь.
(хихикает)
00:49:24.503 --> 00:49:26.021
Должна быть какая-то возможность.
00:49:30.045 --> 00:49:32.047
Ещё вопросы?
00:49:37.173 --> 00:49:39.535
Если нет, спасибо вам большое.
00:49:40.605 --> 00:49:42.675
(аплодисменты)