0:00:00.111,0:00:02.191
Викиданные и языки
0:00:02.191,0:00:05.477
Лидия Пинчер
0:00:06.223,0:00:07.362
(Лидия) Спасибо большое.
0:00:07.362,0:00:11.244
Языки – одна из важных тем [br]на этой конференции.
0:00:14.220,0:00:18.508
Хочу дать вам общее представление о том,
0:00:18.508,0:00:19.812
как мы работаем с языками,
0:00:20.264,0:00:22.167
и какие у нас есть возможности.
0:00:26.591,0:00:29.021
ДОСТУПНЫЕ ЗНАНИЯ ДЛЯ БОЛЬШЕГО ЧИСЛА ЛЮДЕЙ
0:00:29.036,0:00:32.580
Цель Викиданных -- доступные знания [br]для большего числа людей.
0:00:32.580,0:00:37.168
А для этого нужны языки,
0:00:38.205,0:00:43.291
учитывая то, что наша жизнь [br]всё больше зависит от технологий.
0:00:44.114,0:00:48.873
Как сказал сегодня наш главный спикер,
0:00:49.723,0:00:51.588
люди не успевают [br]за некоторыми технологиями,
0:00:51.588,0:00:54.790
потому что не знают определённого языка.
0:00:55.320,0:00:57.573
И это плохо.
0:00:58.633,0:01:02.097
Мы хотим это исправить.
0:01:02.927,0:01:05.841
Чтобы изменить это, нужны две вещи.
0:01:06.411,0:01:11.000
Первое -- дать людям контент на их языке.
0:01:11.270,0:01:12.955
Второе -- дать людям возможность
0:01:12.955,0:01:15.910
взаимодействовать на их языке
0:01:15.910,0:01:19.189
в этих приложениях или программах.
0:01:20.367,0:01:24.897
Викиданные работают в обеих случаях.
0:01:25.277,0:01:27.928
Первое -- контент на вашем языке,
0:01:28.408,0:01:31.099
то есть элементы и свойства,
0:01:31.319,0:01:33.082
способы описания мира.
0:01:33.082,0:01:35.085
Конечно, этого недостаточно,
0:01:35.085,0:01:39.294
но это позволяет вам двигаться вперёд.
0:01:39.764,0:01:41.847
Второе -- взаимодействие на вашем языке.
0:01:41.847,0:01:46.389
Здесь идут в ход лексемы,
0:01:46.389,0:01:49.382
если вы хотите поговорить [br]с персональным цифровым помощником
0:01:49.382,0:01:54.918
или вам нужно перевести текст [br]с помощью гаджета.
0:01:56.404,0:01:59.254
Давайте рассмотрим контент на вашем языке.
0:01:59.254,0:02:03.396
Что у нас есть в элементах и свойствах?
0:02:05.406,0:02:09.966
В этих элементах и свойствах [br]крайне важны метки.
0:02:10.236,0:02:14.866
Нам нужно знать название сущности, [br]о которой мы говорим.
0:02:15.656,0:02:19.987
И вместо того, чтобы говорить о Q5,
0:02:19.987,0:02:22.180
англоязычные люди знают, [br]что это значит «human»,
0:02:22.180,0:02:24.706
немецкоязычные знают, что это «mensch»,
0:02:24.706,0:02:25.974
и так далее.
0:02:26.284,0:02:29.742
Эти метки на элементах и свойствах
0:02:29.742,0:02:33.619
создают мост между людьми и машинами.
0:02:33.619,0:02:35.439
А также между самими людьми,
0:02:35.439,0:02:40.115
делая знания всё более доступными.
0:02:41.183,0:02:43.270
КАК ВЫГЛЯДИТ НАШ ОХВАТ?
0:02:43.270,0:02:46.290
Это хорошее устремление.
0:02:46.290,0:02:48.192
Как это выглядит?
0:02:48.342,0:02:49.607
Вот так.
0:02:50.947,0:02:52.416
Здесь вы видите,
0:02:52.416,0:02:58.496
что большинство элементов[br]в Викиданных имеют по две метки,
0:02:58.496,0:03:00.527
то есть метки на двух языках.
0:03:01.697,0:03:03.851
Потом на одном, потом на трёх,
0:03:03.851,0:03:05.865
а дальше вообще всё грустно.
0:03:06.781,0:03:08.411
(тихий смех)
0:03:10.047,0:03:12.713
Над этим нужно поработать.
0:03:14.185,0:03:15.319
Но с другой стороны,
0:03:15.319,0:03:17.478
могло быть и хуже.
0:03:17.478,0:03:19.560
Я ожидала, что в среднем будет одна.
0:03:19.560,0:03:22.503
Поэтому было очень приятно увидеть две.[br](хихикает)
0:03:23.822,0:03:24.921
КАКИЕ ЯЗЫКИ МЫ ИСПОЛЬЗУЕМ?
0:03:24.921,0:03:26.186
Хорошо.
0:03:27.156,0:03:29.527
Но нас интересует [br]не только количество меток
0:03:29.527,0:03:33.742
на элементах и свойствах.
0:03:33.742,0:03:36.365
Нас также интересует, [br]на каких языках эти метки.
0:03:38.045,0:03:43.764
Здесь вы видите диаграмму языков,
0:03:43.764,0:03:46.838
на которых у нас есть метки для Элементов.
0:03:46.838,0:03:50.669
Наибольшую часть занимают Другие.
0:03:51.229,0:03:53.863
Здесь 100 самых распространённых языков,
0:03:54.533,0:03:58.902
остальные вошли в категорию Другие,[br]чтобы диаграмму можно было читать.
0:03:59.542,0:04:02.142
Здесь есть английский и нидерландский,
0:04:03.002,0:04:04.144
французский,
0:04:05.924,0:04:08.809
и конечно же, астурийский.
0:04:09.659,0:04:11.889
- (голос из зала 1) Ого![br]- Да, ого!
0:04:13.899,0:04:16.954
Итак, здесь вы видите дисбаланс,
0:04:16.954,0:04:20.114
и у английского языка [br]большое преимущество.
0:04:21.236,0:04:24.107
Если посмотреть [br]на то же самое в Свойствах,
0:04:24.367,0:04:25.839
то здесь ситуация выглядит лучше.
0:04:27.399,0:04:32.750
Возможно, за счёт того, [br]что свойств намного меньше.
0:04:32.750,0:04:36.640
Поэтому даже маленькие сообщества [br]могут успевать за этим.
0:04:36.640,0:04:39.173
И очень важная часть Викиданных --
0:04:39.173,0:04:40.989
это локализация на вашем языке.
0:04:41.159,0:04:42.204
То есть это хорошо.
0:04:45.752,0:04:48.122
В случае с астурийским языком мы видим,
0:04:48.122,0:04:53.698
что даже маленькие сообщества [br]могут значительно изменить ситуацию
0:04:54.448,0:04:57.085
благодаря упорной работе и самоотдаче,
0:04:57.085,0:04:58.310
и это очень круто.
0:04:59.158,0:05:01.846
У КАКОГО СВОЙСТВА БОЛЬШЕ ВСЕГО МЕТОК?
0:05:01.846,0:05:03.110
У меня для вас вопрос:
0:05:03.530,0:05:05.493
если взять все свойства в Викиданных,
0:05:05.493,0:05:07.377
которые не являются [br]внешними идентификаторами,
0:05:07.597,0:05:10.358
какие из них имеют больше всего [br]меток, то есть больше всего языков?
0:05:10.977,0:05:13.847
(аудитория) [неразборчиво]
0:05:13.847,0:05:16.696
Я слышу версию «экземпляр класса»?
0:05:17.506,0:05:19.443
Неправильно.
0:05:19.983,0:05:22.210
Это изображение.[br](хихикает)
0:05:23.230,0:05:26.366
Поэтому, если вы говорите на языке,
0:05:26.366,0:05:28.621
в котором еще нет метки [br]для экземпляра класса,
0:05:28.621,0:05:30.190
то стоит её добавить.
0:05:32.102,0:05:35.676
Сейчас у него есть 148 меток.
0:05:37.688,0:05:41.249
Ещё один слайд.
0:05:42.631,0:05:44.162
Этот график показывает,
0:05:44.162,0:05:49.321
сколько контента доступно [br]на определённом языке,
0:05:49.321,0:05:52.042
и какая доля этого контента используется.
0:05:52.042,0:05:55.448
На этой кривой вы видите,
0:05:55.448,0:06:00.987
что большая часть контента доступна [br]на английском и с английскими метками,
0:06:01.507,0:06:03.915
и её часто используют.
0:06:04.295,0:06:06.449
Дальше она спадает.
0:06:06.449,0:06:09.436
Вы также видите выпадающие точки,
0:06:09.436,0:06:14.803
где есть неожиданно много контента,
0:06:16.903,0:06:19.449
что очень хорошо.
0:06:20.839,0:06:24.945
Проблема в том, что его мало используют.
0:06:25.565,0:06:28.482
Астурийский и нидерландский [br]должны быть выше,
0:06:28.742,0:06:32.234
и я думаю, что нужно [br]помочь этим сообществам
0:06:33.266,0:06:35.563
увеличить использование [br]собранных ими данных.
0:06:35.563,0:06:37.472
Это было бы очень полезно.
0:06:42.910,0:06:48.110
Эта аналитика [br]показывает хорошую тенденцию --
0:06:48.300,0:06:51.378
часто используемые элементы
0:06:51.378,0:06:55.295
также имеют больше меток.
0:06:55.295,0:06:58.188
Или наоборот -- это не совсем понятно.
0:06:59.850,0:07:02.510
МЫ ПОМОГАЕМ ТОЛЬКО [br]РАСПРОСТРАНЁННЫМ ЯЗЫКАМ?
0:07:02.513,0:07:04.636
Ещё один вопрос:
0:07:04.636,0:07:07.009
мы помогаем[br]только распространённым языкам?
0:07:07.899,0:07:11.147
Или мы помогаем всем?
0:07:12.757,0:07:17.413
Здесь мы видим группирование языков.
0:07:17.743,0:07:21.832
Языки в каждой группе [br]склонны иметь общие метки.
0:07:26.042,0:07:28.599
Вы видите, как они собираются в кластеры.
0:07:30.779,0:07:34.065
Здесь похожие кластеры, [br]разными цветами показано,
0:07:34.065,0:07:39.475
насколько живым, используемым
0:07:40.455,0:07:42.996
или исчезающим является язык.
0:07:42.996,0:07:44.642
Здесь вы видите хорошую тенденцию --
0:07:44.642,0:07:49.036
распространённые и исчезающие языки
0:07:49.566,0:07:53.673
не образовывают два разных кластера.
0:07:53.673,0:07:58.942
Но они смешиваются,
0:08:00.262,0:08:04.625
и это намного лучше, [br]чем обратная ситуация,
0:08:04.625,0:08:09.467
в которой распространённые языки
0:08:10.197,0:08:12.164
помогают друг другу.
0:08:12.744,0:08:14.306
Это не тот случай.
0:08:14.306,0:08:17.417
И это очень хорошо.
0:08:17.417,0:08:20.042
Когда я это увидела, то подумала, [br]что это очень хорошо.
0:08:23.474,0:08:25.199
Здесь похожая тенденция,
0:08:26.239,0:08:27.890
мы рассмотрели
0:08:30.230,0:08:34.222
статус языков
0:08:34.222,0:08:35.995
и количество меток в них.
0:08:39.367,0:08:42.937
Вы видите, что распространённые языки [br]явно выигрывают,
0:08:42.937,0:08:44.248
как и ожидалось.
0:08:45.508,0:08:47.312
Но вы также видите,
0:08:49.303,0:08:53.977
что языки 2, 3, и возможно, 4 категорий
0:08:54.407,0:08:59.280
находятся в неплохой ситуации,
0:08:59.280,0:09:02.367
если говорить об их представлении [br]в Викиданных.
0:09:03.287,0:09:05.818
Это очень хороший результат.
0:09:07.646,0:09:09.129
Сейчас вы видите аналогичный график
0:09:09.129,0:09:12.418
степени использования контента [br]с этими метками
0:09:12.418,0:09:15.085
в Википедии, например,
0:09:17.455,0:09:22.563
и мы видим похожую картину.
0:09:23.603,0:09:29.703
Это говорит о том, что эти сообщества
0:09:29.703,0:09:34.504
вносят много меток [br]для часто используемых элементов.
0:09:36.410,0:09:40.493
Тут есть выпадающие точки, [br]и в этих случаях мы можем
0:09:41.683,0:09:48.202
помочь этим сообществам [br]эффективно применить свои усилия.
0:09:49.312,0:09:52.663
Но в общем мне нравится эта картина.
0:09:53.123,0:09:55.373
ВЗАИМОДЕЙСТВИЕ В ВАШЕМ ЯЗЫКЕ
0:09:56.603,0:09:59.844
Это были элементы и свойства Викиданных.
0:10:00.714,0:10:03.033
Теперь рассмотрим [br]взаимодействие в ваших языках.
0:10:03.033,0:10:05.203
Это лексемы в Викиданных,
0:10:05.203,0:10:08.944
где мы описываем слова, [br]их формы и значения.
0:10:10.167,0:10:13.131
Мы занимаемся этим с мая прошлого года,
0:10:16.461,0:10:19.127
и количество контента растёт.
0:10:20.114,0:10:22.269
Синим цветом обозначены лексемы,
0:10:22.269,0:10:25.938
красным -- формы этих лексем,
0:10:25.938,0:10:29.910
жёлтым -- смыслы лексем.
0:10:30.991,0:10:34.451
Эти сообщества -- [br]вернёмся к этому позже --
0:10:34.451,0:10:39.863
потратили много времени [br]на создание форм и смыслов для лексем,
0:10:39.863,0:10:42.953
что очень полезно,
0:10:42.953,0:10:47.853
потому что это создаёт [br]ядро нужного набора данных.
0:10:50.562,0:10:55.133
Мы рассмотрели все языки,
0:10:55.133,0:10:57.906
имеющие лексемы на Викиданных.
0:10:57.906,0:11:01.003
У нас есть слова,
0:11:01.713,0:11:04.244
сейчас это 310 языков.
0:11:04.884,0:11:08.290
Как вы думаете, какой язык
0:11:08.290,0:11:11.949
имеет больше всего лексем на Викиданных?
0:11:11.953,0:11:15.120
(аудитория) Шведский [неразборчиво]
0:11:19.183,0:11:20.216
Как?
0:11:20.216,0:11:21.741
(голос из зала 2) Немецкий.
0:11:21.741,0:11:23.902
Извините, я услышала это раньше.
0:11:23.902,0:11:25.111
Это русский.
0:11:28.011,0:11:29.504
Русский далеко впереди.
0:11:31.897,0:11:33.692
Чтобы вам было понятнее,
0:11:35.652,0:11:36.816
есть разные мнения,
0:11:36.816,0:11:41.631
но я читала, что, например, [br]для разговорного уровня
0:11:42.231,0:11:45.450
на другом языке [br]достаточно знать от 1000 до 3000 слов,
0:11:45.450,0:11:49.461
и от 4000 до 10 000 слов [br]для продвинутого уровня.
0:11:51.591,0:11:55.092
Поэтому нам нужно ещё поработать.
0:11:58.483,0:12:02.829
Также хочу обратить [br]ваше внимание на баскский язык,
0:12:03.279,0:12:07.524
там примерно 10 000 лексем.
0:12:09.244,0:12:13.003
Если посмотреть на количество форм [br]для этих лексем,
0:12:14.163,0:12:16.497
то баскский находится довольно высоко,
0:12:18.257,0:12:20.006
и это очень круто.
0:12:20.006,0:12:24.930
Вам стоит пойти на лекцию, [br]которая объясняет этот случай.
0:12:27.341,0:12:30.765
Если посмотреть на количество смыслов, [br]то есть значений слов,
0:12:32.015,0:12:34.551
то баскский будет на первом месте.
0:12:34.921,0:12:37.102
Думаю, это заслуживает аплодисментов.
0:12:37.102,0:12:38.921
(аплодисменты)
0:12:42.949,0:12:45.678
КАКАЯ ЛЕКСЕМА ИМЕЕТ [br]БОЛЬШЕ ВСЕГО ПЕРЕВОДОВ?
0:12:45.678,0:12:47.118
Ещё один вопрос:
0:12:47.118,0:12:50.151
какая лексема имеет [br]больше всего переводов?
0:12:50.361,0:12:54.274
- (аудитория) Кошки. [неразборчиво][br]- Дуглас Адамс. [неразборчиво]
0:12:56.766,0:12:59.674
Хорошие варианты, но нет.
0:13:01.012,0:13:04.017
Вот она, это русское слово «вода».
0:13:09.571,0:13:12.253
Мы много говорили о том,
0:13:12.253,0:13:16.412
сколько у нас есть лексем, форм и смыслов,
0:13:16.412,0:13:20.323
но это только одна часть.
0:13:20.323,0:13:21.515
Вторая часть --
0:13:21.515,0:13:25.161
это описание этих лексем, [br]форм и смыслов таким способом,
0:13:25.161,0:13:27.037
чтобы их могла прочитать машина.
0:13:27.647,0:13:30.039
Для этого есть утверждения, [br]как в элементах.
0:13:31.479,0:13:36.362
Одно из свойств -- пример использования.
0:13:36.362,0:13:38.582
Тот, кто использует эти данные,
0:13:38.582,0:13:42.089
может понять, [br]как использовать это слово в контексте,
0:13:42.089,0:13:44.158
например, как цитату.
0:13:45.396,0:13:47.113
Здесь на первом месте польский.
0:13:47.900,0:13:49.694
Носители польского хорошо потрудились.
0:13:54.219,0:13:57.680
Другое полезное свойство -- МФА, [br]международный фонетический алфавит,
0:13:57.680,0:13:59.806
то есть произношение слова.
0:14:00.876,0:14:03.684
Очевидно, что русскому языку
0:14:05.134,0:14:07.516
нужно много МФА-утверждений.
0:14:10.419,0:14:13.314
Зато польский на втором месте.
0:14:17.148,0:14:20.753
И наконец, запись произношения.
0:14:20.753,0:14:23.372
Это ссылки на файлы в Викискладе,
0:14:23.372,0:14:25.689
где кто-то говорит слово,
0:14:25.689,0:14:29.913
и вы слышите произношение носителя языка.
0:14:29.913,0:14:32.871
Это на случай, если вы не можете [br]прочитать МФА, например.
0:14:34.959,0:14:39.115
Ещё есть очень хороший Википроект,
0:14:39.115,0:14:40.354
называется Lingua Libre,
0:14:40.884,0:14:45.173
там можно делать аудиозаписи слов [br]на вашем языке.
0:14:45.173,0:14:47.836
Потом их добавляют [br]к лексемам на Викиданных,
0:14:48.446,0:14:51.763
чтобы люди знали, [br]как произносить ваши слова.
0:14:53.663,0:14:55.694
(голос из зала 3) [неразборчиво]
0:14:55.694,0:14:57.665
Если вы поищете «Lingua Libre»,
0:14:57.665,0:15:00.981
и я уверена, что кто-то может [br]выложить это в Telegram-канале.
0:15:03.138,0:15:04.241
Эти ребята крутые.
0:15:04.491,0:15:06.726
Они много чего сделали с Викибазой.
0:15:07.961,0:15:09.416
ЧТО ДЕЛАТЬ ДАЛЬШЕ?
0:15:09.416,0:15:10.427
Хорошо.
0:15:12.706,0:15:17.055
Теперь вопрос: что делать дальше?
0:15:19.165,0:15:22.010
Судя по числаv, которые я вам показала,
0:15:23.030,0:15:25.172
мы провели большую работу для того,
0:15:25.172,0:15:27.890
чтобы больше людей [br]могли получить больше знаний
0:15:28.430,0:15:30.950
о языках на Викиданных.
0:15:32.530,0:15:36.392
Но нам ещё много чего нужно сделать.
0:15:38.992,0:15:42.341
Вы тоже можете помочь, например,
0:15:42.341,0:15:44.921
организовывать марафоны меток,[br]то есть собирать людей,
0:15:44.921,0:15:49.964
чтобы ставить метки [br]на элементы в Викиданных,
0:15:50.914,0:15:55.121
или устроить вики-марафон[br]для лексем в вашем языке,
0:15:55.121,0:15:58.952
чтобы внести распространённые слова [br]в Викиданные.
0:16:00.773,0:16:03.285
Или используйте инструмент [br]типа Terminator,
0:16:03.285,0:16:08.143
который поможет найти [br]самые важные элементы в вашем языке,
0:16:08.493,0:16:11.549
у которых до сих пор нет метки.
0:16:13.274,0:16:18.359
Важность определяется [br]частотой использования
0:16:18.359,0:16:22.203
в других элементах Викиданных [br]в виде ссылок в утверждениях.
0:16:25.768,0:16:30.022
Что касается лексем,
0:16:31.342,0:16:35.169
у нас уже есть базовое количество,
0:16:35.169,0:16:41.163
и теперь их нужно расширять, [br]добавлять больше утверждений,
0:16:41.163,0:16:44.401
так, чтобы на их основе
0:16:44.401,0:16:47.291
можно было создавать [br]полноценные приложения.
0:16:48.141,0:16:50.795
Потому что мы приближаемся [br]к этой критической массе,
0:16:50.795,0:16:53.616
но до создания серьёзных приложений
0:16:53.616,0:16:56.624
всё ещё далеко.
0:16:58.277,0:17:01.680
И я надеюсь, что вы к нам присоединитесь.
0:17:02.583,0:17:07.103
Наши друзья
0:17:07.103,0:17:09.793
немного нам помогают.
0:17:09.793,0:17:12.262
Бруно, не хочешь ли выйти...
0:17:12.262,0:17:14.002
ЛЕКСИЧЕСКИЕ МАСКИ ДЛЯ ВАЛИДАЦИИ ЛЕКСИКОНОВ
0:17:14.002,0:17:16.854
...и рассказать нам о лексических масках?
0:17:17.541,0:17:18.567
(Бруно) Спасибо, Лидия.
0:17:18.567,0:17:21.519
Спасибо за возможность[br]презентовать нашу работу,
0:17:21.519,0:17:24.810
которую мы делаем в Google вместе с Денни.
0:17:24.810,0:17:29.295
[br]Многие из вас его знают.
0:17:30.126,0:17:32.030
Я лингвист в Google,
0:17:32.030,0:17:36.150
и я очень рад встретить здесь [br]таких же языковых энтузиастов.
0:17:36.620,0:17:39.278
Мы также создаём лексиконы,
0:17:39.278,0:17:42.606
и мы создали технологию, или подход,
0:17:42.606,0:17:45.589
который может быть полезным для вас.
0:17:46.369,0:17:48.455
Для наглядности,
0:17:48.455,0:17:52.068
здесь моя лекция [br]о лексикографическом фоне.
0:17:52.788,0:17:54.347
Когда мы создаём базу данных лексикона,
0:17:54.347,0:17:58.623
их очень трудно поддерживать, [br]обеспечивать устойчивость
0:17:58.623,0:18:00.125
и обмен данными,
0:18:00.125,0:18:01.867
думаю, вы это знаете.
0:18:02.517,0:18:05.927
Мы пытаемся унифицировать [br]лингвистическую особенность и свойства,
0:18:05.927,0:18:09.184
которые описывают эти лексемы и формы.
0:18:09.184,0:18:10.936
Эта проблема пока что не решена,
0:18:10.936,0:18:13.778
но есть некоторые попытки унификации.
0:18:13.778,0:18:15.289
Чего действительно не хватает --
0:18:15.289,0:18:18.732
и эта проблема была у нас [br]с начала проекта в Google --
0:18:18.732,0:18:21.607
это попыток создать внутреннюю структуру,
0:18:22.197,0:18:25.910
которая описывает, [br]как должна выглядеть словарная статья,
0:18:25.910,0:18:28.581
какие данные [br]или какая информация у нас есть,
0:18:28.581,0:18:31.907
и ожидаемые характеристики.
0:18:32.747,0:18:38.187
И мы придумали маску лексикона.
0:18:38.897,0:18:44.841
Маска лексикона описывает то, [br]что должно быть в статье,
0:18:44.841,0:18:47.329
в лексикографической статье,[br]для того, чтобы она была полной
0:18:47.329,0:18:51.436
в контексте количества форм, [br]ожидаемых для лексемы,
0:18:51.436,0:18:55.607
а также количества особенностей, [br]ожидаемых для каждой из этих форм.
0:18:56.397,0:18:58.329
Вот пример с итальянскими прилагательными.
0:18:58.329,0:19:02.002
В итальянском языке вы ожидаете [br]увидеть четыре формы прилагательных,
0:19:02.002,0:19:05.383
и каждая из этих форм имеет [br]специфическую комбинацию особенностей,
0:19:05.383,0:19:07.946
касающихся рода и числа.
0:19:08.606,0:19:12.492
Это то, что мы ожидаем [br]от итальянских прилагательных.
0:19:12.672,0:19:16.176
Конечно, можно создать [br]чрезвычайно сложные маски,
0:19:16.176,0:19:20.563
как для спряжения французских глаголов,[br]которое занимает много места,
0:19:20.783,0:19:23.487
а маску для русского языка [br]я показывать не буду,
0:19:23.487,0:19:25.378
потому что она не поместится на экране.
0:19:26.308,0:19:29.531
Также у нас есть некоторые [br]детальные характеристики,
0:19:29.531,0:19:33.421
потому что мы учитываем различия [br]на уровне форм.
0:19:33.421,0:19:37.544
Здесь есть русские существительные, [br]которые имеют три числа
0:19:37.544,0:19:40.048
и несколько падежей с разными формами,
0:19:40.048,0:19:43.086
но у них также есть характеристика [br]на уровне статьи,
0:19:43.086,0:19:45.590
которая указывает, [br]что существительное имеет
0:19:45.590,0:19:49.743
свойственные ему род [br]и характеристику одушевлённости,
0:19:50.133,0:19:52.488
которые также описаны в маске.
0:19:54.518,0:19:58.779
Мы также хотим выделить то,[br]что маска определяет,
0:19:58.779,0:20:01.874
как в общем должна выглядеть статья.
0:20:01.874,0:20:07.158
У вас могут быть маски поменьше,[br]для недостаточных глаголов формы,
0:20:07.158,0:20:11.282
или для недостаточных глаголов лексемы, [br]которые есть в языке.
0:20:11.282,0:20:14.537
Вот самая простая форма [br]французских глаголов,
0:20:14.537,0:20:19.729
которые имеют только [br]третье лицо единственного числа
0:20:19.729,0:20:23.809
для всех погодных глаголов вроде [br]«дождит» или «снежит», как в английском.
0:20:24.537,0:20:26.493
То есть мы различаем эти два уровня.
0:20:26.923,0:20:29.962
Мы в Google используем это так:
0:20:29.962,0:20:32.643
если у нас есть лексикон, [br]который мы хотим использовать,
0:20:33.063,0:20:38.309
мы используем маску, [br]чтобы буквально бросить лексиконы,
0:20:38.309,0:20:40.163
все статьи, через маску
0:20:40.163,0:20:44.093
и посмотреть, в какой статье [br]есть проблемы со структурой.
0:20:44.093,0:20:46.703
Возможно, нам не хватает формы?[br]Или лингвистической особенности?
0:20:46.703,0:20:51.497
Если есть проблема, люди её оценивают,
0:20:51.497,0:20:53.751
или смотрят, пройдёт ли она через маску.
0:20:53.751,0:20:57.924
Это очень мощный инструмент[br]для проверки качества структуры.
0:20:59.427,0:21:01.964
Сегодня мы с радостью объявляем,
0:21:01.964,0:21:05.408
что мы можем открыть [br]исходные коды нашей маски.
0:21:05.948,0:21:07.573
Вот эта схема.
0:21:07.573,0:21:09.477
Если хотите, мы можем распространить
0:21:09.477,0:21:13.483
и передать их в Викиданные [br]в виде ShEx-файлов.
0:21:13.483,0:21:16.688
Это ShEx-файл [br]для немецких существительных,
0:21:16.688,0:21:20.428
и Денни занимается конвертацией [br]из наших внутренних спецификаций
0:21:20.428,0:21:23.406
в более доступные спецификации.
0:21:23.666,0:21:27.522
Сейчас мы работаем с 25 языками.
0:21:27.522,0:21:29.225
Мы ожидаем рост с нашей стороны,
0:21:29.225,0:21:34.040
но мы также ищем возможности [br]сотрудничества для других языков.
0:21:34.350,0:21:40.268
Денни и Лукас занимаются [br]одним из таких совместных проектов.
0:21:40.728,0:21:45.052
У Лукаса есть отличные инструменты [br]для интерфейса,
0:21:45.052,0:21:51.061
который поможет пользователям [br]или составителям добавлять больше форм.
0:21:51.061,0:21:54.151
Если вы хотите добавить [br]французское прилагательное,
0:21:54.151,0:21:59.057
интерфейс подскажет вам, [br]сколько форм ожидается,
0:21:59.057,0:22:01.562
и какие лингвистические особенности [br]должны быть у этой формы.
0:22:01.562,0:22:06.268
То есть наша маска поможет [br]определить и расширить инструмент.
0:22:07.238,0:22:08.385
У меня всё.
0:22:08.791,0:22:10.358
(Лидия) Спасибо большое.
0:22:10.358,0:22:11.993
(аплодисменты)
0:22:14.249,0:22:16.891
Хорошо.[br]Есть вопросы?
0:22:16.891,0:22:19.221
Хотите ещё поговорить о лексемах?
0:22:19.817,0:22:21.505
- (голос из зала 4) Да.[br]- Да. (хихикает)
0:22:33.485,0:22:35.380
(голос из зала 4) Вы говорили о том,
0:22:35.380,0:22:38.796
чтобы больше людей [br]могли использовать больше языков.
0:22:39.106,0:22:42.444
Но есть много языков, [br]которые нельзя использовать в Викиданных.
0:22:42.444,0:22:44.588
Как вы решаете эту проблему?
0:22:45.889,0:22:47.686
«Нельзя использовать в Викиданных» --
0:22:47.686,0:22:50.308
вы имеете в виду ввод меток?
0:22:50.308,0:22:52.578
- (голос из зала 4) Меток, описаний.[br]- Понятно.
0:22:52.578,0:22:55.498
С лексемами немного другая ситуация,
0:22:55.498,0:22:57.793
потому что для них нет такого ограничения.
0:22:58.923,0:23:05.003
Для меток на элементах и свойствах [br]ограничение есть,
0:23:05.433,0:23:12.411
потому что мы хотели убедиться,
0:23:12.411,0:23:14.229
что люди не начнут писать что попало
0:23:14.229,0:23:17.399
и что это не выйдет из-под контроля.
0:23:19.349,0:23:23.328
Если маленькое сообщество хочет [br]работать с одним языком,
0:23:23.898,0:23:26.787
обратитесь к нам и мы вам поможем.
0:23:26.787,0:23:29.202
(голос из зала 4) Мы сделали это в мае [br]на хакатоне в Праге,
0:23:29.202,0:23:32.459
и смогли начать использовать [br]наш язык лишь в августе.
0:23:32.459,0:23:35.135
- Да.[br]- (голос из зала 4) Это очень медленно.
0:23:35.135,0:23:37.504
Да, к сожалению, это очень медленно.
0:23:37.854,0:23:39.883
Мы работаем с Комиссией по языку
0:23:39.883,0:23:46.048
над решением некоторых фундаментальных...
0:23:49.537,0:23:55.377
Например, договориться о том, [br]какие языки «разрешены».
0:23:56.047,0:23:59.398
Это происходит очень медленно,
0:23:59.988,0:24:04.178
поэтому ваш запрос занял столько времени.
0:24:04.778,0:24:05.963
(голос из зала 4) Спасибо.
0:24:06.615,0:24:07.950
(голос из зала 5) Спасибо вам.
0:24:07.950,0:24:10.938
Лидия, если вы помните статистику, [br]которую вы показывали,
0:24:10.938,0:24:12.886
количество лексем в языках.
0:24:12.886,0:24:17.599
Вы посчитали все формы как единицу данных,
0:24:17.599,0:24:20.034
или только лексемы?
0:24:21.289,0:24:22.941
(Лидия) Вы имеете в виду эту?
0:24:22.941,0:24:24.053
Какую именно?
0:24:24.053,0:24:25.529
(голос из зала 5) Да, эту.
0:24:25.797,0:24:28.341
Если вы помните, [br]это количество обозначает
0:24:28.341,0:24:31.954
все формы для всех лексем [br]или только количество лексем?
0:24:31.954,0:24:35.395
- Нет, только количество лексем.[br]- (голос из зала 5) Только количество.
0:24:35.395,0:24:36.797
То есть это просто статистика,
0:24:36.797,0:24:39.390
потому что если добавить ещё и формы --
0:24:39.390,0:24:40.614
потому я и спрашиваю --
0:24:40.614,0:24:42.817
тогда все языки с флективной морфологией,
0:24:42.817,0:24:45.027
такие как русский, сербский, [br]словенский и другие,
0:24:45.027,0:24:47.616
имеют преимущество, [br]потому что в них очень много форм.
0:24:47.616,0:24:51.990
(Лидия) Да, это сильно влияет [br]на количество форм.
0:24:51.990,0:24:53.851
(голос из зала 5) [br]Да, этот слайд. Спасибо.
0:24:56.546,0:25:00.224
(голос из зала 6) У меня вопрос о...
0:25:00.644,0:25:06.824
Когда мы говорим [br]о фактических элементах и свойствах,
0:25:07.124,0:25:08.901
Как я понимаю,
0:25:08.901,0:25:11.955
пока что нет способа [br]дать фактический источник
0:25:11.955,0:25:14.726
для существующих меток и описаний.
0:25:14.726,0:25:18.047
Например, если вы говорите
0:25:18.047,0:25:20.920
о свойстве элемента,
0:25:20.920,0:25:24.009
вы можете получить противоречивые метки.
0:25:24.509,0:25:25.739
Да.
0:25:25.739,0:25:27.662
(голос из зала 6) То есть этот человек...
0:25:28.402,0:25:30.781
Например, мы раньше говорили [br]об автохтонных понятиях.
0:25:30.781,0:25:35.965
Согласно одному источнику, [br]этот человек -- норвежский художник.
0:25:35.965,0:25:38.750
Согласно другому источнику -- [br]он саамский художник.
0:25:39.550,0:25:42.883
Ещё у нас была проблема в эстонском,
0:25:42.883,0:25:47.729
где нам нужно было [br]изменить терминологию на официальную,
0:25:47.729,0:25:49.482
в официальных лексиконах,
0:25:49.482,0:25:52.262
но мы не могли указать причину
0:25:52.262,0:25:53.596
и источник изменений,
0:25:53.596,0:25:55.541
и не могли обосновать, [br]почему это нужно сделать.
0:25:55.541,0:25:57.230
Это выглядело, как будто случайный человек
0:25:57.230,0:25:59.615
просто так изменяет термины.
0:25:59.615,0:26:02.520
Появится ли у нас возможность
0:26:02.520,0:26:06.355
указывать надлежащие источники[br]для языковых данных?
0:26:07.045,0:26:11.568
Частично это возможно.
0:26:11.568,0:26:15.958
Например, если у вас есть [br]элемент для личности,
0:26:16.968,0:26:22.720
есть утверждение, имя, [br]фамилия этой личности и так далее,
0:26:22.720,0:26:26.056
тогда вы можете добавить ссылку на это.
0:26:28.211,0:26:32.544
Я сомневаюсь, стоит ли усложнять ссылки
0:26:32.544,0:26:35.557
для меток и описаний,
0:26:35.557,0:26:38.624
но если люди уверены,
0:26:38.624,0:26:44.939
что утверждение имеет недостаточно ссылок,
0:26:44.939,0:26:46.803
то это нужно обсудить.
0:26:49.079,0:26:52.873
Боюсь, что это добавит сложности
0:26:53.303,0:26:56.523
для, надеюсь, немногих случаев,
0:26:57.393,0:27:00.188
но я не против изменений,
0:27:00.188,0:27:04.087
если люди на этом настаивают.
0:27:04.087,0:27:08.177
(голос из зала 6) Тогда это [br]не должно быть опцией по умолчанию,
0:27:08.177,0:27:12.452
которую видят все новички в интерфейсе.
0:27:12.452,0:27:16.190
Например «Нажмите, [br]если хотите уточнить информацию».
0:27:17.632,0:27:23.368
Знаете ли вы, как часто [br]это будет использоваться?
0:27:24.520,0:27:26.423
(голос из зала 6) Например, в эстонском...
0:27:26.423,0:27:28.844
Думаю, также и в других языках...
0:27:29.274,0:27:34.203
Например, официальное название [br]с утверждённым переводом
0:27:34.203,0:27:35.686
на английский
0:27:36.206,0:27:40.314
определённого типа муниципалитета.
0:27:40.614,0:27:42.182
Например, в моём случае
0:27:42.182,0:27:44.409
мы использовали слово «приход»,
0:27:45.159,0:27:50.575
его исходное значение в эстонском -- [br]что-то вроде церковного прихода,
0:27:50.575,0:27:51.899
то есть это происхождение слова,
0:27:51.899,0:27:54.809
но не современный официальный перевод.
0:27:55.189,0:27:58.993
В этом случае стоит добавить его [br]как утверждение официального названия,
0:27:58.993,0:28:00.817
и также добавить туда ссылку.
0:28:02.032,0:28:03.158
(голос из зала 6) Хорошо.
0:28:05.186,0:28:06.572
Ещё вопросы?[br]Да?
0:28:07.682,0:28:10.044
(голос из зала 7) [br]У меня два коротких замечания.
0:28:10.044,0:28:13.934
Вы отметили, что астурийский язык [br]занимает хорошую позицию,
0:28:13.934,0:28:16.455
но я думаю, что это ложный артефакт.
0:28:16.455,0:28:17.724
Давайте подробнее.
0:28:17.724,0:28:19.748
(голос из зала 7) [br]Я думаю, что это сделал бот,
0:28:19.748,0:28:24.068
который вставил личные имена, [br]собственные имена,
0:28:24.068,0:28:27.172
и сказал: «Это как во французском [br]или испанском»,
0:28:27.172,0:28:28.558
и просто скопировал всё это.
0:28:28.558,0:28:30.256
Об этом говорит хотя бы то,
0:28:30.256,0:28:33.316
что в астурийском [br]вы не увидите таких усилий там,
0:28:33.316,0:28:36.955
где действительно нужен перевод, [br]например, в названиях свойств
0:28:36.955,0:28:39.648
или названиях элементов, которые [br]не являются собственными именами.
0:28:39.648,0:28:41.219
Асаф, вы разбиваете мне сердце.
0:28:41.219,0:28:43.198
(голос из зала 7) Я знаю.[br]Люблю портить праздники.
0:28:43.198,0:28:48.458
Но у меня есть хорошие новости [br]о количестве произношений.
0:28:49.408,0:28:53.215
Как вы знаете, на Викискладе [br]полно файлов с произношениями,
0:28:54.508,0:29:01.102
например, для нидерландского языка [br]их не меньше 300 000,
0:29:01.912,0:29:05.051
и всё это надо как-то обработать.
0:29:05.051,0:29:07.697
Так что если кому-то [br]нужен сторонний проект,
0:29:07.697,0:29:09.427
то на Викискладе вы найдёте очень много
0:29:09.427,0:29:13.280
классифицированных файлов с произношениями
0:29:13.280,0:29:16.893
в категории «Произношение» по языкам.
0:29:16.893,0:29:22.780
Их нужно привязать к лексемам [br]и добавить в Lexeme.
0:29:23.180,0:29:25.484
И ещё, можете ли вы сказать что-нибудь
0:29:25.484,0:29:26.585
о плане действий,
0:29:26.585,0:29:28.757
насчёт того, сколько инвестиций
0:29:28.757,0:29:31.995
и всего прочего мы можем ожидать [br]от Lexeme в будущем году,
0:29:31.995,0:29:34.020
потому что я жду с нетерпением.
0:29:34.949,0:29:36.974
Ждетё с нетерпением? (хихикает)
0:29:36.974,0:29:39.118
- (голос из зала 7) Ожидаю большего.[br]- Да. (хихикает)
0:29:44.541,0:29:49.293
Сейчас мы больше заняты [br]Викибазой и качеством данных,
0:29:51.493,0:29:55.087
хотим увидеть результативность,
0:29:55.087,0:30:01.646
затем нам нужно найти проблемные точки,
0:30:01.646,0:30:06.003
а потом вернуться к улучшению[br]лексикографических данных.
0:30:06.903,0:30:09.790
Очень хочется услышать ваше мнение
0:30:09.790,0:30:14.136
по поводу того, куда нам двигаться,
0:30:14.136,0:30:15.966
какие изменения вы хотите видеть,
0:30:15.966,0:30:20.250
чтобы мы могли решить, как это сделать.
0:30:21.125,0:30:22.810
Но вы, конечно, правы,
0:30:22.810,0:30:25.712
там ещё много работы [br]с технической стороны.
0:30:30.573,0:30:35.848
(голос из зала 8) Когда мы загружали [br]баскские слова с формами --
0:30:35.848,0:30:37.768
вы увидите кое-что из этого --
0:30:37.768,0:30:41.329
и на прошлой неделе мы сказали: [br]«Ого, мы заняли первое место.»
0:30:42.919,0:30:44.928
Об этом даже пресса пишет:
0:30:44.928,0:30:49.338
«Ого, баски заняли первое место в чём-то.»
0:30:49.338,0:30:50.606
(смеётся)
0:30:50.606,0:30:53.318
И тогда люди спрашивают: [br]«А для чего это нужно?»
0:30:54.678,0:30:56.849
Тут мы не знаем, что ответить.
0:30:56.849,0:30:57.888
Можно сказать,
0:30:57.888,0:31:01.801
что это поможет компьютерам [br]лучше понимать языки,
0:31:01.801,0:31:05.279
но какие инструменты [br]мы можем создать в будущем?
0:31:05.279,0:31:07.467
На это у нас нет чёткого ответа.
0:31:07.467,0:31:10.625
Возможно, ответ есть у вас.
0:31:10.625,0:31:12.742
(хихикает) Не знаю, [br]есть ли у меня чёткий ответ,
0:31:12.742,0:31:14.746
зато есть просто ответ.
0:31:15.480,0:31:20.425
Пока что, как я говорила [неразборчиво],
0:31:20.425,0:31:21.924
мы не достигли той критической массы,
0:31:21.924,0:31:25.529
которая позволяет создать [br]много интересных инструментов.
0:31:25.529,0:31:27.707
Некоторые инструменты уже существуют.
0:31:28.267,0:31:31.912
Например, на днях [Эстер Панделия]
0:31:31.912,0:31:33.877
выпустила инструмент, где можно увидеть...
0:31:35.837,0:31:38.889
Кажется, там были слова на глобусе,
0:31:38.889,0:31:41.761
их происхождение и распространение.
0:31:42.631,0:31:44.090
Я точно не знаю.
0:31:44.090,0:31:46.346
Но она ответила в Project chat [br]на Викиданных,
0:31:46.346,0:31:48.984
можете поискать там.
0:31:49.574,0:31:51.805
Мы видели эти первые инструменты,
0:31:51.805,0:31:55.696
как тогда, когда начинали [br]создавать Викиданные.
0:31:56.846,0:31:59.602
Сначала некоторые...это была просто сеть,
0:31:59.602,0:32:03.424
что-то вроде: «Смотри, [br]эта штука связана с той штукой.»
0:32:04.824,0:32:07.059
Когда мы собрали больше данных
0:32:07.059,0:32:10.352
и достигли некоторой критической массы,
0:32:11.852,0:32:14.747
появились более мощные приложения,
0:32:15.677,0:32:17.356
например, Histropedia,
0:32:19.126,0:32:21.988
или вопросы и ответы
0:32:21.988,0:32:26.663
в персональном цифровом [br]помощнике Platypus, и так далее.
0:32:26.663,0:32:29.668
Мы видим похожую ситуацию с лексемами.
0:32:31.198,0:32:34.650
Мы на том уровне, [br]где можно создать такие маленькие...
0:32:34.650,0:32:37.214
«Смотрите, тут есть связь [br]между двумя вещами»,
0:32:37.864,0:32:42.738
и есть перевод этого слова [br]в этом языковом уровне,
0:32:42.738,0:32:47.747
и чем больше мы развиваем это,[br]чем больше слов описываем,
0:32:47.747,0:32:49.533
тем больше возможностей появляется.
0:32:49.533,0:32:51.795
Какие именно возможности?
0:32:53.482,0:32:59.483
Бен, наш главный спикер, [br]говорил о переводах,
0:33:00.103,0:33:03.115
о возможности перевода [br]с одного языка на другой.
0:33:03.455,0:33:07.929
И мой коллега Йенс всегда говорит о том,
0:33:07.929,0:33:11.452
что Евросоюз ищет переводчика
0:33:11.452,0:33:17.439
с мальтийского на шведский, [br]если не ошибаюсь.
0:33:17.439,0:33:19.436
- (голос из зала) Эстонский.[br]- Эстонский.
0:33:22.016,0:33:26.211
Это редкая комбинация.
0:33:27.211,0:33:31.735
Но если собрать все эти языки [br]в один машинно-читаемый массив,
0:33:31.735,0:33:33.143
то вы сможете это сделать,
0:33:33.143,0:33:36.857
вы сможете найти словарь
0:33:36.857,0:33:41.735
для перевода с эстонского [br]на мальтийский и обратно.
0:33:42.935,0:33:45.607
Внесение в словари языковых комбинаций,
0:33:45.607,0:33:47.911
которых там не было раньше,
0:33:47.911,0:33:51.050
потому что на них не было спроса,
0:33:51.050,0:33:55.540
достаточного для финансовой выгоды.
0:33:55.540,0:33:57.147
Теперь мы можем это сделать.
0:33:59.797,0:34:02.318
Затем следующее поколение.
0:34:02.318,0:34:03.653
Люси говорила о том,
0:34:03.653,0:34:07.106
как она работает с Хэтти
0:34:08.536,0:34:10.136
над генерацией текста,
0:34:10.136,0:34:14.673
чтобы начать писать статьи в Википедии [br]на языках меньшинств.
0:34:15.423,0:34:19.512
Для этого нужны данные о словах
0:34:19.512,0:34:22.479
и знание языка.
0:34:23.769,0:34:28.013
Это то, что мне вспомнилось [br]на данный момент.
0:34:28.693,0:34:30.494
Возможно, аудитория предложит больше идей
0:34:30.494,0:34:34.353
насчёт того, что мы будем делать [br]с этими выдающимися данными.
0:34:37.693,0:34:40.892
(голос из зала 9) [br]Я отклонюсь от темы лексем.
0:34:40.892,0:34:42.666
Я хочу спросить,
0:34:42.666,0:34:45.634
как я, как член сообщества,
0:34:45.634,0:34:50.135
могу повлиять на приоритет задания,[br]если приходит новый пользователь,
0:34:50.135,0:34:56.644
и он может указать, какие языки [br]он хочет видеть и редактировать
0:34:56.644,0:35:01.135
без знания каких-то [br]секретных словесных шаблонов.
0:35:02.145,0:35:05.053
Возможно, в этом году появится [br]технический список желаний
0:35:05.053,0:35:07.040
без тем Википедии.
0:35:07.040,0:35:11.379
Надеюсь, мы все сможем [br]проголосовать за эту вещь,
0:35:11.379,0:35:13.918
которую мы семь лет не могли исправить.
0:35:14.218,0:35:17.607
Есть ли у вас идеи [br]и замечания на этот счёт?
0:35:18.217,0:35:20.328
Вы имеете в виду,
0:35:20.328,0:35:23.518
что пользователь, [br]не зарегистрированный в Викиданных,
0:35:23.518,0:35:25.621
не может просто изменить язык?
0:35:25.621,0:35:27.989
(голос из зала 9) Нет, [br]для [неразборчиво] пользователей.
0:35:28.309,0:35:30.689
Если они вошли в систему,
0:35:30.689,0:35:34.601
они могут изменить язык вверху страницы
0:35:35.891,0:35:38.099
и он появится там,
0:35:39.769,0:35:42.013
где есть описание метки [неразборчиво],
0:35:42.013,0:35:43.583
и его можно будет редактировать.
0:35:45.657,0:35:49.009
(голос из зала 9) [br]Чаще всего в рабочем процессе
0:35:49.009,0:35:52.447
нужно иметь доступ ко многим языкам,
0:35:52.447,0:35:55.419
но это не всегда возможно.
0:35:55.419,0:35:58.584
Хорошо, давайте встретимся [br]после доклада и обсудим это.
0:36:01.562,0:36:04.089
Отлично.[br]Ещё вопросы?
0:36:05.534,0:36:06.536
Да?
0:36:11.305,0:36:13.196
(голос из зала 10) Спасибо за презентацию.
0:36:14.106,0:36:15.127
Можете прокомментировать
0:36:15.127,0:36:19.307
состояние корреляции [br]с сообществом Викисловаря?
0:36:19.307,0:36:22.296
Насколько я знаю, ведутся дискуссии
0:36:22.296,0:36:26.051
об импортировании [br]некоторых элементов работы,
0:36:26.051,0:36:30.843
но там есть проблемы с лицензированием [br]и некоторые разногласия.
0:36:30.843,0:36:31.848
(Лидия) Да.
0:36:31.848,0:36:36.330
Сообщества Викисловаря [br]потратили много времени
0:36:37.320,0:36:39.473
на его создание.
0:36:39.473,0:36:42.643
Они создали
0:36:43.193,0:36:47.554
невероятно сложные и комплексные шаблоны
0:36:47.554,0:36:53.614
для создания удобных таблиц, [br]которые автоматически генерируют формы,
0:36:53.614,0:36:56.392
и ещё много разных впечатляющих
0:36:56.392,0:37:00.413
и невообразимых вещей.
0:37:02.311,0:37:07.724
И конечно же, они вложили в это [br]много времени и усилий.
0:37:09.364,0:37:11.801
Поэтому их можно понять,
0:37:11.801,0:37:17.116
они не хотят, чтобы результаты их работы
0:37:18.046,0:37:19.102
кто-то взял просто так.
0:37:19.102,0:37:21.491
Поэтому такая ситуация.
0:37:22.761,0:37:25.137
И это нормально.
0:37:25.737,0:37:31.192
Сейчас первые сообщества [br]Викисловаря говорят о том,
0:37:31.192,0:37:34.329
чтобы передать и импортировать [br]некоторые данные в Викиданные.
0:37:34.329,0:37:39.095
Вы уже видели русский, [br]это один из таких случаев.
0:37:40.375,0:37:42.355
И я ожидаю большего.
0:37:43.635,0:37:46.800
Но это медленный процесс,
0:37:46.800,0:37:49.383
такой же медленный,
0:37:49.383,0:37:51.909
как внедрение данных [br]из Викиданных в Википедию.
0:37:52.849,0:37:56.183
С другой стороны, нужно упростить
0:37:56.183,0:37:59.132
использование данных [br]из лексем в Викисловаре,
0:37:59.132,0:38:02.209
чтобы они могли пользоваться ими
0:38:02.209,0:38:05.531
и делиться данными [br]с разными Викисловарями,
0:38:05.531,0:38:08.853
что сейчас почти невозможно.
0:38:08.853,0:38:11.350
И это ужасно, так же, [br]как это было в Википедии.
0:38:13.860,0:38:16.325
Дождитесь подарка на день рождения.[br](хихикает)
0:38:19.938,0:38:20.992
Да?
0:38:22.459,0:38:24.827
(голос из зала 11) Когда я думала, [br]как решить эту проблему,
0:38:24.827,0:38:28.168
то не хотела говорить,[br]потому что это казалось мне глупым,
0:38:28.168,0:38:32.003
но я думаю, что в Викисловаре [br]уже есть некоторый контент,
0:38:32.003,0:38:34.978
и я знаю, что мы не можем [br]передать его в Викиданные
0:38:34.978,0:38:37.048
из-за разницы в лицензиях.
0:38:37.048,0:38:39.631
Но я думаю, что с этим [br]можно что-то сделать.
0:38:40.321,0:38:45.443
Возможно, мы можем [br]получить разрешение сообществ
0:38:45.913,0:38:51.205
после общего голосования,
0:38:52.075,0:38:57.522
чтобы активные участники сообщества[br]проголосовали и сказали,
0:38:57.522,0:39:02.523
хотят ли они принять или передать контент,
0:39:02.523,0:39:05.208
для которого они могут [br]создать лексемы в Викиданных.
0:39:06.238,0:39:08.537
Иначе это непродуктивно.
0:39:09.568,0:39:14.203
Это как раз тот разговор,
0:39:14.203,0:39:18.249
который нужно начать[br]в сообществах Викисловаря.
0:39:18.249,0:39:24.647
Для нас было бы неуместным [br]навязывать им это.
0:39:25.917,0:39:31.142
Но я думаю, что это стоит обсудить.
0:39:31.142,0:39:33.898
Также важно понимать,
0:39:33.898,0:39:39.082
что есть разница между тем, [br]что легально разрешено,
0:39:39.082,0:39:43.147
тем, что мы должны делать,
0:39:43.147,0:39:45.516
и тем, чего хотят или не хотят эти люди.
0:39:45.736,0:39:47.329
Поэтому, даже если это легально,
0:39:47.329,0:39:50.640
но другие сообщества Викисловаря [br]этого не хотят,
0:39:50.640,0:39:53.537
то здесь нужно быть осторожными.
0:39:58.886,0:40:02.489
Возьмите микрофон для трансляции.
0:40:04.540,0:40:07.299
(голос из зала 12) [br]Всё это очень интересно,
0:40:07.979,0:40:12.009
и я уже думаю, как рассказать [br]об этом моим студентам
0:40:12.319,0:40:15.558
и как включить это в курс лекций,
0:40:15.558,0:40:18.531
в нашу работу, учебный процесс.
0:40:18.531,0:40:22.271
На данный момент
0:40:22.871,0:40:24.116
мне не хватает знаний,
0:40:24.116,0:40:27.188
но я думаю, что наша документация
0:40:27.808,0:40:30.082
нуждается в улучшении.
0:40:30.082,0:40:33.437
Было бы хорошо сделать [br]интересные видео,
0:40:33.437,0:40:35.898
которые объясняют, как это работает.
0:40:35.898,0:40:39.948
Мы могли бы их использовать,
0:40:39.948,0:40:41.985
чтобы заинтересовать студентов
0:40:41.985,0:40:47.072
и объяснить людям, как это здорово.
0:40:47.072,0:40:52.001
Просто подумайте [br]о документации и образовании.
0:40:52.001,0:40:54.480
Я думаю, многое можно сделать.
0:40:54.480,0:40:58.585
Есть много задач, [br]к которым можно привлечь...
0:41:00.125,0:41:02.033
...ну, не начальную школу,
0:41:02.033,0:41:05.495
но хотя бы старших школьников.
0:41:05.915,0:41:10.866
Очень бы хотелось [br]использовать этот потенциал,
0:41:10.866,0:41:15.272
хотя пока что я плохо разбираюсь в этом
0:41:15.272,0:41:19.500
и не могу ставить задачи или...
0:41:20.430,0:41:22.155
...делать что-нибудь на практике.
0:41:22.155,0:41:25.772
Если у вас есть [br]любые идеи по этому поводу,
0:41:25.772,0:41:29.648
я с удовольствием их выслушаю.
0:41:30.508,0:41:32.129
Да, мы поговорим об этом.
0:41:35.473,0:41:37.139
Ещё вопросы?
0:41:37.809,0:41:39.195
Кто-то поднимал руку.
0:41:39.195,0:41:40.505
Не помню, кто именно.
0:41:45.739,0:41:49.996
(голос из зала 13) Если мы не можем [br]импортировать из Викисловаря,
0:41:49.996,0:41:55.772
есть ли согласованные мероприятия, [br]чтобы найти другие окрытые источники,
0:41:55.772,0:41:57.459
возможно, все данные,
0:41:58.769,0:42:03.167
как-то отфильтровать и организовать их,
0:42:03.167,0:42:08.210
чтобы их можно было [br]легко проверить для импорта?
0:42:09.093,0:42:11.181
Первые мероприятия уже есть.
0:42:11.181,0:42:14.769
Я так понимаю, [br]баскский язык -- одно из них.
0:42:14.769,0:42:17.474
Хотите рассказать об этом?
0:42:18.426,0:42:20.130
(голос из зала 14) [inaudible]
0:42:23.166,0:42:27.148
Фактический ответ -- заплатить за это...
0:42:28.374,0:42:33.381
У нас есть договор с подрядчиком, [br]с которым мы обычно работаем.
0:42:34.801,0:42:38.265
Они создают словари --
0:42:40.315,0:42:42.458
и ещё много чего, словари в том числе.
0:42:42.458,0:42:47.473
Мы договорились с ними о создании [br]бесплатного словаря для студентов.
0:42:47.473,0:42:52.782
Мы бы взяли часто употребляемые слова [br]и начали загружать их
0:42:52.782,0:42:55.590
с внешним идентификатором [br]и схемой этих вещей.
0:42:56.420,0:43:02.902
Но у нас была дискуссия, [br]оставлять ли это на лицензии CC0,
0:43:03.212,0:43:05.322
потому что у них есть [br]словарь с лицензией CC BY
0:43:06.537,0:43:10.326
и они поняли, в чём разница.
0:43:10.326,0:43:13.866
Поэтому была дискуссия.
0:43:13.866,0:43:19.709
Но я думаю, что в будущем мы сможем [br]предоставить инструменты или примеры,
0:43:19.709,0:43:21.761
и я думаю, что будут другие словари,
0:43:21.761,0:43:24.016
с которыми мы сможем работать.
0:43:24.016,0:43:29.274
Я также думаю, что Викисловарь [br]должен двигаться в этом направлении,
0:43:29.274,0:43:32.170
но это уже другая большая дискуссия.
0:43:33.285,0:43:34.487
Кроме того,
0:43:34.487,0:43:38.839
Леа общается с людьми из Окситании,
0:43:38.839,0:43:41.827
которые работают [br]над окситанскими словарями,
0:43:41.827,0:43:45.138
и сейчас они работают [br]над совместным проектом в шумерском.
0:43:51.644,0:43:53.303
Ещё вопросы?
0:44:01.487,0:44:05.349
(голос из зала 15) Привет![br]Мы хотим импортировать окситанские данные.
0:44:05.349,0:44:06.505
Отлично!
0:44:06.505,0:44:08.678
(голос из зала 15) [br]И у нас небольшая проблема.
0:44:09.078,0:44:14.215
Мы не знаем, как представить [br]всё разнообразие лексем.
0:44:14.215,0:44:17.893
У нас шесть диалектов,
0:44:17.893,0:44:24.014
и мы хотим указать, [br]в каком диалекте используется лексема,
0:44:24.014,0:44:27.285
и у нас нет подходящего [br]C0-утверждения, чтобы это сделать.
0:44:27.285,0:44:31.105
Пока сегмента не существует,
0:44:31.635,0:44:34.465
это не позволяет нам [неразборчиво]
0:44:34.465,0:44:37.603
потому что нам придётся сделать это снова,
0:44:37.603,0:44:42.076
когда мы сможем [br][экспортировать] утверждение.
0:44:42.076,0:44:44.551
И это сложно, [br]потому что это утверждение
0:44:44.551,0:44:47.802
заинтересует немногих людей,
0:44:47.802,0:44:53.174
потому что оно касается [br]в основном языков меньшинств.
0:44:53.444,0:44:56.933
Один человек спросит об этом.
0:44:56.933,0:45:00.022
Но, как у наших коллег басков,
0:45:00.022,0:45:06.082
один человек может привлечь тысячи других,
0:45:06.082,0:45:10.884
может быть, это не много,
0:45:10.884,0:45:14.136
но для нас это очень важно.
0:45:14.874,0:45:17.600
У вас уже есть [br]новое предложение о свойствах,
0:45:17.600,0:45:19.400
или вам нужна помощь в его создании?
0:45:21.524,0:45:24.300
(голос из зала 15) Мы просили об этом [br]четыре месяца назад.
0:45:24.720,0:45:28.635
Хорошо, попросим кого-нибудь [br]помочь с этим предложением.
0:45:30.159,0:45:32.912
Думаю, здесь достаточно людей, [br]которые могут это сделать.
0:45:32.912,0:45:35.512
(голос из зала 15) Предложение о свойствах[br][говорит по-французски]
0:45:35.512,0:45:36.965
(голос из зала) Нам не ответили.
0:45:36.965,0:45:39.699
(голос из зала 15) Нам не ответили, [br]и мы не знаем, как это сделать,
0:45:39.699,0:45:42.953
потому что мы не из сообщества Викиданных.
0:45:44.694,0:45:48.497
Здесь есть люди, которые могут вам помочь.
0:45:48.817,0:45:52.134
Поднимите руку, кто возьмёт...
0:45:52.574,0:45:53.644
(голос из зала 16) Я могу.
0:45:53.644,0:45:55.512
Мне кажется очень интересным то,
0:45:55.512,0:45:59.059
что только вариант формы
0:45:59.059,0:46:02.607
может управлять этим территориально,
0:46:02.607,0:46:04.995
с помощью координат или картографии.
0:46:05.595,0:46:07.815
А также разные произношения,
0:46:07.815,0:46:11.837
думаю, это бывает во многих языках.
0:46:12.607,0:46:16.262
Нам нужно как-то реализовать это [br][неразборчиво],
0:46:16.262,0:46:18.865
я займусь поиском свойства.
0:46:19.782,0:46:20.933
Отлично.
0:46:20.933,0:46:24.446
Вы получите поддержку [br]для вашего предложения о свойствах.
0:46:26.136,0:46:27.297
Спасибо вам.
0:46:28.153,0:46:30.261
Хорошо, есть ещё вопросы?
0:46:32.410,0:46:33.474
Финн.
0:46:33.974,0:46:35.055
Финн -- один из тех людей,
0:46:35.055,0:46:38.031
которые создают разработки [br]на основе лексикографических данных.
0:46:38.031,0:46:40.085
(Финн) У меня небольшой вопрос
0:46:40.405,0:46:44.226
о вариациях в произношении.
0:46:44.896,0:46:48.002
Их нелегко внести в...
0:46:48.532,0:46:53.368
Конечно, одно и то же слово [br]может иметь разные формы.
0:46:56.327,0:46:58.448
Не знаю, мне кажется...
0:46:59.558,0:47:03.535
Если не сделать это таким способом,[br]то будет трудно уточнить...
0:47:04.771,0:47:05.888
Хотя я не знаю,
0:47:05.888,0:47:09.731
это мелкая техническая проблема или...
0:47:09.731,0:47:11.252
Давайте вместе разберёмся.
0:47:11.642,0:47:15.230
Хочется увидеть пример.
0:47:17.478,0:47:18.478
Асаф.
0:47:26.886,0:47:28.396
(Асаф) Спасибо.
0:47:29.386,0:47:33.685
Я могу дать очень хороший пример [br]из моего родного языка, иврита.
0:47:34.205,0:47:38.275
В иврите есть два основных варианта
0:47:38.825,0:47:42.326
для выражения почти каждого слова,
0:47:42.786,0:47:47.640
потому что традиционное написание
0:47:47.640,0:47:50.044
пропускает многие гласные буквы.
0:47:50.934,0:47:55.207
Поэтому в современных изданиях [br]Библии и поэзии
0:47:55.207,0:47:57.071
используются диакритические знаки.
0:47:57.461,0:48:02.670
Но эти знаки никогда не используются [br]в современной прозе,
0:48:02.670,0:48:05.974
газетах, на уличных вывесках.
0:48:05.974,0:48:11.099
В ежедневном обиходе добавляются гласные
0:48:11.859,0:48:13.519
и не используются диакритические знаки,
0:48:13.519,0:48:15.607
потому что они громоздкие
0:48:15.607,0:48:17.893
и пишутся по правилам, [br]которых никто не знает.
0:48:18.633,0:48:20.531
Поэтому есть два варианта:
0:48:20.531,0:48:25.322
повседневный вариант для прозы,
0:48:25.322,0:48:27.827
и отдельно Библия с поэзией,
0:48:27.827,0:48:32.200
которые написаны [br]традиционным текстом с диакритикой.
0:48:32.200,0:48:33.302
Чтобы быть полезной,
0:48:33.302,0:48:37.428
Lexeme должна распознавать [br]обе вариации каждого слова
0:48:37.428,0:48:39.747
и каждую форму каждого слова.
0:48:40.677,0:48:43.391
То есть это случай [br]очень обширного использования
0:48:43.391,0:48:46.340
официальных устойчивых вариантов.
0:48:46.340,0:48:49.052
Это не диалекты и не региональные языки,
0:48:49.332,0:48:53.627
это две сосуществующие [br]морфологические системы.
0:48:54.537,0:48:58.926
Я тоже пока что не знаю, [br]как выразить это в Lexeme,
0:48:58.926,0:49:02.800
и это не даёт мне -- частично [br]отвечаю на вопрос Магнуса --
0:49:02.800,0:49:05.238
загрузить готовые части
0:49:05.238,0:49:09.394
самого большого словаря иврита, [br]который есть в открытом доступе,
0:49:09.394,0:49:12.701
и который я оцифровываю [br]уже несколько лет.
0:49:13.141,0:49:14.803
Большая часть уже готова,
0:49:14.803,0:49:16.549
но я не выкладываю её в Lexeme,
0:49:16.549,0:49:19.865
потому что я не знаю, [br]как решить эту проблему.
0:49:20.245,0:49:23.387
Хорошо, решим эту проблему здесь.[br](хихикает)
0:49:24.503,0:49:26.021
Должна быть какая-то возможность.
0:49:30.045,0:49:32.047
Ещё вопросы?
0:49:37.173,0:49:39.535
Если нет, спасибо вам большое.
0:49:40.605,0:49:42.675
(аплодисменты)