0:00:00.111,0:00:02.191 Викиданные и языки 0:00:02.191,0:00:05.477 Лидия Пинчер 0:00:06.223,0:00:07.362 (Лидия) Спасибо большое. 0:00:07.362,0:00:11.244 Языки – одна из важных тем [br]на этой конференции. 0:00:14.220,0:00:18.508 Хочу дать вам общее представление о том, 0:00:18.508,0:00:19.812 как мы работаем с языками, 0:00:20.264,0:00:22.167 и какие у нас есть возможности. 0:00:26.591,0:00:29.021 ДОСТУПНЫЕ ЗНАНИЯ ДЛЯ БОЛЬШЕГО ЧИСЛА ЛЮДЕЙ 0:00:29.036,0:00:32.580 Цель Викиданных -- доступные знания [br]для большего числа людей. 0:00:32.580,0:00:37.168 А для этого нужны языки, 0:00:38.205,0:00:43.291 учитывая то, что наша жизнь [br]всё больше зависит от технологий. 0:00:44.114,0:00:48.873 Как сказал сегодня наш главный спикер, 0:00:49.723,0:00:51.588 люди не успевают [br]за некоторыми технологиями, 0:00:51.588,0:00:54.790 потому что не знают определённого языка. 0:00:55.320,0:00:57.573 И это плохо. 0:00:58.633,0:01:02.097 Мы хотим это исправить. 0:01:02.927,0:01:05.841 Чтобы изменить это, нужны две вещи. 0:01:06.411,0:01:11.000 Первое -- дать людям контент на их языке. 0:01:11.270,0:01:12.955 Второе -- дать людям возможность 0:01:12.955,0:01:15.910 взаимодействовать на их языке 0:01:15.910,0:01:19.189 в этих приложениях или программах. 0:01:20.367,0:01:24.897 Викиданные работают в обеих случаях. 0:01:25.277,0:01:27.928 Первое -- контент на вашем языке, 0:01:28.408,0:01:31.099 то есть элементы и свойства, 0:01:31.319,0:01:33.082 способы описания мира. 0:01:33.082,0:01:35.085 Конечно, этого недостаточно, 0:01:35.085,0:01:39.294 но это позволяет вам двигаться вперёд. 0:01:39.764,0:01:41.847 Второе -- взаимодействие на вашем языке. 0:01:41.847,0:01:46.389 Здесь идут в ход лексемы, 0:01:46.389,0:01:49.382 если вы хотите поговорить [br]с персональным цифровым помощником 0:01:49.382,0:01:54.918 или вам нужно перевести текст [br]с помощью гаджета. 0:01:56.404,0:01:59.254 Давайте рассмотрим контент на вашем языке. 0:01:59.254,0:02:03.396 Что у нас есть в элементах и свойствах? 0:02:05.406,0:02:09.966 В этих элементах и свойствах [br]крайне важны метки. 0:02:10.236,0:02:14.866 Нам нужно знать название сущности, [br]о которой мы говорим. 0:02:15.656,0:02:19.987 И вместо того, чтобы говорить о Q5, 0:02:19.987,0:02:22.180 англоязычные люди знают, [br]что это значит «human», 0:02:22.180,0:02:24.706 немецкоязычные знают, что это «mensch», 0:02:24.706,0:02:25.974 и так далее. 0:02:26.284,0:02:29.742 Эти метки на элементах и свойствах 0:02:29.742,0:02:33.619 создают мост между людьми и машинами. 0:02:33.619,0:02:35.439 А также между самими людьми, 0:02:35.439,0:02:40.115 делая знания всё более доступными. 0:02:41.183,0:02:43.270 КАК ВЫГЛЯДИТ НАШ ОХВАТ? 0:02:43.270,0:02:46.290 Это хорошее устремление. 0:02:46.290,0:02:48.192 Как это выглядит? 0:02:48.342,0:02:49.607 Вот так. 0:02:50.947,0:02:52.416 Здесь вы видите, 0:02:52.416,0:02:58.496 что большинство элементов[br]в Викиданных имеют по две метки, 0:02:58.496,0:03:00.527 то есть метки на двух языках. 0:03:01.697,0:03:03.851 Потом на одном, потом на трёх, 0:03:03.851,0:03:05.865 а дальше вообще всё грустно. 0:03:06.781,0:03:08.411 (тихий смех) 0:03:10.047,0:03:12.713 Над этим нужно поработать. 0:03:14.185,0:03:15.319 Но с другой стороны, 0:03:15.319,0:03:17.478 могло быть и хуже. 0:03:17.478,0:03:19.560 Я ожидала, что в среднем будет одна. 0:03:19.560,0:03:22.503 Поэтому было очень приятно увидеть две.[br](хихикает) 0:03:23.822,0:03:24.921 КАКИЕ ЯЗЫКИ МЫ ИСПОЛЬЗУЕМ? 0:03:24.921,0:03:26.186 Хорошо. 0:03:27.156,0:03:29.527 Но нас интересует [br]не только количество меток 0:03:29.527,0:03:33.742 на элементах и свойствах. 0:03:33.742,0:03:36.365 Нас также интересует, [br]на каких языках эти метки. 0:03:38.045,0:03:43.764 Здесь вы видите диаграмму языков, 0:03:43.764,0:03:46.838 на которых у нас есть метки для Элементов. 0:03:46.838,0:03:50.669 Наибольшую часть занимают Другие. 0:03:51.229,0:03:53.863 Здесь 100 самых распространённых языков, 0:03:54.533,0:03:58.902 остальные вошли в категорию Другие,[br]чтобы диаграмму можно было читать. 0:03:59.542,0:04:02.142 Здесь есть английский и нидерландский, 0:04:03.002,0:04:04.144 французский, 0:04:05.924,0:04:08.809 и конечно же, астурийский. 0:04:09.659,0:04:11.889 - (голос из зала 1) Ого![br]- Да, ого! 0:04:13.899,0:04:16.954 Итак, здесь вы видите дисбаланс, 0:04:16.954,0:04:20.114 и у английского языка [br]большое преимущество. 0:04:21.236,0:04:24.107 Если посмотреть [br]на то же самое в Свойствах, 0:04:24.367,0:04:25.839 то здесь ситуация выглядит лучше. 0:04:27.399,0:04:32.750 Возможно, за счёт того, [br]что свойств намного меньше. 0:04:32.750,0:04:36.640 Поэтому даже маленькие сообщества [br]могут успевать за этим. 0:04:36.640,0:04:39.173 И очень важная часть Викиданных -- 0:04:39.173,0:04:40.989 это локализация на вашем языке. 0:04:41.159,0:04:42.204 То есть это хорошо. 0:04:45.752,0:04:48.122 В случае с астурийским языком мы видим, 0:04:48.122,0:04:53.698 что даже маленькие сообщества [br]могут значительно изменить ситуацию 0:04:54.448,0:04:57.085 благодаря упорной работе и самоотдаче, 0:04:57.085,0:04:58.310 и это очень круто. 0:04:59.158,0:05:01.846 У КАКОГО СВОЙСТВА БОЛЬШЕ ВСЕГО МЕТОК? 0:05:01.846,0:05:03.110 У меня для вас вопрос: 0:05:03.530,0:05:05.493 если взять все свойства в Викиданных, 0:05:05.493,0:05:07.377 которые не являются [br]внешними идентификаторами, 0:05:07.597,0:05:10.358 какие из них имеют больше всего [br]меток, то есть больше всего языков? 0:05:10.977,0:05:13.847 (аудитория) [неразборчиво] 0:05:13.847,0:05:16.696 Я слышу версию «экземпляр класса»? 0:05:17.506,0:05:19.443 Неправильно. 0:05:19.983,0:05:22.210 Это изображение.[br](хихикает) 0:05:23.230,0:05:26.366 Поэтому, если вы говорите на языке, 0:05:26.366,0:05:28.621 в котором еще нет метки [br]для экземпляра класса, 0:05:28.621,0:05:30.190 то стоит её добавить. 0:05:32.102,0:05:35.676 Сейчас у него есть 148 меток. 0:05:37.688,0:05:41.249 Ещё один слайд. 0:05:42.631,0:05:44.162 Этот график показывает, 0:05:44.162,0:05:49.321 сколько контента доступно [br]на определённом языке, 0:05:49.321,0:05:52.042 и какая доля этого контента используется. 0:05:52.042,0:05:55.448 На этой кривой вы видите, 0:05:55.448,0:06:00.987 что большая часть контента доступна [br]на английском и с английскими метками, 0:06:01.507,0:06:03.915 и её часто используют. 0:06:04.295,0:06:06.449 Дальше она спадает. 0:06:06.449,0:06:09.436 Вы также видите выпадающие точки, 0:06:09.436,0:06:14.803 где есть неожиданно много контента, 0:06:16.903,0:06:19.449 что очень хорошо. 0:06:20.839,0:06:24.945 Проблема в том, что его мало используют. 0:06:25.565,0:06:28.482 Астурийский и нидерландский [br]должны быть выше, 0:06:28.742,0:06:32.234 и я думаю, что нужно [br]помочь этим сообществам 0:06:33.266,0:06:35.563 увеличить использование [br]собранных ими данных. 0:06:35.563,0:06:37.472 Это было бы очень полезно. 0:06:42.910,0:06:48.110 Эта аналитика [br]показывает хорошую тенденцию -- 0:06:48.300,0:06:51.378 часто используемые элементы 0:06:51.378,0:06:55.295 также имеют больше меток. 0:06:55.295,0:06:58.188 Или наоборот -- это не совсем понятно. 0:06:59.850,0:07:02.510 МЫ ПОМОГАЕМ ТОЛЬКО [br]РАСПРОСТРАНЁННЫМ ЯЗЫКАМ? 0:07:02.513,0:07:04.636 Ещё один вопрос: 0:07:04.636,0:07:07.009 мы помогаем[br]только распространённым языкам? 0:07:07.899,0:07:11.147 Или мы помогаем всем? 0:07:12.757,0:07:17.413 Здесь мы видим группирование языков. 0:07:17.743,0:07:21.832 Языки в каждой группе [br]склонны иметь общие метки. 0:07:26.042,0:07:28.599 Вы видите, как они собираются в кластеры. 0:07:30.779,0:07:34.065 Здесь похожие кластеры, [br]разными цветами показано, 0:07:34.065,0:07:39.475 насколько живым, используемым 0:07:40.455,0:07:42.996 или исчезающим является язык. 0:07:42.996,0:07:44.642 Здесь вы видите хорошую тенденцию -- 0:07:44.642,0:07:49.036 распространённые и исчезающие языки 0:07:49.566,0:07:53.673 не образовывают два разных кластера. 0:07:53.673,0:07:58.942 Но они смешиваются, 0:08:00.262,0:08:04.625 и это намного лучше, [br]чем обратная ситуация, 0:08:04.625,0:08:09.467 в которой распространённые языки 0:08:10.197,0:08:12.164 помогают друг другу. 0:08:12.744,0:08:14.306 Это не тот случай. 0:08:14.306,0:08:17.417 И это очень хорошо. 0:08:17.417,0:08:20.042 Когда я это увидела, то подумала, [br]что это очень хорошо. 0:08:23.474,0:08:25.199 Здесь похожая тенденция, 0:08:26.239,0:08:27.890 мы рассмотрели 0:08:30.230,0:08:34.222 статус языков 0:08:34.222,0:08:35.995 и количество меток в них. 0:08:39.367,0:08:42.937 Вы видите, что распространённые языки [br]явно выигрывают, 0:08:42.937,0:08:44.248 как и ожидалось. 0:08:45.508,0:08:47.312 Но вы также видите, 0:08:49.303,0:08:53.977 что языки 2, 3, и возможно, 4 категорий 0:08:54.407,0:08:59.280 находятся в неплохой ситуации, 0:08:59.280,0:09:02.367 если говорить об их представлении [br]в Викиданных. 0:09:03.287,0:09:05.818 Это очень хороший результат. 0:09:07.646,0:09:09.129 Сейчас вы видите аналогичный график 0:09:09.129,0:09:12.418 степени использования контента [br]с этими метками 0:09:12.418,0:09:15.085 в Википедии, например, 0:09:17.455,0:09:22.563 и мы видим похожую картину. 0:09:23.603,0:09:29.703 Это говорит о том, что эти сообщества 0:09:29.703,0:09:34.504 вносят много меток [br]для часто используемых элементов. 0:09:36.410,0:09:40.493 Тут есть выпадающие точки, [br]и в этих случаях мы можем 0:09:41.683,0:09:48.202 помочь этим сообществам [br]эффективно применить свои усилия. 0:09:49.312,0:09:52.663 Но в общем мне нравится эта картина. 0:09:53.123,0:09:55.373 ВЗАИМОДЕЙСТВИЕ В ВАШЕМ ЯЗЫКЕ 0:09:56.603,0:09:59.844 Это были элементы и свойства Викиданных. 0:10:00.714,0:10:03.033 Теперь рассмотрим [br]взаимодействие в ваших языках. 0:10:03.033,0:10:05.203 Это лексемы в Викиданных, 0:10:05.203,0:10:08.944 где мы описываем слова, [br]их формы и значения. 0:10:10.167,0:10:13.131 Мы занимаемся этим с мая прошлого года, 0:10:16.461,0:10:19.127 и количество контента растёт. 0:10:20.114,0:10:22.269 Синим цветом обозначены лексемы, 0:10:22.269,0:10:25.938 красным -- формы этих лексем, 0:10:25.938,0:10:29.910 жёлтым -- смыслы лексем. 0:10:30.991,0:10:34.451 Эти сообщества -- [br]вернёмся к этому позже -- 0:10:34.451,0:10:39.863 потратили много времени [br]на создание форм и смыслов для лексем, 0:10:39.863,0:10:42.953 что очень полезно, 0:10:42.953,0:10:47.853 потому что это создаёт [br]ядро нужного набора данных. 0:10:50.562,0:10:55.133 Мы рассмотрели все языки, 0:10:55.133,0:10:57.906 имеющие лексемы на Викиданных. 0:10:57.906,0:11:01.003 У нас есть слова, 0:11:01.713,0:11:04.244 сейчас это 310 языков. 0:11:04.884,0:11:08.290 Как вы думаете, какой язык 0:11:08.290,0:11:11.949 имеет больше всего лексем на Викиданных? 0:11:11.953,0:11:15.120 (аудитория) Шведский [неразборчиво] 0:11:19.183,0:11:20.216 Как? 0:11:20.216,0:11:21.741 (голос из зала 2) Немецкий. 0:11:21.741,0:11:23.902 Извините, я услышала это раньше. 0:11:23.902,0:11:25.111 Это русский. 0:11:28.011,0:11:29.504 Русский далеко впереди. 0:11:31.897,0:11:33.692 Чтобы вам было понятнее, 0:11:35.652,0:11:36.816 есть разные мнения, 0:11:36.816,0:11:41.631 но я читала, что, например, [br]для разговорного уровня 0:11:42.231,0:11:45.450 на другом языке [br]достаточно знать от 1000 до 3000 слов, 0:11:45.450,0:11:49.461 и от 4000 до 10 000 слов [br]для продвинутого уровня. 0:11:51.591,0:11:55.092 Поэтому нам нужно ещё поработать. 0:11:58.483,0:12:02.829 Также хочу обратить [br]ваше внимание на баскский язык, 0:12:03.279,0:12:07.524 там примерно 10 000 лексем. 0:12:09.244,0:12:13.003 Если посмотреть на количество форм [br]для этих лексем, 0:12:14.163,0:12:16.497 то баскский находится довольно высоко, 0:12:18.257,0:12:20.006 и это очень круто. 0:12:20.006,0:12:24.930 Вам стоит пойти на лекцию, [br]которая объясняет этот случай. 0:12:27.341,0:12:30.765 Если посмотреть на количество смыслов, [br]то есть значений слов, 0:12:32.015,0:12:34.551 то баскский будет на первом месте. 0:12:34.921,0:12:37.102 Думаю, это заслуживает аплодисментов. 0:12:37.102,0:12:38.921 (аплодисменты) 0:12:42.949,0:12:45.678 КАКАЯ ЛЕКСЕМА ИМЕЕТ [br]БОЛЬШЕ ВСЕГО ПЕРЕВОДОВ? 0:12:45.678,0:12:47.118 Ещё один вопрос: 0:12:47.118,0:12:50.151 какая лексема имеет [br]больше всего переводов? 0:12:50.361,0:12:54.274 - (аудитория) Кошки. [неразборчиво][br]- Дуглас Адамс. [неразборчиво] 0:12:56.766,0:12:59.674 Хорошие варианты, но нет. 0:13:01.012,0:13:04.017 Вот она, это русское слово «вода». 0:13:09.571,0:13:12.253 Мы много говорили о том, 0:13:12.253,0:13:16.412 сколько у нас есть лексем, форм и смыслов, 0:13:16.412,0:13:20.323 но это только одна часть. 0:13:20.323,0:13:21.515 Вторая часть -- 0:13:21.515,0:13:25.161 это описание этих лексем, [br]форм и смыслов таким способом, 0:13:25.161,0:13:27.037 чтобы их могла прочитать машина. 0:13:27.647,0:13:30.039 Для этого есть утверждения, [br]как в элементах. 0:13:31.479,0:13:36.362 Одно из свойств -- пример использования. 0:13:36.362,0:13:38.582 Тот, кто использует эти данные, 0:13:38.582,0:13:42.089 может понять, [br]как использовать это слово в контексте, 0:13:42.089,0:13:44.158 например, как цитату. 0:13:45.396,0:13:47.113 Здесь на первом месте польский. 0:13:47.900,0:13:49.694 Носители польского хорошо потрудились. 0:13:54.219,0:13:57.680 Другое полезное свойство -- МФА, [br]международный фонетический алфавит, 0:13:57.680,0:13:59.806 то есть произношение слова. 0:14:00.876,0:14:03.684 Очевидно, что русскому языку 0:14:05.134,0:14:07.516 нужно много МФА-утверждений. 0:14:10.419,0:14:13.314 Зато польский на втором месте. 0:14:17.148,0:14:20.753 И наконец, запись произношения. 0:14:20.753,0:14:23.372 Это ссылки на файлы в Викискладе, 0:14:23.372,0:14:25.689 где кто-то говорит слово, 0:14:25.689,0:14:29.913 и вы слышите произношение носителя языка. 0:14:29.913,0:14:32.871 Это на случай, если вы не можете [br]прочитать МФА, например. 0:14:34.959,0:14:39.115 Ещё есть очень хороший Википроект, 0:14:39.115,0:14:40.354 называется Lingua Libre, 0:14:40.884,0:14:45.173 там можно делать аудиозаписи слов [br]на вашем языке. 0:14:45.173,0:14:47.836 Потом их добавляют [br]к лексемам на Викиданных, 0:14:48.446,0:14:51.763 чтобы люди знали, [br]как произносить ваши слова. 0:14:53.663,0:14:55.694 (голос из зала 3) [неразборчиво] 0:14:55.694,0:14:57.665 Если вы поищете «Lingua Libre», 0:14:57.665,0:15:00.981 и я уверена, что кто-то может [br]выложить это в Telegram-канале. 0:15:03.138,0:15:04.241 Эти ребята крутые. 0:15:04.491,0:15:06.726 Они много чего сделали с Викибазой. 0:15:07.961,0:15:09.416 ЧТО ДЕЛАТЬ ДАЛЬШЕ? 0:15:09.416,0:15:10.427 Хорошо. 0:15:12.706,0:15:17.055 Теперь вопрос: что делать дальше? 0:15:19.165,0:15:22.010 Судя по числаv, которые я вам показала, 0:15:23.030,0:15:25.172 мы провели большую работу для того, 0:15:25.172,0:15:27.890 чтобы больше людей [br]могли получить больше знаний 0:15:28.430,0:15:30.950 о языках на Викиданных. 0:15:32.530,0:15:36.392 Но нам ещё много чего нужно сделать. 0:15:38.992,0:15:42.341 Вы тоже можете помочь, например, 0:15:42.341,0:15:44.921 организовывать марафоны меток,[br]то есть собирать людей, 0:15:44.921,0:15:49.964 чтобы ставить метки [br]на элементы в Викиданных, 0:15:50.914,0:15:55.121 или устроить вики-марафон[br]для лексем в вашем языке, 0:15:55.121,0:15:58.952 чтобы внести распространённые слова [br]в Викиданные. 0:16:00.773,0:16:03.285 Или используйте инструмент [br]типа Terminator, 0:16:03.285,0:16:08.143 который поможет найти [br]самые важные элементы в вашем языке, 0:16:08.493,0:16:11.549 у которых до сих пор нет метки. 0:16:13.274,0:16:18.359 Важность определяется [br]частотой использования 0:16:18.359,0:16:22.203 в других элементах Викиданных [br]в виде ссылок в утверждениях. 0:16:25.768,0:16:30.022 Что касается лексем, 0:16:31.342,0:16:35.169 у нас уже есть базовое количество, 0:16:35.169,0:16:41.163 и теперь их нужно расширять, [br]добавлять больше утверждений, 0:16:41.163,0:16:44.401 так, чтобы на их основе 0:16:44.401,0:16:47.291 можно было создавать [br]полноценные приложения. 0:16:48.141,0:16:50.795 Потому что мы приближаемся [br]к этой критической массе, 0:16:50.795,0:16:53.616 но до создания серьёзных приложений 0:16:53.616,0:16:56.624 всё ещё далеко. 0:16:58.277,0:17:01.680 И я надеюсь, что вы к нам присоединитесь. 0:17:02.583,0:17:07.103 Наши друзья 0:17:07.103,0:17:09.793 немного нам помогают. 0:17:09.793,0:17:12.262 Бруно, не хочешь ли выйти... 0:17:12.262,0:17:14.002 ЛЕКСИЧЕСКИЕ МАСКИ ДЛЯ ВАЛИДАЦИИ ЛЕКСИКОНОВ 0:17:14.002,0:17:16.854 ...и рассказать нам о лексических масках? 0:17:17.541,0:17:18.567 (Бруно) Спасибо, Лидия. 0:17:18.567,0:17:21.519 Спасибо за возможность[br]презентовать нашу работу, 0:17:21.519,0:17:24.810 которую мы делаем в Google вместе с Денни. 0:17:24.810,0:17:29.295 [br]Многие из вас его знают. 0:17:30.126,0:17:32.030 Я лингвист в Google, 0:17:32.030,0:17:36.150 и я очень рад встретить здесь [br]таких же языковых энтузиастов. 0:17:36.620,0:17:39.278 Мы также создаём лексиконы, 0:17:39.278,0:17:42.606 и мы создали технологию, или подход, 0:17:42.606,0:17:45.589 который может быть полезным для вас. 0:17:46.369,0:17:48.455 Для наглядности, 0:17:48.455,0:17:52.068 здесь моя лекция [br]о лексикографическом фоне. 0:17:52.788,0:17:54.347 Когда мы создаём базу данных лексикона, 0:17:54.347,0:17:58.623 их очень трудно поддерживать, [br]обеспечивать устойчивость 0:17:58.623,0:18:00.125 и обмен данными, 0:18:00.125,0:18:01.867 думаю, вы это знаете. 0:18:02.517,0:18:05.927 Мы пытаемся унифицировать [br]лингвистическую особенность и свойства, 0:18:05.927,0:18:09.184 которые описывают эти лексемы и формы. 0:18:09.184,0:18:10.936 Эта проблема пока что не решена, 0:18:10.936,0:18:13.778 но есть некоторые попытки унификации. 0:18:13.778,0:18:15.289 Чего действительно не хватает -- 0:18:15.289,0:18:18.732 и эта проблема была у нас [br]с начала проекта в Google -- 0:18:18.732,0:18:21.607 это попыток создать внутреннюю структуру, 0:18:22.197,0:18:25.910 которая описывает, [br]как должна выглядеть словарная статья, 0:18:25.910,0:18:28.581 какие данные [br]или какая информация у нас есть, 0:18:28.581,0:18:31.907 и ожидаемые характеристики. 0:18:32.747,0:18:38.187 И мы придумали маску лексикона. 0:18:38.897,0:18:44.841 Маска лексикона описывает то, [br]что должно быть в статье, 0:18:44.841,0:18:47.329 в лексикографической статье,[br]для того, чтобы она была полной 0:18:47.329,0:18:51.436 в контексте количества форм, [br]ожидаемых для лексемы, 0:18:51.436,0:18:55.607 а также количества особенностей, [br]ожидаемых для каждой из этих форм. 0:18:56.397,0:18:58.329 Вот пример с итальянскими прилагательными. 0:18:58.329,0:19:02.002 В итальянском языке вы ожидаете [br]увидеть четыре формы прилагательных, 0:19:02.002,0:19:05.383 и каждая из этих форм имеет [br]специфическую комбинацию особенностей, 0:19:05.383,0:19:07.946 касающихся рода и числа. 0:19:08.606,0:19:12.492 Это то, что мы ожидаем [br]от итальянских прилагательных. 0:19:12.672,0:19:16.176 Конечно, можно создать [br]чрезвычайно сложные маски, 0:19:16.176,0:19:20.563 как для спряжения французских глаголов,[br]которое занимает много места, 0:19:20.783,0:19:23.487 а маску для русского языка [br]я показывать не буду, 0:19:23.487,0:19:25.378 потому что она не поместится на экране. 0:19:26.308,0:19:29.531 Также у нас есть некоторые [br]детальные характеристики, 0:19:29.531,0:19:33.421 потому что мы учитываем различия [br]на уровне форм. 0:19:33.421,0:19:37.544 Здесь есть русские существительные, [br]которые имеют три числа 0:19:37.544,0:19:40.048 и несколько падежей с разными формами, 0:19:40.048,0:19:43.086 но у них также есть характеристика [br]на уровне статьи, 0:19:43.086,0:19:45.590 которая указывает, [br]что существительное имеет 0:19:45.590,0:19:49.743 свойственные ему род [br]и характеристику одушевлённости, 0:19:50.133,0:19:52.488 которые также описаны в маске. 0:19:54.518,0:19:58.779 Мы также хотим выделить то,[br]что маска определяет, 0:19:58.779,0:20:01.874 как в общем должна выглядеть статья. 0:20:01.874,0:20:07.158 У вас могут быть маски поменьше,[br]для недостаточных глаголов формы, 0:20:07.158,0:20:11.282 или для недостаточных глаголов лексемы, [br]которые есть в языке. 0:20:11.282,0:20:14.537 Вот самая простая форма [br]французских глаголов, 0:20:14.537,0:20:19.729 которые имеют только [br]третье лицо единственного числа 0:20:19.729,0:20:23.809 для всех погодных глаголов вроде [br]«дождит» или «снежит», как в английском. 0:20:24.537,0:20:26.493 То есть мы различаем эти два уровня. 0:20:26.923,0:20:29.962 Мы в Google используем это так: 0:20:29.962,0:20:32.643 если у нас есть лексикон, [br]который мы хотим использовать, 0:20:33.063,0:20:38.309 мы используем маску, [br]чтобы буквально бросить лексиконы, 0:20:38.309,0:20:40.163 все статьи, через маску 0:20:40.163,0:20:44.093 и посмотреть, в какой статье [br]есть проблемы со структурой. 0:20:44.093,0:20:46.703 Возможно, нам не хватает формы?[br]Или лингвистической особенности? 0:20:46.703,0:20:51.497 Если есть проблема, люди её оценивают, 0:20:51.497,0:20:53.751 или смотрят, пройдёт ли она через маску. 0:20:53.751,0:20:57.924 Это очень мощный инструмент[br]для проверки качества структуры. 0:20:59.427,0:21:01.964 Сегодня мы с радостью объявляем, 0:21:01.964,0:21:05.408 что мы можем открыть [br]исходные коды нашей маски. 0:21:05.948,0:21:07.573 Вот эта схема. 0:21:07.573,0:21:09.477 Если хотите, мы можем распространить 0:21:09.477,0:21:13.483 и передать их в Викиданные [br]в виде ShEx-файлов. 0:21:13.483,0:21:16.688 Это ShEx-файл [br]для немецких существительных, 0:21:16.688,0:21:20.428 и Денни занимается конвертацией [br]из наших внутренних спецификаций 0:21:20.428,0:21:23.406 в более доступные спецификации. 0:21:23.666,0:21:27.522 Сейчас мы работаем с 25 языками. 0:21:27.522,0:21:29.225 Мы ожидаем рост с нашей стороны, 0:21:29.225,0:21:34.040 но мы также ищем возможности [br]сотрудничества для других языков. 0:21:34.350,0:21:40.268 Денни и Лукас занимаются [br]одним из таких совместных проектов. 0:21:40.728,0:21:45.052 У Лукаса есть отличные инструменты [br]для интерфейса, 0:21:45.052,0:21:51.061 который поможет пользователям [br]или составителям добавлять больше форм. 0:21:51.061,0:21:54.151 Если вы хотите добавить [br]французское прилагательное, 0:21:54.151,0:21:59.057 интерфейс подскажет вам, [br]сколько форм ожидается, 0:21:59.057,0:22:01.562 и какие лингвистические особенности [br]должны быть у этой формы. 0:22:01.562,0:22:06.268 То есть наша маска поможет [br]определить и расширить инструмент. 0:22:07.238,0:22:08.385 У меня всё. 0:22:08.791,0:22:10.358 (Лидия) Спасибо большое. 0:22:10.358,0:22:11.993 (аплодисменты) 0:22:14.249,0:22:16.891 Хорошо.[br]Есть вопросы? 0:22:16.891,0:22:19.221 Хотите ещё поговорить о лексемах? 0:22:19.817,0:22:21.505 - (голос из зала 4) Да.[br]- Да. (хихикает) 0:22:33.485,0:22:35.380 (голос из зала 4) Вы говорили о том, 0:22:35.380,0:22:38.796 чтобы больше людей [br]могли использовать больше языков. 0:22:39.106,0:22:42.444 Но есть много языков, [br]которые нельзя использовать в Викиданных. 0:22:42.444,0:22:44.588 Как вы решаете эту проблему? 0:22:45.889,0:22:47.686 «Нельзя использовать в Викиданных» -- 0:22:47.686,0:22:50.308 вы имеете в виду ввод меток? 0:22:50.308,0:22:52.578 - (голос из зала 4) Меток, описаний.[br]- Понятно. 0:22:52.578,0:22:55.498 С лексемами немного другая ситуация, 0:22:55.498,0:22:57.793 потому что для них нет такого ограничения. 0:22:58.923,0:23:05.003 Для меток на элементах и свойствах [br]ограничение есть, 0:23:05.433,0:23:12.411 потому что мы хотели убедиться, 0:23:12.411,0:23:14.229 что люди не начнут писать что попало 0:23:14.229,0:23:17.399 и что это не выйдет из-под контроля. 0:23:19.349,0:23:23.328 Если маленькое сообщество хочет [br]работать с одним языком, 0:23:23.898,0:23:26.787 обратитесь к нам и мы вам поможем. 0:23:26.787,0:23:29.202 (голос из зала 4) Мы сделали это в мае [br]на хакатоне в Праге, 0:23:29.202,0:23:32.459 и смогли начать использовать [br]наш язык лишь в августе. 0:23:32.459,0:23:35.135 - Да.[br]- (голос из зала 4) Это очень медленно. 0:23:35.135,0:23:37.504 Да, к сожалению, это очень медленно. 0:23:37.854,0:23:39.883 Мы работаем с Комиссией по языку 0:23:39.883,0:23:46.048 над решением некоторых фундаментальных... 0:23:49.537,0:23:55.377 Например, договориться о том, [br]какие языки «разрешены». 0:23:56.047,0:23:59.398 Это происходит очень медленно, 0:23:59.988,0:24:04.178 поэтому ваш запрос занял столько времени. 0:24:04.778,0:24:05.963 (голос из зала 4) Спасибо. 0:24:06.615,0:24:07.950 (голос из зала 5) Спасибо вам. 0:24:07.950,0:24:10.938 Лидия, если вы помните статистику, [br]которую вы показывали, 0:24:10.938,0:24:12.886 количество лексем в языках. 0:24:12.886,0:24:17.599 Вы посчитали все формы как единицу данных, 0:24:17.599,0:24:20.034 или только лексемы? 0:24:21.289,0:24:22.941 (Лидия) Вы имеете в виду эту? 0:24:22.941,0:24:24.053 Какую именно? 0:24:24.053,0:24:25.529 (голос из зала 5) Да, эту. 0:24:25.797,0:24:28.341 Если вы помните, [br]это количество обозначает 0:24:28.341,0:24:31.954 все формы для всех лексем [br]или только количество лексем? 0:24:31.954,0:24:35.395 - Нет, только количество лексем.[br]- (голос из зала 5) Только количество. 0:24:35.395,0:24:36.797 То есть это просто статистика, 0:24:36.797,0:24:39.390 потому что если добавить ещё и формы -- 0:24:39.390,0:24:40.614 потому я и спрашиваю -- 0:24:40.614,0:24:42.817 тогда все языки с флективной морфологией, 0:24:42.817,0:24:45.027 такие как русский, сербский, [br]словенский и другие, 0:24:45.027,0:24:47.616 имеют преимущество, [br]потому что в них очень много форм. 0:24:47.616,0:24:51.990 (Лидия) Да, это сильно влияет [br]на количество форм. 0:24:51.990,0:24:53.851 (голос из зала 5) [br]Да, этот слайд. Спасибо. 0:24:56.546,0:25:00.224 (голос из зала 6) У меня вопрос о... 0:25:00.644,0:25:06.824 Когда мы говорим [br]о фактических элементах и свойствах, 0:25:07.124,0:25:08.901 Как я понимаю, 0:25:08.901,0:25:11.955 пока что нет способа [br]дать фактический источник 0:25:11.955,0:25:14.726 для существующих меток и описаний. 0:25:14.726,0:25:18.047 Например, если вы говорите 0:25:18.047,0:25:20.920 о свойстве элемента, 0:25:20.920,0:25:24.009 вы можете получить противоречивые метки. 0:25:24.509,0:25:25.739 Да. 0:25:25.739,0:25:27.662 (голос из зала 6) То есть этот человек... 0:25:28.402,0:25:30.781 Например, мы раньше говорили [br]об автохтонных понятиях. 0:25:30.781,0:25:35.965 Согласно одному источнику, [br]этот человек -- норвежский художник. 0:25:35.965,0:25:38.750 Согласно другому источнику -- [br]он саамский художник. 0:25:39.550,0:25:42.883 Ещё у нас была проблема в эстонском, 0:25:42.883,0:25:47.729 где нам нужно было [br]изменить терминологию на официальную, 0:25:47.729,0:25:49.482 в официальных лексиконах, 0:25:49.482,0:25:52.262 но мы не могли указать причину 0:25:52.262,0:25:53.596 и источник изменений, 0:25:53.596,0:25:55.541 и не могли обосновать, [br]почему это нужно сделать. 0:25:55.541,0:25:57.230 Это выглядело, как будто случайный человек 0:25:57.230,0:25:59.615 просто так изменяет термины. 0:25:59.615,0:26:02.520 Появится ли у нас возможность 0:26:02.520,0:26:06.355 указывать надлежащие источники[br]для языковых данных? 0:26:07.045,0:26:11.568 Частично это возможно. 0:26:11.568,0:26:15.958 Например, если у вас есть [br]элемент для личности, 0:26:16.968,0:26:22.720 есть утверждение, имя, [br]фамилия этой личности и так далее, 0:26:22.720,0:26:26.056 тогда вы можете добавить ссылку на это. 0:26:28.211,0:26:32.544 Я сомневаюсь, стоит ли усложнять ссылки 0:26:32.544,0:26:35.557 для меток и описаний, 0:26:35.557,0:26:38.624 но если люди уверены, 0:26:38.624,0:26:44.939 что утверждение имеет недостаточно ссылок, 0:26:44.939,0:26:46.803 то это нужно обсудить. 0:26:49.079,0:26:52.873 Боюсь, что это добавит сложности 0:26:53.303,0:26:56.523 для, надеюсь, немногих случаев, 0:26:57.393,0:27:00.188 но я не против изменений, 0:27:00.188,0:27:04.087 если люди на этом настаивают. 0:27:04.087,0:27:08.177 (голос из зала 6) Тогда это [br]не должно быть опцией по умолчанию, 0:27:08.177,0:27:12.452 которую видят все новички в интерфейсе. 0:27:12.452,0:27:16.190 Например «Нажмите, [br]если хотите уточнить информацию». 0:27:17.632,0:27:23.368 Знаете ли вы, как часто [br]это будет использоваться? 0:27:24.520,0:27:26.423 (голос из зала 6) Например, в эстонском... 0:27:26.423,0:27:28.844 Думаю, также и в других языках... 0:27:29.274,0:27:34.203 Например, официальное название [br]с утверждённым переводом 0:27:34.203,0:27:35.686 на английский 0:27:36.206,0:27:40.314 определённого типа муниципалитета. 0:27:40.614,0:27:42.182 Например, в моём случае 0:27:42.182,0:27:44.409 мы использовали слово «приход», 0:27:45.159,0:27:50.575 его исходное значение в эстонском -- [br]что-то вроде церковного прихода, 0:27:50.575,0:27:51.899 то есть это происхождение слова, 0:27:51.899,0:27:54.809 но не современный официальный перевод. 0:27:55.189,0:27:58.993 В этом случае стоит добавить его [br]как утверждение официального названия, 0:27:58.993,0:28:00.817 и также добавить туда ссылку. 0:28:02.032,0:28:03.158 (голос из зала 6) Хорошо. 0:28:05.186,0:28:06.572 Ещё вопросы?[br]Да? 0:28:07.682,0:28:10.044 (голос из зала 7) [br]У меня два коротких замечания. 0:28:10.044,0:28:13.934 Вы отметили, что астурийский язык [br]занимает хорошую позицию, 0:28:13.934,0:28:16.455 но я думаю, что это ложный артефакт. 0:28:16.455,0:28:17.724 Давайте подробнее. 0:28:17.724,0:28:19.748 (голос из зала 7) [br]Я думаю, что это сделал бот, 0:28:19.748,0:28:24.068 который вставил личные имена, [br]собственные имена, 0:28:24.068,0:28:27.172 и сказал: «Это как во французском [br]или испанском», 0:28:27.172,0:28:28.558 и просто скопировал всё это. 0:28:28.558,0:28:30.256 Об этом говорит хотя бы то, 0:28:30.256,0:28:33.316 что в астурийском [br]вы не увидите таких усилий там, 0:28:33.316,0:28:36.955 где действительно нужен перевод, [br]например, в названиях свойств 0:28:36.955,0:28:39.648 или названиях элементов, которые [br]не являются собственными именами. 0:28:39.648,0:28:41.219 Асаф, вы разбиваете мне сердце. 0:28:41.219,0:28:43.198 (голос из зала 7) Я знаю.[br]Люблю портить праздники. 0:28:43.198,0:28:48.458 Но у меня есть хорошие новости [br]о количестве произношений. 0:28:49.408,0:28:53.215 Как вы знаете, на Викискладе [br]полно файлов с произношениями, 0:28:54.508,0:29:01.102 например, для нидерландского языка [br]их не меньше 300 000, 0:29:01.912,0:29:05.051 и всё это надо как-то обработать. 0:29:05.051,0:29:07.697 Так что если кому-то [br]нужен сторонний проект, 0:29:07.697,0:29:09.427 то на Викискладе вы найдёте очень много 0:29:09.427,0:29:13.280 классифицированных файлов с произношениями 0:29:13.280,0:29:16.893 в категории «Произношение» по языкам. 0:29:16.893,0:29:22.780 Их нужно привязать к лексемам [br]и добавить в Lexeme. 0:29:23.180,0:29:25.484 И ещё, можете ли вы сказать что-нибудь 0:29:25.484,0:29:26.585 о плане действий, 0:29:26.585,0:29:28.757 насчёт того, сколько инвестиций 0:29:28.757,0:29:31.995 и всего прочего мы можем ожидать [br]от Lexeme в будущем году, 0:29:31.995,0:29:34.020 потому что я жду с нетерпением. 0:29:34.949,0:29:36.974 Ждетё с нетерпением? (хихикает) 0:29:36.974,0:29:39.118 - (голос из зала 7) Ожидаю большего.[br]- Да. (хихикает) 0:29:44.541,0:29:49.293 Сейчас мы больше заняты [br]Викибазой и качеством данных, 0:29:51.493,0:29:55.087 хотим увидеть результативность, 0:29:55.087,0:30:01.646 затем нам нужно найти проблемные точки, 0:30:01.646,0:30:06.003 а потом вернуться к улучшению[br]лексикографических данных. 0:30:06.903,0:30:09.790 Очень хочется услышать ваше мнение 0:30:09.790,0:30:14.136 по поводу того, куда нам двигаться, 0:30:14.136,0:30:15.966 какие изменения вы хотите видеть, 0:30:15.966,0:30:20.250 чтобы мы могли решить, как это сделать. 0:30:21.125,0:30:22.810 Но вы, конечно, правы, 0:30:22.810,0:30:25.712 там ещё много работы [br]с технической стороны. 0:30:30.573,0:30:35.848 (голос из зала 8) Когда мы загружали [br]баскские слова с формами -- 0:30:35.848,0:30:37.768 вы увидите кое-что из этого -- 0:30:37.768,0:30:41.329 и на прошлой неделе мы сказали: [br]«Ого, мы заняли первое место.» 0:30:42.919,0:30:44.928 Об этом даже пресса пишет: 0:30:44.928,0:30:49.338 «Ого, баски заняли первое место в чём-то.» 0:30:49.338,0:30:50.606 (смеётся) 0:30:50.606,0:30:53.318 И тогда люди спрашивают: [br]«А для чего это нужно?» 0:30:54.678,0:30:56.849 Тут мы не знаем, что ответить. 0:30:56.849,0:30:57.888 Можно сказать, 0:30:57.888,0:31:01.801 что это поможет компьютерам [br]лучше понимать языки, 0:31:01.801,0:31:05.279 но какие инструменты [br]мы можем создать в будущем? 0:31:05.279,0:31:07.467 На это у нас нет чёткого ответа. 0:31:07.467,0:31:10.625 Возможно, ответ есть у вас. 0:31:10.625,0:31:12.742 (хихикает) Не знаю, [br]есть ли у меня чёткий ответ, 0:31:12.742,0:31:14.746 зато есть просто ответ. 0:31:15.480,0:31:20.425 Пока что, как я говорила [неразборчиво], 0:31:20.425,0:31:21.924 мы не достигли той критической массы, 0:31:21.924,0:31:25.529 которая позволяет создать [br]много интересных инструментов. 0:31:25.529,0:31:27.707 Некоторые инструменты уже существуют. 0:31:28.267,0:31:31.912 Например, на днях [Эстер Панделия] 0:31:31.912,0:31:33.877 выпустила инструмент, где можно увидеть... 0:31:35.837,0:31:38.889 Кажется, там были слова на глобусе, 0:31:38.889,0:31:41.761 их происхождение и распространение. 0:31:42.631,0:31:44.090 Я точно не знаю. 0:31:44.090,0:31:46.346 Но она ответила в Project chat [br]на Викиданных, 0:31:46.346,0:31:48.984 можете поискать там. 0:31:49.574,0:31:51.805 Мы видели эти первые инструменты, 0:31:51.805,0:31:55.696 как тогда, когда начинали [br]создавать Викиданные. 0:31:56.846,0:31:59.602 Сначала некоторые...это была просто сеть, 0:31:59.602,0:32:03.424 что-то вроде: «Смотри, [br]эта штука связана с той штукой.» 0:32:04.824,0:32:07.059 Когда мы собрали больше данных 0:32:07.059,0:32:10.352 и достигли некоторой критической массы, 0:32:11.852,0:32:14.747 появились более мощные приложения, 0:32:15.677,0:32:17.356 например, Histropedia, 0:32:19.126,0:32:21.988 или вопросы и ответы 0:32:21.988,0:32:26.663 в персональном цифровом [br]помощнике Platypus, и так далее. 0:32:26.663,0:32:29.668 Мы видим похожую ситуацию с лексемами. 0:32:31.198,0:32:34.650 Мы на том уровне, [br]где можно создать такие маленькие... 0:32:34.650,0:32:37.214 «Смотрите, тут есть связь [br]между двумя вещами», 0:32:37.864,0:32:42.738 и есть перевод этого слова [br]в этом языковом уровне, 0:32:42.738,0:32:47.747 и чем больше мы развиваем это,[br]чем больше слов описываем, 0:32:47.747,0:32:49.533 тем больше возможностей появляется. 0:32:49.533,0:32:51.795 Какие именно возможности? 0:32:53.482,0:32:59.483 Бен, наш главный спикер, [br]говорил о переводах, 0:33:00.103,0:33:03.115 о возможности перевода [br]с одного языка на другой. 0:33:03.455,0:33:07.929 И мой коллега Йенс всегда говорит о том, 0:33:07.929,0:33:11.452 что Евросоюз ищет переводчика 0:33:11.452,0:33:17.439 с мальтийского на шведский, [br]если не ошибаюсь. 0:33:17.439,0:33:19.436 - (голос из зала) Эстонский.[br]- Эстонский. 0:33:22.016,0:33:26.211 Это редкая комбинация. 0:33:27.211,0:33:31.735 Но если собрать все эти языки [br]в один машинно-читаемый массив, 0:33:31.735,0:33:33.143 то вы сможете это сделать, 0:33:33.143,0:33:36.857 вы сможете найти словарь 0:33:36.857,0:33:41.735 для перевода с эстонского [br]на мальтийский и обратно. 0:33:42.935,0:33:45.607 Внесение в словари языковых комбинаций, 0:33:45.607,0:33:47.911 которых там не было раньше, 0:33:47.911,0:33:51.050 потому что на них не было спроса, 0:33:51.050,0:33:55.540 достаточного для финансовой выгоды. 0:33:55.540,0:33:57.147 Теперь мы можем это сделать. 0:33:59.797,0:34:02.318 Затем следующее поколение. 0:34:02.318,0:34:03.653 Люси говорила о том, 0:34:03.653,0:34:07.106 как она работает с Хэтти 0:34:08.536,0:34:10.136 над генерацией текста, 0:34:10.136,0:34:14.673 чтобы начать писать статьи в Википедии [br]на языках меньшинств. 0:34:15.423,0:34:19.512 Для этого нужны данные о словах 0:34:19.512,0:34:22.479 и знание языка. 0:34:23.769,0:34:28.013 Это то, что мне вспомнилось [br]на данный момент. 0:34:28.693,0:34:30.494 Возможно, аудитория предложит больше идей 0:34:30.494,0:34:34.353 насчёт того, что мы будем делать [br]с этими выдающимися данными. 0:34:37.693,0:34:40.892 (голос из зала 9) [br]Я отклонюсь от темы лексем. 0:34:40.892,0:34:42.666 Я хочу спросить, 0:34:42.666,0:34:45.634 как я, как член сообщества, 0:34:45.634,0:34:50.135 могу повлиять на приоритет задания,[br]если приходит новый пользователь, 0:34:50.135,0:34:56.644 и он может указать, какие языки [br]он хочет видеть и редактировать 0:34:56.644,0:35:01.135 без знания каких-то [br]секретных словесных шаблонов. 0:35:02.145,0:35:05.053 Возможно, в этом году появится [br]технический список желаний 0:35:05.053,0:35:07.040 без тем Википедии. 0:35:07.040,0:35:11.379 Надеюсь, мы все сможем [br]проголосовать за эту вещь, 0:35:11.379,0:35:13.918 которую мы семь лет не могли исправить. 0:35:14.218,0:35:17.607 Есть ли у вас идеи [br]и замечания на этот счёт? 0:35:18.217,0:35:20.328 Вы имеете в виду, 0:35:20.328,0:35:23.518 что пользователь, [br]не зарегистрированный в Викиданных, 0:35:23.518,0:35:25.621 не может просто изменить язык? 0:35:25.621,0:35:27.989 (голос из зала 9) Нет, [br]для [неразборчиво] пользователей. 0:35:28.309,0:35:30.689 Если они вошли в систему, 0:35:30.689,0:35:34.601 они могут изменить язык вверху страницы 0:35:35.891,0:35:38.099 и он появится там, 0:35:39.769,0:35:42.013 где есть описание метки [неразборчиво], 0:35:42.013,0:35:43.583 и его можно будет редактировать. 0:35:45.657,0:35:49.009 (голос из зала 9) [br]Чаще всего в рабочем процессе 0:35:49.009,0:35:52.447 нужно иметь доступ ко многим языкам, 0:35:52.447,0:35:55.419 но это не всегда возможно. 0:35:55.419,0:35:58.584 Хорошо, давайте встретимся [br]после доклада и обсудим это. 0:36:01.562,0:36:04.089 Отлично.[br]Ещё вопросы? 0:36:05.534,0:36:06.536 Да? 0:36:11.305,0:36:13.196 (голос из зала 10) Спасибо за презентацию. 0:36:14.106,0:36:15.127 Можете прокомментировать 0:36:15.127,0:36:19.307 состояние корреляции [br]с сообществом Викисловаря? 0:36:19.307,0:36:22.296 Насколько я знаю, ведутся дискуссии 0:36:22.296,0:36:26.051 об импортировании [br]некоторых элементов работы, 0:36:26.051,0:36:30.843 но там есть проблемы с лицензированием [br]и некоторые разногласия. 0:36:30.843,0:36:31.848 (Лидия) Да. 0:36:31.848,0:36:36.330 Сообщества Викисловаря [br]потратили много времени 0:36:37.320,0:36:39.473 на его создание. 0:36:39.473,0:36:42.643 Они создали 0:36:43.193,0:36:47.554 невероятно сложные и комплексные шаблоны 0:36:47.554,0:36:53.614 для создания удобных таблиц, [br]которые автоматически генерируют формы, 0:36:53.614,0:36:56.392 и ещё много разных впечатляющих 0:36:56.392,0:37:00.413 и невообразимых вещей. 0:37:02.311,0:37:07.724 И конечно же, они вложили в это [br]много времени и усилий. 0:37:09.364,0:37:11.801 Поэтому их можно понять, 0:37:11.801,0:37:17.116 они не хотят, чтобы результаты их работы 0:37:18.046,0:37:19.102 кто-то взял просто так. 0:37:19.102,0:37:21.491 Поэтому такая ситуация. 0:37:22.761,0:37:25.137 И это нормально. 0:37:25.737,0:37:31.192 Сейчас первые сообщества [br]Викисловаря говорят о том, 0:37:31.192,0:37:34.329 чтобы передать и импортировать [br]некоторые данные в Викиданные. 0:37:34.329,0:37:39.095 Вы уже видели русский, [br]это один из таких случаев. 0:37:40.375,0:37:42.355 И я ожидаю большего. 0:37:43.635,0:37:46.800 Но это медленный процесс, 0:37:46.800,0:37:49.383 такой же медленный, 0:37:49.383,0:37:51.909 как внедрение данных [br]из Викиданных в Википедию. 0:37:52.849,0:37:56.183 С другой стороны, нужно упростить 0:37:56.183,0:37:59.132 использование данных [br]из лексем в Викисловаре, 0:37:59.132,0:38:02.209 чтобы они могли пользоваться ими 0:38:02.209,0:38:05.531 и делиться данными [br]с разными Викисловарями, 0:38:05.531,0:38:08.853 что сейчас почти невозможно. 0:38:08.853,0:38:11.350 И это ужасно, так же, [br]как это было в Википедии. 0:38:13.860,0:38:16.325 Дождитесь подарка на день рождения.[br](хихикает) 0:38:19.938,0:38:20.992 Да? 0:38:22.459,0:38:24.827 (голос из зала 11) Когда я думала, [br]как решить эту проблему, 0:38:24.827,0:38:28.168 то не хотела говорить,[br]потому что это казалось мне глупым, 0:38:28.168,0:38:32.003 но я думаю, что в Викисловаре [br]уже есть некоторый контент, 0:38:32.003,0:38:34.978 и я знаю, что мы не можем [br]передать его в Викиданные 0:38:34.978,0:38:37.048 из-за разницы в лицензиях. 0:38:37.048,0:38:39.631 Но я думаю, что с этим [br]можно что-то сделать. 0:38:40.321,0:38:45.443 Возможно, мы можем [br]получить разрешение сообществ 0:38:45.913,0:38:51.205 после общего голосования, 0:38:52.075,0:38:57.522 чтобы активные участники сообщества[br]проголосовали и сказали, 0:38:57.522,0:39:02.523 хотят ли они принять или передать контент, 0:39:02.523,0:39:05.208 для которого они могут [br]создать лексемы в Викиданных. 0:39:06.238,0:39:08.537 Иначе это непродуктивно. 0:39:09.568,0:39:14.203 Это как раз тот разговор, 0:39:14.203,0:39:18.249 который нужно начать[br]в сообществах Викисловаря. 0:39:18.249,0:39:24.647 Для нас было бы неуместным [br]навязывать им это. 0:39:25.917,0:39:31.142 Но я думаю, что это стоит обсудить. 0:39:31.142,0:39:33.898 Также важно понимать, 0:39:33.898,0:39:39.082 что есть разница между тем, [br]что легально разрешено, 0:39:39.082,0:39:43.147 тем, что мы должны делать, 0:39:43.147,0:39:45.516 и тем, чего хотят или не хотят эти люди. 0:39:45.736,0:39:47.329 Поэтому, даже если это легально, 0:39:47.329,0:39:50.640 но другие сообщества Викисловаря [br]этого не хотят, 0:39:50.640,0:39:53.537 то здесь нужно быть осторожными. 0:39:58.886,0:40:02.489 Возьмите микрофон для трансляции. 0:40:04.540,0:40:07.299 (голос из зала 12) [br]Всё это очень интересно, 0:40:07.979,0:40:12.009 и я уже думаю, как рассказать [br]об этом моим студентам 0:40:12.319,0:40:15.558 и как включить это в курс лекций, 0:40:15.558,0:40:18.531 в нашу работу, учебный процесс. 0:40:18.531,0:40:22.271 На данный момент 0:40:22.871,0:40:24.116 мне не хватает знаний, 0:40:24.116,0:40:27.188 но я думаю, что наша документация 0:40:27.808,0:40:30.082 нуждается в улучшении. 0:40:30.082,0:40:33.437 Было бы хорошо сделать [br]интересные видео, 0:40:33.437,0:40:35.898 которые объясняют, как это работает. 0:40:35.898,0:40:39.948 Мы могли бы их использовать, 0:40:39.948,0:40:41.985 чтобы заинтересовать студентов 0:40:41.985,0:40:47.072 и объяснить людям, как это здорово. 0:40:47.072,0:40:52.001 Просто подумайте [br]о документации и образовании. 0:40:52.001,0:40:54.480 Я думаю, многое можно сделать. 0:40:54.480,0:40:58.585 Есть много задач, [br]к которым можно привлечь... 0:41:00.125,0:41:02.033 ...ну, не начальную школу, 0:41:02.033,0:41:05.495 но хотя бы старших школьников. 0:41:05.915,0:41:10.866 Очень бы хотелось [br]использовать этот потенциал, 0:41:10.866,0:41:15.272 хотя пока что я плохо разбираюсь в этом 0:41:15.272,0:41:19.500 и не могу ставить задачи или... 0:41:20.430,0:41:22.155 ...делать что-нибудь на практике. 0:41:22.155,0:41:25.772 Если у вас есть [br]любые идеи по этому поводу, 0:41:25.772,0:41:29.648 я с удовольствием их выслушаю. 0:41:30.508,0:41:32.129 Да, мы поговорим об этом. 0:41:35.473,0:41:37.139 Ещё вопросы? 0:41:37.809,0:41:39.195 Кто-то поднимал руку. 0:41:39.195,0:41:40.505 Не помню, кто именно. 0:41:45.739,0:41:49.996 (голос из зала 13) Если мы не можем [br]импортировать из Викисловаря, 0:41:49.996,0:41:55.772 есть ли согласованные мероприятия, [br]чтобы найти другие окрытые источники, 0:41:55.772,0:41:57.459 возможно, все данные, 0:41:58.769,0:42:03.167 как-то отфильтровать и организовать их, 0:42:03.167,0:42:08.210 чтобы их можно было [br]легко проверить для импорта? 0:42:09.093,0:42:11.181 Первые мероприятия уже есть. 0:42:11.181,0:42:14.769 Я так понимаю, [br]баскский язык -- одно из них. 0:42:14.769,0:42:17.474 Хотите рассказать об этом? 0:42:18.426,0:42:20.130 (голос из зала 14) [inaudible] 0:42:23.166,0:42:27.148 Фактический ответ -- заплатить за это... 0:42:28.374,0:42:33.381 У нас есть договор с подрядчиком, [br]с которым мы обычно работаем. 0:42:34.801,0:42:38.265 Они создают словари -- 0:42:40.315,0:42:42.458 и ещё много чего, словари в том числе. 0:42:42.458,0:42:47.473 Мы договорились с ними о создании [br]бесплатного словаря для студентов. 0:42:47.473,0:42:52.782 Мы бы взяли часто употребляемые слова [br]и начали загружать их 0:42:52.782,0:42:55.590 с внешним идентификатором [br]и схемой этих вещей. 0:42:56.420,0:43:02.902 Но у нас была дискуссия, [br]оставлять ли это на лицензии CC0, 0:43:03.212,0:43:05.322 потому что у них есть [br]словарь с лицензией CC BY 0:43:06.537,0:43:10.326 и они поняли, в чём разница. 0:43:10.326,0:43:13.866 Поэтому была дискуссия. 0:43:13.866,0:43:19.709 Но я думаю, что в будущем мы сможем [br]предоставить инструменты или примеры, 0:43:19.709,0:43:21.761 и я думаю, что будут другие словари, 0:43:21.761,0:43:24.016 с которыми мы сможем работать. 0:43:24.016,0:43:29.274 Я также думаю, что Викисловарь [br]должен двигаться в этом направлении, 0:43:29.274,0:43:32.170 но это уже другая большая дискуссия. 0:43:33.285,0:43:34.487 Кроме того, 0:43:34.487,0:43:38.839 Леа общается с людьми из Окситании, 0:43:38.839,0:43:41.827 которые работают [br]над окситанскими словарями, 0:43:41.827,0:43:45.138 и сейчас они работают [br]над совместным проектом в шумерском. 0:43:51.644,0:43:53.303 Ещё вопросы? 0:44:01.487,0:44:05.349 (голос из зала 15) Привет![br]Мы хотим импортировать окситанские данные. 0:44:05.349,0:44:06.505 Отлично! 0:44:06.505,0:44:08.678 (голос из зала 15) [br]И у нас небольшая проблема. 0:44:09.078,0:44:14.215 Мы не знаем, как представить [br]всё разнообразие лексем. 0:44:14.215,0:44:17.893 У нас шесть диалектов, 0:44:17.893,0:44:24.014 и мы хотим указать, [br]в каком диалекте используется лексема, 0:44:24.014,0:44:27.285 и у нас нет подходящего [br]C0-утверждения, чтобы это сделать. 0:44:27.285,0:44:31.105 Пока сегмента не существует, 0:44:31.635,0:44:34.465 это не позволяет нам [неразборчиво] 0:44:34.465,0:44:37.603 потому что нам придётся сделать это снова, 0:44:37.603,0:44:42.076 когда мы сможем [br][экспортировать] утверждение. 0:44:42.076,0:44:44.551 И это сложно, [br]потому что это утверждение 0:44:44.551,0:44:47.802 заинтересует немногих людей, 0:44:47.802,0:44:53.174 потому что оно касается [br]в основном языков меньшинств. 0:44:53.444,0:44:56.933 Один человек спросит об этом. 0:44:56.933,0:45:00.022 Но, как у наших коллег басков, 0:45:00.022,0:45:06.082 один человек может привлечь тысячи других, 0:45:06.082,0:45:10.884 может быть, это не много, 0:45:10.884,0:45:14.136 но для нас это очень важно. 0:45:14.874,0:45:17.600 У вас уже есть [br]новое предложение о свойствах, 0:45:17.600,0:45:19.400 или вам нужна помощь в его создании? 0:45:21.524,0:45:24.300 (голос из зала 15) Мы просили об этом [br]четыре месяца назад. 0:45:24.720,0:45:28.635 Хорошо, попросим кого-нибудь [br]помочь с этим предложением. 0:45:30.159,0:45:32.912 Думаю, здесь достаточно людей, [br]которые могут это сделать. 0:45:32.912,0:45:35.512 (голос из зала 15) Предложение о свойствах[br][говорит по-французски] 0:45:35.512,0:45:36.965 (голос из зала) Нам не ответили. 0:45:36.965,0:45:39.699 (голос из зала 15) Нам не ответили, [br]и мы не знаем, как это сделать, 0:45:39.699,0:45:42.953 потому что мы не из сообщества Викиданных. 0:45:44.694,0:45:48.497 Здесь есть люди, которые могут вам помочь. 0:45:48.817,0:45:52.134 Поднимите руку, кто возьмёт... 0:45:52.574,0:45:53.644 (голос из зала 16) Я могу. 0:45:53.644,0:45:55.512 Мне кажется очень интересным то, 0:45:55.512,0:45:59.059 что только вариант формы 0:45:59.059,0:46:02.607 может управлять этим территориально, 0:46:02.607,0:46:04.995 с помощью координат или картографии. 0:46:05.595,0:46:07.815 А также разные произношения, 0:46:07.815,0:46:11.837 думаю, это бывает во многих языках. 0:46:12.607,0:46:16.262 Нам нужно как-то реализовать это [br][неразборчиво], 0:46:16.262,0:46:18.865 я займусь поиском свойства. 0:46:19.782,0:46:20.933 Отлично. 0:46:20.933,0:46:24.446 Вы получите поддержку [br]для вашего предложения о свойствах. 0:46:26.136,0:46:27.297 Спасибо вам. 0:46:28.153,0:46:30.261 Хорошо, есть ещё вопросы? 0:46:32.410,0:46:33.474 Финн. 0:46:33.974,0:46:35.055 Финн -- один из тех людей, 0:46:35.055,0:46:38.031 которые создают разработки [br]на основе лексикографических данных. 0:46:38.031,0:46:40.085 (Финн) У меня небольшой вопрос 0:46:40.405,0:46:44.226 о вариациях в произношении. 0:46:44.896,0:46:48.002 Их нелегко внести в... 0:46:48.532,0:46:53.368 Конечно, одно и то же слово [br]может иметь разные формы. 0:46:56.327,0:46:58.448 Не знаю, мне кажется... 0:46:59.558,0:47:03.535 Если не сделать это таким способом,[br]то будет трудно уточнить... 0:47:04.771,0:47:05.888 Хотя я не знаю, 0:47:05.888,0:47:09.731 это мелкая техническая проблема или... 0:47:09.731,0:47:11.252 Давайте вместе разберёмся. 0:47:11.642,0:47:15.230 Хочется увидеть пример. 0:47:17.478,0:47:18.478 Асаф. 0:47:26.886,0:47:28.396 (Асаф) Спасибо. 0:47:29.386,0:47:33.685 Я могу дать очень хороший пример [br]из моего родного языка, иврита. 0:47:34.205,0:47:38.275 В иврите есть два основных варианта 0:47:38.825,0:47:42.326 для выражения почти каждого слова, 0:47:42.786,0:47:47.640 потому что традиционное написание 0:47:47.640,0:47:50.044 пропускает многие гласные буквы. 0:47:50.934,0:47:55.207 Поэтому в современных изданиях [br]Библии и поэзии 0:47:55.207,0:47:57.071 используются диакритические знаки. 0:47:57.461,0:48:02.670 Но эти знаки никогда не используются [br]в современной прозе, 0:48:02.670,0:48:05.974 газетах, на уличных вывесках. 0:48:05.974,0:48:11.099 В ежедневном обиходе добавляются гласные 0:48:11.859,0:48:13.519 и не используются диакритические знаки, 0:48:13.519,0:48:15.607 потому что они громоздкие 0:48:15.607,0:48:17.893 и пишутся по правилам, [br]которых никто не знает. 0:48:18.633,0:48:20.531 Поэтому есть два варианта: 0:48:20.531,0:48:25.322 повседневный вариант для прозы, 0:48:25.322,0:48:27.827 и отдельно Библия с поэзией, 0:48:27.827,0:48:32.200 которые написаны [br]традиционным текстом с диакритикой. 0:48:32.200,0:48:33.302 Чтобы быть полезной, 0:48:33.302,0:48:37.428 Lexeme должна распознавать [br]обе вариации каждого слова 0:48:37.428,0:48:39.747 и каждую форму каждого слова. 0:48:40.677,0:48:43.391 То есть это случай [br]очень обширного использования 0:48:43.391,0:48:46.340 официальных устойчивых вариантов. 0:48:46.340,0:48:49.052 Это не диалекты и не региональные языки, 0:48:49.332,0:48:53.627 это две сосуществующие [br]морфологические системы. 0:48:54.537,0:48:58.926 Я тоже пока что не знаю, [br]как выразить это в Lexeme, 0:48:58.926,0:49:02.800 и это не даёт мне -- частично [br]отвечаю на вопрос Магнуса -- 0:49:02.800,0:49:05.238 загрузить готовые части 0:49:05.238,0:49:09.394 самого большого словаря иврита, [br]который есть в открытом доступе, 0:49:09.394,0:49:12.701 и который я оцифровываю [br]уже несколько лет. 0:49:13.141,0:49:14.803 Большая часть уже готова, 0:49:14.803,0:49:16.549 но я не выкладываю её в Lexeme, 0:49:16.549,0:49:19.865 потому что я не знаю, [br]как решить эту проблему. 0:49:20.245,0:49:23.387 Хорошо, решим эту проблему здесь.[br](хихикает) 0:49:24.503,0:49:26.021 Должна быть какая-то возможность. 0:49:30.045,0:49:32.047 Ещё вопросы? 0:49:37.173,0:49:39.535 Если нет, спасибо вам большое. 0:49:40.605,0:49:42.675 (аплодисменты)