WEBVTT 00:00:00.111 --> 00:00:02.191 Викиданные и языки 00:00:02.191 --> 00:00:05.477 Лидия Пинчер 00:00:06.223 --> 00:00:07.362 (Лидия) Спасибо большое. 00:00:07.362 --> 00:00:11.244 Языки – одна из важных тем на этой конференции. 00:00:14.220 --> 00:00:18.508 Хочу дать вам общее представление о том, 00:00:18.508 --> 00:00:19.812 как мы работаем с языками, 00:00:20.264 --> 00:00:22.167 и какие у нас есть возможности. 00:00:26.591 --> 00:00:29.021 ДОСТУПНЫЕ ЗНАНИЯ ДЛЯ БОЛЬШЕГО ЧИСЛА ЛЮДЕЙ 00:00:29.036 --> 00:00:32.580 Цель Викиданных -- доступные знания для большего числа людей. 00:00:32.580 --> 00:00:37.168 А для этого нужны языки, 00:00:38.205 --> 00:00:43.291 учитывая то, что наша жизнь всё больше зависит от технологий. 00:00:44.114 --> 00:00:48.873 Как сказал сегодня наш главный спикер, 00:00:49.723 --> 00:00:51.588 люди не успевают за некоторыми технологиями, 00:00:51.588 --> 00:00:54.790 потому что не знают определённого языка. 00:00:55.320 --> 00:00:57.573 И это плохо. 00:00:58.633 --> 00:01:02.097 Мы хотим это исправить. 00:01:02.927 --> 00:01:05.841 Чтобы изменить это, нужны две вещи. 00:01:06.411 --> 00:01:11.000 Первое -- дать людям контент на их языке. 00:01:11.270 --> 00:01:12.955 Второе -- дать людям возможность 00:01:12.955 --> 00:01:15.910 взаимодействовать на их языке 00:01:15.910 --> 00:01:19.189 в этих приложениях или программах. 00:01:20.367 --> 00:01:24.897 Викиданные работают в обеих случаях. 00:01:25.277 --> 00:01:27.928 Первое -- контент на вашем языке, 00:01:28.408 --> 00:01:31.099 то есть элементы и свойства, 00:01:31.319 --> 00:01:33.082 способы описания мира. 00:01:33.082 --> 00:01:35.085 Конечно, этого недостаточно, 00:01:35.085 --> 00:01:39.294 но это позволяет вам двигаться вперёд. 00:01:39.764 --> 00:01:41.847 Второе -- взаимодействие на вашем языке. 00:01:41.847 --> 00:01:46.389 Здесь идут в ход лексемы, 00:01:46.389 --> 00:01:49.382 если вы хотите поговорить с персональным цифровым помощником 00:01:49.382 --> 00:01:54.918 или вам нужно перевести текст с помощью гаджета. 00:01:56.404 --> 00:01:59.254 Давайте рассмотрим контент на вашем языке. 00:01:59.254 --> 00:02:03.396 Что у нас есть в элементах и свойствах? 00:02:05.406 --> 00:02:09.966 В этих элементах и свойствах крайне важны метки. 00:02:10.236 --> 00:02:14.866 Нам нужно знать название сущности, о которой мы говорим. 00:02:15.656 --> 00:02:19.987 И вместо того, чтобы говорить о Q5, 00:02:19.987 --> 00:02:22.180 англоязычные люди знают, что это значит «human», 00:02:22.180 --> 00:02:24.706 немецкоязычные знают, что это «mensch», 00:02:24.706 --> 00:02:25.974 и так далее. 00:02:26.284 --> 00:02:29.742 Эти метки на элементах и свойствах 00:02:29.742 --> 00:02:33.619 создают мост между людьми и машинами. 00:02:33.619 --> 00:02:35.439 А также между самими людьми, 00:02:35.439 --> 00:02:40.115 делая знания всё более доступными. 00:02:41.183 --> 00:02:43.270 КАК ВЫГЛЯДИТ НАШ ОХВАТ? 00:02:43.270 --> 00:02:46.290 Это хорошее устремление. 00:02:46.290 --> 00:02:48.192 Как это выглядит? 00:02:48.342 --> 00:02:49.607 Вот так. 00:02:50.947 --> 00:02:52.416 Здесь вы видите, 00:02:52.416 --> 00:02:58.496 что большинство элементов в Викиданных имеют по две метки, 00:02:58.496 --> 00:03:00.527 то есть метки на двух языках. 00:03:01.697 --> 00:03:03.851 Потом на одном, потом на трёх, 00:03:03.851 --> 00:03:05.865 а дальше вообще всё грустно. 00:03:06.781 --> 00:03:08.411 (тихий смех) 00:03:10.047 --> 00:03:12.713 Над этим нужно поработать. 00:03:14.185 --> 00:03:15.319 Но с другой стороны, 00:03:15.319 --> 00:03:17.478 могло быть и хуже. 00:03:17.478 --> 00:03:19.560 Я ожидала, что в среднем будет одна. 00:03:19.560 --> 00:03:22.503 Поэтому было очень приятно увидеть две. (хихикает) 00:03:23.822 --> 00:03:24.921 КАКИЕ ЯЗЫКИ МЫ ИСПОЛЬЗУЕМ? 00:03:24.921 --> 00:03:26.186 Хорошо. 00:03:27.156 --> 00:03:29.527 Но нас интересует не только количество меток 00:03:29.527 --> 00:03:33.742 на элементах и свойствах. 00:03:33.742 --> 00:03:36.365 Нас также интересует, на каких языках эти метки. 00:03:38.045 --> 00:03:43.764 Здесь вы видите диаграмму языков, 00:03:43.764 --> 00:03:46.838 на которых у нас есть метки для Элементов. 00:03:46.838 --> 00:03:50.669 Наибольшую часть занимают Другие. 00:03:51.229 --> 00:03:53.863 Здесь 100 самых распространённых языков, 00:03:54.533 --> 00:03:58.902 остальные вошли в категорию Другие, чтобы диаграмму можно было читать. 00:03:59.542 --> 00:04:02.142 Здесь есть английский и нидерландский, 00:04:03.002 --> 00:04:04.144 французский, 00:04:05.924 --> 00:04:08.809 и конечно же, астурийский. 00:04:09.659 --> 00:04:11.889 - (голос из зала 1) Ого! - Да, ого! 00:04:13.899 --> 00:04:16.954 Итак, здесь вы видите дисбаланс, 00:04:16.954 --> 00:04:20.114 и у английского языка большое преимущество. 00:04:21.236 --> 00:04:24.107 Если посмотреть на то же самое в Свойствах, 00:04:24.367 --> 00:04:25.839 то здесь ситуация выглядит лучше. 00:04:27.399 --> 00:04:32.750 Возможно, за счёт того, что свойств намного меньше. 00:04:32.750 --> 00:04:36.640 Поэтому даже маленькие сообщества могут успевать за этим. 00:04:36.640 --> 00:04:39.173 И очень важная часть Викиданных -- 00:04:39.173 --> 00:04:40.989 это локализация на вашем языке. 00:04:41.159 --> 00:04:42.204 То есть это хорошо. 00:04:45.752 --> 00:04:48.122 В случае с астурийским языком мы видим, 00:04:48.122 --> 00:04:53.698 что даже маленькие сообщества могут значительно изменить ситуацию 00:04:54.448 --> 00:04:57.085 благодаря упорной работе и самоотдаче, 00:04:57.085 --> 00:04:58.310 и это очень круто. 00:04:59.158 --> 00:05:01.846 У КАКОГО СВОЙСТВА БОЛЬШЕ ВСЕГО МЕТОК? 00:05:01.846 --> 00:05:03.110 У меня для вас вопрос: 00:05:03.530 --> 00:05:05.493 если взять все свойства в Викиданных, 00:05:05.493 --> 00:05:07.377 которые не являются внешними идентификаторами, 00:05:07.597 --> 00:05:10.358 какие из них имеют больше всего меток, то есть больше всего языков? 00:05:10.977 --> 00:05:13.847 (аудитория) [неразборчиво] 00:05:13.847 --> 00:05:16.696 Я слышу версию «экземпляр класса»? 00:05:17.506 --> 00:05:19.443 Неправильно. 00:05:19.983 --> 00:05:22.210 Это изображение. (хихикает) 00:05:23.230 --> 00:05:26.366 Поэтому, если вы говорите на языке, 00:05:26.366 --> 00:05:28.621 в котором еще нет метки для экземпляра класса, 00:05:28.621 --> 00:05:30.190 то стоит её добавить. 00:05:32.102 --> 00:05:35.676 Сейчас у него есть 148 меток. 00:05:37.688 --> 00:05:41.249 Ещё один слайд. 00:05:42.631 --> 00:05:44.162 Этот график показывает, 00:05:44.162 --> 00:05:49.321 сколько контента доступно на определённом языке, 00:05:49.321 --> 00:05:52.042 и какая доля этого контента используется. 00:05:52.042 --> 00:05:55.448 На этой кривой вы видите, 00:05:55.448 --> 00:06:00.987 что большая часть контента доступна на английском и с английскими метками, 00:06:01.507 --> 00:06:03.915 и её часто используют. 00:06:04.295 --> 00:06:06.449 Дальше она спадает. 00:06:06.449 --> 00:06:09.436 Вы также видите выпадающие точки, 00:06:09.436 --> 00:06:14.803 где есть неожиданно много контента, 00:06:16.903 --> 00:06:19.449 что очень хорошо. 00:06:20.839 --> 00:06:24.945 Проблема в том, что его мало используют. 00:06:25.565 --> 00:06:28.482 Астурийский и нидерландский должны быть выше, 00:06:28.742 --> 00:06:32.234 и я думаю, что нужно помочь этим сообществам 00:06:33.266 --> 00:06:35.563 увеличить использование собранных ими данных. 00:06:35.563 --> 00:06:37.472 Это было бы очень полезно. 00:06:42.910 --> 00:06:48.110 Эта аналитика показывает хорошую тенденцию -- 00:06:48.300 --> 00:06:51.378 часто используемые элементы 00:06:51.378 --> 00:06:55.295 также имеют больше меток. 00:06:55.295 --> 00:06:58.188 Или наоборот -- это не совсем понятно. 00:06:59.850 --> 00:07:02.510 МЫ ПОМОГАЕМ ТОЛЬКО РАСПРОСТРАНЁННЫМ ЯЗЫКАМ? 00:07:02.513 --> 00:07:04.636 Ещё один вопрос: 00:07:04.636 --> 00:07:07.009 мы помогаем только распространённым языкам? 00:07:07.899 --> 00:07:11.147 Или мы помогаем всем? 00:07:12.757 --> 00:07:17.413 Здесь мы видим группирование языков. 00:07:17.743 --> 00:07:21.832 Языки в каждой группе склонны иметь общие метки. 00:07:26.042 --> 00:07:28.599 Вы видите, как они собираются в кластеры. 00:07:30.779 --> 00:07:34.065 Здесь похожие кластеры, разными цветами показано, 00:07:34.065 --> 00:07:39.475 насколько живым, используемым 00:07:40.455 --> 00:07:42.996 или исчезающим является язык. 00:07:42.996 --> 00:07:44.642 Здесь вы видите хорошую тенденцию -- 00:07:44.642 --> 00:07:49.036 распространённые и исчезающие языки 00:07:49.566 --> 00:07:53.673 не образовывают два разных кластера. 00:07:53.673 --> 00:07:58.942 Но они смешиваются, 00:08:00.262 --> 00:08:04.625 и это намного лучше, чем обратная ситуация, 00:08:04.625 --> 00:08:09.467 в которой распространённые языки 00:08:10.197 --> 00:08:12.164 помогают друг другу. 00:08:12.744 --> 00:08:14.306 Это не тот случай. 00:08:14.306 --> 00:08:17.417 И это очень хорошо. 00:08:17.417 --> 00:08:20.042 Когда я это увидела, то подумала, что это очень хорошо. 00:08:23.474 --> 00:08:25.199 Здесь похожая тенденция, 00:08:26.239 --> 00:08:27.890 мы рассмотрели 00:08:30.230 --> 00:08:34.222 статус языков 00:08:34.222 --> 00:08:35.995 и количество меток в них. 00:08:39.367 --> 00:08:42.937 Вы видите, что распространённые языки явно выигрывают, 00:08:42.937 --> 00:08:44.248 как и ожидалось. 00:08:45.508 --> 00:08:47.312 Но вы также видите, 00:08:49.303 --> 00:08:53.977 что языки 2, 3, и возможно, 4 категорий 00:08:54.407 --> 00:08:59.280 находятся в неплохой ситуации, 00:08:59.280 --> 00:09:02.367 если говорить об их представлении в Викиданных. 00:09:03.287 --> 00:09:05.818 Это очень хороший результат. 00:09:07.646 --> 00:09:09.129 Сейчас вы видите аналогичный график 00:09:09.129 --> 00:09:12.418 степени использования контента с этими метками 00:09:12.418 --> 00:09:15.085 в Википедии, например, 00:09:17.455 --> 00:09:22.563 и мы видим похожую картину. 00:09:23.603 --> 00:09:29.703 Это говорит о том, что эти сообщества 00:09:29.703 --> 00:09:34.504 вносят много меток для часто используемых элементов. 00:09:36.410 --> 00:09:40.493 Тут есть выпадающие точки, и в этих случаях мы можем 00:09:41.683 --> 00:09:48.202 помочь этим сообществам эффективно применить свои усилия. 00:09:49.312 --> 00:09:52.663 Но в общем мне нравится эта картина. 00:09:53.123 --> 00:09:55.373 ВЗАИМОДЕЙСТВИЕ В ВАШЕМ ЯЗЫКЕ 00:09:56.603 --> 00:09:59.844 Это были элементы и свойства Викиданных. 00:10:00.714 --> 00:10:03.033 Теперь рассмотрим взаимодействие в ваших языках. 00:10:03.033 --> 00:10:05.203 Это лексемы в Викиданных, 00:10:05.203 --> 00:10:08.944 где мы описываем слова, их формы и значения. 00:10:10.167 --> 00:10:13.131 Мы занимаемся этим с мая прошлого года, 00:10:16.461 --> 00:10:19.127 и количество контента растёт. 00:10:20.114 --> 00:10:22.269 Синим цветом обозначены лексемы, 00:10:22.269 --> 00:10:25.938 красным -- формы этих лексем, 00:10:25.938 --> 00:10:29.910 жёлтым -- смыслы лексем. 00:10:30.991 --> 00:10:34.451 Эти сообщества -- вернёмся к этому позже -- 00:10:34.451 --> 00:10:39.863 потратили много времени на создание форм и смыслов для лексем, 00:10:39.863 --> 00:10:42.953 что очень полезно, 00:10:42.953 --> 00:10:47.853 потому что это создаёт ядро нужного набора данных. 00:10:50.562 --> 00:10:55.133 Мы рассмотрели все языки, 00:10:55.133 --> 00:10:57.906 имеющие лексемы на Викиданных. 00:10:57.906 --> 00:11:01.003 У нас есть слова, 00:11:01.713 --> 00:11:04.244 сейчас это 310 языков. 00:11:04.884 --> 00:11:08.290 Как вы думаете, какой язык 00:11:08.290 --> 00:11:11.949 имеет больше всего лексем на Викиданных? 00:11:11.953 --> 00:11:15.120 (аудитория) Шведский [неразборчиво] 00:11:19.183 --> 00:11:20.216 Как? 00:11:20.216 --> 00:11:21.741 (голос из зала 2) Немецкий. 00:11:21.741 --> 00:11:23.902 Извините, я услышала это раньше. 00:11:23.902 --> 00:11:25.111 Это русский. 00:11:28.011 --> 00:11:29.504 Русский далеко впереди. 00:11:31.897 --> 00:11:33.692 Чтобы вам было понятнее, 00:11:35.652 --> 00:11:36.816 есть разные мнения, 00:11:36.816 --> 00:11:41.631 но я читала, что, например, для разговорного уровня 00:11:42.231 --> 00:11:45.450 на другом языке достаточно знать от 1000 до 3000 слов, 00:11:45.450 --> 00:11:49.461 и от 4000 до 10 000 слов для продвинутого уровня. 00:11:51.591 --> 00:11:55.092 Поэтому нам нужно ещё поработать. 00:11:58.483 --> 00:12:02.829 Также хочу обратить ваше внимание на баскский язык, 00:12:03.279 --> 00:12:07.524 там примерно 10 000 лексем. 00:12:09.244 --> 00:12:13.003 Если посмотреть на количество форм для этих лексем, 00:12:14.163 --> 00:12:16.497 то баскский находится довольно высоко, 00:12:18.257 --> 00:12:20.006 и это очень круто. 00:12:20.006 --> 00:12:24.930 Вам стоит пойти на лекцию, которая объясняет этот случай. 00:12:27.341 --> 00:12:30.765 Если посмотреть на количество смыслов, то есть значений слов, 00:12:32.015 --> 00:12:34.551 то баскский будет на первом месте. 00:12:34.921 --> 00:12:37.102 Думаю, это заслуживает аплодисментов. 00:12:37.102 --> 00:12:38.921 (аплодисменты) 00:12:42.949 --> 00:12:45.678 КАКАЯ ЛЕКСЕМА ИМЕЕТ БОЛЬШЕ ВСЕГО ПЕРЕВОДОВ? 00:12:45.678 --> 00:12:47.118 Ещё один вопрос: 00:12:47.118 --> 00:12:50.151 какая лексема имеет больше всего переводов? 00:12:50.361 --> 00:12:54.274 - (аудитория) Кошки. [неразборчиво] - Дуглас Адамс. [неразборчиво] 00:12:56.766 --> 00:12:59.674 Хорошие варианты, но нет. 00:13:01.012 --> 00:13:04.017 Вот она, это русское слово «вода». 00:13:09.571 --> 00:13:12.253 Мы много говорили о том, 00:13:12.253 --> 00:13:16.412 сколько у нас есть лексем, форм и смыслов, 00:13:16.412 --> 00:13:20.323 но это только одна часть. 00:13:20.323 --> 00:13:21.515 Вторая часть -- 00:13:21.515 --> 00:13:25.161 это описание этих лексем, форм и смыслов таким способом, 00:13:25.161 --> 00:13:27.037 чтобы их могла прочитать машина. 00:13:27.647 --> 00:13:30.039 Для этого есть утверждения, как в элементах. 00:13:31.479 --> 00:13:36.362 Одно из свойств -- пример использования. 00:13:36.362 --> 00:13:38.582 Тот, кто использует эти данные, 00:13:38.582 --> 00:13:42.089 может понять, как использовать это слово в контексте, 00:13:42.089 --> 00:13:44.158 например, как цитату. 00:13:45.396 --> 00:13:47.113 Здесь на первом месте польский. 00:13:47.900 --> 00:13:49.694 Носители польского хорошо потрудились. 00:13:54.219 --> 00:13:57.680 Другое полезное свойство -- МФА, международный фонетический алфавит, 00:13:57.680 --> 00:13:59.806 то есть произношение слова. 00:14:00.876 --> 00:14:03.684 Очевидно, что русскому языку 00:14:05.134 --> 00:14:07.516 нужно много МФА-утверждений. 00:14:10.419 --> 00:14:13.314 Зато польский на втором месте. 00:14:17.148 --> 00:14:20.753 И наконец, запись произношения. 00:14:20.753 --> 00:14:23.372 Это ссылки на файлы в Викискладе, 00:14:23.372 --> 00:14:25.689 где кто-то говорит слово, 00:14:25.689 --> 00:14:29.913 и вы слышите произношение носителя языка. 00:14:29.913 --> 00:14:32.871 Это на случай, если вы не можете прочитать МФА, например. 00:14:34.959 --> 00:14:39.115 Ещё есть очень хороший Википроект, 00:14:39.115 --> 00:14:40.354 называется Lingua Libre, 00:14:40.884 --> 00:14:45.173 там можно делать аудиозаписи слов на вашем языке. 00:14:45.173 --> 00:14:47.836 Потом их добавляют к лексемам на Викиданных, 00:14:48.446 --> 00:14:51.763 чтобы люди знали, как произносить ваши слова. 00:14:53.663 --> 00:14:55.694 (голос из зала 3) [неразборчиво] 00:14:55.694 --> 00:14:57.665 Если вы поищете «Lingua Libre», 00:14:57.665 --> 00:15:00.981 и я уверена, что кто-то может выложить это в Telegram-канале. 00:15:03.138 --> 00:15:04.241 Эти ребята крутые. 00:15:04.491 --> 00:15:06.726 Они много чего сделали с Викибазой. 00:15:07.961 --> 00:15:09.416 ЧТО ДЕЛАТЬ ДАЛЬШЕ? 00:15:09.416 --> 00:15:10.427 Хорошо. 00:15:12.706 --> 00:15:17.055 Теперь вопрос: что делать дальше? 00:15:19.165 --> 00:15:22.010 Судя по числаv, которые я вам показала, 00:15:23.030 --> 00:15:25.172 мы провели большую работу для того, 00:15:25.172 --> 00:15:27.890 чтобы больше людей могли получить больше знаний 00:15:28.430 --> 00:15:30.950 о языках на Викиданных. 00:15:32.530 --> 00:15:36.392 Но нам ещё много чего нужно сделать. 00:15:38.992 --> 00:15:42.341 Вы тоже можете помочь, например, 00:15:42.341 --> 00:15:44.921 организовывать марафоны меток, то есть собирать людей, 00:15:44.921 --> 00:15:49.964 чтобы ставить метки на элементы в Викиданных, 00:15:50.914 --> 00:15:55.121 или устроить вики-марафон для лексем в вашем языке, 00:15:55.121 --> 00:15:58.952 чтобы внести распространённые слова в Викиданные. 00:16:00.773 --> 00:16:03.285 Или используйте инструмент типа Terminator, 00:16:03.285 --> 00:16:08.143 который поможет найти самые важные элементы в вашем языке, 00:16:08.493 --> 00:16:11.549 у которых до сих пор нет метки. 00:16:13.274 --> 00:16:18.359 Важность определяется частотой использования 00:16:18.359 --> 00:16:22.203 в других элементах Викиданных в виде ссылок в утверждениях. 00:16:25.768 --> 00:16:30.022 Что касается лексем, 00:16:31.342 --> 00:16:35.169 у нас уже есть базовое количество, 00:16:35.169 --> 00:16:41.163 и теперь их нужно расширять, добавлять больше утверждений, 00:16:41.163 --> 00:16:44.401 так, чтобы на их основе 00:16:44.401 --> 00:16:47.291 можно было создавать полноценные приложения. 00:16:48.141 --> 00:16:50.795 Потому что мы приближаемся к этой критической массе, 00:16:50.795 --> 00:16:53.616 но до создания серьёзных приложений 00:16:53.616 --> 00:16:56.624 всё ещё далеко. 00:16:58.277 --> 00:17:01.680 И я надеюсь, что вы к нам присоединитесь. 00:17:02.583 --> 00:17:07.103 Наши друзья 00:17:07.103 --> 00:17:09.793 немного нам помогают. 00:17:09.793 --> 00:17:12.262 Бруно, не хочешь ли выйти... 00:17:12.262 --> 00:17:14.002 ЛЕКСИЧЕСКИЕ МАСКИ ДЛЯ ВАЛИДАЦИИ ЛЕКСИКОНОВ 00:17:14.002 --> 00:17:16.854 ...и рассказать нам о лексических масках? 00:17:17.541 --> 00:17:18.567 (Бруно) Спасибо, Лидия. 00:17:18.567 --> 00:17:21.519 Спасибо за возможность презентовать нашу работу, 00:17:21.519 --> 00:17:24.810 которую мы делаем в Google вместе с Денни. 00:17:24.810 --> 00:17:29.295 Многие из вас его знают. 00:17:30.126 --> 00:17:32.030 Я лингвист в Google, 00:17:32.030 --> 00:17:36.150 и я очень рад встретить здесь таких же языковых энтузиастов. 00:17:36.620 --> 00:17:39.278 Мы также создаём лексиконы, 00:17:39.278 --> 00:17:42.606 и мы создали технологию, или подход, 00:17:42.606 --> 00:17:45.589 который может быть полезным для вас. 00:17:46.369 --> 00:17:48.455 Для наглядности, 00:17:48.455 --> 00:17:52.068 здесь моя лекция о лексикографическом фоне. 00:17:52.788 --> 00:17:54.347 Когда мы создаём базу данных лексикона, 00:17:54.347 --> 00:17:58.623 их очень трудно поддерживать, обеспечивать устойчивость 00:17:58.623 --> 00:18:00.125 и обмен данными, 00:18:00.125 --> 00:18:01.867 думаю, вы это знаете. 00:18:02.517 --> 00:18:05.927 Мы пытаемся унифицировать лингвистическую особенность и свойства, 00:18:05.927 --> 00:18:09.184 которые описывают эти лексемы и формы. 00:18:09.184 --> 00:18:10.936 Эта проблема пока что не решена, 00:18:10.936 --> 00:18:13.778 но есть некоторые попытки унификации. 00:18:13.778 --> 00:18:15.289 Чего действительно не хватает -- 00:18:15.289 --> 00:18:18.732 и эта проблема была у нас с начала проекта в Google -- 00:18:18.732 --> 00:18:21.607 это попыток создать внутреннюю структуру, 00:18:22.197 --> 00:18:25.910 которая описывает, как должна выглядеть словарная статья, 00:18:25.910 --> 00:18:28.581 какие данные или какая информация у нас есть, 00:18:28.581 --> 00:18:31.907 и ожидаемые характеристики. 00:18:32.747 --> 00:18:38.187 И мы придумали маску лексикона. 00:18:38.897 --> 00:18:44.841 Маска лексикона описывает то, что должно быть в статье, 00:18:44.841 --> 00:18:47.329 в лексикографической статье, для того, чтобы она была полной 00:18:47.329 --> 00:18:51.436 в контексте количества форм, ожидаемых для лексемы, 00:18:51.436 --> 00:18:55.607 а также количества особенностей, ожидаемых для каждой из этих форм. 00:18:56.397 --> 00:18:58.329 Вот пример с итальянскими прилагательными. 00:18:58.329 --> 00:19:02.002 В итальянском языке вы ожидаете увидеть четыре формы прилагательных, 00:19:02.002 --> 00:19:05.383 и каждая из этих форм имеет специфическую комбинацию особенностей, 00:19:05.383 --> 00:19:07.946 касающихся рода и числа. 00:19:08.606 --> 00:19:12.492 Это то, что мы ожидаем от итальянских прилагательных. 00:19:12.672 --> 00:19:16.176 Конечно, можно создать чрезвычайно сложные маски, 00:19:16.176 --> 00:19:20.563 как для спряжения французских глаголов, которое занимает много места, 00:19:20.783 --> 00:19:23.487 а маску для русского языка я показывать не буду, 00:19:23.487 --> 00:19:25.378 потому что она не поместится на экране. 00:19:26.308 --> 00:19:29.531 Также у нас есть некоторые детальные характеристики, 00:19:29.531 --> 00:19:33.421 потому что мы учитываем различия на уровне форм. 00:19:33.421 --> 00:19:37.544 Здесь есть русские существительные, которые имеют три числа 00:19:37.544 --> 00:19:40.048 и несколько падежей с разными формами, 00:19:40.048 --> 00:19:43.086 но у них также есть характеристика на уровне статьи, 00:19:43.086 --> 00:19:45.590 которая указывает, что существительное имеет 00:19:45.590 --> 00:19:49.743 свойственные ему род и характеристику одушевлённости, 00:19:50.133 --> 00:19:52.488 которые также описаны в маске. 00:19:54.518 --> 00:19:58.779 Мы также хотим выделить то, что маска определяет, 00:19:58.779 --> 00:20:01.874 как в общем должна выглядеть статья. 00:20:01.874 --> 00:20:07.158 У вас могут быть маски поменьше, для недостаточных глаголов формы, 00:20:07.158 --> 00:20:11.282 или для недостаточных глаголов лексемы, которые есть в языке. 00:20:11.282 --> 00:20:14.537 Вот самая простая форма французских глаголов, 00:20:14.537 --> 00:20:19.729 которые имеют только третье лицо единственного числа 00:20:19.729 --> 00:20:23.809 для всех погодных глаголов вроде «дождит» или «снежит», как в английском. 00:20:24.537 --> 00:20:26.493 То есть мы различаем эти два уровня. 00:20:26.923 --> 00:20:29.962 Мы в Google используем это так: 00:20:29.962 --> 00:20:32.643 если у нас есть лексикон, который мы хотим использовать, 00:20:33.063 --> 00:20:38.309 мы используем маску, чтобы буквально бросить лексиконы, 00:20:38.309 --> 00:20:40.163 все статьи, через маску 00:20:40.163 --> 00:20:44.093 и посмотреть, в какой статье есть проблемы со структурой. 00:20:44.093 --> 00:20:46.703 Возможно, нам не хватает формы? Или лингвистической особенности? 00:20:46.703 --> 00:20:51.497 Если есть проблема, люди её оценивают, 00:20:51.497 --> 00:20:53.751 или смотрят, пройдёт ли она через маску. 00:20:53.751 --> 00:20:57.924 Это очень мощный инструмент для проверки качества структуры. 00:20:59.427 --> 00:21:01.964 Сегодня мы с радостью объявляем, 00:21:01.964 --> 00:21:05.408 что мы можем открыть исходные коды нашей маски. 00:21:05.948 --> 00:21:07.573 Вот эта схема. 00:21:07.573 --> 00:21:09.477 Если хотите, мы можем распространить 00:21:09.477 --> 00:21:13.483 и передать их в Викиданные в виде ShEx-файлов. 00:21:13.483 --> 00:21:16.688 Это ShEx-файл для немецких существительных, 00:21:16.688 --> 00:21:20.428 и Денни занимается конвертацией из наших внутренних спецификаций 00:21:20.428 --> 00:21:23.406 в более доступные спецификации. 00:21:23.666 --> 00:21:27.522 Сейчас мы работаем с 25 языками. 00:21:27.522 --> 00:21:29.225 Мы ожидаем рост с нашей стороны, 00:21:29.225 --> 00:21:34.040 но мы также ищем возможности сотрудничества для других языков. 00:21:34.350 --> 00:21:40.268 Денни и Лукас занимаются одним из таких совместных проектов. 00:21:40.728 --> 00:21:45.052 У Лукаса есть отличные инструменты для интерфейса, 00:21:45.052 --> 00:21:51.061 который поможет пользователям или составителям добавлять больше форм. 00:21:51.061 --> 00:21:54.151 Если вы хотите добавить французское прилагательное, 00:21:54.151 --> 00:21:59.057 интерфейс подскажет вам, сколько форм ожидается, 00:21:59.057 --> 00:22:01.562 и какие лингвистические особенности должны быть у этой формы. 00:22:01.562 --> 00:22:06.268 То есть наша маска поможет определить и расширить инструмент. 00:22:07.238 --> 00:22:08.385 У меня всё. 00:22:08.791 --> 00:22:10.358 (Лидия) Спасибо большое. 00:22:10.358 --> 00:22:11.993 (аплодисменты) 00:22:14.249 --> 00:22:16.891 Хорошо. Есть вопросы? 00:22:16.891 --> 00:22:19.221 Хотите ещё поговорить о лексемах? 00:22:19.817 --> 00:22:21.505 - (голос из зала 4) Да. - Да. (хихикает) 00:22:33.485 --> 00:22:35.380 (голос из зала 4) Вы говорили о том, 00:22:35.380 --> 00:22:38.796 чтобы больше людей могли использовать больше языков. 00:22:39.106 --> 00:22:42.444 Но есть много языков, которые нельзя использовать в Викиданных. 00:22:42.444 --> 00:22:44.588 Как вы решаете эту проблему? 00:22:45.889 --> 00:22:47.686 «Нельзя использовать в Викиданных» -- 00:22:47.686 --> 00:22:50.308 вы имеете в виду ввод меток? 00:22:50.308 --> 00:22:52.578 - (голос из зала 4) Меток, описаний. - Понятно. 00:22:52.578 --> 00:22:55.498 С лексемами немного другая ситуация, 00:22:55.498 --> 00:22:57.793 потому что для них нет такого ограничения. 00:22:58.923 --> 00:23:05.003 Для меток на элементах и свойствах ограничение есть, 00:23:05.433 --> 00:23:12.411 потому что мы хотели убедиться, 00:23:12.411 --> 00:23:14.229 что люди не начнут писать что попало 00:23:14.229 --> 00:23:17.399 и что это не выйдет из-под контроля. 00:23:19.349 --> 00:23:23.328 Если маленькое сообщество хочет работать с одним языком, 00:23:23.898 --> 00:23:26.787 обратитесь к нам и мы вам поможем. 00:23:26.787 --> 00:23:29.202 (голос из зала 4) Мы сделали это в мае на хакатоне в Праге, 00:23:29.202 --> 00:23:32.459 и смогли начать использовать наш язык лишь в августе. 00:23:32.459 --> 00:23:35.135 - Да. - (голос из зала 4) Это очень медленно. 00:23:35.135 --> 00:23:37.504 Да, к сожалению, это очень медленно. 00:23:37.854 --> 00:23:39.883 Мы работаем с Комиссией по языку 00:23:39.883 --> 00:23:46.048 над решением некоторых фундаментальных... 00:23:49.537 --> 00:23:55.377 Например, договориться о том, какие языки «разрешены». 00:23:56.047 --> 00:23:59.398 Это происходит очень медленно, 00:23:59.988 --> 00:24:04.178 поэтому ваш запрос занял столько времени. 00:24:04.778 --> 00:24:05.963 (голос из зала 4) Спасибо. 00:24:06.615 --> 00:24:07.950 (голос из зала 5) Спасибо вам. 00:24:07.950 --> 00:24:10.938 Лидия, если вы помните статистику, которую вы показывали, 00:24:10.938 --> 00:24:12.886 количество лексем в языках. 00:24:12.886 --> 00:24:17.599 Вы посчитали все формы как единицу данных, 00:24:17.599 --> 00:24:20.034 или только лексемы? 00:24:21.289 --> 00:24:22.941 (Лидия) Вы имеете в виду эту? 00:24:22.941 --> 00:24:24.053 Какую именно? NOTE Paragraph 00:24:24.053 --> 00:24:25.529 (голос из зала 5) Да, эту. 00:24:25.797 --> 00:24:28.341 Если вы помните, это количество обозначает 00:24:28.341 --> 00:24:31.954 все формы для всех лексем или только количество лексем? 00:24:31.954 --> 00:24:35.395 - Нет, только количество лексем. - (голос из зала 5) Только количество. 00:24:35.395 --> 00:24:36.797 То есть это просто статистика, 00:24:36.797 --> 00:24:39.390 потому что если добавить ещё и формы -- 00:24:39.390 --> 00:24:40.614 потому я и спрашиваю -- 00:24:40.614 --> 00:24:42.817 тогда все языки с флективной морфологией, 00:24:42.817 --> 00:24:45.027 такие как русский, сербский, словенский и другие, 00:24:45.027 --> 00:24:47.616 имеют преимущество, потому что в них очень много форм. 00:24:47.616 --> 00:24:51.990 (Лидия) Да, это сильно влияет на количество форм. 00:24:51.990 --> 00:24:53.851 (голос из зала 5) Да, этот слайд. Спасибо. 00:24:56.546 --> 00:25:00.224 (голос из зала 6) У меня вопрос о... 00:25:00.644 --> 00:25:06.824 Когда мы говорим о фактических элементах и свойствах, 00:25:07.124 --> 00:25:08.901 Как я понимаю, 00:25:08.901 --> 00:25:11.955 пока что нет способа дать фактический источник 00:25:11.955 --> 00:25:14.726 для существующих меток и описаний. 00:25:14.726 --> 00:25:18.047 Например, если вы говорите 00:25:18.047 --> 00:25:20.920 о свойстве элемента, 00:25:20.920 --> 00:25:24.009 вы можете получить противоречивые метки. 00:25:24.509 --> 00:25:25.739 Да. 00:25:25.739 --> 00:25:27.662 (голос из зала 6) То есть этот человек... 00:25:28.402 --> 00:25:30.781 Например, мы раньше говорили об автохтонных понятиях. 00:25:30.781 --> 00:25:35.965 Согласно одному источнику, этот человек -- норвежский художник. 00:25:35.965 --> 00:25:38.750 Согласно другому источнику -- он саамский художник. 00:25:39.550 --> 00:25:42.883 Ещё у нас была проблема в эстонском, 00:25:42.883 --> 00:25:47.729 где нам нужно было изменить терминологию на официальную, 00:25:47.729 --> 00:25:49.482 в официальных лексиконах, 00:25:49.482 --> 00:25:52.262 но мы не могли указать причину 00:25:52.262 --> 00:25:53.596 и источник изменений, 00:25:53.596 --> 00:25:55.541 и не могли обосновать, почему это нужно сделать. 00:25:55.541 --> 00:25:57.230 Это выглядело, как будто случайный человек 00:25:57.230 --> 00:25:59.615 просто так изменяет термины. 00:25:59.615 --> 00:26:02.520 Появится ли у нас возможность 00:26:02.520 --> 00:26:06.355 указывать надлежащие источники для языковых данных? 00:26:07.045 --> 00:26:11.568 Частично это возможно. 00:26:11.568 --> 00:26:15.958 Например, если у вас есть элемент для личности, 00:26:16.968 --> 00:26:22.720 есть утверждение, имя, фамилия этой личности и так далее, 00:26:22.720 --> 00:26:26.056 тогда вы можете добавить ссылку на это. 00:26:28.211 --> 00:26:32.544 Я сомневаюсь, стоит ли усложнять ссылки 00:26:32.544 --> 00:26:35.557 для меток и описаний, 00:26:35.557 --> 00:26:38.624 но если люди уверены, 00:26:38.624 --> 00:26:44.939 что утверждение имеет недостаточно ссылок, 00:26:44.939 --> 00:26:46.803 то это нужно обсудить. 00:26:49.079 --> 00:26:52.873 Боюсь, что это добавит сложности 00:26:53.303 --> 00:26:56.523 для, надеюсь, немногих случаев, 00:26:57.393 --> 00:27:00.188 но я не против изменений, 00:27:00.188 --> 00:27:04.087 если люди на этом настаивают. 00:27:04.087 --> 00:27:08.177 (голос из зала 6) Тогда это не должно быть опцией по умолчанию, 00:27:08.177 --> 00:27:12.452 которую видят все новички в интерфейсе. 00:27:12.452 --> 00:27:16.190 Например «Нажмите, если хотите уточнить информацию». 00:27:17.632 --> 00:27:23.368 Знаете ли вы, как часто это будет использоваться? 00:27:24.520 --> 00:27:26.423 (голос из зала 6) Например, в эстонском... 00:27:26.423 --> 00:27:28.844 Думаю, также и в других языках... 00:27:29.274 --> 00:27:34.203 Например, официальное название с утверждённым переводом 00:27:34.203 --> 00:27:35.686 на английский 00:27:36.206 --> 00:27:40.314 определённого типа муниципалитета. 00:27:40.614 --> 00:27:42.182 Например, в моём случае 00:27:42.182 --> 00:27:44.409 мы использовали слово «приход», 00:27:45.159 --> 00:27:50.575 его исходное значение в эстонском -- что-то вроде церковного прихода, 00:27:50.575 --> 00:27:51.899 то есть это происхождение слова, 00:27:51.899 --> 00:27:54.809 но не современный официальный перевод. 00:27:55.189 --> 00:27:58.993 В этом случае стоит добавить его как утверждение официального названия, 00:27:58.993 --> 00:28:00.817 и также добавить туда ссылку. 00:28:02.032 --> 00:28:03.158 (голос из зала 6) Хорошо. 00:28:05.186 --> 00:28:06.572 Ещё вопросы? Да? 00:28:07.682 --> 00:28:10.044 (голос из зала 7) У меня два коротких замечания. 00:28:10.044 --> 00:28:13.934 Вы отметили, что астурийский язык занимает хорошую позицию, 00:28:13.934 --> 00:28:16.455 но я думаю, что это ложный артефакт. 00:28:16.455 --> 00:28:17.724 Давайте подробнее. 00:28:17.724 --> 00:28:19.748 (голос из зала 7) Я думаю, что это сделал бот, 00:28:19.748 --> 00:28:24.068 который вставил личные имена, собственные имена, 00:28:24.068 --> 00:28:27.172 и сказал: «Это как во французском или испанском», 00:28:27.172 --> 00:28:28.558 и просто скопировал всё это. 00:28:28.558 --> 00:28:30.256 Об этом говорит хотя бы то, 00:28:30.256 --> 00:28:33.316 что в астурийском вы не увидите таких усилий там, 00:28:33.316 --> 00:28:36.955 где действительно нужен перевод, например, в названиях свойств 00:28:36.955 --> 00:28:39.648 или названиях элементов, которые не являются собственными именами. 00:28:39.648 --> 00:28:41.219 Асаф, вы разбиваете мне сердце. 00:28:41.219 --> 00:28:43.198 (голос из зала 7) Я знаю. Люблю портить праздники. 00:28:43.198 --> 00:28:48.458 Но у меня есть хорошие новости о количестве произношений. 00:28:49.408 --> 00:28:53.215 Как вы знаете, на Викискладе полно файлов с произношениями, 00:28:54.508 --> 00:29:01.102 например, для нидерландского языка их не меньше 300 000, 00:29:01.912 --> 00:29:05.051 и всё это надо как-то обработать. 00:29:05.051 --> 00:29:07.697 Так что если кому-то нужен сторонний проект, 00:29:07.697 --> 00:29:09.427 то на Викискладе вы найдёте очень много 00:29:09.427 --> 00:29:13.280 классифицированных файлов с произношениями 00:29:13.280 --> 00:29:16.893 в категории «Произношение» по языкам. 00:29:16.893 --> 00:29:22.780 Их нужно привязать к лексемам и добавить в Lexeme. 00:29:23.180 --> 00:29:25.484 И ещё, можете ли вы сказать что-нибудь 00:29:25.484 --> 00:29:26.585 о плане действий, 00:29:26.585 --> 00:29:28.757 насчёт того, сколько инвестиций 00:29:28.757 --> 00:29:31.995 и всего прочего мы можем ожидать от Lexeme в будущем году, 00:29:31.995 --> 00:29:34.020 потому что я жду с нетерпением. 00:29:34.949 --> 00:29:36.974 Ждетё с нетерпением? (хихикает) 00:29:36.974 --> 00:29:39.118 - (голос из зала 7) Ожидаю большего. - Да. (хихикает) 00:29:44.541 --> 00:29:49.293 Сейчас мы больше заняты Викибазой и качеством данных, 00:29:51.493 --> 00:29:55.087 хотим увидеть результативность, 00:29:55.087 --> 00:30:01.646 затем нам нужно найти проблемные точки, 00:30:01.646 --> 00:30:06.003 а потом вернуться к улучшению лексикографических данных. 00:30:06.903 --> 00:30:09.790 Очень хочется услышать ваше мнение 00:30:09.790 --> 00:30:14.136 по поводу того, куда нам двигаться, 00:30:14.136 --> 00:30:15.966 какие изменения вы хотите видеть, 00:30:15.966 --> 00:30:20.250 чтобы мы могли решить, как это сделать. 00:30:21.125 --> 00:30:22.810 Но вы, конечно, правы, 00:30:22.810 --> 00:30:25.712 там ещё много работы с технической стороны. 00:30:30.573 --> 00:30:35.848 (голос из зала 8) Когда мы загружали баскские слова с формами -- 00:30:35.848 --> 00:30:37.768 вы увидите кое-что из этого -- 00:30:37.768 --> 00:30:41.329 и на прошлой неделе мы сказали: «Ого, мы заняли первое место.» 00:30:42.919 --> 00:30:44.928 Об этом даже пресса пишет: 00:30:44.928 --> 00:30:49.338 «Ого, баски заняли первое место в чём-то.» 00:30:49.338 --> 00:30:50.606 (смеётся) 00:30:50.606 --> 00:30:53.318 И тогда люди спрашивают: «А для чего это нужно?» 00:30:54.678 --> 00:30:56.849 Тут мы не знаем, что ответить. 00:30:56.849 --> 00:30:57.888 Можно сказать, 00:30:57.888 --> 00:31:01.801 что это поможет компьютерам лучше понимать языки, 00:31:01.801 --> 00:31:05.279 но какие инструменты мы можем создать в будущем? 00:31:05.279 --> 00:31:07.467 На это у нас нет чёткого ответа. 00:31:07.467 --> 00:31:10.625 Возможно, ответ есть у вас. 00:31:10.625 --> 00:31:12.742 (хихикает) Не знаю, есть ли у меня чёткий ответ, 00:31:12.742 --> 00:31:14.746 зато есть просто ответ. 00:31:15.480 --> 00:31:20.425 Пока что, как я говорила [неразборчиво], 00:31:20.425 --> 00:31:21.924 мы не достигли той критической массы, 00:31:21.924 --> 00:31:25.529 которая позволяет создать много интересных инструментов. 00:31:25.529 --> 00:31:27.707 Некоторые инструменты уже существуют. 00:31:28.267 --> 00:31:31.912 Например, на днях [Эстер Панделия] 00:31:31.912 --> 00:31:33.877 выпустила инструмент, где можно увидеть... 00:31:35.837 --> 00:31:38.889 Кажется, там были слова на глобусе, 00:31:38.889 --> 00:31:41.761 их происхождение и распространение. 00:31:42.631 --> 00:31:44.090 Я точно не знаю. 00:31:44.090 --> 00:31:46.346 Но она ответила в Project chat на Викиданных, 00:31:46.346 --> 00:31:48.984 можете поискать там. 00:31:49.574 --> 00:31:51.805 Мы видели эти первые инструменты, 00:31:51.805 --> 00:31:55.696 как тогда, когда начинали создавать Викиданные. 00:31:56.846 --> 00:31:59.602 Сначала некоторые...это была просто сеть, 00:31:59.602 --> 00:32:03.424 что-то вроде: «Смотри, эта штука связана с той штукой.» 00:32:04.824 --> 00:32:07.059 Когда мы собрали больше данных 00:32:07.059 --> 00:32:10.352 и достигли некоторой критической массы, 00:32:11.852 --> 00:32:14.747 появились более мощные приложения, 00:32:15.677 --> 00:32:17.356 например, Histropedia, 00:32:19.126 --> 00:32:21.988 или вопросы и ответы 00:32:21.988 --> 00:32:26.663 в персональном цифровом помощнике Platypus, и так далее. 00:32:26.663 --> 00:32:29.668 Мы видим похожую ситуацию с лексемами. 00:32:31.198 --> 00:32:34.650 Мы на том уровне, где можно создать такие маленькие... 00:32:34.650 --> 00:32:37.214 «Смотрите, тут есть связь между двумя вещами», 00:32:37.864 --> 00:32:42.738 и есть перевод этого слова в этом языковом уровне, 00:32:42.738 --> 00:32:47.747 и чем больше мы развиваем это, чем больше слов описываем, 00:32:47.747 --> 00:32:49.533 тем больше возможностей появляется. 00:32:49.533 --> 00:32:51.795 Какие именно возможности? 00:32:53.482 --> 00:32:59.483 Бен, наш главный спикер, говорил о переводах, 00:33:00.103 --> 00:33:03.115 о возможности перевода с одного языка на другой. 00:33:03.455 --> 00:33:07.929 И мой коллега Йенс всегда говорит о том, 00:33:07.929 --> 00:33:11.452 что Евросоюз ищет переводчика 00:33:11.452 --> 00:33:17.439 с мальтийского на шведский, если не ошибаюсь. 00:33:17.439 --> 00:33:19.436 - (голос из зала) Эстонский. - Эстонский. 00:33:22.016 --> 00:33:26.211 Это редкая комбинация. 00:33:27.211 --> 00:33:31.735 Но если собрать все эти языки в один машинно-читаемый массив, 00:33:31.735 --> 00:33:33.143 то вы сможете это сделать, 00:33:33.143 --> 00:33:36.857 вы сможете найти словарь 00:33:36.857 --> 00:33:41.735 для перевода с эстонского на мальтийский и обратно. 00:33:42.935 --> 00:33:45.607 Внесение в словари языковых комбинаций, 00:33:45.607 --> 00:33:47.911 которых там не было раньше, 00:33:47.911 --> 00:33:51.050 потому что на них не было спроса, 00:33:51.050 --> 00:33:55.540 достаточного для финансовой выгоды. 00:33:55.540 --> 00:33:57.147 Теперь мы можем это сделать. 00:33:59.797 --> 00:34:02.318 Затем следующее поколение. 00:34:02.318 --> 00:34:03.653 Люси говорила о том, 00:34:03.653 --> 00:34:07.106 как она работает с Хэтти 00:34:08.536 --> 00:34:10.136 над генерацией текста, 00:34:10.136 --> 00:34:14.673 чтобы начать писать статьи в Википедии на языках меньшинств. 00:34:15.423 --> 00:34:19.512 Для этого нужны данные о словах 00:34:19.512 --> 00:34:22.479 и знание языка. 00:34:23.769 --> 00:34:28.013 Это то, что мне вспомнилось на данный момент. 00:34:28.693 --> 00:34:30.494 Возможно, аудитория предложит больше идей 00:34:30.494 --> 00:34:34.353 насчёт того, что мы будем делать с этими выдающимися данными. 00:34:37.693 --> 00:34:40.892 (голос из зала 9) Я отклонюсь от темы лексем. 00:34:40.892 --> 00:34:42.666 Я хочу спросить, 00:34:42.666 --> 00:34:45.634 как я, как член сообщества, 00:34:45.634 --> 00:34:50.135 могу повлиять на приоритет задания, если приходит новый пользователь, 00:34:50.135 --> 00:34:56.644 и он может указать, какие языки он хочет видеть и редактировать 00:34:56.644 --> 00:35:01.135 без знания каких-то секретных словесных шаблонов. 00:35:02.145 --> 00:35:05.053 Возможно, в этом году появится технический список желаний 00:35:05.053 --> 00:35:07.040 без тем Википедии. 00:35:07.040 --> 00:35:11.379 Надеюсь, мы все сможем проголосовать за эту вещь, 00:35:11.379 --> 00:35:13.918 которую мы семь лет не могли исправить. 00:35:14.218 --> 00:35:17.607 Есть ли у вас идеи и замечания на этот счёт? 00:35:18.217 --> 00:35:20.328 Вы имеете в виду, 00:35:20.328 --> 00:35:23.518 что пользователь, не зарегистрированный в Викиданных, 00:35:23.518 --> 00:35:25.621 не может просто изменить язык? 00:35:25.621 --> 00:35:27.989 (голос из зала 9) Нет, для [неразборчиво] пользователей. 00:35:28.309 --> 00:35:30.689 Если они вошли в систему, 00:35:30.689 --> 00:35:34.601 они могут изменить язык вверху страницы 00:35:35.891 --> 00:35:38.099 и он появится там, 00:35:39.769 --> 00:35:42.013 где есть описание метки [неразборчиво], 00:35:42.013 --> 00:35:43.583 и его можно будет редактировать. 00:35:45.657 --> 00:35:49.009 (голос из зала 9) Чаще всего в рабочем процессе 00:35:49.009 --> 00:35:52.447 нужно иметь доступ ко многим языкам, 00:35:52.447 --> 00:35:55.419 но это не всегда возможно. 00:35:55.419 --> 00:35:58.584 Хорошо, давайте встретимся после доклада и обсудим это. 00:36:01.562 --> 00:36:04.089 Отлично. Ещё вопросы? 00:36:05.534 --> 00:36:06.536 Да? 00:36:11.305 --> 00:36:13.196 (голос из зала 10) Спасибо за презентацию. 00:36:14.106 --> 00:36:15.127 Можете прокомментировать 00:36:15.127 --> 00:36:19.307 состояние корреляции с сообществом Викисловаря? 00:36:19.307 --> 00:36:22.296 Насколько я знаю, ведутся дискуссии 00:36:22.296 --> 00:36:26.051 об импортировании некоторых элементов работы, 00:36:26.051 --> 00:36:30.843 но там есть проблемы с лицензированием и некоторые разногласия. 00:36:30.843 --> 00:36:31.848 (Лидия) Да. 00:36:31.848 --> 00:36:36.330 Сообщества Викисловаря потратили много времени 00:36:37.320 --> 00:36:39.473 на его создание. 00:36:39.473 --> 00:36:42.643 Они создали 00:36:43.193 --> 00:36:47.554 невероятно сложные и комплексные шаблоны 00:36:47.554 --> 00:36:53.614 для создания удобных таблиц, которые автоматически генерируют формы, 00:36:53.614 --> 00:36:56.392 и ещё много разных впечатляющих 00:36:56.392 --> 00:37:00.413 и невообразимых вещей. 00:37:02.311 --> 00:37:07.724 И конечно же, они вложили в это много времени и усилий. 00:37:09.364 --> 00:37:11.801 Поэтому их можно понять, 00:37:11.801 --> 00:37:17.116 они не хотят, чтобы результаты их работы 00:37:18.046 --> 00:37:19.102 кто-то взял просто так. 00:37:19.102 --> 00:37:21.491 Поэтому такая ситуация. 00:37:22.761 --> 00:37:25.137 И это нормально. 00:37:25.737 --> 00:37:31.192 Сейчас первые сообщества Викисловаря говорят о том, 00:37:31.192 --> 00:37:34.329 чтобы передать и импортировать некоторые данные в Викиданные. 00:37:34.329 --> 00:37:39.095 Вы уже видели русский, это один из таких случаев. 00:37:40.375 --> 00:37:42.355 И я ожидаю большего. 00:37:43.635 --> 00:37:46.800 Но это медленный процесс, 00:37:46.800 --> 00:37:49.383 такой же медленный, 00:37:49.383 --> 00:37:51.909 как внедрение данных из Викиданных в Википедию. 00:37:52.849 --> 00:37:56.183 С другой стороны, нужно упростить 00:37:56.183 --> 00:37:59.132 использование данных из лексем в Викисловаре, 00:37:59.132 --> 00:38:02.209 чтобы они могли пользоваться ими 00:38:02.209 --> 00:38:05.531 и делиться данными с разными Викисловарями, 00:38:05.531 --> 00:38:08.853 что сейчас почти невозможно. 00:38:08.853 --> 00:38:11.350 И это ужасно, так же, как это было в Википедии. 00:38:13.860 --> 00:38:16.325 Дождитесь подарка на день рождения. (хихикает) 00:38:19.938 --> 00:38:20.992 Да? 00:38:22.459 --> 00:38:24.827 (голос из зала 11) Когда я думала, как решить эту проблему, 00:38:24.827 --> 00:38:28.168 то не хотела говорить, потому что это казалось мне глупым, 00:38:28.168 --> 00:38:32.003 но я думаю, что в Викисловаре уже есть некоторый контент, 00:38:32.003 --> 00:38:34.978 и я знаю, что мы не можем передать его в Викиданные 00:38:34.978 --> 00:38:37.048 из-за разницы в лицензиях. 00:38:37.048 --> 00:38:39.631 Но я думаю, что с этим можно что-то сделать. 00:38:40.321 --> 00:38:45.443 Возможно, мы можем получить разрешение сообществ 00:38:45.913 --> 00:38:51.205 после общего голосования, 00:38:52.075 --> 00:38:57.522 чтобы активные участники сообщества проголосовали и сказали, 00:38:57.522 --> 00:39:02.523 хотят ли они принять или передать контент, 00:39:02.523 --> 00:39:05.208 для которого они могут создать лексемы в Викиданных. 00:39:06.238 --> 00:39:08.537 Иначе это непродуктивно. 00:39:09.568 --> 00:39:14.203 Это как раз тот разговор, 00:39:14.203 --> 00:39:18.249 который нужно начать в сообществах Викисловаря. 00:39:18.249 --> 00:39:24.647 Для нас было бы неуместным навязывать им это. 00:39:25.917 --> 00:39:31.142 Но я думаю, что это стоит обсудить. 00:39:31.142 --> 00:39:33.898 Также важно понимать, 00:39:33.898 --> 00:39:39.082 что есть разница между тем, что легально разрешено, 00:39:39.082 --> 00:39:43.147 тем, что мы должны делать, 00:39:43.147 --> 00:39:45.516 и тем, чего хотят или не хотят эти люди. 00:39:45.736 --> 00:39:47.329 Поэтому, даже если это легально, 00:39:47.329 --> 00:39:50.640 но другие сообщества Викисловаря этого не хотят, 00:39:50.640 --> 00:39:53.537 то здесь нужно быть осторожными. 00:39:58.886 --> 00:40:02.489 Возьмите микрофон для трансляции. 00:40:04.540 --> 00:40:07.299 (голос из зала 12) Всё это очень интересно, 00:40:07.979 --> 00:40:12.009 и я уже думаю, как рассказать об этом моим студентам 00:40:12.319 --> 00:40:15.558 и как включить это в курс лекций, 00:40:15.558 --> 00:40:18.531 в нашу работу, учебный процесс. 00:40:18.531 --> 00:40:22.271 На данный момент 00:40:22.871 --> 00:40:24.116 мне не хватает знаний, 00:40:24.116 --> 00:40:27.188 но я думаю, что наша документация 00:40:27.808 --> 00:40:30.082 нуждается в улучшении. 00:40:30.082 --> 00:40:33.437 Было бы хорошо сделать интересные видео, 00:40:33.437 --> 00:40:35.898 которые объясняют, как это работает. 00:40:35.898 --> 00:40:39.948 Мы могли бы их использовать, 00:40:39.948 --> 00:40:41.985 чтобы заинтересовать студентов 00:40:41.985 --> 00:40:47.072 и объяснить людям, как это здорово. 00:40:47.072 --> 00:40:52.001 Просто подумайте о документации и образовании. 00:40:52.001 --> 00:40:54.480 Я думаю, многое можно сделать. 00:40:54.480 --> 00:40:58.585 Есть много задач, к которым можно привлечь... 00:41:00.125 --> 00:41:02.033 ...ну, не начальную школу, 00:41:02.033 --> 00:41:05.495 но хотя бы старших школьников. 00:41:05.915 --> 00:41:10.866 Очень бы хотелось использовать этот потенциал, 00:41:10.866 --> 00:41:15.272 хотя пока что я плохо разбираюсь в этом 00:41:15.272 --> 00:41:19.500 и не могу ставить задачи или... 00:41:20.430 --> 00:41:22.155 ...делать что-нибудь на практике. 00:41:22.155 --> 00:41:25.772 Если у вас есть любые идеи по этому поводу, 00:41:25.772 --> 00:41:29.648 я с удовольствием их выслушаю. 00:41:30.508 --> 00:41:32.129 Да, мы поговорим об этом. 00:41:35.473 --> 00:41:37.139 Ещё вопросы? 00:41:37.809 --> 00:41:39.195 Кто-то поднимал руку. 00:41:39.195 --> 00:41:40.505 Не помню, кто именно. 00:41:45.739 --> 00:41:49.996 (голос из зала 13) Если мы не можем импортировать из Викисловаря, 00:41:49.996 --> 00:41:55.772 есть ли согласованные мероприятия, чтобы найти другие окрытые источники, 00:41:55.772 --> 00:41:57.459 возможно, все данные, 00:41:58.769 --> 00:42:03.167 как-то отфильтровать и организовать их, 00:42:03.167 --> 00:42:08.210 чтобы их можно было легко проверить для импорта? 00:42:09.093 --> 00:42:11.181 Первые мероприятия уже есть. 00:42:11.181 --> 00:42:14.769 Я так понимаю, баскский язык -- одно из них. 00:42:14.769 --> 00:42:17.474 Хотите рассказать об этом? 00:42:18.426 --> 00:42:20.130 (голос из зала 14) [inaudible] 00:42:23.166 --> 00:42:27.148 Фактический ответ -- заплатить за это... 00:42:28.374 --> 00:42:33.381 У нас есть договор с подрядчиком, с которым мы обычно работаем. 00:42:34.801 --> 00:42:38.265 Они создают словари -- 00:42:40.315 --> 00:42:42.458 и ещё много чего, словари в том числе. 00:42:42.458 --> 00:42:47.473 Мы договорились с ними о создании бесплатного словаря для студентов. 00:42:47.473 --> 00:42:52.782 Мы бы взяли часто употребляемые слова и начали загружать их 00:42:52.782 --> 00:42:55.590 с внешним идентификатором и схемой этих вещей. 00:42:56.420 --> 00:43:02.902 Но у нас была дискуссия, оставлять ли это на лицензии CC0, 00:43:03.212 --> 00:43:05.322 потому что у них есть словарь с лицензией CC BY 00:43:06.537 --> 00:43:10.326 и они поняли, в чём разница. 00:43:10.326 --> 00:43:13.866 Поэтому была дискуссия. 00:43:13.866 --> 00:43:19.709 Но я думаю, что в будущем мы сможем предоставить инструменты или примеры, 00:43:19.709 --> 00:43:21.761 и я думаю, что будут другие словари, 00:43:21.761 --> 00:43:24.016 с которыми мы сможем работать. 00:43:24.016 --> 00:43:29.274 Я также думаю, что Викисловарь должен двигаться в этом направлении, 00:43:29.274 --> 00:43:32.170 но это уже другая большая дискуссия. 00:43:33.285 --> 00:43:34.487 Кроме того, 00:43:34.487 --> 00:43:38.839 Леа общается с людьми из Окситании, 00:43:38.839 --> 00:43:41.827 которые работают над окситанскими словарями, 00:43:41.827 --> 00:43:45.138 и сейчас они работают над совместным проектом в шумерском. 00:43:51.644 --> 00:43:53.303 Ещё вопросы? 00:44:01.487 --> 00:44:05.349 (голос из зала 15) Привет! Мы хотим импортировать окситанские данные. 00:44:05.349 --> 00:44:06.505 Отлично! 00:44:06.505 --> 00:44:08.678 (голос из зала 15) И у нас небольшая проблема. 00:44:09.078 --> 00:44:14.215 Мы не знаем, как представить всё разнообразие лексем. 00:44:14.215 --> 00:44:17.893 У нас шесть диалектов, 00:44:17.893 --> 00:44:24.014 и мы хотим указать, в каком диалекте используется лексема, 00:44:24.014 --> 00:44:27.285 и у нас нет подходящего C0-утверждения, чтобы это сделать. 00:44:27.285 --> 00:44:31.105 Пока сегмента не существует, 00:44:31.635 --> 00:44:34.465 это не позволяет нам [неразборчиво] 00:44:34.465 --> 00:44:37.603 потому что нам придётся сделать это снова, 00:44:37.603 --> 00:44:42.076 когда мы сможем [экспортировать] утверждение. 00:44:42.076 --> 00:44:44.551 И это сложно, потому что это утверждение 00:44:44.551 --> 00:44:47.802 заинтересует немногих людей, 00:44:47.802 --> 00:44:53.174 потому что оно касается в основном языков меньшинств. 00:44:53.444 --> 00:44:56.933 Один человек спросит об этом. 00:44:56.933 --> 00:45:00.022 Но, как у наших коллег басков, 00:45:00.022 --> 00:45:06.082 один человек может привлечь тысячи других, 00:45:06.082 --> 00:45:10.884 может быть, это не много, 00:45:10.884 --> 00:45:14.136 но для нас это очень важно. 00:45:14.874 --> 00:45:17.600 У вас уже есть новое предложение о свойствах, 00:45:17.600 --> 00:45:19.400 или вам нужна помощь в его создании? 00:45:21.524 --> 00:45:24.300 (голос из зала 15) Мы просили об этом четыре месяца назад. 00:45:24.720 --> 00:45:28.635 Хорошо, попросим кого-нибудь помочь с этим предложением. 00:45:30.159 --> 00:45:32.912 Думаю, здесь достаточно людей, которые могут это сделать. 00:45:32.912 --> 00:45:35.512 (голос из зала 15) Предложение о свойствах [говорит по-французски] 00:45:35.512 --> 00:45:36.965 (голос из зала) Нам не ответили. 00:45:36.965 --> 00:45:39.699 (голос из зала 15) Нам не ответили, и мы не знаем, как это сделать, 00:45:39.699 --> 00:45:42.953 потому что мы не из сообщества Викиданных. 00:45:44.694 --> 00:45:48.497 Здесь есть люди, которые могут вам помочь. 00:45:48.817 --> 00:45:52.134 Поднимите руку, кто возьмёт... 00:45:52.574 --> 00:45:53.644 (голос из зала 16) Я могу. 00:45:53.644 --> 00:45:55.512 Мне кажется очень интересным то, 00:45:55.512 --> 00:45:59.059 что только вариант формы 00:45:59.059 --> 00:46:02.607 может управлять этим территориально, 00:46:02.607 --> 00:46:04.995 с помощью координат или картографии. 00:46:05.595 --> 00:46:07.815 А также разные произношения, 00:46:07.815 --> 00:46:11.837 думаю, это бывает во многих языках. 00:46:12.607 --> 00:46:16.262 Нам нужно как-то реализовать это [неразборчиво], 00:46:16.262 --> 00:46:18.865 я займусь поиском свойства. 00:46:19.782 --> 00:46:20.933 Отлично. 00:46:20.933 --> 00:46:24.446 Вы получите поддержку для вашего предложения о свойствах. 00:46:26.136 --> 00:46:27.297 Спасибо вам. 00:46:28.153 --> 00:46:30.261 Хорошо, есть ещё вопросы? 00:46:32.410 --> 00:46:33.474 Финн. 00:46:33.974 --> 00:46:35.055 Финн -- один из тех людей, 00:46:35.055 --> 00:46:38.031 которые создают разработки на основе лексикографических данных. 00:46:38.031 --> 00:46:40.085 (Финн) У меня небольшой вопрос 00:46:40.405 --> 00:46:44.226 о вариациях в произношении. 00:46:44.896 --> 00:46:48.002 Их нелегко внести в... 00:46:48.532 --> 00:46:53.368 Конечно, одно и то же слово может иметь разные формы. 00:46:56.327 --> 00:46:58.448 Не знаю, мне кажется... 00:46:59.558 --> 00:47:03.535 Если не сделать это таким способом, то будет трудно уточнить... 00:47:04.771 --> 00:47:05.888 Хотя я не знаю, 00:47:05.888 --> 00:47:09.731 это мелкая техническая проблема или... 00:47:09.731 --> 00:47:11.252 Давайте вместе разберёмся. 00:47:11.642 --> 00:47:15.230 Хочется увидеть пример. 00:47:17.478 --> 00:47:18.478 Асаф. 00:47:26.886 --> 00:47:28.396 (Асаф) Спасибо. 00:47:29.386 --> 00:47:33.685 Я могу дать очень хороший пример из моего родного языка, иврита. 00:47:34.205 --> 00:47:38.275 В иврите есть два основных варианта 00:47:38.825 --> 00:47:42.326 для выражения почти каждого слова, 00:47:42.786 --> 00:47:47.640 потому что традиционное написание 00:47:47.640 --> 00:47:50.044 пропускает многие гласные буквы. 00:47:50.934 --> 00:47:55.207 Поэтому в современных изданиях Библии и поэзии 00:47:55.207 --> 00:47:57.071 используются диакритические знаки. 00:47:57.461 --> 00:48:02.670 Но эти знаки никогда не используются в современной прозе, 00:48:02.670 --> 00:48:05.974 газетах, на уличных вывесках. 00:48:05.974 --> 00:48:11.099 В ежедневном обиходе добавляются гласные 00:48:11.859 --> 00:48:13.519 и не используются диакритические знаки, 00:48:13.519 --> 00:48:15.607 потому что они громоздкие 00:48:15.607 --> 00:48:17.893 и пишутся по правилам, которых никто не знает. 00:48:18.633 --> 00:48:20.531 Поэтому есть два варианта: 00:48:20.531 --> 00:48:25.322 повседневный вариант для прозы, 00:48:25.322 --> 00:48:27.827 и отдельно Библия с поэзией, 00:48:27.827 --> 00:48:32.200 которые написаны традиционным текстом с диакритикой. 00:48:32.200 --> 00:48:33.302 Чтобы быть полезной, 00:48:33.302 --> 00:48:37.428 Lexeme должна распознавать обе вариации каждого слова 00:48:37.428 --> 00:48:39.747 и каждую форму каждого слова. 00:48:40.677 --> 00:48:43.391 То есть это случай очень обширного использования 00:48:43.391 --> 00:48:46.340 официальных устойчивых вариантов. 00:48:46.340 --> 00:48:49.052 Это не диалекты и не региональные языки, 00:48:49.332 --> 00:48:53.627 это две сосуществующие морфологические системы. 00:48:54.537 --> 00:48:58.926 Я тоже пока что не знаю, как выразить это в Lexeme, 00:48:58.926 --> 00:49:02.800 и это не даёт мне -- частично отвечаю на вопрос Магнуса -- 00:49:02.800 --> 00:49:05.238 загрузить готовые части 00:49:05.238 --> 00:49:09.394 самого большого словаря иврита, который есть в открытом доступе, 00:49:09.394 --> 00:49:12.701 и который я оцифровываю уже несколько лет. 00:49:13.141 --> 00:49:14.803 Большая часть уже готова, 00:49:14.803 --> 00:49:16.549 но я не выкладываю её в Lexeme, 00:49:16.549 --> 00:49:19.865 потому что я не знаю, как решить эту проблему. 00:49:20.245 --> 00:49:23.387 Хорошо, решим эту проблему здесь. (хихикает) 00:49:24.503 --> 00:49:26.021 Должна быть какая-то возможность. 00:49:30.045 --> 00:49:32.047 Ещё вопросы? 00:49:37.173 --> 00:49:39.535 Если нет, спасибо вам большое. 00:49:40.605 --> 00:49:42.675 (аплодисменты)