Викиданные и языки
Лидия Пинчер
(Лидия) Спасибо большое.
Языки – одна из важных тем
на этой конференции.
Хочу дать вам общее представление о том,
как мы работаем с языками,
и какие у нас есть возможности.
ДОСТУПНЫЕ ЗНАНИЯ ДЛЯ БОЛЬШЕГО ЧИСЛА ЛЮДЕЙ
Цель Викиданных -- доступные знания
для большего числа людей.
А для этого нужны языки,
учитывая то, что наша жизнь
всё больше зависит от технологий.
Как сказал сегодня наш главный спикер,
люди не успевают
за некоторыми технологиями,
потому что не знают определённого языка.
И это плохо.
Мы хотим это исправить.
Чтобы изменить это, нужны две вещи.
Первое -- дать людям контент на их языке.
Второе -- дать людям возможность
взаимодействовать на их языке
в этих приложениях или программах.
Викиданные работают в обеих случаях.
Первое -- контент на вашем языке,
то есть элементы и свойства,
способы описания мира.
Конечно, этого недостаточно,
но это позволяет вам двигаться вперёд.
Второе -- взаимодействие на вашем языке.
Здесь идут в ход лексемы,
если вы хотите поговорить
с персональным цифровым помощником
или вам нужно перевести текст
с помощью гаджета.
Давайте рассмотрим контент на вашем языке.
Что у нас есть в элементах и свойствах?
В этих элементах и свойствах
крайне важны метки.
Нам нужно знать название сущности,
о которой мы говорим.
И вместо того, чтобы говорить о Q5,
англоязычные люди знают,
что это значит «human»,
немецкоязычные знают, что это «mensch»,
и так далее.
Эти метки на элементах и свойствах
создают мост между людьми и машинами.
А также между самими людьми,
делая знания всё более доступными.
КАК ВЫГЛЯДИТ НАШ ОХВАТ?
Это хорошее устремление.
Как это выглядит?
Вот так.
Здесь вы видите,
что большинство элементов
в Викиданных имеют по две метки,
то есть метки на двух языках.
Потом на одном, потом на трёх,
а дальше вообще всё грустно.
(тихий смех)
Над этим нужно поработать.
Но с другой стороны,
могло быть и хуже.
Я ожидала, что в среднем будет одна.
Поэтому было очень приятно увидеть две.
(хихикает)
КАКИЕ ЯЗЫКИ МЫ ИСПОЛЬЗУЕМ?
Хорошо.
Но нас интересует
не только количество меток
на элементах и свойствах.
Нас также интересует,
на каких языках эти метки.
Здесь вы видите диаграмму языков,
на которых у нас есть метки для Элементов.
Наибольшую часть занимают Другие.
Здесь 100 самых распространённых языков,
остальные вошли в категорию Другие,
чтобы диаграмму можно было читать.
Здесь есть английский и нидерландский,
французский,
и конечно же, астурийский.
- (голос из зала 1) Ого!
- Да, ого!
Итак, здесь вы видите дисбаланс,
и у английского языка
большое преимущество.
Если посмотреть
на то же самое в Свойствах,
то здесь ситуация выглядит лучше.
Возможно, за счёт того,
что свойств намного меньше.
Поэтому даже маленькие сообщества
могут успевать за этим.
И очень важная часть Викиданных --
это локализация на вашем языке.
То есть это хорошо.
В случае с астурийским языком мы видим,
что даже маленькие сообщества
могут значительно изменить ситуацию
благодаря упорной работе и самоотдаче,
и это очень круто.
У КАКОГО СВОЙСТВА БОЛЬШЕ ВСЕГО МЕТОК?
У меня для вас вопрос:
если взять все свойства в Викиданных,
которые не являются
внешними идентификаторами,
какие из них имеют больше всего
меток, то есть больше всего языков?
(аудитория) [неразборчиво]
Я слышу версию «экземпляр класса»?
Неправильно.
Это изображение.
(хихикает)
Поэтому, если вы говорите на языке,
в котором еще нет метки
для экземпляра класса,
то стоит её добавить.
Сейчас у него есть 148 меток.
Ещё один слайд.
Этот график показывает,
сколько контента доступно
на определённом языке,
и какая доля этого контента используется.
На этой кривой вы видите,
что большая часть контента доступна
на английском и с английскими метками,
и её часто используют.
Дальше она спадает.
Вы также видите выпадающие точки,
где есть неожиданно много контента,
что очень хорошо.
Проблема в том, что его мало используют.
Астурийский и нидерландский
должны быть выше,
и я думаю, что нужно
помочь этим сообществам
увеличить использование
собранных ими данных.
Это было бы очень полезно.
Эта аналитика
показывает хорошую тенденцию --
часто используемые элементы
также имеют больше меток.
Или наоборот -- это не совсем понятно.
МЫ ПОМОГАЕМ ТОЛЬКО
РАСПРОСТРАНЁННЫМ ЯЗЫКАМ?
Ещё один вопрос:
мы помогаем
только распространённым языкам?
Или мы помогаем всем?
Здесь мы видим группирование языков.
Языки в каждой группе
склонны иметь общие метки.
Вы видите, как они собираются в кластеры.
Здесь похожие кластеры,
разными цветами показано,
насколько живым, используемым
или исчезающим является язык.
Здесь вы видите хорошую тенденцию --
распространённые и исчезающие языки
не образовывают два разных кластера.
Но они смешиваются,
и это намного лучше,
чем обратная ситуация,
в которой распространённые языки
помогают друг другу.
Это не тот случай.
И это очень хорошо.
Когда я это увидела, то подумала,
что это очень хорошо.
Здесь похожая тенденция,
мы рассмотрели
статус языков
и количество меток в них.
Вы видите, что распространённые языки
явно выигрывают,
как и ожидалось.
Но вы также видите,
что языки 2, 3, и возможно, 4 категорий
находятся в неплохой ситуации,
если говорить об их представлении
в Викиданных.
Это очень хороший результат.
Сейчас вы видите аналогичный график
степени использования контента
с этими метками
в Википедии, например,
и мы видим похожую картину.
Это говорит о том, что эти сообщества
вносят много меток
для часто используемых элементов.
Тут есть выпадающие точки,
и в этих случаях мы можем
помочь этим сообществам
эффективно применить свои усилия.
Но в общем мне нравится эта картина.
ВЗАИМОДЕЙСТВИЕ В ВАШЕМ ЯЗЫКЕ
Это были элементы и свойства Викиданных.
Теперь рассмотрим
взаимодействие в ваших языках.
Это лексемы в Викиданных,
где мы описываем слова,
их формы и значения.
Мы занимаемся этим с мая прошлого года,
и количество контента растёт.
Синим цветом обозначены лексемы,
красным -- формы этих лексем,
жёлтым -- смыслы лексем.
Эти сообщества --
вернёмся к этому позже --
потратили много времени
на создание форм и смыслов для лексем,
что очень полезно,
потому что это создаёт
ядро нужного набора данных.
Мы рассмотрели все языки,
имеющие лексемы на Викиданных.
У нас есть слова,
сейчас это 310 языков.
Как вы думаете, какой язык
имеет больше всего лексем на Викиданных?
(аудитория) Шведский [неразборчиво]
Как?
(голос из зала 2) Немецкий.
Извините, я услышала это раньше.
Это русский.
Русский далеко впереди.
Чтобы вам было понятнее,
есть разные мнения,
но я читала, что, например,
для разговорного уровня
на другом языке
достаточно знать от 1000 до 3000 слов,
и от 4000 до 10 000 слов
для продвинутого уровня.
Поэтому нам нужно ещё поработать.
Также хочу обратить
ваше внимание на баскский язык,
там примерно 10 000 лексем.
Если посмотреть на количество форм
для этих лексем,
то баскский находится довольно высоко,
и это очень круто.
Вам стоит пойти на лекцию,
которая объясняет этот случай.
Если посмотреть на количество смыслов,
то есть значений слов,
то баскский будет на первом месте.
Думаю, это заслуживает аплодисментов.
(аплодисменты)
КАКАЯ ЛЕКСЕМА ИМЕЕТ
БОЛЬШЕ ВСЕГО ПЕРЕВОДОВ?
Ещё один вопрос:
какая лексема имеет
больше всего переводов?
- (аудитория) Кошки. [неразборчиво]
- Дуглас Адамс. [неразборчиво]
Хорошие варианты, но нет.
Вот она, это русское слово «вода».
Мы много говорили о том,
сколько у нас есть лексем, форм и смыслов,
но это только одна часть.
Вторая часть --
это описание этих лексем,
форм и смыслов таким способом,
чтобы их могла прочитать машина.
Для этого есть утверждения,
как в элементах.
Одно из свойств -- пример использования.
Тот, кто использует эти данные,
может понять,
как использовать это слово в контексте,
например, как цитату.
Здесь на первом месте польский.
Носители польского хорошо потрудились.
Другое полезное свойство -- МФА,
международный фонетический алфавит,
то есть произношение слова.
Очевидно, что русскому языку
нужно много МФА-утверждений.
Зато польский на втором месте.
И наконец, запись произношения.
Это ссылки на файлы в Викискладе,
где кто-то говорит слово,
и вы слышите произношение носителя языка.
Это на случай, если вы не можете
прочитать МФА, например.
Ещё есть очень хороший Википроект,
называется Lingua Libre,
там можно делать аудиозаписи слов
на вашем языке.
Потом их добавляют
к лексемам на Викиданных,
чтобы люди знали,
как произносить ваши слова.
(голос из зала 3) [неразборчиво]
Если вы поищете «Lingua Libre»,
и я уверена, что кто-то может
выложить это в Telegram-канале.
Эти ребята крутые.
Они много чего сделали с Викибазой.
ЧТО ДЕЛАТЬ ДАЛЬШЕ?
Хорошо.
Теперь вопрос: что делать дальше?
Судя по числаv, которые я вам показала,
мы провели большую работу для того,
чтобы больше людей
могли получить больше знаний
о языках на Викиданных.
Но нам ещё много чего нужно сделать.
Вы тоже можете помочь, например,
организовывать марафоны меток,
то есть собирать людей,
чтобы ставить метки
на элементы в Викиданных,
или устроить вики-марафон
для лексем в вашем языке,
чтобы внести распространённые слова
в Викиданные.
Или используйте инструмент
типа Terminator,
который поможет найти
самые важные элементы в вашем языке,
у которых до сих пор нет метки.
Важность определяется
частотой использования
в других элементах Викиданных
в виде ссылок в утверждениях.
Что касается лексем,
у нас уже есть базовое количество,
и теперь их нужно расширять,
добавлять больше утверждений,
так, чтобы на их основе
можно было создавать
полноценные приложения.
Потому что мы приближаемся
к этой критической массе,
но до создания серьёзных приложений
всё ещё далеко.
И я надеюсь, что вы к нам присоединитесь.
Наши друзья
немного нам помогают.
Бруно, не хочешь ли выйти...
ЛЕКСИЧЕСКИЕ МАСКИ ДЛЯ ВАЛИДАЦИИ ЛЕКСИКОНОВ
...и рассказать нам о лексических масках?
(Бруно) Спасибо, Лидия.
Спасибо за возможность
презентовать нашу работу,
которую мы делаем в Google вместе с Денни.
Многие из вас его знают.
Я лингвист в Google,
и я очень рад встретить здесь
таких же языковых энтузиастов.
Мы также создаём лексиконы,
и мы создали технологию, или подход,
который может быть полезным для вас.
Для наглядности,
здесь моя лекция
о лексикографическом фоне.
Когда мы создаём базу данных лексикона,
их очень трудно поддерживать,
обеспечивать устойчивость
и обмен данными,
думаю, вы это знаете.
Мы пытаемся унифицировать
лингвистическую особенность и свойства,
которые описывают эти лексемы и формы.
Эта проблема пока что не решена,
но есть некоторые попытки унификации.
Чего действительно не хватает --
и эта проблема была у нас
с начала проекта в Google --
это попыток создать внутреннюю структуру,
которая описывает,
как должна выглядеть словарная статья,
какие данные
или какая информация у нас есть,
и ожидаемые характеристики.
И мы придумали маску лексикона.
Маска лексикона описывает то,
что должно быть в статье,
в лексикографической статье,
для того, чтобы она была полной
в контексте количества форм,
ожидаемых для лексемы,
а также количества особенностей,
ожидаемых для каждой из этих форм.
Вот пример с итальянскими прилагательными.
В итальянском языке вы ожидаете
увидеть четыре формы прилагательных,
и каждая из этих форм имеет
специфическую комбинацию особенностей,
касающихся рода и числа.
Это то, что мы ожидаем
от итальянских прилагательных.
Конечно, можно создать
чрезвычайно сложные маски,
как для спряжения французских глаголов,
которое занимает много места,
а маску для русского языка
я показывать не буду,
потому что она не поместится на экране.
Также у нас есть некоторые
детальные характеристики,
потому что мы учитываем различия
на уровне форм.
Здесь есть русские существительные,
которые имеют три числа
и несколько падежей с разными формами,
но у них также есть характеристика
на уровне статьи,
которая указывает,
что существительное имеет
свойственные ему род
и характеристику одушевлённости,
которые также описаны в маске.
Мы также хотим выделить то,
что маска определяет,
как в общем должна выглядеть статья.
У вас могут быть маски поменьше,
для недостаточных глаголов формы,
или для недостаточных глаголов лексемы,
которые есть в языке.
Вот самая простая форма
французских глаголов,
которые имеют только
третье лицо единственного числа
для всех погодных глаголов вроде
«дождит» или «снежит», как в английском.
То есть мы различаем эти два уровня.
Мы в Google используем это так:
если у нас есть лексикон,
который мы хотим использовать,
мы используем маску,
чтобы буквально бросить лексиконы,
все статьи, через маску
и посмотреть, в какой статье
есть проблемы со структурой.
Возможно, нам не хватает формы?
Или лингвистической особенности?
Если есть проблема, люди её оценивают,
или смотрят, пройдёт ли она через маску.
Это очень мощный инструмент
для проверки качества структуры.
Сегодня мы с радостью объявляем,
что мы можем открыть
исходные коды нашей маски.
Вот эта схема.
Если хотите, мы можем распространить
и передать их в Викиданные
в виде ShEx-файлов.
Это ShEx-файл
для немецких существительных,
и Денни занимается конвертацией
из наших внутренних спецификаций
в более доступные спецификации.
Сейчас мы работаем с 25 языками.
Мы ожидаем рост с нашей стороны,
но мы также ищем возможности
сотрудничества для других языков.
Денни и Лукас занимаются
одним из таких совместных проектов.
У Лукаса есть отличные инструменты
для интерфейса,
который поможет пользователям
или составителям добавлять больше форм.
Если вы хотите добавить
французское прилагательное,
интерфейс подскажет вам,
сколько форм ожидается,
и какие лингвистические особенности
должны быть у этой формы.
То есть наша маска поможет
определить и расширить инструмент.
У меня всё.
(Лидия) Спасибо большое.
(аплодисменты)
Хорошо.
Есть вопросы?
Хотите ещё поговорить о лексемах?
- (голос из зала 4) Да.
- Да. (хихикает)
(голос из зала 4) Вы говорили о том,
чтобы больше людей
могли использовать больше языков.
Но есть много языков,
которые нельзя использовать в Викиданных.
Как вы решаете эту проблему?
«Нельзя использовать в Викиданных» --
вы имеете в виду ввод меток?
- (голос из зала 4) Меток, описаний.
- Понятно.
С лексемами немного другая ситуация,
потому что для них нет такого ограничения.
Для меток на элементах и свойствах
ограничение есть,
потому что мы хотели убедиться,
что люди не начнут писать что попало
и что это не выйдет из-под контроля.
Если маленькое сообщество хочет
работать с одним языком,
обратитесь к нам и мы вам поможем.
(голос из зала 4) Мы сделали это в мае
на хакатоне в Праге,
и смогли начать использовать
наш язык лишь в августе.
- Да.
- (голос из зала 4) Это очень медленно.
Да, к сожалению, это очень медленно.
Мы работаем с Комиссией по языку
над решением некоторых фундаментальных...
Например, договориться о том,
какие языки «разрешены».
Это происходит очень медленно,
поэтому ваш запрос занял столько времени.
(голос из зала 4) Спасибо.
(голос из зала 5) Спасибо вам.
Лидия, если вы помните статистику,
которую вы показывали,
количество лексем в языках.
Вы посчитали все формы как единицу данных,
или только лексемы?
(Лидия) Вы имеете в виду эту?
Какую именно?
(голос из зала 5) Да, эту.
Если вы помните,
это количество обозначает
все формы для всех лексем
или только количество лексем?
- Нет, только количество лексем.
- (голос из зала 5) Только количество.
То есть это просто статистика,
потому что если добавить ещё и формы --
потому я и спрашиваю --
тогда все языки с флективной морфологией,
такие как русский, сербский,
словенский и другие,
имеют преимущество,
потому что в них очень много форм.
(Лидия) Да, это сильно влияет
на количество форм.
(голос из зала 5)
Да, этот слайд. Спасибо.
(голос из зала 6) У меня вопрос о...
Когда мы говорим
о фактических элементах и свойствах,
Как я понимаю,
пока что нет способа
дать фактический источник
для существующих меток и описаний.
Например, если вы говорите
о свойстве элемента,
вы можете получить противоречивые метки.
Да.
(голос из зала 6) То есть этот человек...
Например, мы раньше говорили
об автохтонных понятиях.
Согласно одному источнику,
этот человек -- норвежский художник.
Согласно другому источнику --
он саамский художник.
Ещё у нас была проблема в эстонском,
где нам нужно было
изменить терминологию на официальную,
в официальных лексиконах,
но мы не могли указать причину
и источник изменений,
и не могли обосновать,
почему это нужно сделать.
Это выглядело, как будто случайный человек
просто так изменяет термины.
Появится ли у нас возможность
указывать надлежащие источники
для языковых данных?
Частично это возможно.
Например, если у вас есть
элемент для личности,
есть утверждение, имя,
фамилия этой личности и так далее,
тогда вы можете добавить ссылку на это.
Я сомневаюсь, стоит ли усложнять ссылки
для меток и описаний,
но если люди уверены,
что утверждение имеет недостаточно ссылок,
то это нужно обсудить.
Боюсь, что это добавит сложности
для, надеюсь, немногих случаев,
но я не против изменений,
если люди на этом настаивают.
(голос из зала 6) Тогда это
не должно быть опцией по умолчанию,
которую видят все новички в интерфейсе.
Например «Нажмите,
если хотите уточнить информацию».
Знаете ли вы, как часто
это будет использоваться?
(голос из зала 6) Например, в эстонском...
Думаю, также и в других языках...
Например, официальное название
с утверждённым переводом
на английский
определённого типа муниципалитета.
Например, в моём случае
мы использовали слово «приход»,
его исходное значение в эстонском --
что-то вроде церковного прихода,
то есть это происхождение слова,
но не современный официальный перевод.
В этом случае стоит добавить его
как утверждение официального названия,
и также добавить туда ссылку.
(голос из зала 6) Хорошо.
Ещё вопросы?
Да?
(голос из зала 7)
У меня два коротких замечания.
Вы отметили, что астурийский язык
занимает хорошую позицию,
но я думаю, что это ложный артефакт.
Давайте подробнее.
(голос из зала 7)
Я думаю, что это сделал бот,
который вставил личные имена,
собственные имена,
и сказал: «Это как во французском
или испанском»,
и просто скопировал всё это.
Об этом говорит хотя бы то,
что в астурийском
вы не увидите таких усилий там,
где действительно нужен перевод,
например, в названиях свойств
или названиях элементов, которые
не являются собственными именами.
Асаф, вы разбиваете мне сердце.
(голос из зала 7) Я знаю.
Люблю портить праздники.
Но у меня есть хорошие новости
о количестве произношений.
Как вы знаете, на Викискладе
полно файлов с произношениями,
например, для нидерландского языка
их не меньше 300 000,
и всё это надо как-то обработать.
Так что если кому-то
нужен сторонний проект,
то на Викискладе вы найдёте очень много
классифицированных файлов с произношениями
в категории «Произношение» по языкам.
Их нужно привязать к лексемам
и добавить в Lexeme.
И ещё, можете ли вы сказать что-нибудь
о плане действий,
насчёт того, сколько инвестиций
и всего прочего мы можем ожидать
от Lexeme в будущем году,
потому что я жду с нетерпением.
Ждетё с нетерпением? (хихикает)
- (голос из зала 7) Ожидаю большего.
- Да. (хихикает)
Сейчас мы больше заняты
Викибазой и качеством данных,
хотим увидеть результативность,
затем нам нужно найти проблемные точки,
а потом вернуться к улучшению
лексикографических данных.
Очень хочется услышать ваше мнение
по поводу того, куда нам двигаться,
какие изменения вы хотите видеть,
чтобы мы могли решить, как это сделать.
Но вы, конечно, правы,
там ещё много работы
с технической стороны.
(голос из зала 8) Когда мы загружали
баскские слова с формами --
вы увидите кое-что из этого --
и на прошлой неделе мы сказали:
«Ого, мы заняли первое место.»
Об этом даже пресса пишет:
«Ого, баски заняли первое место в чём-то.»
(смеётся)
И тогда люди спрашивают:
«А для чего это нужно?»
Тут мы не знаем, что ответить.
Можно сказать,
что это поможет компьютерам
лучше понимать языки,
но какие инструменты
мы можем создать в будущем?
На это у нас нет чёткого ответа.
Возможно, ответ есть у вас.
(хихикает) Не знаю,
есть ли у меня чёткий ответ,
зато есть просто ответ.
Пока что, как я говорила [неразборчиво],
мы не достигли той критической массы,
которая позволяет создать
много интересных инструментов.
Некоторые инструменты уже существуют.
Например, на днях [Эстер Панделия]
выпустила инструмент, где можно увидеть...
Кажется, там были слова на глобусе,
их происхождение и распространение.
Я точно не знаю.
Но она ответила в Project chat
на Викиданных,
можете поискать там.
Мы видели эти первые инструменты,
как тогда, когда начинали
создавать Викиданные.
Сначала некоторые...это была просто сеть,
что-то вроде: «Смотри,
эта штука связана с той штукой.»
Когда мы собрали больше данных
и достигли некоторой критической массы,
появились более мощные приложения,
например, Histropedia,
или вопросы и ответы
в персональном цифровом
помощнике Platypus, и так далее.
Мы видим похожую ситуацию с лексемами.
Мы на том уровне,
где можно создать такие маленькие...
«Смотрите, тут есть связь
между двумя вещами»,
и есть перевод этого слова
в этом языковом уровне,
и чем больше мы развиваем это,
чем больше слов описываем,
тем больше возможностей появляется.
Какие именно возможности?
Бен, наш главный спикер,
говорил о переводах,
о возможности перевода
с одного языка на другой.
И мой коллега Йенс всегда говорит о том,
что Евросоюз ищет переводчика
с мальтийского на шведский,
если не ошибаюсь.
- (голос из зала) Эстонский.
- Эстонский.
Это редкая комбинация.
Но если собрать все эти языки
в один машинно-читаемый массив,
то вы сможете это сделать,
вы сможете найти словарь
для перевода с эстонского
на мальтийский и обратно.
Внесение в словари языковых комбинаций,
которых там не было раньше,
потому что на них не было спроса,
достаточного для финансовой выгоды.
Теперь мы можем это сделать.
Затем следующее поколение.
Люси говорила о том,
как она работает с Хэтти
над генерацией текста,
чтобы начать писать статьи в Википедии
на языках меньшинств.
Для этого нужны данные о словах
и знание языка.
Это то, что мне вспомнилось
на данный момент.
Возможно, аудитория предложит больше идей
насчёт того, что мы будем делать
с этими выдающимися данными.
(голос из зала 9)
Я отклонюсь от темы лексем.
Я хочу спросить,
как я, как член сообщества,
могу повлиять на приоритет задания,
если приходит новый пользователь,
и он может указать, какие языки
он хочет видеть и редактировать
без знания каких-то
секретных словесных шаблонов.
Возможно, в этом году появится
технический список желаний
без тем Википедии.
Надеюсь, мы все сможем
проголосовать за эту вещь,
которую мы семь лет не могли исправить.
Есть ли у вас идеи
и замечания на этот счёт?
Вы имеете в виду,
что пользователь,
не зарегистрированный в Викиданных,
не может просто изменить язык?
(голос из зала 9) Нет,
для [неразборчиво] пользователей.
Если они вошли в систему,
они могут изменить язык вверху страницы
и он появится там,
где есть описание метки [неразборчиво],
и его можно будет редактировать.
(голос из зала 9)
Чаще всего в рабочем процессе
нужно иметь доступ ко многим языкам,
но это не всегда возможно.
Хорошо, давайте встретимся
после доклада и обсудим это.
Отлично.
Ещё вопросы?
Да?
(голос из зала 10) Спасибо за презентацию.
Можете прокомментировать
состояние корреляции
с сообществом Викисловаря?
Насколько я знаю, ведутся дискуссии
об импортировании
некоторых элементов работы,
но там есть проблемы с лицензированием
и некоторые разногласия.
(Лидия) Да.
Сообщества Викисловаря
потратили много времени
на его создание.
Они создали
невероятно сложные и комплексные шаблоны
для создания удобных таблиц,
которые автоматически генерируют формы,
и ещё много разных впечатляющих
и невообразимых вещей.
И конечно же, они вложили в это
много времени и усилий.
Поэтому их можно понять,
они не хотят, чтобы результаты их работы
кто-то взял просто так.
Поэтому такая ситуация.
И это нормально.
Сейчас первые сообщества
Викисловаря говорят о том,
чтобы передать и импортировать
некоторые данные в Викиданные.
Вы уже видели русский,
это один из таких случаев.
И я ожидаю большего.
Но это медленный процесс,
такой же медленный,
как внедрение данных
из Викиданных в Википедию.
С другой стороны, нужно упростить
использование данных
из лексем в Викисловаре,
чтобы они могли пользоваться ими
и делиться данными
с разными Викисловарями,
что сейчас почти невозможно.
И это ужасно, так же,
как это было в Википедии.
Дождитесь подарка на день рождения.
(хихикает)
Да?
(голос из зала 11) Когда я думала,
как решить эту проблему,
то не хотела говорить,
потому что это казалось мне глупым,
но я думаю, что в Викисловаре
уже есть некоторый контент,
и я знаю, что мы не можем
передать его в Викиданные
из-за разницы в лицензиях.
Но я думаю, что с этим
можно что-то сделать.
Возможно, мы можем
получить разрешение сообществ
после общего голосования,
чтобы активные участники сообщества
проголосовали и сказали,
хотят ли они принять или передать контент,
для которого они могут
создать лексемы в Викиданных.
Иначе это непродуктивно.
Это как раз тот разговор,
который нужно начать
в сообществах Викисловаря.
Для нас было бы неуместным
навязывать им это.
Но я думаю, что это стоит обсудить.
Также важно понимать,
что есть разница между тем,
что легально разрешено,
тем, что мы должны делать,
и тем, чего хотят или не хотят эти люди.
Поэтому, даже если это легально,
но другие сообщества Викисловаря
этого не хотят,
то здесь нужно быть осторожными.
Возьмите микрофон для трансляции.
(голос из зала 12)
Всё это очень интересно,
и я уже думаю, как рассказать
об этом моим студентам
и как включить это в курс лекций,
в нашу работу, учебный процесс.
На данный момент
мне не хватает знаний,
но я думаю, что наша документация
нуждается в улучшении.
Было бы хорошо сделать
интересные видео,
которые объясняют, как это работает.
Мы могли бы их использовать,
чтобы заинтересовать студентов
и объяснить людям, как это здорово.
Просто подумайте
о документации и образовании.
Я думаю, многое можно сделать.
Есть много задач,
к которым можно привлечь...
...ну, не начальную школу,
но хотя бы старших школьников.
Очень бы хотелось
использовать этот потенциал,
хотя пока что я плохо разбираюсь в этом
и не могу ставить задачи или...
...делать что-нибудь на практике.
Если у вас есть
любые идеи по этому поводу,
я с удовольствием их выслушаю.
Да, мы поговорим об этом.
Ещё вопросы?
Кто-то поднимал руку.
Не помню, кто именно.
(голос из зала 13) Если мы не можем
импортировать из Викисловаря,
есть ли согласованные мероприятия,
чтобы найти другие окрытые источники,
возможно, все данные,
как-то отфильтровать и организовать их,
чтобы их можно было
легко проверить для импорта?
Первые мероприятия уже есть.
Я так понимаю,
баскский язык -- одно из них.
Хотите рассказать об этом?
(голос из зала 14) [inaudible]
Фактический ответ -- заплатить за это...
У нас есть договор с подрядчиком,
с которым мы обычно работаем.
Они создают словари --
и ещё много чего, словари в том числе.
Мы договорились с ними о создании
бесплатного словаря для студентов.
Мы бы взяли часто употребляемые слова
и начали загружать их
с внешним идентификатором
и схемой этих вещей.
Но у нас была дискуссия,
оставлять ли это на лицензии CC0,
потому что у них есть
словарь с лицензией CC BY
и они поняли, в чём разница.
Поэтому была дискуссия.
Но я думаю, что в будущем мы сможем
предоставить инструменты или примеры,
и я думаю, что будут другие словари,
с которыми мы сможем работать.
Я также думаю, что Викисловарь
должен двигаться в этом направлении,
но это уже другая большая дискуссия.
Кроме того,
Леа общается с людьми из Окситании,
которые работают
над окситанскими словарями,
и сейчас они работают
над совместным проектом в шумерском.
Ещё вопросы?
(голос из зала 15) Привет!
Мы хотим импортировать окситанские данные.
Отлично!
(голос из зала 15)
И у нас небольшая проблема.
Мы не знаем, как представить
всё разнообразие лексем.
У нас шесть диалектов,
и мы хотим указать,
в каком диалекте используется лексема,
и у нас нет подходящего
C0-утверждения, чтобы это сделать.
Пока сегмента не существует,
это не позволяет нам [неразборчиво]
потому что нам придётся сделать это снова,
когда мы сможем
[экспортировать] утверждение.
И это сложно,
потому что это утверждение
заинтересует немногих людей,
потому что оно касается
в основном языков меньшинств.
Один человек спросит об этом.
Но, как у наших коллег басков,
один человек может привлечь тысячи других,
может быть, это не много,
но для нас это очень важно.
У вас уже есть
новое предложение о свойствах,
или вам нужна помощь в его создании?
(голос из зала 15) Мы просили об этом
четыре месяца назад.
Хорошо, попросим кого-нибудь
помочь с этим предложением.
Думаю, здесь достаточно людей,
которые могут это сделать.
(голос из зала 15) Предложение о свойствах
[говорит по-французски]
(голос из зала) Нам не ответили.
(голос из зала 15) Нам не ответили,
и мы не знаем, как это сделать,
потому что мы не из сообщества Викиданных.
Здесь есть люди, которые могут вам помочь.
Поднимите руку, кто возьмёт...
(голос из зала 16) Я могу.
Мне кажется очень интересным то,
что только вариант формы
может управлять этим территориально,
с помощью координат или картографии.
А также разные произношения,
думаю, это бывает во многих языках.
Нам нужно как-то реализовать это
[неразборчиво],
я займусь поиском свойства.
Отлично.
Вы получите поддержку
для вашего предложения о свойствах.
Спасибо вам.
Хорошо, есть ещё вопросы?
Финн.
Финн -- один из тех людей,
которые создают разработки
на основе лексикографических данных.
(Финн) У меня небольшой вопрос
о вариациях в произношении.
Их нелегко внести в...
Конечно, одно и то же слово
может иметь разные формы.
Не знаю, мне кажется...
Если не сделать это таким способом,
то будет трудно уточнить...
Хотя я не знаю,
это мелкая техническая проблема или...
Давайте вместе разберёмся.
Хочется увидеть пример.
Асаф.
(Асаф) Спасибо.
Я могу дать очень хороший пример
из моего родного языка, иврита.
В иврите есть два основных варианта
для выражения почти каждого слова,
потому что традиционное написание
пропускает многие гласные буквы.
Поэтому в современных изданиях
Библии и поэзии
используются диакритические знаки.
Но эти знаки никогда не используются
в современной прозе,
газетах, на уличных вывесках.
В ежедневном обиходе добавляются гласные
и не используются диакритические знаки,
потому что они громоздкие
и пишутся по правилам,
которых никто не знает.
Поэтому есть два варианта:
повседневный вариант для прозы,
и отдельно Библия с поэзией,
которые написаны
традиционным текстом с диакритикой.
Чтобы быть полезной,
Lexeme должна распознавать
обе вариации каждого слова
и каждую форму каждого слова.
То есть это случай
очень обширного использования
официальных устойчивых вариантов.
Это не диалекты и не региональные языки,
это две сосуществующие
морфологические системы.
Я тоже пока что не знаю,
как выразить это в Lexeme,
и это не даёт мне -- частично
отвечаю на вопрос Магнуса --
загрузить готовые части
самого большого словаря иврита,
который есть в открытом доступе,
и который я оцифровываю
уже несколько лет.
Большая часть уже готова,
но я не выкладываю её в Lexeme,
потому что я не знаю,
как решить эту проблему.
Хорошо, решим эту проблему здесь.
(хихикает)
Должна быть какая-то возможность.
Ещё вопросы?
Если нет, спасибо вам большое.
(аплодисменты)