-
Викиданные и языки
-
Лидия Пинчер
-
(Лидия) Спасибо большое.
-
Языки – одна из важных тем
на этой конференции.
-
Хочу дать вам общее представление о том,
-
как мы работаем с языками,
-
и какие у нас есть возможности.
-
ДОСТУПНЫЕ ЗНАНИЯ ДЛЯ БОЛЬШЕГО ЧИСЛА ЛЮДЕЙ
-
Цель Викиданных -- доступные знания
для большего числа людей.
-
А для этого нужны языки,
-
учитывая то, что наша жизнь
всё больше зависит от технологий.
-
Как сказал сегодня наш главный спикер,
-
люди не успевают
за некоторыми технологиями,
-
потому что не знают определённого языка.
-
И это плохо.
-
Мы хотим это исправить.
-
Чтобы изменить это, нужны две вещи.
-
Первое -- дать людям контент на их языке.
-
Второе -- дать людям возможность
-
взаимодействовать на их языке
-
в этих приложениях или программах.
-
Викиданные работают в обеих случаях.
-
Первое -- контент на вашем языке,
-
то есть элементы и свойства,
-
способы описания мира.
-
Конечно, этого недостаточно,
-
но это позволяет вам двигаться вперёд.
-
Второе -- взаимодействие на вашем языке.
-
Здесь идут в ход лексемы,
-
если вы хотите поговорить
с персональным цифровым помощником
-
или вам нужно перевести текст
с помощью гаджета.
-
Давайте рассмотрим контент на вашем языке.
-
Что у нас есть в элементах и свойствах?
-
В этих элементах и свойствах
крайне важны метки.
-
Нам нужно знать название сущности,
о которой мы говорим.
-
И вместо того, чтобы говорить о Q5,
-
англоязычные люди знают,
что это значит «human»,
-
немецкоязычные знают, что это «mensch»,
-
и так далее.
-
Эти метки на элементах и свойствах
-
создают мост между людьми и машинами.
-
А также между самими людьми,
-
делая знания всё более доступными.
-
КАК ВЫГЛЯДИТ НАШ ОХВАТ?
-
Это хорошее устремление.
-
Как это выглядит?
-
Вот так.
-
Здесь вы видите,
-
что большинство элементов
в Викиданных имеют по две метки,
-
то есть метки на двух языках.
-
Потом на одном, потом на трёх,
-
а дальше вообще всё грустно.
-
(тихий смех)
-
Над этим нужно поработать.
-
Но с другой стороны,
-
могло быть и хуже.
-
Я ожидала, что в среднем будет одна.
-
Поэтому было очень приятно увидеть две.
(хихикает)
-
КАКИЕ ЯЗЫКИ МЫ ИСПОЛЬЗУЕМ?
-
Хорошо.
-
Но нас интересует
не только количество меток
-
на элементах и свойствах.
-
Нас также интересует,
на каких языках эти метки.
-
Здесь вы видите диаграмму языков,
-
на которых у нас есть метки для Элементов.
-
Наибольшую часть занимают Другие.
-
Здесь 100 самых распространённых языков,
-
остальные вошли в категорию Другие,
чтобы диаграмму можно было читать.
-
Здесь есть английский и нидерландский,
-
французский,
-
и конечно же, астурийский.
-
- (голос из зала 1) Ого!
- Да, ого!
-
Итак, здесь вы видите дисбаланс,
-
и у английского языка
большое преимущество.
-
Если посмотреть
на то же самое в Свойствах,
-
то здесь ситуация выглядит лучше.
-
Возможно, за счёт того,
что свойств намного меньше.
-
Поэтому даже маленькие сообщества
могут успевать за этим.
-
И очень важная часть Викиданных --
-
это локализация на вашем языке.
-
То есть это хорошо.
-
В случае с астурийским языком мы видим,
-
что даже маленькие сообщества
могут значительно изменить ситуацию
-
благодаря упорной работе и самоотдаче,
-
и это очень круто.
-
У КАКОГО СВОЙСТВА БОЛЬШЕ ВСЕГО МЕТОК?
-
У меня для вас вопрос:
-
если взять все свойства в Викиданных,
-
которые не являются
внешними идентификаторами,
-
какие из них имеют больше всего
меток, то есть больше всего языков?
-
(аудитория) [неразборчиво]
-
Я слышу версию «экземпляр класса»?
-
Неправильно.
-
Это изображение.
(хихикает)
-
Поэтому, если вы говорите на языке,
-
в котором еще нет метки
для экземпляра класса,
-
то стоит её добавить.
-
Сейчас у него есть 148 меток.
-
Ещё один слайд.
-
Этот график показывает,
-
сколько контента доступно
на определённом языке,
-
и какая доля этого контента используется.
-
На этой кривой вы видите,
-
что большая часть контента доступна
на английском и с английскими метками,
-
и её часто используют.
-
Дальше она спадает.
-
Вы также видите выпадающие точки,
-
где есть неожиданно много контента,
-
что очень хорошо.
-
Проблема в том, что его мало используют.
-
Астурийский и нидерландский
должны быть выше,
-
и я думаю, что нужно
помочь этим сообществам
-
увеличить использование
собранных ими данных.
-
Это было бы очень полезно.
-
Эта аналитика
показывает хорошую тенденцию --
-
часто используемые элементы
-
также имеют больше меток.
-
Или наоборот -- это не совсем понятно.
-
МЫ ПОМОГАЕМ ТОЛЬКО
РАСПРОСТРАНЁННЫМ ЯЗЫКАМ?
-
Ещё один вопрос:
-
мы помогаем
только распространённым языкам?
-
Или мы помогаем всем?
-
Здесь мы видим группирование языков.
-
Языки в каждой группе
склонны иметь общие метки.
-
Вы видите, как они собираются в кластеры.
-
Здесь похожие кластеры,
разными цветами показано,
-
насколько живым, используемым
-
или исчезающим является язык.
-
Здесь вы видите хорошую тенденцию --
-
распространённые и исчезающие языки
-
не образовывают два разных кластера.
-
Но они смешиваются,
-
и это намного лучше,
чем обратная ситуация,
-
в которой распространённые языки
-
помогают друг другу.
-
Это не тот случай.
-
И это очень хорошо.
-
Когда я это увидела, то подумала,
что это очень хорошо.
-
Здесь похожая тенденция,
-
мы рассмотрели
-
статус языков
-
и количество меток в них.
-
Вы видите, что распространённые языки
явно выигрывают,
-
как и ожидалось.
-
Но вы также видите,
-
что языки 2, 3, и возможно, 4 категорий
-
находятся в неплохой ситуации,
-
если говорить об их представлении
в Викиданных.
-
Это очень хороший результат.
-
Сейчас вы видите аналогичный график
-
степени использования контента
с этими метками
-
в Википедии, например,
-
и мы видим похожую картину.
-
Это говорит о том, что эти сообщества
-
вносят много меток
для часто используемых элементов.
-
Тут есть выпадающие точки,
и в этих случаях мы можем
-
помочь этим сообществам
эффективно применить свои усилия.
-
Но в общем мне нравится эта картина.
-
ВЗАИМОДЕЙСТВИЕ В ВАШЕМ ЯЗЫКЕ
-
Это были элементы и свойства Викиданных.
-
Теперь рассмотрим
взаимодействие в ваших языках.
-
Это лексемы в Викиданных,
-
где мы описываем слова,
их формы и значения.
-
Мы занимаемся этим с мая прошлого года,
-
и количество контента растёт.
-
Синим цветом обозначены лексемы,
-
красным -- формы этих лексем,
-
жёлтым -- смыслы лексем.
-
Эти сообщества --
вернёмся к этому позже --
-
потратили много времени
на создание форм и смыслов для лексем,
-
что очень полезно,
-
потому что это создаёт
ядро нужного набора данных.
-
Мы рассмотрели все языки,
-
имеющие лексемы на Викиданных.
-
У нас есть слова,
-
сейчас это 310 языков.
-
Как вы думаете, какой язык
-
имеет больше всего лексем на Викиданных?
-
(аудитория) Шведский [неразборчиво]
-
Как?
-
(голос из зала 2) Немецкий.
-
Извините, я услышала это раньше.
-
Это русский.
-
Русский далеко впереди.
-
Чтобы вам было понятнее,
-
есть разные мнения,
-
но я читала, что, например,
для разговорного уровня
-
на другом языке
достаточно знать от 1000 до 3000 слов,
-
и от 4000 до 10 000 слов
для продвинутого уровня.
-
Поэтому нам нужно ещё поработать.
-
Также хочу обратить
ваше внимание на баскский язык,
-
там примерно 10 000 лексем.
-
Если посмотреть на количество форм
для этих лексем,
-
то баскский находится довольно высоко,
-
и это очень круто.
-
Вам стоит пойти на лекцию,
которая объясняет этот случай.
-
Если посмотреть на количество смыслов,
то есть значений слов,
-
то баскский будет на первом месте.
-
Думаю, это заслуживает аплодисментов.
-
(аплодисменты)
-
КАКАЯ ЛЕКСЕМА ИМЕЕТ
БОЛЬШЕ ВСЕГО ПЕРЕВОДОВ?
-
Ещё один вопрос:
-
какая лексема имеет
больше всего переводов?
-
- (аудитория) Кошки. [неразборчиво]
- Дуглас Адамс. [неразборчиво]
-
Хорошие варианты, но нет.
-
Вот она, это русское слово «вода».
-
Мы много говорили о том,
-
сколько у нас есть лексем, форм и смыслов,
-
но это только одна часть.
-
Вторая часть --
-
это описание этих лексем,
форм и смыслов таким способом,
-
чтобы их могла прочитать машина.
-
Для этого есть утверждения,
как в элементах.
-
Одно из свойств -- пример использования.
-
Тот, кто использует эти данные,
-
может понять,
как использовать это слово в контексте,
-
например, как цитату.
-
Здесь на первом месте польский.
-
Носители польского хорошо потрудились.
-
Другое полезное свойство -- МФА,
международный фонетический алфавит,
-
то есть произношение слова.
-
Очевидно, что русскому языку
-
нужно много МФА-утверждений.
-
Зато польский на втором месте.
-
И наконец, запись произношения.
-
Это ссылки на файлы в Викискладе,
-
где кто-то говорит слово,
-
и вы слышите произношение носителя языка.
-
Это на случай, если вы не можете
прочитать МФА, например.
-
Ещё есть очень хороший Википроект,
-
называется Lingua Libre,
-
там можно делать аудиозаписи слов
на вашем языке.
-
Потом их добавляют
к лексемам на Викиданных,
-
чтобы люди знали,
как произносить ваши слова.
-
(голос из зала 3) [неразборчиво]
-
Если вы поищете «Lingua Libre»,
-
и я уверена, что кто-то может
выложить это в Telegram-канале.
-
Эти ребята крутые.
-
Они много чего сделали с Викибазой.
-
ЧТО ДЕЛАТЬ ДАЛЬШЕ?
-
Хорошо.
-
Теперь вопрос: что делать дальше?
-
Судя по числаv, которые я вам показала,
-
мы провели большую работу для того,
-
чтобы больше людей
могли получить больше знаний
-
о языках на Викиданных.
-
Но нам ещё много чего нужно сделать.
-
Вы тоже можете помочь, например,
-
организовывать марафоны меток,
то есть собирать людей,
-
чтобы ставить метки
на элементы в Викиданных,
-
или устроить вики-марафон
для лексем в вашем языке,
-
чтобы внести распространённые слова
в Викиданные.
-
Или используйте инструмент
типа Terminator,
-
который поможет найти
самые важные элементы в вашем языке,
-
у которых до сих пор нет метки.
-
Важность определяется
частотой использования
-
в других элементах Викиданных
в виде ссылок в утверждениях.
-
Что касается лексем,
-
у нас уже есть базовое количество,
-
и теперь их нужно расширять,
добавлять больше утверждений,
-
так, чтобы на их основе
-
можно было создавать
полноценные приложения.
-
Потому что мы приближаемся
к этой критической массе,
-
но до создания серьёзных приложений
-
всё ещё далеко.
-
И я надеюсь, что вы к нам присоединитесь.
-
Наши друзья
-
немного нам помогают.
-
Бруно, не хочешь ли выйти...
-
ЛЕКСИЧЕСКИЕ МАСКИ ДЛЯ ВАЛИДАЦИИ ЛЕКСИКОНОВ
-
...и рассказать нам о лексических масках?
-
(Бруно) Спасибо, Лидия.
-
Спасибо за возможность
презентовать нашу работу,
-
которую мы делаем в Google вместе с Денни.
-
Многие из вас его знают.
-
Я лингвист в Google,
-
и я очень рад встретить здесь
таких же языковых энтузиастов.
-
Мы также создаём лексиконы,
-
и мы создали технологию, или подход,
-
который может быть полезным для вас.
-
Для наглядности,
-
здесь моя лекция
о лексикографическом фоне.
-
Когда мы создаём базу данных лексикона,
-
их очень трудно поддерживать,
обеспечивать устойчивость
-
и обмен данными,
-
думаю, вы это знаете.
-
Мы пытаемся унифицировать
лингвистическую особенность и свойства,
-
которые описывают эти лексемы и формы.
-
Эта проблема пока что не решена,
-
но есть некоторые попытки унификации.
-
Чего действительно не хватает --
-
и эта проблема была у нас
с начала проекта в Google --
-
это попыток создать внутреннюю структуру,
-
которая описывает,
как должна выглядеть словарная статья,
-
какие данные
или какая информация у нас есть,
-
и ожидаемые характеристики.
-
И мы придумали маску лексикона.
-
Маска лексикона описывает то,
что должно быть в статье,
-
в лексикографической статье,
для того, чтобы она была полной
-
в контексте количества форм,
ожидаемых для лексемы,
-
а также количества особенностей,
ожидаемых для каждой из этих форм.
-
Вот пример с итальянскими прилагательными.
-
В итальянском языке вы ожидаете
увидеть четыре формы прилагательных,
-
и каждая из этих форм имеет
специфическую комбинацию особенностей,
-
касающихся рода и числа.
-
Это то, что мы ожидаем
от итальянских прилагательных.
-
Конечно, можно создать
чрезвычайно сложные маски,
-
как для спряжения французских глаголов,
которое занимает много места,
-
а маску для русского языка
я показывать не буду,
-
потому что она не поместится на экране.
-
Также у нас есть некоторые
детальные характеристики,
-
потому что мы учитываем различия
на уровне форм.
-
Здесь есть русские существительные,
которые имеют три числа
-
и несколько падежей с разными формами,
-
но у них также есть характеристика
на уровне статьи,
-
которая указывает,
что существительное имеет
-
свойственные ему род
и характеристику одушевлённости,
-
которые также описаны в маске.
-
Мы также хотим выделить то,
что маска определяет,
-
как в общем должна выглядеть статья.
-
У вас могут быть маски поменьше,
для недостаточных глаголов формы,
-
или для недостаточных глаголов лексемы,
которые есть в языке.
-
Вот самая простая форма
французских глаголов,
-
которые имеют только
третье лицо единственного числа
-
для всех погодных глаголов вроде
«дождит» или «снежит», как в английском.
-
То есть мы различаем эти два уровня.
-
Мы в Google используем это так:
-
если у нас есть лексикон,
который мы хотим использовать,
-
мы используем маску,
чтобы буквально бросить лексиконы,
-
все статьи, через маску
-
и посмотреть, в какой статье
есть проблемы со структурой.
-
Возможно, нам не хватает формы?
Или лингвистической особенности?
-
Если есть проблема, люди её оценивают,
-
или смотрят, пройдёт ли она через маску.
-
Это очень мощный инструмент
для проверки качества структуры.
-
Сегодня мы с радостью объявляем,
-
что мы можем открыть
исходные коды нашей маски.
-
Вот эта схема.
-
Если хотите, мы можем распространить
-
и передать их в Викиданные
в виде ShEx-файлов.
-
Это ShEx-файл
для немецких существительных,
-
и Денни занимается конвертацией
из наших внутренних спецификаций
-
в более доступные спецификации.
-
Сейчас мы работаем с 25 языками.
-
Мы ожидаем рост с нашей стороны,
-
но мы также ищем возможности
сотрудничества для других языков.
-
Денни и Лукас занимаются
одним из таких совместных проектов.
-
У Лукаса есть отличные инструменты
для интерфейса,
-
который поможет пользователям
или составителям добавлять больше форм.
-
Если вы хотите добавить
французское прилагательное,
-
интерфейс подскажет вам,
сколько форм ожидается,
-
и какие лингвистические особенности
должны быть у этой формы.
-
То есть наша маска поможет
определить и расширить инструмент.
-
У меня всё.
-
(Лидия) Спасибо большое.
-
(аплодисменты)
-
Хорошо.
Есть вопросы?
-
Хотите ещё поговорить о лексемах?
-
- (голос из зала 4) Да.
- Да. (хихикает)
-
(голос из зала 4) Вы говорили о том,
-
чтобы больше людей
могли использовать больше языков.
-
Но есть много языков,
которые нельзя использовать в Викиданных.
-
Как вы решаете эту проблему?
-
«Нельзя использовать в Викиданных» --
-
вы имеете в виду ввод меток?
-
- (голос из зала 4) Меток, описаний.
- Понятно.
-
С лексемами немного другая ситуация,
-
потому что для них нет такого ограничения.
-
Для меток на элементах и свойствах
ограничение есть,
-
потому что мы хотели убедиться,
-
что люди не начнут писать что попало
-
и что это не выйдет из-под контроля.
-
Если маленькое сообщество хочет
работать с одним языком,
-
обратитесь к нам и мы вам поможем.
-
(голос из зала 4) Мы сделали это в мае
на хакатоне в Праге,
-
и смогли начать использовать
наш язык лишь в августе.
-
- Да.
- (голос из зала 4) Это очень медленно.
-
Да, к сожалению, это очень медленно.
-
Мы работаем с Комиссией по языку
-
над решением некоторых фундаментальных...
-
Например, договориться о том,
какие языки «разрешены».
-
Это происходит очень медленно,
-
поэтому ваш запрос занял столько времени.
-
(голос из зала 4) Спасибо.
-
(голос из зала 5) Спасибо вам.
-
Лидия, если вы помните статистику,
которую вы показывали,
-
количество лексем в языках.
-
Вы посчитали все формы как единицу данных,
-
или только лексемы?
-
(Лидия) Вы имеете в виду эту?
-
Какую именно?
-
(голос из зала 5) Да, эту.
-
Если вы помните,
это количество обозначает
-
все формы для всех лексем
или только количество лексем?
-
- Нет, только количество лексем.
- (голос из зала 5) Только количество.
-
То есть это просто статистика,
-
потому что если добавить ещё и формы --
-
потому я и спрашиваю --
-
тогда все языки с флективной морфологией,
-
такие как русский, сербский,
словенский и другие,
-
имеют преимущество,
потому что в них очень много форм.
-
(Лидия) Да, это сильно влияет
на количество форм.
-
(голос из зала 5)
Да, этот слайд. Спасибо.
-
(голос из зала 6) У меня вопрос о...
-
Когда мы говорим
о фактических элементах и свойствах,
-
Как я понимаю,
-
пока что нет способа
дать фактический источник
-
для существующих меток и описаний.
-
Например, если вы говорите
-
о свойстве элемента,
-
вы можете получить противоречивые метки.
-
Да.
-
(голос из зала 6) То есть этот человек...
-
Например, мы раньше говорили
об автохтонных понятиях.
-
Согласно одному источнику,
этот человек -- норвежский художник.
-
Согласно другому источнику --
он саамский художник.
-
Ещё у нас была проблема в эстонском,
-
где нам нужно было
изменить терминологию на официальную,
-
в официальных лексиконах,
-
но мы не могли указать причину
-
и источник изменений,
-
и не могли обосновать,
почему это нужно сделать.
-
Это выглядело, как будто случайный человек
-
просто так изменяет термины.
-
Появится ли у нас возможность
-
указывать надлежащие источники
для языковых данных?
-
Частично это возможно.
-
Например, если у вас есть
элемент для личности,
-
есть утверждение, имя,
фамилия этой личности и так далее,
-
тогда вы можете добавить ссылку на это.
-
Я сомневаюсь, стоит ли усложнять ссылки
-
для меток и описаний,
-
но если люди уверены,
-
что утверждение имеет недостаточно ссылок,
-
то это нужно обсудить.
-
Боюсь, что это добавит сложности
-
для, надеюсь, немногих случаев,
-
но я не против изменений,
-
если люди на этом настаивают.
-
(голос из зала 6) Тогда это
не должно быть опцией по умолчанию,
-
которую видят все новички в интерфейсе.
-
Например «Нажмите,
если хотите уточнить информацию».
-
Знаете ли вы, как часто
это будет использоваться?
-
(голос из зала 6) Например, в эстонском...
-
Думаю, также и в других языках...
-
Например, официальное название
с утверждённым переводом
-
на английский
-
определённого типа муниципалитета.
-
Например, в моём случае
-
мы использовали слово «приход»,
-
его исходное значение в эстонском --
что-то вроде церковного прихода,
-
то есть это происхождение слова,
-
но не современный официальный перевод.
-
В этом случае стоит добавить его
как утверждение официального названия,
-
и также добавить туда ссылку.
-
(голос из зала 6) Хорошо.
-
Ещё вопросы?
Да?
-
(голос из зала 7)
У меня два коротких замечания.
-
Вы отметили, что астурийский язык
занимает хорошую позицию,
-
но я думаю, что это ложный артефакт.
-
Давайте подробнее.
-
(голос из зала 7)
Я думаю, что это сделал бот,
-
который вставил личные имена,
собственные имена,
-
и сказал: «Это как во французском
или испанском»,
-
и просто скопировал всё это.
-
Об этом говорит хотя бы то,
-
что в астурийском
вы не увидите таких усилий там,
-
где действительно нужен перевод,
например, в названиях свойств
-
или названиях элементов, которые
не являются собственными именами.
-
Асаф, вы разбиваете мне сердце.
-
(голос из зала 7) Я знаю.
Люблю портить праздники.
-
Но у меня есть хорошие новости
о количестве произношений.
-
Как вы знаете, на Викискладе
полно файлов с произношениями,
-
например, для нидерландского языка
их не меньше 300 000,
-
и всё это надо как-то обработать.
-
Так что если кому-то
нужен сторонний проект,
-
то на Викискладе вы найдёте очень много
-
классифицированных файлов с произношениями
-
в категории «Произношение» по языкам.
-
Их нужно привязать к лексемам
и добавить в Lexeme.
-
И ещё, можете ли вы сказать что-нибудь
-
о плане действий,
-
насчёт того, сколько инвестиций
-
и всего прочего мы можем ожидать
от Lexeme в будущем году,
-
потому что я жду с нетерпением.
-
Ждетё с нетерпением? (хихикает)
-
- (голос из зала 7) Ожидаю большего.
- Да. (хихикает)
-
Сейчас мы больше заняты
Викибазой и качеством данных,
-
хотим увидеть результативность,
-
затем нам нужно найти проблемные точки,
-
а потом вернуться к улучшению
лексикографических данных.
-
Очень хочется услышать ваше мнение
-
по поводу того, куда нам двигаться,
-
какие изменения вы хотите видеть,
-
чтобы мы могли решить, как это сделать.
-
Но вы, конечно, правы,
-
там ещё много работы
с технической стороны.
-
(голос из зала 8) Когда мы загружали
баскские слова с формами --
-
вы увидите кое-что из этого --
-
и на прошлой неделе мы сказали:
«Ого, мы заняли первое место.»
-
Об этом даже пресса пишет:
-
«Ого, баски заняли первое место в чём-то.»
-
(смеётся)
-
И тогда люди спрашивают:
«А для чего это нужно?»
-
Тут мы не знаем, что ответить.
-
Можно сказать,
-
что это поможет компьютерам
лучше понимать языки,
-
но какие инструменты
мы можем создать в будущем?
-
На это у нас нет чёткого ответа.
-
Возможно, ответ есть у вас.
-
(хихикает) Не знаю,
есть ли у меня чёткий ответ,
-
зато есть просто ответ.
-
Пока что, как я говорила [неразборчиво],
-
мы не достигли той критической массы,
-
которая позволяет создать
много интересных инструментов.
-
Некоторые инструменты уже существуют.
-
Например, на днях [Эстер Панделия]
-
выпустила инструмент, где можно увидеть...
-
Кажется, там были слова на глобусе,
-
их происхождение и распространение.
-
Я точно не знаю.
-
Но она ответила в Project chat
на Викиданных,
-
можете поискать там.
-
Мы видели эти первые инструменты,
-
как тогда, когда начинали
создавать Викиданные.
-
Сначала некоторые...это была просто сеть,
-
что-то вроде: «Смотри,
эта штука связана с той штукой.»
-
Когда мы собрали больше данных
-
и достигли некоторой критической массы,
-
появились более мощные приложения,
-
например, Histropedia,
-
или вопросы и ответы
-
в персональном цифровом
помощнике Platypus, и так далее.
-
Мы видим похожую ситуацию с лексемами.
-
Мы на том уровне,
где можно создать такие маленькие...
-
«Смотрите, тут есть связь
между двумя вещами»,
-
и есть перевод этого слова
в этом языковом уровне,
-
и чем больше мы развиваем это,
чем больше слов описываем,
-
тем больше возможностей появляется.
-
Какие именно возможности?
-
Бен, наш главный спикер,
говорил о переводах,
-
о возможности перевода
с одного языка на другой.
-
И мой коллега Йенс всегда говорит о том,
-
что Евросоюз ищет переводчика
-
с мальтийского на шведский,
если не ошибаюсь.
-
- (голос из зала) Эстонский.
- Эстонский.
-
Это редкая комбинация.
-
Но если собрать все эти языки
в один машинно-читаемый массив,
-
то вы сможете это сделать,
-
вы сможете найти словарь
-
для перевода с эстонского
на мальтийский и обратно.
-
Внесение в словари языковых комбинаций,
-
которых там не было раньше,
-
потому что на них не было спроса,
-
достаточного для финансовой выгоды.
-
Теперь мы можем это сделать.
-
Затем следующее поколение.
-
Люси говорила о том,
-
как она работает с Хэтти
-
над генерацией текста,
-
чтобы начать писать статьи в Википедии
на языках меньшинств.
-
Для этого нужны данные о словах
-
и знание языка.
-
Это то, что мне вспомнилось
на данный момент.
-
Возможно, аудитория предложит больше идей
-
насчёт того, что мы будем делать
с этими выдающимися данными.
-
(голос из зала 9)
Я отклонюсь от темы лексем.
-
Я хочу спросить,
-
как я, как член сообщества,
-
могу повлиять на приоритет задания,
если приходит новый пользователь,
-
и он может указать, какие языки
он хочет видеть и редактировать
-
без знания каких-то
секретных словесных шаблонов.
-
Возможно, в этом году появится
технический список желаний
-
без тем Википедии.
-
Надеюсь, мы все сможем
проголосовать за эту вещь,
-
которую мы семь лет не могли исправить.
-
Есть ли у вас идеи
и замечания на этот счёт?
-
Вы имеете в виду,
-
что пользователь,
не зарегистрированный в Викиданных,
-
не может просто изменить язык?
-
(голос из зала 9) Нет,
для [неразборчиво] пользователей.
-
Если они вошли в систему,
-
они могут изменить язык вверху страницы
-
и он появится там,
-
где есть описание метки [неразборчиво],
-
и его можно будет редактировать.
-
(голос из зала 9)
Чаще всего в рабочем процессе
-
нужно иметь доступ ко многим языкам,
-
но это не всегда возможно.
-
Хорошо, давайте встретимся
после доклада и обсудим это.
-
Отлично.
Ещё вопросы?
-
Да?
-
(голос из зала 10) Спасибо за презентацию.
-
Можете прокомментировать
-
состояние корреляции
с сообществом Викисловаря?
-
Насколько я знаю, ведутся дискуссии
-
об импортировании
некоторых элементов работы,
-
но там есть проблемы с лицензированием
и некоторые разногласия.
-
(Лидия) Да.
-
Сообщества Викисловаря
потратили много времени
-
на его создание.
-
Они создали
-
невероятно сложные и комплексные шаблоны
-
для создания удобных таблиц,
которые автоматически генерируют формы,
-
и ещё много разных впечатляющих
-
и невообразимых вещей.
-
И конечно же, они вложили в это
много времени и усилий.
-
Поэтому их можно понять,
-
они не хотят, чтобы результаты их работы
-
кто-то взял просто так.
-
Поэтому такая ситуация.
-
И это нормально.
-
Сейчас первые сообщества
Викисловаря говорят о том,
-
чтобы передать и импортировать
некоторые данные в Викиданные.
-
Вы уже видели русский,
это один из таких случаев.
-
И я ожидаю большего.
-
Но это медленный процесс,
-
такой же медленный,
-
как внедрение данных
из Викиданных в Википедию.
-
С другой стороны, нужно упростить
-
использование данных
из лексем в Викисловаре,
-
чтобы они могли пользоваться ими
-
и делиться данными
с разными Викисловарями,
-
что сейчас почти невозможно.
-
И это ужасно, так же,
как это было в Википедии.
-
Дождитесь подарка на день рождения.
(хихикает)
-
Да?
-
(голос из зала 11) Когда я думала,
как решить эту проблему,
-
то не хотела говорить,
потому что это казалось мне глупым,
-
но я думаю, что в Викисловаре
уже есть некоторый контент,
-
и я знаю, что мы не можем
передать его в Викиданные
-
из-за разницы в лицензиях.
-
Но я думаю, что с этим
можно что-то сделать.
-
Возможно, мы можем
получить разрешение сообществ
-
после общего голосования,
-
чтобы активные участники сообщества
проголосовали и сказали,
-
хотят ли они принять или передать контент,
-
для которого они могут
создать лексемы в Викиданных.
-
Иначе это непродуктивно.
-
Это как раз тот разговор,
-
который нужно начать
в сообществах Викисловаря.
-
Для нас было бы неуместным
навязывать им это.
-
Но я думаю, что это стоит обсудить.
-
Также важно понимать,
-
что есть разница между тем,
что легально разрешено,
-
тем, что мы должны делать,
-
и тем, чего хотят или не хотят эти люди.
-
Поэтому, даже если это легально,
-
но другие сообщества Викисловаря
этого не хотят,
-
то здесь нужно быть осторожными.
-
Возьмите микрофон для трансляции.
-
(голос из зала 12)
Всё это очень интересно,
-
и я уже думаю, как рассказать
об этом моим студентам
-
и как включить это в курс лекций,
-
в нашу работу, учебный процесс.
-
На данный момент
-
мне не хватает знаний,
-
но я думаю, что наша документация
-
нуждается в улучшении.
-
Было бы хорошо сделать
интересные видео,
-
которые объясняют, как это работает.
-
Мы могли бы их использовать,
-
чтобы заинтересовать студентов
-
и объяснить людям, как это здорово.
-
Просто подумайте
о документации и образовании.
-
Я думаю, многое можно сделать.
-
Есть много задач,
к которым можно привлечь...
-
...ну, не начальную школу,
-
но хотя бы старших школьников.
-
Очень бы хотелось
использовать этот потенциал,
-
хотя пока что я плохо разбираюсь в этом
-
и не могу ставить задачи или...
-
...делать что-нибудь на практике.
-
Если у вас есть
любые идеи по этому поводу,
-
я с удовольствием их выслушаю.
-
Да, мы поговорим об этом.
-
Ещё вопросы?
-
Кто-то поднимал руку.
-
Не помню, кто именно.
-
(голос из зала 13) Если мы не можем
импортировать из Викисловаря,
-
есть ли согласованные мероприятия,
чтобы найти другие окрытые источники,
-
возможно, все данные,
-
как-то отфильтровать и организовать их,
-
чтобы их можно было
легко проверить для импорта?
-
Первые мероприятия уже есть.
-
Я так понимаю,
баскский язык -- одно из них.
-
Хотите рассказать об этом?
-
(голос из зала 14) [inaudible]
-
Фактический ответ -- заплатить за это...
-
У нас есть договор с подрядчиком,
с которым мы обычно работаем.
-
Они создают словари --
-
и ещё много чего, словари в том числе.
-
Мы договорились с ними о создании
бесплатного словаря для студентов.
-
Мы бы взяли часто употребляемые слова
и начали загружать их
-
с внешним идентификатором
и схемой этих вещей.
-
Но у нас была дискуссия,
оставлять ли это на лицензии CC0,
-
потому что у них есть
словарь с лицензией CC BY
-
и они поняли, в чём разница.
-
Поэтому была дискуссия.
-
Но я думаю, что в будущем мы сможем
предоставить инструменты или примеры,
-
и я думаю, что будут другие словари,
-
с которыми мы сможем работать.
-
Я также думаю, что Викисловарь
должен двигаться в этом направлении,
-
но это уже другая большая дискуссия.
-
Кроме того,
-
Леа общается с людьми из Окситании,
-
которые работают
над окситанскими словарями,
-
и сейчас они работают
над совместным проектом в шумерском.
-
Ещё вопросы?
-
(голос из зала 15) Привет!
Мы хотим импортировать окситанские данные.
-
Отлично!
-
(голос из зала 15)
И у нас небольшая проблема.
-
Мы не знаем, как представить
всё разнообразие лексем.
-
У нас шесть диалектов,
-
и мы хотим указать,
в каком диалекте используется лексема,
-
и у нас нет подходящего
C0-утверждения, чтобы это сделать.
-
Пока сегмента не существует,
-
это не позволяет нам [неразборчиво]
-
потому что нам придётся сделать это снова,
-
когда мы сможем
[экспортировать] утверждение.
-
И это сложно,
потому что это утверждение
-
заинтересует немногих людей,
-
потому что оно касается
в основном языков меньшинств.
-
Один человек спросит об этом.
-
Но, как у наших коллег басков,
-
один человек может привлечь тысячи других,
-
может быть, это не много,
-
но для нас это очень важно.
-
У вас уже есть
новое предложение о свойствах,
-
или вам нужна помощь в его создании?
-
(голос из зала 15) Мы просили об этом
четыре месяца назад.
-
Хорошо, попросим кого-нибудь
помочь с этим предложением.
-
Думаю, здесь достаточно людей,
которые могут это сделать.
-
(голос из зала 15) Предложение о свойствах
[говорит по-французски]
-
(голос из зала) Нам не ответили.
-
(голос из зала 15) Нам не ответили,
и мы не знаем, как это сделать,
-
потому что мы не из сообщества Викиданных.
-
Здесь есть люди, которые могут вам помочь.
-
Поднимите руку, кто возьмёт...
-
(голос из зала 16) Я могу.
-
Мне кажется очень интересным то,
-
что только вариант формы
-
может управлять этим территориально,
-
с помощью координат или картографии.
-
А также разные произношения,
-
думаю, это бывает во многих языках.
-
Нам нужно как-то реализовать это
[неразборчиво],
-
я займусь поиском свойства.
-
Отлично.
-
Вы получите поддержку
для вашего предложения о свойствах.
-
Спасибо вам.
-
Хорошо, есть ещё вопросы?
-
Финн.
-
Финн -- один из тех людей,
-
которые создают разработки
на основе лексикографических данных.
-
(Финн) У меня небольшой вопрос
-
о вариациях в произношении.
-
Их нелегко внести в...
-
Конечно, одно и то же слово
может иметь разные формы.
-
Не знаю, мне кажется...
-
Если не сделать это таким способом,
то будет трудно уточнить...
-
Хотя я не знаю,
-
это мелкая техническая проблема или...
-
Давайте вместе разберёмся.
-
Хочется увидеть пример.
-
Асаф.
-
(Асаф) Спасибо.
-
Я могу дать очень хороший пример
из моего родного языка, иврита.
-
В иврите есть два основных варианта
-
для выражения почти каждого слова,
-
потому что традиционное написание
-
пропускает многие гласные буквы.
-
Поэтому в современных изданиях
Библии и поэзии
-
используются диакритические знаки.
-
Но эти знаки никогда не используются
в современной прозе,
-
газетах, на уличных вывесках.
-
В ежедневном обиходе добавляются гласные
-
и не используются диакритические знаки,
-
потому что они громоздкие
-
и пишутся по правилам,
которых никто не знает.
-
Поэтому есть два варианта:
-
повседневный вариант для прозы,
-
и отдельно Библия с поэзией,
-
которые написаны
традиционным текстом с диакритикой.
-
Чтобы быть полезной,
-
Lexeme должна распознавать
обе вариации каждого слова
-
и каждую форму каждого слова.
-
То есть это случай
очень обширного использования
-
официальных устойчивых вариантов.
-
Это не диалекты и не региональные языки,
-
это две сосуществующие
морфологические системы.
-
Я тоже пока что не знаю,
как выразить это в Lexeme,
-
и это не даёт мне -- частично
отвечаю на вопрос Магнуса --
-
загрузить готовые части
-
самого большого словаря иврита,
который есть в открытом доступе,
-
и который я оцифровываю
уже несколько лет.
-
Большая часть уже готова,
-
но я не выкладываю её в Lexeme,
-
потому что я не знаю,
как решить эту проблему.
-
Хорошо, решим эту проблему здесь.
(хихикает)
-
Должна быть какая-то возможность.
-
Ещё вопросы?
-
Если нет, спасибо вам большое.
-
(аплодисменты)