< Return to Video

cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

  • 0:00 - 0:02
    Викиданные и языки
  • 0:02 - 0:05
    Лидия Пинчер
  • 0:06 - 0:07
    (Лидия) Спасибо большое.
  • 0:07 - 0:11
    Языки – одна из важных тем
    на этой конференции.
  • 0:14 - 0:19
    Хочу дать вам общее представление о том,
  • 0:19 - 0:20
    как мы работаем с языками,
  • 0:20 - 0:22
    и какие у нас есть возможности.
  • 0:27 - 0:29
    ДОСТУПНЫЕ ЗНАНИЯ ДЛЯ БОЛЬШЕГО ЧИСЛА ЛЮДЕЙ
  • 0:29 - 0:33
    Цель Викиданных -- доступные знания
    для большего числа людей.
  • 0:33 - 0:37
    А для этого нужны языки,
  • 0:38 - 0:43
    учитывая то, что наша жизнь
    всё больше зависит от технологий.
  • 0:44 - 0:49
    Как сказал сегодня наш главный спикер,
  • 0:50 - 0:52
    люди не успевают
    за некоторыми технологиями,
  • 0:52 - 0:55
    потому что не знают определённого языка.
  • 0:55 - 0:58
    И это плохо.
  • 0:59 - 1:02
    Мы хотим это исправить.
  • 1:03 - 1:06
    Чтобы изменить это, нужны две вещи.
  • 1:06 - 1:11
    Первое -- дать людям контент на их языке.
  • 1:11 - 1:13
    Второе -- дать людям возможность
  • 1:13 - 1:16
    взаимодействовать на их языке
  • 1:16 - 1:19
    в этих приложениях или программах.
  • 1:20 - 1:25
    Викиданные работают в обеих случаях.
  • 1:25 - 1:28
    Первое -- контент на вашем языке,
  • 1:28 - 1:31
    то есть элементы и свойства,
  • 1:31 - 1:33
    способы описания мира.
  • 1:33 - 1:35
    Конечно, этого недостаточно,
  • 1:35 - 1:39
    но это позволяет вам двигаться вперёд.
  • 1:40 - 1:42
    Второе -- взаимодействие на вашем языке.
  • 1:42 - 1:46
    Здесь идут в ход лексемы,
  • 1:46 - 1:49
    если вы хотите поговорить
    с персональным цифровым помощником
  • 1:49 - 1:55
    или вам нужно перевести текст
    с помощью гаджета.
  • 1:56 - 1:59
    Давайте рассмотрим контент на вашем языке.
  • 1:59 - 2:03
    Что у нас есть в элементах и свойствах?
  • 2:05 - 2:10
    В этих элементах и свойствах
    крайне важны метки.
  • 2:10 - 2:15
    Нам нужно знать название сущности,
    о которой мы говорим.
  • 2:16 - 2:20
    И вместо того, чтобы говорить о Q5,
  • 2:20 - 2:22
    англоязычные люди знают,
    что это значит «human»,
  • 2:22 - 2:25
    немецкоязычные знают, что это «mensch»,
  • 2:25 - 2:26
    и так далее.
  • 2:26 - 2:30
    Эти метки на элементах и свойствах
  • 2:30 - 2:34
    создают мост между людьми и машинами.
  • 2:34 - 2:35
    А также между самими людьми,
  • 2:35 - 2:40
    делая знания всё более доступными.
  • 2:41 - 2:43
    КАК ВЫГЛЯДИТ НАШ ОХВАТ?
  • 2:43 - 2:46
    Это хорошее устремление.
  • 2:46 - 2:48
    Как это выглядит?
  • 2:48 - 2:50
    Вот так.
  • 2:51 - 2:52
    Здесь вы видите,
  • 2:52 - 2:58
    что большинство элементов
    в Викиданных имеют по две метки,
  • 2:58 - 3:01
    то есть метки на двух языках.
  • 3:02 - 3:04
    Потом на одном, потом на трёх,
  • 3:04 - 3:06
    а дальше вообще всё грустно.
  • 3:07 - 3:08
    (тихий смех)
  • 3:10 - 3:13
    Над этим нужно поработать.
  • 3:14 - 3:15
    Но с другой стороны,
  • 3:15 - 3:17
    могло быть и хуже.
  • 3:17 - 3:20
    Я ожидала, что в среднем будет одна.
  • 3:20 - 3:23
    Поэтому было очень приятно увидеть две.
    (хихикает)
  • 3:24 - 3:25
    КАКИЕ ЯЗЫКИ МЫ ИСПОЛЬЗУЕМ?
  • 3:25 - 3:26
    Хорошо.
  • 3:27 - 3:30
    Но нас интересует
    не только количество меток
  • 3:30 - 3:34
    на элементах и свойствах.
  • 3:34 - 3:36
    Нас также интересует,
    на каких языках эти метки.
  • 3:38 - 3:44
    Здесь вы видите диаграмму языков,
  • 3:44 - 3:47
    на которых у нас есть метки для Элементов.
  • 3:47 - 3:51
    Наибольшую часть занимают Другие.
  • 3:51 - 3:54
    Здесь 100 самых распространённых языков,
  • 3:55 - 3:59
    остальные вошли в категорию Другие,
    чтобы диаграмму можно было читать.
  • 4:00 - 4:02
    Здесь есть английский и нидерландский,
  • 4:03 - 4:04
    французский,
  • 4:06 - 4:09
    и конечно же, астурийский.
  • 4:10 - 4:12
    - (голос из зала 1) Ого!
    - Да, ого!
  • 4:14 - 4:17
    Итак, здесь вы видите дисбаланс,
  • 4:17 - 4:20
    и у английского языка
    большое преимущество.
  • 4:21 - 4:24
    Если посмотреть
    на то же самое в Свойствах,
  • 4:24 - 4:26
    то здесь ситуация выглядит лучше.
  • 4:27 - 4:33
    Возможно, за счёт того,
    что свойств намного меньше.
  • 4:33 - 4:37
    Поэтому даже маленькие сообщества
    могут успевать за этим.
  • 4:37 - 4:39
    И очень важная часть Викиданных --
  • 4:39 - 4:41
    это локализация на вашем языке.
  • 4:41 - 4:42
    То есть это хорошо.
  • 4:46 - 4:48
    В случае с астурийским языком мы видим,
  • 4:48 - 4:54
    что даже маленькие сообщества
    могут значительно изменить ситуацию
  • 4:54 - 4:57
    благодаря упорной работе и самоотдаче,
  • 4:57 - 4:58
    и это очень круто.
  • 4:59 - 5:02
    У КАКОГО СВОЙСТВА БОЛЬШЕ ВСЕГО МЕТОК?
  • 5:02 - 5:03
    У меня для вас вопрос:
  • 5:04 - 5:05
    если взять все свойства в Викиданных,
  • 5:05 - 5:07
    которые не являются
    внешними идентификаторами,
  • 5:08 - 5:10
    какие из них имеют больше всего
    меток, то есть больше всего языков?
  • 5:11 - 5:14
    (аудитория) [неразборчиво]
  • 5:14 - 5:17
    Я слышу версию «экземпляр класса»?
  • 5:18 - 5:19
    Неправильно.
  • 5:20 - 5:22
    Это изображение.
    (хихикает)
  • 5:23 - 5:26
    Поэтому, если вы говорите на языке,
  • 5:26 - 5:29
    в котором еще нет метки
    для экземпляра класса,
  • 5:29 - 5:30
    то стоит её добавить.
  • 5:32 - 5:36
    Сейчас у него есть 148 меток.
  • 5:38 - 5:41
    Ещё один слайд.
  • 5:43 - 5:44
    Этот график показывает,
  • 5:44 - 5:49
    сколько контента доступно
    на определённом языке,
  • 5:49 - 5:52
    и какая доля этого контента используется.
  • 5:52 - 5:55
    На этой кривой вы видите,
  • 5:55 - 6:01
    что большая часть контента доступна
    на английском и с английскими метками,
  • 6:02 - 6:04
    и её часто используют.
  • 6:04 - 6:06
    Дальше она спадает.
  • 6:06 - 6:09
    Вы также видите выпадающие точки,
  • 6:09 - 6:15
    где есть неожиданно много контента,
  • 6:17 - 6:19
    что очень хорошо.
  • 6:21 - 6:25
    Проблема в том, что его мало используют.
  • 6:26 - 6:28
    Астурийский и нидерландский
    должны быть выше,
  • 6:29 - 6:32
    и я думаю, что нужно
    помочь этим сообществам
  • 6:33 - 6:36
    увеличить использование
    собранных ими данных.
  • 6:36 - 6:37
    Это было бы очень полезно.
  • 6:43 - 6:48
    Эта аналитика
    показывает хорошую тенденцию --
  • 6:48 - 6:51
    часто используемые элементы
  • 6:51 - 6:55
    также имеют больше меток.
  • 6:55 - 6:58
    Или наоборот -- это не совсем понятно.
  • 7:00 - 7:03
    МЫ ПОМОГАЕМ ТОЛЬКО
    РАСПРОСТРАНЁННЫМ ЯЗЫКАМ?
  • 7:03 - 7:05
    Ещё один вопрос:
  • 7:05 - 7:07
    мы помогаем
    только распространённым языкам?
  • 7:08 - 7:11
    Или мы помогаем всем?
  • 7:13 - 7:17
    Здесь мы видим группирование языков.
  • 7:18 - 7:22
    Языки в каждой группе
    склонны иметь общие метки.
  • 7:26 - 7:29
    Вы видите, как они собираются в кластеры.
  • 7:31 - 7:34
    Здесь похожие кластеры,
    разными цветами показано,
  • 7:34 - 7:39
    насколько живым, используемым
  • 7:40 - 7:43
    или исчезающим является язык.
  • 7:43 - 7:45
    Здесь вы видите хорошую тенденцию --
  • 7:45 - 7:49
    распространённые и исчезающие языки
  • 7:50 - 7:54
    не образовывают два разных кластера.
  • 7:54 - 7:59
    Но они смешиваются,
  • 8:00 - 8:05
    и это намного лучше,
    чем обратная ситуация,
  • 8:05 - 8:09
    в которой распространённые языки
  • 8:10 - 8:12
    помогают друг другу.
  • 8:13 - 8:14
    Это не тот случай.
  • 8:14 - 8:17
    И это очень хорошо.
  • 8:17 - 8:20
    Когда я это увидела, то подумала,
    что это очень хорошо.
  • 8:23 - 8:25
    Здесь похожая тенденция,
  • 8:26 - 8:28
    мы рассмотрели
  • 8:30 - 8:34
    статус языков
  • 8:34 - 8:36
    и количество меток в них.
  • 8:39 - 8:43
    Вы видите, что распространённые языки
    явно выигрывают,
  • 8:43 - 8:44
    как и ожидалось.
  • 8:46 - 8:47
    Но вы также видите,
  • 8:49 - 8:54
    что языки 2, 3, и возможно, 4 категорий
  • 8:54 - 8:59
    находятся в неплохой ситуации,
  • 8:59 - 9:02
    если говорить об их представлении
    в Викиданных.
  • 9:03 - 9:06
    Это очень хороший результат.
  • 9:08 - 9:09
    Сейчас вы видите аналогичный график
  • 9:09 - 9:12
    степени использования контента
    с этими метками
  • 9:12 - 9:15
    в Википедии, например,
  • 9:17 - 9:23
    и мы видим похожую картину.
  • 9:24 - 9:30
    Это говорит о том, что эти сообщества
  • 9:30 - 9:35
    вносят много меток
    для часто используемых элементов.
  • 9:36 - 9:40
    Тут есть выпадающие точки,
    и в этих случаях мы можем
  • 9:42 - 9:48
    помочь этим сообществам
    эффективно применить свои усилия.
  • 9:49 - 9:53
    Но в общем мне нравится эта картина.
  • 9:53 - 9:55
    ВЗАИМОДЕЙСТВИЕ В ВАШЕМ ЯЗЫКЕ
  • 9:57 - 10:00
    Это были элементы и свойства Викиданных.
  • 10:01 - 10:03
    Теперь рассмотрим
    взаимодействие в ваших языках.
  • 10:03 - 10:05
    Это лексемы в Викиданных,
  • 10:05 - 10:09
    где мы описываем слова,
    их формы и значения.
  • 10:10 - 10:13
    Мы занимаемся этим с мая прошлого года,
  • 10:16 - 10:19
    и количество контента растёт.
  • 10:20 - 10:22
    Синим цветом обозначены лексемы,
  • 10:22 - 10:26
    красным -- формы этих лексем,
  • 10:26 - 10:30
    жёлтым -- смыслы лексем.
  • 10:31 - 10:34
    Эти сообщества --
    вернёмся к этому позже --
  • 10:34 - 10:40
    потратили много времени
    на создание форм и смыслов для лексем,
  • 10:40 - 10:43
    что очень полезно,
  • 10:43 - 10:48
    потому что это создаёт
    ядро нужного набора данных.
  • 10:51 - 10:55
    Мы рассмотрели все языки,
  • 10:55 - 10:58
    имеющие лексемы на Викиданных.
  • 10:58 - 11:01
    У нас есть слова,
  • 11:02 - 11:04
    сейчас это 310 языков.
  • 11:05 - 11:08
    Как вы думаете, какой язык
  • 11:08 - 11:12
    имеет больше всего лексем на Викиданных?
  • 11:12 - 11:15
    (аудитория) Шведский [неразборчиво]
  • 11:19 - 11:20
    Как?
  • 11:20 - 11:22
    (голос из зала 2) Немецкий.
  • 11:22 - 11:24
    Извините, я услышала это раньше.
  • 11:24 - 11:25
    Это русский.
  • 11:28 - 11:30
    Русский далеко впереди.
  • 11:32 - 11:34
    Чтобы вам было понятнее,
  • 11:36 - 11:37
    есть разные мнения,
  • 11:37 - 11:42
    но я читала, что, например,
    для разговорного уровня
  • 11:42 - 11:45
    на другом языке
    достаточно знать от 1000 до 3000 слов,
  • 11:45 - 11:49
    и от 4000 до 10 000 слов
    для продвинутого уровня.
  • 11:52 - 11:55
    Поэтому нам нужно ещё поработать.
  • 11:58 - 12:03
    Также хочу обратить
    ваше внимание на баскский язык,
  • 12:03 - 12:08
    там примерно 10 000 лексем.
  • 12:09 - 12:13
    Если посмотреть на количество форм
    для этих лексем,
  • 12:14 - 12:16
    то баскский находится довольно высоко,
  • 12:18 - 12:20
    и это очень круто.
  • 12:20 - 12:25
    Вам стоит пойти на лекцию,
    которая объясняет этот случай.
  • 12:27 - 12:31
    Если посмотреть на количество смыслов,
    то есть значений слов,
  • 12:32 - 12:35
    то баскский будет на первом месте.
  • 12:35 - 12:37
    Думаю, это заслуживает аплодисментов.
  • 12:37 - 12:39
    (аплодисменты)
  • 12:43 - 12:46
    КАКАЯ ЛЕКСЕМА ИМЕЕТ
    БОЛЬШЕ ВСЕГО ПЕРЕВОДОВ?
  • 12:46 - 12:47
    Ещё один вопрос:
  • 12:47 - 12:50
    какая лексема имеет
    больше всего переводов?
  • 12:50 - 12:54
    - (аудитория) Кошки. [неразборчиво]
    - Дуглас Адамс. [неразборчиво]
  • 12:57 - 13:00
    Хорошие варианты, но нет.
  • 13:01 - 13:04
    Вот она, это русское слово «вода».
  • 13:10 - 13:12
    Мы много говорили о том,
  • 13:12 - 13:16
    сколько у нас есть лексем, форм и смыслов,
  • 13:16 - 13:20
    но это только одна часть.
  • 13:20 - 13:22
    Вторая часть --
  • 13:22 - 13:25
    это описание этих лексем,
    форм и смыслов таким способом,
  • 13:25 - 13:27
    чтобы их могла прочитать машина.
  • 13:28 - 13:30
    Для этого есть утверждения,
    как в элементах.
  • 13:31 - 13:36
    Одно из свойств -- пример использования.
  • 13:36 - 13:39
    Тот, кто использует эти данные,
  • 13:39 - 13:42
    может понять,
    как использовать это слово в контексте,
  • 13:42 - 13:44
    например, как цитату.
  • 13:45 - 13:47
    Здесь на первом месте польский.
  • 13:48 - 13:50
    Носители польского хорошо потрудились.
  • 13:54 - 13:58
    Другое полезное свойство -- МФА,
    международный фонетический алфавит,
  • 13:58 - 14:00
    то есть произношение слова.
  • 14:01 - 14:04
    Очевидно, что русскому языку
  • 14:05 - 14:08
    нужно много МФА-утверждений.
  • 14:10 - 14:13
    Зато польский на втором месте.
  • 14:17 - 14:21
    И наконец, запись произношения.
  • 14:21 - 14:23
    Это ссылки на файлы в Викискладе,
  • 14:23 - 14:26
    где кто-то говорит слово,
  • 14:26 - 14:30
    и вы слышите произношение носителя языка.
  • 14:30 - 14:33
    Это на случай, если вы не можете
    прочитать МФА, например.
  • 14:35 - 14:39
    Ещё есть очень хороший Википроект,
  • 14:39 - 14:40
    называется Lingua Libre,
  • 14:41 - 14:45
    там можно делать аудиозаписи слов
    на вашем языке.
  • 14:45 - 14:48
    Потом их добавляют
    к лексемам на Викиданных,
  • 14:48 - 14:52
    чтобы люди знали,
    как произносить ваши слова.
  • 14:54 - 14:56
    (голос из зала 3) [неразборчиво]
  • 14:56 - 14:58
    Если вы поищете «Lingua Libre»,
  • 14:58 - 15:01
    и я уверена, что кто-то может
    выложить это в Telegram-канале.
  • 15:03 - 15:04
    Эти ребята крутые.
  • 15:04 - 15:07
    Они много чего сделали с Викибазой.
  • 15:08 - 15:09
    ЧТО ДЕЛАТЬ ДАЛЬШЕ?
  • 15:09 - 15:10
    Хорошо.
  • 15:13 - 15:17
    Теперь вопрос: что делать дальше?
  • 15:19 - 15:22
    Судя по числаv, которые я вам показала,
  • 15:23 - 15:25
    мы провели большую работу для того,
  • 15:25 - 15:28
    чтобы больше людей
    могли получить больше знаний
  • 15:28 - 15:31
    о языках на Викиданных.
  • 15:33 - 15:36
    Но нам ещё много чего нужно сделать.
  • 15:39 - 15:42
    Вы тоже можете помочь, например,
  • 15:42 - 15:45
    организовывать марафоны меток,
    то есть собирать людей,
  • 15:45 - 15:50
    чтобы ставить метки
    на элементы в Викиданных,
  • 15:51 - 15:55
    или устроить вики-марафон
    для лексем в вашем языке,
  • 15:55 - 15:59
    чтобы внести распространённые слова
    в Викиданные.
  • 16:01 - 16:03
    Или используйте инструмент
    типа Terminator,
  • 16:03 - 16:08
    который поможет найти
    самые важные элементы в вашем языке,
  • 16:08 - 16:12
    у которых до сих пор нет метки.
  • 16:13 - 16:18
    Важность определяется
    частотой использования
  • 16:18 - 16:22
    в других элементах Викиданных
    в виде ссылок в утверждениях.
  • 16:26 - 16:30
    Что касается лексем,
  • 16:31 - 16:35
    у нас уже есть базовое количество,
  • 16:35 - 16:41
    и теперь их нужно расширять,
    добавлять больше утверждений,
  • 16:41 - 16:44
    так, чтобы на их основе
  • 16:44 - 16:47
    можно было создавать
    полноценные приложения.
  • 16:48 - 16:51
    Потому что мы приближаемся
    к этой критической массе,
  • 16:51 - 16:54
    но до создания серьёзных приложений
  • 16:54 - 16:57
    всё ещё далеко.
  • 16:58 - 17:02
    И я надеюсь, что вы к нам присоединитесь.
  • 17:03 - 17:07
    Наши друзья
  • 17:07 - 17:10
    немного нам помогают.
  • 17:10 - 17:12
    Бруно, не хочешь ли выйти...
  • 17:12 - 17:14
    ЛЕКСИЧЕСКИЕ МАСКИ ДЛЯ ВАЛИДАЦИИ ЛЕКСИКОНОВ
  • 17:14 - 17:17
    ...и рассказать нам о лексических масках?
  • 17:18 - 17:19
    (Бруно) Спасибо, Лидия.
  • 17:19 - 17:22
    Спасибо за возможность
    презентовать нашу работу,
  • 17:22 - 17:25
    которую мы делаем в Google вместе с Денни.
  • 17:25 - 17:29

    Многие из вас его знают.
  • 17:30 - 17:32
    Я лингвист в Google,
  • 17:32 - 17:36
    и я очень рад встретить здесь
    таких же языковых энтузиастов.
  • 17:37 - 17:39
    Мы также создаём лексиконы,
  • 17:39 - 17:43
    и мы создали технологию, или подход,
  • 17:43 - 17:46
    который может быть полезным для вас.
  • 17:46 - 17:48
    Для наглядности,
  • 17:48 - 17:52
    здесь моя лекция
    о лексикографическом фоне.
  • 17:53 - 17:54
    Когда мы создаём базу данных лексикона,
  • 17:54 - 17:59
    их очень трудно поддерживать,
    обеспечивать устойчивость
  • 17:59 - 18:00
    и обмен данными,
  • 18:00 - 18:02
    думаю, вы это знаете.
  • 18:03 - 18:06
    Мы пытаемся унифицировать
    лингвистическую особенность и свойства,
  • 18:06 - 18:09
    которые описывают эти лексемы и формы.
  • 18:09 - 18:11
    Эта проблема пока что не решена,
  • 18:11 - 18:14
    но есть некоторые попытки унификации.
  • 18:14 - 18:15
    Чего действительно не хватает --
  • 18:15 - 18:19
    и эта проблема была у нас
    с начала проекта в Google --
  • 18:19 - 18:22
    это попыток создать внутреннюю структуру,
  • 18:22 - 18:26
    которая описывает,
    как должна выглядеть словарная статья,
  • 18:26 - 18:29
    какие данные
    или какая информация у нас есть,
  • 18:29 - 18:32
    и ожидаемые характеристики.
  • 18:33 - 18:38
    И мы придумали маску лексикона.
  • 18:39 - 18:45
    Маска лексикона описывает то,
    что должно быть в статье,
  • 18:45 - 18:47
    в лексикографической статье,
    для того, чтобы она была полной
  • 18:47 - 18:51
    в контексте количества форм,
    ожидаемых для лексемы,
  • 18:51 - 18:56
    а также количества особенностей,
    ожидаемых для каждой из этих форм.
  • 18:56 - 18:58
    Вот пример с итальянскими прилагательными.
  • 18:58 - 19:02
    В итальянском языке вы ожидаете
    увидеть четыре формы прилагательных,
  • 19:02 - 19:05
    и каждая из этих форм имеет
    специфическую комбинацию особенностей,
  • 19:05 - 19:08
    касающихся рода и числа.
  • 19:09 - 19:12
    Это то, что мы ожидаем
    от итальянских прилагательных.
  • 19:13 - 19:16
    Конечно, можно создать
    чрезвычайно сложные маски,
  • 19:16 - 19:21
    как для спряжения французских глаголов,
    которое занимает много места,
  • 19:21 - 19:23
    а маску для русского языка
    я показывать не буду,
  • 19:23 - 19:25
    потому что она не поместится на экране.
  • 19:26 - 19:30
    Также у нас есть некоторые
    детальные характеристики,
  • 19:30 - 19:33
    потому что мы учитываем различия
    на уровне форм.
  • 19:33 - 19:38
    Здесь есть русские существительные,
    которые имеют три числа
  • 19:38 - 19:40
    и несколько падежей с разными формами,
  • 19:40 - 19:43
    но у них также есть характеристика
    на уровне статьи,
  • 19:43 - 19:46
    которая указывает,
    что существительное имеет
  • 19:46 - 19:50
    свойственные ему род
    и характеристику одушевлённости,
  • 19:50 - 19:52
    которые также описаны в маске.
  • 19:55 - 19:59
    Мы также хотим выделить то,
    что маска определяет,
  • 19:59 - 20:02
    как в общем должна выглядеть статья.
  • 20:02 - 20:07
    У вас могут быть маски поменьше,
    для недостаточных глаголов формы,
  • 20:07 - 20:11
    или для недостаточных глаголов лексемы,
    которые есть в языке.
  • 20:11 - 20:15
    Вот самая простая форма
    французских глаголов,
  • 20:15 - 20:20
    которые имеют только
    третье лицо единственного числа
  • 20:20 - 20:24
    для всех погодных глаголов вроде
    «дождит» или «снежит», как в английском.
  • 20:25 - 20:26
    То есть мы различаем эти два уровня.
  • 20:27 - 20:30
    Мы в Google используем это так:
  • 20:30 - 20:33
    если у нас есть лексикон,
    который мы хотим использовать,
  • 20:33 - 20:38
    мы используем маску,
    чтобы буквально бросить лексиконы,
  • 20:38 - 20:40
    все статьи, через маску
  • 20:40 - 20:44
    и посмотреть, в какой статье
    есть проблемы со структурой.
  • 20:44 - 20:47
    Возможно, нам не хватает формы?
    Или лингвистической особенности?
  • 20:47 - 20:51
    Если есть проблема, люди её оценивают,
  • 20:51 - 20:54
    или смотрят, пройдёт ли она через маску.
  • 20:54 - 20:58
    Это очень мощный инструмент
    для проверки качества структуры.
  • 20:59 - 21:02
    Сегодня мы с радостью объявляем,
  • 21:02 - 21:05
    что мы можем открыть
    исходные коды нашей маски.
  • 21:06 - 21:08
    Вот эта схема.
  • 21:08 - 21:09
    Если хотите, мы можем распространить
  • 21:09 - 21:13
    и передать их в Викиданные
    в виде ShEx-файлов.
  • 21:13 - 21:17
    Это ShEx-файл
    для немецких существительных,
  • 21:17 - 21:20
    и Денни занимается конвертацией
    из наших внутренних спецификаций
  • 21:20 - 21:23
    в более доступные спецификации.
  • 21:24 - 21:28
    Сейчас мы работаем с 25 языками.
  • 21:28 - 21:29
    Мы ожидаем рост с нашей стороны,
  • 21:29 - 21:34
    но мы также ищем возможности
    сотрудничества для других языков.
  • 21:34 - 21:40
    Денни и Лукас занимаются
    одним из таких совместных проектов.
  • 21:41 - 21:45
    У Лукаса есть отличные инструменты
    для интерфейса,
  • 21:45 - 21:51
    который поможет пользователям
    или составителям добавлять больше форм.
  • 21:51 - 21:54
    Если вы хотите добавить
    французское прилагательное,
  • 21:54 - 21:59
    интерфейс подскажет вам,
    сколько форм ожидается,
  • 21:59 - 22:02
    и какие лингвистические особенности
    должны быть у этой формы.
  • 22:02 - 22:06
    То есть наша маска поможет
    определить и расширить инструмент.
  • 22:07 - 22:08
    У меня всё.
  • 22:09 - 22:10
    (Лидия) Спасибо большое.
  • 22:10 - 22:12
    (аплодисменты)
  • 22:14 - 22:17
    Хорошо.
    Есть вопросы?
  • 22:17 - 22:19
    Хотите ещё поговорить о лексемах?
  • 22:20 - 22:22
    - (голос из зала 4) Да.
    - Да. (хихикает)
  • 22:33 - 22:35
    (голос из зала 4) Вы говорили о том,
  • 22:35 - 22:39
    чтобы больше людей
    могли использовать больше языков.
  • 22:39 - 22:42
    Но есть много языков,
    которые нельзя использовать в Викиданных.
  • 22:42 - 22:45
    Как вы решаете эту проблему?
  • 22:46 - 22:48
    «Нельзя использовать в Викиданных» --
  • 22:48 - 22:50
    вы имеете в виду ввод меток?
  • 22:50 - 22:53
    - (голос из зала 4) Меток, описаний.
    - Понятно.
  • 22:53 - 22:55
    С лексемами немного другая ситуация,
  • 22:55 - 22:58
    потому что для них нет такого ограничения.
  • 22:59 - 23:05
    Для меток на элементах и свойствах
    ограничение есть,
  • 23:05 - 23:12
    потому что мы хотели убедиться,
  • 23:12 - 23:14
    что люди не начнут писать что попало
  • 23:14 - 23:17
    и что это не выйдет из-под контроля.
  • 23:19 - 23:23
    Если маленькое сообщество хочет
    работать с одним языком,
  • 23:24 - 23:27
    обратитесь к нам и мы вам поможем.
  • 23:27 - 23:29
    (голос из зала 4) Мы сделали это в мае
    на хакатоне в Праге,
  • 23:29 - 23:32
    и смогли начать использовать
    наш язык лишь в августе.
  • 23:32 - 23:35
    - Да.
    - (голос из зала 4) Это очень медленно.
  • 23:35 - 23:38
    Да, к сожалению, это очень медленно.
  • 23:38 - 23:40
    Мы работаем с Комиссией по языку
  • 23:40 - 23:46
    над решением некоторых фундаментальных...
  • 23:50 - 23:55
    Например, договориться о том,
    какие языки «разрешены».
  • 23:56 - 23:59
    Это происходит очень медленно,
  • 24:00 - 24:04
    поэтому ваш запрос занял столько времени.
  • 24:05 - 24:06
    (голос из зала 4) Спасибо.
  • 24:07 - 24:08
    (голос из зала 5) Спасибо вам.
  • 24:08 - 24:11
    Лидия, если вы помните статистику,
    которую вы показывали,
  • 24:11 - 24:13
    количество лексем в языках.
  • 24:13 - 24:18
    Вы посчитали все формы как единицу данных,
  • 24:18 - 24:20
    или только лексемы?
  • 24:21 - 24:23
    (Лидия) Вы имеете в виду эту?
  • 24:23 - 24:24
    Какую именно?
  • 24:24 - 24:26
    (голос из зала 5) Да, эту.
  • 24:26 - 24:28
    Если вы помните,
    это количество обозначает
  • 24:28 - 24:32
    все формы для всех лексем
    или только количество лексем?
  • 24:32 - 24:35
    - Нет, только количество лексем.
    - (голос из зала 5) Только количество.
  • 24:35 - 24:37
    То есть это просто статистика,
  • 24:37 - 24:39
    потому что если добавить ещё и формы --
  • 24:39 - 24:41
    потому я и спрашиваю --
  • 24:41 - 24:43
    тогда все языки с флективной морфологией,
  • 24:43 - 24:45
    такие как русский, сербский,
    словенский и другие,
  • 24:45 - 24:48
    имеют преимущество,
    потому что в них очень много форм.
  • 24:48 - 24:52
    (Лидия) Да, это сильно влияет
    на количество форм.
  • 24:52 - 24:54
    (голос из зала 5)
    Да, этот слайд. Спасибо.
  • 24:57 - 25:00
    (голос из зала 6) У меня вопрос о...
  • 25:01 - 25:07
    Когда мы говорим
    о фактических элементах и свойствах,
  • 25:07 - 25:09
    Как я понимаю,
  • 25:09 - 25:12
    пока что нет способа
    дать фактический источник
  • 25:12 - 25:15
    для существующих меток и описаний.
  • 25:15 - 25:18
    Например, если вы говорите
  • 25:18 - 25:21
    о свойстве элемента,
  • 25:21 - 25:24
    вы можете получить противоречивые метки.
  • 25:25 - 25:26
    Да.
  • 25:26 - 25:28
    (голос из зала 6) То есть этот человек...
  • 25:28 - 25:31
    Например, мы раньше говорили
    об автохтонных понятиях.
  • 25:31 - 25:36
    Согласно одному источнику,
    этот человек -- норвежский художник.
  • 25:36 - 25:39
    Согласно другому источнику --
    он саамский художник.
  • 25:40 - 25:43
    Ещё у нас была проблема в эстонском,
  • 25:43 - 25:48
    где нам нужно было
    изменить терминологию на официальную,
  • 25:48 - 25:49
    в официальных лексиконах,
  • 25:49 - 25:52
    но мы не могли указать причину
  • 25:52 - 25:54
    и источник изменений,
  • 25:54 - 25:56
    и не могли обосновать,
    почему это нужно сделать.
  • 25:56 - 25:57
    Это выглядело, как будто случайный человек
  • 25:57 - 26:00
    просто так изменяет термины.
  • 26:00 - 26:03
    Появится ли у нас возможность
  • 26:03 - 26:06
    указывать надлежащие источники
    для языковых данных?
  • 26:07 - 26:12
    Частично это возможно.
  • 26:12 - 26:16
    Например, если у вас есть
    элемент для личности,
  • 26:17 - 26:23
    есть утверждение, имя,
    фамилия этой личности и так далее,
  • 26:23 - 26:26
    тогда вы можете добавить ссылку на это.
  • 26:28 - 26:33
    Я сомневаюсь, стоит ли усложнять ссылки
  • 26:33 - 26:36
    для меток и описаний,
  • 26:36 - 26:39
    но если люди уверены,
  • 26:39 - 26:45
    что утверждение имеет недостаточно ссылок,
  • 26:45 - 26:47
    то это нужно обсудить.
  • 26:49 - 26:53
    Боюсь, что это добавит сложности
  • 26:53 - 26:57
    для, надеюсь, немногих случаев,
  • 26:57 - 27:00
    но я не против изменений,
  • 27:00 - 27:04
    если люди на этом настаивают.
  • 27:04 - 27:08
    (голос из зала 6) Тогда это
    не должно быть опцией по умолчанию,
  • 27:08 - 27:12
    которую видят все новички в интерфейсе.
  • 27:12 - 27:16
    Например «Нажмите,
    если хотите уточнить информацию».
  • 27:18 - 27:23
    Знаете ли вы, как часто
    это будет использоваться?
  • 27:25 - 27:26
    (голос из зала 6) Например, в эстонском...
  • 27:26 - 27:29
    Думаю, также и в других языках...
  • 27:29 - 27:34
    Например, официальное название
    с утверждённым переводом
  • 27:34 - 27:36
    на английский
  • 27:36 - 27:40
    определённого типа муниципалитета.
  • 27:41 - 27:42
    Например, в моём случае
  • 27:42 - 27:44
    мы использовали слово «приход»,
  • 27:45 - 27:51
    его исходное значение в эстонском --
    что-то вроде церковного прихода,
  • 27:51 - 27:52
    то есть это происхождение слова,
  • 27:52 - 27:55
    но не современный официальный перевод.
  • 27:55 - 27:59
    В этом случае стоит добавить его
    как утверждение официального названия,
  • 27:59 - 28:01
    и также добавить туда ссылку.
  • 28:02 - 28:03
    (голос из зала 6) Хорошо.
  • 28:05 - 28:07
    Ещё вопросы?
    Да?
  • 28:08 - 28:10
    (голос из зала 7)
    У меня два коротких замечания.
  • 28:10 - 28:14
    Вы отметили, что астурийский язык
    занимает хорошую позицию,
  • 28:14 - 28:16
    но я думаю, что это ложный артефакт.
  • 28:16 - 28:18
    Давайте подробнее.
  • 28:18 - 28:20
    (голос из зала 7)
    Я думаю, что это сделал бот,
  • 28:20 - 28:24
    который вставил личные имена,
    собственные имена,
  • 28:24 - 28:27
    и сказал: «Это как во французском
    или испанском»,
  • 28:27 - 28:29
    и просто скопировал всё это.
  • 28:29 - 28:30
    Об этом говорит хотя бы то,
  • 28:30 - 28:33
    что в астурийском
    вы не увидите таких усилий там,
  • 28:33 - 28:37
    где действительно нужен перевод,
    например, в названиях свойств
  • 28:37 - 28:40
    или названиях элементов, которые
    не являются собственными именами.
  • 28:40 - 28:41
    Асаф, вы разбиваете мне сердце.
  • 28:41 - 28:43
    (голос из зала 7) Я знаю.
    Люблю портить праздники.
  • 28:43 - 28:48
    Но у меня есть хорошие новости
    о количестве произношений.
  • 28:49 - 28:53
    Как вы знаете, на Викискладе
    полно файлов с произношениями,
  • 28:55 - 29:01
    например, для нидерландского языка
    их не меньше 300 000,
  • 29:02 - 29:05
    и всё это надо как-то обработать.
  • 29:05 - 29:08
    Так что если кому-то
    нужен сторонний проект,
  • 29:08 - 29:09
    то на Викискладе вы найдёте очень много
  • 29:09 - 29:13
    классифицированных файлов с произношениями
  • 29:13 - 29:17
    в категории «Произношение» по языкам.
  • 29:17 - 29:23
    Их нужно привязать к лексемам
    и добавить в Lexeme.
  • 29:23 - 29:25
    И ещё, можете ли вы сказать что-нибудь
  • 29:25 - 29:27
    о плане действий,
  • 29:27 - 29:29
    насчёт того, сколько инвестиций
  • 29:29 - 29:32
    и всего прочего мы можем ожидать
    от Lexeme в будущем году,
  • 29:32 - 29:34
    потому что я жду с нетерпением.
  • 29:35 - 29:37
    Ждетё с нетерпением? (хихикает)
  • 29:37 - 29:39
    - (голос из зала 7) Ожидаю большего.
    - Да. (хихикает)
  • 29:45 - 29:49
    Сейчас мы больше заняты
    Викибазой и качеством данных,
  • 29:51 - 29:55
    хотим увидеть результативность,
  • 29:55 - 30:02
    затем нам нужно найти проблемные точки,
  • 30:02 - 30:06
    а потом вернуться к улучшению
    лексикографических данных.
  • 30:07 - 30:10
    Очень хочется услышать ваше мнение
  • 30:10 - 30:14
    по поводу того, куда нам двигаться,
  • 30:14 - 30:16
    какие изменения вы хотите видеть,
  • 30:16 - 30:20
    чтобы мы могли решить, как это сделать.
  • 30:21 - 30:23
    Но вы, конечно, правы,
  • 30:23 - 30:26
    там ещё много работы
    с технической стороны.
  • 30:31 - 30:36
    (голос из зала 8) Когда мы загружали
    баскские слова с формами --
  • 30:36 - 30:38
    вы увидите кое-что из этого --
  • 30:38 - 30:41
    и на прошлой неделе мы сказали:
    «Ого, мы заняли первое место.»
  • 30:43 - 30:45
    Об этом даже пресса пишет:
  • 30:45 - 30:49
    «Ого, баски заняли первое место в чём-то.»
  • 30:49 - 30:51
    (смеётся)
  • 30:51 - 30:53
    И тогда люди спрашивают:
    «А для чего это нужно?»
  • 30:55 - 30:57
    Тут мы не знаем, что ответить.
  • 30:57 - 30:58
    Можно сказать,
  • 30:58 - 31:02
    что это поможет компьютерам
    лучше понимать языки,
  • 31:02 - 31:05
    но какие инструменты
    мы можем создать в будущем?
  • 31:05 - 31:07
    На это у нас нет чёткого ответа.
  • 31:07 - 31:11
    Возможно, ответ есть у вас.
  • 31:11 - 31:13
    (хихикает) Не знаю,
    есть ли у меня чёткий ответ,
  • 31:13 - 31:15
    зато есть просто ответ.
  • 31:15 - 31:20
    Пока что, как я говорила [неразборчиво],
  • 31:20 - 31:22
    мы не достигли той критической массы,
  • 31:22 - 31:26
    которая позволяет создать
    много интересных инструментов.
  • 31:26 - 31:28
    Некоторые инструменты уже существуют.
  • 31:28 - 31:32
    Например, на днях [Эстер Панделия]
  • 31:32 - 31:34
    выпустила инструмент, где можно увидеть...
  • 31:36 - 31:39
    Кажется, там были слова на глобусе,
  • 31:39 - 31:42
    их происхождение и распространение.
  • 31:43 - 31:44
    Я точно не знаю.
  • 31:44 - 31:46
    Но она ответила в Project chat
    на Викиданных,
  • 31:46 - 31:49
    можете поискать там.
  • 31:50 - 31:52
    Мы видели эти первые инструменты,
  • 31:52 - 31:56
    как тогда, когда начинали
    создавать Викиданные.
  • 31:57 - 32:00
    Сначала некоторые...это была просто сеть,
  • 32:00 - 32:03
    что-то вроде: «Смотри,
    эта штука связана с той штукой.»
  • 32:05 - 32:07
    Когда мы собрали больше данных
  • 32:07 - 32:10
    и достигли некоторой критической массы,
  • 32:12 - 32:15
    появились более мощные приложения,
  • 32:16 - 32:17
    например, Histropedia,
  • 32:19 - 32:22
    или вопросы и ответы
  • 32:22 - 32:27
    в персональном цифровом
    помощнике Platypus, и так далее.
  • 32:27 - 32:30
    Мы видим похожую ситуацию с лексемами.
  • 32:31 - 32:35
    Мы на том уровне,
    где можно создать такие маленькие...
  • 32:35 - 32:37
    «Смотрите, тут есть связь
    между двумя вещами»,
  • 32:38 - 32:43
    и есть перевод этого слова
    в этом языковом уровне,
  • 32:43 - 32:48
    и чем больше мы развиваем это,
    чем больше слов описываем,
  • 32:48 - 32:50
    тем больше возможностей появляется.
  • 32:50 - 32:52
    Какие именно возможности?
  • 32:53 - 32:59
    Бен, наш главный спикер,
    говорил о переводах,
  • 33:00 - 33:03
    о возможности перевода
    с одного языка на другой.
  • 33:03 - 33:08
    И мой коллега Йенс всегда говорит о том,
  • 33:08 - 33:11
    что Евросоюз ищет переводчика
  • 33:11 - 33:17
    с мальтийского на шведский,
    если не ошибаюсь.
  • 33:17 - 33:19
    - (голос из зала) Эстонский.
    - Эстонский.
  • 33:22 - 33:26
    Это редкая комбинация.
  • 33:27 - 33:32
    Но если собрать все эти языки
    в один машинно-читаемый массив,
  • 33:32 - 33:33
    то вы сможете это сделать,
  • 33:33 - 33:37
    вы сможете найти словарь
  • 33:37 - 33:42
    для перевода с эстонского
    на мальтийский и обратно.
  • 33:43 - 33:46
    Внесение в словари языковых комбинаций,
  • 33:46 - 33:48
    которых там не было раньше,
  • 33:48 - 33:51
    потому что на них не было спроса,
  • 33:51 - 33:56
    достаточного для финансовой выгоды.
  • 33:56 - 33:57
    Теперь мы можем это сделать.
  • 34:00 - 34:02
    Затем следующее поколение.
  • 34:02 - 34:04
    Люси говорила о том,
  • 34:04 - 34:07
    как она работает с Хэтти
  • 34:09 - 34:10
    над генерацией текста,
  • 34:10 - 34:15
    чтобы начать писать статьи в Википедии
    на языках меньшинств.
  • 34:15 - 34:20
    Для этого нужны данные о словах
  • 34:20 - 34:22
    и знание языка.
  • 34:24 - 34:28
    Это то, что мне вспомнилось
    на данный момент.
  • 34:29 - 34:30
    Возможно, аудитория предложит больше идей
  • 34:30 - 34:34
    насчёт того, что мы будем делать
    с этими выдающимися данными.
  • 34:38 - 34:41
    (голос из зала 9)
    Я отклонюсь от темы лексем.
  • 34:41 - 34:43
    Я хочу спросить,
  • 34:43 - 34:46
    как я, как член сообщества,
  • 34:46 - 34:50
    могу повлиять на приоритет задания,
    если приходит новый пользователь,
  • 34:50 - 34:57
    и он может указать, какие языки
    он хочет видеть и редактировать
  • 34:57 - 35:01
    без знания каких-то
    секретных словесных шаблонов.
  • 35:02 - 35:05
    Возможно, в этом году появится
    технический список желаний
  • 35:05 - 35:07
    без тем Википедии.
  • 35:07 - 35:11
    Надеюсь, мы все сможем
    проголосовать за эту вещь,
  • 35:11 - 35:14
    которую мы семь лет не могли исправить.
  • 35:14 - 35:18
    Есть ли у вас идеи
    и замечания на этот счёт?
  • 35:18 - 35:20
    Вы имеете в виду,
  • 35:20 - 35:24
    что пользователь,
    не зарегистрированный в Викиданных,
  • 35:24 - 35:26
    не может просто изменить язык?
  • 35:26 - 35:28
    (голос из зала 9) Нет,
    для [неразборчиво] пользователей.
  • 35:28 - 35:31
    Если они вошли в систему,
  • 35:31 - 35:35
    они могут изменить язык вверху страницы
  • 35:36 - 35:38
    и он появится там,
  • 35:40 - 35:42
    где есть описание метки [неразборчиво],
  • 35:42 - 35:44
    и его можно будет редактировать.
  • 35:46 - 35:49
    (голос из зала 9)
    Чаще всего в рабочем процессе
  • 35:49 - 35:52
    нужно иметь доступ ко многим языкам,
  • 35:52 - 35:55
    но это не всегда возможно.
  • 35:55 - 35:59
    Хорошо, давайте встретимся
    после доклада и обсудим это.
  • 36:02 - 36:04
    Отлично.
    Ещё вопросы?
  • 36:06 - 36:07
    Да?
  • 36:11 - 36:13
    (голос из зала 10) Спасибо за презентацию.
  • 36:14 - 36:15
    Можете прокомментировать
  • 36:15 - 36:19
    состояние корреляции
    с сообществом Викисловаря?
  • 36:19 - 36:22
    Насколько я знаю, ведутся дискуссии
  • 36:22 - 36:26
    об импортировании
    некоторых элементов работы,
  • 36:26 - 36:31
    но там есть проблемы с лицензированием
    и некоторые разногласия.
  • 36:31 - 36:32
    (Лидия) Да.
  • 36:32 - 36:36
    Сообщества Викисловаря
    потратили много времени
  • 36:37 - 36:39
    на его создание.
  • 36:39 - 36:43
    Они создали
  • 36:43 - 36:48
    невероятно сложные и комплексные шаблоны
  • 36:48 - 36:54
    для создания удобных таблиц,
    которые автоматически генерируют формы,
  • 36:54 - 36:56
    и ещё много разных впечатляющих
  • 36:56 - 37:00
    и невообразимых вещей.
  • 37:02 - 37:08
    И конечно же, они вложили в это
    много времени и усилий.
  • 37:09 - 37:12
    Поэтому их можно понять,
  • 37:12 - 37:17
    они не хотят, чтобы результаты их работы
  • 37:18 - 37:19
    кто-то взял просто так.
  • 37:19 - 37:21
    Поэтому такая ситуация.
  • 37:23 - 37:25
    И это нормально.
  • 37:26 - 37:31
    Сейчас первые сообщества
    Викисловаря говорят о том,
  • 37:31 - 37:34
    чтобы передать и импортировать
    некоторые данные в Викиданные.
  • 37:34 - 37:39
    Вы уже видели русский,
    это один из таких случаев.
  • 37:40 - 37:42
    И я ожидаю большего.
  • 37:44 - 37:47
    Но это медленный процесс,
  • 37:47 - 37:49
    такой же медленный,
  • 37:49 - 37:52
    как внедрение данных
    из Викиданных в Википедию.
  • 37:53 - 37:56
    С другой стороны, нужно упростить
  • 37:56 - 37:59
    использование данных
    из лексем в Викисловаре,
  • 37:59 - 38:02
    чтобы они могли пользоваться ими
  • 38:02 - 38:06
    и делиться данными
    с разными Викисловарями,
  • 38:06 - 38:09
    что сейчас почти невозможно.
  • 38:09 - 38:11
    И это ужасно, так же,
    как это было в Википедии.
  • 38:14 - 38:16
    Дождитесь подарка на день рождения.
    (хихикает)
  • 38:20 - 38:21
    Да?
  • 38:22 - 38:25
    (голос из зала 11) Когда я думала,
    как решить эту проблему,
  • 38:25 - 38:28
    то не хотела говорить,
    потому что это казалось мне глупым,
  • 38:28 - 38:32
    но я думаю, что в Викисловаре
    уже есть некоторый контент,
  • 38:32 - 38:35
    и я знаю, что мы не можем
    передать его в Викиданные
  • 38:35 - 38:37
    из-за разницы в лицензиях.
  • 38:37 - 38:40
    Но я думаю, что с этим
    можно что-то сделать.
  • 38:40 - 38:45
    Возможно, мы можем
    получить разрешение сообществ
  • 38:46 - 38:51
    после общего голосования,
  • 38:52 - 38:58
    чтобы активные участники сообщества
    проголосовали и сказали,
  • 38:58 - 39:03
    хотят ли они принять или передать контент,
  • 39:03 - 39:05
    для которого они могут
    создать лексемы в Викиданных.
  • 39:06 - 39:09
    Иначе это непродуктивно.
  • 39:10 - 39:14
    Это как раз тот разговор,
  • 39:14 - 39:18
    который нужно начать
    в сообществах Викисловаря.
  • 39:18 - 39:25
    Для нас было бы неуместным
    навязывать им это.
  • 39:26 - 39:31
    Но я думаю, что это стоит обсудить.
  • 39:31 - 39:34
    Также важно понимать,
  • 39:34 - 39:39
    что есть разница между тем,
    что легально разрешено,
  • 39:39 - 39:43
    тем, что мы должны делать,
  • 39:43 - 39:46
    и тем, чего хотят или не хотят эти люди.
  • 39:46 - 39:47
    Поэтому, даже если это легально,
  • 39:47 - 39:51
    но другие сообщества Викисловаря
    этого не хотят,
  • 39:51 - 39:54
    то здесь нужно быть осторожными.
  • 39:59 - 40:02
    Возьмите микрофон для трансляции.
  • 40:05 - 40:07
    (голос из зала 12)
    Всё это очень интересно,
  • 40:08 - 40:12
    и я уже думаю, как рассказать
    об этом моим студентам
  • 40:12 - 40:16
    и как включить это в курс лекций,
  • 40:16 - 40:19
    в нашу работу, учебный процесс.
  • 40:19 - 40:22
    На данный момент
  • 40:23 - 40:24
    мне не хватает знаний,
  • 40:24 - 40:27
    но я думаю, что наша документация
  • 40:28 - 40:30
    нуждается в улучшении.
  • 40:30 - 40:33
    Было бы хорошо сделать
    интересные видео,
  • 40:33 - 40:36
    которые объясняют, как это работает.
  • 40:36 - 40:40
    Мы могли бы их использовать,
  • 40:40 - 40:42
    чтобы заинтересовать студентов
  • 40:42 - 40:47
    и объяснить людям, как это здорово.
  • 40:47 - 40:52
    Просто подумайте
    о документации и образовании.
  • 40:52 - 40:54
    Я думаю, многое можно сделать.
  • 40:54 - 40:59
    Есть много задач,
    к которым можно привлечь...
  • 41:00 - 41:02
    ...ну, не начальную школу,
  • 41:02 - 41:05
    но хотя бы старших школьников.
  • 41:06 - 41:11
    Очень бы хотелось
    использовать этот потенциал,
  • 41:11 - 41:15
    хотя пока что я плохо разбираюсь в этом
  • 41:15 - 41:20
    и не могу ставить задачи или...
  • 41:20 - 41:22
    ...делать что-нибудь на практике.
  • 41:22 - 41:26
    Если у вас есть
    любые идеи по этому поводу,
  • 41:26 - 41:30
    я с удовольствием их выслушаю.
  • 41:31 - 41:32
    Да, мы поговорим об этом.
  • 41:35 - 41:37
    Ещё вопросы?
  • 41:38 - 41:39
    Кто-то поднимал руку.
  • 41:39 - 41:41
    Не помню, кто именно.
  • 41:46 - 41:50
    (голос из зала 13) Если мы не можем
    импортировать из Викисловаря,
  • 41:50 - 41:56
    есть ли согласованные мероприятия,
    чтобы найти другие окрытые источники,
  • 41:56 - 41:57
    возможно, все данные,
  • 41:59 - 42:03
    как-то отфильтровать и организовать их,
  • 42:03 - 42:08
    чтобы их можно было
    легко проверить для импорта?
  • 42:09 - 42:11
    Первые мероприятия уже есть.
  • 42:11 - 42:15
    Я так понимаю,
    баскский язык -- одно из них.
  • 42:15 - 42:17
    Хотите рассказать об этом?
  • 42:18 - 42:20
    (голос из зала 14) [inaudible]
  • 42:23 - 42:27
    Фактический ответ -- заплатить за это...
  • 42:28 - 42:33
    У нас есть договор с подрядчиком,
    с которым мы обычно работаем.
  • 42:35 - 42:38
    Они создают словари --
  • 42:40 - 42:42
    и ещё много чего, словари в том числе.
  • 42:42 - 42:47
    Мы договорились с ними о создании
    бесплатного словаря для студентов.
  • 42:47 - 42:53
    Мы бы взяли часто употребляемые слова
    и начали загружать их
  • 42:53 - 42:56
    с внешним идентификатором
    и схемой этих вещей.
  • 42:56 - 43:03
    Но у нас была дискуссия,
    оставлять ли это на лицензии CC0,
  • 43:03 - 43:05
    потому что у них есть
    словарь с лицензией CC BY
  • 43:07 - 43:10
    и они поняли, в чём разница.
  • 43:10 - 43:14
    Поэтому была дискуссия.
  • 43:14 - 43:20
    Но я думаю, что в будущем мы сможем
    предоставить инструменты или примеры,
  • 43:20 - 43:22
    и я думаю, что будут другие словари,
  • 43:22 - 43:24
    с которыми мы сможем работать.
  • 43:24 - 43:29
    Я также думаю, что Викисловарь
    должен двигаться в этом направлении,
  • 43:29 - 43:32
    но это уже другая большая дискуссия.
  • 43:33 - 43:34
    Кроме того,
  • 43:34 - 43:39
    Леа общается с людьми из Окситании,
  • 43:39 - 43:42
    которые работают
    над окситанскими словарями,
  • 43:42 - 43:45
    и сейчас они работают
    над совместным проектом в шумерском.
  • 43:52 - 43:53
    Ещё вопросы?
  • 44:01 - 44:05
    (голос из зала 15) Привет!
    Мы хотим импортировать окситанские данные.
  • 44:05 - 44:07
    Отлично!
  • 44:07 - 44:09
    (голос из зала 15)
    И у нас небольшая проблема.
  • 44:09 - 44:14
    Мы не знаем, как представить
    всё разнообразие лексем.
  • 44:14 - 44:18
    У нас шесть диалектов,
  • 44:18 - 44:24
    и мы хотим указать,
    в каком диалекте используется лексема,
  • 44:24 - 44:27
    и у нас нет подходящего
    C0-утверждения, чтобы это сделать.
  • 44:27 - 44:31
    Пока сегмента не существует,
  • 44:32 - 44:34
    это не позволяет нам [неразборчиво]
  • 44:34 - 44:38
    потому что нам придётся сделать это снова,
  • 44:38 - 44:42
    когда мы сможем
    [экспортировать] утверждение.
  • 44:42 - 44:45
    И это сложно,
    потому что это утверждение
  • 44:45 - 44:48
    заинтересует немногих людей,
  • 44:48 - 44:53
    потому что оно касается
    в основном языков меньшинств.
  • 44:53 - 44:57
    Один человек спросит об этом.
  • 44:57 - 45:00
    Но, как у наших коллег басков,
  • 45:00 - 45:06
    один человек может привлечь тысячи других,
  • 45:06 - 45:11
    может быть, это не много,
  • 45:11 - 45:14
    но для нас это очень важно.
  • 45:15 - 45:18
    У вас уже есть
    новое предложение о свойствах,
  • 45:18 - 45:19
    или вам нужна помощь в его создании?
  • 45:22 - 45:24
    (голос из зала 15) Мы просили об этом
    четыре месяца назад.
  • 45:25 - 45:29
    Хорошо, попросим кого-нибудь
    помочь с этим предложением.
  • 45:30 - 45:33
    Думаю, здесь достаточно людей,
    которые могут это сделать.
  • 45:33 - 45:36
    (голос из зала 15) Предложение о свойствах
    [говорит по-французски]
  • 45:36 - 45:37
    (голос из зала) Нам не ответили.
  • 45:37 - 45:40
    (голос из зала 15) Нам не ответили,
    и мы не знаем, как это сделать,
  • 45:40 - 45:43
    потому что мы не из сообщества Викиданных.
  • 45:45 - 45:48
    Здесь есть люди, которые могут вам помочь.
  • 45:49 - 45:52
    Поднимите руку, кто возьмёт...
  • 45:53 - 45:54
    (голос из зала 16) Я могу.
  • 45:54 - 45:56
    Мне кажется очень интересным то,
  • 45:56 - 45:59
    что только вариант формы
  • 45:59 - 46:03
    может управлять этим территориально,
  • 46:03 - 46:05
    с помощью координат или картографии.
  • 46:06 - 46:08
    А также разные произношения,
  • 46:08 - 46:12
    думаю, это бывает во многих языках.
  • 46:13 - 46:16
    Нам нужно как-то реализовать это
    [неразборчиво],
  • 46:16 - 46:19
    я займусь поиском свойства.
  • 46:20 - 46:21
    Отлично.
  • 46:21 - 46:24
    Вы получите поддержку
    для вашего предложения о свойствах.
  • 46:26 - 46:27
    Спасибо вам.
  • 46:28 - 46:30
    Хорошо, есть ещё вопросы?
  • 46:32 - 46:33
    Финн.
  • 46:34 - 46:35
    Финн -- один из тех людей,
  • 46:35 - 46:38
    которые создают разработки
    на основе лексикографических данных.
  • 46:38 - 46:40
    (Финн) У меня небольшой вопрос
  • 46:40 - 46:44
    о вариациях в произношении.
  • 46:45 - 46:48
    Их нелегко внести в...
  • 46:49 - 46:53
    Конечно, одно и то же слово
    может иметь разные формы.
  • 46:56 - 46:58
    Не знаю, мне кажется...
  • 47:00 - 47:04
    Если не сделать это таким способом,
    то будет трудно уточнить...
  • 47:05 - 47:06
    Хотя я не знаю,
  • 47:06 - 47:10
    это мелкая техническая проблема или...
  • 47:10 - 47:11
    Давайте вместе разберёмся.
  • 47:12 - 47:15
    Хочется увидеть пример.
  • 47:17 - 47:18
    Асаф.
  • 47:27 - 47:28
    (Асаф) Спасибо.
  • 47:29 - 47:34
    Я могу дать очень хороший пример
    из моего родного языка, иврита.
  • 47:34 - 47:38
    В иврите есть два основных варианта
  • 47:39 - 47:42
    для выражения почти каждого слова,
  • 47:43 - 47:48
    потому что традиционное написание
  • 47:48 - 47:50
    пропускает многие гласные буквы.
  • 47:51 - 47:55
    Поэтому в современных изданиях
    Библии и поэзии
  • 47:55 - 47:57
    используются диакритические знаки.
  • 47:57 - 48:03
    Но эти знаки никогда не используются
    в современной прозе,
  • 48:03 - 48:06
    газетах, на уличных вывесках.
  • 48:06 - 48:11
    В ежедневном обиходе добавляются гласные
  • 48:12 - 48:14
    и не используются диакритические знаки,
  • 48:14 - 48:16
    потому что они громоздкие
  • 48:16 - 48:18
    и пишутся по правилам,
    которых никто не знает.
  • 48:19 - 48:21
    Поэтому есть два варианта:
  • 48:21 - 48:25
    повседневный вариант для прозы,
  • 48:25 - 48:28
    и отдельно Библия с поэзией,
  • 48:28 - 48:32
    которые написаны
    традиционным текстом с диакритикой.
  • 48:32 - 48:33
    Чтобы быть полезной,
  • 48:33 - 48:37
    Lexeme должна распознавать
    обе вариации каждого слова
  • 48:37 - 48:40
    и каждую форму каждого слова.
  • 48:41 - 48:43
    То есть это случай
    очень обширного использования
  • 48:43 - 48:46
    официальных устойчивых вариантов.
  • 48:46 - 48:49
    Это не диалекты и не региональные языки,
  • 48:49 - 48:54
    это две сосуществующие
    морфологические системы.
  • 48:55 - 48:59
    Я тоже пока что не знаю,
    как выразить это в Lexeme,
  • 48:59 - 49:03
    и это не даёт мне -- частично
    отвечаю на вопрос Магнуса --
  • 49:03 - 49:05
    загрузить готовые части
  • 49:05 - 49:09
    самого большого словаря иврита,
    который есть в открытом доступе,
  • 49:09 - 49:13
    и который я оцифровываю
    уже несколько лет.
  • 49:13 - 49:15
    Большая часть уже готова,
  • 49:15 - 49:17
    но я не выкладываю её в Lexeme,
  • 49:17 - 49:20
    потому что я не знаю,
    как решить эту проблему.
  • 49:20 - 49:23
    Хорошо, решим эту проблему здесь.
    (хихикает)
  • 49:25 - 49:26
    Должна быть какая-то возможность.
  • 49:30 - 49:32
    Ещё вопросы?
  • 49:37 - 49:40
    Если нет, спасибо вам большое.
  • 49:41 - 49:43
    (аплодисменты)
Title:
cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4
Video Language:
English
Duration:
49:51

Russian subtitles

Revisions