-
Основной доклад
-
Бенджамин Янг (PanLex)
-
В настоящее время на планете
-
существует около 7 500 языков.
-
По оценкам экспертов,
-
около 70% из них могут исчезнуть
-
к концу 21 века.
-
Каждый раз, когда умирает язык,
-
утрачивается связь,
-
существовавшая сотни или тысячи лет,
-
с культурой, историей,
-
традициями и знаниями.
-
Лингвист Кеннет Хейл как-то сказал,
-
что смерть любого языка --
-
всё равно что бомба, сброшенная на Лувр.
-
Вопрос в том,
-
почему языки умирают?
-
Наверное, самый простой ответ --
-
вы сразу представляете себе
авторитарные режимы,
-
которые не дают людям
говорить на своих родных языках,
-
наказывают детей, если они говорят
на родном языке в школе.
-
Или как правительства
закрывают радиостанции,
-
вещающие на миноритарном языке.
-
Такое и правда происходило в прошлом,
-
и, отчасти, происходит и сегодня.
-
Но на самом деле
-
львиную долю случаев исчезновения языков
-
можно объяснить
-
гораздо проще.
-
Языки вымирают,
-
потому что их не передают
-
от одного поколения к другому.
-
Каждый раз, когда у человека,
-
владеющего миноритарным языком,
рождается ребёнок,
-
этот человек начинает думать.
-
Он задаётся вопросом:
-
«Стоит ли мне передавать
мой язык моему ребёнку
-
или же я лучше буду учить его
только мажоритарному языку?»
-
И так у них в голове
-
возникают весы,
-
куда они кладут камешек
-
каждый раз,
-
когда у них есть возможность
использовать родной язык
-
для общения, для обращения
к традиционной культуре,
-
и этот камешек кладётся
на левую чашу весов.
-
И каждый раз, когда так случается,
-
что они не могут
использовать родной язык,
-
и вместо него должны прибегать
к мажоритарному языку,
-
они кладут камешек на правую чашу весов.
-
Возможность говорить
на родном языке даёт людям
-
силу и гордость,
-
и поэтому камешки на левой чаше
обычно чуть тяжелее.
-
Но если на правой чаше
будет достаточно камешков,
-
то в итоге весы склонятся
в её сторону,
-
и когда человек будет принимать решение
-
передавать ли свой язык ребёнку или нет,
-
он будет считать свой родной язык
-
обузой, а не даром.
-
Вопрос в том, как мы можем это изменить?
-
Давайте сперва задумаемся над тем,
-
что для каждого языка
-
есть определённые сферы социальной жизни,
где он применяется.
-
Поэтому любой язык,
-
который является для кого-то родным,
-
может использоваться в кругу семьи.
-
Небольшое число языков
может использоваться внутри общины,
-
ещё какое-то небольшое число --
в одном регионе,
-
и небольшая группа языков
может использоваться
-
для международного общения.
-
И даже в этих сферах
-
встаёт вопрос, может ли человек
использовать свой язык
-
в сферах образования, торговли
-
или в области технологии?
-
Чтобы лучше объяснить,
-
о чём я говорю, я расскажу анекдот.
-
Допустим, вы отправляетесь
-
в путешествие вашей мечты в Индию
-
с восьмичасовой остановкой в Стамбуле.
-
Вы, может, и не собирались
посещать Турцию,
-
но у вас пересадка,
и ваш турецкий друг рассказывал
-
о чудесном ресторанчике
-
недалеко от аэропорта,
-
и вы говорите себе: «Может,
я загляну туда во время остановки».
-
Вы выходите из аэропорта,
-
добираетесь до ресторана,
-
и вам подают меню --
-
а оно всё на турецком!
-
Давайте договоримся,
для чистоты эксперимента,
-
что по-турецки вы не говорите.
-
Что вы будете делать?
-
Если вам повезёт,
-
вы найдёте кого-то,
кто владеет вашим родным языком:
-
немецким, английским и так далее.
-
Но, допустим, вам не повезло,
-
и никто в ресторане не говорит
ни по-немецки ни по-английски.
-
Так что вы будете делать?
-
Если вы рассуждаете как я --
а большинство так и сделает --
-
вы прибегнете к помощи технологий:
-
к машинному переводу
или электронному словарю.
-
Будете отдельно искать каждое слово
-
и в итоге закажете себе
восхитительное турецкое блюдо.
-
Но давайте вместо этого
представим такой вариант,
-
при котором вы носитель
миноритарного языка.
-
Например, нижнелужицкого языка.
-
Нижнелужицкий язык --
это исчезающий язык,
-
на котором говорят здесь, в Германии,
-
примерно в 130 километрах
к юго-востоку от этого места.
-
На нём говорит только пара тысяч человек,
преимущественно пожилых.
-
Допустим, ваш родной язык --
нижнелужицкий.
-
Вы очутились в ресторане.
-
Вероятность найти в ресторане человека,
-
владеющего вашим родным языком, --
крайне мала.
-
Но, опять же, вы можете прибегнуть
к помощи технологий.
-
Однако, для вашего родного языка
-
технических решений не существует.
-
Вам придётся использовать
немецкий или английский
-
в качестве языка-посредника к турецкому.
-
Конечно, вы в итоге всё равно получите
восхитительное турецкое блюдо,
-
но вы станете думать о том,
как бы трудно на вашем месте
-
пришлось вашему дедушке,
который немецким не владел.
-
Это всего один случай,
-
но он станет камушком
на правой чаше весов,
-
и, может, потом вы будете размышлять:
-
«Если у меня будут дети,
или ещё один ребёнок,
-
я не буду передавать им мой язык
-
из-за всех трудностей,
с которыми мне пришлось столкнуться».
-
А теперь представьте себе
-
гораздо более серьёзную ситуацию --
-
например, вы оказались в больнице.
-
И вот здесь-то мы и можем помочь --
-
«мы» -- это я и вы в этом зале.
-
У нас есть средства,
которые могут помочь.
-
Если технические средства
станут доступны для носителей
-
миноритарных или малоиспользуемых языков,
-
то мы немного склоним
в нашу сторону левую чашу весов.
-
Люди не должны думать,
-
что обязаны использовать миноритарный язык
-
для общения с внешним миром,
-
это просто расширяет сферы его применения.
-
В идеале,
-
хорошо бы было автоматически
переводить на любой язык в мире.
-
Но, к сожалению, это неосуществимо.
-
Машинный перевод требует
больших корпусов текста.
-
А для многих языков,
-
которые исчезают или мало используются,
-
таких данных просто нет.
-
Многие из них бесписьменные,
-
а потому невозможно получить
достаточно данных для создания
-
системы машинного перевода.
-
Но зато нам доступны лексические данные.
-
Благодаря работе многих лингвистов
-
за последние несколько сотен лет
-
были составлены словари и грамматики
-
большинства мировых языков.
-
Но, к сожалению, многие из этих работ
-
не доступны для мира
-
и уж тем более для носителей
этих миноритарных языков.
-
Это выходит непреднамеренно,
зачастую потому,
-
что первоначальный тираж
этих словарей был небольшим,
-
и единственные экземпляры
-
пылятся где-то
в университетских библиотеках.
-
Но у нас есть возможность
извлечь эти данные
-
и сделать их доступными
для всего мира.
-
Фонд Викимедиа --
это одна из лучших организаций,
-
даже скажу -- ей лучше всех в мире
-
удаётся делать данные доступными
-
для большей части населения этой планеты.
-
Давайте этим и займёмся.
-
Чтобы немного рассказать о том,
-
что мы делаем в этом направлении,
-
я бы хотел представить вам
мою организацию -- PanLex,
-
которая пытается
-
собрать лексические данные
для этой цели.
-
Она зародилась 12 лет назад
-
как научно-исследовательский проект
в Вашингтонском университете.
-
Его задачей было показать,
-
что переводы с языка на язык
посредством другого языка
-
могут служить
действенным методом перевода,
-
в особенности перевода слов.
-
Вот пример из данных самого PanLex.
-
Здесь показано, как мы переводим
-
слово «ev» с турецкого языка,
оно означает «дом»,
-
на нижнелужицкий язык,
-
о котором я рассказывал ранее.
-
Маловероятно,
-
что где-то есть
турецко-нижнелужицкий словарь,
-
но если мы пропустим слово
-
через много-много
разных языков-посредников,
-
то сможем получить его удачный перевод.
-
Когда мы продемонстрировали это
в нашем исследовательском проекте,
-
основатель PanLex,
доктор Джонатан Пул,
-
решил: «Почему бы это
и вправду не сделать?»
-
Поэтому он основал
некоммерческую организацию,
-
чтобы собрать как можно больше
лексических данных и сделать их открытыми.
-
Этим мы и занимаемся уже 12 лет.
-
За это время мы собрали тысячи словарей,
-
извлекли из них лексические данные,
-
и составили базу данных,
-
которая позволяет осуществлять
опосредованный перевод
-
через любой из...
-
Сейчас у нас есть около 5 500
-
из 7 500 языков мира.
-
И, конечно,
-
мы пытаемся увеличить это число
-
и увеличить число данных
по каждому отдельному языку.
-
И тогда возникает вопрос:
-
что мы сможем сделать,
чтобы объединить усилия?
-
Мы в PanLex счастливы видеть,
-
как происходит накопление
лексических данных,
-
которым недавно занялись Викиданные.
-
Так увлекательно наблюдать
за деятельностью организаций,
-
работающих в одной области,
-
но занимающихся разными направлениями.
-
Мы так рады видеть,
-
результаты этого в Викиданных.
-
И мы надеемся на сотрудничество
с Викиданными.
-
Мне кажется, что опыт,
-
который мы приобрели за эти 12 лет
-
не только в сборе лексических данных,
но и в проектировании баз данных,
-
может пригодиться Викиданным.
-
И, с другой стороны, я думаю...
-
Я в особенности счастлив,
что Викиданные могут использовать
-
краудсорсинг для сбора данных.
-
В данный момент PanLex использует только
-
печатные словари
или другие источники лексических данных,
-
но мы не используем краудсорсинг.
-
У нас просто нет для этого
технических возможностей.
-
И, конечно, Фонд Викимедиа --
-
это мировой эксперт
в области краудсорсинга.
-
И мне не терпится увидеть,
-
как мы вместе сможем применить наш опыт.
-
Но, в целом, мне кажется,
задуматься надо вот о чём:
-
когда мы начинали работать над этим,
-
это казалось нам не особо важным.
-
Мы просто сидим,
изучая грамматические формы
-
или пролистываем словари, древние словари,
-
а иногда даже
недавно опубликованные словари,
-
и изучаем орфографию слов,
-
и это кажется такой мелочью.
-
Но изредка нам надо
оглядываться на сделанное.
-
Хоть порой то, что мы делаем,
-
может показаться рутинным,
-
мы занимаемся крайне важной работой.
-
На мой взгляд, это самый лучший способ
-
помочь исчезающим языкам и сделать всё,
-
чтобы лингвистическое разнообразие
нашей планеты
-
сохранилось до конца этого века
или даже дольше.
-
Вполне вероятно, что работа,
которой мы сегодня занимаемся,
-
повлечёт за собой сохранение языков
-
и их передачу следующим поколениям,
-
и не даст им исчезнуть.
-
Просто помните,
-
что даже если вы просто
сидите за компьютером
-
и правите отдельную статью,
-
и добавляете форму данных
какого-то миноритарного языка
-
для каждого существительного,
-
даже то немногое, что вы делаете сейчас,
-
может оказаться причиной того,
-
что язык просуществует
-
до конца этого века или даже дольше.
-
Большое спасибо,
-
и я готов ответить на ваши вопросы.
-
(аплодисменты)
-
(голос из зала 1) Спасибо!
-
- Спасибо за ваш доклад.
- Спасибо.
-
(голос из зала 1) У меня есть вопрос
насчёт словарей.
-
Вы сказали, что работаете
с печатными изданиями?
-
- Да.
- (голос из зала 1) Вопрос:
-
какие данные вы берёте из этих словарей
-
и как вы выходите из ситуации
с авторскими правами?
-
Так и думал, что меня
первым делом об этом спросят.
-
(смех)
-
Начнём с того, что в PanLex
-
мы проконсультировались у наших юристов:
-
хотя составление и систематизация
словаря охраняется авторским правом,
-
сам перевод слов авторским правом
не охраняется.
-
Вот хороший тому пример:
-
по законодательству США
телефонный справочник охраняется
-
авторским правом.
-
Но само утверждение, что номер
такого-то человека -- такое-то число,
-
не охраняется.
-
Как я уже сказал,
-
вот так, согласно нашим правоведам,
-
мы выходим из этой ситуации.
-
Но если и этот правовой аргумент
недостаточно убедителен,
-
то следует помнить,
-
что у большинства этих лексических данных
-
авторские права уже истекли.
-
У значительного числа словарей
авторские права истекли,
-
и они могут свободно использоваться.
-
Но, к примеру, совсем другое дело --
-
если мы работаем
с недавно вышедшим словарём,
-
мы не станем его сканировать
и распознавать,
-
мы просто напишем его составителю.
-
На деле, большинство лингвистов рады,
-
что мы можем сделать их данные
доступными для всех.
-
И они говорят: «Конечно, пожалуйста,
-
загрузите их
и сделайте доступными для всех».
-
Так что, по крайней мере
согласно нашим юристам,
-
мы можем это делать,
-
но если вы не хотите этим заморачиваться,
-
очень легко получить эти данные
в открытом доступе.
-
- (голос из зала 2) Здравствуйте.
- Здравствуйте.
-
(голос из зала 2) Расскажите,
-
как человек, владеющий нижнелужицким,
получает доступ к данным.
-
А именно, как эта информация
к нему поступает
-
и как это может помочь убедить его
-
попробовать...
-
Отличный вопрос,
над которым я сам много думал,
-
потому что считаю,
что обеспечение доступа к данным --
-
это на самом деле
многоступенчатый процесс.
-
Во-первых, это сохранение данных,
надо следить, чтобы данные не исчезали.
-
Во-вторых, надо следить, чтобы с ними
можно было взаимодействовать
-
и использовать их.
-
И, в-третьих, надо убедиться,
что они доступны всем.
-
Если говорить о PanLex,
-
у нас для этого можно использовать
интерфейс API,
-
но обычный пользователь
его использовать не сможет.
-
Но мы разработали и другие интерфейсы.
-
Если вы зайдёте на translate.panlex.org,
-
вы сможете переводить
на основе нашей базы данных.
-
Если хотите поковыряться в API,
зайдите на dev.panlex.org,
-
и вы сможете найти кучу информации
по API, или наберите api.panlex.org.
-
Но необходим и следующий шаг:
-
даже если вы сделаете ваши данные
полностью доступными для всех,
-
со всеми нужными сервисами,
позволяющими получить к ним доступ,
-
если вы не будете эти сервисы продвигать,
-
люди не смогут их использовать.
-
И, честно говоря...
-
Мы это мало обсуждаем,
-
и у нас нет верного решения
для этой проблемы.
-
Как нам обеспечить...
-
Например, я совсем недавно,
-
всего пару лет назад, узнал о Викиданных,
-
а ведь я интересуюсь такими вещами.
-
Так как нам разрекламировать себя?
-
Я пока оставлю этот вопрос открытым.
-
У меня нет на него верного ответа.
-
Но для того, чтобы это сделать,
-
нам нужно выполнить самые первые шаги.
-
(голос из зала 3) Разве для осуществления
машинного перевода
-
нам не нужна память переводов?
-
Я не уверен, что отдельных слов,
-
которые мы вносим в Викиданные,
-
словосочетаний,
которые мы вносим в Викиданные,
-
или как обычные элементы Викиданных,
или как лексемы Викиданных,
-
хватит для осуществления
надлежащего перевода.
-
Нам нужны целые предложения,
например, для...
-
(Бенджамин) Да, точно.
-
(голос из зала 3) И где мы получим
такую структуру данных?
-
Я не уверен, что сейчас
-
Викиданные могут хорошо справиться
-
с проблемой памяти переводов,
-
TranslateWiki.net
-
частично заполняет это пробел...
-
Должны ли мы что-то с этим сделать
или мы должны...
-
Я крайне вам признателен за вопрос,
-
я уже затрагивал его,
-
но с удовольствием отвечу ещё раз.
-
Именно по этой причине PanLex и работает
с лексическими данными,
-
и вот почему мне так нравятся
лексические данные
-
как противовес...
Не как противовес, а как дополнение
-
к системам машинного перевода
и вообще к машинному переводу.
-
Как вы сказали, машинный перевод
требует определённых данных,
-
и для большинства мировых языков
таких данных нет.
-
По большинству мировых языков
-
они просто не получены.
-
Но это не значит, что мы должны сдаться.
-
С чего бы?
-
Если мне нужно перевести меню на турецком,
-
перевод лексем отлично для этого подойдёт.
-
Я не говорю, что его можно использовать
-
для идеального перевода связного текста.
-
Под переводом лексем
я имею в виду пословный перевод,
-
а пословный перевод
может быть крайне полезен,
-
Смешно вспоминать,
но у нас и не было доступа
-
к хорошей системе машинного перевода.
-
До недавнего времени
ни у кого не было к ним доступа.
-
Мы все обходились словарями,
-
и это прекрасный источник данных.
-
И раз у нас есть данные,
почему бы не сделать их доступными
-
для всего мира
и для носителей этих языков?
-
(голос из зала 4) Здравствуйте,
какими принципами
-
вы руководствуетесь, когда носители...
Я здесь!
-
- Где вы? Так, вижу.
- (голос из зала 4) Извините. (смеётся)
-
...когда сами носители
-
против размещения
каких-то данных в PanLex?
-
Отличный вопрос!
-
Мы это решаем так:
-
если словарь уже опубликован
и доступен для общественности --
-
это хороший знак.
-
Если вы можете найти его в магазине
или в университетской библиотеке,
-
или в публичной библиотеке,
открытой для всех,
-
это верный признак того,
что носители это уже решили.
-
(голос из зала 4) [неразборчиво]
-
(голос из зала 5) Пожалуйста,
[неразборчиво], в микрофон.
-
Повторите, пожалуйста!
-
(голос из зала 4) У лингвистов
не всегда есть разрешение носителей языка
-
на публикацию таких вещей,
-
они частенько публикуют что-то
без согласия носителей.
-
Да, это совершенно верно!
-
Даже скажу, это...
-
Это случается.
-
Но, я бы сказал,
в незначительном числе случаев,
-
как правило, в Северной Америке,
-
но иногда это случается
и с языками Южной Америки.
-
Мы должны это учитывать.
-
Если мы, например, узнаём о том,
-
что какие-то данные в PanLex
-
не должны стать доступными
для всего остального мира,
-
то, конечно, мы их удалим.
-
(голос из зала 4) Хорошо.
-
Мы можем и не прислушаться,
-
если речь идёт об авторских правах,
-
но мы прислушаемся
к традиционным общинам,
-
и это главное отличие.
-
(голос из зала 4)
Да, это я и имела в виду.
-
И возникает интересный момент,
-
который заключается в том,
-
что иногда это большой вопрос:
а кто выступает от имени носителей?
-
Я как-то посещал Юго-Запад США
-
и работал с людьми,
-
которые занимались
родными языками народов пуэбло.
-
Существует около
шести языков народов пуэбло --
-
смотря как их делить --
-
на которых говорят в этом регионе.
-
Но на этих языках говорят
в 18 разных поселениях,
-
и у каждого есть
свои племенные правительства,
-
и у каждого может быть своя точка зрения,
-
стоит ли раскрывать
свой язык посторонним или нет.
-
Например, Зуни-Пуэбло --
-
единственное поселение пуэбло,
в котором говорят на языке зуни.
-
И им хочется,
чтобы их язык распространялся,
-
на нём есть надписи на указателях
и всём таком, что здорово.
-
Но о некоторых других языках
-
одно поселение может сказать:
-
«Мы не хотим, чтобы
посторонние знали наш язык».
-
Но в соседнем поселении,
говорящем на том же языке, вам скажут:
-
«Мы хотим, чтобы наш язык
был доступен для посторонних
-
через эти технические средства,
-
потому что мы хотим,
чтобы наш язык существовал дальше».
-
И это поднимает
очень интересную этическую дилемму.
-
Потому что если вы
прекратите изучение, сказав:
-
«Хорошо, я прекращаю, потому что
то поселение сказало прекратить» --
-
не нарушаете ли вы интересы
другого поселения,
-
потому что они и правда хотят,
чтобы вы его распространили.
-
Думаю, на этот вопрос
нет однозначного ответа.
-
Но, по крайней мере,
если говорить о PanLex...
-
Хочу отметить,
что мы с таким не сталкивались,
-
насколько мне известно.
-
Это может быть частично из-за того...
-
Возвращаясь к его вопросу,
-
нам нужно активнее продвигать наш продукт.
(смеётся)
-
Но, в целом, насколько я знаю,
-
у нас таких проблем не возникало.
-
Но наша стратегия тут такова:
-
если носители скажут,
что не хотят своих данных в базе,
-
то мы их удалим.
-
(голос из зала 4) У нас такое было
в Викиданных и Википедии...
-
- Да ?
- (голос из зала 4) В комментариях.
-
- Да?
- (голос из зала 4) Часто.
-
Могу такое представить в комментариях
к фотографиям или чему-то такому.
-
(голос из зала 4) Именно.
-
(голос из зала 6) У меня есть вопрос
насчёт краудсорсинга.
-
Когда мы работаем
вместе с пользователями и просим их
-
аннотировать или добавлять данные
в массив данных,
-
меня немного пугает то,
-
что как редактор я могу видеть только,
что каких-то данных не хватает.
-
Но если я буду знать,
какие из них наиболее важны,
-
когда буду тратить на это всё время,
-
то это бы послужило хорошей мотивацией.
-
Хотелось бы узнать,
есть ли у вас какая-то система,
-
вроде этого: мы знаем,
какие пробелы есть в наших данных,
-
мы можем лингвистически обосновать,
-
что если мы разметим именно эти данные,
то они окажут наибольшее воздействие.
-
Мне представляется,
-
что лексема «дом» будет обладать
большой силой воздействия...
-
Может, даже не лексемы,
а какие-то данные или что-то такое.
-
Мне интересно,
если ли у вас что-то такое,
-
что можно использовать,
чтобы направлять усилия пользователей?
-
Отличный вопрос.
-
У Викиданных есть много...
-
Извините, у PanLex есть
множество списков Сводеша.
-
Вероятно, у нас самое большое собрание
списков Сводеша в мире,
-
что любопытно.
-
Уточню, список Сводеша --
-
это стандартизированный перечень
лексических элементов,
-
который может использоваться
для анализа языков.
-
Он содержит самые базовые понятия.
-
Есть разные виды списков Сводеша.
-
Обычно в них 100 или 213 элементов,
-
и они могут содержать
-
слова типа «дом», и «глаз», и «кожа»,
-
и другие базовые понятия,
-
которые вы сможете найти в любом языке.
-
И лучше всего вначале делать доступным
-
именно этот тип данных.
-
Как я уже говорил,
-
мы ещё не занимались краудсорсингом,
-
и мы очень рады
использовать эту возможность.
-
Я так счастлив рассказывать
-
на конференции о том,
-
как можно использовать краудсорсинг
-
и о его организации,
-
и вопросы такого рода могут возникать.
-
Пожалуй, мой ответ вам будет таков:
-
у нас есть перечень приоритетных задач...
-
Могу точно сказать, у нас есть список,
-
какие языки мы разыскиваем
в первую очередь.
-
Мы ищем такие языки,
-
для которых сейчас нет никаких
технических решений, --
-
и это чаще всего миноритарные языки,
-
и обычно это миноритарные языки --
-
и уделяем им внимание в первую очередь.
-
Но если говорить об отдельных
лексических элементах,
-
обычно мы загружаем новые данные,
-
внося в базу всё, что есть в словаре.
-
Мы полагаемся на словарь
-
в плане выбора лексических элементов,
-
а не ищем понятие «дом» по всем языкам.
-
Но когда дело дойдёт до краудсорсинга,
нам надо будет расставить приоритеты.
-
Это такая возможность
для исследований и развития.
-
(голос из зала 7) Здравствуйте, я Виктор.
Это потрясающе.
-
У вас есть слайды на эту тему --
-
вы можете немного рассказать
о техническом состоянии,
-
об обмене данными,
-
потоками данных
между Викиданными и PanLex.
-
Вы его уже внедрили?
-
И как вы решаете проблемы,
-
связанные с обменом информацией
или с системой обратной связи
-
между PanLex и Викиданными?
-
Мы пока официально
не присоединены к Викиданным,
-
и, повторюсь, это то,
-
что я очень хочу обсудить сегодня
с участниками конференции.
-
У нас есть обмен информацией
с Викисловарём,
-
но, честно скажу,
Викиданные больше подходят
-
для поиска нужной нам информации.
-
Там только лексические данные,
-
и нам меньше придётся заниматься
анализом данных и их извлечением.
-
И мой ответ: пока нет,
но мы бы очень этого хотели.
-
(голос из зала 7)
А что может этому препятствовать?
-
Викиданные уже поддерживают
несколько языков,
-
но я зашёл на translate.panlex.org,
-
и вы поддерживаете
много разных диалектов,
-
гораздо больше, чем Викиданные.
-
В чём, по-вашему, разница
-
между мгновенным переводом
и пословным,
-
прикладной задачей
-
и попыткой построить карту знаний?
-
Картирование знаний
было бы интересной задачей.
-
Мы с интересом обсуждали то,
-
как Викиданные организуют
их лексические данные,
-
ваши лексические данные,
-
и как мы организуем
наши лексические данные.
-
И есть нюансы, которые потребуют
иного способа картирования,
-
он необязательно будет
целиком автоматизированным,
-
но мы сможем разработать методы,
которые позволят нам это сделать.
-
Вы привели в пример диалекты языка.
-
Мы становимся крайне «дотошными»,
когда речь идёт о диалектах.
-
То есть у нас есть источник,
который говорит,
-
что на вот этом диалекте
-
говорят на левом берегу реки
в Папуа-Новой Гвинее,
-
а другой источник скажет нам,
-
что на таком диалекте говорят
на правом берегу реки,
-
то мы будем их считать отдельными языками.
-
Мы так поступаем, чтобы сохранить
как можно больше данных.
-
Картирование данных так,
как это делают Викиданные...
-
Я бы очень хотел обсудить,
-
какие коды используются для языков
-
в Викиданных.
-
Для этого мы тоже используем
очень «дотошный» способ.
-
Мы обычно пользуемся стандартом ISO 6393,
-
который предлагает справочник «Этнолог»,
-
и к каждому индивидуальному коду
мы добавляем различные варианты,
-
а также уже существующие наборы символов
-
для региональных диалектов и социолектов.
-
Тут есть возможности
для обсуждения и работы.
-
(голос из зала 8) Есть ли у вас конвейер
для оптического распознавания символов?
-
Потому что мы пытались
распознавать язык майя
-
и результатов не добились.
-
Он ничего не может распознать.
-
- О да! (смеётся)
- (голос из зала 8) И...да.
-
Если можно использовать ваши конвейеры...
-
И ещё вопрос: бывает, что коды ISO
не совпадают друг с другом,
-
иногда они утверждают:
-
«Это один язык, а это совершенно другой»,
-
но есть источники,
которые утверждают совсем другое,
-
вы об этом говорили,
но они часто используют разные коды.
-
Как вы с этим справляетесь?
-
Замечательный вопрос!
-
Мне он очень понравился.
-
По сути, мы не пользуемся
каким-то конкретным конвейером,
-
мы всё делаем на основе источника данных
и в зависимости от источника.
-
Одна из причин, по которой мы так делаем:
часто у нас есть источники,
-
которые не требуется распознавать
-
и которые доступны для некоторых языков,
-
и мы используем именно их,
потому что с ними меньше всего работы.
-
Но если мы и вправду хотим
тщательно изучить
-
некоторые источники у нас в архиве,
-
нам потребуется разработать
мощный конвейер распознавания текста.
-
Но есть ещё один момент,
как вы уже упоминали...
-
Люди, которые разрабатывают
модули распознавания текста,
-
не понимают, каким экстремальным нагрузкам
мы можем их подвергнуть.
-
Настоящее веселье --
-
попробовать распознать
русско-тибетский словарь.
-
Это очень трудно, как оказалось...
-
Мы сдались и наняли человека
это всё перепечатать,
-
и это оказалось вполне реально.
-
И оказалось,
-
эта потрясающая русская женщина
научилась читать по-тибетски,
-
чтобы всё это перепечатать,
что впечатляло.
-
Думаю, если вы имеете дело
с текстами с латинским шрифтом,
-
то можно разработать
полноценное ПО для распознавания,
-
работающее с многоязычными источниками,
-
полагаю, вы получите на выходе четвёрку,
-
если будете работать с текстами
-
16-го века на языке майя,
в смысле, цифру «четыре».
-
Но есть источники,
-
которые распознать не получится никогда,
-
или которые потребуют
такой огромной работы...
-
Мы сейчас этим немного занимаемся.
-
В PanLex мы ведём ещё один проект:
-
мы переносим в электронный вид
классическую литературу Бали,
-
она существует только в виде рукописей,
-
поэтому её не распознать.
-
Мы нашли множество балийцев,
чтобы их перепечатать,
-
и это превратилось
в замечательный культурный проект на Бали,
-
он получил огласку и всё такое.
-
По-моему,
-
программы распознавания текста
использовать необязательно,
-
но задач много.
-
Было бы неплохо иметь
хорошее ПО для распознавания текста.
-
И если тут кто-то без ума
от многоязычного распознавания текста,
-
то поговорите потом со мной.
-
(голос из зала 9) Спасибо вам за доклад.
-
Вы упоминали интеграцию
-
PanLex и Викиданных,
-
но в подробности не вдавались.
-
Я проверил лицензию ваших данных:
это СС0, то есть общественное достояние.
-
- Да.
- (голос из зала 9) Здорово!
-
И для интеграции есть два варианта:
-
мы можем или импортировать данные,
-
или сделать что-то похожее на то,
что мы делали с Freebase:
-
мы тогда получили
всю базу данных от Freebase,
-
импортировали её и создали ссылку,
-
внешний идентификатор
на базу данных Freebase.
-
Думаете ли вы о чём-то подобном?
-
Или вы просто хотите создать...
-
...независимую базу данных,
которая будет связана с Викиданными?
-
Да, прекрасный вопрос,
-
и мне кажется,
что это пока далеко идущие планы
-
по сравнению с теми вещами,
которые я уже обдумывал,
-
отчасти из-за того, как я уже сказал,
-
что настройка совместной работы
двух баз данных --
-
это уже сам по себе шаг.
-
Думаю, в качестве первого шага
-
мы можем объединить
наши знания и навыки.
-
У нас большой опыт
-
в классификации свойств отдельных лексем,
-
и я бы хотел им поделиться.
-
Но объединить две базы данных
было бы замечательно.
-
Я на 100% «за»!
-
Думаю, было бы проще,
-
связать именно Викиданные с PanLex,
-
но, может, тут я пристрастен,
ведь я представляю, как это получится.
-
Да, пока Викиданные согласны
-
со всем этим лицензированием...
Или же мы что-то придумаем,
-
но, думаю, это отличная идея.
-
Просто нужно понять, какими способами
можно связать сами данные.
-
Я могу представить только один вариант:
правки в Викиданных сразу загружаются
-
в базу данных PanLex,
-
чтобы не приходилось
-
подгружать их каждый...
-
Сделать на Викиданных интерфейс для PanLex
с возможностью краудсорсинга --
-
это было бы чудесно.
-
Возможность использовать PanLex
для мгновенных переводов,
-
возможность переводить
через лексические элементы Викиданных --
-
это было бы прекрасно.
-
(голос из зала 10) Получается,
что при проверке семантической сети
-
все дыры в ней закрываются
за счёт механизма логического вывода?
-
Если так подумать,
то как в таком методе перевода
-
вы решаете проблему
семантических несоответствий
-
и грамматических несоответствий?
-
Например, если вы попытаетесь перевести
что-то на немецкий,
-
то вы можете просто присоединить
пару слов друг к другу,
-
и у вас получится что-то осмысленное,
-
но, с другой стороны, я читал,
-
что не в каждом языке
-
есть одна и та же
система разделения цветов, например.
-
Вы говорите, что каждый язык
делит цвета по-разному?
-
Или одинаково?
-
(голос из зала 10) Наверное,
речь шла об эволюции языка:
-
они начали с белого и чёрного, а затем...
-
Да, цветовая иерархия!
-
Она хорошо показывает,
-
как это работает, да?
-
По сути, если у вас
есть один язык-посредник...
-
Так интересно бывает, когда читаешь статьи
по машинному переводу,
-
потому что иногда они говорят
о каком-то абстрактном языке-посреднике,
-
они говорят:
«Да, там есть язык-посредник»,
-
а потом ты читаешь и понимаешь:
«Это английский».
-
Этот способ пословного перевода
пропускает слово
-
через много разных языков-посредников.
-
Он даже может разрешать
семантическую неоднозначность.
-
Ведь пока вы пропускаете
слово через языки,
-
в которых есть
схожие семантические границы слова,
-
вы сможете избежать
-
появления неоднозначности
при переводе через язык-посредник.
-
Возьмём как пример цветовую иерархию:
-
если вы возьмёте язык, в котором
есть одно слово для зелёного и синего,
-
вам переведут это слово как «синий»
-
на ваш единственный язык-посредник,
-
а затем и на другой язык,
-
в котором будет
другое разделение цветов,
-
и, в конечном итоге, у вас возникнет
семантическая неоднозначность.
-
Но если пропустить слово
через множество языков,
-
в которых есть только один
лексический элемент для зелёного и синего,
-
тогда эта семантическая специфика
-
дойдёт и до целевого языка.
-
Что касается грамматических особенностей,
-
PanLex с самого начала,
прежде всего, собирал
-
лексемы и лексические формы.
-
И под этим я подразумеваю всё,
-
что вы можете взять
в качестве вокабулы в словаре.
-
И в данный момент мы особо не занимаемся
-
сбором грамматических форм слов,
-
вроде числа и тому подобного,
-
или форм прошедшего или настоящего.
-
Но мы этим интересуемся.
-
Всегда важно помнить,
-
что так как у нас в приоритете...
-
...малоиспользуемые и исчезающие
миноритарные языки,
-
мы хотим сделать всё,
чтобы хоть какие-то данные были доступны,
-
пока мы не сделаем всё идеально.
-
Мне так нравится высказывание:
-
«Не превращай лучшее во врага хорошего»,
-
и так мы и намерены поступать.
-
Мы крайне заинтересованы в том,
-
чтобы научиться обрабатывать
грамматические формы
-
и переводить через грамматические формы.
-
Мы уже проводили исследования,
-
но полностью это ещё не внедрили.
-
(голос из зала 11)
Полагаю, для всех этих 7 500 языков
-
вы используете словари,
написанные для нас,
-
но у всех ли этих языков есть
письменная форма?
-
И как вы тогда поступаете?..
-
Замечательный вопрос.
-
Да, многие из этих языков,
-
как вы прекрасно знаете, бесписьменные.
-
Любой язык, у которого есть словарь,
-
обладает какой-то орфографией,
-
и мы опираемся на орфографию,
использованную в словаре.
-
Иногда мы её слегка подправляем,
-
если можем гарантировать,
что язык ничего не потеряет.
-
Но мы стараемся избегать этого
насколько возможно.
-
Мы не занимаемся
-
разработкой орфографии для языков,
-
потому что порой она не разработана,
-
если на этих языках мало публикаций.
-
Например,
-
в Новой Гвинее есть много языков,
-
которые могут и не использовать
общепринятую орфографию,
-
но некоторые лингвисты кое-что придумали,
-
и это уже хорошее начало.
-
Мы также собираем транскрипции,
если они даются в словарях,
-
и это ещё один способ --
-
собирать транскрипции,
сделанные с помощью МФА,
-
если такие есть.
-
И их тоже можно использовать.
-
Но обычно мы такое не используем
для языка-посредника,
-
потому что это может вносить
неоднозначности.
-
(Голос из зала 12) Спасибо.
Может, это очень глупый вопрос,
-
но на слайде все языки-посредники,
с которыми вы работаете?
-
Нет, нет!
-
(голос из зала 12) Хорошо. Спасибо.
-
Нет, рад, что вы спросили,
это объясняет вопрос.
-
Это скриншот с translate.panlex.org.
-
Когда вы делаете перевод,
-
вы получаете список переводов справа.
-
Если вы кликните по кнопке dot dot dot,
то получите вот такой граф.
-
А здесь показаны языки-посредники,
-
топ-20 по расчётам --
-
я мог бы рассказать,
как мы это подсчитываем,
-
но это сейчас не так важно --
-
по числу наиболее используемых языков.
-
Но для перевода мы используем
гораздо больше 20 языков.
-
Я показал только 20 --
потому что если у вас их больше 20 --
-
на деле, это что-то вроде
физической симуляции,
-
вы можете их перемещать,
и они будут изгибаться.
-
Если их больше 20,
ваш компьютер с ума сойдёт.
-
Это просто для иллюстрации.
-
(голос из зала 13) Лейла,
из Фонда Викимедиа.
-
Небольшой комментарий...
-
Вы в своём докладе несколько раз
упоминали Фонд Викимедиа.
-
Если вы хотите вносить,
получать и обрабатывать данные
-
или сотрудничать с Викиданными,
-
может, Wikimedia Deutschland
лучше подойдёт
-
для обсуждения этого?
-
Потому что Викиданные --
это проект Wikimedia Deutschland,
-
и вся их команда там,
-
и сообщество волонтёров Викиданных --
-
идеальное место для обсуждения
-
любого рода обмена данными
-
или работой над сближением
PanLex и Викиданных.
-
Отлично, большое спасибо,
-
потому что я не особо знаком
-
со всеми тонкостями структуры того,
-
как все проекты взаимодействуют
друг с другом.
-
Судя по смешкам, всё довольно запутано.
-
Но мы бы хотели поговорить с теми,
-
кто отвечает за Викиданные.
-
Вы уж там разберитесь,
-
а мы очень хотим поговорить именно с теми,
кто отвечает за Викиданные,
-
а именно со всеми вами, волонтёрами!
-
Ещё вопросы?
-
Хорошо, если у кого-то будут
ещё вопросы помимо этих
-
или тех, на которые я отвечал, --
тонкости и особенности всех этих вещей, --
-
подойдите ко мне поговорить,
я буду очень рад.
-
Особенно, если вы работаете со всем,
что затрагивает лексические штуки,
-
всем, что затрагивает
исчезающие миноритарные языки
-
или малоиспользуемые языки,
-
а также Юникод,
им я тоже занимаюсь.
-
Спасибо вам большое,
-
и спасибо, что пригласили меня выступить,
-
надеюсь, вам всё понравилось.
-
(аплодисменты)