-
Качество данных
Панельная дискуссия
-
Клаудиа Мюллер-Бирн, Лукас Веркмейстер,
-
Хосе Эмилио Лабра Гайо,
Кристина Сарасуа, Андра
-
Приветствую всех на панельной дискуссии,
посвящённой качеству данных.
-
Качество данных имеет большое значение,
ведь всё больше и больше людей
-
полагаются на хорошее качество данных,
-
о чём мы сегодня и поговорим.
-
Будет четыре докладчика, которые выступят
с небольшими презентациями на темы,
-
связанные с качеством данных,
а далее будут вопросы и ответы.
-
Начнём с Лукаса.
-
Спасибо.
-
Привет, я Лукас,
и я начну с краткого обзора
-
инструментов качества данных,
которые уже имеются в Викиданных,
-
и тех, которые скоро появятся.
-
Я выделил несколько общих тем:
-
визуализация ошибок,
решаемость проблем,
-
больше внимания данным
с целью выявления проблем,
-
исправление общих источников ошибок,
-
обеспечение качества существующих данных,
-
а также курирование.
-
Что у нас есть сейчас?
-
Начнём с ограничения свойств.
-
Вы наверняка видели это,
когда заходили на Викиданные.
-
Иногда можно видеть эти иконки,
-
которые проверяют
внутреннюю согласованность данных.
-
Например, если одно событие
следует за другим,
-
то за другим должно последовать
и это событие,
-
элемент WikidataCon,
который, похоже, отсутствует.
-
Это появилось пару дней назад.
-
Если этого для вас недостаточно,
-
вы можете ввести любой запрос,
используя сервис запросов,
-
который, конечно,
полезен для многих вещей,
-
но также его можно использовать
для поиска ошибок.
-
Например, если вы заметили
какую-то ошибку,
-
вы можете проверить, есть ли ещё места,
-
где люди допустили похожие ошибки,
-
и найти их с помощью сервиса запросов.
-
Также можно совместить
эти два инструмента
-
и искать нарушения ограничений,
-
например, нарушения в какой-то области
-
или нужном вам Вики-проекте,
-
хотя результаты пока неполные,
к сожалению.
-
Оценивание правок.
-
Я думаю, это из последних изменений.
-
Также можете добавить в свой
список наблюдения автоматическую оценку:
-
сделана ли правка
с добрыми намерениями или нет,
-
нанесёт ли она ущерб или нет.
-
Думаю, здесь два направления.
-
Если хотите, вы можете
-
сосредоточиться на поиске правок
с добрыми намерениями,
-
наносящих ущерб.
-
Если вы дружелюбны и вежливы,
-
можете написать этим редакторам:
«Спасибо за ваш вклад,
-
вот, как это следует делать,
но всё равно спасибо».
-
Если вы не хотите так делать,
-
можно найти правки
с недобрыми намерениями,
-
наносящие ущерб,
-
и откатить их назад.
-
Подобно этому есть рейтинг сущностей.
-
Вместо оценивания правки,
последующего за ней изменения,
-
вы оцениваете ревизию в целом.
-
Я думаю, это такой же инструмент
измерения качества,
-
о котором говорила Лидия
в начале конференции.
-
Вот здесь скрипт, который ставит
оценку от одного до пяти.
-
Он оценивает качество текущего элемента.
-
Инструмент проверки
первичных источников предназначен
-
для любой базы данных,
которую вы хотите импортировать,
-
но качество её данных не настолько высоко,
чтобы напрямую добавлять её в Викиданные,
-
поэтому вы добавляете базу
в этот инструмент,
-
после чего люди могут решить,
-
добавлять или не добавлять
отдельные утверждения.
-
Отображение координат в виде карт --
-
в основном, функция для удобства,
-
но она также полезна
для контроля качества.
-
Например, если вы видите, что здесь
должен быть офис Викимедиа Германии,
-
а координаты
где-то в Индийском океане,
-
то вы понимаете, что это неверный адрес,
-
и вам легче это заметить,
чем если бы у вас были только цифры.
-
Этот инструмент -- индикатор
относительной полноты.
-
Вот эта маленькая иконка здесь,
-
которая сообщает, насколько полно
описан конкретный элемент,
-
и каких свойств не хватает.
-
Это очень полезно,
если вы редактируете элемент
-
и не очень ориентируетесь в данной сфере
-
и не знаете,
какие свойства нужно указывать,
-
тогда этот инструмент будет очень полезен.
-
Также мы используем
инструмент Shape Expressions.
-
Думаю, Андра или Хосе
расскажут об этом больше,
-
но, по сути, это очень мощный способ
сравнения имеющихся данных со схемой,
-
например, какое утверждение
-
должны иметь определённые сущности,
-
с какими сущностями
они должны быть связаны
-
и как должны выглядеть.
-
Таким образом вы сможете
находить проблемы.
-
Я думаю... Нет, ещё не всё.
-
Integraality, или панель свойств.
-
На ней видны данные,
которые у вас уже есть.
-
Например, эти данные
из Вики-проекта о красных пандах,
-
и вы видите,
-
что у большинства красных панд
известен пол,
-
дата рождения зависит от зоопарка,
-
и у нас почти нет погибших панд,
что замечательно,
-
(смех)
-
потому что они такие милые.
-
Так что это тоже полезно.
-
Теперь о том, что ожидается.
-
Wikidata Bridge,
ранее известный как client editing
-
для редактирования Викиданных
прямо из карточек Википедии.
-
Это, с одной стороны,
позволит лучше контролировать данные,
-
так как их сможет увидеть
большее число людей,
-
и, мы надеемся, будет способствовать
-
более частому использованию
Викиданных в Википедии,
-
и это значит, большее число людей
сможет заметить,
-
что, например, некоторые данные устарели
и должны быть обновлены,
-
чем если бы они видели эти данные
только в Викиданных.
-
Также есть испорченные ссылки.
-
Идея в том, что если вы редактируете
значение утверждения,
-
вы также можете обновить и ссылки,
-
если это не просто опечатка
или что-то ещё.
-
Эти испорченные ссылки
сигнализируют редакторам
-
и дают возможность увидеть,
какие другие правки были сделаны,
-
где отредактировали значение утверждения,
но не обновили ссылку,
-
и вы можете всё подредактировать
-
и решить, следует ли ещё что-то делать,
-
или всё в порядке,
и ссылку обновлять не нужно.
-
Перейдём к подписанным утверждениям.
-
Я думаю, это связано с тем опасением,
-
что некоторые источники данных...
-
Есть утверждение, на которое ссылаются,
например, через ЮНЕСКО
-
или какое-то другое учреждение,
-
а потом кто-то неожиданно
вносит вандальные правки,
-
и они переживают, что это будет выглядеть,
-
как будто организация,
например, ЮНЕСКО, принимает эти правки.
-
В случае с подписанными утверждениями,
-
они могут криптографически
подписать эту ссылку,
-
и это не помешает её редактированию,
-
но если кто-то внесёт в утверждение
вандальные правки
-
или любые другие,
подпись будет недействительна,
-
и это уже не совсем то,
что утверждает организация.
-
Возможно, это хорошая правка,
-
и нужно просто переподписать
новое утверждение,
-
но, возможно, правку следует отменить.
-
Думаю, это будет увлекательно.
-
Citoid -- удивительная система,
которая есть в Википедии,
-
где вы можете вставить URL,
идентификатор или ISBN
-
или идентификатор Викиданных,
в общем, что угодно в визуальный редактор,
-
и это трансформируется
в красиво отформатированную ссылку,
-
которая содержит все нужные вам данные,
и ей легко пользоваться.
-
Для сравнения, если я хочу
добавить ссылку в Викиданных,
-
я обычно должен добавить URL ссылки,
название, строку с именем автора,
-
место и дату публикации,
-
даты получения --
по крайней мере, всё это --
-
и это очень утомительно,
-
а интеграция Citoid в Викибазу
должна помочь в этом.
-
Думаю, у меня всё.
-
Сейчас передаю слово Кристине.
-
(аплодисменты)
-
Как можно улучшить
управление качеством данных?
-
Привет, я Кристина.
-
Я научный сотрудник
Цюрихского университета
-
и активный член
швейцарского Вики-сообщества.
-
Когда мы вместе с Клаудией Мюллер-Бирн
отправляли наш доклад на WikidataCon,
-
мы хотели продолжить обсуждение,
-
начатое в этом году
-
на семинаре по качеству данных,
а также на нескольких сессиях Викимании.
-
В своём выступлении мы, в основном,
поделимся некоторыми соображениями
-
как сообщества, так и нашими,
-
и продолжим обсуждение.
-
Нам хотелось бы и дальше
активно общаться с вами.
-
Мы считаем, что очень важно
-
постоянно спрашивать
всех пользователей сообщества
-
о том, что им действительно нужно,
какие у них проблемы с качеством данных,
-
не только редакторов
но и людей, которые пишут код,
-
либо пользуются данными,
-
а также исследователей,
которые фактически используют
-
всю историю редактирования
для анализа происходящего.
-
Мы сделали обзор
примерно 80-ти инструментов,
-
существующих в Викиданных,
-
и привели их в соответствие
с разными показателями качества данных.
-
Мы увидели, что на самом деле
-
многие инструменты
отслеживают полноту,
-
а также некоторые из них поддерживают
взаимосвязи между данными.
-
Есть потребность в инструментах,
оценивающих разнообразие данных --
-
то, что мы можем иметь в Викиданных,
-
в особенности, этот принцип
разработки Викиданных,
-
в котором мы можем иметь
множественность --
-
разные утверждения
с разными значениями
-
из разных источников.
-
Поскольку это вторичный источник,
у нас нет инструментов,
-
сообщающих, сколько существует
множественных утверждений,
-
сколько из них мы можем улучшить
и каким образом,
-
и мы также точно не знаем,
-
в чём причина этой множественности.
-
На этих собраниях сообщества
-
мы обсуждали проблемы,
всё ещё требующие внимания.
-
Например, краудсорсинговые сообщества --
-
это очень хорошо,
потому что разные люди работают
-
с разными частями данных или графа,
-
у всех людей разные
фундаментальные знания.
-
Но на самом деле
очень трудно достичь однородности,
-
потому что люди используют
разные свойства по-разному,
-
и у них разные ожидания
от описаний сущностей.
-
Люди также сказали,
что им нужно больше инструментов,
-
которые дают лучший обзор
глобального статуса сущностей,
-
показывают, каких сущностей не хватает
с точки зрения полноты,
-
а также над чем сейчас работают люди.
-
Они также многократно упоминают
более тесное сотрудничество
-
не только между разными языками,
но и Вики-проектами
-
и различным платформами Викимедии.
-
Мы опубликовали все комментарии,
которые услышали во время этих обсуждений.
-
Вы можете посмотреть их,
пройдя по ссылкам в Etherpad,
-
а также на странице Викимании.
-
Некоторые новые решения
-
заключались в обмене лучшими практиками,
-
которые реализуются
в разных Вики-проектах,
-
но также людям нужны инструменты,
помогающие организовать работу в командах
-
или, по крайней мере,
понять, кто над этим работает.
-
Также люди упоминали,
что они хотят больше примеров
-
и шаблонов, которые помогут в работе.
-
У нас есть контакты
-
с организациями открытых
государственных данных
-
и, в частности,
-
я поддерживаю контакты
с кантоном и городом Цюрих.
-
Они очень заинтересованы в Викиданных,
-
потому что хотят, чтобы их данные
были доступны для всех
-
в таком месте, где люди
могут ознакомиться c этими данными.
-
Для них было бы действительно интересно
-
иметь какие-то качественные показатели
-
как в Вики, они уже есть,
-
но и в результатах SPARQL,
-
чтобы знать, доверять ли данным,
полученным от сообщества.
-
Они также хотят знать,
-
какие из их наборов данных
полезны для Викиданных,
-
и чтобы был такой инструмент,
-
который поможет им
оценивать это автоматически.
-
Им также нужна
какая-то методология или инструмент,
-
который бы помог им решить,
-
импортировать свои данные
или связывать их с Викиданными,
-
поскольку в некоторых случаях
у них есть свои наборы
-
связанных открытых данных,
-
поэтому они не знают,
публиковать эти данные
-
или создавать в наборах данных
ссылки на Викиданные
-
и наоборот.
-
Они также хотят знать, какие элементы
Викиданных ссылаются на их сайты.
-
Когда они делают такой запрос,
-
он остаётся без ответа
с истёкшим временем ожидания,
-
поэтому, возможно, нам действительно
стоит создавать больше инструментов,
-
которые помогут им получить
ответы на их вопросы.
-
Кроме того,
-
нам, вики-исследователям,
-
тоже иногда не хватает информации
в описаниях изменений.
-
Я помню, что когда
мы делали какую-то работу,
-
чтобы понять различное поведение
-
редакторов, ботов
или анонимных пользователей
-
с помощью инструментов,
-
нам действительно не хватало, например,
-
стандартного способа отслеживания
использования этих инструментов.
-
Есть несколько инструментов,
которые уже делают это,
-
например, PetScan и многие другие,
-
но, возможно, в сообществе
мы должны больше обсуждать,
-
как фиксировать более точное
происхождение данных.
-
Далее, мы полагаем,
-
что нужно подумать о более конкретных
показателях качества данных,
-
относящихся к связанным данным,
а не ко всем типам данных,
-
поэтому мы разрабатываем комплекс мер
-
для получения доступа
к приросту информации по ссылкам,
-
подразумевая то,
-
что когда мы связываем
Викиданные с другими наборами данных,
-
мы также должны думать о том,
-
сколько сущностей
получается в классификации,
-
описании и в словарях,
которыми они пользуются.
-
Просто для примера, что я имею в виду:
-
в нашем случае это будут Викиданные
-
или внешний набор данных,
который ссылается на Викиданные.
-
У нас есть сущность для человека
по имени Наташа Ной,
-
у нас есть принадлежность и другие вещи,
-
а затем мы ссылаемся на внешний источник,
-
и эта сущность с таким же именем,
но значение одно и то же.
-
Лучше сослаться на сущность
с другим действительным именем,
-
потому что имя этого человека
может быть написано двумя способами,
-
а также на другую информацию,
отсутствующую в Викиданных
-
или других наборах данных.
-
Лучше даже то,
-
что мы рассматриваем целевой набор данных,
-
что также существуют новые способы
классификации информации.
-
Не только то, что это человек,
но в другом наборе данных
-
сообщается, что это женщина,
или другая информация,
-
с которой классифицируется сущность.
-
В другом наборе данных
используются другие словари,
-
и это помогает при поиске информации.
-
Мы также считаем,
-
что можем более наглядно представлять
федеративные запросы,
-
потому что по журналу запросов,
предоставленному Малышевым и др.,
-
мы видим, что на самом деле
среди органических запросов
-
число федеративных запросов
очень небольшое.
-
На самом деле, федерация является
-
одним из ключевых преимуществ
наличия связанных данных,
-
так что, возможно, сообществу или людям,
которые пользуются Викиданными,
-
тоже нужно больше примеров.
-
Если мы посмотрим на список
используемых точек доступа,
-
он будет неполным,
у нас есть намного больше.
-
Эти данные были проанализированы
по запросам до марта 2018 года,
-
но мы должны проверить список
имеющихся объединённых точек доступа
-
и посмотреть,
действительно ли мы их используем.
-
У меня есть два вопроса к зрителям,
-
которые, возможно, мы впоследствии
можем использовать для обсуждения:
-
какие, на ваш взгляд, проблемы
с качеством данных нужно рассмотреть,
-
учитывая ваши потребности,
-
а также, где вам нужно
больше автоматизации --
-
при редактировании или патрулировании?
-
Это всё, большое спасибо.
-
(аплодисменты)
-
WikidataCon 2019
Викиданные и языки
-
Визуализация схемы сущности
и авторские инструменты
-
(Хосе Эмилио Лабра) Я расскажу
о некоторых инструментах,
-
которые мы разработали,
-
связанных с Shape Expressions.
-
Об этом я буду говорить.
Меня зовут Хосе Эмилио Лабра.
-
Все эти инструменты
были разработаны разными людьми,
-
в основном все они связаны
с сообществом W3C ShEx,
-
или сообществом Shape Expressions.
-
Первый инструмент -- RDFShape,
это общий инструмент,
-
потому что Shape Expressions
используется не только для Викиданных,
-
это язык для проверки RDF в целом.
-
Этот инструмент был разработан
в основном мной,
-
и это инструмент для проверки RDF.
-
Если вы хотите узнать о RDF
или проверить RDF
-
или точки доступа SPARQL
не только в Викиданных,
-
я советую вам пользоваться
этим инструментом.
-
В том числе и для обучения.
-
Я преподаю в университете
-
и пользуюсь им для обучения RDF
в своём веб-курсе по семантике.
-
Если хотите изучать RDF,
это хороший инструмент.
-
Например, это визуализация RDF-графа
с помощью этого инструмента.
-
Но прежде чем приехать сюда,
в прошлом месяце
-
я специально начал использовать
RDFShape для работы с Викиданными.
-
Инструмент называется WikiShape,
и вчера я подарил его Викиданным.
-
Что я сделал?
-
Я удалил всё,
что не связано с Викиданными,
-
добавил кое-что жёстко закодированное,
-
например, точку доступа SPARQL.
-
Но теперь меня попросили
сделать это и для Викибазы.
-
Это очень легко.
-
Этот инструмент WikiShape
достаточно новый.
-
Я думаю, что многие его функции работают,
-
но некоторые, возможно, не работают,
-
и если вы попробуете его
и захотите что-то улучшить,
-
пожалуйста, сообщите мне.
-
Здесь у нас скриншоты [неразборчиво],
но давайте попробуем.
-
Давайте посмотрим, работает ли он.
-
Во-первых, я должен выйти из...
-
Здесь.
-
Хорошо. Вот этот инструмент.
-
С помощью него вы можете,
-
например, проверить схемы сущностей.
-
Например, существует новое
пространство имён, начинающееся с «Е»,
-
и здесь, если вы начнёте писать,
например, «человек»...
-
Когда вы пишете,
автозаполнение позволяет проверить,
-
например, существуют ли
выражения формы для людей,
-
и вот здесь появляются выражения формы.
-
Как видите, в этом редакторе
есть подсветка синтаксиса.
-
Возможно, экран очень маленький.
-
Попробую увеличить.
-
Может, сейчас лучше видно.
-
Это редактор с подсветкой синтаксиса.
-
Для редактора используется
тот же исходный код,
-
что и для службы запросов Викиданных.
-
Так, например,
если вы наведёте мышкой сюда,
-
он покажет вам метки разных свойств.
-
Я думаю, это очень полезно,
потому что сейчас,
-
схемы сущностей в Викиданных --
это просто текст,
-
и я думаю, этот редактор намного лучше,
потому что у него есть автозаполнение,
-
и он также имеет...
-
Если вы, например,
хотите добавить ограничение,
-
вы пишете wdt:,
-
а затем начинаете писать auth,
нажимаете Ctrl+Space,
-
и он предлагает разные варианты.
-
Это похоже на службу запросов Викиданных,
-
но специально для выражений формы.
-
Так как я думаю,
что создание выражений формы
-
не сложнее,
чем написание SPARQL-запросов.
-
Хотя некоторые думают,
что это примерно одинаково по сложности.
-
Я думаю, это проще,
потому что Shape Expressions
-
был создан с целью облегчить работу.
-
Первое, что у вас есть -- это редактор
-
для выражений формы.
-
Здесь есть возможность,
например, визуализации.
-
Если у вас есть какое-то
выражение формы, например...
-
Думаю, written work -- хороший пример,
-
поскольку в нём есть взаимосвязь
между разными сущностями.
-
Вот UML-визуализация для written work.
-
Здесь легко увидеть разные свойства.
-
Когда вы делаете это совместно
с несколькими людьми,
-
они находят ошибки
в своих выражениях формы,
-
потому что так можно легко найти
недостающие свойства.
-
Есть ещё одна возможность проверки,
-
кажется, у меня она вот здесь.
-
Это было на какой-то вкладке,
возможно, я закрыл её.
-
Но вы можете, например,
нажать Validate entities.
-
Например,
-
Q42 сравнить с E42, схемой для авторов.
-
Думаю, можно попробовать
со схемой для людей.
-
А потом...
-
Это SPARQL-запрос,
и он занимает какое-то время,
-
например, сейчас сбой в сети, но...
-
Вы можете попробовать.
-
Давайте расскажем о других инструментах.
-
Если хотите попробовать
и у вас есть предложения, дайте мне знать.
-
Продолжим презентацию.
-
Это WikiShape.
-
Как я уже говорил,
-
Редактор Shape Expressions --
независимый проект на GitHub.
-
Вы можете использовать его
в своём проекте.
-
Если хотите использовать
инструмент Shape Expressions,
-
вы можете просто встроить его
в любой другой проект,
-
его можно найти на GitHub,
и им можно пользоваться.
-
Тот же автор, один из моих учеников,
-
также создал редактор
для Shape Expressions,
-
вдохновившись
службой запросов Викиданных.
-
Этот редактор более наглядный
для SPARQL-запросов,
-
куда вы можете загрузить подобные вещи.
-
Это снимок экрана.
-
Как видите, выражения формы
здесь в виде текста.
-
Но здесь они на базе форм,
и, вероятно, потребуется больше времени,
-
но вы можете вставлять
разные строки в разные поля.
-
Это ShExEr.
-
Его сделал аспирант
Университета Овьедо,
-
он сегодня здесь,
и расскажет вам о ShExEr.
-
(Данни) Привет, я Данни Фернандес,
-
аспирант Университета Овьедо,
работаю с Лаброй.
-
У нас заканчивается время,
поэтому давайте ускоримся.
-
Я покажу несколько скриншотов
вместо всей презентации.
-
Обычный способ работы с Shape Expressions
или любым подобным языком:
-
есть специалист,
-
который определяет,
как должен выглядеть граф,
-
определяет структуры,
-
а затем вы используете эти структуры
для проверки фактических данных.
-
Инструмент, о котором рассказал Лабра, --
-
общего назначения
для любого RDF-источника,
-
и он может работать
в обратном направлении.
-
У вас уже есть некоторые данные,
-
вы выбираете узлы,
форму которых хотите получить,
-
а затем автоматически
извлекаете или выводите форму.
-
Несмотря на то, что это инструмент
общего назначения,
-
мы сделали волшебную кнопку
для этой конференции,
-
и если вы нажмёте на неё,
-
появятся параметры конфигурации,
-
и он настроит работу
с точкой доступа Викиданных,
-
простите, он скоро закончит.
-
После нажатия этой кнопки
вы, по сути, получаете это.
-
Выбрав необходимые вам узлы
-
или экземпляры класса,
-
что бы вы ни искали,
-
вы получите автоматическую схему.
-
Все ограничения отсортированы
по количеству узлов,
-
можно отфильтровать
наименее распространённые и так далее.
-
Внизу есть плакат об этом материале,
-
я буду на нижнем и верхнем этажах,
-
а также в других местах,
-
поэтому если у вас будет интерес
к этому инструменту,
-
просто обращайтесь ко мне.
-
Отдаю микрофон Лабре, спасибо.
-
(аплодисменты)
-
(Хосе) Давайте обсудим
другие инструменты.
-
ShapeDesigner -- ещё один инструмент.
-
Андра, хочешь рассказать о ShapeDesigner
-
или позже на семинаре?
-
Сегодня будет семинар,
посвящённый Shape Expressions,
-
мы попробуем его на практике,
-
так что если хотите попрактиковаться
с ShEx, то вам сюда.
-
Это инструмент ShEx.js,
-
и Эрик может рассказать о нём.
-
(Эрик) Расскажу очень быстро.
-
Вы, вероятно, уже видели интерфейс ShEx,
-
заточенный под Викиданные.
-
Его сократили и адаптировали
специально под Викиданные
-
потому что в нём больше возможностей,
-
но я, кажется, говорил об этом,
-
потому что одна из этих функций
особенно полезна
-
для отладки схем Викиданных.
-
Если вы выбираете полный режим,
-
то пока я буду проводить проверку
-
всех этих триплетов,
-
и если я получу множество ошибок,
-
я могу пройтись по этим ошибкам
-
и посмотреть, какие триплеты здесь, внизу.
-
Это просто журнал того,
как всё происходило.
-
Затем можете поиграть с этим,
-
чтобы поменять что-либо.
-
Это более быстрая версия
того, как это сделать.
-
Это форма ShExC --
-
то, что предлагал Йохим,
-
что может быть полезно
для заполнения документов Викиданных
-
на основе выражения формы
для этого документа.
-
Она не адаптирована под Викиданные.
-
Я просто показываю,
что можно взять схему,
-
сделать аннотации,
-
чтобы конкретно указать,
какую схему вы хотите,
-
потом просто создать форму
-
и, если у вас есть данные,
можно заполнить форму.
-
PyShEx [неразборчиво].
-
(Хосе) Думаю, это последний инструмент.
-
Да, это PyShEx.
-
PyShEx -- это Shape Expressions,
реализованный на Python,
-
он совместим с Jupyter Notebooks.
-
Итак, это всё.
-
(аплодисменты)
-
(Андра) Итак, я расскажу
о конкретном проекте,
-
в котором участвую -- Gene Wiki,
-
и в котором мы тоже занимаемся
вопросами качества.
-
Прежде чем говорить о качестве,
-
я кратко расскажу вам о Gene Wiki.
-
Мы только что выпустили
предварительную версию статьи,
-
в которой описаны детали проекта.
-
Я вижу, люди фотографируют...
-
Gene Wiki публикует в Викиданных
-
общедоступные биомедицинские данные,
-
используя для этого определённый шаблон.
-
Если у нас появляется
новое хранилище или набор данных,
-
который можно включить Викиданные,
-
первый шаг -- вовлечение сообщества.
-
Необязательно сообщества Викиданных,
-
но местного исследовательского сообщества.
-
Мы встречаемся лично,
онлайн или на любой платформе
-
и пробуем придумать модель данных,
-
которая соединит их данные
с моделью Викиданных.
-
Вот фотография прошлогоднего семинара,
-
на котором мы анализировали
определённый набор данных,
-
и как видите, было много обсуждений,
-
затем приведение его
в соответствие с schema.org
-
и другими существующими онтологиями.
-
В конце первого шага
у нас на доске появился чертёж схемы,
-
которую мы хотим добавить в Викиданные.
-
Вы видите, она несложная,
-
на заднем плане,
-
и мы можем построить какие-то схемы
даже здесь, в рамках этой дискуссии.
-
Если у нас есть схема,
-
следующий шаг -- попытаться сделать
эта схему машиночитаемой,
-
чтобы иметь работающие модели
для переноса внешних данных
-
из любой медико-биологической
базы данных в Викиданные.
-
Здесь мы применяем
инструмент Shape Expressions,
-
поскольку он позволяет проверить,
-
является ли набор данных...
Сначала увидеть,
-
что уже существующие данные в Викиданных
следуют той же модели данных,
-
которая была получена
в предыдущих процессах.
-
С помощью Shape Expressions
мы можем проверить,
-
требуется ли корректировка данных
по этой теме в Викиданных,
-
нужно ли адаптировать нашу модель
к модели Викиданных или наоборот.
-
Как только всё на месте,
мы начинаем писать ботов,
-
а боты загружают информацию
-
из первоисточников в Викиданные.
-
Когда боты готовы,
-
а мы пишем их на платформе
WikidataIntegrator,
-
используя библиотеку Python,
-
которая появилась
в результате нашего проекта.
-
Когда боты написаны,
мы используем платформу Jenkins
-
для непрерывной интеграции.
-
С помощью Jenkins
-
мы постоянно обновляем
первоначальные источники с Викиданными.
-
Вот диаграмма, о которой я говорил ранее.
-
Это её текущий вид.
-
Оранжевые прямоугольники --
первоисточники медикаментов,
-
белков, генов, заболеваний,
химических соединений, со взаимосвязями,
-
но её невозможно прочитать сейчас,
поскольку она слишком маленькая,
-
но это база данных, источниками которых
мы управляем в Викиданных
-
и соединяем с первоисточниками.
-
Так выглядит наш рабочий процесс.
-
Один из наших партнёров --
онтология заболеваний.
-
Онтология заболеваний имеет лицензию CC0,
-
и такая онтология
имеет свой цикл курирования.
-
Онтология заболеваний
постоянно обновляется,
-
чтобы отразить базу заболеваний
или их объяснение.
-
Здесь изображён цикл курирования
Викиданных по заболеваниям,
-
где сообщество постоянно следит за тем,
что происходит с Викиданными.
-
Есть две роли.
-
Мы упрощённо называем их
хранитель-куратор,
-
и это были я и мой коллега пять лет назад.
-
Мы просто сидели за компьютерами
и мониторили Википедию и Викиданные,
-
и если была проблема, мы сообщали о ней
первоначальному сообществу,
-
первоначальным источникам,
они смотрели на реализацию и решали,
-
доверять ли данным,
введённым в Викиданные.
-
Если да, начинался цикл
-
и следующий шаг --
часть онтологии заболеваний
-
возвращалась в Викиданные.
-
Для WikiPathways мы делаем то же самое.
-
WikiPathways -- база данных
биологических путей,
-
вдохновлённая MediaWiki.
-
В Викиданных уже существуют
различные источники путей.
-
Между ними могут возникать конфликты,
-
и хранителям-кураторам
сообщается об их возникновении,
-
и вы управляете индивидуальными
циклами курирования.
-
Но если вы помните предыдущий цикл,
-
где речь велась
только о двух циклах, двух ресурсах,
-
нам нужно делать это
для каждого имеющегося ресурса
-
и нужно управлять происходящим,
-
потому что под курированием
-
я подразумеваю постоянное отслеживание
страниц Википедии и Викиданных.
-
Такая работа явно не для двух
хранителей-кураторов.
-
На конференции в 2016 году,
-
когда Эрик рассказывал
о Shape Expressions,
-
я присоединился, и подумал,
-
что Shape Expressions может помочь
выявить различия в Викиданных,
-
которые помогут хранителям
делать более подробные отчёты.
-
В этом году я был в восторге
от схемы сущности,
-
потому что теперь мы можем хранить
эти схемы в Викиданных,
-
до этого мы хранили их на GitHub.
-
Схема согласуется
с интерфейсом Викиданных,
-
здесь есть обсуждение документа,
-
но также доступны правки.
-
Вы можете пользоваться
первыми страницами
-
и правками в Викиданных,
-
чтобы обсуждать то,
что имеется в Викиданных
-
и первоначальных источниках.
-
Эрик уже об этом говорил,
это очень помогает.
-
Мы создали выражение формы
для гена человека,
-
потом пропустили его через ShEx,
как вы видите,
-
мы получили...
-
Есть один элемент,
за которым нужно следить, --
-
он не вписывается в эту схему,
-
и затем вы можете создать
сущности схемы, отчёты курирования,
-
и отправить их в разные отчёты.
-
Но ShEx -- это встроенный интерфейс,
-
и здесь я смогу показать только десять,
-
но у нас десятки тысяч,
и они несоизмеримы.
-
Интегратор Викиданных
теперь поддерживает ShEx,
-
и мы просто можем замкнуть
петли элементов,
-
указав «да-нет, да-нет,
правда-ложь, правда-ложь».
-
снова,
-
повышая эффективность
при составлении отчётов.
-
Но с недавних пор он строится
на сервисе запросов Викиданных,
-
мы недавно регулировали
количество запросов,
-
и это тоже несоизмеримо.
-
Работа с моделями на Викиданных --
непрерывный процесс.
-
ShEx не только пугает,
-
но он ещё и громоздкий.
-
Я начал работать,
-
это мой первый эксперимент или упражнение,
-
где был использован инструмент yEd,
-
и затем я начал отрисовывать
эти выражения формы,
-
и потом регенерировать эту схему
-
в формат, близкий к Shape Expressions,
-
понятный людям,
-
которых слишком пугает
язык Shape Expressions.
-
Но есть проблема с визуальным описанием,
-
потому что это также схема,
кем-то нарисованная в yEd.
-
Вот ещё одна, замечательная.
-
Я бы такую себе на стену повесил,
-
но она пока несовместима.
-
Хочу завершить своё выступление слайдом,
-
который я позаимствовал.
-
Для меня честь показать его аудитории.
-
Он мне очень нравится:
-
«Люди думают, что RDF -- это боль
из-за его сложности.
-
Но на самом деле всё ещё хуже.
-
RDF очень прост, но он позволяет работать
с реальными данными
-
и невероятно сложными проблемами.
-
Можно избежать использования RDF,
-
но вряд ли получится избежать
сложных данных и компьютерных проблем».
-
Речь об RDF, но, я думаю,
подходит под моделирование в целом.
-
Мой вопрос -- должны ли мы...
-
Как мы будем моделировать?
-
Поговорим о ShEx,
или визуальных моделях, или...
-
Как нам продолжить?
-
Спасибо за уделённое время.
-
(аплодисменты)
-
(Лидия) Спасибо большое.
-
Можете выйти вперёд,
-
чтобы аудитория могла задать вопросы.
-
Есть вопросы?
-
Да.
-
Думаю, для камеры нужно, чтобы...
-
(Лидия смеётся) Да.
-
(голос из зала 1) Вопрос Кристине, думаю.
-
Вы упоминали термин «прирост информации»
-
от объединения с другими системами.
-
Существует информационно-теоретический
показатель -- прирост информации,
-
основанный на статистике и вероятности.
-
Вы имели в виду именно этот показатель?
-
Прирост информации
на основе теории вероятности,
-
теории информации,
-
или просто такая концептуальная идея
для измерения прироста информации?
-
Нет, мы действительно
определили и применили показатели,
-
используя энтропию Шеннона,
поэтому смысл именно такой.
-
Не хочу вдаваться в детали
конкретных формул...
-
(голос из зала 1) Нет, конечно,
поэтому и прозвучал вопрос.
-
- (Кристина) Да.
- (голос из зала 1) Спасибо.
-
(голос из зала 2) Это больше
комментарий, нежели вопрос.
-
(Лидия) Да, конечно.
-
(голос из зала 2) Акцент был на элементах,
-
на их качестве и полноте,
-
но меня беспокоит,
что мы не применяем это к иерархиям,
-
и наша частая проблема -- плохая иерархия.
-
Мы видим, что это становится
реальной проблемой
-
при обычным поиске и других вещах.
-
Мы можем импортировать способ,
-
по которому внешние тезаурусы
выстраивают свои иерархии,
-
используя квалификатор P4900,
более широкое понятие.
-
Но я думаю, для этого есть
более подходящие инструменты,
-
и вы сможете импортировать
иерархию внешнего тезауруса,
-
отобразить её на элементы Викиданных.
-
И связав её с этими квалификаторами P4900,
-
вы можете делать
хорошие запросы через SPARQL,
-
чтобы увидеть, где наша иерархия
расходится с внешней.
-
Например, вы можете знать
[Паолу Морма], под псевдонимом PKM,
-
этот пользователь
создаёт много статей о моде.
-
Мы включаем их в иерархию
тезауруса европейской моды
-
и в иерархию тезауруса
искусства и архитектуры,
-
а потом мы видим, какие пробелы
были в элементах более высокого уровня.
-
Для нас это реальная проблема,
потому что часто попадаются вещи,
-
которые существуют в Википедии
только как страницы значений,
-
многие элементы более высокого уровня
отсутствуют в наших иерархиях,
-
и мы должны рассмотреть это
с точки зрения качества и полноты,
-
но что действительно поможет,
станет лучшим инструментом,
-
чем те дебри скриптов, написанных мной, --
-
если бы кто-то поместил это
в PAWS notebook на Python,
-
чтобы можно было извлечь
внешний тезаурус, взять его иерархию,
-
которая может быть доступна
как связанные данные или же нет,
-
чтобы поместить это в QuickStatements,
чтобы вставить значения P4900.
-
Затем позже,
-
когда наше представление
станет более сложным,
-
обновить эти значения P4900,
потому что добавляются данные,
-
представление становится
более комплексным,
-
значения этих квалификаторов нужно менять,
-
чтобы показать, что в нашей системе
всё больше их иерархии.
-
Если бы кто-то мог сделать это,
думаю, это было бы очень полезно,
-
и мы должны рассмотреть
и другие подходы
-
для улучшения качества и полноты
на уровне иерархии,
-
а не только на уровне элемента.
-
(Андра) Могу я кое-что добавить?
-
Да, и мы это делаем,
-
и я рекомендую посмотреть
на выражение формы, которое сделал Финн
-
с лексическими данными,
-
где он создаёт выражения формы,
-
а затем опирается
на другие выражения формы,
-
так получается концепция
связанных выражений формы в Викиданных.
-
В частности, пример использования,
если я правильно понимаю --
-
это именно то, что мы делаем в Gene Wiki.
-
Есть онтология заболеваний,
которая помещена в Викиданные,
-
а затем поступают данные о заболевании,
и мы применяем Shape Expressions,
-
чтобы посмотреть,
соответствуют ли данные тезаурусу.
-
Есть и другие тезаурусы или другие
онтологии или контролируемые словари,
-
которые ещё должны войти в Викиданные,
-
и именно поэтому инструмент
Shape Expressions так интересен --
-
вы можете применять его
для онтологии заболеваний,
-
для MeSH.
-
Теперь вам нужно проверить качество.
-
Потому что в Викиданных
также есть контекст,
-
когда у вас есть контролируемый словарь,
вы считаете, что качество соответствует,
-
но могут быть случаи,
когда сообщество не согласно.
-
Инструмент уже есть,
но теперь нужно создать эти модели
-
и применять их для разных случаев.
-
(голос из зала 2)
Shape Expressions очень полезен,
-
если у вас уже есть внешняя онтология,
которая отображается в Викиданных,
-
но моя проблема в том,
что всё доходит до той стадии,
-
когда выясняется, какой части
внешней онтологии ещё нет в Викиданных,
-
и где есть пробелы,
-
и, я думаю, в этом случае иметь
более надёжные инструменты,
-
чтобы увидеть, чего не хватает
из внешних онтологий,
-
было бы очень полезно.
-
Самая большая проблема
-
не в инструментах, а в лицензировании.
-
Поместить онтологии в Викиданные
на самом деле очень просто,
-
но большинство онтологий имеют,
как я это вежливо называю,
-
ограниченное лицензирование,
поэтому они не совместимы с Викиданными.
-
(голос из зала 2) Есть множество
тезаурусов из государственного сектора
-
в сфере культуры.
-
- (Андра) Тогда нам нужно поговорить.
- (голос из зала 2) Это не проблема.
-
(Андра) Тогда поговорим.
-
(голос из зала 3) Мой комментарий --
на самом деле ответ Джеймсу.
-
Дело в том, что из иерархий
получаются графы,
-
и когда ты хочешь...
-
Я хочу в основном поговорить
об общей проблеме в иерархиях --
-
о циклических иерархиях,
-
они возвращаются друг к другу,
когда есть проблема,
-
которой в иерархиях не должно быть.
-
Это, как ни странно,
часто встречается в категориях Википедии
-
у нас много циклов в категориях,
-
но хорошая новость в том, что это...
-
Технически, это NP-полная задача,
-
и вы не можете найти её,
-
но легко найдёте, построив граф.
-
Но было разработано много способов
-
для нахождения проблем
в этих иерархических графах.
-
Есть такая статья...
-
о разрыве циклов в искажённых иерархиях,
-
и перечисленные в ней методы помогли
при категоризации английской Википедии.
-
Вы можете просто применять
эти иерархии в Викиданных,
-
а затем найти
-
и просто удалить то,
что вызывает проблемы,
-
и на самом деле найти проблемы.
-
Это просто идея.
-
(голос из зала 2)
Это всё очень хорошо,
-
но я думаю, вы недооцениваете количество
плохих связей между подклассами,
-
которые у нас имеются.
-
Это как город, который находится
совершенно не в той стране,
-
при том, что существуют
географические инструменты
-
для определения этой проблемы.
-
Нам в иерархиях нужны
более эффективные инструменты,
-
которые смогут определить,
где эквивалент элемента для страны
-
полностью отсутствует,
или где он является подклассом чего-то,
-
не имеющего к нему отношения.
-
(Лидия) Я думаю, вы подобрались к тому,
-
что мы с моей командой
постоянно слышим от людей,
-
которые многократно
используют наши данные.
-
Отдельная точка данных -- это отлично,
-
но если вам нужно посмотреть
на онтологию и так далее,
-
то становится очень...
-
Я думаю, одна из больших проблем,
почему это происходит --
-
множество правок в Викиданных
-
касаются отдельного элемента,
-
вы редактируете этот элемент,
-
не понимая, что это может привести
к глобальным последствиям
-
для остальной части графа, например.
-
Если у людей есть идеи,
как сделать более заметными
-
последствия таких индивидуальных
локальных правок,
-
думаю, что их стоит изучить,
-
чтобы лучше показать людям
последствия их правок,
-
сделанных с добрыми намерениями,
-
какие они.
-
Ого! Хорошо, давайте начнём с вас,
потом вы, потом вы, затем вы.
-
(голос из зала 4) После обсуждения,
-
просто чтобы выразить своё согласие
с тем, что говорил Джеймс.
-
По сути, кажется,
что самая опасная вещь -- иерархия,
-
не иерархия, но в целом
-
семантика связей
между подклассами в Викиданных.
-
Я недавно изучал языки,
только для этой конференции,
-
и, например, я нашёл много случаев,
-
когда язык является одновременно
и частью и подклассом одного и того же.
-
Можно сказать, что у нас гибкая онтология.
-
Викиданные дают свободу выражения.
-
Потому что, например,
-
эта онтология языков сложна
с политической точки зрения.
-
Даже хорошо иметь возможность
выразить уровень неопределённости.
-
Но представьте, как к этому
применить машинное чтение.
-
Действительно проблематично.
-
И опять же,
-
я не думаю, что онтология
была импортирована откуда-либо.
-
Она изначально наша.
-
Она с самого начала собрана из Википедии.
-
Так что мне интересно...
Shape Expressions -- отличный инструмент,
-
который проверяет и исправляет
онтологию Википедии
-
с помощью внешних ресурсов,
прекрасная идея.
-
В конце концов,
-
получится ли у нас отразить
внешние онтологии в Викиданных?
-
А также, что мы делаем
с основной частью нашей онтологии
-
которая никогда не собирается
из внешних ресурсов,
-
как нам исправить её?
-
Я действительно думаю,
что это само по себе будет проблемой.
-
Мы должны сосредоточиться на этом
независимо от идеи проверки онтологии
-
с помощью внешнего ресурса.
-
(голос из зала 5) Ограничения
и формы очень впечатляют,
-
то, что мы можем сделать с ними,
-
но главный момент
до сих пор не совсем понятен --
-
поскольку теперь мы можем более чётко
сформулировать, чего ожидаем от данных.
-
Сначала каждый должен написать
свои инструменты и скрипты,
-
сделать их более наглядными,
и мы сможем обсудить это.
-
Но речь не о том, что верно, а что нет,
-
а об ожиданиях,
-
и у вас будут разные ожидания и обсуждения
-
того, как моделировать в Викиданных.
-
Текущее состояние --
лишь один шаг в этом направлении,
-
потому что теперь нужно
-
привлечь много технических знаний,
-
и нам нужны лучшие способы
визуализации этого ограничения,
-
возможно, преобразование его
в более понятный людям язык,
-
но в меньшей степени здесь речь о том,
что верно, а что нет.
-
(Лидия) Да.
-
(голос из зала 6) По поводу качества,
хочу уточнить...
-
Я часто сталкивался с разногласиями,
-
связанными с разницей между
экземпляром и подклассом.
-
Я бы сказал, ошибки в таких ситуациях
-
и попытки найти их
были очень трудоёмким процессом.
-
То, к чему я пришёл:
-
«Если найти впечатляющие элементы, важные,
-
и затем использовать
все экземпляры подкласса,
-
чтобы найти все производные
этого утверждения», --
-
это очень полезный способ
поиска ошибок.
-
Но мне было интересно,
-
можно ли использовать Shape Expressions
-
в качестве инструмента
для решения таких проблем?
-
(голос из зала 7)
Имеет ли структурный след ...
-
Если имеется структурный след,
который может быть сфальсифицирован,
-
можно решить, что это неправильно,
-
а потом сделать это.
-
Но если это просто попытка сопоставления
с объектами реального мира,
-
то вам потребуется очень много «мозгов».
-
(голос из зала 8) Привет,
я Пабло Мендес из Apple Siri Knowledge.
-
Мы здесь, чтобы узнать,
как помочь проекту и сообществу,
-
но Кристина совершила ошибку,
спросив, чего мы хотим.
-
(смеётся) Думаю, одна вещь,
которую хотелось бы увидеть,
-
связана с возможностью проверки --
-
одним из основных принципов
проекта в сообществе,
-
а также с доверием.
-
Не все утверждения одинаковы,
некоторые из них серьёзно оспариваются,
-
некоторые легко предположить,
-
например, чью-либо дату рождения
можно проверить,
-
как вы видели сегодня в основном докладе,
гендерные проблемы намного сложнее.
-
Можете ли вы немного
рассказать о том, что вы знаете
-
о доверии и проверках --
этих аспектах качества данных?
-
Если этого не много,
хотелось бы намного больше. (смеётся)
-
(Лидия) Да.
-
Как выяснилось,
нам нечего сказать. (смеётся)
-
(Андра) Я думаю, мы можем сделать многое,
но у нас с вами вчера была дискуссия.
-
Мой любимый пример,
как я выяснил вчера, уже устарел.
-
Если вы зайдёте
на страницу элемента Q2, это Земля,
-
там есть утверждение, что Земля плоская.
-
Я люблю этот пример,
-
потому что есть сообщество,
которое это утверждает,
-
и у них есть достоверные источники.
-
Так что я думаю, это реальный случай,
-
его не нужно оспаривать,
он должен быть в Викиданных.
-
Я думаю, здесь Shape Expressions
может быть действительно полезен,
-
потому что вам действительно
может быть интересен этот прецедент,
-
или этот вариант использования,
с которым вы не согласны,
-
но может быть и такой
случай применения,
-
который вас заинтересует.
-
Например, глюкоза.
-
Биологу не интересно
-
строение молекулы глюкозы,
-
для него вся глюкоза одинаковая.
-
Но химика подобное покоробит,
-
существует 200 с лишним...
-
Когда у вас есть разные выражения формы,
-
я могу их применить с точки зрения химика.
-
А с точки зрения биолога
-
я применяю другое выражение формы.
-
А если вы хотите сотрудничать,
-
вы должны сказать Эрику о картах ShEx.
-
Но это только начало пути.
-
Но я лично верю,
что это весьма полезно для этой области.
-
(Лидия) Вон там.
-
(смех)
-
(голос из зала 9) У меня несколько идей
по некоторым моментам обсуждения,
-
постараюсь озвучить все.
Было три идеи, так что...
-
Основываясь на том, что Джеймс сказал
некоторое время назад,
-
у Викиданных с самого начала
была очень большая проблема
-
в онтологии вышестоящего уровня.
-
Мы говорили об этом
два года назад на WikidataCon,
-
и мы говорили об этом на Викимании.
-
На всех встречах по Викиданным
-
мы говорим об этом,
-
потому что это очень большая проблема
на очень высоком уровне --
-
что такое сущность, работа,
что такое жанр, искусство, --
-
все эти понятия очень важны.
-
И на самом деле это слабое место
глобальной онтологии,
-
потому что люди регулярно наводят порядок
-
и тем самым всё ломают.
-
Некоторые из вас помнят парня,
который из добрых намерений
-
«сломал» все города мира.
-
Элементы стали не географическими,
везде были нарушения ограничений.
-
Это было сделано из добрых побуждений,
-
ведь он действительно
исправлял ошибку в элементе,
-
но всё сломалось.
-
Я не уверена, как мы можем решить это,
-
поскольку нет ни одного
внешнего учреждения,
-
у которого мы могли бы скопировать,
-
потому что все работают...
-
Если я работаю с базой данных
исполнительского искусства,
-
я просто перейду на уровень
исполнительского искусства,
-
я не буду переходить
к философской концепции сущности,
-
и это, на самом деле...
-
Я не знаю ни одной базы данных,
работающей на этом уровне,
-
но это самое слабое место Викиданных.
-
Вероятно, когда мы говорим
о качестве данных,
-
это является важным аспектом.
-
Я думаю, это то же самое,
что мы заявили...
-
Простите, я меняю тему,
-
но на разных сессиях
мы говорили о качестве.
-
На самом деле некоторые из нас
могут хорошо моделировать,
-
работают с ShEx и так далее.
-
Люди не видят этого в Викиданных,
они не видят ShEx,
-
они не видят Вики-проект
на странице обсуждения,
-
и иногда
-
они даже не видят
страницы обсуждения свойств,
-
которые чётко заявляют,
для чего используется конкретное свойство.
-
Например, на прошлой неделе,
я добавила ограничение для свойства.
-
Ограничение было чётко прописано
-
в обсуждении создания свойства.
-
Я просто добавила ограничение,
а кто-то возмутился:
-
«Что? Ты сломала все мои правки!»
-
Последние два года человек использовал
это свойство неправильно.
-
Свойство было очень чёткое,
но не было никаких предупреждений,
-
как и в Pink Pony,
-
мы также сказали на Викимании,
что хотим делать Вики-проекты
-
более наглядными,
делать ShEx более наглядным, но...
-
Это то, что сказала Кристина.
-
У нас проблема с визуализацией
существующих решений.
-
На этой сессии
-
мы все говорим о том,
как создать больше выражений формы,
-
или облегчить работу редакторов.
-
Но мы наводим порядок
с первого дня существования Викиданных,
-
и, на глобальном уровне, мы проигрываем,
-
поскольку, насколько я знаю,
имена сложные,
-
но я единственная, кто их редактирует.
-
Кто-то добавил имя на латинице
-
всем китайским исследователям --
-
мне понадобятся месяцы,
чтобы убрать это, и сама я не справлюсь,
-
а он сделал массовую выгрузку.
-
Проблем с визуализацией больше,
чем с инструментами, я думаю,
-
поскольку у нас много инструментов.
-
(Лидия) К сожалению,
мне дали знак, (смеётся),
-
поэтому нам нужно заканчивать.
-
Большое спасибо за ваши комментарии,
-
надеюсь, вы продолжите обсуждение позже,
-
и спасибо за ваш вклад.
-
(аплодисменты)
-
WikidataCon 2019
Викиданные и языки