Return to Video

cdn.media.ccc.de/.../wikidatacon2019-9-eng-Data_quality_panel_hd.mp4

  • 0:00 - 0:02
    Качество данных
    Панельная дискуссия
  • 0:02 - 0:04
    Клаудиа Мюллер-Бирн, Лукас Веркмейстер,
  • 0:04 - 0:06
    Хосе Эмилио Лабра Гайо,
    Кристина Сарасуа, Андра
  • 0:06 - 0:09
    Приветствую всех на панельной дискуссии,
    посвящённой качеству данных.
  • 0:10 - 0:14
    Качество данных имеет большое значение,
    ведь всё больше и больше людей
  • 0:14 - 0:17
    полагаются на хорошее качество данных,
  • 0:17 - 0:19
    о чём мы сегодня и поговорим.
  • 0:21 - 0:27
    Будет четыре докладчика, которые выступят
    с небольшими презентациями на темы,
  • 0:27 - 0:30
    связанные с качеством данных,
    а далее будут вопросы и ответы.
  • 0:30 - 0:32
    Начнём с Лукаса.
  • 0:34 - 0:35
    Спасибо.
  • 0:36 - 0:40
    Привет, я Лукас,
    и я начну с краткого обзора
  • 0:40 - 0:44
    инструментов качества данных,
    которые уже имеются в Викиданных,
  • 0:44 - 0:46
    и тех, которые скоро появятся.
  • 0:47 - 0:51
    Я выделил несколько общих тем:
  • 0:51 - 0:54
    визуализация ошибок,
    решаемость проблем,
  • 0:54 - 0:56
    больше внимания данным
    с целью выявления проблем,
  • 0:57 - 1:00
    исправление общих источников ошибок,
  • 1:00 - 1:03
    обеспечение качества существующих данных,
  • 1:03 - 1:04
    а также курирование.
  • 1:05 - 1:08
    Что у нас есть сейчас?
  • 1:08 - 1:10
    Начнём с ограничения свойств.
  • 1:10 - 1:13
    Вы наверняка видели это,
    когда заходили на Викиданные.
  • 1:13 - 1:14
    Иногда можно видеть эти иконки,
  • 1:15 - 1:17
    которые проверяют
    внутреннюю согласованность данных.
  • 1:17 - 1:21
    Например, если одно событие
    следует за другим,
  • 1:21 - 1:24
    то за другим должно последовать
    и это событие,
  • 1:24 - 1:27
    элемент WikidataCon,
    который, похоже, отсутствует.
  • 1:27 - 1:30
    Это появилось пару дней назад.
  • 1:30 - 1:35
    Если этого для вас недостаточно,
  • 1:35 - 1:38
    вы можете ввести любой запрос,
    используя сервис запросов,
  • 1:38 - 1:40
    который, конечно,
    полезен для многих вещей,
  • 1:40 - 1:45
    но также его можно использовать
    для поиска ошибок.
  • 1:45 - 1:47
    Например, если вы заметили
    какую-то ошибку,
  • 1:47 - 1:50
    вы можете проверить, есть ли ещё места,
  • 1:50 - 1:52
    где люди допустили похожие ошибки,
  • 1:52 - 1:53
    и найти их с помощью сервиса запросов.
  • 1:53 - 1:55
    Также можно совместить
    эти два инструмента
  • 1:55 - 1:58
    и искать нарушения ограничений,
  • 1:58 - 2:01
    например, нарушения в какой-то области
  • 2:01 - 2:04
    или нужном вам Вики-проекте,
  • 2:04 - 2:07
    хотя результаты пока неполные,
    к сожалению.
  • 2:08 - 2:10
    Оценивание правок.
  • 2:11 - 2:13
    Я думаю, это из последних изменений.
  • 2:13 - 2:16
    Также можете добавить в свой
    список наблюдения автоматическую оценку:
  • 2:16 - 2:20
    сделана ли правка
    с добрыми намерениями или нет,
  • 2:20 - 2:22
    нанесёт ли она ущерб или нет.
  • 2:22 - 2:24
    Думаю, здесь два направления.
  • 2:24 - 2:26
    Если хотите, вы можете
  • 2:26 - 2:28
    сосредоточиться на поиске правок
    с добрыми намерениями,
  • 2:28 - 2:30
    наносящих ущерб.
  • 2:30 - 2:33
    Если вы дружелюбны и вежливы,
  • 2:33 - 2:37
    можете написать этим редакторам:
    «Спасибо за ваш вклад,
  • 2:37 - 2:41
    вот, как это следует делать,
    но всё равно спасибо».
  • 2:41 - 2:42
    Если вы не хотите так делать,
  • 2:42 - 2:44
    можно найти правки
    с недобрыми намерениями,
  • 2:44 - 2:45
    наносящие ущерб,
  • 2:45 - 2:46
    и откатить их назад.
  • 2:48 - 2:50
    Подобно этому есть рейтинг сущностей.
  • 2:50 - 2:53
    Вместо оценивания правки,
    последующего за ней изменения,
  • 2:53 - 2:54
    вы оцениваете ревизию в целом.
  • 2:54 - 2:56
    Я думаю, это такой же инструмент
    измерения качества,
  • 2:56 - 3:00
    о котором говорила Лидия
    в начале конференции.
  • 3:00 - 3:05
    Вот здесь скрипт, который ставит
    оценку от одного до пяти.
  • 3:05 - 3:08
    Он оценивает качество текущего элемента.
  • 3:10 - 3:13
    Инструмент проверки
    первичных источников предназначен
  • 3:13 - 3:15
    для любой базы данных,
    которую вы хотите импортировать,
  • 3:15 - 3:18
    но качество её данных не настолько высоко,
    чтобы напрямую добавлять её в Викиданные,
  • 3:18 - 3:20
    поэтому вы добавляете базу
    в этот инструмент,
  • 3:20 - 3:23
    после чего люди могут решить,
  • 3:23 - 3:26
    добавлять или не добавлять
    отдельные утверждения.
  • 3:29 - 3:30
    Отображение координат в виде карт --
  • 3:30 - 3:32
    в основном, функция для удобства,
  • 3:32 - 3:34
    но она также полезна
    для контроля качества.
  • 3:34 - 3:37
    Например, если вы видите, что здесь
    должен быть офис Викимедиа Германии,
  • 3:37 - 3:39
    а координаты
    где-то в Индийском океане,
  • 3:39 - 3:42
    то вы понимаете, что это неверный адрес,
  • 3:42 - 3:45
    и вам легче это заметить,
    чем если бы у вас были только цифры.
  • 3:46 - 3:50
    Этот инструмент -- индикатор
    относительной полноты.
  • 3:50 - 3:52
    Вот эта маленькая иконка здесь,
  • 3:53 - 3:56
    которая сообщает, насколько полно
    описан конкретный элемент,
  • 3:56 - 3:58
    и каких свойств не хватает.
  • 3:58 - 4:00
    Это очень полезно,
    если вы редактируете элемент
  • 4:00 - 4:03
    и не очень ориентируетесь в данной сфере
  • 4:03 - 4:06
    и не знаете,
    какие свойства нужно указывать,
  • 4:06 - 4:08
    тогда этот инструмент будет очень полезен.
  • 4:10 - 4:12
    Также мы используем
    инструмент Shape Expressions.
  • 4:12 - 4:16
    Думаю, Андра или Хосе
    расскажут об этом больше,
  • 4:16 - 4:21
    но, по сути, это очень мощный способ
    сравнения имеющихся данных со схемой,
  • 4:21 - 4:22
    например, какое утверждение
  • 4:22 - 4:23
    должны иметь определённые сущности,
  • 4:23 - 4:25
    с какими сущностями
    они должны быть связаны
  • 4:25 - 4:26
    и как должны выглядеть.
  • 4:26 - 4:29
    Таким образом вы сможете
    находить проблемы.
  • 4:30 - 4:32
    Я думаю... Нет, ещё не всё.
  • 4:32 - 4:34
    Integraality, или панель свойств.
  • 4:34 - 4:37
    На ней видны данные,
    которые у вас уже есть.
  • 4:37 - 4:39
    Например, эти данные
    из Вики-проекта о красных пандах,
  • 4:40 - 4:41
    и вы видите,
  • 4:41 - 4:44
    что у большинства красных панд
    известен пол,
  • 4:44 - 4:47
    дата рождения зависит от зоопарка,
  • 4:47 - 4:50
    и у нас почти нет погибших панд,
    что замечательно,
  • 4:50 - 4:51
    (смех)
  • 4:51 - 4:53
    потому что они такие милые.
  • 4:54 - 4:56
    Так что это тоже полезно.
  • 4:56 - 4:59
    Теперь о том, что ожидается.
  • 5:00 - 5:04
    Wikidata Bridge,
    ранее известный как client editing
  • 5:04 - 5:07
    для редактирования Викиданных
    прямо из карточек Википедии.
  • 5:08 - 5:11
    Это, с одной стороны,
    позволит лучше контролировать данные,
  • 5:11 - 5:13
    так как их сможет увидеть
    большее число людей,
  • 5:13 - 5:16
    и, мы надеемся, будет способствовать
  • 5:16 - 5:19
    более частому использованию
    Викиданных в Википедии,
  • 5:19 - 5:21
    и это значит, большее число людей
    сможет заметить,
  • 5:21 - 5:24
    что, например, некоторые данные устарели
    и должны быть обновлены,
  • 5:24 - 5:27
    чем если бы они видели эти данные
    только в Викиданных.
  • 5:29 - 5:31
    Также есть испорченные ссылки.
  • 5:31 - 5:34
    Идея в том, что если вы редактируете
    значение утверждения,
  • 5:35 - 5:37
    вы также можете обновить и ссылки,
  • 5:37 - 5:39
    если это не просто опечатка
    или что-то ещё.
  • 5:40 - 5:44
    Эти испорченные ссылки
    сигнализируют редакторам
  • 5:44 - 5:50
    и дают возможность увидеть,
    какие другие правки были сделаны,
  • 5:50 - 5:53
    где отредактировали значение утверждения,
    но не обновили ссылку,
  • 5:53 - 5:55
    и вы можете всё подредактировать
  • 5:55 - 6:00
    и решить, следует ли ещё что-то делать,
  • 6:00 - 6:03
    или всё в порядке,
    и ссылку обновлять не нужно.
  • 6:04 - 6:06
    Перейдём к подписанным утверждениям.
  • 6:06 - 6:09
    Я думаю, это связано с тем опасением,
  • 6:09 - 6:12
    что некоторые источники данных...
  • 6:14 - 6:16
    Есть утверждение, на которое ссылаются,
    например, через ЮНЕСКО
  • 6:16 - 6:18
    или какое-то другое учреждение,
  • 6:18 - 6:20
    а потом кто-то неожиданно
    вносит вандальные правки,
  • 6:20 - 6:22
    и они переживают, что это будет выглядеть,
  • 6:23 - 6:27
    как будто организация,
    например, ЮНЕСКО, принимает эти правки.
  • 6:27 - 6:29
    В случае с подписанными утверждениями,
  • 6:29 - 6:31
    они могут криптографически
    подписать эту ссылку,
  • 6:31 - 6:34
    и это не помешает её редактированию,
  • 6:34 - 6:37
    но если кто-то внесёт в утверждение
    вандальные правки
  • 6:37 - 6:40
    или любые другие,
    подпись будет недействительна,
  • 6:40 - 6:43
    и это уже не совсем то,
    что утверждает организация.
  • 6:43 - 6:45
    Возможно, это хорошая правка,
  • 6:45 - 6:47
    и нужно просто переподписать
    новое утверждение,
  • 6:47 - 6:50
    но, возможно, правку следует отменить.
  • 6:51 - 6:54
    Думаю, это будет увлекательно.
  • 6:54 - 6:57
    Citoid -- удивительная система,
    которая есть в Википедии,
  • 6:57 - 7:01
    где вы можете вставить URL,
    идентификатор или ISBN
  • 7:01 - 7:05
    или идентификатор Викиданных,
    в общем, что угодно в визуальный редактор,
  • 7:05 - 7:08
    и это трансформируется
    в красиво отформатированную ссылку,
  • 7:08 - 7:11
    которая содержит все нужные вам данные,
    и ей легко пользоваться.
  • 7:11 - 7:14
    Для сравнения, если я хочу
    добавить ссылку в Викиданных,
  • 7:14 - 7:19
    я обычно должен добавить URL ссылки,
    название, строку с именем автора,
  • 7:19 - 7:20
    место и дату публикации,
  • 7:20 - 7:24
    даты получения --
    по крайней мере, всё это --
  • 7:24 - 7:25
    и это очень утомительно,
  • 7:25 - 7:29
    а интеграция Citoid в Викибазу
    должна помочь в этом.
  • 7:30 - 7:34
    Думаю, у меня всё.
  • 7:34 - 7:36
    Сейчас передаю слово Кристине.
  • 7:38 - 7:41
    (аплодисменты)
  • 7:41 - 7:43
    Как можно улучшить
    управление качеством данных?
  • 7:44 - 7:45
    Привет, я Кристина.
  • 7:45 - 7:48
    Я научный сотрудник
    Цюрихского университета
  • 7:48 - 7:51
    и активный член
    швейцарского Вики-сообщества.
  • 7:53 - 7:58
    Когда мы вместе с Клаудией Мюллер-Бирн
    отправляли наш доклад на WikidataCon,
  • 7:58 - 8:00
    мы хотели продолжить обсуждение,
  • 8:00 - 8:02
    начатое в этом году
  • 8:02 - 8:07
    на семинаре по качеству данных,
    а также на нескольких сессиях Викимании.
  • 8:07 - 8:11
    В своём выступлении мы, в основном,
    поделимся некоторыми соображениями
  • 8:11 - 8:14
    как сообщества, так и нашими,
  • 8:14 - 8:17
    и продолжим обсуждение.
  • 8:17 - 8:20
    Нам хотелось бы и дальше
    активно общаться с вами.
  • 8:22 - 8:23
    Мы считаем, что очень важно
  • 8:23 - 8:28
    постоянно спрашивать
    всех пользователей сообщества
  • 8:28 - 8:32
    о том, что им действительно нужно,
    какие у них проблемы с качеством данных,
  • 8:32 - 8:35
    не только редакторов
    но и людей, которые пишут код,
  • 8:35 - 8:36
    либо пользуются данными,
  • 8:36 - 8:38
    а также исследователей,
    которые фактически используют
  • 8:38 - 8:41
    всю историю редактирования
    для анализа происходящего.
  • 8:42 - 8:46
    Мы сделали обзор
    примерно 80-ти инструментов,
  • 8:46 - 8:48
    существующих в Викиданных,
  • 8:48 - 8:52
    и привели их в соответствие
    с разными показателями качества данных.
  • 8:52 - 8:54
    Мы увидели, что на самом деле
  • 8:54 - 8:58
    многие инструменты
    отслеживают полноту,
  • 8:58 - 9:03
    а также некоторые из них поддерживают
    взаимосвязи между данными.
  • 9:03 - 9:08
    Есть потребность в инструментах,
    оценивающих разнообразие данных --
  • 9:08 - 9:13
    то, что мы можем иметь в Викиданных,
  • 9:13 - 9:16
    в особенности, этот принцип
    разработки Викиданных,
  • 9:16 - 9:18
    в котором мы можем иметь
    множественность --
  • 9:18 - 9:20
    разные утверждения
    с разными значениями
  • 9:21 - 9:22
    из разных источников.
  • 9:22 - 9:25
    Поскольку это вторичный источник,
    у нас нет инструментов,
  • 9:25 - 9:28
    сообщающих, сколько существует
    множественных утверждений,
  • 9:28 - 9:31
    сколько из них мы можем улучшить
    и каким образом,
  • 9:31 - 9:33
    и мы также точно не знаем,
  • 9:33 - 9:36
    в чём причина этой множественности.
  • 9:36 - 9:39
    На этих собраниях сообщества
  • 9:39 - 9:43
    мы обсуждали проблемы,
    всё ещё требующие внимания.
  • 9:43 - 9:46
    Например, краудсорсинговые сообщества --
  • 9:46 - 9:49
    это очень хорошо,
    потому что разные люди работают
  • 9:49 - 9:52
    с разными частями данных или графа,
  • 9:52 - 9:55
    у всех людей разные
    фундаментальные знания.
  • 9:55 - 9:59
    Но на самом деле
    очень трудно достичь однородности,
  • 9:59 - 10:05
    потому что люди используют
    разные свойства по-разному,
  • 10:05 - 10:08
    и у них разные ожидания
    от описаний сущностей.
  • 10:09 - 10:13
    Люди также сказали,
    что им нужно больше инструментов,
  • 10:13 - 10:16
    которые дают лучший обзор
    глобального статуса сущностей,
  • 10:16 - 10:21
    показывают, каких сущностей не хватает
    с точки зрения полноты,
  • 10:21 - 10:26
    а также над чем сейчас работают люди.
  • 10:26 - 10:31
    Они также многократно упоминают
    более тесное сотрудничество
  • 10:31 - 10:33
    не только между разными языками,
    но и Вики-проектами
  • 10:33 - 10:36
    и различным платформами Викимедии.
  • 10:36 - 10:40
    Мы опубликовали все комментарии,
    которые услышали во время этих обсуждений.
  • 10:40 - 10:43
    Вы можете посмотреть их,
    пройдя по ссылкам в Etherpad,
  • 10:43 - 10:46
    а также на странице Викимании.
  • 10:46 - 10:48
    Некоторые новые решения
  • 10:48 - 10:53
    заключались в обмене лучшими практиками,
  • 10:53 - 10:56
    которые реализуются
    в разных Вики-проектах,
  • 10:56 - 11:01
    но также людям нужны инструменты,
    помогающие организовать работу в командах
  • 11:01 - 11:04
    или, по крайней мере,
    понять, кто над этим работает.
  • 11:04 - 11:08
    Также люди упоминали,
    что они хотят больше примеров
  • 11:08 - 11:12
    и шаблонов, которые помогут в работе.
  • 11:13 - 11:14
    У нас есть контакты
  • 11:14 - 11:19
    с организациями открытых
    государственных данных
  • 11:19 - 11:20
    и, в частности,
  • 11:20 - 11:23
    я поддерживаю контакты
    с кантоном и городом Цюрих.
  • 11:23 - 11:26
    Они очень заинтересованы в Викиданных,
  • 11:26 - 11:30
    потому что хотят, чтобы их данные
    были доступны для всех
  • 11:30 - 11:34
    в таком месте, где люди
    могут ознакомиться c этими данными.
  • 11:34 - 11:37
    Для них было бы действительно интересно
  • 11:37 - 11:39
    иметь какие-то качественные показатели
  • 11:39 - 11:41
    как в Вики, они уже есть,
  • 11:41 - 11:43
    но и в результатах SPARQL,
  • 11:43 - 11:46
    чтобы знать, доверять ли данным,
    полученным от сообщества.
  • 11:46 - 11:48
    Они также хотят знать,
  • 11:48 - 11:51
    какие из их наборов данных
    полезны для Викиданных,
  • 11:51 - 11:53
    и чтобы был такой инструмент,
  • 11:53 - 11:56
    который поможет им
    оценивать это автоматически.
  • 11:56 - 11:59
    Им также нужна
    какая-то методология или инструмент,
  • 11:59 - 12:01
    который бы помог им решить,
  • 12:01 - 12:04
    импортировать свои данные
    или связывать их с Викиданными,
  • 12:04 - 12:06
    поскольку в некоторых случаях
    у них есть свои наборы
  • 12:06 - 12:07
    связанных открытых данных,
  • 12:07 - 12:10
    поэтому они не знают,
    публиковать эти данные
  • 12:10 - 12:13
    или создавать в наборах данных
    ссылки на Викиданные
  • 12:13 - 12:14
    и наоборот.
  • 12:15 - 12:20
    Они также хотят знать, какие элементы
    Викиданных ссылаются на их сайты.
  • 12:20 - 12:23
    Когда они делают такой запрос,
  • 12:23 - 12:25
    он остаётся без ответа
    с истёкшим временем ожидания,
  • 12:25 - 12:28
    поэтому, возможно, нам действительно
    стоит создавать больше инструментов,
  • 12:28 - 12:32
    которые помогут им получить
    ответы на их вопросы.
  • 12:33 - 12:36
    Кроме того,
  • 12:36 - 12:38
    нам, вики-исследователям,
  • 12:38 - 12:42
    тоже иногда не хватает информации
    в описаниях изменений.
  • 12:42 - 12:45
    Я помню, что когда
    мы делали какую-то работу,
  • 12:45 - 12:47
    чтобы понять различное поведение
  • 12:47 - 12:50
    редакторов, ботов
    или анонимных пользователей
  • 12:50 - 12:53
    с помощью инструментов,
  • 12:53 - 12:56
    нам действительно не хватало, например,
  • 12:56 - 13:01
    стандартного способа отслеживания
    использования этих инструментов.
  • 13:01 - 13:03
    Есть несколько инструментов,
    которые уже делают это,
  • 13:03 - 13:05
    например, PetScan и многие другие,
  • 13:05 - 13:09
    но, возможно, в сообществе
    мы должны больше обсуждать,
  • 13:09 - 13:14
    как фиксировать более точное
    происхождение данных.
  • 13:14 - 13:16
    Далее, мы полагаем,
  • 13:16 - 13:21
    что нужно подумать о более конкретных
    показателях качества данных,
  • 13:21 - 13:25
    относящихся к связанным данным,
    а не ко всем типам данных,
  • 13:25 - 13:29
    поэтому мы разрабатываем комплекс мер
  • 13:29 - 13:32
    для получения доступа
    к приросту информации по ссылкам,
  • 13:32 - 13:34
    подразумевая то,
  • 13:34 - 13:37
    что когда мы связываем
    Викиданные с другими наборами данных,
  • 13:37 - 13:38
    мы также должны думать о том,
  • 13:38 - 13:42
    сколько сущностей
    получается в классификации,
  • 13:42 - 13:46
    описании и в словарях,
    которыми они пользуются.
  • 13:46 - 13:51
    Просто для примера, что я имею в виду:
  • 13:51 - 13:54
    в нашем случае это будут Викиданные
  • 13:54 - 13:58
    или внешний набор данных,
    который ссылается на Викиданные.
  • 13:58 - 14:00
    У нас есть сущность для человека
    по имени Наташа Ной,
  • 14:00 - 14:03
    у нас есть принадлежность и другие вещи,
  • 14:03 - 14:05
    а затем мы ссылаемся на внешний источник,
  • 14:05 - 14:09
    и эта сущность с таким же именем,
    но значение одно и то же.
  • 14:09 - 14:13
    Лучше сослаться на сущность
    с другим действительным именем,
  • 14:13 - 14:17
    потому что имя этого человека
    может быть написано двумя способами,
  • 14:17 - 14:20
    а также на другую информацию,
    отсутствующую в Викиданных
  • 14:20 - 14:22
    или других наборах данных.
  • 14:22 - 14:25
    Лучше даже то,
  • 14:25 - 14:28
    что мы рассматриваем целевой набор данных,
  • 14:28 - 14:31
    что также существуют новые способы
    классификации информации.
  • 14:31 - 14:35
    Не только то, что это человек,
    но в другом наборе данных
  • 14:35 - 14:38
    сообщается, что это женщина,
    или другая информация,
  • 14:38 - 14:40
    с которой классифицируется сущность.
  • 14:40 - 14:43
    В другом наборе данных
    используются другие словари,
  • 14:43 - 14:47
    и это помогает при поиске информации.
  • 14:48 - 14:51
    Мы также считаем,
  • 14:51 - 14:56
    что можем более наглядно представлять
    федеративные запросы,
  • 14:56 - 15:00
    потому что по журналу запросов,
    предоставленному Малышевым и др.,
  • 15:01 - 15:04
    мы видим, что на самом деле
    среди органических запросов
  • 15:04 - 15:07
    число федеративных запросов
    очень небольшое.
  • 15:07 - 15:09
    На самом деле, федерация является
  • 15:09 - 15:13
    одним из ключевых преимуществ
    наличия связанных данных,
  • 15:13 - 15:17
    так что, возможно, сообществу или людям,
    которые пользуются Викиданными,
  • 15:17 - 15:19
    тоже нужно больше примеров.
  • 15:19 - 15:23
    Если мы посмотрим на список
    используемых точек доступа,
  • 15:23 - 15:25
    он будет неполным,
    у нас есть намного больше.
  • 15:25 - 15:30
    Эти данные были проанализированы
    по запросам до марта 2018 года,
  • 15:30 - 15:35
    но мы должны проверить список
    имеющихся объединённых точек доступа
  • 15:35 - 15:37
    и посмотреть,
    действительно ли мы их используем.
  • 15:38 - 15:40
    У меня есть два вопроса к зрителям,
  • 15:40 - 15:43
    которые, возможно, мы впоследствии
    можем использовать для обсуждения:
  • 15:43 - 15:46
    какие, на ваш взгляд, проблемы
    с качеством данных нужно рассмотреть,
  • 15:46 - 15:47
    учитывая ваши потребности,
  • 15:47 - 15:50
    а также, где вам нужно
    больше автоматизации --
  • 15:50 - 15:53
    при редактировании или патрулировании?
  • 15:54 - 15:55
    Это всё, большое спасибо.
  • 15:56 - 15:58
    (аплодисменты)
  • 16:04 - 16:06
    WikidataCon 2019
    Викиданные и языки
  • 16:06 - 16:08
    Визуализация схемы сущности
    и авторские инструменты
  • 16:08 - 16:10
    (Хосе Эмилио Лабра) Я расскажу
    о некоторых инструментах,
  • 16:10 - 16:13
    которые мы разработали,
  • 16:13 - 16:16
    связанных с Shape Expressions.
  • 16:16 - 16:19
    Об этом я буду говорить.
    Меня зовут Хосе Эмилио Лабра.
  • 16:19 - 16:23
    Все эти инструменты
    были разработаны разными людьми,
  • 16:24 - 16:27
    в основном все они связаны
    с сообществом W3C ShEx,
  • 16:27 - 16:29
    или сообществом Shape Expressions.
  • 16:30 - 16:36
    Первый инструмент -- RDFShape,
    это общий инструмент,
  • 16:36 - 16:41
    потому что Shape Expressions
    используется не только для Викиданных,
  • 16:41 - 16:44
    это язык для проверки RDF в целом.
  • 16:44 - 16:48
    Этот инструмент был разработан
    в основном мной,
  • 16:48 - 16:51
    и это инструмент для проверки RDF.
  • 16:51 - 16:55
    Если вы хотите узнать о RDF
    или проверить RDF
  • 16:55 - 16:59
    или точки доступа SPARQL
    не только в Викиданных,
  • 16:59 - 17:01
    я советую вам пользоваться
    этим инструментом.
  • 17:01 - 17:03
    В том числе и для обучения.
  • 17:03 - 17:06
    Я преподаю в университете
  • 17:06 - 17:09
    и пользуюсь им для обучения RDF
    в своём веб-курсе по семантике.
  • 17:09 - 17:12
    Если хотите изучать RDF,
    это хороший инструмент.
  • 17:13 - 17:18
    Например, это визуализация RDF-графа
    с помощью этого инструмента.
  • 17:19 - 17:23
    Но прежде чем приехать сюда,
    в прошлом месяце
  • 17:23 - 17:28
    я специально начал использовать
    RDFShape для работы с Викиданными.
  • 17:28 - 17:33
    Инструмент называется WikiShape,
    и вчера я подарил его Викиданным.
  • 17:33 - 17:34
    Что я сделал?
  • 17:34 - 17:39
    Я удалил всё,
    что не связано с Викиданными,
  • 17:39 - 17:43
    добавил кое-что жёстко закодированное,
  • 17:43 - 17:45
    например, точку доступа SPARQL.
  • 17:45 - 17:49
    Но теперь меня попросили
    сделать это и для Викибазы.
  • 17:49 - 17:52
    Это очень легко.
  • 17:53 - 17:56
    Этот инструмент WikiShape
    достаточно новый.
  • 17:57 - 18:00
    Я думаю, что многие его функции работают,
  • 18:00 - 18:02
    но некоторые, возможно, не работают,
  • 18:02 - 18:05
    и если вы попробуете его
    и захотите что-то улучшить,
  • 18:05 - 18:06
    пожалуйста, сообщите мне.
  • 18:06 - 18:13
    Здесь у нас скриншоты [неразборчиво],
    но давайте попробуем.
  • 18:15 - 18:17
    Давайте посмотрим, работает ли он.
  • 18:17 - 18:20
    Во-первых, я должен выйти из...
  • 18:22 - 18:23
    Здесь.
  • 18:24 - 18:28
    Хорошо. Вот этот инструмент.
  • 18:28 - 18:30
    С помощью него вы можете,
  • 18:30 - 18:35
    например, проверить схемы сущностей.
  • 18:35 - 18:39
    Например, существует новое
    пространство имён, начинающееся с «Е»,
  • 18:39 - 18:45
    и здесь, если вы начнёте писать,
    например, «человек»...
  • 18:45 - 18:49
    Когда вы пишете,
    автозаполнение позволяет проверить,
  • 18:49 - 18:52
    например, существуют ли
    выражения формы для людей,
  • 18:53 - 18:56
    и вот здесь появляются выражения формы.
  • 18:56 - 19:00
    Как видите, в этом редакторе
    есть подсветка синтаксиса.
  • 19:00 - 19:05
    Возможно, экран очень маленький.
  • 19:06 - 19:08
    Попробую увеличить.
  • 19:09 - 19:11
    Может, сейчас лучше видно.
  • 19:11 - 19:14
    Это редактор с подсветкой синтаксиса.
  • 19:14 - 19:18
    Для редактора используется
    тот же исходный код,
  • 19:18 - 19:20
    что и для службы запросов Викиданных.
  • 19:20 - 19:24
    Так, например,
    если вы наведёте мышкой сюда,
  • 19:24 - 19:28
    он покажет вам метки разных свойств.
  • 19:28 - 19:31
    Я думаю, это очень полезно,
    потому что сейчас,
  • 19:33 - 19:39
    схемы сущностей в Викиданных --
    это просто текст,
  • 19:39 - 19:42
    и я думаю, этот редактор намного лучше,
    потому что у него есть автозаполнение,
  • 19:42 - 19:44
    и он также имеет...
  • 19:44 - 19:48
    Если вы, например,
    хотите добавить ограничение,
  • 19:48 - 19:52
    вы пишете wdt:,
  • 19:52 - 19:57
    а затем начинаете писать auth,
    нажимаете Ctrl+Space,
  • 19:57 - 19:59
    и он предлагает разные варианты.
  • 19:59 - 20:02
    Это похоже на службу запросов Викиданных,
  • 20:02 - 20:06
    но специально для выражений формы.
  • 20:06 - 20:12
    Так как я думаю,
    что создание выражений формы
  • 20:12 - 20:16
    не сложнее,
    чем написание SPARQL-запросов.
  • 20:16 - 20:21
    Хотя некоторые думают,
    что это примерно одинаково по сложности.
  • 20:22 - 20:26
    Я думаю, это проще,
    потому что Shape Expressions
  • 20:26 - 20:31
    был создан с целью облегчить работу.
  • 20:31 - 20:35
    Первое, что у вас есть -- это редактор
  • 20:35 - 20:37
    для выражений формы.
  • 20:37 - 20:41
    Здесь есть возможность,
    например, визуализации.
  • 20:41 - 20:45
    Если у вас есть какое-то
    выражение формы, например...
  • 20:45 - 20:49
    Думаю, written work -- хороший пример,
  • 20:49 - 20:53
    поскольку в нём есть взаимосвязь
    между разными сущностями.
  • 20:55 - 20:58
    Вот UML-визуализация для written work.
  • 20:58 - 21:02
    Здесь легко увидеть разные свойства.
  • 21:03 - 21:07
    Когда вы делаете это совместно
    с несколькими людьми,
  • 21:07 - 21:09
    они находят ошибки
    в своих выражениях формы,
  • 21:09 - 21:13
    потому что так можно легко найти
    недостающие свойства.
  • 21:14 - 21:16
    Есть ещё одна возможность проверки,
  • 21:16 - 21:20
    кажется, у меня она вот здесь.
  • 21:20 - 21:25
    Это было на какой-то вкладке,
    возможно, я закрыл её.
  • 21:26 - 21:31
    Но вы можете, например,
    нажать Validate entities.
  • 21:32 - 21:34
    Например,
  • 21:35 - 21:42
    Q42 сравнить с E42, схемой для авторов.
  • 21:43 - 21:46
    Думаю, можно попробовать
    со схемой для людей.
  • 21:49 - 21:50
    А потом...
  • 21:51 - 21:56
    Это SPARQL-запрос,
    и он занимает какое-то время,
  • 21:56 - 21:59
    например, сейчас сбой в сети, но...
  • 22:00 - 22:02
    Вы можете попробовать.
  • 22:03 - 22:07
    Давайте расскажем о других инструментах.
  • 22:07 - 22:12
    Если хотите попробовать
    и у вас есть предложения, дайте мне знать.
  • 22:13 - 22:16
    Продолжим презентацию.
  • 22:19 - 22:20
    Это WikiShape.
  • 22:24 - 22:27
    Как я уже говорил,
  • 22:28 - 22:34
    Редактор Shape Expressions --
    независимый проект на GitHub.
  • 22:36 - 22:37
    Вы можете использовать его
    в своём проекте.
  • 22:37 - 22:41
    Если хотите использовать
    инструмент Shape Expressions,
  • 22:41 - 22:46
    вы можете просто встроить его
    в любой другой проект,
  • 22:46 - 22:48
    его можно найти на GitHub,
    и им можно пользоваться.
  • 22:49 - 22:52
    Тот же автор, один из моих учеников,
  • 22:53 - 22:56
    также создал редактор
    для Shape Expressions,
  • 22:56 - 22:58
    вдохновившись
    службой запросов Викиданных.
  • 23:01 - 23:05
    Этот редактор более наглядный
    для SPARQL-запросов,
  • 23:05 - 23:07
    куда вы можете загрузить подобные вещи.
  • 23:07 - 23:09
    Это снимок экрана.
  • 23:09 - 23:13
    Как видите, выражения формы
    здесь в виде текста.
  • 23:13 - 23:18
    Но здесь они на базе форм,
    и, вероятно, потребуется больше времени,
  • 23:19 - 23:23
    но вы можете вставлять
    разные строки в разные поля.
  • 23:23 - 23:26
    Это ShExEr.
  • 23:27 - 23:32
    Его сделал аспирант
    Университета Овьедо,
  • 23:32 - 23:34
    он сегодня здесь,
    и расскажет вам о ShExEr.
  • 23:38 - 23:40
    (Данни) Привет, я Данни Фернандес,
  • 23:40 - 23:44
    аспирант Университета Овьедо,
    работаю с Лаброй.
  • 23:45 - 23:48
    У нас заканчивается время,
    поэтому давайте ускоримся.
  • 23:48 - 23:53
    Я покажу несколько скриншотов
    вместо всей презентации.
  • 23:53 - 23:58
    Обычный способ работы с Shape Expressions
    или любым подобным языком:
  • 23:58 - 24:00
    есть специалист,
  • 24:00 - 24:02
    который определяет,
    как должен выглядеть граф,
  • 24:02 - 24:04
    определяет структуры,
  • 24:04 - 24:07
    а затем вы используете эти структуры
    для проверки фактических данных.
  • 24:08 - 24:12
    Инструмент, о котором рассказал Лабра, --
  • 24:12 - 24:14
    общего назначения
    для любого RDF-источника,
  • 24:14 - 24:17
    и он может работать
    в обратном направлении.
  • 24:17 - 24:19
    У вас уже есть некоторые данные,
  • 24:19 - 24:23
    вы выбираете узлы,
    форму которых хотите получить,
  • 24:23 - 24:27
    а затем автоматически
    извлекаете или выводите форму.
  • 24:27 - 24:30
    Несмотря на то, что это инструмент
    общего назначения,
  • 24:30 - 24:34
    мы сделали волшебную кнопку
    для этой конференции,
  • 24:35 - 24:37
    и если вы нажмёте на неё,
  • 24:37 - 24:42
    появятся параметры конфигурации,
  • 24:42 - 24:46
    и он настроит работу
    с точкой доступа Викиданных,
  • 24:46 - 24:48
    простите, он скоро закончит.
  • 24:49 - 24:53
    После нажатия этой кнопки
    вы, по сути, получаете это.
  • 24:53 - 24:55
    Выбрав необходимые вам узлы
  • 24:55 - 24:57
    или экземпляры класса,
  • 24:57 - 24:59
    что бы вы ни искали,
  • 24:59 - 25:01
    вы получите автоматическую схему.
  • 25:02 - 25:07
    Все ограничения отсортированы
    по количеству узлов,
  • 25:07 - 25:10
    можно отфильтровать
    наименее распространённые и так далее.
  • 25:10 - 25:12
    Внизу есть плакат об этом материале,
  • 25:12 - 25:15
    я буду на нижнем и верхнем этажах,
  • 25:15 - 25:16
    а также в других местах,
  • 25:16 - 25:19
    поэтому если у вас будет интерес
    к этому инструменту,
  • 25:19 - 25:21
    просто обращайтесь ко мне.
  • 25:21 - 25:25
    Отдаю микрофон Лабре, спасибо.
  • 25:25 - 25:29
    (аплодисменты)
  • 25:30 - 25:33
    (Хосе) Давайте обсудим
    другие инструменты.
  • 25:33 - 25:35
    ShapeDesigner -- ещё один инструмент.
  • 25:35 - 25:37
    Андра, хочешь рассказать о ShapeDesigner
  • 25:37 - 25:40
    или позже на семинаре?
  • 25:40 - 25:44
    Сегодня будет семинар,
    посвящённый Shape Expressions,
  • 25:45 - 25:48
    мы попробуем его на практике,
  • 25:48 - 25:52
    так что если хотите попрактиковаться
    с ShEx, то вам сюда.
  • 25:53 - 25:55
    Это инструмент ShEx.js,
  • 25:55 - 25:57
    и Эрик может рассказать о нём.
  • 25:58 - 26:01
    (Эрик) Расскажу очень быстро.
  • 26:01 - 26:06
    Вы, вероятно, уже видели интерфейс ShEx,
  • 26:06 - 26:08
    заточенный под Викиданные.
  • 26:08 - 26:13
    Его сократили и адаптировали
    специально под Викиданные
  • 26:13 - 26:16
    потому что в нём больше возможностей,
  • 26:16 - 26:18
    но я, кажется, говорил об этом,
  • 26:18 - 26:20
    потому что одна из этих функций
    особенно полезна
  • 26:20 - 26:23
    для отладки схем Викиданных.
  • 26:23 - 26:29
    Если вы выбираете полный режим,
  • 26:29 - 26:31
    то пока я буду проводить проверку
  • 26:31 - 26:35
    всех этих триплетов,
  • 26:35 - 26:36
    и если я получу множество ошибок,
  • 26:36 - 26:40
    я могу пройтись по этим ошибкам
  • 26:40 - 26:44
    и посмотреть, какие триплеты здесь, внизу.
  • 26:44 - 26:46
    Это просто журнал того,
    как всё происходило.
  • 26:46 - 26:49
    Затем можете поиграть с этим,
  • 26:49 - 26:51
    чтобы поменять что-либо.
  • 26:51 - 26:54
    Это более быстрая версия
    того, как это сделать.
  • 26:55 - 26:56
    Это форма ShExC --
  • 26:56 - 26:59
    то, что предлагал Йохим,
  • 27:00 - 27:05
    что может быть полезно
    для заполнения документов Викиданных
  • 27:05 - 27:07
    на основе выражения формы
    для этого документа.
  • 27:08 - 27:12
    Она не адаптирована под Викиданные.
  • 27:12 - 27:14
    Я просто показываю,
    что можно взять схему,
  • 27:14 - 27:15
    сделать аннотации,
  • 27:15 - 27:18
    чтобы конкретно указать,
    какую схему вы хотите,
  • 27:18 - 27:19
    потом просто создать форму
  • 27:19 - 27:21
    и, если у вас есть данные,
    можно заполнить форму.
  • 27:25 - 27:26
    PyShEx [неразборчиво].
  • 27:28 - 27:31
    (Хосе) Думаю, это последний инструмент.
  • 27:32 - 27:34
    Да, это PyShEx.
  • 27:35 - 27:38
    PyShEx -- это Shape Expressions,
    реализованный на Python,
  • 27:39 - 27:43
    он совместим с Jupyter Notebooks.
  • 27:43 - 27:44
    Итак, это всё.
  • 27:44 - 27:47
    (аплодисменты)
  • 27:53 - 27:56
    (Андра) Итак, я расскажу
    о конкретном проекте,
  • 27:56 - 27:58
    в котором участвую -- Gene Wiki,
  • 27:59 - 28:04
    и в котором мы тоже занимаемся
    вопросами качества.
  • 28:05 - 28:07
    Прежде чем говорить о качестве,
  • 28:07 - 28:09
    я кратко расскажу вам о Gene Wiki.
  • 28:10 - 28:15
    Мы только что выпустили
    предварительную версию статьи,
  • 28:15 - 28:18
    в которой описаны детали проекта.
  • 28:20 - 28:22
    Я вижу, люди фотографируют...
  • 28:22 - 28:25
    Gene Wiki публикует в Викиданных
  • 28:25 - 28:28
    общедоступные биомедицинские данные,
  • 28:28 - 28:32
    используя для этого определённый шаблон.
  • 28:33 - 28:37
    Если у нас появляется
    новое хранилище или набор данных,
  • 28:37 - 28:40
    который можно включить Викиданные,
  • 28:40 - 28:41
    первый шаг -- вовлечение сообщества.
  • 28:41 - 28:44
    Необязательно сообщества Викиданных,
  • 28:44 - 28:46
    но местного исследовательского сообщества.
  • 28:46 - 28:50
    Мы встречаемся лично,
    онлайн или на любой платформе
  • 28:50 - 28:53
    и пробуем придумать модель данных,
  • 28:53 - 28:56
    которая соединит их данные
    с моделью Викиданных.
  • 28:56 - 29:00
    Вот фотография прошлогоднего семинара,
  • 29:00 - 29:03
    на котором мы анализировали
    определённый набор данных,
  • 29:03 - 29:05
    и как видите, было много обсуждений,
  • 29:05 - 29:08
    затем приведение его
    в соответствие с schema.org
  • 29:08 - 29:10
    и другими существующими онтологиями.
  • 29:10 - 29:16
    В конце первого шага
    у нас на доске появился чертёж схемы,
  • 29:16 - 29:17
    которую мы хотим добавить в Викиданные.
  • 29:17 - 29:20
    Вы видите, она несложная,
  • 29:20 - 29:22
    на заднем плане,
  • 29:22 - 29:26
    и мы можем построить какие-то схемы
    даже здесь, в рамках этой дискуссии.
  • 29:27 - 29:28
    Если у нас есть схема,
  • 29:28 - 29:31
    следующий шаг -- попытаться сделать
    эта схему машиночитаемой,
  • 29:32 - 29:37
    чтобы иметь работающие модели
    для переноса внешних данных
  • 29:37 - 29:40
    из любой медико-биологической
    базы данных в Викиданные.
  • 29:40 - 29:45
    Здесь мы применяем
    инструмент Shape Expressions,
  • 29:46 - 29:53
    поскольку он позволяет проверить,
  • 29:53 - 29:57
    является ли набор данных...
    Сначала увидеть,
  • 29:57 - 30:02
    что уже существующие данные в Викиданных
    следуют той же модели данных,
  • 30:02 - 30:05
    которая была получена
    в предыдущих процессах.
  • 30:05 - 30:07
    С помощью Shape Expressions
    мы можем проверить,
  • 30:07 - 30:11
    требуется ли корректировка данных
    по этой теме в Викиданных,
  • 30:11 - 30:15
    нужно ли адаптировать нашу модель
    к модели Викиданных или наоборот.
  • 30:16 - 30:20
    Как только всё на месте,
    мы начинаем писать ботов,
  • 30:21 - 30:24
    а боты загружают информацию
  • 30:24 - 30:27
    из первоисточников в Викиданные.
  • 30:28 - 30:29
    Когда боты готовы,
  • 30:29 - 30:34
    а мы пишем их на платформе
    WikidataIntegrator,
  • 30:34 - 30:36
    используя библиотеку Python,
  • 30:36 - 30:38
    которая появилась
    в результате нашего проекта.
  • 30:39 - 30:43
    Когда боты написаны,
    мы используем платформу Jenkins
  • 30:43 - 30:45
    для непрерывной интеграции.
  • 30:45 - 30:46
    С помощью Jenkins
  • 30:46 - 30:51
    мы постоянно обновляем
    первоначальные источники с Викиданными.
  • 30:52 - 30:56
    Вот диаграмма, о которой я говорил ранее.
  • 30:56 - 30:57
    Это её текущий вид.
  • 30:57 - 31:02
    Оранжевые прямоугольники --
    первоисточники медикаментов,
  • 31:02 - 31:08
    белков, генов, заболеваний,
    химических соединений, со взаимосвязями,
  • 31:08 - 31:11
    но её невозможно прочитать сейчас,
    поскольку она слишком маленькая,
  • 31:11 - 31:17
    но это база данных, источниками которых
    мы управляем в Викиданных
  • 31:17 - 31:21
    и соединяем с первоисточниками.
  • 31:21 - 31:22
    Так выглядит наш рабочий процесс.
  • 31:23 - 31:25
    Один из наших партнёров --
    онтология заболеваний.
  • 31:25 - 31:28
    Онтология заболеваний имеет лицензию CC0,
  • 31:28 - 31:32
    и такая онтология
    имеет свой цикл курирования.
  • 31:33 - 31:36
    Онтология заболеваний
    постоянно обновляется,
  • 31:36 - 31:40
    чтобы отразить базу заболеваний
    или их объяснение.
  • 31:40 - 31:44
    Здесь изображён цикл курирования
    Викиданных по заболеваниям,
  • 31:44 - 31:50
    где сообщество постоянно следит за тем,
    что происходит с Викиданными.
  • 31:50 - 31:52
    Есть две роли.
  • 31:52 - 31:55
    Мы упрощённо называем их
    хранитель-куратор,
  • 31:56 - 32:00
    и это были я и мой коллега пять лет назад.
  • 32:00 - 32:03
    Мы просто сидели за компьютерами
    и мониторили Википедию и Викиданные,
  • 32:03 - 32:09
    и если была проблема, мы сообщали о ней
    первоначальному сообществу,
  • 32:09 - 32:12
    первоначальным источникам,
    они смотрели на реализацию и решали,
  • 32:12 - 32:14
    доверять ли данным,
    введённым в Викиданные.
  • 32:15 - 32:19
    Если да, начинался цикл
  • 32:19 - 32:23
    и следующий шаг --
    часть онтологии заболеваний
  • 32:23 - 32:25
    возвращалась в Викиданные.
  • 32:27 - 32:31
    Для WikiPathways мы делаем то же самое.
  • 32:31 - 32:34
    WikiPathways -- база данных
    биологических путей,
  • 32:34 - 32:37
    вдохновлённая MediaWiki.
  • 32:37 - 32:41
    В Викиданных уже существуют
    различные источники путей.
  • 32:41 - 32:45
    Между ними могут возникать конфликты,
  • 32:45 - 32:50
    и хранителям-кураторам
    сообщается об их возникновении,
  • 32:50 - 32:54
    и вы управляете индивидуальными
    циклами курирования.
  • 32:54 - 32:57
    Но если вы помните предыдущий цикл,
  • 32:57 - 33:03
    где речь велась
    только о двух циклах, двух ресурсах,
  • 33:04 - 33:06
    нам нужно делать это
    для каждого имеющегося ресурса
  • 33:06 - 33:08
    и нужно управлять происходящим,
  • 33:08 - 33:10
    потому что под курированием
  • 33:10 - 33:14
    я подразумеваю постоянное отслеживание
    страниц Википедии и Викиданных.
  • 33:15 - 33:19
    Такая работа явно не для двух
    хранителей-кураторов.
  • 33:20 - 33:23
    На конференции в 2016 году,
  • 33:23 - 33:27
    когда Эрик рассказывал
    о Shape Expressions,
  • 33:27 - 33:29
    я присоединился, и подумал,
  • 33:29 - 33:34
    что Shape Expressions может помочь
    выявить различия в Викиданных,
  • 33:34 - 33:41
    которые помогут хранителям
    делать более подробные отчёты.
  • 33:42 - 33:46
    В этом году я был в восторге
    от схемы сущности,
  • 33:46 - 33:51
    потому что теперь мы можем хранить
    эти схемы в Викиданных,
  • 33:51 - 33:53
    до этого мы хранили их на GitHub.
  • 33:54 - 33:57
    Схема согласуется
    с интерфейсом Викиданных,
  • 33:57 - 33:59
    здесь есть обсуждение документа,
  • 33:59 - 34:01
    но также доступны правки.
  • 34:01 - 34:03
    Вы можете пользоваться
    первыми страницами
  • 34:03 - 34:05
    и правками в Викиданных,
  • 34:05 - 34:12
    чтобы обсуждать то,
    что имеется в Викиданных
  • 34:12 - 34:14
    и первоначальных источниках.
  • 34:15 - 34:20
    Эрик уже об этом говорил,
    это очень помогает.
  • 34:20 - 34:24
    Мы создали выражение формы
    для гена человека,
  • 34:24 - 34:30
    потом пропустили его через ShEx,
    как вы видите,
  • 34:30 - 34:32
    мы получили...
  • 34:32 - 34:35
    Есть один элемент,
    за которым нужно следить, --
  • 34:35 - 34:37
    он не вписывается в эту схему,
  • 34:37 - 34:43
    и затем вы можете создать
    сущности схемы, отчёты курирования,
  • 34:43 - 34:46
    и отправить их в разные отчёты.
  • 34:48 - 34:53
    Но ShEx -- это встроенный интерфейс,
  • 34:53 - 34:56
    и здесь я смогу показать только десять,
  • 34:56 - 35:00
    но у нас десятки тысяч,
    и они несоизмеримы.
  • 35:00 - 35:05
    Интегратор Викиданных
    теперь поддерживает ShEx,
  • 35:05 - 35:07
    и мы просто можем замкнуть
    петли элементов,
  • 35:07 - 35:11
    указав «да-нет, да-нет,
    правда-ложь, правда-ложь».
  • 35:11 - 35:12
    снова,
  • 35:13 - 35:17
    повышая эффективность
    при составлении отчётов.
  • 35:17 - 35:23
    Но с недавних пор он строится
    на сервисе запросов Викиданных,
  • 35:23 - 35:25
    мы недавно регулировали
    количество запросов,
  • 35:25 - 35:27
    и это тоже несоизмеримо.
  • 35:27 - 35:31
    Работа с моделями на Викиданных --
    непрерывный процесс.
  • 35:32 - 35:37
    ShEx не только пугает,
  • 35:37 - 35:40
    но он ещё и громоздкий.
  • 35:41 - 35:43
    Я начал работать,
  • 35:43 - 35:46
    это мой первый эксперимент или упражнение,
  • 35:46 - 35:48
    где был использован инструмент yEd,
  • 35:48 - 35:53
    и затем я начал отрисовывать
    эти выражения формы,
  • 35:53 - 35:58
    и потом регенерировать эту схему
  • 35:58 - 36:01
    в формат, близкий к Shape Expressions,
  • 36:01 - 36:05
    понятный людям,
  • 36:05 - 36:07
    которых слишком пугает
    язык Shape Expressions.
  • 36:08 - 36:12
    Но есть проблема с визуальным описанием,
  • 36:12 - 36:18
    потому что это также схема,
    кем-то нарисованная в yEd.
  • 36:18 - 36:24
    Вот ещё одна, замечательная.
  • 36:24 - 36:27
    Я бы такую себе на стену повесил,
  • 36:27 - 36:30
    но она пока несовместима.
  • 36:30 - 36:33
    Хочу завершить своё выступление слайдом,
  • 36:33 - 36:36
    который я позаимствовал.
  • 36:36 - 36:38
    Для меня честь показать его аудитории.
  • 36:38 - 36:39
    Он мне очень нравится:
  • 36:39 - 36:42
    «Люди думают, что RDF -- это боль
    из-за его сложности.
  • 36:42 - 36:44
    Но на самом деле всё ещё хуже.
  • 36:44 - 36:48
    RDF очень прост, но он позволяет работать
    с реальными данными
  • 36:48 - 36:50
    и невероятно сложными проблемами.
  • 36:50 - 36:52
    Можно избежать использования RDF,
  • 36:52 - 36:56
    но вряд ли получится избежать
    сложных данных и компьютерных проблем».
  • 36:56 - 37:00
    Речь об RDF, но, я думаю,
    подходит под моделирование в целом.
  • 37:00 - 37:03
    Мой вопрос -- должны ли мы...
  • 37:03 - 37:06
    Как мы будем моделировать?
  • 37:06 - 37:11
    Поговорим о ShEx,
    или визуальных моделях, или...
  • 37:11 - 37:13
    Как нам продолжить?
  • 37:13 - 37:15
    Спасибо за уделённое время.
  • 37:15 - 37:18
    (аплодисменты)
  • 37:20 - 37:21
    (Лидия) Спасибо большое.
  • 37:22 - 37:24
    Можете выйти вперёд,
  • 37:24 - 37:28
    чтобы аудитория могла задать вопросы.
  • 37:29 - 37:30
    Есть вопросы?
  • 37:32 - 37:33
    Да.
  • 37:34 - 37:37
    Думаю, для камеры нужно, чтобы...
  • 37:39 - 37:41
    (Лидия смеётся) Да.
  • 37:43 - 37:46
    (голос из зала 1) Вопрос Кристине, думаю.
  • 37:47 - 37:52
    Вы упоминали термин «прирост информации»
  • 37:52 - 37:54
    от объединения с другими системами.
  • 37:54 - 37:57
    Существует информационно-теоретический
    показатель -- прирост информации,
  • 37:57 - 37:58
    основанный на статистике и вероятности.
  • 38:00 - 38:02
    Вы имели в виду именно этот показатель?
  • 38:02 - 38:04
    Прирост информации
    на основе теории вероятности,
  • 38:04 - 38:05
    теории информации,
  • 38:05 - 38:09
    или просто такая концептуальная идея
    для измерения прироста информации?
  • 38:09 - 38:13
    Нет, мы действительно
    определили и применили показатели,
  • 38:14 - 38:20
    используя энтропию Шеннона,
    поэтому смысл именно такой.
  • 38:20 - 38:22
    Не хочу вдаваться в детали
    конкретных формул...
  • 38:22 - 38:25
    (голос из зала 1) Нет, конечно,
    поэтому и прозвучал вопрос.
  • 38:25 - 38:27
    - (Кристина) Да.
    - (голос из зала 1) Спасибо.
  • 38:33 - 38:35
    (голос из зала 2) Это больше
    комментарий, нежели вопрос.
  • 38:35 - 38:37
    (Лидия) Да, конечно.
  • 38:37 - 38:40
    (голос из зала 2) Акцент был на элементах,
  • 38:40 - 38:43
    на их качестве и полноте,
  • 38:43 - 38:47
    но меня беспокоит,
    что мы не применяем это к иерархиям,
  • 38:47 - 38:51
    и наша частая проблема -- плохая иерархия.
  • 38:51 - 38:53
    Мы видим, что это становится
    реальной проблемой
  • 38:53 - 38:56
    при обычным поиске и других вещах.
  • 38:57 - 39:01
    Мы можем импортировать способ,
  • 39:01 - 39:05
    по которому внешние тезаурусы
    выстраивают свои иерархии,
  • 39:05 - 39:10
    используя квалификатор P4900,
    более широкое понятие.
  • 39:11 - 39:16
    Но я думаю, для этого есть
    более подходящие инструменты,
  • 39:16 - 39:21
    и вы сможете импортировать
    иерархию внешнего тезауруса,
  • 39:21 - 39:24
    отобразить её на элементы Викиданных.
  • 39:24 - 39:28
    И связав её с этими квалификаторами P4900,
  • 39:28 - 39:31
    вы можете делать
    хорошие запросы через SPARQL,
  • 39:32 - 39:38
    чтобы увидеть, где наша иерархия
    расходится с внешней.
  • 39:38 - 39:41
    Например, вы можете знать
    [Паолу Морма], под псевдонимом PKM,
  • 39:41 - 39:44
    этот пользователь
    создаёт много статей о моде.
  • 39:44 - 39:51
    Мы включаем их в иерархию
    тезауруса европейской моды
  • 39:51 - 39:54
    и в иерархию тезауруса
    искусства и архитектуры,
  • 39:54 - 39:58
    а потом мы видим, какие пробелы
    были в элементах более высокого уровня.
  • 39:58 - 40:01
    Для нас это реальная проблема,
    потому что часто попадаются вещи,
  • 40:01 - 40:04
    которые существуют в Википедии
    только как страницы значений,
  • 40:04 - 40:09
    многие элементы более высокого уровня
    отсутствуют в наших иерархиях,
  • 40:09 - 40:14
    и мы должны рассмотреть это
    с точки зрения качества и полноты,
  • 40:14 - 40:19
    но что действительно поможет,
    станет лучшим инструментом,
  • 40:19 - 40:21
    чем те дебри скриптов, написанных мной, --
  • 40:21 - 40:26
    если бы кто-то поместил это
    в PAWS notebook на Python,
  • 40:27 - 40:32
    чтобы можно было извлечь
    внешний тезаурус, взять его иерархию,
  • 40:32 - 40:35
    которая может быть доступна
    как связанные данные или же нет,
  • 40:35 - 40:41
    чтобы поместить это в QuickStatements,
    чтобы вставить значения P4900.
  • 40:41 - 40:42
    Затем позже,
  • 40:42 - 40:45
    когда наше представление
    станет более сложным,
  • 40:45 - 40:50
    обновить эти значения P4900,
    потому что добавляются данные,
  • 40:50 - 40:52
    представление становится
    более комплексным,
  • 40:52 - 40:55
    значения этих квалификаторов нужно менять,
  • 40:56 - 41:00
    чтобы показать, что в нашей системе
    всё больше их иерархии.
  • 41:00 - 41:04
    Если бы кто-то мог сделать это,
    думаю, это было бы очень полезно,
  • 41:04 - 41:07
    и мы должны рассмотреть
    и другие подходы
  • 41:07 - 41:11
    для улучшения качества и полноты
    на уровне иерархии,
  • 41:11 - 41:12
    а не только на уровне элемента.
  • 41:13 - 41:15
    (Андра) Могу я кое-что добавить?
  • 41:16 - 41:20
    Да, и мы это делаем,
  • 41:20 - 41:24
    и я рекомендую посмотреть
    на выражение формы, которое сделал Финн
  • 41:24 - 41:26
    с лексическими данными,
  • 41:26 - 41:27
    где он создаёт выражения формы,
  • 41:27 - 41:30
    а затем опирается
    на другие выражения формы,
  • 41:30 - 41:33
    так получается концепция
    связанных выражений формы в Викиданных.
  • 41:33 - 41:35
    В частности, пример использования,
    если я правильно понимаю --
  • 41:35 - 41:37
    это именно то, что мы делаем в Gene Wiki.
  • 41:37 - 41:41
    Есть онтология заболеваний,
    которая помещена в Викиданные,
  • 41:41 - 41:45
    а затем поступают данные о заболевании,
    и мы применяем Shape Expressions,
  • 41:45 - 41:47
    чтобы посмотреть,
    соответствуют ли данные тезаурусу.
  • 41:47 - 41:51
    Есть и другие тезаурусы или другие
    онтологии или контролируемые словари,
  • 41:51 - 41:53
    которые ещё должны войти в Викиданные,
  • 41:53 - 41:55
    и именно поэтому инструмент
    Shape Expressions так интересен --
  • 41:55 - 41:58
    вы можете применять его
    для онтологии заболеваний,
  • 41:58 - 42:00
    для MeSH.
  • 42:00 - 42:02
    Теперь вам нужно проверить качество.
  • 42:02 - 42:04
    Потому что в Викиданных
    также есть контекст,
  • 42:04 - 42:10
    когда у вас есть контролируемый словарь,
    вы считаете, что качество соответствует,
  • 42:10 - 42:12
    но могут быть случаи,
    когда сообщество не согласно.
  • 42:12 - 42:16
    Инструмент уже есть,
    но теперь нужно создать эти модели
  • 42:16 - 42:18
    и применять их для разных случаев.
  • 42:19 - 42:21
    (голос из зала 2)
    Shape Expressions очень полезен,
  • 42:21 - 42:26
    если у вас уже есть внешняя онтология,
    которая отображается в Викиданных,
  • 42:26 - 42:29
    но моя проблема в том,
    что всё доходит до той стадии,
  • 42:29 - 42:35
    когда выясняется, какой части
    внешней онтологии ещё нет в Викиданных,
  • 42:35 - 42:36
    и где есть пробелы,
  • 42:36 - 42:41
    и, я думаю, в этом случае иметь
    более надёжные инструменты,
  • 42:41 - 42:44
    чтобы увидеть, чего не хватает
    из внешних онтологий,
  • 42:44 - 42:46
    было бы очень полезно.
  • 42:48 - 42:49
    Самая большая проблема
  • 42:49 - 42:51
    не в инструментах, а в лицензировании.
  • 42:52 - 42:55
    Поместить онтологии в Викиданные
    на самом деле очень просто,
  • 42:55 - 42:59
    но большинство онтологий имеют,
    как я это вежливо называю,
  • 43:00 - 43:03
    ограниченное лицензирование,
    поэтому они не совместимы с Викиданными.
  • 43:04 - 43:07
    (голос из зала 2) Есть множество
    тезаурусов из государственного сектора
  • 43:07 - 43:08
    в сфере культуры.
  • 43:08 - 43:11
    - (Андра) Тогда нам нужно поговорить.
    - (голос из зала 2) Это не проблема.
  • 43:11 - 43:12
    (Андра) Тогда поговорим.
  • 43:14 - 43:19
    (голос из зала 3) Мой комментарий --
    на самом деле ответ Джеймсу.
  • 43:19 - 43:22
    Дело в том, что из иерархий
    получаются графы,
  • 43:22 - 43:24
    и когда ты хочешь...
  • 43:25 - 43:29
    Я хочу в основном поговорить
    об общей проблеме в иерархиях --
  • 43:29 - 43:31
    о циклических иерархиях,
  • 43:31 - 43:34
    они возвращаются друг к другу,
    когда есть проблема,
  • 43:34 - 43:36
    которой в иерархиях не должно быть.
  • 43:37 - 43:41
    Это, как ни странно,
    часто встречается в категориях Википедии
  • 43:41 - 43:43
    у нас много циклов в категориях,
  • 43:44 - 43:47
    но хорошая новость в том, что это...
  • 43:48 - 43:50
    Технически, это NP-полная задача,
  • 43:50 - 43:52
    и вы не можете найти её,
  • 43:52 - 43:53
    но легко найдёте, построив граф.
  • 43:54 - 43:57
    Но было разработано много способов
  • 43:57 - 44:01
    для нахождения проблем
    в этих иерархических графах.
  • 44:01 - 44:05
    Есть такая статья...
  • 44:05 - 44:08
    о разрыве циклов в искажённых иерархиях,
  • 44:08 - 44:13
    и перечисленные в ней методы помогли
    при категоризации английской Википедии.
  • 44:13 - 44:17
    Вы можете просто применять
    эти иерархии в Викиданных,
  • 44:17 - 44:20
    а затем найти
  • 44:20 - 44:22
    и просто удалить то,
    что вызывает проблемы,
  • 44:22 - 44:25
    и на самом деле найти проблемы.
  • 44:25 - 44:27
    Это просто идея.
  • 44:29 - 44:31
    (голос из зала 2)
    Это всё очень хорошо,
  • 44:31 - 44:34
    но я думаю, вы недооцениваете количество
    плохих связей между подклассами,
  • 44:34 - 44:35
    которые у нас имеются.
  • 44:35 - 44:40
    Это как город, который находится
    совершенно не в той стране,
  • 44:40 - 44:43
    при том, что существуют
    географические инструменты
  • 44:43 - 44:45
    для определения этой проблемы.
  • 44:45 - 44:49
    Нам в иерархиях нужны
    более эффективные инструменты,
  • 44:49 - 44:53
    которые смогут определить,
    где эквивалент элемента для страны
  • 44:53 - 44:58
    полностью отсутствует,
    или где он является подклассом чего-то,
  • 44:58 - 45:02
    не имеющего к нему отношения.
  • 45:03 - 45:07
    (Лидия) Я думаю, вы подобрались к тому,
  • 45:07 - 45:11
    что мы с моей командой
    постоянно слышим от людей,
  • 45:11 - 45:14
    которые многократно
    используют наши данные.
  • 45:15 - 45:17
    Отдельная точка данных -- это отлично,
  • 45:17 - 45:20
    но если вам нужно посмотреть
    на онтологию и так далее,
  • 45:20 - 45:22
    то становится очень...
  • 45:22 - 45:26
    Я думаю, одна из больших проблем,
    почему это происходит --
  • 45:26 - 45:31
    множество правок в Викиданных
  • 45:31 - 45:35
    касаются отдельного элемента,
  • 45:35 - 45:36
    вы редактируете этот элемент,
  • 45:38 - 45:42
    не понимая, что это может привести
    к глобальным последствиям
  • 45:42 - 45:44
    для остальной части графа, например.
  • 45:45 - 45:50
    Если у людей есть идеи,
    как сделать более заметными
  • 45:50 - 45:53
    последствия таких индивидуальных
    локальных правок,
  • 45:54 - 45:57
    думаю, что их стоит изучить,
  • 45:58 - 46:02
    чтобы лучше показать людям
    последствия их правок,
  • 46:02 - 46:03
    сделанных с добрыми намерениями,
  • 46:04 - 46:05
    какие они.
  • 46:07 - 46:12
    Ого! Хорошо, давайте начнём с вас,
    потом вы, потом вы, затем вы.
  • 46:12 - 46:14
    (голос из зала 4) После обсуждения,
  • 46:14 - 46:18
    просто чтобы выразить своё согласие
    с тем, что говорил Джеймс.
  • 46:18 - 46:22
    По сути, кажется,
    что самая опасная вещь -- иерархия,
  • 46:22 - 46:24
    не иерархия, но в целом
  • 46:24 - 46:28
    семантика связей
    между подклассами в Викиданных.
  • 46:28 - 46:33
    Я недавно изучал языки,
    только для этой конференции,
  • 46:33 - 46:35
    и, например, я нашёл много случаев,
  • 46:35 - 46:39
    когда язык является одновременно
    и частью и подклассом одного и того же.
  • 46:39 - 46:44
    Можно сказать, что у нас гибкая онтология.
  • 46:44 - 46:46
    Викиданные дают свободу выражения.
  • 46:46 - 46:47
    Потому что, например,
  • 46:47 - 46:51
    эта онтология языков сложна
    с политической точки зрения.
  • 46:51 - 46:55
    Даже хорошо иметь возможность
    выразить уровень неопределённости.
  • 46:55 - 46:58
    Но представьте, как к этому
    применить машинное чтение.
  • 46:58 - 46:59
    Действительно проблематично.
  • 46:59 - 47:00
    И опять же,
  • 47:00 - 47:04
    я не думаю, что онтология
    была импортирована откуда-либо.
  • 47:04 - 47:05
    Она изначально наша.
  • 47:05 - 47:08
    Она с самого начала собрана из Википедии.
  • 47:08 - 47:11
    Так что мне интересно...
    Shape Expressions -- отличный инструмент,
  • 47:11 - 47:16
    который проверяет и исправляет
    онтологию Википедии
  • 47:16 - 47:18
    с помощью внешних ресурсов,
    прекрасная идея.
  • 47:19 - 47:20
    В конце концов,
  • 47:20 - 47:25
    получится ли у нас отразить
    внешние онтологии в Викиданных?
  • 47:25 - 47:29
    А также, что мы делаем
    с основной частью нашей онтологии
  • 47:29 - 47:31
    которая никогда не собирается
    из внешних ресурсов,
  • 47:31 - 47:32
    как нам исправить её?
  • 47:32 - 47:35
    Я действительно думаю,
    что это само по себе будет проблемой.
  • 47:35 - 47:40
    Мы должны сосредоточиться на этом
    независимо от идеи проверки онтологии
  • 47:40 - 47:42
    с помощью внешнего ресурса.
  • 47:49 - 47:53
    (голос из зала 5) Ограничения
    и формы очень впечатляют,
  • 47:53 - 47:55
    то, что мы можем сделать с ними,
  • 47:55 - 47:58
    но главный момент
    до сих пор не совсем понятен --
  • 47:58 - 48:03
    поскольку теперь мы можем более чётко
    сформулировать, чего ожидаем от данных.
  • 48:03 - 48:07
    Сначала каждый должен написать
    свои инструменты и скрипты,
  • 48:07 - 48:11
    сделать их более наглядными,
    и мы сможем обсудить это.
  • 48:11 - 48:14
    Но речь не о том, что верно, а что нет,
  • 48:14 - 48:16
    а об ожиданиях,
  • 48:16 - 48:18
    и у вас будут разные ожидания и обсуждения
  • 48:18 - 48:21
    того, как моделировать в Викиданных.
  • 48:23 - 48:26
    Текущее состояние --
    лишь один шаг в этом направлении,
  • 48:26 - 48:28
    потому что теперь нужно
  • 48:28 - 48:31
    привлечь много технических знаний,
  • 48:31 - 48:36
    и нам нужны лучшие способы
    визуализации этого ограничения,
  • 48:36 - 48:40
    возможно, преобразование его
    в более понятный людям язык,
  • 48:41 - 48:44
    но в меньшей степени здесь речь о том,
    что верно, а что нет.
  • 48:45 - 48:46
    (Лидия) Да.
  • 48:51 - 48:54
    (голос из зала 6) По поводу качества,
    хочу уточнить...
  • 48:54 - 48:57
    Я часто сталкивался с разногласиями,
  • 48:59 - 49:02
    связанными с разницей между
    экземпляром и подклассом.
  • 49:02 - 49:06
    Я бы сказал, ошибки в таких ситуациях
  • 49:06 - 49:12
    и попытки найти их
    были очень трудоёмким процессом.
  • 49:12 - 49:13
    То, к чему я пришёл:
  • 49:13 - 49:16
    «Если найти впечатляющие элементы, важные,
  • 49:16 - 49:19
    и затем использовать
    все экземпляры подкласса,
  • 49:19 - 49:22
    чтобы найти все производные
    этого утверждения», --
  • 49:22 - 49:26
    это очень полезный способ
    поиска ошибок.
  • 49:26 - 49:29
    Но мне было интересно,
  • 49:29 - 49:34
    можно ли использовать Shape Expressions
  • 49:34 - 49:37
    в качестве инструмента
    для решения таких проблем?
  • 49:41 - 49:43
    (голос из зала 7)
    Имеет ли структурный след ...
  • 49:46 - 49:49
    Если имеется структурный след,
    который может быть сфальсифицирован,
  • 49:49 - 49:51
    можно решить, что это неправильно,
  • 49:51 - 49:53
    а потом сделать это.
  • 49:53 - 49:57
    Но если это просто попытка сопоставления
    с объектами реального мира,
  • 49:57 - 49:59
    то вам потребуется очень много «мозгов».
  • 50:06 - 50:09
    (голос из зала 8) Привет,
    я Пабло Мендес из Apple Siri Knowledge.
  • 50:09 - 50:13
    Мы здесь, чтобы узнать,
    как помочь проекту и сообществу,
  • 50:13 - 50:16
    но Кристина совершила ошибку,
    спросив, чего мы хотим.
  • 50:16 - 50:20
    (смеётся) Думаю, одна вещь,
    которую хотелось бы увидеть,
  • 50:21 - 50:24
    связана с возможностью проверки --
  • 50:24 - 50:26
    одним из основных принципов
    проекта в сообществе,
  • 50:27 - 50:29
    а также с доверием.
  • 50:29 - 50:32
    Не все утверждения одинаковы,
    некоторые из них серьёзно оспариваются,
  • 50:32 - 50:33
    некоторые легко предположить,
  • 50:33 - 50:36
    например, чью-либо дату рождения
    можно проверить,
  • 50:36 - 50:40
    как вы видели сегодня в основном докладе,
    гендерные проблемы намного сложнее.
  • 50:40 - 50:43
    Можете ли вы немного
    рассказать о том, что вы знаете
  • 50:43 - 50:47
    о доверии и проверках --
    этих аспектах качества данных?
  • 50:55 - 50:58
    Если этого не много,
    хотелось бы намного больше. (смеётся)
  • 51:01 - 51:02
    (Лидия) Да.
  • 51:03 - 51:07
    Как выяснилось,
    нам нечего сказать. (смеётся)
  • 51:08 - 51:12
    (Андра) Я думаю, мы можем сделать многое,
    но у нас с вами вчера была дискуссия.
  • 51:12 - 51:16
    Мой любимый пример,
    как я выяснил вчера, уже устарел.
  • 51:16 - 51:20
    Если вы зайдёте
    на страницу элемента Q2, это Земля,
  • 51:20 - 51:23
    там есть утверждение, что Земля плоская.
  • 51:24 - 51:26
    Я люблю этот пример,
  • 51:26 - 51:28
    потому что есть сообщество,
    которое это утверждает,
  • 51:28 - 51:30
    и у них есть достоверные источники.
  • 51:30 - 51:32
    Так что я думаю, это реальный случай,
  • 51:32 - 51:35
    его не нужно оспаривать,
    он должен быть в Викиданных.
  • 51:35 - 51:40
    Я думаю, здесь Shape Expressions
    может быть действительно полезен,
  • 51:40 - 51:45
    потому что вам действительно
    может быть интересен этот прецедент,
  • 51:45 - 51:47
    или этот вариант использования,
    с которым вы не согласны,
  • 51:47 - 51:50
    но может быть и такой
    случай применения,
  • 51:50 - 51:51
    который вас заинтересует.
  • 51:51 - 51:53
    Например, глюкоза.
  • 51:53 - 51:57
    Биологу не интересно
  • 51:57 - 52:00
    строение молекулы глюкозы,
  • 52:00 - 52:03
    для него вся глюкоза одинаковая.
  • 52:03 - 52:06
    Но химика подобное покоробит,
  • 52:06 - 52:08
    существует 200 с лишним...
  • 52:08 - 52:10
    Когда у вас есть разные выражения формы,
  • 52:10 - 52:14
    я могу их применить с точки зрения химика.
  • 52:14 - 52:17
    А с точки зрения биолога
  • 52:17 - 52:19
    я применяю другое выражение формы.
  • 52:19 - 52:20
    А если вы хотите сотрудничать,
  • 52:20 - 52:23
    вы должны сказать Эрику о картах ShEx.
  • 52:26 - 52:29
    Но это только начало пути.
  • 52:29 - 52:32
    Но я лично верю,
    что это весьма полезно для этой области.
  • 52:34 - 52:36
    (Лидия) Вон там.
  • 52:38 - 52:39
    (смех)
  • 52:41 - 52:46
    (голос из зала 9) У меня несколько идей
    по некоторым моментам обсуждения,
  • 52:46 - 52:51
    постараюсь озвучить все.
    Было три идеи, так что...
  • 52:52 - 52:55
    Основываясь на том, что Джеймс сказал
    некоторое время назад,
  • 52:55 - 52:59
    у Викиданных с самого начала
    была очень большая проблема
  • 52:59 - 53:02
    в онтологии вышестоящего уровня.
  • 53:02 - 53:05
    Мы говорили об этом
    два года назад на WikidataCon,
  • 53:05 - 53:07
    и мы говорили об этом на Викимании.
  • 53:07 - 53:10
    На всех встречах по Викиданным
  • 53:10 - 53:12
    мы говорим об этом,
  • 53:12 - 53:16
    потому что это очень большая проблема
    на очень высоком уровне --
  • 53:16 - 53:22
    что такое сущность, работа,
    что такое жанр, искусство, --
  • 53:23 - 53:25
    все эти понятия очень важны.
  • 53:27 - 53:33
    И на самом деле это слабое место
    глобальной онтологии,
  • 53:33 - 53:37
    потому что люди регулярно наводят порядок
  • 53:38 - 53:41
    и тем самым всё ломают.
  • 53:43 - 53:49
    Некоторые из вас помнят парня,
    который из добрых намерений
  • 53:49 - 53:52
    «сломал» все города мира.
  • 53:52 - 53:58
    Элементы стали не географическими,
    везде были нарушения ограничений.
  • 53:59 - 54:00
    Это было сделано из добрых побуждений,
  • 54:00 - 54:04
    ведь он действительно
    исправлял ошибку в элементе,
  • 54:04 - 54:06
    но всё сломалось.
  • 54:06 - 54:09
    Я не уверена, как мы можем решить это,
  • 54:10 - 54:13
    поскольку нет ни одного
    внешнего учреждения,
  • 54:13 - 54:16
    у которого мы могли бы скопировать,
  • 54:16 - 54:19
    потому что все работают...
  • 54:19 - 54:22
    Если я работаю с базой данных
    исполнительского искусства,
  • 54:22 - 54:25
    я просто перейду на уровень
    исполнительского искусства,
  • 54:25 - 54:29
    я не буду переходить
    к философской концепции сущности,
  • 54:29 - 54:31
    и это, на самом деле...
  • 54:31 - 54:35
    Я не знаю ни одной базы данных,
    работающей на этом уровне,
  • 54:35 - 54:37
    но это самое слабое место Викиданных.
  • 54:38 - 54:41
    Вероятно, когда мы говорим
    о качестве данных,
  • 54:41 - 54:44
    это является важным аспектом.
  • 54:44 - 54:49
    Я думаю, это то же самое,
    что мы заявили...
  • 54:49 - 54:50
    Простите, я меняю тему,
  • 54:51 - 54:56
    но на разных сессиях
    мы говорили о качестве.
  • 54:56 - 54:59
    На самом деле некоторые из нас
    могут хорошо моделировать,
  • 54:59 - 55:01
    работают с ShEx и так далее.
  • 55:02 - 55:08
    Люди не видят этого в Викиданных,
    они не видят ShEx,
  • 55:08 - 55:10
    они не видят Вики-проект
    на странице обсуждения,
  • 55:10 - 55:11
    и иногда
  • 55:11 - 55:15
    они даже не видят
    страницы обсуждения свойств,
  • 55:15 - 55:20
    которые чётко заявляют,
    для чего используется конкретное свойство.
  • 55:20 - 55:24
    Например, на прошлой неделе,
    я добавила ограничение для свойства.
  • 55:24 - 55:26
    Ограничение было чётко прописано
  • 55:26 - 55:29
    в обсуждении создания свойства.
  • 55:29 - 55:35
    Я просто добавила ограничение,
    а кто-то возмутился:
  • 55:35 - 55:37
    «Что? Ты сломала все мои правки!»
  • 55:37 - 55:42
    Последние два года человек использовал
    это свойство неправильно.
  • 55:42 - 55:47
    Свойство было очень чёткое,
    но не было никаких предупреждений,
  • 55:47 - 55:49
    как и в Pink Pony,
  • 55:49 - 55:52
    мы также сказали на Викимании,
    что хотим делать Вики-проекты
  • 55:52 - 55:55
    более наглядными,
    делать ShEx более наглядным, но...
  • 55:55 - 55:57
    Это то, что сказала Кристина.
  • 55:57 - 56:02
    У нас проблема с визуализацией
    существующих решений.
  • 56:02 - 56:04
    На этой сессии
  • 56:04 - 56:07
    мы все говорим о том,
    как создать больше выражений формы,
  • 56:07 - 56:11
    или облегчить работу редакторов.
  • 56:12 - 56:16
    Но мы наводим порядок
    с первого дня существования Викиданных,
  • 56:16 - 56:21
    и, на глобальном уровне, мы проигрываем,
  • 56:21 - 56:23
    поскольку, насколько я знаю,
    имена сложные,
  • 56:23 - 56:26
    но я единственная, кто их редактирует.
  • 56:27 - 56:30
    Кто-то добавил имя на латинице
  • 56:30 - 56:32
    всем китайским исследователям --
  • 56:32 - 56:36
    мне понадобятся месяцы,
    чтобы убрать это, и сама я не справлюсь,
  • 56:36 - 56:39
    а он сделал массовую выгрузку.
  • 56:39 - 56:44
    Проблем с визуализацией больше,
    чем с инструментами, я думаю,
  • 56:44 - 56:46
    поскольку у нас много инструментов.
  • 56:46 - 56:50
    (Лидия) К сожалению,
    мне дали знак, (смеётся),
  • 56:50 - 56:52
    поэтому нам нужно заканчивать.
  • 56:52 - 56:54
    Большое спасибо за ваши комментарии,
  • 56:54 - 56:57
    надеюсь, вы продолжите обсуждение позже,
  • 56:57 - 56:58
    и спасибо за ваш вклад.
  • 56:58 - 57:00
    (аплодисменты)
  • 57:04 - 57:07
    WikidataCon 2019
    Викиданные и языки
Title:
cdn.media.ccc.de/.../wikidatacon2019-9-eng-Data_quality_panel_hd.mp4
Video Language:
English
Duration:
57:10

Russian subtitles

Revisions