cdn.media.ccc.de/.../wikidatacon2019-9-eng-Data_quality_panel_hd.mp4

Edit subtitles

0:00 - 0:02

Качество данных
Панельная дискуссия
0:02 - 0:04

Клаудиа Мюллер-Бирн, Лукас Веркмейстер,
0:04 - 0:06

Хосе Эмилио Лабра Гайо,
Кристина Сарасуа, Андра
0:06 - 0:09

Приветствую всех на панельной дискуссии,
посвящённой качеству данных.
0:10 - 0:14

Качество данных имеет большое значение,
ведь всё больше и больше людей
0:14 - 0:17

полагаются на хорошее качество данных,
0:17 - 0:19

о чём мы сегодня и поговорим.
0:21 - 0:27

Будет четыре докладчика, которые выступят
с небольшими презентациями на темы,
0:27 - 0:30

связанные с качеством данных,
а далее будут вопросы и ответы.
0:30 - 0:32

Начнём с Лукаса.
0:34 - 0:35

Спасибо.
0:36 - 0:40

Привет, я Лукас,
и я начну с краткого обзора
0:40 - 0:44

инструментов качества данных,
которые уже имеются в Викиданных,
0:44 - 0:46

и тех, которые скоро появятся.
0:47 - 0:51

Я выделил несколько общих тем:
0:51 - 0:54

визуализация ошибок,
решаемость проблем,
0:54 - 0:56

больше внимания данным
с целью выявления проблем,
0:57 - 1:00

исправление общих источников ошибок,
1:00 - 1:03

обеспечение качества существующих данных,
1:03 - 1:04

а также курирование.
1:05 - 1:08

Что у нас есть сейчас?
1:08 - 1:10

Начнём с ограничения свойств.
1:10 - 1:13

Вы наверняка видели это,
когда заходили на Викиданные.
1:13 - 1:14

Иногда можно видеть эти иконки,
1:15 - 1:17

которые проверяют
внутреннюю согласованность данных.
1:17 - 1:21

Например, если одно событие
следует за другим,
1:21 - 1:24

то за другим должно последовать
и это событие,
1:24 - 1:27

элемент WikidataCon,
который, похоже, отсутствует.
1:27 - 1:30

Это появилось пару дней назад.
1:30 - 1:35

Если этого для вас недостаточно,
1:35 - 1:38

вы можете ввести любой запрос,
используя сервис запросов,
1:38 - 1:40

который, конечно,
полезен для многих вещей,
1:40 - 1:45

но также его можно использовать
для поиска ошибок.
1:45 - 1:47

Например, если вы заметили
какую-то ошибку,
1:47 - 1:50

вы можете проверить, есть ли ещё места,
1:50 - 1:52

где люди допустили похожие ошибки,
1:52 - 1:53

и найти их с помощью сервиса запросов.
1:53 - 1:55

Также можно совместить
эти два инструмента
1:55 - 1:58

и искать нарушения ограничений,
1:58 - 2:01

например, нарушения в какой-то области
2:01 - 2:04

или нужном вам Вики-проекте,
2:04 - 2:07

хотя результаты пока неполные,
к сожалению.
2:08 - 2:10

Оценивание правок.
2:11 - 2:13

Я думаю, это из последних изменений.
2:13 - 2:16

Также можете добавить в свой
список наблюдения автоматическую оценку:
2:16 - 2:20

сделана ли правка
с добрыми намерениями или нет,
2:20 - 2:22

нанесёт ли она ущерб или нет.
2:22 - 2:24

Думаю, здесь два направления.
2:24 - 2:26

Если хотите, вы можете
2:26 - 2:28

сосредоточиться на поиске правок
с добрыми намерениями,
2:28 - 2:30

наносящих ущерб.
2:30 - 2:33

Если вы дружелюбны и вежливы,
2:33 - 2:37

можете написать этим редакторам:
«Спасибо за ваш вклад,
2:37 - 2:41

вот, как это следует делать,
но всё равно спасибо».
2:41 - 2:42

Если вы не хотите так делать,
2:42 - 2:44

можно найти правки
с недобрыми намерениями,
2:44 - 2:45

наносящие ущерб,
2:45 - 2:46

и откатить их назад.
2:48 - 2:50

Подобно этому есть рейтинг сущностей.
2:50 - 2:53

Вместо оценивания правки,
последующего за ней изменения,
2:53 - 2:54

вы оцениваете ревизию в целом.
2:54 - 2:56

Я думаю, это такой же инструмент
измерения качества,
2:56 - 3:00

о котором говорила Лидия
в начале конференции.
3:00 - 3:05

Вот здесь скрипт, который ставит
оценку от одного до пяти.
3:05 - 3:08

Он оценивает качество текущего элемента.
3:10 - 3:13

Инструмент проверки
первичных источников предназначен
3:13 - 3:15

для любой базы данных,
которую вы хотите импортировать,
3:15 - 3:18

но качество её данных не настолько высоко,
чтобы напрямую добавлять её в Викиданные,
3:18 - 3:20

поэтому вы добавляете базу
в этот инструмент,
3:20 - 3:23

после чего люди могут решить,
3:23 - 3:26

добавлять или не добавлять
отдельные утверждения.
3:29 - 3:30

Отображение координат в виде карт --
3:30 - 3:32

в основном, функция для удобства,
3:32 - 3:34

но она также полезна
для контроля качества.
3:34 - 3:37

Например, если вы видите, что здесь
должен быть офис Викимедиа Германии,
3:37 - 3:39

а координаты
где-то в Индийском океане,
3:39 - 3:42

то вы понимаете, что это неверный адрес,
3:42 - 3:45

и вам легче это заметить,
чем если бы у вас были только цифры.
3:46 - 3:50

Этот инструмент -- индикатор
относительной полноты.
3:50 - 3:52

Вот эта маленькая иконка здесь,
3:53 - 3:56

которая сообщает, насколько полно
описан конкретный элемент,
3:56 - 3:58

и каких свойств не хватает.
3:58 - 4:00

Это очень полезно,
если вы редактируете элемент
4:00 - 4:03

и не очень ориентируетесь в данной сфере
4:03 - 4:06

и не знаете,
какие свойства нужно указывать,
4:06 - 4:08

тогда этот инструмент будет очень полезен.
4:10 - 4:12

Также мы используем
инструмент Shape Expressions.
4:12 - 4:16

Думаю, Андра или Хосе
расскажут об этом больше,
4:16 - 4:21

но, по сути, это очень мощный способ
сравнения имеющихся данных со схемой,
4:21 - 4:22

например, какое утверждение
4:22 - 4:23

должны иметь определённые сущности,
4:23 - 4:25

с какими сущностями
они должны быть связаны
4:25 - 4:26

и как должны выглядеть.
4:26 - 4:29

Таким образом вы сможете
находить проблемы.
4:30 - 4:32

Я думаю... Нет, ещё не всё.
4:32 - 4:34

Integraality, или панель свойств.
4:34 - 4:37

На ней видны данные,
которые у вас уже есть.
4:37 - 4:39

Например, эти данные
из Вики-проекта о красных пандах,
4:40 - 4:41

и вы видите,
4:41 - 4:44

что у большинства красных панд
известен пол,
4:44 - 4:47

дата рождения зависит от зоопарка,
4:47 - 4:50

и у нас почти нет погибших панд,
что замечательно,
4:50 - 4:51

(смех)
4:51 - 4:53

потому что они такие милые.
4:54 - 4:56

Так что это тоже полезно.
4:56 - 4:59

Теперь о том, что ожидается.
5:00 - 5:04

Wikidata Bridge,
ранее известный как client editing
5:04 - 5:07

для редактирования Викиданных
прямо из карточек Википедии.
5:08 - 5:11

Это, с одной стороны,
позволит лучше контролировать данные,
5:11 - 5:13

так как их сможет увидеть
большее число людей,
5:13 - 5:16

и, мы надеемся, будет способствовать
5:16 - 5:19

более частому использованию
Викиданных в Википедии,
5:19 - 5:21

и это значит, большее число людей
сможет заметить,
5:21 - 5:24

что, например, некоторые данные устарели
и должны быть обновлены,
5:24 - 5:27

чем если бы они видели эти данные
только в Викиданных.
5:29 - 5:31

Также есть испорченные ссылки.
5:31 - 5:34

Идея в том, что если вы редактируете
значение утверждения,
5:35 - 5:37

вы также можете обновить и ссылки,
5:37 - 5:39

если это не просто опечатка
или что-то ещё.
5:40 - 5:44

Эти испорченные ссылки
сигнализируют редакторам
5:44 - 5:50

и дают возможность увидеть,
какие другие правки были сделаны,
5:50 - 5:53

где отредактировали значение утверждения,
но не обновили ссылку,
5:53 - 5:55

и вы можете всё подредактировать
5:55 - 6:00

и решить, следует ли ещё что-то делать,
6:00 - 6:03

или всё в порядке,
и ссылку обновлять не нужно.
6:04 - 6:06

Перейдём к подписанным утверждениям.
6:06 - 6:09

Я думаю, это связано с тем опасением,
6:09 - 6:12

что некоторые источники данных...
6:14 - 6:16

Есть утверждение, на которое ссылаются,
например, через ЮНЕСКО
6:16 - 6:18

или какое-то другое учреждение,
6:18 - 6:20

а потом кто-то неожиданно
вносит вандальные правки,
6:20 - 6:22

и они переживают, что это будет выглядеть,
6:23 - 6:27

как будто организация,
например, ЮНЕСКО, принимает эти правки.
6:27 - 6:29

В случае с подписанными утверждениями,
6:29 - 6:31

они могут криптографически
подписать эту ссылку,
6:31 - 6:34

и это не помешает её редактированию,
6:34 - 6:37

но если кто-то внесёт в утверждение
вандальные правки
6:37 - 6:40

или любые другие,
подпись будет недействительна,
6:40 - 6:43

и это уже не совсем то,
что утверждает организация.
6:43 - 6:45

Возможно, это хорошая правка,
6:45 - 6:47

и нужно просто переподписать
новое утверждение,
6:47 - 6:50

но, возможно, правку следует отменить.
6:51 - 6:54

Думаю, это будет увлекательно.
6:54 - 6:57

Citoid -- удивительная система,
которая есть в Википедии,
6:57 - 7:01

где вы можете вставить URL,
идентификатор или ISBN
7:01 - 7:05

или идентификатор Викиданных,
в общем, что угодно в визуальный редактор,
7:05 - 7:08

и это трансформируется
в красиво отформатированную ссылку,
7:08 - 7:11

которая содержит все нужные вам данные,
и ей легко пользоваться.
7:11 - 7:14

Для сравнения, если я хочу
добавить ссылку в Викиданных,
7:14 - 7:19

я обычно должен добавить URL ссылки,
название, строку с именем автора,
7:19 - 7:20

место и дату публикации,
7:20 - 7:24

даты получения --
по крайней мере, всё это --
7:24 - 7:25

и это очень утомительно,
7:25 - 7:29

а интеграция Citoid в Викибазу
должна помочь в этом.
7:30 - 7:34

Думаю, у меня всё.
7:34 - 7:36

Сейчас передаю слово Кристине.
7:38 - 7:41

(аплодисменты)
7:41 - 7:43

Как можно улучшить
управление качеством данных?
7:44 - 7:45

Привет, я Кристина.
7:45 - 7:48

Я научный сотрудник
Цюрихского университета
7:48 - 7:51

и активный член
швейцарского Вики-сообщества.
7:53 - 7:58

Когда мы вместе с Клаудией Мюллер-Бирн
отправляли наш доклад на WikidataCon,
7:58 - 8:00

мы хотели продолжить обсуждение,
8:00 - 8:02

начатое в этом году
8:02 - 8:07

на семинаре по качеству данных,
а также на нескольких сессиях Викимании.
8:07 - 8:11

В своём выступлении мы, в основном,
поделимся некоторыми соображениями
8:11 - 8:14

как сообщества, так и нашими,
8:14 - 8:17

и продолжим обсуждение.
8:17 - 8:20

Нам хотелось бы и дальше
активно общаться с вами.
8:22 - 8:23

Мы считаем, что очень важно
8:23 - 8:28

постоянно спрашивать
всех пользователей сообщества
8:28 - 8:32

о том, что им действительно нужно,
какие у них проблемы с качеством данных,
8:32 - 8:35

не только редакторов
но и людей, которые пишут код,
8:35 - 8:36

либо пользуются данными,
8:36 - 8:38

а также исследователей,
которые фактически используют
8:38 - 8:41

всю историю редактирования
для анализа происходящего.
8:42 - 8:46

Мы сделали обзор
примерно 80-ти инструментов,
8:46 - 8:48

существующих в Викиданных,
8:48 - 8:52

и привели их в соответствие
с разными показателями качества данных.
8:52 - 8:54

Мы увидели, что на самом деле
8:54 - 8:58

многие инструменты
отслеживают полноту,
8:58 - 9:03

а также некоторые из них поддерживают
взаимосвязи между данными.
9:03 - 9:08

Есть потребность в инструментах,
оценивающих разнообразие данных --
9:08 - 9:13

то, что мы можем иметь в Викиданных,
9:13 - 9:16

в особенности, этот принцип
разработки Викиданных,
9:16 - 9:18

в котором мы можем иметь
множественность --
9:18 - 9:20

разные утверждения
с разными значениями
9:21 - 9:22

из разных источников.
9:22 - 9:25

Поскольку это вторичный источник,
у нас нет инструментов,
9:25 - 9:28

сообщающих, сколько существует
множественных утверждений,
9:28 - 9:31

сколько из них мы можем улучшить
и каким образом,
9:31 - 9:33

и мы также точно не знаем,
9:33 - 9:36

в чём причина этой множественности.
9:36 - 9:39

На этих собраниях сообщества
9:39 - 9:43

мы обсуждали проблемы,
всё ещё требующие внимания.
9:43 - 9:46

Например, краудсорсинговые сообщества --
9:46 - 9:49

это очень хорошо,
потому что разные люди работают
9:49 - 9:52

с разными частями данных или графа,
9:52 - 9:55

у всех людей разные
фундаментальные знания.
9:55 - 9:59

Но на самом деле
очень трудно достичь однородности,
9:59 - 10:05

потому что люди используют
разные свойства по-разному,
10:05 - 10:08

и у них разные ожидания
от описаний сущностей.
10:09 - 10:13

Люди также сказали,
что им нужно больше инструментов,
10:13 - 10:16

которые дают лучший обзор
глобального статуса сущностей,
10:16 - 10:21

показывают, каких сущностей не хватает
с точки зрения полноты,
10:21 - 10:26

а также над чем сейчас работают люди.
10:26 - 10:31

Они также многократно упоминают
более тесное сотрудничество
10:31 - 10:33

не только между разными языками,
но и Вики-проектами
10:33 - 10:36

и различным платформами Викимедии.
10:36 - 10:40

Мы опубликовали все комментарии,
которые услышали во время этих обсуждений.
10:40 - 10:43

Вы можете посмотреть их,
пройдя по ссылкам в Etherpad,
10:43 - 10:46

а также на странице Викимании.
10:46 - 10:48

Некоторые новые решения
10:48 - 10:53

заключались в обмене лучшими практиками,
10:53 - 10:56

которые реализуются
в разных Вики-проектах,
10:56 - 11:01

но также людям нужны инструменты,
помогающие организовать работу в командах
11:01 - 11:04

или, по крайней мере,
понять, кто над этим работает.
11:04 - 11:08

Также люди упоминали,
что они хотят больше примеров
11:08 - 11:12

и шаблонов, которые помогут в работе.
11:13 - 11:14

У нас есть контакты
11:14 - 11:19

с организациями открытых
государственных данных
11:19 - 11:20

и, в частности,
11:20 - 11:23

я поддерживаю контакты
с кантоном и городом Цюрих.
11:23 - 11:26

Они очень заинтересованы в Викиданных,
11:26 - 11:30

потому что хотят, чтобы их данные
были доступны для всех
11:30 - 11:34

в таком месте, где люди
могут ознакомиться c этими данными.
11:34 - 11:37

Для них было бы действительно интересно
11:37 - 11:39

иметь какие-то качественные показатели
11:39 - 11:41

как в Вики, они уже есть,
11:41 - 11:43

но и в результатах SPARQL,
11:43 - 11:46

чтобы знать, доверять ли данным,
полученным от сообщества.
11:46 - 11:48

Они также хотят знать,
11:48 - 11:51

какие из их наборов данных
полезны для Викиданных,
11:51 - 11:53

и чтобы был такой инструмент,
11:53 - 11:56

который поможет им
оценивать это автоматически.
11:56 - 11:59

Им также нужна
какая-то методология или инструмент,
11:59 - 12:01

который бы помог им решить,
12:01 - 12:04

импортировать свои данные
или связывать их с Викиданными,
12:04 - 12:06

поскольку в некоторых случаях
у них есть свои наборы
12:06 - 12:07

связанных открытых данных,
12:07 - 12:10

поэтому они не знают,
публиковать эти данные
12:10 - 12:13

или создавать в наборах данных
ссылки на Викиданные
12:13 - 12:14

и наоборот.
12:15 - 12:20

Они также хотят знать, какие элементы
Викиданных ссылаются на их сайты.
12:20 - 12:23

Когда они делают такой запрос,
12:23 - 12:25

он остаётся без ответа
с истёкшим временем ожидания,
12:25 - 12:28

поэтому, возможно, нам действительно
стоит создавать больше инструментов,
12:28 - 12:32

которые помогут им получить
ответы на их вопросы.
12:33 - 12:36

Кроме того,
12:36 - 12:38

нам, вики-исследователям,
12:38 - 12:42

тоже иногда не хватает информации
в описаниях изменений.
12:42 - 12:45

Я помню, что когда
мы делали какую-то работу,
12:45 - 12:47

чтобы понять различное поведение
12:47 - 12:50

редакторов, ботов
или анонимных пользователей
12:50 - 12:53

с помощью инструментов,
12:53 - 12:56

нам действительно не хватало, например,
12:56 - 13:01

стандартного способа отслеживания
использования этих инструментов.
13:01 - 13:03

Есть несколько инструментов,
которые уже делают это,
13:03 - 13:05

например, PetScan и многие другие,
13:05 - 13:09

но, возможно, в сообществе
мы должны больше обсуждать,
13:09 - 13:14

как фиксировать более точное
происхождение данных.
13:14 - 13:16

Далее, мы полагаем,
13:16 - 13:21

что нужно подумать о более конкретных
показателях качества данных,
13:21 - 13:25

относящихся к связанным данным,
а не ко всем типам данных,
13:25 - 13:29

поэтому мы разрабатываем комплекс мер
13:29 - 13:32

для получения доступа
к приросту информации по ссылкам,
13:32 - 13:34

подразумевая то,
13:34 - 13:37

что когда мы связываем
Викиданные с другими наборами данных,
13:37 - 13:38

мы также должны думать о том,
13:38 - 13:42

сколько сущностей
получается в классификации,
13:42 - 13:46

описании и в словарях,
которыми они пользуются.
13:46 - 13:51

Просто для примера, что я имею в виду:
13:51 - 13:54

в нашем случае это будут Викиданные
13:54 - 13:58

или внешний набор данных,
который ссылается на Викиданные.
13:58 - 14:00

У нас есть сущность для человека
по имени Наташа Ной,
14:00 - 14:03

у нас есть принадлежность и другие вещи,
14:03 - 14:05

а затем мы ссылаемся на внешний источник,
14:05 - 14:09

и эта сущность с таким же именем,
но значение одно и то же.
14:09 - 14:13

Лучше сослаться на сущность
с другим действительным именем,
14:13 - 14:17

потому что имя этого человека
может быть написано двумя способами,
14:17 - 14:20

а также на другую информацию,
отсутствующую в Викиданных
14:20 - 14:22

или других наборах данных.
14:22 - 14:25

Лучше даже то,
14:25 - 14:28

что мы рассматриваем целевой набор данных,
14:28 - 14:31

что также существуют новые способы
классификации информации.
14:31 - 14:35

Не только то, что это человек,
но в другом наборе данных
14:35 - 14:38

сообщается, что это женщина,
или другая информация,
14:38 - 14:40

с которой классифицируется сущность.
14:40 - 14:43

В другом наборе данных
используются другие словари,
14:43 - 14:47

и это помогает при поиске информации.
14:48 - 14:51

Мы также считаем,
14:51 - 14:56

что можем более наглядно представлять
федеративные запросы,
14:56 - 15:00

потому что по журналу запросов,
предоставленному Малышевым и др.,
15:01 - 15:04

мы видим, что на самом деле
среди органических запросов
15:04 - 15:07

число федеративных запросов
очень небольшое.
15:07 - 15:09

На самом деле, федерация является
15:09 - 15:13

одним из ключевых преимуществ
наличия связанных данных,
15:13 - 15:17

так что, возможно, сообществу или людям,
которые пользуются Викиданными,
15:17 - 15:19

тоже нужно больше примеров.
15:19 - 15:23

Если мы посмотрим на список
используемых точек доступа,
15:23 - 15:25

он будет неполным,
у нас есть намного больше.
15:25 - 15:30

Эти данные были проанализированы
по запросам до марта 2018 года,
15:30 - 15:35

но мы должны проверить список
имеющихся объединённых точек доступа
15:35 - 15:37

и посмотреть,
действительно ли мы их используем.
15:38 - 15:40

У меня есть два вопроса к зрителям,
15:40 - 15:43

которые, возможно, мы впоследствии
можем использовать для обсуждения:
15:43 - 15:46

какие, на ваш взгляд, проблемы
с качеством данных нужно рассмотреть,
15:46 - 15:47

учитывая ваши потребности,
15:47 - 15:50

а также, где вам нужно
больше автоматизации --
15:50 - 15:53

при редактировании или патрулировании?
15:54 - 15:55

Это всё, большое спасибо.
15:56 - 15:58

(аплодисменты)
16:04 - 16:06

WikidataCon 2019
Викиданные и языки
16:06 - 16:08

Визуализация схемы сущности
и авторские инструменты
16:08 - 16:10

(Хосе Эмилио Лабра) Я расскажу
о некоторых инструментах,
16:10 - 16:13

которые мы разработали,
16:13 - 16:16

связанных с Shape Expressions.
16:16 - 16:19

Об этом я буду говорить.
Меня зовут Хосе Эмилио Лабра.
16:19 - 16:23

Все эти инструменты
были разработаны разными людьми,
16:24 - 16:27

в основном все они связаны
с сообществом W3C ShEx,
16:27 - 16:29

или сообществом Shape Expressions.
16:30 - 16:36

Первый инструмент -- RDFShape,
это общий инструмент,
16:36 - 16:41

потому что Shape Expressions
используется не только для Викиданных,
16:41 - 16:44

это язык для проверки RDF в целом.
16:44 - 16:48

Этот инструмент был разработан
в основном мной,
16:48 - 16:51

и это инструмент для проверки RDF.
16:51 - 16:55

Если вы хотите узнать о RDF
или проверить RDF
16:55 - 16:59

или точки доступа SPARQL
не только в Викиданных,
16:59 - 17:01

я советую вам пользоваться
этим инструментом.
17:01 - 17:03

В том числе и для обучения.
17:03 - 17:06

Я преподаю в университете
17:06 - 17:09

и пользуюсь им для обучения RDF
в своём веб-курсе по семантике.
17:09 - 17:12

Если хотите изучать RDF,
это хороший инструмент.
17:13 - 17:18

Например, это визуализация RDF-графа
с помощью этого инструмента.
17:19 - 17:23

Но прежде чем приехать сюда,
в прошлом месяце
17:23 - 17:28

я специально начал использовать
RDFShape для работы с Викиданными.
17:28 - 17:33

Инструмент называется WikiShape,
и вчера я подарил его Викиданным.
17:33 - 17:34

Что я сделал?
17:34 - 17:39

Я удалил всё,
что не связано с Викиданными,
17:39 - 17:43

добавил кое-что жёстко закодированное,
17:43 - 17:45

например, точку доступа SPARQL.
17:45 - 17:49

Но теперь меня попросили
сделать это и для Викибазы.
17:49 - 17:52

Это очень легко.
17:53 - 17:56

Этот инструмент WikiShape
достаточно новый.
17:57 - 18:00

Я думаю, что многие его функции работают,
18:00 - 18:02

но некоторые, возможно, не работают,
18:02 - 18:05

и если вы попробуете его
и захотите что-то улучшить,
18:05 - 18:06

пожалуйста, сообщите мне.
18:06 - 18:13

Здесь у нас скриншоты [неразборчиво],
но давайте попробуем.
18:15 - 18:17

Давайте посмотрим, работает ли он.
18:17 - 18:20

Во-первых, я должен выйти из...
18:22 - 18:23

Здесь.
18:24 - 18:28

Хорошо. Вот этот инструмент.
18:28 - 18:30

С помощью него вы можете,
18:30 - 18:35

например, проверить схемы сущностей.
18:35 - 18:39

Например, существует новое
пространство имён, начинающееся с «Е»,
18:39 - 18:45

и здесь, если вы начнёте писать,
например, «человек»...
18:45 - 18:49

Когда вы пишете,
автозаполнение позволяет проверить,
18:49 - 18:52

например, существуют ли
выражения формы для людей,
18:53 - 18:56

и вот здесь появляются выражения формы.
18:56 - 19:00

Как видите, в этом редакторе
есть подсветка синтаксиса.
19:00 - 19:05

Возможно, экран очень маленький.
19:06 - 19:08

Попробую увеличить.
19:09 - 19:11

Может, сейчас лучше видно.
19:11 - 19:14

Это редактор с подсветкой синтаксиса.
19:14 - 19:18

Для редактора используется
тот же исходный код,
19:18 - 19:20

что и для службы запросов Викиданных.
19:20 - 19:24

Так, например,
если вы наведёте мышкой сюда,
19:24 - 19:28

он покажет вам метки разных свойств.
19:28 - 19:31

Я думаю, это очень полезно,
потому что сейчас,
19:33 - 19:39

схемы сущностей в Викиданных --
это просто текст,
19:39 - 19:42

и я думаю, этот редактор намного лучше,
потому что у него есть автозаполнение,
19:42 - 19:44

и он также имеет...
19:44 - 19:48

Если вы, например,
хотите добавить ограничение,
19:48 - 19:52

вы пишете wdt:,
19:52 - 19:57

а затем начинаете писать auth,
нажимаете Ctrl+Space,
19:57 - 19:59

и он предлагает разные варианты.
19:59 - 20:02

Это похоже на службу запросов Викиданных,
20:02 - 20:06

но специально для выражений формы.
20:06 - 20:12

Так как я думаю,
что создание выражений формы
20:12 - 20:16

не сложнее,
чем написание SPARQL-запросов.
20:16 - 20:21

Хотя некоторые думают,
что это примерно одинаково по сложности.
20:22 - 20:26

Я думаю, это проще,
потому что Shape Expressions
20:26 - 20:31

был создан с целью облегчить работу.
20:31 - 20:35

Первое, что у вас есть -- это редактор
20:35 - 20:37

для выражений формы.
20:37 - 20:41

Здесь есть возможность,
например, визуализации.
20:41 - 20:45

Если у вас есть какое-то
выражение формы, например...
20:45 - 20:49

Думаю, written work -- хороший пример,
20:49 - 20:53

поскольку в нём есть взаимосвязь
между разными сущностями.
20:55 - 20:58

Вот UML-визуализация для written work.
20:58 - 21:02

Здесь легко увидеть разные свойства.
21:03 - 21:07

Когда вы делаете это совместно
с несколькими людьми,
21:07 - 21:09

они находят ошибки
в своих выражениях формы,
21:09 - 21:13

потому что так можно легко найти
недостающие свойства.
21:14 - 21:16

Есть ещё одна возможность проверки,
21:16 - 21:20

кажется, у меня она вот здесь.
21:20 - 21:25

Это было на какой-то вкладке,
возможно, я закрыл её.
21:26 - 21:31

Но вы можете, например,
нажать Validate entities.
21:32 - 21:34

Например,
21:35 - 21:42

Q42 сравнить с E42, схемой для авторов.
21:43 - 21:46

Думаю, можно попробовать
со схемой для людей.
21:49 - 21:50

А потом...
21:51 - 21:56

Это SPARQL-запрос,
и он занимает какое-то время,
21:56 - 21:59

например, сейчас сбой в сети, но...
22:00 - 22:02

Вы можете попробовать.
22:03 - 22:07

Давайте расскажем о других инструментах.
22:07 - 22:12

Если хотите попробовать
и у вас есть предложения, дайте мне знать.
22:13 - 22:16

Продолжим презентацию.
22:19 - 22:20

Это WikiShape.
22:24 - 22:27

Как я уже говорил,
22:28 - 22:34

Редактор Shape Expressions --
независимый проект на GitHub.
22:36 - 22:37

Вы можете использовать его
в своём проекте.
22:37 - 22:41

Если хотите использовать
инструмент Shape Expressions,
22:41 - 22:46

вы можете просто встроить его
в любой другой проект,
22:46 - 22:48

его можно найти на GitHub,
и им можно пользоваться.
22:49 - 22:52

Тот же автор, один из моих учеников,
22:53 - 22:56

также создал редактор
для Shape Expressions,
22:56 - 22:58

вдохновившись
службой запросов Викиданных.
23:01 - 23:05

Этот редактор более наглядный
для SPARQL-запросов,
23:05 - 23:07

куда вы можете загрузить подобные вещи.
23:07 - 23:09

Это снимок экрана.
23:09 - 23:13

Как видите, выражения формы
здесь в виде текста.
23:13 - 23:18

Но здесь они на базе форм,
и, вероятно, потребуется больше времени,
23:19 - 23:23

но вы можете вставлять
разные строки в разные поля.
23:23 - 23:26

Это ShExEr.
23:27 - 23:32

Его сделал аспирант
Университета Овьедо,
23:32 - 23:34

он сегодня здесь,
и расскажет вам о ShExEr.
23:38 - 23:40

(Данни) Привет, я Данни Фернандес,
23:40 - 23:44

аспирант Университета Овьедо,
работаю с Лаброй.
23:45 - 23:48

У нас заканчивается время,
поэтому давайте ускоримся.
23:48 - 23:53

Я покажу несколько скриншотов
вместо всей презентации.
23:53 - 23:58

Обычный способ работы с Shape Expressions
или любым подобным языком:
23:58 - 24:00

есть специалист,
24:00 - 24:02

который определяет,
как должен выглядеть граф,
24:02 - 24:04

определяет структуры,
24:04 - 24:07

а затем вы используете эти структуры
для проверки фактических данных.
24:08 - 24:12

Инструмент, о котором рассказал Лабра, --
24:12 - 24:14

общего назначения
для любого RDF-источника,
24:14 - 24:17

и он может работать
в обратном направлении.
24:17 - 24:19

У вас уже есть некоторые данные,
24:19 - 24:23

вы выбираете узлы,
форму которых хотите получить,
24:23 - 24:27

а затем автоматически
извлекаете или выводите форму.
24:27 - 24:30

Несмотря на то, что это инструмент
общего назначения,
24:30 - 24:34

мы сделали волшебную кнопку
для этой конференции,
24:35 - 24:37

и если вы нажмёте на неё,
24:37 - 24:42

появятся параметры конфигурации,
24:42 - 24:46

и он настроит работу
с точкой доступа Викиданных,
24:46 - 24:48

простите, он скоро закончит.
24:49 - 24:53

После нажатия этой кнопки
вы, по сути, получаете это.
24:53 - 24:55

Выбрав необходимые вам узлы
24:55 - 24:57

или экземпляры класса,
24:57 - 24:59

что бы вы ни искали,
24:59 - 25:01

вы получите автоматическую схему.
25:02 - 25:07

Все ограничения отсортированы
по количеству узлов,
25:07 - 25:10

можно отфильтровать
наименее распространённые и так далее.
25:10 - 25:12

Внизу есть плакат об этом материале,
25:12 - 25:15

я буду на нижнем и верхнем этажах,
25:15 - 25:16

а также в других местах,
25:16 - 25:19

поэтому если у вас будет интерес
к этому инструменту,
25:19 - 25:21

просто обращайтесь ко мне.
25:21 - 25:25

Отдаю микрофон Лабре, спасибо.
25:25 - 25:29

(аплодисменты)
25:30 - 25:33

(Хосе) Давайте обсудим
другие инструменты.
25:33 - 25:35

ShapeDesigner -- ещё один инструмент.
25:35 - 25:37

Андра, хочешь рассказать о ShapeDesigner
25:37 - 25:40

или позже на семинаре?
25:40 - 25:44

Сегодня будет семинар,
посвящённый Shape Expressions,
25:45 - 25:48

мы попробуем его на практике,
25:48 - 25:52

так что если хотите попрактиковаться
с ShEx, то вам сюда.
25:53 - 25:55

Это инструмент ShEx.js,
25:55 - 25:57

и Эрик может рассказать о нём.
25:58 - 26:01

(Эрик) Расскажу очень быстро.
26:01 - 26:06

Вы, вероятно, уже видели интерфейс ShEx,
26:06 - 26:08

заточенный под Викиданные.
26:08 - 26:13

Его сократили и адаптировали
специально под Викиданные
26:13 - 26:16

потому что в нём больше возможностей,
26:16 - 26:18

но я, кажется, говорил об этом,
26:18 - 26:20

потому что одна из этих функций
особенно полезна
26:20 - 26:23

для отладки схем Викиданных.
26:23 - 26:29

Если вы выбираете полный режим,
26:29 - 26:31

то пока я буду проводить проверку
26:31 - 26:35

всех этих триплетов,
26:35 - 26:36

и если я получу множество ошибок,
26:36 - 26:40

я могу пройтись по этим ошибкам
26:40 - 26:44

и посмотреть, какие триплеты здесь, внизу.
26:44 - 26:46

Это просто журнал того,
как всё происходило.
26:46 - 26:49

Затем можете поиграть с этим,
26:49 - 26:51

чтобы поменять что-либо.
26:51 - 26:54

Это более быстрая версия
того, как это сделать.
26:55 - 26:56

Это форма ShExC --
26:56 - 26:59

то, что предлагал Йохим,
27:00 - 27:05

что может быть полезно
для заполнения документов Викиданных
27:05 - 27:07

на основе выражения формы
для этого документа.
27:08 - 27:12

Она не адаптирована под Викиданные.
27:12 - 27:14

Я просто показываю,
что можно взять схему,
27:14 - 27:15

сделать аннотации,
27:15 - 27:18

чтобы конкретно указать,
какую схему вы хотите,
27:18 - 27:19

потом просто создать форму
27:19 - 27:21

и, если у вас есть данные,
можно заполнить форму.
27:25 - 27:26

PyShEx [неразборчиво].
27:28 - 27:31

(Хосе) Думаю, это последний инструмент.
27:32 - 27:34

Да, это PyShEx.
27:35 - 27:38

PyShEx -- это Shape Expressions,
реализованный на Python,
27:39 - 27:43

он совместим с Jupyter Notebooks.
27:43 - 27:44

Итак, это всё.
27:44 - 27:47

(аплодисменты)
27:53 - 27:56

(Андра) Итак, я расскажу
о конкретном проекте,
27:56 - 27:58

в котором участвую -- Gene Wiki,
27:59 - 28:04

и в котором мы тоже занимаемся
вопросами качества.
28:05 - 28:07

Прежде чем говорить о качестве,
28:07 - 28:09

я кратко расскажу вам о Gene Wiki.
28:10 - 28:15

Мы только что выпустили
предварительную версию статьи,
28:15 - 28:18

в которой описаны детали проекта.
28:20 - 28:22

Я вижу, люди фотографируют...
28:22 - 28:25

Gene Wiki публикует в Викиданных
28:25 - 28:28

общедоступные биомедицинские данные,
28:28 - 28:32

используя для этого определённый шаблон.
28:33 - 28:37

Если у нас появляется
новое хранилище или набор данных,
28:37 - 28:40

который можно включить Викиданные,
28:40 - 28:41

первый шаг -- вовлечение сообщества.
28:41 - 28:44

Необязательно сообщества Викиданных,
28:44 - 28:46

но местного исследовательского сообщества.
28:46 - 28:50

Мы встречаемся лично,
онлайн или на любой платформе
28:50 - 28:53

и пробуем придумать модель данных,
28:53 - 28:56

которая соединит их данные
с моделью Викиданных.
28:56 - 29:00

Вот фотография прошлогоднего семинара,
29:00 - 29:03

на котором мы анализировали
определённый набор данных,
29:03 - 29:05

и как видите, было много обсуждений,
29:05 - 29:08

затем приведение его
в соответствие с schema.org
29:08 - 29:10

и другими существующими онтологиями.
29:10 - 29:16

В конце первого шага
у нас на доске появился чертёж схемы,
29:16 - 29:17

которую мы хотим добавить в Викиданные.
29:17 - 29:20

Вы видите, она несложная,
29:20 - 29:22

на заднем плане,
29:22 - 29:26

и мы можем построить какие-то схемы
даже здесь, в рамках этой дискуссии.
29:27 - 29:28

Если у нас есть схема,
29:28 - 29:31

следующий шаг -- попытаться сделать
эта схему машиночитаемой,
29:32 - 29:37

чтобы иметь работающие модели
для переноса внешних данных
29:37 - 29:40

из любой медико-биологической
базы данных в Викиданные.
29:40 - 29:45

Здесь мы применяем
инструмент Shape Expressions,
29:46 - 29:53

поскольку он позволяет проверить,
29:53 - 29:57

является ли набор данных...
Сначала увидеть,
29:57 - 30:02

что уже существующие данные в Викиданных
следуют той же модели данных,
30:02 - 30:05

которая была получена
в предыдущих процессах.
30:05 - 30:07

С помощью Shape Expressions
мы можем проверить,
30:07 - 30:11

требуется ли корректировка данных
по этой теме в Викиданных,
30:11 - 30:15

нужно ли адаптировать нашу модель
к модели Викиданных или наоборот.
30:16 - 30:20

Как только всё на месте,
мы начинаем писать ботов,
30:21 - 30:24

а боты загружают информацию
30:24 - 30:27

из первоисточников в Викиданные.
30:28 - 30:29

Когда боты готовы,
30:29 - 30:34

а мы пишем их на платформе
WikidataIntegrator,
30:34 - 30:36

используя библиотеку Python,
30:36 - 30:38

которая появилась
в результате нашего проекта.
30:39 - 30:43

Когда боты написаны,
мы используем платформу Jenkins
30:43 - 30:45

для непрерывной интеграции.
30:45 - 30:46

С помощью Jenkins
30:46 - 30:51

мы постоянно обновляем
первоначальные источники с Викиданными.
30:52 - 30:56

Вот диаграмма, о которой я говорил ранее.
30:56 - 30:57

Это её текущий вид.
30:57 - 31:02

Оранжевые прямоугольники --
первоисточники медикаментов,
31:02 - 31:08

белков, генов, заболеваний,
химических соединений, со взаимосвязями,
31:08 - 31:11

но её невозможно прочитать сейчас,
поскольку она слишком маленькая,
31:11 - 31:17

но это база данных, источниками которых
мы управляем в Викиданных
31:17 - 31:21

и соединяем с первоисточниками.
31:21 - 31:22

Так выглядит наш рабочий процесс.
31:23 - 31:25

Один из наших партнёров --
онтология заболеваний.
31:25 - 31:28

Онтология заболеваний имеет лицензию CC0,
31:28 - 31:32

и такая онтология
имеет свой цикл курирования.
31:33 - 31:36

Онтология заболеваний
постоянно обновляется,
31:36 - 31:40

чтобы отразить базу заболеваний
или их объяснение.
31:40 - 31:44

Здесь изображён цикл курирования
Викиданных по заболеваниям,
31:44 - 31:50

где сообщество постоянно следит за тем,
что происходит с Викиданными.
31:50 - 31:52

Есть две роли.
31:52 - 31:55

Мы упрощённо называем их
хранитель-куратор,
31:56 - 32:00

и это были я и мой коллега пять лет назад.
32:00 - 32:03

Мы просто сидели за компьютерами
и мониторили Википедию и Викиданные,
32:03 - 32:09

и если была проблема, мы сообщали о ней
первоначальному сообществу,
32:09 - 32:12

первоначальным источникам,
они смотрели на реализацию и решали,
32:12 - 32:14

доверять ли данным,
введённым в Викиданные.
32:15 - 32:19

Если да, начинался цикл
32:19 - 32:23

и следующий шаг --
часть онтологии заболеваний
32:23 - 32:25

возвращалась в Викиданные.
32:27 - 32:31

Для WikiPathways мы делаем то же самое.
32:31 - 32:34

WikiPathways -- база данных
биологических путей,
32:34 - 32:37

вдохновлённая MediaWiki.
32:37 - 32:41

В Викиданных уже существуют
различные источники путей.
32:41 - 32:45

Между ними могут возникать конфликты,
32:45 - 32:50

и хранителям-кураторам
сообщается об их возникновении,
32:50 - 32:54

и вы управляете индивидуальными
циклами курирования.
32:54 - 32:57

Но если вы помните предыдущий цикл,
32:57 - 33:03

где речь велась
только о двух циклах, двух ресурсах,
33:04 - 33:06

нам нужно делать это
для каждого имеющегося ресурса
33:06 - 33:08

и нужно управлять происходящим,
33:08 - 33:10

потому что под курированием
33:10 - 33:14

я подразумеваю постоянное отслеживание
страниц Википедии и Викиданных.
33:15 - 33:19

Такая работа явно не для двух
хранителей-кураторов.
33:20 - 33:23

На конференции в 2016 году,
33:23 - 33:27

когда Эрик рассказывал
о Shape Expressions,
33:27 - 33:29

я присоединился, и подумал,
33:29 - 33:34

что Shape Expressions может помочь
выявить различия в Викиданных,
33:34 - 33:41

которые помогут хранителям
делать более подробные отчёты.
33:42 - 33:46

В этом году я был в восторге
от схемы сущности,
33:46 - 33:51

потому что теперь мы можем хранить
эти схемы в Викиданных,
33:51 - 33:53

до этого мы хранили их на GitHub.
33:54 - 33:57

Схема согласуется
с интерфейсом Викиданных,
33:57 - 33:59

здесь есть обсуждение документа,
33:59 - 34:01

но также доступны правки.
34:01 - 34:03

Вы можете пользоваться
первыми страницами
34:03 - 34:05

и правками в Викиданных,
34:05 - 34:12

чтобы обсуждать то,
что имеется в Викиданных
34:12 - 34:14

и первоначальных источниках.
34:15 - 34:20

Эрик уже об этом говорил,
это очень помогает.
34:20 - 34:24

Мы создали выражение формы
для гена человека,
34:24 - 34:30

потом пропустили его через ShEx,
как вы видите,
34:30 - 34:32

мы получили...
34:32 - 34:35

Есть один элемент,
за которым нужно следить, --
34:35 - 34:37

он не вписывается в эту схему,
34:37 - 34:43

и затем вы можете создать
сущности схемы, отчёты курирования,
34:43 - 34:46

и отправить их в разные отчёты.
34:48 - 34:53

Но ShEx -- это встроенный интерфейс,
34:53 - 34:56

и здесь я смогу показать только десять,
34:56 - 35:00

но у нас десятки тысяч,
и они несоизмеримы.
35:00 - 35:05

Интегратор Викиданных
теперь поддерживает ShEx,
35:05 - 35:07

и мы просто можем замкнуть
петли элементов,
35:07 - 35:11

указав «да-нет, да-нет,
правда-ложь, правда-ложь».
35:11 - 35:12

снова,
35:13 - 35:17

повышая эффективность
при составлении отчётов.
35:17 - 35:23

Но с недавних пор он строится
на сервисе запросов Викиданных,
35:23 - 35:25

мы недавно регулировали
количество запросов,
35:25 - 35:27

и это тоже несоизмеримо.
35:27 - 35:31

Работа с моделями на Викиданных --
непрерывный процесс.
35:32 - 35:37

ShEx не только пугает,
35:37 - 35:40

но он ещё и громоздкий.
35:41 - 35:43

Я начал работать,
35:43 - 35:46

это мой первый эксперимент или упражнение,
35:46 - 35:48

где был использован инструмент yEd,
35:48 - 35:53

и затем я начал отрисовывать
эти выражения формы,
35:53 - 35:58

и потом регенерировать эту схему
35:58 - 36:01

в формат, близкий к Shape Expressions,
36:01 - 36:05

понятный людям,
36:05 - 36:07

которых слишком пугает
язык Shape Expressions.
36:08 - 36:12

Но есть проблема с визуальным описанием,
36:12 - 36:18

потому что это также схема,
кем-то нарисованная в yEd.
36:18 - 36:24

Вот ещё одна, замечательная.
36:24 - 36:27

Я бы такую себе на стену повесил,
36:27 - 36:30

но она пока несовместима.
36:30 - 36:33

Хочу завершить своё выступление слайдом,
36:33 - 36:36

который я позаимствовал.
36:36 - 36:38

Для меня честь показать его аудитории.
36:38 - 36:39

Он мне очень нравится:
36:39 - 36:42

«Люди думают, что RDF -- это боль
из-за его сложности.
36:42 - 36:44

Но на самом деле всё ещё хуже.
36:44 - 36:48

RDF очень прост, но он позволяет работать
с реальными данными
36:48 - 36:50

и невероятно сложными проблемами.
36:50 - 36:52

Можно избежать использования RDF,
36:52 - 36:56

но вряд ли получится избежать
сложных данных и компьютерных проблем».
36:56 - 37:00

Речь об RDF, но, я думаю,
подходит под моделирование в целом.
37:00 - 37:03

Мой вопрос -- должны ли мы...
37:03 - 37:06

Как мы будем моделировать?
37:06 - 37:11

Поговорим о ShEx,
или визуальных моделях, или...
37:11 - 37:13

Как нам продолжить?
37:13 - 37:15

Спасибо за уделённое время.
37:15 - 37:18

(аплодисменты)
37:20 - 37:21

(Лидия) Спасибо большое.
37:22 - 37:24

Можете выйти вперёд,
37:24 - 37:28

чтобы аудитория могла задать вопросы.
37:29 - 37:30

Есть вопросы?
37:32 - 37:33

Да.
37:34 - 37:37

Думаю, для камеры нужно, чтобы...
37:39 - 37:41

(Лидия смеётся) Да.
37:43 - 37:46

(голос из зала 1) Вопрос Кристине, думаю.
37:47 - 37:52

Вы упоминали термин «прирост информации»
37:52 - 37:54

от объединения с другими системами.
37:54 - 37:57

Существует информационно-теоретический
показатель -- прирост информации,
37:57 - 37:58

основанный на статистике и вероятности.
38:00 - 38:02

Вы имели в виду именно этот показатель?
38:02 - 38:04

Прирост информации
на основе теории вероятности,
38:04 - 38:05

теории информации,
38:05 - 38:09

или просто такая концептуальная идея
для измерения прироста информации?
38:09 - 38:13

Нет, мы действительно
определили и применили показатели,
38:14 - 38:20

используя энтропию Шеннона,
поэтому смысл именно такой.
38:20 - 38:22

Не хочу вдаваться в детали
конкретных формул...
38:22 - 38:25

(голос из зала 1) Нет, конечно,
поэтому и прозвучал вопрос.
38:25 - 38:27

- (Кристина) Да.
- (голос из зала 1) Спасибо.
38:33 - 38:35

(голос из зала 2) Это больше
комментарий, нежели вопрос.
38:35 - 38:37

(Лидия) Да, конечно.
38:37 - 38:40

(голос из зала 2) Акцент был на элементах,
38:40 - 38:43

на их качестве и полноте,
38:43 - 38:47

но меня беспокоит,
что мы не применяем это к иерархиям,
38:47 - 38:51

и наша частая проблема -- плохая иерархия.
38:51 - 38:53

Мы видим, что это становится
реальной проблемой
38:53 - 38:56

при обычным поиске и других вещах.
38:57 - 39:01

Мы можем импортировать способ,
39:01 - 39:05

по которому внешние тезаурусы
выстраивают свои иерархии,
39:05 - 39:10

используя квалификатор P4900,
более широкое понятие.
39:11 - 39:16

Но я думаю, для этого есть
более подходящие инструменты,
39:16 - 39:21

и вы сможете импортировать
иерархию внешнего тезауруса,
39:21 - 39:24

отобразить её на элементы Викиданных.
39:24 - 39:28

И связав её с этими квалификаторами P4900,
39:28 - 39:31

вы можете делать
хорошие запросы через SPARQL,
39:32 - 39:38

чтобы увидеть, где наша иерархия
расходится с внешней.
39:38 - 39:41

Например, вы можете знать
[Паолу Морма], под псевдонимом PKM,
39:41 - 39:44

этот пользователь
создаёт много статей о моде.
39:44 - 39:51

Мы включаем их в иерархию
тезауруса европейской моды
39:51 - 39:54

и в иерархию тезауруса
искусства и архитектуры,
39:54 - 39:58

а потом мы видим, какие пробелы
были в элементах более высокого уровня.
39:58 - 40:01

Для нас это реальная проблема,
потому что часто попадаются вещи,
40:01 - 40:04

которые существуют в Википедии
только как страницы значений,
40:04 - 40:09

многие элементы более высокого уровня
отсутствуют в наших иерархиях,
40:09 - 40:14

и мы должны рассмотреть это
с точки зрения качества и полноты,
40:14 - 40:19

но что действительно поможет,
станет лучшим инструментом,
40:19 - 40:21

чем те дебри скриптов, написанных мной, --
40:21 - 40:26

если бы кто-то поместил это
в PAWS notebook на Python,
40:27 - 40:32

чтобы можно было извлечь
внешний тезаурус, взять его иерархию,
40:32 - 40:35

которая может быть доступна
как связанные данные или же нет,
40:35 - 40:41

чтобы поместить это в QuickStatements,
чтобы вставить значения P4900.
40:41 - 40:42

Затем позже,
40:42 - 40:45

когда наше представление
станет более сложным,
40:45 - 40:50

обновить эти значения P4900,
потому что добавляются данные,
40:50 - 40:52

представление становится
более комплексным,
40:52 - 40:55

значения этих квалификаторов нужно менять,
40:56 - 41:00

чтобы показать, что в нашей системе
всё больше их иерархии.
41:00 - 41:04

Если бы кто-то мог сделать это,
думаю, это было бы очень полезно,
41:04 - 41:07

и мы должны рассмотреть
и другие подходы
41:07 - 41:11

для улучшения качества и полноты
на уровне иерархии,
41:11 - 41:12

а не только на уровне элемента.
41:13 - 41:15

(Андра) Могу я кое-что добавить?
41:16 - 41:20

Да, и мы это делаем,
41:20 - 41:24

и я рекомендую посмотреть
на выражение формы, которое сделал Финн
41:24 - 41:26

с лексическими данными,
41:26 - 41:27

где он создаёт выражения формы,
41:27 - 41:30

а затем опирается
на другие выражения формы,
41:30 - 41:33

так получается концепция
связанных выражений формы в Викиданных.
41:33 - 41:35

В частности, пример использования,
если я правильно понимаю --
41:35 - 41:37

это именно то, что мы делаем в Gene Wiki.
41:37 - 41:41

Есть онтология заболеваний,
которая помещена в Викиданные,
41:41 - 41:45

а затем поступают данные о заболевании,
и мы применяем Shape Expressions,
41:45 - 41:47

чтобы посмотреть,
соответствуют ли данные тезаурусу.
41:47 - 41:51

Есть и другие тезаурусы или другие
онтологии или контролируемые словари,
41:51 - 41:53

которые ещё должны войти в Викиданные,
41:53 - 41:55

и именно поэтому инструмент
Shape Expressions так интересен --
41:55 - 41:58

вы можете применять его
для онтологии заболеваний,
41:58 - 42:00

для MeSH.
42:00 - 42:02

Теперь вам нужно проверить качество.
42:02 - 42:04

Потому что в Викиданных
также есть контекст,
42:04 - 42:10

когда у вас есть контролируемый словарь,
вы считаете, что качество соответствует,
42:10 - 42:12

но могут быть случаи,
когда сообщество не согласно.
42:12 - 42:16

Инструмент уже есть,
но теперь нужно создать эти модели
42:16 - 42:18

и применять их для разных случаев.
42:19 - 42:21

(голос из зала 2)
Shape Expressions очень полезен,
42:21 - 42:26

если у вас уже есть внешняя онтология,
которая отображается в Викиданных,
42:26 - 42:29

но моя проблема в том,
что всё доходит до той стадии,
42:29 - 42:35

когда выясняется, какой части
внешней онтологии ещё нет в Викиданных,
42:35 - 42:36

и где есть пробелы,
42:36 - 42:41

и, я думаю, в этом случае иметь
более надёжные инструменты,
42:41 - 42:44

чтобы увидеть, чего не хватает
из внешних онтологий,
42:44 - 42:46

было бы очень полезно.
42:48 - 42:49

Самая большая проблема
42:49 - 42:51

не в инструментах, а в лицензировании.
42:52 - 42:55

Поместить онтологии в Викиданные
на самом деле очень просто,
42:55 - 42:59

но большинство онтологий имеют,
как я это вежливо называю,
43:00 - 43:03

ограниченное лицензирование,
поэтому они не совместимы с Викиданными.
43:04 - 43:07

(голос из зала 2) Есть множество
тезаурусов из государственного сектора
43:07 - 43:08

в сфере культуры.
43:08 - 43:11

- (Андра) Тогда нам нужно поговорить.
- (голос из зала 2) Это не проблема.
43:11 - 43:12

(Андра) Тогда поговорим.
43:14 - 43:19

(голос из зала 3) Мой комментарий --
на самом деле ответ Джеймсу.
43:19 - 43:22

Дело в том, что из иерархий
получаются графы,
43:22 - 43:24

и когда ты хочешь...
43:25 - 43:29

Я хочу в основном поговорить
об общей проблеме в иерархиях --
43:29 - 43:31

о циклических иерархиях,
43:31 - 43:34

они возвращаются друг к другу,
когда есть проблема,
43:34 - 43:36

которой в иерархиях не должно быть.
43:37 - 43:41

Это, как ни странно,
часто встречается в категориях Википедии
43:41 - 43:43

у нас много циклов в категориях,
43:44 - 43:47

но хорошая новость в том, что это...
43:48 - 43:50

Технически, это NP-полная задача,
43:50 - 43:52

и вы не можете найти её,
43:52 - 43:53

но легко найдёте, построив граф.
43:54 - 43:57

Но было разработано много способов
43:57 - 44:01

для нахождения проблем
в этих иерархических графах.
44:01 - 44:05

Есть такая статья...
44:05 - 44:08

о разрыве циклов в искажённых иерархиях,
44:08 - 44:13

и перечисленные в ней методы помогли
при категоризации английской Википедии.
44:13 - 44:17

Вы можете просто применять
эти иерархии в Викиданных,
44:17 - 44:20

а затем найти
44:20 - 44:22

и просто удалить то,
что вызывает проблемы,
44:22 - 44:25

и на самом деле найти проблемы.
44:25 - 44:27

Это просто идея.
44:29 - 44:31

(голос из зала 2)
Это всё очень хорошо,
44:31 - 44:34

но я думаю, вы недооцениваете количество
плохих связей между подклассами,
44:34 - 44:35

которые у нас имеются.
44:35 - 44:40

Это как город, который находится
совершенно не в той стране,
44:40 - 44:43

при том, что существуют
географические инструменты
44:43 - 44:45

для определения этой проблемы.
44:45 - 44:49

Нам в иерархиях нужны
более эффективные инструменты,
44:49 - 44:53

которые смогут определить,
где эквивалент элемента для страны
44:53 - 44:58

полностью отсутствует,
или где он является подклассом чего-то,
44:58 - 45:02

не имеющего к нему отношения.
45:03 - 45:07

(Лидия) Я думаю, вы подобрались к тому,
45:07 - 45:11

что мы с моей командой
постоянно слышим от людей,
45:11 - 45:14

которые многократно
используют наши данные.
45:15 - 45:17

Отдельная точка данных -- это отлично,
45:17 - 45:20

но если вам нужно посмотреть
на онтологию и так далее,
45:20 - 45:22

то становится очень...
45:22 - 45:26

Я думаю, одна из больших проблем,
почему это происходит --
45:26 - 45:31

множество правок в Викиданных
45:31 - 45:35

касаются отдельного элемента,
45:35 - 45:36

вы редактируете этот элемент,
45:38 - 45:42

не понимая, что это может привести
к глобальным последствиям
45:42 - 45:44

для остальной части графа, например.
45:45 - 45:50

Если у людей есть идеи,
как сделать более заметными
45:50 - 45:53

последствия таких индивидуальных
локальных правок,
45:54 - 45:57

думаю, что их стоит изучить,
45:58 - 46:02

чтобы лучше показать людям
последствия их правок,
46:02 - 46:03

сделанных с добрыми намерениями,
46:04 - 46:05

какие они.
46:07 - 46:12

Ого! Хорошо, давайте начнём с вас,
потом вы, потом вы, затем вы.
46:12 - 46:14

(голос из зала 4) После обсуждения,
46:14 - 46:18

просто чтобы выразить своё согласие
с тем, что говорил Джеймс.
46:18 - 46:22

По сути, кажется,
что самая опасная вещь -- иерархия,
46:22 - 46:24

не иерархия, но в целом
46:24 - 46:28

семантика связей
между подклассами в Викиданных.
46:28 - 46:33

Я недавно изучал языки,
только для этой конференции,
46:33 - 46:35

и, например, я нашёл много случаев,
46:35 - 46:39

когда язык является одновременно
и частью и подклассом одного и того же.
46:39 - 46:44

Можно сказать, что у нас гибкая онтология.
46:44 - 46:46

Викиданные дают свободу выражения.
46:46 - 46:47

Потому что, например,
46:47 - 46:51

эта онтология языков сложна
с политической точки зрения.
46:51 - 46:55

Даже хорошо иметь возможность
выразить уровень неопределённости.
46:55 - 46:58

Но представьте, как к этому
применить машинное чтение.
46:58 - 46:59

Действительно проблематично.
46:59 - 47:00

И опять же,
47:00 - 47:04

я не думаю, что онтология
была импортирована откуда-либо.
47:04 - 47:05

Она изначально наша.
47:05 - 47:08

Она с самого начала собрана из Википедии.
47:08 - 47:11

Так что мне интересно...
Shape Expressions -- отличный инструмент,
47:11 - 47:16

который проверяет и исправляет
онтологию Википедии
47:16 - 47:18

с помощью внешних ресурсов,
прекрасная идея.
47:19 - 47:20

В конце концов,
47:20 - 47:25

получится ли у нас отразить
внешние онтологии в Викиданных?
47:25 - 47:29

А также, что мы делаем
с основной частью нашей онтологии
47:29 - 47:31

которая никогда не собирается
из внешних ресурсов,
47:31 - 47:32

как нам исправить её?
47:32 - 47:35

Я действительно думаю,
что это само по себе будет проблемой.
47:35 - 47:40

Мы должны сосредоточиться на этом
независимо от идеи проверки онтологии
47:40 - 47:42

с помощью внешнего ресурса.
47:49 - 47:53

(голос из зала 5) Ограничения
и формы очень впечатляют,
47:53 - 47:55

то, что мы можем сделать с ними,
47:55 - 47:58

но главный момент
до сих пор не совсем понятен --
47:58 - 48:03

поскольку теперь мы можем более чётко
сформулировать, чего ожидаем от данных.
48:03 - 48:07

Сначала каждый должен написать
свои инструменты и скрипты,
48:07 - 48:11

сделать их более наглядными,
и мы сможем обсудить это.
48:11 - 48:14

Но речь не о том, что верно, а что нет,
48:14 - 48:16

а об ожиданиях,
48:16 - 48:18

и у вас будут разные ожидания и обсуждения
48:18 - 48:21

того, как моделировать в Викиданных.
48:23 - 48:26

Текущее состояние --
лишь один шаг в этом направлении,
48:26 - 48:28

потому что теперь нужно
48:28 - 48:31

привлечь много технических знаний,
48:31 - 48:36

и нам нужны лучшие способы
визуализации этого ограничения,
48:36 - 48:40

возможно, преобразование его
в более понятный людям язык,
48:41 - 48:44

но в меньшей степени здесь речь о том,
что верно, а что нет.
48:45 - 48:46

(Лидия) Да.
48:51 - 48:54

(голос из зала 6) По поводу качества,
хочу уточнить...
48:54 - 48:57

Я часто сталкивался с разногласиями,
48:59 - 49:02

связанными с разницей между
экземпляром и подклассом.
49:02 - 49:06

Я бы сказал, ошибки в таких ситуациях
49:06 - 49:12

и попытки найти их
были очень трудоёмким процессом.
49:12 - 49:13

То, к чему я пришёл:
49:13 - 49:16

«Если найти впечатляющие элементы, важные,
49:16 - 49:19

и затем использовать
все экземпляры подкласса,
49:19 - 49:22

чтобы найти все производные
этого утверждения», --
49:22 - 49:26

это очень полезный способ
поиска ошибок.
49:26 - 49:29

Но мне было интересно,
49:29 - 49:34

можно ли использовать Shape Expressions
49:34 - 49:37

в качестве инструмента
для решения таких проблем?
49:41 - 49:43

(голос из зала 7)
Имеет ли структурный след ...
49:46 - 49:49

Если имеется структурный след,
который может быть сфальсифицирован,
49:49 - 49:51

можно решить, что это неправильно,
49:51 - 49:53

а потом сделать это.
49:53 - 49:57

Но если это просто попытка сопоставления
с объектами реального мира,
49:57 - 49:59

то вам потребуется очень много «мозгов».
50:06 - 50:09

(голос из зала 8) Привет,
я Пабло Мендес из Apple Siri Knowledge.
50:09 - 50:13

Мы здесь, чтобы узнать,
как помочь проекту и сообществу,
50:13 - 50:16

но Кристина совершила ошибку,
спросив, чего мы хотим.
50:16 - 50:20

(смеётся) Думаю, одна вещь,
которую хотелось бы увидеть,
50:21 - 50:24

связана с возможностью проверки --
50:24 - 50:26

одним из основных принципов
проекта в сообществе,
50:27 - 50:29

а также с доверием.
50:29 - 50:32

Не все утверждения одинаковы,
некоторые из них серьёзно оспариваются,
50:32 - 50:33

некоторые легко предположить,
50:33 - 50:36

например, чью-либо дату рождения
можно проверить,
50:36 - 50:40

как вы видели сегодня в основном докладе,
гендерные проблемы намного сложнее.
50:40 - 50:43

Можете ли вы немного
рассказать о том, что вы знаете
50:43 - 50:47

о доверии и проверках --
этих аспектах качества данных?
50:55 - 50:58

Если этого не много,
хотелось бы намного больше. (смеётся)
51:01 - 51:02

(Лидия) Да.
51:03 - 51:07

Как выяснилось,
нам нечего сказать. (смеётся)
51:08 - 51:12

(Андра) Я думаю, мы можем сделать многое,
но у нас с вами вчера была дискуссия.
51:12 - 51:16

Мой любимый пример,
как я выяснил вчера, уже устарел.
51:16 - 51:20

Если вы зайдёте
на страницу элемента Q2, это Земля,
51:20 - 51:23

там есть утверждение, что Земля плоская.
51:24 - 51:26

Я люблю этот пример,
51:26 - 51:28

потому что есть сообщество,
которое это утверждает,
51:28 - 51:30

и у них есть достоверные источники.
51:30 - 51:32

Так что я думаю, это реальный случай,
51:32 - 51:35

его не нужно оспаривать,
он должен быть в Викиданных.
51:35 - 51:40

Я думаю, здесь Shape Expressions
может быть действительно полезен,
51:40 - 51:45

потому что вам действительно
может быть интересен этот прецедент,
51:45 - 51:47

или этот вариант использования,
с которым вы не согласны,
51:47 - 51:50

но может быть и такой
случай применения,
51:50 - 51:51

который вас заинтересует.
51:51 - 51:53

Например, глюкоза.
51:53 - 51:57

Биологу не интересно
51:57 - 52:00

строение молекулы глюкозы,
52:00 - 52:03

для него вся глюкоза одинаковая.
52:03 - 52:06

Но химика подобное покоробит,
52:06 - 52:08

существует 200 с лишним...
52:08 - 52:10

Когда у вас есть разные выражения формы,
52:10 - 52:14

я могу их применить с точки зрения химика.
52:14 - 52:17

А с точки зрения биолога
52:17 - 52:19

я применяю другое выражение формы.
52:19 - 52:20

А если вы хотите сотрудничать,
52:20 - 52:23

вы должны сказать Эрику о картах ShEx.
52:26 - 52:29

Но это только начало пути.
52:29 - 52:32

Но я лично верю,
что это весьма полезно для этой области.
52:34 - 52:36

(Лидия) Вон там.
52:38 - 52:39

(смех)
52:41 - 52:46

(голос из зала 9) У меня несколько идей
по некоторым моментам обсуждения,
52:46 - 52:51

постараюсь озвучить все.
Было три идеи, так что...
52:52 - 52:55

Основываясь на том, что Джеймс сказал
некоторое время назад,
52:55 - 52:59

у Викиданных с самого начала
была очень большая проблема
52:59 - 53:02

в онтологии вышестоящего уровня.
53:02 - 53:05

Мы говорили об этом
два года назад на WikidataCon,
53:05 - 53:07

и мы говорили об этом на Викимании.
53:07 - 53:10

На всех встречах по Викиданным
53:10 - 53:12

мы говорим об этом,
53:12 - 53:16

потому что это очень большая проблема
на очень высоком уровне --
53:16 - 53:22

что такое сущность, работа,
что такое жанр, искусство, --
53:23 - 53:25

все эти понятия очень важны.
53:27 - 53:33

И на самом деле это слабое место
глобальной онтологии,
53:33 - 53:37

потому что люди регулярно наводят порядок
53:38 - 53:41

и тем самым всё ломают.
53:43 - 53:49

Некоторые из вас помнят парня,
который из добрых намерений
53:49 - 53:52

«сломал» все города мира.
53:52 - 53:58

Элементы стали не географическими,
везде были нарушения ограничений.
53:59 - 54:00

Это было сделано из добрых побуждений,
54:00 - 54:04

ведь он действительно
исправлял ошибку в элементе,
54:04 - 54:06

но всё сломалось.
54:06 - 54:09

Я не уверена, как мы можем решить это,
54:10 - 54:13

поскольку нет ни одного
внешнего учреждения,
54:13 - 54:16

у которого мы могли бы скопировать,
54:16 - 54:19

потому что все работают...
54:19 - 54:22

Если я работаю с базой данных
исполнительского искусства,
54:22 - 54:25

я просто перейду на уровень
исполнительского искусства,
54:25 - 54:29

я не буду переходить
к философской концепции сущности,
54:29 - 54:31

и это, на самом деле...
54:31 - 54:35

Я не знаю ни одной базы данных,
работающей на этом уровне,
54:35 - 54:37

но это самое слабое место Викиданных.
54:38 - 54:41

Вероятно, когда мы говорим
о качестве данных,
54:41 - 54:44

это является важным аспектом.
54:44 - 54:49

Я думаю, это то же самое,
что мы заявили...
54:49 - 54:50

Простите, я меняю тему,
54:51 - 54:56

но на разных сессиях
мы говорили о качестве.
54:56 - 54:59

На самом деле некоторые из нас
могут хорошо моделировать,
54:59 - 55:01

работают с ShEx и так далее.
55:02 - 55:08

Люди не видят этого в Викиданных,
они не видят ShEx,
55:08 - 55:10

они не видят Вики-проект
на странице обсуждения,
55:10 - 55:11

и иногда
55:11 - 55:15

они даже не видят
страницы обсуждения свойств,
55:15 - 55:20

которые чётко заявляют,
для чего используется конкретное свойство.
55:20 - 55:24

Например, на прошлой неделе,
я добавила ограничение для свойства.
55:24 - 55:26

Ограничение было чётко прописано
55:26 - 55:29

в обсуждении создания свойства.
55:29 - 55:35

Я просто добавила ограничение,
а кто-то возмутился:
55:35 - 55:37

«Что? Ты сломала все мои правки!»
55:37 - 55:42

Последние два года человек использовал
это свойство неправильно.
55:42 - 55:47

Свойство было очень чёткое,
но не было никаких предупреждений,
55:47 - 55:49

как и в Pink Pony,
55:49 - 55:52

мы также сказали на Викимании,
что хотим делать Вики-проекты
55:52 - 55:55

более наглядными,
делать ShEx более наглядным, но...
55:55 - 55:57

Это то, что сказала Кристина.
55:57 - 56:02

У нас проблема с визуализацией
существующих решений.
56:02 - 56:04

На этой сессии
56:04 - 56:07

мы все говорим о том,
как создать больше выражений формы,
56:07 - 56:11

или облегчить работу редакторов.
56:12 - 56:16

Но мы наводим порядок
с первого дня существования Викиданных,
56:16 - 56:21

и, на глобальном уровне, мы проигрываем,
56:21 - 56:23

поскольку, насколько я знаю,
имена сложные,
56:23 - 56:26

но я единственная, кто их редактирует.
56:27 - 56:30

Кто-то добавил имя на латинице
56:30 - 56:32

всем китайским исследователям --
56:32 - 56:36

мне понадобятся месяцы,
чтобы убрать это, и сама я не справлюсь,
56:36 - 56:39

а он сделал массовую выгрузку.
56:39 - 56:44

Проблем с визуализацией больше,
чем с инструментами, я думаю,
56:44 - 56:46

поскольку у нас много инструментов.
56:46 - 56:50

(Лидия) К сожалению,
мне дали знак, (смеётся),
56:50 - 56:52

поэтому нам нужно заканчивать.
56:52 - 56:54

Большое спасибо за ваши комментарии,
56:54 - 56:57

надеюсь, вы продолжите обсуждение позже,
56:57 - 56:58

и спасибо за ваш вклад.
56:58 - 57:00

(аплодисменты)
57:04 - 57:07

WikidataCon 2019
Викиданные и языки

Title:: cdn.media.ccc.de/.../wikidatacon2019-9-eng-Data_quality_panel_hd.mp4
Video Language:: English
Duration:: 57:10

Bar Sch edited Russian subtitles for cdn.media.ccc.de/.../wikidatacon2019-9-eng-Data_quality_panel_hd.mp4

Russian subtitles

Revisions

Revision 1 Uploaded

Bar Sch

cdn.media.ccc.de/.../wikidatacon2019-9-eng-Data_quality_panel_hd.mp4

Revisions

Our website uses cookies

Operating cookies (Required)