1
00:00:00,000 --> 00:00:02,310
Качество данных
Панельная дискуссия
2
00:00:02,310 --> 00:00:03,945
Клаудиа Мюллер-Бирн, Лукас Веркмейстер,
3
00:00:03,945 --> 00:00:05,945
Хосе Эмилио Лабра Гайо,
Кристина Сарасуа, Андра
4
00:00:05,945 --> 00:00:09,476
Приветствую всех на панельной дискуссии,
посвящённой качеству данных.
5
00:00:10,288 --> 00:00:13,671
Качество данных имеет большое значение,
ведь всё больше и больше людей
6
00:00:13,672 --> 00:00:16,779
полагаются на хорошее качество данных,
7
00:00:16,779 --> 00:00:19,323
о чём мы сегодня и поговорим.
8
00:00:21,229 --> 00:00:26,960
Будет четыре докладчика, которые выступят
с небольшими презентациями на темы,
9
00:00:26,960 --> 00:00:29,539
связанные с качеством данных,
а далее будут вопросы и ответы.
10
00:00:30,130 --> 00:00:32,234
Начнём с Лукаса.
11
00:00:34,385 --> 00:00:35,385
Спасибо.
12
00:00:35,901 --> 00:00:39,899
Привет, я Лукас,
и я начну с краткого обзора
13
00:00:39,899 --> 00:00:43,806
инструментов качества данных,
которые уже имеются в Викиданных,
14
00:00:43,807 --> 00:00:46,109
и тех, которые скоро появятся.
15
00:00:46,932 --> 00:00:50,623
Я выделил несколько общих тем:
16
00:00:50,623 --> 00:00:53,761
визуализация ошибок,
решаемость проблем,
17
00:00:53,762 --> 00:00:56,322
больше внимания данным
с целью выявления проблем,
18
00:00:56,945 --> 00:01:00,206
исправление общих источников ошибок,
19
00:01:00,206 --> 00:01:02,616
обеспечение качества существующих данных,
20
00:01:02,616 --> 00:01:03,966
а также курирование.
21
00:01:05,063 --> 00:01:07,868
Что у нас есть сейчас?
22
00:01:07,868 --> 00:01:09,948
Начнём с ограничения свойств.
23
00:01:10,318 --> 00:01:12,541
Вы наверняка видели это,
когда заходили на Викиданные.
24
00:01:12,541 --> 00:01:14,029
Иногда можно видеть эти иконки,
25
00:01:14,530 --> 00:01:17,241
которые проверяют
внутреннюю согласованность данных.
26
00:01:17,242 --> 00:01:20,800
Например, если одно событие
следует за другим,
27
00:01:20,801 --> 00:01:23,760
то за другим должно последовать
и это событие,
28
00:01:23,761 --> 00:01:27,161
элемент WikidataCon,
который, похоже, отсутствует.
29
00:01:27,162 --> 00:01:29,740
Это появилось пару дней назад.
30
00:01:30,040 --> 00:01:34,681
Если этого для вас недостаточно,
31
00:01:34,682 --> 00:01:38,080
вы можете ввести любой запрос,
используя сервис запросов,
32
00:01:38,081 --> 00:01:39,842
который, конечно,
полезен для многих вещей,
33
00:01:39,843 --> 00:01:44,543
но также его можно использовать
для поиска ошибок.
34
00:01:44,544 --> 00:01:46,974
Например, если вы заметили
какую-то ошибку,
35
00:01:46,975 --> 00:01:49,709
вы можете проверить, есть ли ещё места,
36
00:01:49,710 --> 00:01:51,658
где люди допустили похожие ошибки,
37
00:01:51,658 --> 00:01:53,438
и найти их с помощью сервиса запросов.
38
00:01:53,439 --> 00:01:55,199
Также можно совместить
эти два инструмента
39
00:01:55,199 --> 00:01:57,874
и искать нарушения ограничений,
40
00:01:57,875 --> 00:02:01,240
например, нарушения в какой-то области
41
00:02:01,241 --> 00:02:03,762
или нужном вам Вики-проекте,
42
00:02:03,762 --> 00:02:06,828
хотя результаты пока неполные,
к сожалению.
43
00:02:08,422 --> 00:02:09,877
Оценивание правок.
44
00:02:10,690 --> 00:02:12,666
Я думаю, это из последних изменений.
45
00:02:12,667 --> 00:02:16,217
Также можете добавить в свой
список наблюдения автоматическую оценку:
46
00:02:16,217 --> 00:02:20,249
сделана ли правка
с добрыми намерениями или нет,
47
00:02:20,250 --> 00:02:22,312
нанесёт ли она ущерб или нет.
48
00:02:22,313 --> 00:02:24,205
Думаю, здесь два направления.
49
00:02:24,206 --> 00:02:25,686
Если хотите, вы можете
50
00:02:25,687 --> 00:02:28,458
сосредоточиться на поиске правок
с добрыми намерениями,
51
00:02:28,458 --> 00:02:29,828
наносящих ущерб.
52
00:02:29,899 --> 00:02:32,523
Если вы дружелюбны и вежливы,
53
00:02:32,524 --> 00:02:37,121
можете написать этим редакторам:
«Спасибо за ваш вклад,
54
00:02:37,122 --> 00:02:40,560
вот, как это следует делать,
но всё равно спасибо».
55
00:02:40,561 --> 00:02:42,186
Если вы не хотите так делать,
56
00:02:42,187 --> 00:02:44,132
можно найти правки
с недобрыми намерениями,
57
00:02:44,132 --> 00:02:45,132
наносящие ущерб,
58
00:02:45,132 --> 00:02:46,293
и откатить их назад.
59
00:02:47,544 --> 00:02:49,761
Подобно этому есть рейтинг сущностей.
60
00:02:49,762 --> 00:02:52,590
Вместо оценивания правки,
последующего за ней изменения,
61
00:02:52,591 --> 00:02:53,904
вы оцениваете ревизию в целом.
62
00:02:53,904 --> 00:02:56,483
Я думаю, это такой же инструмент
измерения качества,
63
00:02:56,483 --> 00:02:59,863
о котором говорила Лидия
в начале конференции.
64
00:03:00,372 --> 00:03:04,569
Вот здесь скрипт, который ставит
оценку от одного до пяти.
65
00:03:04,570 --> 00:03:08,176
Он оценивает качество текущего элемента.
66
00:03:10,043 --> 00:03:12,538
Инструмент проверки
первичных источников предназначен
67
00:03:12,538 --> 00:03:14,857
для любой базы данных,
которую вы хотите импортировать,
68
00:03:14,857 --> 00:03:18,374
но качество её данных не настолько высоко,
чтобы напрямую добавлять её в Викиданные,
69
00:03:18,374 --> 00:03:20,335
поэтому вы добавляете базу
в этот инструмент,
70
00:03:20,336 --> 00:03:22,956
после чего люди могут решить,
71
00:03:22,956 --> 00:03:26,024
добавлять или не добавлять
отдельные утверждения.
72
00:03:28,595 --> 00:03:30,363
Отображение координат в виде карт --
73
00:03:30,363 --> 00:03:31,901
в основном, функция для удобства,
74
00:03:31,901 --> 00:03:33,588
но она также полезна
для контроля качества.
75
00:03:33,588 --> 00:03:36,937
Например, если вы видите, что здесь
должен быть офис Викимедиа Германии,
76
00:03:36,938 --> 00:03:39,400
а координаты
где-то в Индийском океане,
77
00:03:39,401 --> 00:03:41,529
то вы понимаете, что это неверный адрес,
78
00:03:41,530 --> 00:03:44,790
и вам легче это заметить,
чем если бы у вас были только цифры.
79
00:03:46,382 --> 00:03:49,576
Этот инструмент -- индикатор
относительной полноты.
80
00:03:49,577 --> 00:03:52,480
Вот эта маленькая иконка здесь,
81
00:03:53,007 --> 00:03:55,652
которая сообщает, насколько полно
описан конкретный элемент,
82
00:03:55,652 --> 00:03:57,613
и каких свойств не хватает.
83
00:03:57,614 --> 00:03:59,769
Это очень полезно,
если вы редактируете элемент
84
00:03:59,769 --> 00:04:03,172
и не очень ориентируетесь в данной сфере
85
00:04:03,172 --> 00:04:05,661
и не знаете,
какие свойства нужно указывать,
86
00:04:05,662 --> 00:04:08,230
тогда этот инструмент будет очень полезен.
87
00:04:09,604 --> 00:04:11,602
Также мы используем
инструмент Shape Expressions.
88
00:04:11,602 --> 00:04:15,624
Думаю, Андра или Хосе
расскажут об этом больше,
89
00:04:15,624 --> 00:04:20,508
но, по сути, это очень мощный способ
сравнения имеющихся данных со схемой,
90
00:04:20,508 --> 00:04:22,058
например, какое утверждение
91
00:04:22,058 --> 00:04:23,470
должны иметь определённые сущности,
92
00:04:23,470 --> 00:04:25,229
с какими сущностями
они должны быть связаны
93
00:04:25,229 --> 00:04:26,229
и как должны выглядеть.
94
00:04:26,229 --> 00:04:29,374
Таким образом вы сможете
находить проблемы.
95
00:04:30,366 --> 00:04:32,361
Я думаю... Нет, ещё не всё.
96
00:04:32,362 --> 00:04:34,321
Integraality, или панель свойств.
97
00:04:34,322 --> 00:04:36,773
На ней видны данные,
которые у вас уже есть.
98
00:04:36,774 --> 00:04:39,147
Например, эти данные
из Вики-проекта о красных пандах,
99
00:04:39,657 --> 00:04:41,181
и вы видите,
100
00:04:41,181 --> 00:04:43,561
что у большинства красных панд
известен пол,
101
00:04:43,561 --> 00:04:46,854
дата рождения зависит от зоопарка,
102
00:04:46,854 --> 00:04:50,255
и у нас почти нет погибших панд,
что замечательно,
103
00:04:50,346 --> 00:04:51,346
(смех)
104
00:04:51,437 --> 00:04:52,600
потому что они такие милые.
105
00:04:53,699 --> 00:04:55,654
Так что это тоже полезно.
106
00:04:56,377 --> 00:04:59,185
Теперь о том, что ожидается.
107
00:04:59,889 --> 00:05:03,784
Wikidata Bridge,
ранее известный как client editing
108
00:05:03,785 --> 00:05:07,076
для редактирования Викиданных
прямо из карточек Википедии.
109
00:05:07,675 --> 00:05:11,395
Это, с одной стороны,
позволит лучше контролировать данные,
110
00:05:11,395 --> 00:05:13,441
так как их сможет увидеть
большее число людей,
111
00:05:13,441 --> 00:05:15,851
и, мы надеемся, будет способствовать
112
00:05:15,851 --> 00:05:18,795
более частому использованию
Викиданных в Википедии,
113
00:05:18,841 --> 00:05:20,920
и это значит, большее число людей
сможет заметить,
114
00:05:20,921 --> 00:05:23,547
что, например, некоторые данные устарели
и должны быть обновлены,
115
00:05:23,547 --> 00:05:27,000
чем если бы они видели эти данные
только в Викиданных.
116
00:05:28,630 --> 00:05:30,656
Также есть испорченные ссылки.
117
00:05:30,657 --> 00:05:33,959
Идея в том, что если вы редактируете
значение утверждения,
118
00:05:34,683 --> 00:05:37,279
вы также можете обновить и ссылки,
119
00:05:37,280 --> 00:05:39,373
если это не просто опечатка
или что-то ещё.
120
00:05:39,897 --> 00:05:43,662
Эти испорченные ссылки
сигнализируют редакторам
121
00:05:43,663 --> 00:05:49,756
и дают возможность увидеть,
какие другие правки были сделаны,
122
00:05:49,756 --> 00:05:52,641
где отредактировали значение утверждения,
но не обновили ссылку,
123
00:05:52,641 --> 00:05:55,147
и вы можете всё подредактировать
124
00:05:55,147 --> 00:05:59,566
и решить, следует ли ещё что-то делать,
125
00:05:59,566 --> 00:06:02,796
или всё в порядке,
и ссылку обновлять не нужно.
126
00:06:03,543 --> 00:06:05,756
Перейдём к подписанным утверждениям.
127
00:06:05,756 --> 00:06:09,336
Я думаю, это связано с тем опасением,
128
00:06:09,336 --> 00:06:12,355
что некоторые источники данных...
129
00:06:13,881 --> 00:06:16,462
Есть утверждение, на которое ссылаются,
например, через ЮНЕСКО
130
00:06:16,462 --> 00:06:17,792
или какое-то другое учреждение,
131
00:06:17,792 --> 00:06:20,382
а потом кто-то неожиданно
вносит вандальные правки,
132
00:06:20,382 --> 00:06:22,306
и они переживают, что это будет выглядеть,
133
00:06:22,827 --> 00:06:26,992
как будто организация,
например, ЮНЕСКО, принимает эти правки.
134
00:06:26,993 --> 00:06:28,706
В случае с подписанными утверждениями,
135
00:06:28,706 --> 00:06:31,488
они могут криптографически
подписать эту ссылку,
136
00:06:31,488 --> 00:06:33,562
и это не помешает её редактированию,
137
00:06:34,169 --> 00:06:37,284
но если кто-то внесёт в утверждение
вандальные правки
138
00:06:37,284 --> 00:06:40,255
или любые другие,
подпись будет недействительна,
139
00:06:40,255 --> 00:06:43,401
и это уже не совсем то,
что утверждает организация.
140
00:06:43,402 --> 00:06:45,035
Возможно, это хорошая правка,
141
00:06:45,035 --> 00:06:47,065
и нужно просто переподписать
новое утверждение,
142
00:06:47,065 --> 00:06:49,851
но, возможно, правку следует отменить.
143
00:06:51,203 --> 00:06:54,166
Думаю, это будет увлекательно.
144
00:06:54,166 --> 00:06:56,846
Citoid -- удивительная система,
которая есть в Википедии,
145
00:06:57,379 --> 00:07:01,340
где вы можете вставить URL,
идентификатор или ISBN
146
00:07:01,340 --> 00:07:04,759
или идентификатор Викиданных,
в общем, что угодно в визуальный редактор,
147
00:07:05,260 --> 00:07:08,241
и это трансформируется
в красиво отформатированную ссылку,
148
00:07:08,242 --> 00:07:11,269
которая содержит все нужные вам данные,
и ей легко пользоваться.
149
00:07:11,269 --> 00:07:14,337
Для сравнения, если я хочу
добавить ссылку в Викиданных,
150
00:07:14,338 --> 00:07:18,801
я обычно должен добавить URL ссылки,
название, строку с именем автора,
151
00:07:18,802 --> 00:07:20,449
место и дату публикации,
152
00:07:20,450 --> 00:07:24,141
даты получения --
по крайней мере, всё это --
153
00:07:24,141 --> 00:07:25,141
и это очень утомительно,
154
00:07:25,141 --> 00:07:29,261
а интеграция Citoid в Викибазу
должна помочь в этом.
155
00:07:30,245 --> 00:07:33,604
Думаю, у меня всё.
156
00:07:33,604 --> 00:07:36,400
Сейчас передаю слово Кристине.
157
00:07:37,510 --> 00:07:40,581
(аплодисменты)
158
00:07:40,581 --> 00:07:43,326
Как можно улучшить
управление качеством данных?
159
00:07:43,711 --> 00:07:45,471
Привет, я Кристина.
160
00:07:45,472 --> 00:07:47,672
Я научный сотрудник
Цюрихского университета
161
00:07:47,673 --> 00:07:51,417
и активный член
швейцарского Вики-сообщества.
162
00:07:52,698 --> 00:07:57,901
Когда мы вместе с Клаудией Мюллер-Бирн
отправляли наш доклад на WikidataCon,
163
00:07:57,902 --> 00:08:00,410
мы хотели продолжить обсуждение,
164
00:08:00,411 --> 00:08:02,424
начатое в этом году
165
00:08:02,424 --> 00:08:07,442
на семинаре по качеству данных,
а также на нескольких сессиях Викимании.
166
00:08:07,442 --> 00:08:10,535
В своём выступлении мы, в основном,
поделимся некоторыми соображениями
167
00:08:10,536 --> 00:08:14,432
как сообщества, так и нашими,
168
00:08:14,432 --> 00:08:16,560
и продолжим обсуждение.
169
00:08:16,561 --> 00:08:20,065
Нам хотелось бы и дальше
активно общаться с вами.
170
00:08:21,557 --> 00:08:23,371
Мы считаем, что очень важно
171
00:08:23,372 --> 00:08:27,580
постоянно спрашивать
всех пользователей сообщества
172
00:08:27,581 --> 00:08:32,240
о том, что им действительно нужно,
какие у них проблемы с качеством данных,
173
00:08:32,240 --> 00:08:35,000
не только редакторов
но и людей, которые пишут код,
174
00:08:35,000 --> 00:08:36,241
либо пользуются данными,
175
00:08:36,242 --> 00:08:38,434
а также исследователей,
которые фактически используют
176
00:08:38,434 --> 00:08:40,800
всю историю редактирования
для анализа происходящего.
177
00:08:42,367 --> 00:08:46,101
Мы сделали обзор
примерно 80-ти инструментов,
178
00:08:46,101 --> 00:08:48,386
существующих в Викиданных,
179
00:08:48,431 --> 00:08:52,380
и привели их в соответствие
с разными показателями качества данных.
180
00:08:52,380 --> 00:08:54,360
Мы увидели, что на самом деле
181
00:08:54,361 --> 00:08:57,681
многие инструменты
отслеживают полноту,
182
00:08:57,681 --> 00:09:02,820
а также некоторые из них поддерживают
взаимосвязи между данными.
183
00:09:02,820 --> 00:09:08,442
Есть потребность в инструментах,
оценивающих разнообразие данных --
184
00:09:08,443 --> 00:09:12,824
то, что мы можем иметь в Викиданных,
185
00:09:12,824 --> 00:09:15,958
в особенности, этот принцип
разработки Викиданных,
186
00:09:15,959 --> 00:09:17,901
в котором мы можем иметь
множественность --
187
00:09:17,902 --> 00:09:20,308
разные утверждения
с разными значениями
188
00:09:20,784 --> 00:09:22,236
из разных источников.
189
00:09:22,236 --> 00:09:24,921
Поскольку это вторичный источник,
у нас нет инструментов,
190
00:09:24,922 --> 00:09:27,750
сообщающих, сколько существует
множественных утверждений,
191
00:09:27,751 --> 00:09:30,889
сколько из них мы можем улучшить
и каким образом,
192
00:09:30,890 --> 00:09:32,833
и мы также точно не знаем,
193
00:09:32,833 --> 00:09:35,538
в чём причина этой множественности.
194
00:09:36,491 --> 00:09:39,201
На этих собраниях сообщества
195
00:09:39,201 --> 00:09:43,084
мы обсуждали проблемы,
всё ещё требующие внимания.
196
00:09:43,084 --> 00:09:46,499
Например, краудсорсинговые сообщества --
197
00:09:46,499 --> 00:09:49,293
это очень хорошо,
потому что разные люди работают
198
00:09:49,293 --> 00:09:51,833
с разными частями данных или графа,
199
00:09:51,834 --> 00:09:54,615
у всех людей разные
фундаментальные знания.
200
00:09:54,616 --> 00:09:59,161
Но на самом деле
очень трудно достичь однородности,
201
00:09:59,162 --> 00:10:04,920
потому что люди используют
разные свойства по-разному,
202
00:10:04,920 --> 00:10:08,401
и у них разные ожидания
от описаний сущностей.
203
00:10:09,003 --> 00:10:12,721
Люди также сказали,
что им нужно больше инструментов,
204
00:10:12,722 --> 00:10:16,000
которые дают лучший обзор
глобального статуса сущностей,
205
00:10:16,000 --> 00:10:20,733
показывают, каких сущностей не хватает
с точки зрения полноты,
206
00:10:20,733 --> 00:10:26,121
а также над чем сейчас работают люди.
207
00:10:26,121 --> 00:10:30,516
Они также многократно упоминают
более тесное сотрудничество
208
00:10:30,517 --> 00:10:33,311
не только между разными языками,
но и Вики-проектами
209
00:10:33,311 --> 00:10:35,571
и различным платформами Викимедии.
210
00:10:35,571 --> 00:10:40,029
Мы опубликовали все комментарии,
которые услышали во время этих обсуждений.
211
00:10:40,029 --> 00:10:42,959
Вы можете посмотреть их,
пройдя по ссылкам в Etherpad,
212
00:10:42,959 --> 00:10:46,162
а также на странице Викимании.
213
00:10:46,162 --> 00:10:48,481
Некоторые новые решения
214
00:10:48,481 --> 00:10:53,001
заключались в обмене лучшими практиками,
215
00:10:53,001 --> 00:10:55,762
которые реализуются
в разных Вики-проектах,
216
00:10:55,762 --> 00:11:01,238
но также людям нужны инструменты,
помогающие организовать работу в командах
217
00:11:01,239 --> 00:11:03,845
или, по крайней мере,
понять, кто над этим работает.
218
00:11:03,845 --> 00:11:07,815
Также люди упоминали,
что они хотят больше примеров
219
00:11:07,816 --> 00:11:12,019
и шаблонов, которые помогут в работе.
220
00:11:12,946 --> 00:11:14,163
У нас есть контакты
221
00:11:14,163 --> 00:11:18,721
с организациями открытых
государственных данных
222
00:11:18,722 --> 00:11:20,068
и, в частности,
223
00:11:20,068 --> 00:11:23,102
я поддерживаю контакты
с кантоном и городом Цюрих.
224
00:11:23,102 --> 00:11:26,207
Они очень заинтересованы в Викиданных,
225
00:11:26,207 --> 00:11:29,896
потому что хотят, чтобы их данные
были доступны для всех
226
00:11:29,897 --> 00:11:33,681
в таком месте, где люди
могут ознакомиться c этими данными.
227
00:11:33,682 --> 00:11:36,550
Для них было бы действительно интересно
228
00:11:36,551 --> 00:11:38,600
иметь какие-то качественные показатели
229
00:11:38,600 --> 00:11:41,082
как в Вики, они уже есть,
230
00:11:41,082 --> 00:11:42,801
но и в результатах SPARQL,
231
00:11:42,802 --> 00:11:46,066
чтобы знать, доверять ли данным,
полученным от сообщества.
232
00:11:46,067 --> 00:11:48,230
Они также хотят знать,
233
00:11:48,230 --> 00:11:51,417
какие из их наборов данных
полезны для Викиданных,
234
00:11:51,418 --> 00:11:53,091
и чтобы был такой инструмент,
235
00:11:53,091 --> 00:11:56,041
который поможет им
оценивать это автоматически.
236
00:11:56,041 --> 00:11:59,066
Им также нужна
какая-то методология или инструмент,
237
00:11:59,067 --> 00:12:01,404
который бы помог им решить,
238
00:12:01,404 --> 00:12:03,644
импортировать свои данные
или связывать их с Викиданными,
239
00:12:03,644 --> 00:12:05,994
поскольку в некоторых случаях
у них есть свои наборы
240
00:12:05,994 --> 00:12:07,137
связанных открытых данных,
241
00:12:07,138 --> 00:12:09,746
поэтому они не знают,
публиковать эти данные
242
00:12:09,746 --> 00:12:13,424
или создавать в наборах данных
ссылки на Викиданные
243
00:12:13,425 --> 00:12:14,425
и наоборот.
244
00:12:14,950 --> 00:12:20,044
Они также хотят знать, какие элементы
Викиданных ссылаются на их сайты.
245
00:12:20,044 --> 00:12:22,790
Когда они делают такой запрос,
246
00:12:22,790 --> 00:12:24,848
он остаётся без ответа
с истёкшим временем ожидания,
247
00:12:24,849 --> 00:12:28,181
поэтому, возможно, нам действительно
стоит создавать больше инструментов,
248
00:12:28,181 --> 00:12:32,240
которые помогут им получить
ответы на их вопросы.
249
00:12:33,148 --> 00:12:36,208
Кроме того,
250
00:12:36,208 --> 00:12:38,491
нам, вики-исследователям,
251
00:12:38,491 --> 00:12:42,023
тоже иногда не хватает информации
в описаниях изменений.
252
00:12:42,024 --> 00:12:44,953
Я помню, что когда
мы делали какую-то работу,
253
00:12:44,954 --> 00:12:47,479
чтобы понять различное поведение
254
00:12:47,479 --> 00:12:50,319
редакторов, ботов
или анонимных пользователей
255
00:12:50,319 --> 00:12:53,403
с помощью инструментов,
256
00:12:53,403 --> 00:12:56,154
нам действительно не хватало, например,
257
00:12:56,154 --> 00:13:01,112
стандартного способа отслеживания
использования этих инструментов.
258
00:13:01,113 --> 00:13:03,224
Есть несколько инструментов,
которые уже делают это,
259
00:13:03,224 --> 00:13:05,230
например, PetScan и многие другие,
260
00:13:05,230 --> 00:13:08,860
но, возможно, в сообществе
мы должны больше обсуждать,
261
00:13:08,860 --> 00:13:13,611
как фиксировать более точное
происхождение данных.
262
00:13:14,169 --> 00:13:16,111
Далее, мы полагаем,
263
00:13:16,111 --> 00:13:20,801
что нужно подумать о более конкретных
показателях качества данных,
264
00:13:20,802 --> 00:13:24,961
относящихся к связанным данным,
а не ко всем типам данных,
265
00:13:24,962 --> 00:13:28,602
поэтому мы разрабатываем комплекс мер
266
00:13:28,602 --> 00:13:31,752
для получения доступа
к приросту информации по ссылкам,
267
00:13:31,752 --> 00:13:33,881
подразумевая то,
268
00:13:33,882 --> 00:13:36,681
что когда мы связываем
Викиданные с другими наборами данных,
269
00:13:36,682 --> 00:13:38,201
мы также должны думать о том,
270
00:13:38,202 --> 00:13:41,921
сколько сущностей
получается в классификации,
271
00:13:41,922 --> 00:13:45,601
описании и в словарях,
которыми они пользуются.
272
00:13:45,602 --> 00:13:51,041
Просто для примера, что я имею в виду:
273
00:13:51,042 --> 00:13:54,269
в нашем случае это будут Викиданные
274
00:13:54,270 --> 00:13:57,771
или внешний набор данных,
который ссылается на Викиданные.
275
00:13:57,772 --> 00:14:00,487
У нас есть сущность для человека
по имени Наташа Ной,
276
00:14:00,487 --> 00:14:02,601
у нас есть принадлежность и другие вещи,
277
00:14:02,602 --> 00:14:05,239
а затем мы ссылаемся на внешний источник,
278
00:14:05,240 --> 00:14:08,919
и эта сущность с таким же именем,
но значение одно и то же.
279
00:14:08,920 --> 00:14:12,889
Лучше сослаться на сущность
с другим действительным именем,
280
00:14:12,889 --> 00:14:16,881
потому что имя этого человека
может быть написано двумя способами,
281
00:14:16,882 --> 00:14:19,714
а также на другую информацию,
отсутствующую в Викиданных
282
00:14:19,715 --> 00:14:21,760
или других наборах данных.
283
00:14:22,390 --> 00:14:24,652
Лучше даже то,
284
00:14:24,653 --> 00:14:27,770
что мы рассматриваем целевой набор данных,
285
00:14:27,770 --> 00:14:31,392
что также существуют новые способы
классификации информации.
286
00:14:31,393 --> 00:14:35,354
Не только то, что это человек,
но в другом наборе данных
287
00:14:35,355 --> 00:14:38,061
сообщается, что это женщина,
или другая информация,
288
00:14:38,061 --> 00:14:39,526
с которой классифицируется сущность.
289
00:14:39,526 --> 00:14:43,401
В другом наборе данных
используются другие словари,
290
00:14:43,402 --> 00:14:46,588
и это помогает при поиске информации.
291
00:14:48,291 --> 00:14:51,233
Мы также считаем,
292
00:14:51,234 --> 00:14:55,809
что можем более наглядно представлять
федеративные запросы,
293
00:14:55,810 --> 00:15:00,448
потому что по журналу запросов,
предоставленному Малышевым и др.,
294
00:15:01,285 --> 00:15:04,301
мы видим, что на самом деле
среди органических запросов
295
00:15:04,302 --> 00:15:06,921
число федеративных запросов
очень небольшое.
296
00:15:06,922 --> 00:15:09,151
На самом деле, федерация является
297
00:15:09,151 --> 00:15:12,776
одним из ключевых преимуществ
наличия связанных данных,
298
00:15:12,802 --> 00:15:16,903
так что, возможно, сообществу или людям,
которые пользуются Викиданными,
299
00:15:16,903 --> 00:15:18,898
тоже нужно больше примеров.
300
00:15:18,898 --> 00:15:22,666
Если мы посмотрим на список
используемых точек доступа,
301
00:15:22,667 --> 00:15:25,401
он будет неполным,
у нас есть намного больше.
302
00:15:25,402 --> 00:15:30,479
Эти данные были проанализированы
по запросам до марта 2018 года,
303
00:15:30,480 --> 00:15:34,807
но мы должны проверить список
имеющихся объединённых точек доступа
304
00:15:34,808 --> 00:15:37,048
и посмотреть,
действительно ли мы их используем.
305
00:15:37,813 --> 00:15:40,361
У меня есть два вопроса к зрителям,
306
00:15:40,361 --> 00:15:43,081
которые, возможно, мы впоследствии
можем использовать для обсуждения:
307
00:15:43,081 --> 00:15:46,001
какие, на ваш взгляд, проблемы
с качеством данных нужно рассмотреть,
308
00:15:46,002 --> 00:15:47,412
учитывая ваши потребности,
309
00:15:47,412 --> 00:15:50,401
а также, где вам нужно
больше автоматизации --
310
00:15:50,402 --> 00:15:52,943
при редактировании или патрулировании?
311
00:15:53,866 --> 00:15:55,146
Это всё, большое спасибо.
312
00:15:55,779 --> 00:15:57,527
(аплодисменты)
313
00:16:04,091 --> 00:16:05,538
WikidataCon 2019
Викиданные и языки
314
00:16:05,538 --> 00:16:07,603
Визуализация схемы сущности
и авторские инструменты
315
00:16:07,603 --> 00:16:10,105
(Хосе Эмилио Лабра) Я расскажу
о некоторых инструментах,
316
00:16:10,105 --> 00:16:12,606
которые мы разработали,
317
00:16:12,606 --> 00:16:15,536
связанных с Shape Expressions.
318
00:16:15,536 --> 00:16:19,371
Об этом я буду говорить.
Меня зовут Хосе Эмилио Лабра.
319
00:16:19,371 --> 00:16:23,215
Все эти инструменты
были разработаны разными людьми,
320
00:16:23,920 --> 00:16:26,780
в основном все они связаны
с сообществом W3C ShEx,
321
00:16:26,780 --> 00:16:29,481
или сообществом Shape Expressions.
322
00:16:30,144 --> 00:16:36,081
Первый инструмент -- RDFShape,
это общий инструмент,
323
00:16:36,082 --> 00:16:40,681
потому что Shape Expressions
используется не только для Викиданных,
324
00:16:40,682 --> 00:16:44,168
это язык для проверки RDF в целом.
325
00:16:44,168 --> 00:16:47,568
Этот инструмент был разработан
в основном мной,
326
00:16:47,568 --> 00:16:50,880
и это инструмент для проверки RDF.
327
00:16:50,881 --> 00:16:55,139
Если вы хотите узнать о RDF
или проверить RDF
328
00:16:55,140 --> 00:16:58,621
или точки доступа SPARQL
не только в Викиданных,
329
00:16:58,622 --> 00:17:00,891
я советую вам пользоваться
этим инструментом.
330
00:17:00,891 --> 00:17:03,255
В том числе и для обучения.
331
00:17:03,255 --> 00:17:05,640
Я преподаю в университете
332
00:17:05,641 --> 00:17:09,151
и пользуюсь им для обучения RDF
в своём веб-курсе по семантике.
333
00:17:09,161 --> 00:17:12,121
Если хотите изучать RDF,
это хороший инструмент.
334
00:17:13,033 --> 00:17:17,598
Например, это визуализация RDF-графа
с помощью этого инструмента.
335
00:17:18,587 --> 00:17:22,643
Но прежде чем приехать сюда,
в прошлом месяце
336
00:17:22,643 --> 00:17:28,441
я специально начал использовать
RDFShape для работы с Викиданными.
337
00:17:28,443 --> 00:17:33,082
Инструмент называется WikiShape,
и вчера я подарил его Викиданным.
338
00:17:33,082 --> 00:17:34,441
Что я сделал?
339
00:17:34,442 --> 00:17:39,228
Я удалил всё,
что не связано с Викиданными,
340
00:17:39,228 --> 00:17:42,912
добавил кое-что жёстко закодированное,
341
00:17:42,912 --> 00:17:44,802
например, точку доступа SPARQL.
342
00:17:44,802 --> 00:17:49,041
Но теперь меня попросили
сделать это и для Викибазы.
343
00:17:49,042 --> 00:17:52,000
Это очень легко.
344
00:17:52,760 --> 00:17:56,280
Этот инструмент WikiShape
достаточно новый.
345
00:17:57,015 --> 00:17:59,843
Я думаю, что многие его функции работают,
346
00:17:59,844 --> 00:18:02,468
но некоторые, возможно, не работают,
347
00:18:02,469 --> 00:18:04,581
и если вы попробуете его
и захотите что-то улучшить,
348
00:18:04,581 --> 00:18:06,281
пожалуйста, сообщите мне.
349
00:18:06,281 --> 00:18:12,680
Здесь у нас скриншоты [неразборчиво],
но давайте попробуем.
350
00:18:15,385 --> 00:18:17,003
Давайте посмотрим, работает ли он.
351
00:18:17,003 --> 00:18:20,070
Во-первых, я должен выйти из...
352
00:18:22,453 --> 00:18:23,453
Здесь.
353
00:18:24,226 --> 00:18:28,324
Хорошо. Вот этот инструмент.
354
00:18:28,324 --> 00:18:29,844
С помощью него вы можете,
355
00:18:29,845 --> 00:18:35,275
например, проверить схемы сущностей.
356
00:18:35,276 --> 00:18:38,611
Например, существует новое
пространство имён, начинающееся с «Е»,
357
00:18:38,612 --> 00:18:44,805
и здесь, если вы начнёте писать,
например, «человек»...
358
00:18:44,806 --> 00:18:48,812
Когда вы пишете,
автозаполнение позволяет проверить,
359
00:18:48,812 --> 00:18:52,001
например, существуют ли
выражения формы для людей,
360
00:18:52,790 --> 00:18:55,937
и вот здесь появляются выражения формы.
361
00:18:55,938 --> 00:18:59,841
Как видите, в этом редакторе
есть подсветка синтаксиса.
362
00:18:59,842 --> 00:19:04,559
Возможно, экран очень маленький.
363
00:19:05,676 --> 00:19:07,590
Попробую увеличить.
364
00:19:09,194 --> 00:19:10,973
Может, сейчас лучше видно.
365
00:19:10,973 --> 00:19:14,241
Это редактор с подсветкой синтаксиса.
366
00:19:14,241 --> 00:19:17,851
Для редактора используется
тот же исходный код,
367
00:19:17,851 --> 00:19:19,641
что и для службы запросов Викиданных.
368
00:19:19,642 --> 00:19:23,960
Так, например,
если вы наведёте мышкой сюда,
369
00:19:23,961 --> 00:19:27,961
он покажет вам метки разных свойств.
370
00:19:27,962 --> 00:19:31,298
Я думаю, это очень полезно,
потому что сейчас,
371
00:19:32,588 --> 00:19:38,602
схемы сущностей в Викиданных --
это просто текст,
372
00:19:38,602 --> 00:19:42,493
и я думаю, этот редактор намного лучше,
потому что у него есть автозаполнение,
373
00:19:42,494 --> 00:19:43,743
и он также имеет...
374
00:19:43,744 --> 00:19:48,241
Если вы, например,
хотите добавить ограничение,
375
00:19:48,241 --> 00:19:51,570
вы пишете wdt:,
376
00:19:51,570 --> 00:19:56,884
а затем начинаете писать auth,
нажимаете Ctrl+Space,
377
00:19:56,884 --> 00:19:58,922
и он предлагает разные варианты.
378
00:19:58,922 --> 00:20:02,388
Это похоже на службу запросов Викиданных,
379
00:20:02,389 --> 00:20:06,445
но специально для выражений формы.
380
00:20:06,445 --> 00:20:11,975
Так как я думаю,
что создание выражений формы
381
00:20:11,976 --> 00:20:15,841
не сложнее,
чем написание SPARQL-запросов.
382
00:20:15,842 --> 00:20:21,255
Хотя некоторые думают,
что это примерно одинаково по сложности.
383
00:20:22,278 --> 00:20:26,296
Я думаю, это проще,
потому что Shape Expressions
384
00:20:26,296 --> 00:20:31,241
был создан с целью облегчить работу.
385
00:20:31,242 --> 00:20:35,001
Первое, что у вас есть -- это редактор
386
00:20:35,001 --> 00:20:36,620
для выражений формы.
387
00:20:37,371 --> 00:20:41,467
Здесь есть возможность,
например, визуализации.
388
00:20:41,468 --> 00:20:44,801
Если у вас есть какое-то
выражение формы, например...
389
00:20:44,802 --> 00:20:49,386
Думаю, written work -- хороший пример,
390
00:20:49,386 --> 00:20:53,300
поскольку в нём есть взаимосвязь
между разными сущностями.
391
00:20:54,823 --> 00:20:58,160
Вот UML-визуализация для written work.
392
00:20:58,161 --> 00:21:02,090
Здесь легко увидеть разные свойства.
393
00:21:02,790 --> 00:21:06,794
Когда вы делаете это совместно
с несколькими людьми,
394
00:21:06,795 --> 00:21:09,216
они находят ошибки
в своих выражениях формы,
395
00:21:09,217 --> 00:21:12,988
потому что так можно легко найти
недостающие свойства.
396
00:21:13,588 --> 00:21:15,771
Есть ещё одна возможность проверки,
397
00:21:15,772 --> 00:21:19,520
кажется, у меня она вот здесь.
398
00:21:20,496 --> 00:21:25,285
Это было на какой-то вкладке,
возможно, я закрыл её.
399
00:21:26,267 --> 00:21:30,988
Но вы можете, например,
нажать Validate entities.
400
00:21:32,308 --> 00:21:34,232
Например,
401
00:21:35,404 --> 00:21:41,921
Q42 сравнить с E42, схемой для авторов.
402
00:21:42,818 --> 00:21:46,180
Думаю, можно попробовать
со схемой для людей.
403
00:21:49,050 --> 00:21:50,050
А потом...
404
00:21:50,688 --> 00:21:56,365
Это SPARQL-запрос,
и он занимает какое-то время,
405
00:21:56,365 --> 00:21:59,134
например, сейчас сбой в сети, но...
406
00:21:59,657 --> 00:22:01,580
Вы можете попробовать.
407
00:22:02,759 --> 00:22:07,026
Давайте расскажем о других инструментах.
408
00:22:07,026 --> 00:22:12,353
Если хотите попробовать
и у вас есть предложения, дайте мне знать.
409
00:22:13,133 --> 00:22:15,540
Продолжим презентацию.
410
00:22:18,923 --> 00:22:20,233
Это WikiShape.
411
00:22:23,800 --> 00:22:26,509
Как я уже говорил,
412
00:22:27,681 --> 00:22:34,157
Редактор Shape Expressions --
независимый проект на GitHub.
413
00:22:35,605 --> 00:22:37,472
Вы можете использовать его
в своём проекте.
414
00:22:37,472 --> 00:22:41,036
Если хотите использовать
инструмент Shape Expressions,
415
00:22:41,036 --> 00:22:45,635
вы можете просто встроить его
в любой другой проект,
416
00:22:45,636 --> 00:22:48,235
его можно найти на GitHub,
и им можно пользоваться.
417
00:22:48,868 --> 00:22:51,970
Тот же автор, один из моих учеников,
418
00:22:52,684 --> 00:22:55,704
также создал редактор
для Shape Expressions,
419
00:22:55,704 --> 00:22:57,799
вдохновившись
службой запросов Викиданных.
420
00:23:00,682 --> 00:23:05,103
Этот редактор более наглядный
для SPARQL-запросов,
421
00:23:05,104 --> 00:23:07,135
куда вы можете загрузить подобные вещи.
422
00:23:07,136 --> 00:23:09,123
Это снимок экрана.
423
00:23:09,123 --> 00:23:12,662
Как видите, выражения формы
здесь в виде текста.
424
00:23:12,662 --> 00:23:17,822
Но здесь они на базе форм,
и, вероятно, потребуется больше времени,
425
00:23:18,595 --> 00:23:23,400
но вы можете вставлять
разные строки в разные поля.
426
00:23:23,401 --> 00:23:25,800
Это ShExEr.
427
00:23:26,879 --> 00:23:31,882
Его сделал аспирант
Университета Овьедо,
428
00:23:31,883 --> 00:23:34,080
он сегодня здесь,
и расскажет вам о ShExEr.
429
00:23:38,147 --> 00:23:40,024
(Данни) Привет, я Данни Фернандес,
430
00:23:40,025 --> 00:23:44,099
аспирант Университета Овьедо,
работаю с Лаброй.
431
00:23:44,710 --> 00:23:47,725
У нас заканчивается время,
поэтому давайте ускоримся.
432
00:23:47,726 --> 00:23:52,641
Я покажу несколько скриншотов
вместо всей презентации.
433
00:23:52,642 --> 00:23:57,897
Обычный способ работы с Shape Expressions
или любым подобным языком:
434
00:23:57,897 --> 00:23:59,521
есть специалист,
435
00:23:59,522 --> 00:24:02,313
который определяет,
как должен выглядеть граф,
436
00:24:02,314 --> 00:24:03,555
определяет структуры,
437
00:24:03,556 --> 00:24:06,983
а затем вы используете эти структуры
для проверки фактических данных.
438
00:24:08,124 --> 00:24:11,641
Инструмент, о котором рассказал Лабра, --
439
00:24:11,642 --> 00:24:14,441
общего назначения
для любого RDF-источника,
440
00:24:14,442 --> 00:24:17,375
и он может работать
в обратном направлении.
441
00:24:17,376 --> 00:24:18,758
У вас уже есть некоторые данные,
442
00:24:18,759 --> 00:24:23,165
вы выбираете узлы,
форму которых хотите получить,
443
00:24:23,165 --> 00:24:26,718
а затем автоматически
извлекаете или выводите форму.
444
00:24:26,719 --> 00:24:29,791
Несмотря на то, что это инструмент
общего назначения,
445
00:24:29,791 --> 00:24:34,063
мы сделали волшебную кнопку
для этой конференции,
446
00:24:34,884 --> 00:24:37,081
и если вы нажмёте на неё,
447
00:24:37,081 --> 00:24:42,079
появятся параметры конфигурации,
448
00:24:42,080 --> 00:24:46,251
и он настроит работу
с точкой доступа Викиданных,
449
00:24:46,251 --> 00:24:47,971
простите, он скоро закончит.
450
00:24:48,733 --> 00:24:52,883
После нажатия этой кнопки
вы, по сути, получаете это.
451
00:24:52,884 --> 00:24:55,126
Выбрав необходимые вам узлы
452
00:24:55,127 --> 00:24:57,431
или экземпляры класса,
453
00:24:57,431 --> 00:24:59,361
что бы вы ни искали,
454
00:24:59,361 --> 00:25:01,321
вы получите автоматическую схему.
455
00:25:02,319 --> 00:25:07,111
Все ограничения отсортированы
по количеству узлов,
456
00:25:07,112 --> 00:25:09,772
можно отфильтровать
наименее распространённые и так далее.
457
00:25:09,772 --> 00:25:12,126
Внизу есть плакат об этом материале,
458
00:25:12,127 --> 00:25:14,595
я буду на нижнем и верхнем этажах,
459
00:25:14,596 --> 00:25:16,454
а также в других местах,
460
00:25:16,455 --> 00:25:19,081
поэтому если у вас будет интерес
к этому инструменту,
461
00:25:19,082 --> 00:25:21,476
просто обращайтесь ко мне.
462
00:25:21,477 --> 00:25:24,624
Отдаю микрофон Лабре, спасибо.
463
00:25:24,625 --> 00:25:29,265
(аплодисменты)
464
00:25:29,812 --> 00:25:32,578
(Хосе) Давайте обсудим
другие инструменты.
465
00:25:32,579 --> 00:25:34,984
ShapeDesigner -- ещё один инструмент.
466
00:25:34,984 --> 00:25:37,241
Андра, хочешь рассказать о ShapeDesigner
467
00:25:37,242 --> 00:25:39,957
или позже на семинаре?
468
00:25:40,173 --> 00:25:44,437
Сегодня будет семинар,
посвящённый Shape Expressions,
469
00:25:45,265 --> 00:25:47,939
мы попробуем его на практике,
470
00:25:47,940 --> 00:25:52,324
так что если хотите попрактиковаться
с ShEx, то вам сюда.
471
00:25:52,875 --> 00:25:55,300
Это инструмент ShEx.js,
472
00:25:55,300 --> 00:25:56,890
и Эрик может рассказать о нём.
473
00:25:57,969 --> 00:26:00,687
(Эрик) Расскажу очень быстро.
474
00:26:00,687 --> 00:26:05,711
Вы, вероятно, уже видели интерфейс ShEx,
475
00:26:05,711 --> 00:26:07,601
заточенный под Викиданные.
476
00:26:07,602 --> 00:26:12,930
Его сократили и адаптировали
специально под Викиданные
477
00:26:12,930 --> 00:26:15,567
потому что в нём больше возможностей,
478
00:26:15,567 --> 00:26:17,937
но я, кажется, говорил об этом,
479
00:26:17,937 --> 00:26:19,977
потому что одна из этих функций
особенно полезна
480
00:26:19,978 --> 00:26:23,201
для отладки схем Викиданных.
481
00:26:23,201 --> 00:26:29,224
Если вы выбираете полный режим,
482
00:26:29,225 --> 00:26:31,444
то пока я буду проводить проверку
483
00:26:31,445 --> 00:26:34,694
всех этих триплетов,
484
00:26:34,695 --> 00:26:36,274
и если я получу множество ошибок,
485
00:26:36,275 --> 00:26:40,396
я могу пройтись по этим ошибкам
486
00:26:40,396 --> 00:26:44,120
и посмотреть, какие триплеты здесь, внизу.
487
00:26:44,121 --> 00:26:45,967
Это просто журнал того,
как всё происходило.
488
00:26:46,327 --> 00:26:49,180
Затем можете поиграть с этим,
489
00:26:49,181 --> 00:26:51,033
чтобы поменять что-либо.
490
00:26:51,033 --> 00:26:54,160
Это более быстрая версия
того, как это сделать.
491
00:26:55,361 --> 00:26:56,481
Это форма ShExC --
492
00:26:56,482 --> 00:26:59,455
то, что предлагал Йохим,
493
00:27:00,035 --> 00:27:04,631
что может быть полезно
для заполнения документов Викиданных
494
00:27:04,631 --> 00:27:07,338
на основе выражения формы
для этого документа.
495
00:27:08,095 --> 00:27:11,681
Она не адаптирована под Викиданные.
496
00:27:11,682 --> 00:27:14,081
Я просто показываю,
что можно взять схему,
497
00:27:14,082 --> 00:27:15,402
сделать аннотации,
498
00:27:15,403 --> 00:27:17,518
чтобы конкретно указать,
какую схему вы хотите,
499
00:27:17,519 --> 00:27:19,031
потом просто создать форму
500
00:27:19,031 --> 00:27:21,191
и, если у вас есть данные,
можно заполнить форму.
501
00:27:24,517 --> 00:27:26,164
PyShEx [неразборчиво].
502
00:27:28,025 --> 00:27:31,080
(Хосе) Думаю, это последний инструмент.
503
00:27:31,821 --> 00:27:34,080
Да, это PyShEx.
504
00:27:34,675 --> 00:27:38,151
PyShEx -- это Shape Expressions,
реализованный на Python,
505
00:27:39,193 --> 00:27:42,680
он совместим с Jupyter Notebooks.
506
00:27:42,680 --> 00:27:44,432
Итак, это всё.
507
00:27:44,433 --> 00:27:47,170
(аплодисменты)
508
00:27:52,916 --> 00:27:56,088
(Андра) Итак, я расскажу
о конкретном проекте,
509
00:27:56,088 --> 00:27:58,074
в котором участвую -- Gene Wiki,
510
00:27:58,865 --> 00:28:04,366
и в котором мы тоже занимаемся
вопросами качества.
511
00:28:04,597 --> 00:28:06,684
Прежде чем говорить о качестве,
512
00:28:06,685 --> 00:28:09,229
я кратко расскажу вам о Gene Wiki.
513
00:28:09,855 --> 00:28:15,175
Мы только что выпустили
предварительную версию статьи,
514
00:28:15,175 --> 00:28:18,160
в которой описаны детали проекта.
515
00:28:19,821 --> 00:28:22,066
Я вижу, люди фотографируют...
516
00:28:22,066 --> 00:28:25,076
Gene Wiki публикует в Викиданных
517
00:28:25,076 --> 00:28:28,027
общедоступные биомедицинские данные,
518
00:28:28,028 --> 00:28:32,200
используя для этого определённый шаблон.
519
00:28:33,130 --> 00:28:36,809
Если у нас появляется
новое хранилище или набор данных,
520
00:28:36,810 --> 00:28:39,600
который можно включить Викиданные,
521
00:28:39,601 --> 00:28:41,293
первый шаг -- вовлечение сообщества.
522
00:28:41,294 --> 00:28:43,784
Необязательно сообщества Викиданных,
523
00:28:43,785 --> 00:28:46,120
но местного исследовательского сообщества.
524
00:28:46,121 --> 00:28:50,286
Мы встречаемся лично,
онлайн или на любой платформе
525
00:28:50,286 --> 00:28:52,881
и пробуем придумать модель данных,
526
00:28:52,882 --> 00:28:56,197
которая соединит их данные
с моделью Викиданных.
527
00:28:56,197 --> 00:28:59,944
Вот фотография прошлогоднего семинара,
528
00:28:59,945 --> 00:29:02,663
на котором мы анализировали
определённый набор данных,
529
00:29:02,663 --> 00:29:05,280
и как видите, было много обсуждений,
530
00:29:05,281 --> 00:29:07,960
затем приведение его
в соответствие с schema.org
531
00:29:07,960 --> 00:29:10,320
и другими существующими онтологиями.
532
00:29:10,320 --> 00:29:15,508
В конце первого шага
у нас на доске появился чертёж схемы,
533
00:29:15,509 --> 00:29:17,336
которую мы хотим добавить в Викиданные.
534
00:29:17,337 --> 00:29:20,440
Вы видите, она несложная,
535
00:29:20,441 --> 00:29:22,116
на заднем плане,
536
00:29:22,116 --> 00:29:26,270
и мы можем построить какие-то схемы
даже здесь, в рамках этой дискуссии.
537
00:29:26,560 --> 00:29:28,399
Если у нас есть схема,
538
00:29:28,400 --> 00:29:31,320
следующий шаг -- попытаться сделать
эта схему машиночитаемой,
539
00:29:32,358 --> 00:29:36,841
чтобы иметь работающие модели
для переноса внешних данных
540
00:29:36,842 --> 00:29:39,690
из любой медико-биологической
базы данных в Викиданные.
541
00:29:40,393 --> 00:29:45,182
Здесь мы применяем
инструмент Shape Expressions,
542
00:29:46,471 --> 00:29:52,518
поскольку он позволяет проверить,
543
00:29:52,518 --> 00:29:57,040
является ли набор данных...
Сначала увидеть,
544
00:29:57,040 --> 00:30:01,782
что уже существующие данные в Викиданных
следуют той же модели данных,
545
00:30:01,783 --> 00:30:04,718
которая была получена
в предыдущих процессах.
546
00:30:04,719 --> 00:30:06,641
С помощью Shape Expressions
мы можем проверить,
547
00:30:06,642 --> 00:30:10,926
требуется ли корректировка данных
по этой теме в Викиданных,
548
00:30:10,926 --> 00:30:15,013
нужно ли адаптировать нашу модель
к модели Викиданных или наоборот.
549
00:30:15,937 --> 00:30:19,867
Как только всё на месте,
мы начинаем писать ботов,
550
00:30:20,670 --> 00:30:23,801
а боты загружают информацию
551
00:30:23,802 --> 00:30:27,308
из первоисточников в Викиданные.
552
00:30:27,846 --> 00:30:29,303
Когда боты готовы,
553
00:30:29,304 --> 00:30:33,851
а мы пишем их на платформе
WikidataIntegrator,
554
00:30:33,851 --> 00:30:36,201
используя библиотеку Python,
555
00:30:36,202 --> 00:30:38,167
которая появилась
в результате нашего проекта.
556
00:30:38,698 --> 00:30:42,921
Когда боты написаны,
мы используем платформу Jenkins
557
00:30:42,921 --> 00:30:44,540
для непрерывной интеграции.
558
00:30:44,540 --> 00:30:45,762
С помощью Jenkins
559
00:30:45,762 --> 00:30:51,160
мы постоянно обновляем
первоначальные источники с Викиданными.
560
00:30:52,178 --> 00:30:55,889
Вот диаграмма, о которой я говорил ранее.
561
00:30:55,890 --> 00:30:57,241
Это её текущий вид.
562
00:30:57,242 --> 00:31:02,059
Оранжевые прямоугольники --
первоисточники медикаментов,
563
00:31:02,060 --> 00:31:07,827
белков, генов, заболеваний,
химических соединений, со взаимосвязями,
564
00:31:07,827 --> 00:31:10,870
но её невозможно прочитать сейчас,
поскольку она слишком маленькая,
565
00:31:10,870 --> 00:31:17,472
но это база данных, источниками которых
мы управляем в Викиданных
566
00:31:17,473 --> 00:31:20,560
и соединяем с первоисточниками.
567
00:31:20,561 --> 00:31:22,355
Так выглядит наш рабочий процесс.
568
00:31:22,870 --> 00:31:25,312
Один из наших партнёров --
онтология заболеваний.
569
00:31:25,312 --> 00:31:28,289
Онтология заболеваний имеет лицензию CC0,
570
00:31:28,289 --> 00:31:31,990
и такая онтология
имеет свой цикл курирования.
571
00:31:32,756 --> 00:31:35,736
Онтология заболеваний
постоянно обновляется,
572
00:31:35,737 --> 00:31:39,687
чтобы отразить базу заболеваний
или их объяснение.
573
00:31:40,336 --> 00:31:44,361
Здесь изображён цикл курирования
Викиданных по заболеваниям,
574
00:31:44,362 --> 00:31:49,844
где сообщество постоянно следит за тем,
что происходит с Викиданными.
575
00:31:50,406 --> 00:31:51,601
Есть две роли.
576
00:31:51,602 --> 00:31:55,477
Мы упрощённо называем их
хранитель-куратор,
577
00:31:56,009 --> 00:31:59,561
и это были я и мой коллега пять лет назад.
578
00:31:59,562 --> 00:32:03,414
Мы просто сидели за компьютерами
и мониторили Википедию и Викиданные,
579
00:32:03,415 --> 00:32:08,601
и если была проблема, мы сообщали о ней
первоначальному сообществу,
580
00:32:08,602 --> 00:32:11,765
первоначальным источникам,
они смотрели на реализацию и решали,
581
00:32:11,765 --> 00:32:14,240
доверять ли данным,
введённым в Викиданные.
582
00:32:14,850 --> 00:32:18,555
Если да, начинался цикл
583
00:32:18,555 --> 00:32:22,686
и следующий шаг --
часть онтологии заболеваний
584
00:32:22,687 --> 00:32:25,411
возвращалась в Викиданные.
585
00:32:27,419 --> 00:32:31,480
Для WikiPathways мы делаем то же самое.
586
00:32:31,481 --> 00:32:34,202
WikiPathways -- база данных
биологических путей,
587
00:32:34,202 --> 00:32:36,602
вдохновлённая MediaWiki.
588
00:32:36,602 --> 00:32:40,901
В Викиданных уже существуют
различные источники путей.
589
00:32:41,463 --> 00:32:44,713
Между ними могут возникать конфликты,
590
00:32:45,312 --> 00:32:49,521
и хранителям-кураторам
сообщается об их возникновении,
591
00:32:49,522 --> 00:32:53,715
и вы управляете индивидуальными
циклами курирования.
592
00:32:53,715 --> 00:32:57,068
Но если вы помните предыдущий цикл,
593
00:32:57,069 --> 00:33:03,041
где речь велась
только о двух циклах, двух ресурсах,
594
00:33:03,566 --> 00:33:06,300
нам нужно делать это
для каждого имеющегося ресурса
595
00:33:06,300 --> 00:33:08,061
и нужно управлять происходящим,
596
00:33:08,062 --> 00:33:09,775
потому что под курированием
597
00:33:09,775 --> 00:33:14,157
я подразумеваю постоянное отслеживание
страниц Википедии и Викиданных.
598
00:33:14,545 --> 00:33:19,316
Такая работа явно не для двух
хранителей-кураторов.
599
00:33:19,860 --> 00:33:22,777
На конференции в 2016 году,
600
00:33:22,778 --> 00:33:26,933
когда Эрик рассказывал
о Shape Expressions,
601
00:33:26,934 --> 00:33:29,277
я присоединился, и подумал,
602
00:33:29,278 --> 00:33:34,240
что Shape Expressions может помочь
выявить различия в Викиданных,
603
00:33:34,240 --> 00:33:41,159
которые помогут хранителям
делать более подробные отчёты.
604
00:33:42,275 --> 00:33:46,019
В этом году я был в восторге
от схемы сущности,
605
00:33:46,020 --> 00:33:50,765
потому что теперь мы можем хранить
эти схемы в Викиданных,
606
00:33:50,765 --> 00:33:53,183
до этого мы хранили их на GitHub.
607
00:33:53,860 --> 00:33:56,815
Схема согласуется
с интерфейсом Викиданных,
608
00:33:56,816 --> 00:33:59,350
здесь есть обсуждение документа,
609
00:33:59,350 --> 00:34:00,762
но также доступны правки.
610
00:34:00,763 --> 00:34:03,012
Вы можете пользоваться
первыми страницами
611
00:34:03,012 --> 00:34:05,262
и правками в Викиданных,
612
00:34:05,262 --> 00:34:12,255
чтобы обсуждать то,
что имеется в Викиданных
613
00:34:12,255 --> 00:34:14,060
и первоначальных источниках.
614
00:34:14,966 --> 00:34:19,686
Эрик уже об этом говорил,
это очень помогает.
615
00:34:19,686 --> 00:34:24,335
Мы создали выражение формы
для гена человека,
616
00:34:24,336 --> 00:34:30,225
потом пропустили его через ShEx,
как вы видите,
617
00:34:30,225 --> 00:34:32,428
мы получили...
618
00:34:32,429 --> 00:34:34,641
Есть один элемент,
за которым нужно следить, --
619
00:34:34,642 --> 00:34:37,316
он не вписывается в эту схему,
620
00:34:37,316 --> 00:34:43,139
и затем вы можете создать
сущности схемы, отчёты курирования,
621
00:34:43,140 --> 00:34:46,240
и отправить их в разные отчёты.
622
00:34:48,058 --> 00:34:52,788
Но ShEx -- это встроенный интерфейс,
623
00:34:52,788 --> 00:34:55,860
и здесь я смогу показать только десять,
624
00:34:55,860 --> 00:35:00,362
но у нас десятки тысяч,
и они несоизмеримы.
625
00:35:00,362 --> 00:35:04,654
Интегратор Викиданных
теперь поддерживает ShEx,
626
00:35:05,168 --> 00:35:07,431
и мы просто можем замкнуть
петли элементов,
627
00:35:07,431 --> 00:35:11,494
указав «да-нет, да-нет,
правда-ложь, правда-ложь».
628
00:35:11,495 --> 00:35:12,495
снова,
629
00:35:13,065 --> 00:35:16,514
повышая эффективность
при составлении отчётов.
630
00:35:17,256 --> 00:35:22,662
Но с недавних пор он строится
на сервисе запросов Викиданных,
631
00:35:23,181 --> 00:35:24,998
мы недавно регулировали
количество запросов,
632
00:35:24,999 --> 00:35:26,560
и это тоже несоизмеримо.
633
00:35:26,561 --> 00:35:31,391
Работа с моделями на Викиданных --
непрерывный процесс.
634
00:35:32,202 --> 00:35:36,682
ShEx не только пугает,
635
00:35:36,683 --> 00:35:40,356
но он ещё и громоздкий.
636
00:35:41,068 --> 00:35:43,192
Я начал работать,
637
00:35:43,192 --> 00:35:46,082
это мой первый эксперимент или упражнение,
638
00:35:46,082 --> 00:35:48,184
где был использован инструмент yEd,
639
00:35:48,184 --> 00:35:52,591
и затем я начал отрисовывать
эти выражения формы,
640
00:35:52,591 --> 00:35:58,098
и потом регенерировать эту схему
641
00:35:58,099 --> 00:36:01,279
в формат, близкий к Shape Expressions,
642
00:36:01,280 --> 00:36:04,520
понятный людям,
643
00:36:04,521 --> 00:36:07,432
которых слишком пугает
язык Shape Expressions.
644
00:36:07,961 --> 00:36:12,308
Но есть проблема с визуальным описанием,
645
00:36:12,309 --> 00:36:18,229
потому что это также схема,
кем-то нарисованная в yEd.
646
00:36:18,230 --> 00:36:23,838
Вот ещё одна, замечательная.
647
00:36:23,838 --> 00:36:26,601
Я бы такую себе на стену повесил,
648
00:36:27,271 --> 00:36:30,281
но она пока несовместима.
649
00:36:30,281 --> 00:36:33,371
Хочу завершить своё выступление слайдом,
650
00:36:33,371 --> 00:36:35,732
который я позаимствовал.
651
00:36:35,732 --> 00:36:37,594
Для меня честь показать его аудитории.
652
00:36:37,595 --> 00:36:39,423
Он мне очень нравится:
653
00:36:39,424 --> 00:36:42,362
«Люди думают, что RDF -- это боль
из-за его сложности.
654
00:36:42,362 --> 00:36:43,745
Но на самом деле всё ещё хуже.
655
00:36:43,745 --> 00:36:48,133
RDF очень прост, но он позволяет работать
с реальными данными
656
00:36:48,134 --> 00:36:50,031
и невероятно сложными проблемами.
657
00:36:50,031 --> 00:36:52,361
Можно избежать использования RDF,
658
00:36:52,361 --> 00:36:55,760
но вряд ли получится избежать
сложных данных и компьютерных проблем».
659
00:36:55,761 --> 00:36:59,535
Речь об RDF, но, я думаю,
подходит под моделирование в целом.
660
00:37:00,112 --> 00:37:02,769
Мой вопрос -- должны ли мы...
661
00:37:03,387 --> 00:37:05,882
Как мы будем моделировать?
662
00:37:05,882 --> 00:37:10,826
Поговорим о ShEx,
или визуальных моделях, или...
663
00:37:11,426 --> 00:37:13,271
Как нам продолжить?
664
00:37:13,474 --> 00:37:14,840
Спасибо за уделённое время.
665
00:37:15,102 --> 00:37:17,787
(аплодисменты)
666
00:37:20,001 --> 00:37:21,188
(Лидия) Спасибо большое.
667
00:37:21,692 --> 00:37:24,001
Можете выйти вперёд,
668
00:37:24,002 --> 00:37:27,741
чтобы аудитория могла задать вопросы.
669
00:37:28,610 --> 00:37:30,203
Есть вопросы?
670
00:37:31,507 --> 00:37:32,507
Да.
671
00:37:34,253 --> 00:37:36,890
Думаю, для камеры нужно, чтобы...
672
00:37:38,835 --> 00:37:40,968
(Лидия смеётся) Да.
673
00:37:43,094 --> 00:37:46,273
(голос из зала 1) Вопрос Кристине, думаю.
674
00:37:47,366 --> 00:37:51,641
Вы упоминали термин «прирост информации»
675
00:37:51,642 --> 00:37:53,689
от объединения с другими системами.
676
00:37:53,690 --> 00:37:56,579
Существует информационно-теоретический
показатель -- прирост информации,
677
00:37:56,579 --> 00:37:58,201
основанный на статистике и вероятности.
678
00:37:59,542 --> 00:38:01,736
Вы имели в виду именно этот показатель?
679
00:38:01,736 --> 00:38:04,173
Прирост информации
на основе теории вероятности,
680
00:38:04,174 --> 00:38:05,240
теории информации,
681
00:38:05,241 --> 00:38:09,024
или просто такая концептуальная идея
для измерения прироста информации?
682
00:38:09,025 --> 00:38:13,016
Нет, мы действительно
определили и применили показатели,
683
00:38:13,695 --> 00:38:20,161
используя энтропию Шеннона,
поэтому смысл именно такой.
684
00:38:20,162 --> 00:38:22,416
Не хочу вдаваться в детали
конкретных формул...
685
00:38:22,416 --> 00:38:24,977
(голос из зала 1) Нет, конечно,
поэтому и прозвучал вопрос.
686
00:38:24,978 --> 00:38:27,178
- (Кристина) Да.
- (голос из зала 1) Спасибо.
687
00:38:33,091 --> 00:38:35,407
(голос из зала 2) Это больше
комментарий, нежели вопрос.
688
00:38:35,407 --> 00:38:36,541
(Лидия) Да, конечно.
689
00:38:36,541 --> 00:38:39,840
(голос из зала 2) Акцент был на элементах,
690
00:38:39,840 --> 00:38:42,547
на их качестве и полноте,
691
00:38:42,547 --> 00:38:47,374
но меня беспокоит,
что мы не применяем это к иерархиям,
692
00:38:47,374 --> 00:38:51,480
и наша частая проблема -- плохая иерархия.
693
00:38:51,481 --> 00:38:53,463
Мы видим, что это становится
реальной проблемой
694
00:38:53,464 --> 00:38:55,774
при обычным поиске и других вещах.
695
00:38:56,771 --> 00:39:01,321
Мы можем импортировать способ,
696
00:39:01,321 --> 00:39:04,842
по которому внешние тезаурусы
выстраивают свои иерархии,
697
00:39:04,842 --> 00:39:10,291
используя квалификатор P4900,
более широкое понятие.
698
00:39:11,037 --> 00:39:16,167
Но я думаю, для этого есть
более подходящие инструменты,
699
00:39:16,168 --> 00:39:21,212
и вы сможете импортировать
иерархию внешнего тезауруса,
700
00:39:21,212 --> 00:39:24,111
отобразить её на элементы Викиданных.
701
00:39:24,111 --> 00:39:28,199
И связав её с этими квалификаторами P4900,
702
00:39:28,200 --> 00:39:31,494
вы можете делать
хорошие запросы через SPARQL,
703
00:39:32,490 --> 00:39:37,534
чтобы увидеть, где наша иерархия
расходится с внешней.
704
00:39:37,534 --> 00:39:41,346
Например, вы можете знать
[Паолу Морма], под псевдонимом PKM,
705
00:39:41,346 --> 00:39:43,533
этот пользователь
создаёт много статей о моде.
706
00:39:43,533 --> 00:39:50,524
Мы включаем их в иерархию
тезауруса европейской моды
707
00:39:50,524 --> 00:39:53,812
и в иерархию тезауруса
искусства и архитектуры,
708
00:39:53,812 --> 00:39:57,957
а потом мы видим, какие пробелы
были в элементах более высокого уровня.
709
00:39:57,957 --> 00:40:01,231
Для нас это реальная проблема,
потому что часто попадаются вещи,
710
00:40:01,231 --> 00:40:04,355
которые существуют в Википедии
только как страницы значений,
711
00:40:04,356 --> 00:40:09,270
многие элементы более высокого уровня
отсутствуют в наших иерархиях,
712
00:40:09,271 --> 00:40:14,480
и мы должны рассмотреть это
с точки зрения качества и полноты,
713
00:40:14,480 --> 00:40:18,773
но что действительно поможет,
станет лучшим инструментом,
714
00:40:18,773 --> 00:40:20,871
чем те дебри скриптов, написанных мной, --
715
00:40:20,872 --> 00:40:26,010
если бы кто-то поместил это
в PAWS notebook на Python,
716
00:40:26,561 --> 00:40:31,972
чтобы можно было извлечь
внешний тезаурус, взять его иерархию,
717
00:40:31,973 --> 00:40:34,595
которая может быть доступна
как связанные данные или же нет,
718
00:40:35,169 --> 00:40:40,580
чтобы поместить это в QuickStatements,
чтобы вставить значения P4900.
719
00:40:41,165 --> 00:40:42,165
Затем позже,
720
00:40:42,166 --> 00:40:44,527
когда наше представление
станет более сложным,
721
00:40:44,528 --> 00:40:49,691
обновить эти значения P4900,
потому что добавляются данные,
722
00:40:49,691 --> 00:40:51,590
представление становится
более комплексным,
723
00:40:51,590 --> 00:40:55,377
значения этих квалификаторов нужно менять,
724
00:40:56,230 --> 00:40:59,526
чтобы показать, что в нашей системе
всё больше их иерархии.
725
00:40:59,526 --> 00:41:03,728
Если бы кто-то мог сделать это,
думаю, это было бы очень полезно,
726
00:41:03,728 --> 00:41:07,121
и мы должны рассмотреть
и другие подходы
727
00:41:07,122 --> 00:41:10,762
для улучшения качества и полноты
на уровне иерархии,
728
00:41:10,763 --> 00:41:12,378
а не только на уровне элемента.
729
00:41:13,308 --> 00:41:14,840
(Андра) Могу я кое-что добавить?
730
00:41:16,362 --> 00:41:19,901
Да, и мы это делаем,
731
00:41:19,911 --> 00:41:23,551
и я рекомендую посмотреть
на выражение формы, которое сделал Финн
732
00:41:23,552 --> 00:41:25,530
с лексическими данными,
733
00:41:25,530 --> 00:41:27,330
где он создаёт выражения формы,
734
00:41:27,330 --> 00:41:29,640
а затем опирается
на другие выражения формы,
735
00:41:29,641 --> 00:41:32,678
так получается концепция
связанных выражений формы в Викиданных.
736
00:41:32,678 --> 00:41:35,235
В частности, пример использования,
если я правильно понимаю --
737
00:41:35,235 --> 00:41:37,183
это именно то, что мы делаем в Gene Wiki.
738
00:41:37,184 --> 00:41:40,841
Есть онтология заболеваний,
которая помещена в Викиданные,
739
00:41:40,842 --> 00:41:44,681
а затем поступают данные о заболевании,
и мы применяем Shape Expressions,
740
00:41:44,683 --> 00:41:47,248
чтобы посмотреть,
соответствуют ли данные тезаурусу.
741
00:41:47,248 --> 00:41:50,919
Есть и другие тезаурусы или другие
онтологии или контролируемые словари,
742
00:41:50,920 --> 00:41:52,559
которые ещё должны войти в Викиданные,
743
00:41:52,559 --> 00:41:55,351
и именно поэтому инструмент
Shape Expressions так интересен --
744
00:41:55,351 --> 00:41:57,963
вы можете применять его
для онтологии заболеваний,
745
00:41:57,964 --> 00:41:59,644
для MeSH.
746
00:41:59,645 --> 00:42:01,851
Теперь вам нужно проверить качество.
747
00:42:01,851 --> 00:42:04,059
Потому что в Викиданных
также есть контекст,
748
00:42:04,060 --> 00:42:09,567
когда у вас есть контролируемый словарь,
вы считаете, что качество соответствует,
749
00:42:09,568 --> 00:42:11,636
но могут быть случаи,
когда сообщество не согласно.
750
00:42:11,636 --> 00:42:16,081
Инструмент уже есть,
но теперь нужно создать эти модели
751
00:42:16,082 --> 00:42:18,144
и применять их для разных случаев.
752
00:42:18,811 --> 00:42:20,921
(голос из зала 2)
Shape Expressions очень полезен,
753
00:42:20,922 --> 00:42:25,928
если у вас уже есть внешняя онтология,
которая отображается в Викиданных,
754
00:42:25,929 --> 00:42:29,474
но моя проблема в том,
что всё доходит до той стадии,
755
00:42:29,475 --> 00:42:34,881
когда выясняется, какой части
внешней онтологии ещё нет в Викиданных,
756
00:42:34,882 --> 00:42:36,256
и где есть пробелы,
757
00:42:36,257 --> 00:42:40,660
и, я думаю, в этом случае иметь
более надёжные инструменты,
758
00:42:40,660 --> 00:42:44,286
чтобы увидеть, чего не хватает
из внешних онтологий,
759
00:42:44,286 --> 00:42:45,537
было бы очень полезно.
760
00:42:47,678 --> 00:42:49,062
Самая большая проблема
761
00:42:49,062 --> 00:42:51,201
не в инструментах, а в лицензировании.
762
00:42:51,803 --> 00:42:55,249
Поместить онтологии в Викиданные
на самом деле очень просто,
763
00:42:55,250 --> 00:42:59,295
но большинство онтологий имеют,
как я это вежливо называю,
764
00:42:59,965 --> 00:43:03,256
ограниченное лицензирование,
поэтому они не совместимы с Викиданными.
765
00:43:04,068 --> 00:43:06,998
(голос из зала 2) Есть множество
тезаурусов из государственного сектора
766
00:43:06,998 --> 00:43:08,209
в сфере культуры.
767
00:43:08,210 --> 00:43:11,151
- (Андра) Тогда нам нужно поговорить.
- (голос из зала 2) Это не проблема.
768
00:43:11,151 --> 00:43:12,494
(Андра) Тогда поговорим.
769
00:43:13,624 --> 00:43:19,192
(голос из зала 3) Мой комментарий --
на самом деле ответ Джеймсу.
770
00:43:19,192 --> 00:43:22,401
Дело в том, что из иерархий
получаются графы,
771
00:43:22,374 --> 00:43:24,041
и когда ты хочешь...
772
00:43:24,579 --> 00:43:28,888
Я хочу в основном поговорить
об общей проблеме в иерархиях --
773
00:43:28,889 --> 00:43:30,820
о циклических иерархиях,
774
00:43:30,821 --> 00:43:33,796
они возвращаются друг к другу,
когда есть проблема,
775
00:43:33,796 --> 00:43:35,920
которой в иерархиях не должно быть.
776
00:43:37,022 --> 00:43:41,295
Это, как ни странно,
часто встречается в категориях Википедии
777
00:43:41,295 --> 00:43:42,990
у нас много циклов в категориях,
778
00:43:43,898 --> 00:43:46,612
но хорошая новость в том, что это...
779
00:43:47,713 --> 00:43:50,393
Технически, это NP-полная задача,
780
00:43:50,393 --> 00:43:51,583
и вы не можете найти её,
781
00:43:51,583 --> 00:43:53,414
но легко найдёте, построив граф.
782
00:43:54,473 --> 00:43:57,046
Но было разработано много способов
783
00:43:57,047 --> 00:44:00,624
для нахождения проблем
в этих иерархических графах.
784
00:44:00,625 --> 00:44:04,860
Есть такая статья...
785
00:44:04,861 --> 00:44:07,955
о разрыве циклов в искажённых иерархиях,
786
00:44:07,956 --> 00:44:12,671
и перечисленные в ней методы помогли
при категоризации английской Википедии.
787
00:44:12,672 --> 00:44:17,141
Вы можете просто применять
эти иерархии в Викиданных,
788
00:44:17,142 --> 00:44:19,540
а затем найти
789
00:44:19,541 --> 00:44:22,481
и просто удалить то,
что вызывает проблемы,
790
00:44:22,482 --> 00:44:24,593
и на самом деле найти проблемы.
791
00:44:24,594 --> 00:44:26,960
Это просто идея.
792
00:44:28,780 --> 00:44:30,533
(голос из зала 2)
Это всё очень хорошо,
793
00:44:30,533 --> 00:44:34,402
но я думаю, вы недооцениваете количество
плохих связей между подклассами,
794
00:44:34,402 --> 00:44:35,402
которые у нас имеются.
795
00:44:35,403 --> 00:44:39,680
Это как город, который находится
совершенно не в той стране,
796
00:44:40,250 --> 00:44:43,245
при том, что существуют
географические инструменты
797
00:44:43,245 --> 00:44:44,875
для определения этой проблемы.
798
00:44:44,875 --> 00:44:49,201
Нам в иерархиях нужны
более эффективные инструменты,
799
00:44:49,202 --> 00:44:53,477
которые смогут определить,
где эквивалент элемента для страны
800
00:44:53,478 --> 00:44:57,673
полностью отсутствует,
или где он является подклассом чего-то,
801
00:44:57,674 --> 00:45:01,804
не имеющего к нему отношения.
802
00:45:02,804 --> 00:45:07,165
(Лидия) Я думаю, вы подобрались к тому,
803
00:45:07,166 --> 00:45:10,894
что мы с моей командой
постоянно слышим от людей,
804
00:45:10,894 --> 00:45:13,991
которые многократно
используют наши данные.
805
00:45:15,002 --> 00:45:16,638
Отдельная точка данных -- это отлично,
806
00:45:16,639 --> 00:45:20,163
но если вам нужно посмотреть
на онтологию и так далее,
807
00:45:20,164 --> 00:45:21,857
то становится очень...
808
00:45:22,388 --> 00:45:26,437
Я думаю, одна из больших проблем,
почему это происходит --
809
00:45:26,437 --> 00:45:30,736
множество правок в Викиданных
810
00:45:30,736 --> 00:45:34,544
касаются отдельного элемента,
811
00:45:34,545 --> 00:45:36,201
вы редактируете этот элемент,
812
00:45:37,653 --> 00:45:42,075
не понимая, что это может привести
к глобальным последствиям
813
00:45:42,075 --> 00:45:44,245
для остальной части графа, например.
814
00:45:45,356 --> 00:45:50,041
Если у людей есть идеи,
как сделать более заметными
815
00:45:50,041 --> 00:45:53,185
последствия таких индивидуальных
локальных правок,
816
00:45:54,005 --> 00:45:56,537
думаю, что их стоит изучить,
817
00:45:57,550 --> 00:46:01,583
чтобы лучше показать людям
последствия их правок,
818
00:46:01,584 --> 00:46:03,434
сделанных с добрыми намерениями,
819
00:46:04,481 --> 00:46:05,481
какие они.
820
00:46:06,939 --> 00:46:12,237
Ого! Хорошо, давайте начнём с вас,
потом вы, потом вы, затем вы.
821
00:46:12,237 --> 00:46:13,921
(голос из зала 4) После обсуждения,
822
00:46:13,922 --> 00:46:18,262
просто чтобы выразить своё согласие
с тем, что говорил Джеймс.
823
00:46:18,263 --> 00:46:22,467
По сути, кажется,
что самая опасная вещь -- иерархия,
824
00:46:22,468 --> 00:46:23,910
не иерархия, но в целом
825
00:46:23,911 --> 00:46:28,022
семантика связей
между подклассами в Викиданных.
826
00:46:28,022 --> 00:46:32,561
Я недавно изучал языки,
только для этой конференции,
827
00:46:32,562 --> 00:46:35,257
и, например, я нашёл много случаев,
828
00:46:35,257 --> 00:46:39,463
когда язык является одновременно
и частью и подклассом одного и того же.
829
00:46:39,463 --> 00:46:43,577
Можно сказать, что у нас гибкая онтология.
830
00:46:43,577 --> 00:46:46,256
Викиданные дают свободу выражения.
831
00:46:46,256 --> 00:46:47,257
Потому что, например,
832
00:46:47,258 --> 00:46:50,721
эта онтология языков сложна
с политической точки зрения.
833
00:46:50,722 --> 00:46:55,038
Даже хорошо иметь возможность
выразить уровень неопределённости.
834
00:46:55,038 --> 00:46:57,913
Но представьте, как к этому
применить машинное чтение.
835
00:46:57,913 --> 00:46:59,468
Действительно проблематично.
836
00:46:59,468 --> 00:47:00,468
И опять же,
837
00:47:00,469 --> 00:47:03,686
я не думаю, что онтология
была импортирована откуда-либо.
838
00:47:03,687 --> 00:47:05,490
Она изначально наша.
839
00:47:05,491 --> 00:47:08,321
Она с самого начала собрана из Википедии.
840
00:47:08,322 --> 00:47:11,324
Так что мне интересно...
Shape Expressions -- отличный инструмент,
841
00:47:11,325 --> 00:47:15,575
который проверяет и исправляет
онтологию Википедии
842
00:47:15,576 --> 00:47:18,191
с помощью внешних ресурсов,
прекрасная идея.
843
00:47:19,026 --> 00:47:20,026
В конце концов,
844
00:47:20,027 --> 00:47:25,440
получится ли у нас отразить
внешние онтологии в Викиданных?
845
00:47:25,441 --> 00:47:28,651
А также, что мы делаем
с основной частью нашей онтологии
846
00:47:28,652 --> 00:47:30,642
которая никогда не собирается
из внешних ресурсов,
847
00:47:30,643 --> 00:47:31,978
как нам исправить её?
848
00:47:31,979 --> 00:47:35,276
Я действительно думаю,
что это само по себе будет проблемой.
849
00:47:35,277 --> 00:47:40,080
Мы должны сосредоточиться на этом
независимо от идеи проверки онтологии
850
00:47:40,080 --> 00:47:41,916
с помощью внешнего ресурса.
851
00:47:49,353 --> 00:47:53,379
(голос из зала 5) Ограничения
и формы очень впечатляют,
852
00:47:53,380 --> 00:47:55,055
то, что мы можем сделать с ними,
853
00:47:55,205 --> 00:47:58,481
но главный момент
до сих пор не совсем понятен --
854
00:47:58,482 --> 00:48:03,229
поскольку теперь мы можем более чётко
сформулировать, чего ожидаем от данных.
855
00:48:03,229 --> 00:48:06,893
Сначала каждый должен написать
свои инструменты и скрипты,
856
00:48:06,894 --> 00:48:10,601
сделать их более наглядными,
и мы сможем обсудить это.
857
00:48:10,602 --> 00:48:13,641
Но речь не о том, что верно, а что нет,
858
00:48:13,642 --> 00:48:15,870
а об ожиданиях,
859
00:48:15,870 --> 00:48:18,105
и у вас будут разные ожидания и обсуждения
860
00:48:18,106 --> 00:48:20,737
того, как моделировать в Викиданных.
861
00:48:22,836 --> 00:48:26,280
Текущее состояние --
лишь один шаг в этом направлении,
862
00:48:26,281 --> 00:48:28,041
потому что теперь нужно
863
00:48:28,042 --> 00:48:31,041
привлечь много технических знаний,
864
00:48:31,042 --> 00:48:35,721
и нам нужны лучшие способы
визуализации этого ограничения,
865
00:48:35,722 --> 00:48:39,995
возможно, преобразование его
в более понятный людям язык,
866
00:48:40,939 --> 00:48:43,768
но в меньшей степени здесь речь о том,
что верно, а что нет.
867
00:48:44,925 --> 00:48:45,925
(Лидия) Да.
868
00:48:50,986 --> 00:48:53,893
(голос из зала 6) По поводу качества,
хочу уточнить...
869
00:48:53,894 --> 00:48:57,010
Я часто сталкивался с разногласиями,
870
00:48:58,838 --> 00:49:02,330
связанными с разницей между
экземпляром и подклассом.
871
00:49:02,331 --> 00:49:05,963
Я бы сказал, ошибки в таких ситуациях
872
00:49:05,963 --> 00:49:11,521
и попытки найти их
были очень трудоёмким процессом.
873
00:49:11,522 --> 00:49:12,655
То, к чему я пришёл:
874
00:49:12,655 --> 00:49:16,051
«Если найти впечатляющие элементы, важные,
875
00:49:16,051 --> 00:49:19,026
и затем использовать
все экземпляры подкласса,
876
00:49:19,026 --> 00:49:21,896
чтобы найти все производные
этого утверждения», --
877
00:49:21,896 --> 00:49:26,215
это очень полезный способ
поиска ошибок.
878
00:49:26,405 --> 00:49:28,897
Но мне было интересно,
879
00:49:28,897 --> 00:49:33,959
можно ли использовать Shape Expressions
880
00:49:33,959 --> 00:49:36,854
в качестве инструмента
для решения таких проблем?
881
00:49:40,514 --> 00:49:42,555
(голос из зала 7)
Имеет ли структурный след ...
882
00:49:45,910 --> 00:49:49,170
Если имеется структурный след,
который может быть сфальсифицирован,
883
00:49:49,170 --> 00:49:51,191
можно решить, что это неправильно,
884
00:49:51,192 --> 00:49:52,670
а потом сделать это.
885
00:49:52,671 --> 00:49:56,921
Но если это просто попытка сопоставления
с объектами реального мира,
886
00:49:56,922 --> 00:49:59,082
то вам потребуется очень много «мозгов».
887
00:50:05,768 --> 00:50:08,631
(голос из зала 8) Привет,
я Пабло Мендес из Apple Siri Knowledge.
888
00:50:09,154 --> 00:50:12,770
Мы здесь, чтобы узнать,
как помочь проекту и сообществу,
889
00:50:12,770 --> 00:50:15,645
но Кристина совершила ошибку,
спросив, чего мы хотим.
890
00:50:16,471 --> 00:50:20,052
(смеётся) Думаю, одна вещь,
которую хотелось бы увидеть,
891
00:50:20,958 --> 00:50:23,521
связана с возможностью проверки --
892
00:50:23,522 --> 00:50:26,372
одним из основных принципов
проекта в сообществе,
893
00:50:27,062 --> 00:50:28,590
а также с доверием.
894
00:50:28,590 --> 00:50:32,042
Не все утверждения одинаковы,
некоторые из них серьёзно оспариваются,
895
00:50:32,042 --> 00:50:33,443
некоторые легко предположить,
896
00:50:33,443 --> 00:50:35,541
например, чью-либо дату рождения
можно проверить,
897
00:50:36,071 --> 00:50:39,882
как вы видели сегодня в основном докладе,
гендерные проблемы намного сложнее.
898
00:50:40,205 --> 00:50:42,560
Можете ли вы немного
рассказать о том, что вы знаете
899
00:50:42,560 --> 00:50:47,271
о доверии и проверках --
этих аспектах качества данных?
900
00:50:55,442 --> 00:50:58,138
Если этого не много,
хотелось бы намного больше. (смеётся)
901
00:51:00,646 --> 00:51:01,646
(Лидия) Да.
902
00:51:03,314 --> 00:51:06,548
Как выяснилось,
нам нечего сказать. (смеётся)
903
00:51:08,024 --> 00:51:12,299
(Андра) Я думаю, мы можем сделать многое,
но у нас с вами вчера была дискуссия.
904
00:51:12,300 --> 00:51:15,774
Мой любимый пример,
как я выяснил вчера, уже устарел.
905
00:51:15,774 --> 00:51:20,281
Если вы зайдёте
на страницу элемента Q2, это Земля,
906
00:51:20,282 --> 00:51:23,343
там есть утверждение, что Земля плоская.
907
00:51:24,183 --> 00:51:26,055
Я люблю этот пример,
908
00:51:26,056 --> 00:51:28,391
потому что есть сообщество,
которое это утверждает,
909
00:51:28,392 --> 00:51:30,417
и у них есть достоверные источники.
910
00:51:30,418 --> 00:51:32,254
Так что я думаю, это реальный случай,
911
00:51:32,255 --> 00:51:34,641
его не нужно оспаривать,
он должен быть в Викиданных.
912
00:51:34,642 --> 00:51:40,385
Я думаю, здесь Shape Expressions
может быть действительно полезен,
913
00:51:40,386 --> 00:51:44,857
потому что вам действительно
может быть интересен этот прецедент,
914
00:51:44,857 --> 00:51:47,129
или этот вариант использования,
с которым вы не согласны,
915
00:51:47,130 --> 00:51:49,799
но может быть и такой
случай применения,
916
00:51:49,799 --> 00:51:51,059
который вас заинтересует.
917
00:51:51,059 --> 00:51:53,449
Например, глюкоза.
918
00:51:53,449 --> 00:51:56,841
Биологу не интересно
919
00:51:56,841 --> 00:52:00,177
строение молекулы глюкозы,
920
00:52:00,177 --> 00:52:03,201
для него вся глюкоза одинаковая.
921
00:52:03,202 --> 00:52:05,973
Но химика подобное покоробит,
922
00:52:05,973 --> 00:52:08,191
существует 200 с лишним...
923
00:52:08,191 --> 00:52:10,443
Когда у вас есть разные выражения формы,
924
00:52:10,443 --> 00:52:13,887
я могу их применить с точки зрения химика.
925
00:52:13,887 --> 00:52:16,691
А с точки зрения биолога
926
00:52:16,691 --> 00:52:18,524
я применяю другое выражение формы.
927
00:52:18,524 --> 00:52:20,358
А если вы хотите сотрудничать,
928
00:52:20,358 --> 00:52:22,784
вы должны сказать Эрику о картах ShEx.
929
00:52:25,510 --> 00:52:28,873
Но это только начало пути.
930
00:52:28,873 --> 00:52:32,238
Но я лично верю,
что это весьма полезно для этой области.
931
00:52:34,292 --> 00:52:35,535
(Лидия) Вон там.
932
00:52:37,949 --> 00:52:39,168
(смех)
933
00:52:40,597 --> 00:52:46,035
(голос из зала 9) У меня несколько идей
по некоторым моментам обсуждения,
934
00:52:46,035 --> 00:52:50,902
постараюсь озвучить все.
Было три идеи, так что...
935
00:52:52,394 --> 00:52:55,201
Основываясь на том, что Джеймс сказал
некоторое время назад,
936
00:52:55,202 --> 00:52:59,001
у Викиданных с самого начала
была очень большая проблема
937
00:52:59,002 --> 00:53:01,574
в онтологии вышестоящего уровня.
938
00:53:02,363 --> 00:53:05,339
Мы говорили об этом
два года назад на WikidataCon,
939
00:53:05,340 --> 00:53:07,432
и мы говорили об этом на Викимании.
940
00:53:07,432 --> 00:53:09,818
На всех встречах по Викиданным
941
00:53:09,818 --> 00:53:11,656
мы говорим об этом,
942
00:53:11,656 --> 00:53:15,782
потому что это очень большая проблема
на очень высоком уровне --
943
00:53:15,783 --> 00:53:22,418
что такое сущность, работа,
что такое жанр, искусство, --
944
00:53:23,118 --> 00:53:25,461
все эти понятия очень важны.
945
00:53:27,215 --> 00:53:33,117
И на самом деле это слабое место
глобальной онтологии,
946
00:53:33,118 --> 00:53:37,453
потому что люди регулярно наводят порядок
947
00:53:38,017 --> 00:53:41,047
и тем самым всё ломают.
948
00:53:42,516 --> 00:53:48,649
Некоторые из вас помнят парня,
который из добрых намерений
949
00:53:48,649 --> 00:53:51,785
«сломал» все города мира.
950
00:53:51,785 --> 00:53:57,537
Элементы стали не географическими,
везде были нарушения ограничений.
951
00:53:58,720 --> 00:54:00,278
Это было сделано из добрых побуждений,
952
00:54:00,278 --> 00:54:03,623
ведь он действительно
исправлял ошибку в элементе,
953
00:54:04,170 --> 00:54:05,732
но всё сломалось.
954
00:54:06,349 --> 00:54:09,373
Я не уверена, как мы можем решить это,
955
00:54:10,216 --> 00:54:13,390
поскольку нет ни одного
внешнего учреждения,
956
00:54:13,390 --> 00:54:15,710
у которого мы могли бы скопировать,
957
00:54:15,710 --> 00:54:19,030
потому что все работают...
958
00:54:19,154 --> 00:54:22,041
Если я работаю с базой данных
исполнительского искусства,
959
00:54:22,042 --> 00:54:24,601
я просто перейду на уровень
исполнительского искусства,
960
00:54:24,601 --> 00:54:29,361
я не буду переходить
к философской концепции сущности,
961
00:54:29,362 --> 00:54:31,201
и это, на самом деле...
962
00:54:31,202 --> 00:54:34,561
Я не знаю ни одной базы данных,
работающей на этом уровне,
963
00:54:34,562 --> 00:54:36,827
но это самое слабое место Викиданных.
964
00:54:37,936 --> 00:54:40,812
Вероятно, когда мы говорим
о качестве данных,
965
00:54:40,812 --> 00:54:44,034
это является важным аспектом.
966
00:54:44,034 --> 00:54:48,569
Я думаю, это то же самое,
что мы заявили...
967
00:54:48,569 --> 00:54:50,452
Простите, я меняю тему,
968
00:54:51,401 --> 00:54:55,774
но на разных сессиях
мы говорили о качестве.
969
00:54:55,774 --> 00:54:59,398
На самом деле некоторые из нас
могут хорошо моделировать,
970
00:54:59,399 --> 00:55:01,240
работают с ShEx и так далее.
971
00:55:01,967 --> 00:55:07,655
Люди не видят этого в Викиданных,
они не видят ShEx,
972
00:55:07,655 --> 00:55:10,392
они не видят Вики-проект
на странице обсуждения,
973
00:55:10,393 --> 00:55:11,393
и иногда
974
00:55:11,394 --> 00:55:14,958
они даже не видят
страницы обсуждения свойств,
975
00:55:14,958 --> 00:55:19,628
которые чётко заявляют,
для чего используется конкретное свойство.
976
00:55:19,628 --> 00:55:23,887
Например, на прошлой неделе,
я добавила ограничение для свойства.
977
00:55:23,888 --> 00:55:26,324
Ограничение было чётко прописано
978
00:55:26,325 --> 00:55:28,690
в обсуждении создания свойства.
979
00:55:28,690 --> 00:55:34,548
Я просто добавила ограничение,
а кто-то возмутился:
980
00:55:34,548 --> 00:55:37,182
«Что? Ты сломала все мои правки!»
981
00:55:37,183 --> 00:55:41,542
Последние два года человек использовал
это свойство неправильно.
982
00:55:41,542 --> 00:55:46,868
Свойство было очень чёткое,
но не было никаких предупреждений,
983
00:55:46,869 --> 00:55:48,715
как и в Pink Pony,
984
00:55:48,715 --> 00:55:52,172
мы также сказали на Викимании,
что хотим делать Вики-проекты
985
00:55:52,172 --> 00:55:54,719
более наглядными,
делать ShEx более наглядным, но...
986
00:55:54,719 --> 00:55:56,917
Это то, что сказала Кристина.
987
00:55:56,917 --> 00:56:02,368
У нас проблема с визуализацией
существующих решений.
988
00:56:02,368 --> 00:56:04,242
На этой сессии
989
00:56:04,242 --> 00:56:06,862
мы все говорим о том,
как создать больше выражений формы,
990
00:56:06,863 --> 00:56:10,727
или облегчить работу редакторов.
991
00:56:11,605 --> 00:56:15,835
Но мы наводим порядок
с первого дня существования Викиданных,
992
00:56:15,836 --> 00:56:20,921
и, на глобальном уровне, мы проигрываем,
993
00:56:20,922 --> 00:56:22,960
поскольку, насколько я знаю,
имена сложные,
994
00:56:22,961 --> 00:56:26,162
но я единственная, кто их редактирует.
995
00:56:26,662 --> 00:56:29,671
Кто-то добавил имя на латинице
996
00:56:29,672 --> 00:56:31,584
всем китайским исследователям --
997
00:56:32,088 --> 00:56:35,616
мне понадобятся месяцы,
чтобы убрать это, и сама я не справлюсь,
998
00:56:35,616 --> 00:56:38,777
а он сделал массовую выгрузку.
999
00:56:39,462 --> 00:56:44,158
Проблем с визуализацией больше,
чем с инструментами, я думаю,
1000
00:56:44,158 --> 00:56:45,733
поскольку у нас много инструментов.
1001
00:56:45,733 --> 00:56:50,255
(Лидия) К сожалению,
мне дали знак, (смеётся),
1002
00:56:50,256 --> 00:56:52,121
поэтому нам нужно заканчивать.
1003
00:56:52,122 --> 00:56:53,563
Большое спасибо за ваши комментарии,
1004
00:56:53,563 --> 00:56:56,611
надеюсь, вы продолжите обсуждение позже,
1005
00:56:56,611 --> 00:56:57,840
и спасибо за ваш вклад.
1006
00:56:58,359 --> 00:56:59,944
(аплодисменты)
1007
00:57:04,108 --> 00:57:07,008
WikidataCon 2019
Викиданные и языки