WEBVTT
00:00:00.000 --> 00:00:02.310
Качество данных
Панельная дискуссия
00:00:02.310 --> 00:00:03.945
Клаудиа Мюллер-Бирн, Лукас Веркмейстер,
00:00:03.945 --> 00:00:05.945
Хосе Эмилио Лабра Гайо,
Кристина Сарасуа, Андра
00:00:05.945 --> 00:00:09.476
Приветствую всех на панельной дискуссии,
посвящённой качеству данных.
00:00:10.288 --> 00:00:13.671
Качество данных имеет большое значение,
ведь всё больше и больше людей
00:00:13.672 --> 00:00:16.779
полагаются на хорошее качество данных,
00:00:16.779 --> 00:00:19.323
о чём мы сегодня и поговорим.
00:00:21.229 --> 00:00:26.960
Будет четыре докладчика, которые выступят
с небольшими презентациями на темы,
00:00:26.960 --> 00:00:29.539
связанные с качеством данных,
а далее будут вопросы и ответы.
00:00:30.130 --> 00:00:32.234
Начнём с Лукаса.
00:00:34.385 --> 00:00:35.385
Спасибо.
00:00:35.901 --> 00:00:39.899
Привет, я Лукас,
и я начну с краткого обзора
00:00:39.899 --> 00:00:43.806
инструментов качества данных,
которые уже имеются в Викиданных,
00:00:43.807 --> 00:00:46.109
и тех, которые скоро появятся.
00:00:46.932 --> 00:00:50.623
Я выделил несколько общих тем:
00:00:50.623 --> 00:00:53.761
визуализация ошибок,
решаемость проблем,
00:00:53.762 --> 00:00:56.322
больше внимания данным
с целью выявления проблем,
00:00:56.945 --> 00:01:00.206
исправление общих источников ошибок,
00:01:00.206 --> 00:01:02.616
обеспечение качества существующих данных,
00:01:02.616 --> 00:01:03.966
а также курирование.
00:01:05.063 --> 00:01:07.868
Что у нас есть сейчас?
00:01:07.868 --> 00:01:09.948
Начнём с ограничения свойств.
00:01:10.318 --> 00:01:12.541
Вы наверняка видели это,
когда заходили на Викиданные.
00:01:12.541 --> 00:01:14.029
Иногда можно видеть эти иконки,
00:01:14.530 --> 00:01:17.241
которые проверяют
внутреннюю согласованность данных.
00:01:17.242 --> 00:01:20.800
Например, если одно событие
следует за другим,
00:01:20.801 --> 00:01:23.760
то за другим должно последовать
и это событие,
00:01:23.761 --> 00:01:27.161
элемент WikidataCon,
который, похоже, отсутствует.
00:01:27.162 --> 00:01:29.740
Это появилось пару дней назад.
00:01:30.040 --> 00:01:34.681
Если этого для вас недостаточно,
00:01:34.682 --> 00:01:38.080
вы можете ввести любой запрос,
используя сервис запросов,
00:01:38.081 --> 00:01:39.842
который, конечно,
полезен для многих вещей,
00:01:39.843 --> 00:01:44.543
но также его можно использовать
для поиска ошибок.
00:01:44.544 --> 00:01:46.974
Например, если вы заметили
какую-то ошибку,
00:01:46.975 --> 00:01:49.709
вы можете проверить, есть ли ещё места,
00:01:49.710 --> 00:01:51.658
где люди допустили похожие ошибки,
00:01:51.658 --> 00:01:53.438
и найти их с помощью сервиса запросов.
00:01:53.439 --> 00:01:55.199
Также можно совместить
эти два инструмента
00:01:55.199 --> 00:01:57.874
и искать нарушения ограничений,
00:01:57.875 --> 00:02:01.240
например, нарушения в какой-то области
00:02:01.241 --> 00:02:03.762
или нужном вам Вики-проекте,
00:02:03.762 --> 00:02:06.828
хотя результаты пока неполные,
к сожалению.
00:02:08.422 --> 00:02:09.877
Оценивание правок.
00:02:10.690 --> 00:02:12.666
Я думаю, это из последних изменений.
00:02:12.667 --> 00:02:16.217
Также можете добавить в свой
список наблюдения автоматическую оценку:
00:02:16.217 --> 00:02:20.249
сделана ли правка
с добрыми намерениями или нет,
00:02:20.250 --> 00:02:22.312
нанесёт ли она ущерб или нет.
00:02:22.313 --> 00:02:24.205
Думаю, здесь два направления.
00:02:24.206 --> 00:02:25.686
Если хотите, вы можете
00:02:25.687 --> 00:02:28.458
сосредоточиться на поиске правок
с добрыми намерениями,
00:02:28.458 --> 00:02:29.828
наносящих ущерб.
00:02:29.899 --> 00:02:32.523
Если вы дружелюбны и вежливы,
00:02:32.524 --> 00:02:37.121
можете написать этим редакторам:
«Спасибо за ваш вклад,
00:02:37.122 --> 00:02:40.560
вот, как это следует делать,
но всё равно спасибо».
00:02:40.561 --> 00:02:42.186
Если вы не хотите так делать,
00:02:42.187 --> 00:02:44.132
можно найти правки
с недобрыми намерениями,
00:02:44.132 --> 00:02:45.132
наносящие ущерб,
00:02:45.132 --> 00:02:46.293
и откатить их назад.
00:02:47.544 --> 00:02:49.761
Подобно этому есть рейтинг сущностей.
00:02:49.762 --> 00:02:52.590
Вместо оценивания правки,
последующего за ней изменения,
00:02:52.591 --> 00:02:53.904
вы оцениваете ревизию в целом.
00:02:53.904 --> 00:02:56.483
Я думаю, это такой же инструмент
измерения качества,
00:02:56.483 --> 00:02:59.863
о котором говорила Лидия
в начале конференции.
00:03:00.372 --> 00:03:04.569
Вот здесь скрипт, который ставит
оценку от одного до пяти.
00:03:04.570 --> 00:03:08.176
Он оценивает качество текущего элемента.
00:03:10.043 --> 00:03:12.538
Инструмент проверки
первичных источников предназначен
00:03:12.538 --> 00:03:14.857
для любой базы данных,
которую вы хотите импортировать,
00:03:14.857 --> 00:03:18.374
но качество её данных не настолько высоко,
чтобы напрямую добавлять её в Викиданные,
00:03:18.374 --> 00:03:20.335
поэтому вы добавляете базу
в этот инструмент,
00:03:20.336 --> 00:03:22.956
после чего люди могут решить,
00:03:22.956 --> 00:03:26.024
добавлять или не добавлять
отдельные утверждения.
00:03:28.595 --> 00:03:30.363
Отображение координат в виде карт --
00:03:30.363 --> 00:03:31.901
в основном, функция для удобства,
00:03:31.901 --> 00:03:33.588
но она также полезна
для контроля качества.
00:03:33.588 --> 00:03:36.937
Например, если вы видите, что здесь
должен быть офис Викимедиа Германии,
00:03:36.938 --> 00:03:39.400
а координаты
где-то в Индийском океане,
00:03:39.401 --> 00:03:41.529
то вы понимаете, что это неверный адрес,
00:03:41.530 --> 00:03:44.790
и вам легче это заметить,
чем если бы у вас были только цифры.
00:03:46.382 --> 00:03:49.576
Этот инструмент -- индикатор
относительной полноты.
00:03:49.577 --> 00:03:52.480
Вот эта маленькая иконка здесь,
00:03:53.007 --> 00:03:55.652
которая сообщает, насколько полно
описан конкретный элемент,
00:03:55.652 --> 00:03:57.613
и каких свойств не хватает.
00:03:57.614 --> 00:03:59.769
Это очень полезно,
если вы редактируете элемент
00:03:59.769 --> 00:04:03.172
и не очень ориентируетесь в данной сфере
00:04:03.172 --> 00:04:05.661
и не знаете,
какие свойства нужно указывать,
00:04:05.662 --> 00:04:08.230
тогда этот инструмент будет очень полезен.
00:04:09.604 --> 00:04:11.602
Также мы используем
инструмент Shape Expressions.
00:04:11.602 --> 00:04:15.624
Думаю, Андра или Хосе
расскажут об этом больше,
00:04:15.624 --> 00:04:20.508
но, по сути, это очень мощный способ
сравнения имеющихся данных со схемой,
00:04:20.508 --> 00:04:22.058
например, какое утверждение
00:04:22.058 --> 00:04:23.470
должны иметь определённые сущности,
00:04:23.470 --> 00:04:25.229
с какими сущностями
они должны быть связаны
00:04:25.229 --> 00:04:26.229
и как должны выглядеть.
00:04:26.229 --> 00:04:29.374
Таким образом вы сможете
находить проблемы.
00:04:30.366 --> 00:04:32.361
Я думаю... Нет, ещё не всё.
00:04:32.362 --> 00:04:34.321
Integraality, или панель свойств.
00:04:34.322 --> 00:04:36.773
На ней видны данные,
которые у вас уже есть.
00:04:36.774 --> 00:04:39.147
Например, эти данные
из Вики-проекта о красных пандах,
00:04:39.657 --> 00:04:41.181
и вы видите,
00:04:41.181 --> 00:04:43.561
что у большинства красных панд
известен пол,
00:04:43.561 --> 00:04:46.854
дата рождения зависит от зоопарка,
00:04:46.854 --> 00:04:50.255
и у нас почти нет погибших панд,
что замечательно,
00:04:50.346 --> 00:04:51.346
(смех)
00:04:51.437 --> 00:04:52.600
потому что они такие милые.
00:04:53.699 --> 00:04:55.654
Так что это тоже полезно.
00:04:56.377 --> 00:04:59.185
Теперь о том, что ожидается.
00:04:59.889 --> 00:05:03.784
Wikidata Bridge,
ранее известный как client editing
00:05:03.785 --> 00:05:07.076
для редактирования Викиданных
прямо из карточек Википедии.
00:05:07.675 --> 00:05:11.395
Это, с одной стороны,
позволит лучше контролировать данные,
00:05:11.395 --> 00:05:13.441
так как их сможет увидеть
большее число людей,
00:05:13.441 --> 00:05:15.851
и, мы надеемся, будет способствовать
00:05:15.851 --> 00:05:18.795
более частому использованию
Викиданных в Википедии,
00:05:18.841 --> 00:05:20.920
и это значит, большее число людей
сможет заметить,
00:05:20.921 --> 00:05:23.547
что, например, некоторые данные устарели
и должны быть обновлены,
00:05:23.547 --> 00:05:27.000
чем если бы они видели эти данные
только в Викиданных.
00:05:28.630 --> 00:05:30.656
Также есть испорченные ссылки.
00:05:30.657 --> 00:05:33.959
Идея в том, что если вы редактируете
значение утверждения,
00:05:34.683 --> 00:05:37.279
вы также можете обновить и ссылки,
00:05:37.280 --> 00:05:39.373
если это не просто опечатка
или что-то ещё.
00:05:39.897 --> 00:05:43.662
Эти испорченные ссылки
сигнализируют редакторам
00:05:43.663 --> 00:05:49.756
и дают возможность увидеть,
какие другие правки были сделаны,
00:05:49.756 --> 00:05:52.641
где отредактировали значение утверждения,
но не обновили ссылку,
00:05:52.641 --> 00:05:55.147
и вы можете всё подредактировать
00:05:55.147 --> 00:05:59.566
и решить, следует ли ещё что-то делать,
00:05:59.566 --> 00:06:02.796
или всё в порядке,
и ссылку обновлять не нужно.
00:06:03.543 --> 00:06:05.756
Перейдём к подписанным утверждениям.
00:06:05.756 --> 00:06:09.336
Я думаю, это связано с тем опасением,
00:06:09.336 --> 00:06:12.355
что некоторые источники данных...
00:06:13.881 --> 00:06:16.462
Есть утверждение, на которое ссылаются,
например, через ЮНЕСКО
00:06:16.462 --> 00:06:17.792
или какое-то другое учреждение,
00:06:17.792 --> 00:06:20.382
а потом кто-то неожиданно
вносит вандальные правки,
00:06:20.382 --> 00:06:22.306
и они переживают, что это будет выглядеть,
00:06:22.827 --> 00:06:26.992
как будто организация,
например, ЮНЕСКО, принимает эти правки.
00:06:26.993 --> 00:06:28.706
В случае с подписанными утверждениями,
00:06:28.706 --> 00:06:31.488
они могут криптографически
подписать эту ссылку,
00:06:31.488 --> 00:06:33.562
и это не помешает её редактированию,
00:06:34.169 --> 00:06:37.284
но если кто-то внесёт в утверждение
вандальные правки
00:06:37.284 --> 00:06:40.255
или любые другие,
подпись будет недействительна,
00:06:40.255 --> 00:06:43.401
и это уже не совсем то,
что утверждает организация.
00:06:43.402 --> 00:06:45.035
Возможно, это хорошая правка,
00:06:45.035 --> 00:06:47.065
и нужно просто переподписать
новое утверждение,
00:06:47.065 --> 00:06:49.851
но, возможно, правку следует отменить.
00:06:51.203 --> 00:06:54.166
Думаю, это будет увлекательно.
00:06:54.166 --> 00:06:56.846
Citoid -- удивительная система,
которая есть в Википедии,
00:06:57.379 --> 00:07:01.340
где вы можете вставить URL,
идентификатор или ISBN
00:07:01.340 --> 00:07:04.759
или идентификатор Викиданных,
в общем, что угодно в визуальный редактор,
00:07:05.260 --> 00:07:08.241
и это трансформируется
в красиво отформатированную ссылку,
00:07:08.242 --> 00:07:11.269
которая содержит все нужные вам данные,
и ей легко пользоваться.
00:07:11.269 --> 00:07:14.337
Для сравнения, если я хочу
добавить ссылку в Викиданных,
00:07:14.338 --> 00:07:18.801
я обычно должен добавить URL ссылки,
название, строку с именем автора,
00:07:18.802 --> 00:07:20.449
место и дату публикации,
00:07:20.450 --> 00:07:24.141
даты получения --
по крайней мере, всё это --
00:07:24.141 --> 00:07:25.141
и это очень утомительно,
00:07:25.141 --> 00:07:29.261
а интеграция Citoid в Викибазу
должна помочь в этом.
00:07:30.245 --> 00:07:33.604
Думаю, у меня всё.
00:07:33.604 --> 00:07:36.400
Сейчас передаю слово Кристине.
00:07:37.510 --> 00:07:40.581
(аплодисменты)
00:07:40.581 --> 00:07:43.326
Как можно улучшить
управление качеством данных?
00:07:43.711 --> 00:07:45.471
Привет, я Кристина.
00:07:45.472 --> 00:07:47.672
Я научный сотрудник
Цюрихского университета
00:07:47.673 --> 00:07:51.417
и активный член
швейцарского Вики-сообщества.
00:07:52.698 --> 00:07:57.901
Когда мы вместе с Клаудией Мюллер-Бирн
отправляли наш доклад на WikidataCon,
00:07:57.902 --> 00:08:00.410
мы хотели продолжить обсуждение,
00:08:00.411 --> 00:08:02.424
начатое в этом году
00:08:02.424 --> 00:08:07.442
на семинаре по качеству данных,
а также на нескольких сессиях Викимании.
00:08:07.442 --> 00:08:10.535
В своём выступлении мы, в основном,
поделимся некоторыми соображениями
00:08:10.536 --> 00:08:14.432
как сообщества, так и нашими,
00:08:14.432 --> 00:08:16.560
и продолжим обсуждение.
00:08:16.561 --> 00:08:20.065
Нам хотелось бы и дальше
активно общаться с вами.
00:08:21.557 --> 00:08:23.371
Мы считаем, что очень важно
00:08:23.372 --> 00:08:27.580
постоянно спрашивать
всех пользователей сообщества
00:08:27.581 --> 00:08:32.240
о том, что им действительно нужно,
какие у них проблемы с качеством данных,
00:08:32.240 --> 00:08:35.000
не только редакторов
но и людей, которые пишут код,
00:08:35.000 --> 00:08:36.241
либо пользуются данными,
00:08:36.242 --> 00:08:38.434
а также исследователей,
которые фактически используют
00:08:38.434 --> 00:08:40.800
всю историю редактирования
для анализа происходящего.
00:08:42.367 --> 00:08:46.101
Мы сделали обзор
примерно 80-ти инструментов,
00:08:46.101 --> 00:08:48.386
существующих в Викиданных,
00:08:48.431 --> 00:08:52.380
и привели их в соответствие
с разными показателями качества данных.
00:08:52.380 --> 00:08:54.360
Мы увидели, что на самом деле
00:08:54.361 --> 00:08:57.681
многие инструменты
отслеживают полноту,
00:08:57.681 --> 00:09:02.820
а также некоторые из них поддерживают
взаимосвязи между данными.
00:09:02.820 --> 00:09:08.442
Есть потребность в инструментах,
оценивающих разнообразие данных --
00:09:08.443 --> 00:09:12.824
то, что мы можем иметь в Викиданных,
00:09:12.824 --> 00:09:15.958
в особенности, этот принцип
разработки Викиданных,
00:09:15.959 --> 00:09:17.901
в котором мы можем иметь
множественность --
00:09:17.902 --> 00:09:20.308
разные утверждения
с разными значениями
00:09:20.784 --> 00:09:22.236
из разных источников.
00:09:22.236 --> 00:09:24.921
Поскольку это вторичный источник,
у нас нет инструментов,
00:09:24.922 --> 00:09:27.750
сообщающих, сколько существует
множественных утверждений,
00:09:27.751 --> 00:09:30.889
сколько из них мы можем улучшить
и каким образом,
00:09:30.890 --> 00:09:32.833
и мы также точно не знаем,
00:09:32.833 --> 00:09:35.538
в чём причина этой множественности.
00:09:36.491 --> 00:09:39.201
На этих собраниях сообщества
00:09:39.201 --> 00:09:43.084
мы обсуждали проблемы,
всё ещё требующие внимания.
00:09:43.084 --> 00:09:46.499
Например, краудсорсинговые сообщества --
00:09:46.499 --> 00:09:49.293
это очень хорошо,
потому что разные люди работают
00:09:49.293 --> 00:09:51.833
с разными частями данных или графа,
00:09:51.834 --> 00:09:54.615
у всех людей разные
фундаментальные знания.
00:09:54.616 --> 00:09:59.161
Но на самом деле
очень трудно достичь однородности,
00:09:59.162 --> 00:10:04.920
потому что люди используют
разные свойства по-разному,
00:10:04.920 --> 00:10:08.401
и у них разные ожидания
от описаний сущностей.
00:10:09.003 --> 00:10:12.721
Люди также сказали,
что им нужно больше инструментов,
00:10:12.722 --> 00:10:16.000
которые дают лучший обзор
глобального статуса сущностей,
00:10:16.000 --> 00:10:20.733
показывают, каких сущностей не хватает
с точки зрения полноты,
00:10:20.733 --> 00:10:26.121
а также над чем сейчас работают люди.
00:10:26.121 --> 00:10:30.516
Они также многократно упоминают
более тесное сотрудничество
00:10:30.517 --> 00:10:33.311
не только между разными языками,
но и Вики-проектами
00:10:33.311 --> 00:10:35.571
и различным платформами Викимедии.
00:10:35.571 --> 00:10:40.029
Мы опубликовали все комментарии,
которые услышали во время этих обсуждений.
00:10:40.029 --> 00:10:42.959
Вы можете посмотреть их,
пройдя по ссылкам в Etherpad,
00:10:42.959 --> 00:10:46.162
а также на странице Викимании.
00:10:46.162 --> 00:10:48.481
Некоторые новые решения
00:10:48.481 --> 00:10:53.001
заключались в обмене лучшими практиками,
00:10:53.001 --> 00:10:55.762
которые реализуются
в разных Вики-проектах,
00:10:55.762 --> 00:11:01.238
но также людям нужны инструменты,
помогающие организовать работу в командах
00:11:01.239 --> 00:11:03.845
или, по крайней мере,
понять, кто над этим работает.
00:11:03.845 --> 00:11:07.815
Также люди упоминали,
что они хотят больше примеров
00:11:07.816 --> 00:11:12.019
и шаблонов, которые помогут в работе.
00:11:12.946 --> 00:11:14.163
У нас есть контакты
00:11:14.163 --> 00:11:18.721
с организациями открытых
государственных данных
00:11:18.722 --> 00:11:20.068
и, в частности,
00:11:20.068 --> 00:11:23.102
я поддерживаю контакты
с кантоном и городом Цюрих.
00:11:23.102 --> 00:11:26.207
Они очень заинтересованы в Викиданных,
00:11:26.207 --> 00:11:29.896
потому что хотят, чтобы их данные
были доступны для всех
00:11:29.897 --> 00:11:33.681
в таком месте, где люди
могут ознакомиться c этими данными.
00:11:33.682 --> 00:11:36.550
Для них было бы действительно интересно
00:11:36.551 --> 00:11:38.600
иметь какие-то качественные показатели
00:11:38.600 --> 00:11:41.082
как в Вики, они уже есть,
00:11:41.082 --> 00:11:42.801
но и в результатах SPARQL,
00:11:42.802 --> 00:11:46.066
чтобы знать, доверять ли данным,
полученным от сообщества.
00:11:46.067 --> 00:11:48.230
Они также хотят знать,
00:11:48.230 --> 00:11:51.417
какие из их наборов данных
полезны для Викиданных,
00:11:51.418 --> 00:11:53.091
и чтобы был такой инструмент,
00:11:53.091 --> 00:11:56.041
который поможет им
оценивать это автоматически.
00:11:56.041 --> 00:11:59.066
Им также нужна
какая-то методология или инструмент,
00:11:59.067 --> 00:12:01.404
который бы помог им решить,
00:12:01.404 --> 00:12:03.644
импортировать свои данные
или связывать их с Викиданными,
00:12:03.644 --> 00:12:05.994
поскольку в некоторых случаях
у них есть свои наборы
00:12:05.994 --> 00:12:07.137
связанных открытых данных,
00:12:07.138 --> 00:12:09.746
поэтому они не знают,
публиковать эти данные
00:12:09.746 --> 00:12:13.424
или создавать в наборах данных
ссылки на Викиданные
00:12:13.425 --> 00:12:14.425
и наоборот.
00:12:14.950 --> 00:12:20.044
Они также хотят знать, какие элементы
Викиданных ссылаются на их сайты.
00:12:20.044 --> 00:12:22.790
Когда они делают такой запрос,
00:12:22.790 --> 00:12:24.848
он остаётся без ответа
с истёкшим временем ожидания,
00:12:24.849 --> 00:12:28.181
поэтому, возможно, нам действительно
стоит создавать больше инструментов,
00:12:28.181 --> 00:12:32.240
которые помогут им получить
ответы на их вопросы.
00:12:33.148 --> 00:12:36.208
Кроме того,
00:12:36.208 --> 00:12:38.491
нам, вики-исследователям,
00:12:38.491 --> 00:12:42.023
тоже иногда не хватает информации
в описаниях изменений.
00:12:42.024 --> 00:12:44.953
Я помню, что когда
мы делали какую-то работу,
00:12:44.954 --> 00:12:47.479
чтобы понять различное поведение
00:12:47.479 --> 00:12:50.319
редакторов, ботов
или анонимных пользователей
00:12:50.319 --> 00:12:53.403
с помощью инструментов,
00:12:53.403 --> 00:12:56.154
нам действительно не хватало, например,
00:12:56.154 --> 00:13:01.112
стандартного способа отслеживания
использования этих инструментов.
00:13:01.113 --> 00:13:03.224
Есть несколько инструментов,
которые уже делают это,
00:13:03.224 --> 00:13:05.230
например, PetScan и многие другие,
00:13:05.230 --> 00:13:08.860
но, возможно, в сообществе
мы должны больше обсуждать,
00:13:08.860 --> 00:13:13.611
как фиксировать более точное
происхождение данных.
00:13:14.169 --> 00:13:16.111
Далее, мы полагаем,
00:13:16.111 --> 00:13:20.801
что нужно подумать о более конкретных
показателях качества данных,
00:13:20.802 --> 00:13:24.961
относящихся к связанным данным,
а не ко всем типам данных,
00:13:24.962 --> 00:13:28.602
поэтому мы разрабатываем комплекс мер
00:13:28.602 --> 00:13:31.752
для получения доступа
к приросту информации по ссылкам,
00:13:31.752 --> 00:13:33.881
подразумевая то,
00:13:33.882 --> 00:13:36.681
что когда мы связываем
Викиданные с другими наборами данных,
00:13:36.682 --> 00:13:38.201
мы также должны думать о том,
00:13:38.202 --> 00:13:41.921
сколько сущностей
получается в классификации,
00:13:41.922 --> 00:13:45.601
описании и в словарях,
которыми они пользуются.
00:13:45.602 --> 00:13:51.041
Просто для примера, что я имею в виду:
00:13:51.042 --> 00:13:54.269
в нашем случае это будут Викиданные
00:13:54.270 --> 00:13:57.771
или внешний набор данных,
который ссылается на Викиданные.
00:13:57.772 --> 00:14:00.487
У нас есть сущность для человека
по имени Наташа Ной,
00:14:00.487 --> 00:14:02.601
у нас есть принадлежность и другие вещи,
00:14:02.602 --> 00:14:05.239
а затем мы ссылаемся на внешний источник,
00:14:05.240 --> 00:14:08.919
и эта сущность с таким же именем,
но значение одно и то же.
00:14:08.920 --> 00:14:12.889
Лучше сослаться на сущность
с другим действительным именем,
00:14:12.889 --> 00:14:16.881
потому что имя этого человека
может быть написано двумя способами,
00:14:16.882 --> 00:14:19.714
а также на другую информацию,
отсутствующую в Викиданных
00:14:19.715 --> 00:14:21.760
или других наборах данных.
00:14:22.390 --> 00:14:24.652
Лучше даже то,
00:14:24.653 --> 00:14:27.770
что мы рассматриваем целевой набор данных,
00:14:27.770 --> 00:14:31.392
что также существуют новые способы
классификации информации.
NOTE Paragraph
00:14:31.393 --> 00:14:35.354
Не только то, что это человек,
но в другом наборе данных
00:14:35.355 --> 00:14:38.061
сообщается, что это женщина,
или другая информация,
00:14:38.061 --> 00:14:39.526
с которой классифицируется сущность.
00:14:39.526 --> 00:14:43.401
В другом наборе данных
используются другие словари,
00:14:43.402 --> 00:14:46.588
и это помогает при поиске информации.
00:14:48.291 --> 00:14:51.233
Мы также считаем,
00:14:51.234 --> 00:14:55.809
что можем более наглядно представлять
федеративные запросы,
00:14:55.810 --> 00:15:00.448
потому что по журналу запросов,
предоставленному Малышевым и др.,
00:15:01.285 --> 00:15:04.301
мы видим, что на самом деле
среди органических запросов
00:15:04.302 --> 00:15:06.921
число федеративных запросов
очень небольшое.
00:15:06.922 --> 00:15:09.151
На самом деле, федерация является
00:15:09.151 --> 00:15:12.776
одним из ключевых преимуществ
наличия связанных данных,
00:15:12.802 --> 00:15:16.903
так что, возможно, сообществу или людям,
которые пользуются Викиданными,
00:15:16.903 --> 00:15:18.898
тоже нужно больше примеров.
00:15:18.898 --> 00:15:22.666
Если мы посмотрим на список
используемых точек доступа,
00:15:22.667 --> 00:15:25.401
он будет неполным,
у нас есть намного больше.
00:15:25.402 --> 00:15:30.479
Эти данные были проанализированы
по запросам до марта 2018 года,
00:15:30.480 --> 00:15:34.807
но мы должны проверить список
имеющихся объединённых точек доступа
00:15:34.808 --> 00:15:37.048
и посмотреть,
действительно ли мы их используем.
00:15:37.813 --> 00:15:40.361
У меня есть два вопроса к зрителям,
00:15:40.361 --> 00:15:43.081
которые, возможно, мы впоследствии
можем использовать для обсуждения:
00:15:43.081 --> 00:15:46.001
какие, на ваш взгляд, проблемы
с качеством данных нужно рассмотреть,
00:15:46.002 --> 00:15:47.412
учитывая ваши потребности,
00:15:47.412 --> 00:15:50.401
а также, где вам нужно
больше автоматизации --
00:15:50.402 --> 00:15:52.943
при редактировании или патрулировании?
00:15:53.866 --> 00:15:55.146
Это всё, большое спасибо.
00:15:55.779 --> 00:15:57.527
(аплодисменты)
00:16:04.091 --> 00:16:05.538
WikidataCon 2019
Викиданные и языки
00:16:05.538 --> 00:16:07.603
Визуализация схемы сущности
и авторские инструменты
00:16:07.603 --> 00:16:10.105
(Хосе Эмилио Лабра) Я расскажу
о некоторых инструментах,
00:16:10.105 --> 00:16:12.606
которые мы разработали,
00:16:12.606 --> 00:16:15.536
связанных с Shape Expressions.
00:16:15.536 --> 00:16:19.371
Об этом я буду говорить.
Меня зовут Хосе Эмилио Лабра.
00:16:19.371 --> 00:16:23.215
Все эти инструменты
были разработаны разными людьми,
00:16:23.920 --> 00:16:26.780
в основном все они связаны
с сообществом W3C ShEx,
00:16:26.780 --> 00:16:29.481
или сообществом Shape Expressions.
00:16:30.144 --> 00:16:36.081
Первый инструмент -- RDFShape,
это общий инструмент,
00:16:36.082 --> 00:16:40.681
потому что Shape Expressions
используется не только для Викиданных,
00:16:40.682 --> 00:16:44.168
это язык для проверки RDF в целом.
00:16:44.168 --> 00:16:47.568
Этот инструмент был разработан
в основном мной,
00:16:47.568 --> 00:16:50.880
и это инструмент для проверки RDF.
00:16:50.881 --> 00:16:55.139
Если вы хотите узнать о RDF
или проверить RDF
00:16:55.140 --> 00:16:58.621
или точки доступа SPARQL
не только в Викиданных,
00:16:58.622 --> 00:17:00.891
я советую вам пользоваться
этим инструментом.
00:17:00.891 --> 00:17:03.255
В том числе и для обучения.
00:17:03.255 --> 00:17:05.640
Я преподаю в университете
00:17:05.641 --> 00:17:09.151
и пользуюсь им для обучения RDF
в своём веб-курсе по семантике.
00:17:09.161 --> 00:17:12.121
Если хотите изучать RDF,
это хороший инструмент.
00:17:13.033 --> 00:17:17.598
Например, это визуализация RDF-графа
с помощью этого инструмента.
00:17:18.587 --> 00:17:22.643
Но прежде чем приехать сюда,
в прошлом месяце
00:17:22.643 --> 00:17:28.441
я специально начал использовать
RDFShape для работы с Викиданными.
00:17:28.443 --> 00:17:33.082
Инструмент называется WikiShape,
и вчера я подарил его Викиданным.
00:17:33.082 --> 00:17:34.441
Что я сделал?
00:17:34.442 --> 00:17:39.228
Я удалил всё,
что не связано с Викиданными,
00:17:39.228 --> 00:17:42.912
добавил кое-что жёстко закодированное,
00:17:42.912 --> 00:17:44.802
например, точку доступа SPARQL.
00:17:44.802 --> 00:17:49.041
Но теперь меня попросили
сделать это и для Викибазы.
00:17:49.042 --> 00:17:52.000
Это очень легко.
00:17:52.760 --> 00:17:56.280
Этот инструмент WikiShape
достаточно новый.
00:17:57.015 --> 00:17:59.843
Я думаю, что многие его функции работают,
00:17:59.844 --> 00:18:02.468
но некоторые, возможно, не работают,
00:18:02.469 --> 00:18:04.581
и если вы попробуете его
и захотите что-то улучшить,
00:18:04.581 --> 00:18:06.281
пожалуйста, сообщите мне.
00:18:06.281 --> 00:18:12.680
Здесь у нас скриншоты [неразборчиво],
но давайте попробуем.
00:18:15.385 --> 00:18:17.003
Давайте посмотрим, работает ли он.
00:18:17.003 --> 00:18:20.070
Во-первых, я должен выйти из...
00:18:22.453 --> 00:18:23.453
Здесь.
00:18:24.226 --> 00:18:28.324
Хорошо. Вот этот инструмент.
00:18:28.324 --> 00:18:29.844
С помощью него вы можете,
00:18:29.845 --> 00:18:35.275
например, проверить схемы сущностей.
00:18:35.276 --> 00:18:38.611
Например, существует новое
пространство имён, начинающееся с «Е»,
00:18:38.612 --> 00:18:44.805
и здесь, если вы начнёте писать,
например, «человек»...
00:18:44.806 --> 00:18:48.812
Когда вы пишете,
автозаполнение позволяет проверить,
00:18:48.812 --> 00:18:52.001
например, существуют ли
выражения формы для людей,
00:18:52.790 --> 00:18:55.937
и вот здесь появляются выражения формы.
00:18:55.938 --> 00:18:59.841
Как видите, в этом редакторе
есть подсветка синтаксиса.
00:18:59.842 --> 00:19:04.559
Возможно, экран очень маленький.
00:19:05.676 --> 00:19:07.590
Попробую увеличить.
00:19:09.194 --> 00:19:10.973
Может, сейчас лучше видно.
00:19:10.973 --> 00:19:14.241
Это редактор с подсветкой синтаксиса.
00:19:14.241 --> 00:19:17.851
Для редактора используется
тот же исходный код,
00:19:17.851 --> 00:19:19.641
что и для службы запросов Викиданных.
00:19:19.642 --> 00:19:23.960
Так, например,
если вы наведёте мышкой сюда,
00:19:23.961 --> 00:19:27.961
он покажет вам метки разных свойств.
00:19:27.962 --> 00:19:31.298
Я думаю, это очень полезно,
потому что сейчас,
00:19:32.588 --> 00:19:38.602
схемы сущностей в Викиданных --
это просто текст,
00:19:38.602 --> 00:19:42.493
и я думаю, этот редактор намного лучше,
потому что у него есть автозаполнение,
00:19:42.494 --> 00:19:43.743
и он также имеет...
00:19:43.744 --> 00:19:48.241
Если вы, например,
хотите добавить ограничение,
00:19:48.241 --> 00:19:51.570
вы пишете wdt:,
00:19:51.570 --> 00:19:56.884
а затем начинаете писать auth,
нажимаете Ctrl+Space,
00:19:56.884 --> 00:19:58.922
и он предлагает разные варианты.
00:19:58.922 --> 00:20:02.388
Это похоже на службу запросов Викиданных,
00:20:02.389 --> 00:20:06.445
но специально для выражений формы.
00:20:06.445 --> 00:20:11.975
Так как я думаю,
что создание выражений формы
00:20:11.976 --> 00:20:15.841
не сложнее,
чем написание SPARQL-запросов.
00:20:15.842 --> 00:20:21.255
Хотя некоторые думают,
что это примерно одинаково по сложности.
00:20:22.278 --> 00:20:26.296
Я думаю, это проще,
потому что Shape Expressions
00:20:26.296 --> 00:20:31.241
был создан с целью облегчить работу.
00:20:31.242 --> 00:20:35.001
Первое, что у вас есть -- это редактор
00:20:35.001 --> 00:20:36.620
для выражений формы.
00:20:37.371 --> 00:20:41.467
Здесь есть возможность,
например, визуализации.
00:20:41.468 --> 00:20:44.801
Если у вас есть какое-то
выражение формы, например...
00:20:44.802 --> 00:20:49.386
Думаю, written work -- хороший пример,
00:20:49.386 --> 00:20:53.300
поскольку в нём есть взаимосвязь
между разными сущностями.
00:20:54.823 --> 00:20:58.160
Вот UML-визуализация для written work.
00:20:58.161 --> 00:21:02.090
Здесь легко увидеть разные свойства.
00:21:02.790 --> 00:21:06.794
Когда вы делаете это совместно
с несколькими людьми,
00:21:06.795 --> 00:21:09.216
они находят ошибки
в своих выражениях формы,
00:21:09.217 --> 00:21:12.988
потому что так можно легко найти
недостающие свойства.
00:21:13.588 --> 00:21:15.771
Есть ещё одна возможность проверки,
00:21:15.772 --> 00:21:19.520
кажется, у меня она вот здесь.
00:21:20.496 --> 00:21:25.285
Это было на какой-то вкладке,
возможно, я закрыл её.
00:21:26.267 --> 00:21:30.988
Но вы можете, например,
нажать Validate entities.
00:21:32.308 --> 00:21:34.232
Например,
00:21:35.404 --> 00:21:41.921
Q42 сравнить с E42, схемой для авторов.
00:21:42.818 --> 00:21:46.180
Думаю, можно попробовать
со схемой для людей.
00:21:49.050 --> 00:21:50.050
А потом...
00:21:50.688 --> 00:21:56.365
Это SPARQL-запрос,
и он занимает какое-то время,
00:21:56.365 --> 00:21:59.134
например, сейчас сбой в сети, но...
00:21:59.657 --> 00:22:01.580
Вы можете попробовать.
00:22:02.759 --> 00:22:07.026
Давайте расскажем о других инструментах.
00:22:07.026 --> 00:22:12.353
Если хотите попробовать
и у вас есть предложения, дайте мне знать.
00:22:13.133 --> 00:22:15.540
Продолжим презентацию.
00:22:18.923 --> 00:22:20.233
Это WikiShape.
00:22:23.800 --> 00:22:26.509
Как я уже говорил,
00:22:27.681 --> 00:22:34.157
Редактор Shape Expressions --
независимый проект на GitHub.
00:22:35.605 --> 00:22:37.472
Вы можете использовать его
в своём проекте.
00:22:37.472 --> 00:22:41.036
Если хотите использовать
инструмент Shape Expressions,
00:22:41.036 --> 00:22:45.635
вы можете просто встроить его
в любой другой проект,
00:22:45.636 --> 00:22:48.235
его можно найти на GitHub,
и им можно пользоваться.
00:22:48.868 --> 00:22:51.970
Тот же автор, один из моих учеников,
00:22:52.684 --> 00:22:55.704
также создал редактор
для Shape Expressions,
00:22:55.704 --> 00:22:57.799
вдохновившись
службой запросов Викиданных.
00:23:00.682 --> 00:23:05.103
Этот редактор более наглядный
для SPARQL-запросов,
00:23:05.104 --> 00:23:07.135
куда вы можете загрузить подобные вещи.
00:23:07.136 --> 00:23:09.123
Это снимок экрана.
00:23:09.123 --> 00:23:12.662
Как видите, выражения формы
здесь в виде текста.
00:23:12.662 --> 00:23:17.822
Но здесь они на базе форм,
и, вероятно, потребуется больше времени,
00:23:18.595 --> 00:23:23.400
но вы можете вставлять
разные строки в разные поля.
00:23:23.401 --> 00:23:25.800
Это ShExEr.
00:23:26.879 --> 00:23:31.882
Его сделал аспирант
Университета Овьедо,
00:23:31.883 --> 00:23:34.080
он сегодня здесь,
и расскажет вам о ShExEr.
00:23:38.147 --> 00:23:40.024
(Данни) Привет, я Данни Фернандес,
00:23:40.025 --> 00:23:44.099
аспирант Университета Овьедо,
работаю с Лаброй.
00:23:44.710 --> 00:23:47.725
У нас заканчивается время,
поэтому давайте ускоримся.
00:23:47.726 --> 00:23:52.641
Я покажу несколько скриншотов
вместо всей презентации.
00:23:52.642 --> 00:23:57.897
Обычный способ работы с Shape Expressions
или любым подобным языком:
00:23:57.897 --> 00:23:59.521
есть специалист,
00:23:59.522 --> 00:24:02.313
который определяет,
как должен выглядеть граф,
00:24:02.314 --> 00:24:03.555
определяет структуры,
00:24:03.556 --> 00:24:06.983
а затем вы используете эти структуры
для проверки фактических данных.
00:24:08.124 --> 00:24:11.641
Инструмент, о котором рассказал Лабра, --
00:24:11.642 --> 00:24:14.441
общего назначения
для любого RDF-источника,
00:24:14.442 --> 00:24:17.375
и он может работать
в обратном направлении.
00:24:17.376 --> 00:24:18.758
У вас уже есть некоторые данные,
00:24:18.759 --> 00:24:23.165
вы выбираете узлы,
форму которых хотите получить,
00:24:23.165 --> 00:24:26.718
а затем автоматически
извлекаете или выводите форму.
00:24:26.719 --> 00:24:29.791
Несмотря на то, что это инструмент
общего назначения,
00:24:29.791 --> 00:24:34.063
мы сделали волшебную кнопку
для этой конференции,
00:24:34.884 --> 00:24:37.081
и если вы нажмёте на неё,
00:24:37.081 --> 00:24:42.079
появятся параметры конфигурации,
00:24:42.080 --> 00:24:46.251
и он настроит работу
с точкой доступа Викиданных,
00:24:46.251 --> 00:24:47.971
простите, он скоро закончит.
00:24:48.733 --> 00:24:52.883
После нажатия этой кнопки
вы, по сути, получаете это.
00:24:52.884 --> 00:24:55.126
Выбрав необходимые вам узлы
00:24:55.127 --> 00:24:57.431
или экземпляры класса,
00:24:57.431 --> 00:24:59.361
что бы вы ни искали,
00:24:59.361 --> 00:25:01.321
вы получите автоматическую схему.
00:25:02.319 --> 00:25:07.111
Все ограничения отсортированы
по количеству узлов,
00:25:07.112 --> 00:25:09.772
можно отфильтровать
наименее распространённые и так далее.
00:25:09.772 --> 00:25:12.126
Внизу есть плакат об этом материале,
00:25:12.127 --> 00:25:14.595
я буду на нижнем и верхнем этажах,
00:25:14.596 --> 00:25:16.454
а также в других местах,
00:25:16.455 --> 00:25:19.081
поэтому если у вас будет интерес
к этому инструменту,
00:25:19.082 --> 00:25:21.476
просто обращайтесь ко мне.
00:25:21.477 --> 00:25:24.624
Отдаю микрофон Лабре, спасибо.
00:25:24.625 --> 00:25:29.265
(аплодисменты)
00:25:29.812 --> 00:25:32.578
(Хосе) Давайте обсудим
другие инструменты.
00:25:32.579 --> 00:25:34.984
ShapeDesigner -- ещё один инструмент.
00:25:34.984 --> 00:25:37.241
Андра, хочешь рассказать о ShapeDesigner
00:25:37.242 --> 00:25:39.957
или позже на семинаре?
00:25:40.173 --> 00:25:44.437
Сегодня будет семинар,
посвящённый Shape Expressions,
00:25:45.265 --> 00:25:47.939
мы попробуем его на практике,
00:25:47.940 --> 00:25:52.324
так что если хотите попрактиковаться
с ShEx, то вам сюда.
00:25:52.875 --> 00:25:55.300
Это инструмент ShEx.js,
00:25:55.300 --> 00:25:56.890
и Эрик может рассказать о нём.
00:25:57.969 --> 00:26:00.687
(Эрик) Расскажу очень быстро.
00:26:00.687 --> 00:26:05.711
Вы, вероятно, уже видели интерфейс ShEx,
00:26:05.711 --> 00:26:07.601
заточенный под Викиданные.
00:26:07.602 --> 00:26:12.930
Его сократили и адаптировали
специально под Викиданные
00:26:12.930 --> 00:26:15.567
потому что в нём больше возможностей,
00:26:15.567 --> 00:26:17.937
но я, кажется, говорил об этом,
00:26:17.937 --> 00:26:19.977
потому что одна из этих функций
особенно полезна
00:26:19.978 --> 00:26:23.201
для отладки схем Викиданных.
00:26:23.201 --> 00:26:29.224
Если вы выбираете полный режим,
00:26:29.225 --> 00:26:31.444
то пока я буду проводить проверку
00:26:31.445 --> 00:26:34.694
всех этих триплетов,
00:26:34.695 --> 00:26:36.274
и если я получу множество ошибок,
00:26:36.275 --> 00:26:40.396
я могу пройтись по этим ошибкам
00:26:40.396 --> 00:26:44.120
и посмотреть, какие триплеты здесь, внизу.
00:26:44.121 --> 00:26:45.967
Это просто журнал того,
как всё происходило.
00:26:46.327 --> 00:26:49.180
Затем можете поиграть с этим,
00:26:49.181 --> 00:26:51.033
чтобы поменять что-либо.
00:26:51.033 --> 00:26:54.160
Это более быстрая версия
того, как это сделать.
00:26:55.361 --> 00:26:56.481
Это форма ShExC --
00:26:56.482 --> 00:26:59.455
то, что предлагал Йохим,
00:27:00.035 --> 00:27:04.631
что может быть полезно
для заполнения документов Викиданных
00:27:04.631 --> 00:27:07.338
на основе выражения формы
для этого документа.
00:27:08.095 --> 00:27:11.681
Она не адаптирована под Викиданные.
00:27:11.682 --> 00:27:14.081
Я просто показываю,
что можно взять схему,
00:27:14.082 --> 00:27:15.402
сделать аннотации,
00:27:15.403 --> 00:27:17.518
чтобы конкретно указать,
какую схему вы хотите,
00:27:17.519 --> 00:27:19.031
потом просто создать форму
00:27:19.031 --> 00:27:21.191
и, если у вас есть данные,
можно заполнить форму.
00:27:24.517 --> 00:27:26.164
PyShEx [неразборчиво].
00:27:28.025 --> 00:27:31.080
(Хосе) Думаю, это последний инструмент.
00:27:31.821 --> 00:27:34.080
Да, это PyShEx.
00:27:34.675 --> 00:27:38.151
PyShEx -- это Shape Expressions,
реализованный на Python,
00:27:39.193 --> 00:27:42.680
он совместим с Jupyter Notebooks.
00:27:42.680 --> 00:27:44.432
Итак, это всё.
00:27:44.433 --> 00:27:47.170
(аплодисменты)
00:27:52.916 --> 00:27:56.088
(Андра) Итак, я расскажу
о конкретном проекте,
00:27:56.088 --> 00:27:58.074
в котором участвую -- Gene Wiki,
00:27:58.865 --> 00:28:04.366
и в котором мы тоже занимаемся
вопросами качества.
00:28:04.597 --> 00:28:06.684
Прежде чем говорить о качестве,
00:28:06.685 --> 00:28:09.229
я кратко расскажу вам о Gene Wiki.
00:28:09.855 --> 00:28:15.175
Мы только что выпустили
предварительную версию статьи,
00:28:15.175 --> 00:28:18.160
в которой описаны детали проекта.
00:28:19.821 --> 00:28:22.066
Я вижу, люди фотографируют...
00:28:22.066 --> 00:28:25.076
Gene Wiki публикует в Викиданных
00:28:25.076 --> 00:28:28.027
общедоступные биомедицинские данные,
00:28:28.028 --> 00:28:32.200
используя для этого определённый шаблон.
00:28:33.130 --> 00:28:36.809
Если у нас появляется
новое хранилище или набор данных,
00:28:36.810 --> 00:28:39.600
который можно включить Викиданные,
00:28:39.601 --> 00:28:41.293
первый шаг -- вовлечение сообщества.
00:28:41.294 --> 00:28:43.784
Необязательно сообщества Викиданных,
00:28:43.785 --> 00:28:46.120
но местного исследовательского сообщества.
00:28:46.121 --> 00:28:50.286
Мы встречаемся лично,
онлайн или на любой платформе
00:28:50.286 --> 00:28:52.881
и пробуем придумать модель данных,
00:28:52.882 --> 00:28:56.197
которая соединит их данные
с моделью Викиданных.
00:28:56.197 --> 00:28:59.944
Вот фотография прошлогоднего семинара,
00:28:59.945 --> 00:29:02.663
на котором мы анализировали
определённый набор данных,
00:29:02.663 --> 00:29:05.280
и как видите, было много обсуждений,
00:29:05.281 --> 00:29:07.960
затем приведение его
в соответствие с schema.org
00:29:07.960 --> 00:29:10.320
и другими существующими онтологиями.
00:29:10.320 --> 00:29:15.508
В конце первого шага
у нас на доске появился чертёж схемы,
00:29:15.509 --> 00:29:17.336
которую мы хотим добавить в Викиданные.
00:29:17.337 --> 00:29:20.440
Вы видите, она несложная,
00:29:20.441 --> 00:29:22.116
на заднем плане,
00:29:22.116 --> 00:29:26.270
и мы можем построить какие-то схемы
даже здесь, в рамках этой дискуссии.
00:29:26.560 --> 00:29:28.399
Если у нас есть схема,
00:29:28.400 --> 00:29:31.320
следующий шаг -- попытаться сделать
эта схему машиночитаемой,
00:29:32.358 --> 00:29:36.841
чтобы иметь работающие модели
для переноса внешних данных
00:29:36.842 --> 00:29:39.690
из любой медико-биологической
базы данных в Викиданные.
00:29:40.393 --> 00:29:45.182
Здесь мы применяем
инструмент Shape Expressions,
00:29:46.471 --> 00:29:52.518
поскольку он позволяет проверить,
00:29:52.518 --> 00:29:57.040
является ли набор данных...
Сначала увидеть,
00:29:57.040 --> 00:30:01.782
что уже существующие данные в Викиданных
следуют той же модели данных,
00:30:01.783 --> 00:30:04.718
которая была получена
в предыдущих процессах.
00:30:04.719 --> 00:30:06.641
С помощью Shape Expressions
мы можем проверить,
00:30:06.642 --> 00:30:10.926
требуется ли корректировка данных
по этой теме в Викиданных,
00:30:10.926 --> 00:30:15.013
нужно ли адаптировать нашу модель
к модели Викиданных или наоборот.
00:30:15.937 --> 00:30:19.867
Как только всё на месте,
мы начинаем писать ботов,
00:30:20.670 --> 00:30:23.801
а боты загружают информацию
00:30:23.802 --> 00:30:27.308
из первоисточников в Викиданные.
00:30:27.846 --> 00:30:29.303
Когда боты готовы,
00:30:29.304 --> 00:30:33.851
а мы пишем их на платформе
WikidataIntegrator,
00:30:33.851 --> 00:30:36.201
используя библиотеку Python,
00:30:36.202 --> 00:30:38.167
которая появилась
в результате нашего проекта.
00:30:38.698 --> 00:30:42.921
Когда боты написаны,
мы используем платформу Jenkins
00:30:42.921 --> 00:30:44.540
для непрерывной интеграции.
00:30:44.540 --> 00:30:45.762
С помощью Jenkins
00:30:45.762 --> 00:30:51.160
мы постоянно обновляем
первоначальные источники с Викиданными.
00:30:52.178 --> 00:30:55.889
Вот диаграмма, о которой я говорил ранее.
00:30:55.890 --> 00:30:57.241
Это её текущий вид.
00:30:57.242 --> 00:31:02.059
Оранжевые прямоугольники --
первоисточники медикаментов,
00:31:02.060 --> 00:31:07.827
белков, генов, заболеваний,
химических соединений, со взаимосвязями,
00:31:07.827 --> 00:31:10.870
но её невозможно прочитать сейчас,
поскольку она слишком маленькая,
00:31:10.870 --> 00:31:17.472
но это база данных, источниками которых
мы управляем в Викиданных
00:31:17.473 --> 00:31:20.560
и соединяем с первоисточниками.
00:31:20.561 --> 00:31:22.355
Так выглядит наш рабочий процесс.
00:31:22.870 --> 00:31:25.312
Один из наших партнёров --
онтология заболеваний.
00:31:25.312 --> 00:31:28.289
Онтология заболеваний имеет лицензию CC0,
00:31:28.289 --> 00:31:31.990
и такая онтология
имеет свой цикл курирования.
00:31:32.756 --> 00:31:35.736
Онтология заболеваний
постоянно обновляется,
00:31:35.737 --> 00:31:39.687
чтобы отразить базу заболеваний
или их объяснение.
00:31:40.336 --> 00:31:44.361
Здесь изображён цикл курирования
Викиданных по заболеваниям,
00:31:44.362 --> 00:31:49.844
где сообщество постоянно следит за тем,
что происходит с Викиданными.
00:31:50.406 --> 00:31:51.601
Есть две роли.
00:31:51.602 --> 00:31:55.477
Мы упрощённо называем их
хранитель-куратор,
00:31:56.009 --> 00:31:59.561
и это были я и мой коллега пять лет назад.
00:31:59.562 --> 00:32:03.414
Мы просто сидели за компьютерами
и мониторили Википедию и Викиданные,
00:32:03.415 --> 00:32:08.601
и если была проблема, мы сообщали о ней
первоначальному сообществу,
00:32:08.602 --> 00:32:11.765
первоначальным источникам,
они смотрели на реализацию и решали,
00:32:11.765 --> 00:32:14.240
доверять ли данным,
введённым в Викиданные.
00:32:14.850 --> 00:32:18.555
Если да, начинался цикл
00:32:18.555 --> 00:32:22.686
и следующий шаг --
часть онтологии заболеваний
00:32:22.687 --> 00:32:25.411
возвращалась в Викиданные.
00:32:27.419 --> 00:32:31.480
Для WikiPathways мы делаем то же самое.
00:32:31.481 --> 00:32:34.202
WikiPathways -- база данных
биологических путей,
00:32:34.202 --> 00:32:36.602
вдохновлённая MediaWiki.
00:32:36.602 --> 00:32:40.901
В Викиданных уже существуют
различные источники путей.
00:32:41.463 --> 00:32:44.713
Между ними могут возникать конфликты,
00:32:45.312 --> 00:32:49.521
и хранителям-кураторам
сообщается об их возникновении,
00:32:49.522 --> 00:32:53.715
и вы управляете индивидуальными
циклами курирования.
00:32:53.715 --> 00:32:57.068
Но если вы помните предыдущий цикл,
00:32:57.069 --> 00:33:03.041
где речь велась
только о двух циклах, двух ресурсах,
00:33:03.566 --> 00:33:06.300
нам нужно делать это
для каждого имеющегося ресурса
00:33:06.300 --> 00:33:08.061
и нужно управлять происходящим,
00:33:08.062 --> 00:33:09.775
потому что под курированием
00:33:09.775 --> 00:33:14.157
я подразумеваю постоянное отслеживание
страниц Википедии и Викиданных.
00:33:14.545 --> 00:33:19.316
Такая работа явно не для двух
хранителей-кураторов.
00:33:19.860 --> 00:33:22.777
На конференции в 2016 году,
00:33:22.778 --> 00:33:26.933
когда Эрик рассказывал
о Shape Expressions,
00:33:26.934 --> 00:33:29.277
я присоединился, и подумал,
00:33:29.278 --> 00:33:34.240
что Shape Expressions может помочь
выявить различия в Викиданных,
00:33:34.240 --> 00:33:41.159
которые помогут хранителям
делать более подробные отчёты.
00:33:42.275 --> 00:33:46.019
В этом году я был в восторге
от схемы сущности,
00:33:46.020 --> 00:33:50.765
потому что теперь мы можем хранить
эти схемы в Викиданных,
00:33:50.765 --> 00:33:53.183
до этого мы хранили их на GitHub.
00:33:53.860 --> 00:33:56.815
Схема согласуется
с интерфейсом Викиданных,
00:33:56.816 --> 00:33:59.350
здесь есть обсуждение документа,
00:33:59.350 --> 00:34:00.762
но также доступны правки.
00:34:00.763 --> 00:34:03.012
Вы можете пользоваться
первыми страницами
00:34:03.012 --> 00:34:05.262
и правками в Викиданных,
00:34:05.262 --> 00:34:12.255
чтобы обсуждать то,
что имеется в Викиданных
00:34:12.255 --> 00:34:14.060
и первоначальных источниках.
00:34:14.966 --> 00:34:19.686
Эрик уже об этом говорил,
это очень помогает.
00:34:19.686 --> 00:34:24.335
Мы создали выражение формы
для гена человека,
00:34:24.336 --> 00:34:30.225
потом пропустили его через ShEx,
как вы видите,
00:34:30.225 --> 00:34:32.428
мы получили...
00:34:32.429 --> 00:34:34.641
Есть один элемент,
за которым нужно следить, --
00:34:34.642 --> 00:34:37.316
он не вписывается в эту схему,
00:34:37.316 --> 00:34:43.139
и затем вы можете создать
сущности схемы, отчёты курирования,
00:34:43.140 --> 00:34:46.240
и отправить их в разные отчёты.
00:34:48.058 --> 00:34:52.788
Но ShEx -- это встроенный интерфейс,
00:34:52.788 --> 00:34:55.860
и здесь я смогу показать только десять,
00:34:55.860 --> 00:35:00.362
но у нас десятки тысяч,
и они несоизмеримы.
00:35:00.362 --> 00:35:04.654
Интегратор Викиданных
теперь поддерживает ShEx,
00:35:05.168 --> 00:35:07.431
и мы просто можем замкнуть
петли элементов,
00:35:07.431 --> 00:35:11.494
указав «да-нет, да-нет,
правда-ложь, правда-ложь».
00:35:11.495 --> 00:35:12.495
снова,
00:35:13.065 --> 00:35:16.514
повышая эффективность
при составлении отчётов.
00:35:17.256 --> 00:35:22.662
Но с недавних пор он строится
на сервисе запросов Викиданных,
00:35:23.181 --> 00:35:24.998
мы недавно регулировали
количество запросов,
00:35:24.999 --> 00:35:26.560
и это тоже несоизмеримо.
00:35:26.561 --> 00:35:31.391
Работа с моделями на Викиданных --
непрерывный процесс.
00:35:32.202 --> 00:35:36.682
ShEx не только пугает,
00:35:36.683 --> 00:35:40.356
но он ещё и громоздкий.
00:35:41.068 --> 00:35:43.192
Я начал работать,
00:35:43.192 --> 00:35:46.082
это мой первый эксперимент или упражнение,
00:35:46.082 --> 00:35:48.184
где был использован инструмент yEd,
00:35:48.184 --> 00:35:52.591
и затем я начал отрисовывать
эти выражения формы,
00:35:52.591 --> 00:35:58.098
и потом регенерировать эту схему
00:35:58.099 --> 00:36:01.279
в формат, близкий к Shape Expressions,
00:36:01.280 --> 00:36:04.520
понятный людям,
00:36:04.521 --> 00:36:07.432
которых слишком пугает
язык Shape Expressions.
00:36:07.961 --> 00:36:12.308
Но есть проблема с визуальным описанием,
00:36:12.309 --> 00:36:18.229
потому что это также схема,
кем-то нарисованная в yEd.
00:36:18.230 --> 00:36:23.838
Вот ещё одна, замечательная.
00:36:23.838 --> 00:36:26.601
Я бы такую себе на стену повесил,
00:36:27.271 --> 00:36:30.281
но она пока несовместима.
00:36:30.281 --> 00:36:33.371
Хочу завершить своё выступление слайдом,
00:36:33.371 --> 00:36:35.732
который я позаимствовал.
00:36:35.732 --> 00:36:37.594
Для меня честь показать его аудитории.
00:36:37.595 --> 00:36:39.423
Он мне очень нравится:
00:36:39.424 --> 00:36:42.362
«Люди думают, что RDF -- это боль
из-за его сложности.
00:36:42.362 --> 00:36:43.745
Но на самом деле всё ещё хуже.
00:36:43.745 --> 00:36:48.133
RDF очень прост, но он позволяет работать
с реальными данными
00:36:48.134 --> 00:36:50.031
и невероятно сложными проблемами.
00:36:50.031 --> 00:36:52.361
Можно избежать использования RDF,
00:36:52.361 --> 00:36:55.760
но вряд ли получится избежать
сложных данных и компьютерных проблем».
00:36:55.761 --> 00:36:59.535
Речь об RDF, но, я думаю,
подходит под моделирование в целом.
00:37:00.112 --> 00:37:02.769
Мой вопрос -- должны ли мы...
00:37:03.387 --> 00:37:05.882
Как мы будем моделировать?
00:37:05.882 --> 00:37:10.826
Поговорим о ShEx,
или визуальных моделях, или...
00:37:11.426 --> 00:37:13.271
Как нам продолжить?
00:37:13.474 --> 00:37:14.840
Спасибо за уделённое время.
00:37:15.102 --> 00:37:17.787
(аплодисменты)
00:37:20.001 --> 00:37:21.188
(Лидия) Спасибо большое.
00:37:21.692 --> 00:37:24.001
Можете выйти вперёд,
00:37:24.002 --> 00:37:27.741
чтобы аудитория могла задать вопросы.
00:37:28.610 --> 00:37:30.203
Есть вопросы?
00:37:31.507 --> 00:37:32.507
Да.
00:37:34.253 --> 00:37:36.890
Думаю, для камеры нужно, чтобы...
00:37:38.835 --> 00:37:40.968
(Лидия смеётся) Да.
00:37:43.094 --> 00:37:46.273
(голос из зала 1) Вопрос Кристине, думаю.
00:37:47.366 --> 00:37:51.641
Вы упоминали термин «прирост информации»
00:37:51.642 --> 00:37:53.689
от объединения с другими системами.
00:37:53.690 --> 00:37:56.579
Существует информационно-теоретический
показатель -- прирост информации,
00:37:56.579 --> 00:37:58.201
основанный на статистике и вероятности.
00:37:59.542 --> 00:38:01.736
Вы имели в виду именно этот показатель?
00:38:01.736 --> 00:38:04.173
Прирост информации
на основе теории вероятности,
00:38:04.174 --> 00:38:05.240
теории информации,
00:38:05.241 --> 00:38:09.024
или просто такая концептуальная идея
для измерения прироста информации?
00:38:09.025 --> 00:38:13.016
Нет, мы действительно
определили и применили показатели,
00:38:13.695 --> 00:38:20.161
используя энтропию Шеннона,
поэтому смысл именно такой.
00:38:20.162 --> 00:38:22.416
Не хочу вдаваться в детали
конкретных формул...
00:38:22.416 --> 00:38:24.977
(голос из зала 1) Нет, конечно,
поэтому и прозвучал вопрос.
00:38:24.978 --> 00:38:27.178
- (Кристина) Да.
- (голос из зала 1) Спасибо.
00:38:33.091 --> 00:38:35.407
(голос из зала 2) Это больше
комментарий, нежели вопрос.
00:38:35.407 --> 00:38:36.541
(Лидия) Да, конечно.
00:38:36.541 --> 00:38:39.840
(голос из зала 2) Акцент был на элементах,
00:38:39.840 --> 00:38:42.547
на их качестве и полноте,
00:38:42.547 --> 00:38:47.374
но меня беспокоит,
что мы не применяем это к иерархиям,
00:38:47.374 --> 00:38:51.480
и наша частая проблема -- плохая иерархия.
00:38:51.481 --> 00:38:53.463
Мы видим, что это становится
реальной проблемой
00:38:53.464 --> 00:38:55.774
при обычным поиске и других вещах.
00:38:56.771 --> 00:39:01.321
Мы можем импортировать способ,
00:39:01.321 --> 00:39:04.842
по которому внешние тезаурусы
выстраивают свои иерархии,
00:39:04.842 --> 00:39:10.291
используя квалификатор P4900,
более широкое понятие.
00:39:11.037 --> 00:39:16.167
Но я думаю, для этого есть
более подходящие инструменты,
00:39:16.168 --> 00:39:21.212
и вы сможете импортировать
иерархию внешнего тезауруса,
00:39:21.212 --> 00:39:24.111
отобразить её на элементы Викиданных.
00:39:24.111 --> 00:39:28.199
И связав её с этими квалификаторами P4900,
00:39:28.200 --> 00:39:31.494
вы можете делать
хорошие запросы через SPARQL,
00:39:32.490 --> 00:39:37.534
чтобы увидеть, где наша иерархия
расходится с внешней.
00:39:37.534 --> 00:39:41.346
Например, вы можете знать
[Паолу Морма], под псевдонимом PKM,
00:39:41.346 --> 00:39:43.533
этот пользователь
создаёт много статей о моде.
00:39:43.533 --> 00:39:50.524
Мы включаем их в иерархию
тезауруса европейской моды
00:39:50.524 --> 00:39:53.812
и в иерархию тезауруса
искусства и архитектуры,
00:39:53.812 --> 00:39:57.957
а потом мы видим, какие пробелы
были в элементах более высокого уровня.
00:39:57.957 --> 00:40:01.231
Для нас это реальная проблема,
потому что часто попадаются вещи,
00:40:01.231 --> 00:40:04.355
которые существуют в Википедии
только как страницы значений,
00:40:04.356 --> 00:40:09.270
многие элементы более высокого уровня
отсутствуют в наших иерархиях,
00:40:09.271 --> 00:40:14.480
и мы должны рассмотреть это
с точки зрения качества и полноты,
00:40:14.480 --> 00:40:18.773
но что действительно поможет,
станет лучшим инструментом,
00:40:18.773 --> 00:40:20.871
чем те дебри скриптов, написанных мной, --
00:40:20.872 --> 00:40:26.010
если бы кто-то поместил это
в PAWS notebook на Python,
00:40:26.561 --> 00:40:31.972
чтобы можно было извлечь
внешний тезаурус, взять его иерархию,
00:40:31.973 --> 00:40:34.595
которая может быть доступна
как связанные данные или же нет,
00:40:35.169 --> 00:40:40.580
чтобы поместить это в QuickStatements,
чтобы вставить значения P4900.
00:40:41.165 --> 00:40:42.165
Затем позже,
00:40:42.166 --> 00:40:44.527
когда наше представление
станет более сложным,
00:40:44.528 --> 00:40:49.691
обновить эти значения P4900,
потому что добавляются данные,
00:40:49.691 --> 00:40:51.590
представление становится
более комплексным,
00:40:51.590 --> 00:40:55.377
значения этих квалификаторов нужно менять,
00:40:56.230 --> 00:40:59.526
чтобы показать, что в нашей системе
всё больше их иерархии.
00:40:59.526 --> 00:41:03.728
Если бы кто-то мог сделать это,
думаю, это было бы очень полезно,
00:41:03.728 --> 00:41:07.121
и мы должны рассмотреть
и другие подходы
00:41:07.122 --> 00:41:10.762
для улучшения качества и полноты
на уровне иерархии,
00:41:10.763 --> 00:41:12.378
а не только на уровне элемента.
00:41:13.308 --> 00:41:14.840
(Андра) Могу я кое-что добавить?
00:41:16.362 --> 00:41:19.901
Да, и мы это делаем,
00:41:19.911 --> 00:41:23.551
и я рекомендую посмотреть
на выражение формы, которое сделал Финн
00:41:23.552 --> 00:41:25.530
с лексическими данными,
00:41:25.530 --> 00:41:27.330
где он создаёт выражения формы,
00:41:27.330 --> 00:41:29.640
а затем опирается
на другие выражения формы,
00:41:29.641 --> 00:41:32.678
так получается концепция
связанных выражений формы в Викиданных.
00:41:32.678 --> 00:41:35.235
В частности, пример использования,
если я правильно понимаю --
00:41:35.235 --> 00:41:37.183
это именно то, что мы делаем в Gene Wiki.
00:41:37.184 --> 00:41:40.841
Есть онтология заболеваний,
которая помещена в Викиданные,
00:41:40.842 --> 00:41:44.681
а затем поступают данные о заболевании,
и мы применяем Shape Expressions,
00:41:44.683 --> 00:41:47.248
чтобы посмотреть,
соответствуют ли данные тезаурусу.
00:41:47.248 --> 00:41:50.919
Есть и другие тезаурусы или другие
онтологии или контролируемые словари,
00:41:50.920 --> 00:41:52.559
которые ещё должны войти в Викиданные,
00:41:52.559 --> 00:41:55.351
и именно поэтому инструмент
Shape Expressions так интересен --
00:41:55.351 --> 00:41:57.963
вы можете применять его
для онтологии заболеваний,
00:41:57.964 --> 00:41:59.644
для MeSH.
00:41:59.645 --> 00:42:01.851
Теперь вам нужно проверить качество.
00:42:01.851 --> 00:42:04.059
Потому что в Викиданных
также есть контекст,
00:42:04.060 --> 00:42:09.567
когда у вас есть контролируемый словарь,
вы считаете, что качество соответствует,
00:42:09.568 --> 00:42:11.636
но могут быть случаи,
когда сообщество не согласно.
00:42:11.636 --> 00:42:16.081
Инструмент уже есть,
но теперь нужно создать эти модели
00:42:16.082 --> 00:42:18.144
и применять их для разных случаев.
00:42:18.811 --> 00:42:20.921
(голос из зала 2)
Shape Expressions очень полезен,
00:42:20.922 --> 00:42:25.928
если у вас уже есть внешняя онтология,
которая отображается в Викиданных,
00:42:25.929 --> 00:42:29.474
но моя проблема в том,
что всё доходит до той стадии,
00:42:29.475 --> 00:42:34.881
когда выясняется, какой части
внешней онтологии ещё нет в Викиданных,
00:42:34.882 --> 00:42:36.256
и где есть пробелы,
00:42:36.257 --> 00:42:40.660
и, я думаю, в этом случае иметь
более надёжные инструменты,
00:42:40.660 --> 00:42:44.286
чтобы увидеть, чего не хватает
из внешних онтологий,
00:42:44.286 --> 00:42:45.537
было бы очень полезно.
00:42:47.678 --> 00:42:49.062
Самая большая проблема
00:42:49.062 --> 00:42:51.201
не в инструментах, а в лицензировании.
00:42:51.803 --> 00:42:55.249
Поместить онтологии в Викиданные
на самом деле очень просто,
00:42:55.250 --> 00:42:59.295
но большинство онтологий имеют,
как я это вежливо называю,
00:42:59.965 --> 00:43:03.256
ограниченное лицензирование,
поэтому они не совместимы с Викиданными.
00:43:04.068 --> 00:43:06.998
(голос из зала 2) Есть множество
тезаурусов из государственного сектора
00:43:06.998 --> 00:43:08.209
в сфере культуры.
00:43:08.210 --> 00:43:11.151
- (Андра) Тогда нам нужно поговорить.
- (голос из зала 2) Это не проблема.
00:43:11.151 --> 00:43:12.494
(Андра) Тогда поговорим.
00:43:13.624 --> 00:43:19.192
(голос из зала 3) Мой комментарий --
на самом деле ответ Джеймсу.
00:43:19.192 --> 00:43:22.401
Дело в том, что из иерархий
получаются графы,
00:43:22.374 --> 00:43:24.041
и когда ты хочешь...
00:43:24.579 --> 00:43:28.888
Я хочу в основном поговорить
об общей проблеме в иерархиях --
00:43:28.889 --> 00:43:30.820
о циклических иерархиях,
00:43:30.821 --> 00:43:33.796
они возвращаются друг к другу,
когда есть проблема,
00:43:33.796 --> 00:43:35.920
которой в иерархиях не должно быть.
00:43:37.022 --> 00:43:41.295
Это, как ни странно,
часто встречается в категориях Википедии
00:43:41.295 --> 00:43:42.990
у нас много циклов в категориях,
00:43:43.898 --> 00:43:46.612
но хорошая новость в том, что это...
00:43:47.713 --> 00:43:50.393
Технически, это NP-полная задача,
00:43:50.393 --> 00:43:51.583
и вы не можете найти её,
00:43:51.583 --> 00:43:53.414
но легко найдёте, построив граф.
00:43:54.473 --> 00:43:57.046
Но было разработано много способов
00:43:57.047 --> 00:44:00.624
для нахождения проблем
в этих иерархических графах.
00:44:00.625 --> 00:44:04.860
Есть такая статья...
00:44:04.861 --> 00:44:07.955
о разрыве циклов в искажённых иерархиях,
00:44:07.956 --> 00:44:12.671
и перечисленные в ней методы помогли
при категоризации английской Википедии.
00:44:12.672 --> 00:44:17.141
Вы можете просто применять
эти иерархии в Викиданных,
00:44:17.142 --> 00:44:19.540
а затем найти
00:44:19.541 --> 00:44:22.481
и просто удалить то,
что вызывает проблемы,
00:44:22.482 --> 00:44:24.593
и на самом деле найти проблемы.
00:44:24.594 --> 00:44:26.960
Это просто идея.
00:44:28.780 --> 00:44:30.533
(голос из зала 2)
Это всё очень хорошо,
00:44:30.533 --> 00:44:34.402
но я думаю, вы недооцениваете количество
плохих связей между подклассами,
00:44:34.402 --> 00:44:35.402
которые у нас имеются.
00:44:35.403 --> 00:44:39.680
Это как город, который находится
совершенно не в той стране,
00:44:40.250 --> 00:44:43.245
при том, что существуют
географические инструменты
00:44:43.245 --> 00:44:44.875
для определения этой проблемы.
00:44:44.875 --> 00:44:49.201
Нам в иерархиях нужны
более эффективные инструменты,
00:44:49.202 --> 00:44:53.477
которые смогут определить,
где эквивалент элемента для страны
00:44:53.478 --> 00:44:57.673
полностью отсутствует,
или где он является подклассом чего-то,
00:44:57.674 --> 00:45:01.804
не имеющего к нему отношения.
00:45:02.804 --> 00:45:07.165
(Лидия) Я думаю, вы подобрались к тому,
00:45:07.166 --> 00:45:10.894
что мы с моей командой
постоянно слышим от людей,
00:45:10.894 --> 00:45:13.991
которые многократно
используют наши данные.
00:45:15.002 --> 00:45:16.638
Отдельная точка данных -- это отлично,
00:45:16.639 --> 00:45:20.163
но если вам нужно посмотреть
на онтологию и так далее,
00:45:20.164 --> 00:45:21.857
то становится очень...
00:45:22.388 --> 00:45:26.437
Я думаю, одна из больших проблем,
почему это происходит --
00:45:26.437 --> 00:45:30.736
множество правок в Викиданных
00:45:30.736 --> 00:45:34.544
касаются отдельного элемента,
00:45:34.545 --> 00:45:36.201
вы редактируете этот элемент,
00:45:37.653 --> 00:45:42.075
не понимая, что это может привести
к глобальным последствиям
00:45:42.075 --> 00:45:44.245
для остальной части графа, например.
00:45:45.356 --> 00:45:50.041
Если у людей есть идеи,
как сделать более заметными
00:45:50.041 --> 00:45:53.185
последствия таких индивидуальных
локальных правок,
00:45:54.005 --> 00:45:56.537
думаю, что их стоит изучить,
00:45:57.550 --> 00:46:01.583
чтобы лучше показать людям
последствия их правок,
00:46:01.584 --> 00:46:03.434
сделанных с добрыми намерениями,
00:46:04.481 --> 00:46:05.481
какие они.
00:46:06.939 --> 00:46:12.237
Ого! Хорошо, давайте начнём с вас,
потом вы, потом вы, затем вы.
00:46:12.237 --> 00:46:13.921
(голос из зала 4) После обсуждения,
00:46:13.922 --> 00:46:18.262
просто чтобы выразить своё согласие
с тем, что говорил Джеймс.
00:46:18.263 --> 00:46:22.467
По сути, кажется,
что самая опасная вещь -- иерархия,
00:46:22.468 --> 00:46:23.910
не иерархия, но в целом
00:46:23.911 --> 00:46:28.022
семантика связей
между подклассами в Викиданных.
00:46:28.022 --> 00:46:32.561
Я недавно изучал языки,
только для этой конференции,
00:46:32.562 --> 00:46:35.257
и, например, я нашёл много случаев,
00:46:35.257 --> 00:46:39.463
когда язык является одновременно
и частью и подклассом одного и того же.
00:46:39.463 --> 00:46:43.577
Можно сказать, что у нас гибкая онтология.
00:46:43.577 --> 00:46:46.256
Викиданные дают свободу выражения.
00:46:46.256 --> 00:46:47.257
Потому что, например,
00:46:47.258 --> 00:46:50.721
эта онтология языков сложна
с политической точки зрения.
00:46:50.722 --> 00:46:55.038
Даже хорошо иметь возможность
выразить уровень неопределённости.
00:46:55.038 --> 00:46:57.913
Но представьте, как к этому
применить машинное чтение.
00:46:57.913 --> 00:46:59.468
Действительно проблематично.
00:46:59.468 --> 00:47:00.468
И опять же,
00:47:00.469 --> 00:47:03.686
я не думаю, что онтология
была импортирована откуда-либо.
00:47:03.687 --> 00:47:05.490
Она изначально наша.
00:47:05.491 --> 00:47:08.321
Она с самого начала собрана из Википедии.
00:47:08.322 --> 00:47:11.324
Так что мне интересно...
Shape Expressions -- отличный инструмент,
00:47:11.325 --> 00:47:15.575
который проверяет и исправляет
онтологию Википедии
00:47:15.576 --> 00:47:18.191
с помощью внешних ресурсов,
прекрасная идея.
00:47:19.026 --> 00:47:20.026
В конце концов,
00:47:20.027 --> 00:47:25.440
получится ли у нас отразить
внешние онтологии в Викиданных?
00:47:25.441 --> 00:47:28.651
А также, что мы делаем
с основной частью нашей онтологии
00:47:28.652 --> 00:47:30.642
которая никогда не собирается
из внешних ресурсов,
00:47:30.643 --> 00:47:31.978
как нам исправить её?
00:47:31.979 --> 00:47:35.276
Я действительно думаю,
что это само по себе будет проблемой.
00:47:35.277 --> 00:47:40.080
Мы должны сосредоточиться на этом
независимо от идеи проверки онтологии
00:47:40.080 --> 00:47:41.916
с помощью внешнего ресурса.
00:47:49.353 --> 00:47:53.379
(голос из зала 5) Ограничения
и формы очень впечатляют,
00:47:53.380 --> 00:47:55.055
то, что мы можем сделать с ними,
00:47:55.205 --> 00:47:58.481
но главный момент
до сих пор не совсем понятен --
00:47:58.482 --> 00:48:03.229
поскольку теперь мы можем более чётко
сформулировать, чего ожидаем от данных.
00:48:03.229 --> 00:48:06.893
Сначала каждый должен написать
свои инструменты и скрипты,
00:48:06.894 --> 00:48:10.601
сделать их более наглядными,
и мы сможем обсудить это.
00:48:10.602 --> 00:48:13.641
Но речь не о том, что верно, а что нет,
00:48:13.642 --> 00:48:15.870
а об ожиданиях,
00:48:15.870 --> 00:48:18.105
и у вас будут разные ожидания и обсуждения
00:48:18.106 --> 00:48:20.737
того, как моделировать в Викиданных.
00:48:22.836 --> 00:48:26.280
Текущее состояние --
лишь один шаг в этом направлении,
00:48:26.281 --> 00:48:28.041
потому что теперь нужно
00:48:28.042 --> 00:48:31.041
привлечь много технических знаний,
00:48:31.042 --> 00:48:35.721
и нам нужны лучшие способы
визуализации этого ограничения,
00:48:35.722 --> 00:48:39.995
возможно, преобразование его
в более понятный людям язык,
00:48:40.939 --> 00:48:43.768
но в меньшей степени здесь речь о том,
что верно, а что нет.
00:48:44.925 --> 00:48:45.925
(Лидия) Да.
00:48:50.986 --> 00:48:53.893
(голос из зала 6) По поводу качества,
хочу уточнить...
00:48:53.894 --> 00:48:57.010
Я часто сталкивался с разногласиями,
00:48:58.838 --> 00:49:02.330
связанными с разницей между
экземпляром и подклассом.
00:49:02.331 --> 00:49:05.963
Я бы сказал, ошибки в таких ситуациях
00:49:05.963 --> 00:49:11.521
и попытки найти их
были очень трудоёмким процессом.
00:49:11.522 --> 00:49:12.655
То, к чему я пришёл:
00:49:12.655 --> 00:49:16.051
«Если найти впечатляющие элементы, важные,
00:49:16.051 --> 00:49:19.026
и затем использовать
все экземпляры подкласса,
00:49:19.026 --> 00:49:21.896
чтобы найти все производные
этого утверждения», --
00:49:21.896 --> 00:49:26.215
это очень полезный способ
поиска ошибок.
00:49:26.405 --> 00:49:28.897
Но мне было интересно,
00:49:28.897 --> 00:49:33.959
можно ли использовать Shape Expressions
00:49:33.959 --> 00:49:36.854
в качестве инструмента
для решения таких проблем?
00:49:40.514 --> 00:49:42.555
(голос из зала 7)
Имеет ли структурный след ...
00:49:45.910 --> 00:49:49.170
Если имеется структурный след,
который может быть сфальсифицирован,
00:49:49.170 --> 00:49:51.191
можно решить, что это неправильно,
00:49:51.192 --> 00:49:52.670
а потом сделать это.
00:49:52.671 --> 00:49:56.921
Но если это просто попытка сопоставления
с объектами реального мира,
00:49:56.922 --> 00:49:59.082
то вам потребуется очень много «мозгов».
00:50:05.768 --> 00:50:08.631
(голос из зала 8) Привет,
я Пабло Мендес из Apple Siri Knowledge.
00:50:09.154 --> 00:50:12.770
Мы здесь, чтобы узнать,
как помочь проекту и сообществу,
00:50:12.770 --> 00:50:15.645
но Кристина совершила ошибку,
спросив, чего мы хотим.
00:50:16.471 --> 00:50:20.052
(смеётся) Думаю, одна вещь,
которую хотелось бы увидеть,
00:50:20.958 --> 00:50:23.521
связана с возможностью проверки --
00:50:23.522 --> 00:50:26.372
одним из основных принципов
проекта в сообществе,
00:50:27.062 --> 00:50:28.590
а также с доверием.
00:50:28.590 --> 00:50:32.042
Не все утверждения одинаковы,
некоторые из них серьёзно оспариваются,
00:50:32.042 --> 00:50:33.443
некоторые легко предположить,
00:50:33.443 --> 00:50:35.541
например, чью-либо дату рождения
можно проверить,
00:50:36.071 --> 00:50:39.882
как вы видели сегодня в основном докладе,
гендерные проблемы намного сложнее.
00:50:40.205 --> 00:50:42.560
Можете ли вы немного
рассказать о том, что вы знаете
00:50:42.560 --> 00:50:47.271
о доверии и проверках --
этих аспектах качества данных?
00:50:55.442 --> 00:50:58.138
Если этого не много,
хотелось бы намного больше. (смеётся)
00:51:00.646 --> 00:51:01.646
(Лидия) Да.
00:51:03.314 --> 00:51:06.548
Как выяснилось,
нам нечего сказать. (смеётся)
00:51:08.024 --> 00:51:12.299
(Андра) Я думаю, мы можем сделать многое,
но у нас с вами вчера была дискуссия.
00:51:12.300 --> 00:51:15.774
Мой любимый пример,
как я выяснил вчера, уже устарел.
00:51:15.774 --> 00:51:20.281
Если вы зайдёте
на страницу элемента Q2, это Земля,
00:51:20.282 --> 00:51:23.343
там есть утверждение, что Земля плоская.
00:51:24.183 --> 00:51:26.055
Я люблю этот пример,
00:51:26.056 --> 00:51:28.391
потому что есть сообщество,
которое это утверждает,
00:51:28.392 --> 00:51:30.417
и у них есть достоверные источники.
00:51:30.418 --> 00:51:32.254
Так что я думаю, это реальный случай,
00:51:32.255 --> 00:51:34.641
его не нужно оспаривать,
он должен быть в Викиданных.
00:51:34.642 --> 00:51:40.385
Я думаю, здесь Shape Expressions
может быть действительно полезен,
00:51:40.386 --> 00:51:44.857
потому что вам действительно
может быть интересен этот прецедент,
00:51:44.857 --> 00:51:47.129
или этот вариант использования,
с которым вы не согласны,
00:51:47.130 --> 00:51:49.799
но может быть и такой
случай применения,
00:51:49.799 --> 00:51:51.059
который вас заинтересует.
00:51:51.059 --> 00:51:53.449
Например, глюкоза.
00:51:53.449 --> 00:51:56.841
Биологу не интересно
00:51:56.841 --> 00:52:00.177
строение молекулы глюкозы,
00:52:00.177 --> 00:52:03.201
для него вся глюкоза одинаковая.
00:52:03.202 --> 00:52:05.973
Но химика подобное покоробит,
00:52:05.973 --> 00:52:08.191
существует 200 с лишним...
00:52:08.191 --> 00:52:10.443
Когда у вас есть разные выражения формы,
00:52:10.443 --> 00:52:13.887
я могу их применить с точки зрения химика.
00:52:13.887 --> 00:52:16.691
А с точки зрения биолога
00:52:16.691 --> 00:52:18.524
я применяю другое выражение формы.
00:52:18.524 --> 00:52:20.358
А если вы хотите сотрудничать,
00:52:20.358 --> 00:52:22.784
вы должны сказать Эрику о картах ShEx.
00:52:25.510 --> 00:52:28.873
Но это только начало пути.
00:52:28.873 --> 00:52:32.238
Но я лично верю,
что это весьма полезно для этой области.
00:52:34.292 --> 00:52:35.535
(Лидия) Вон там.
00:52:37.949 --> 00:52:39.168
(смех)
00:52:40.597 --> 00:52:46.035
(голос из зала 9) У меня несколько идей
по некоторым моментам обсуждения,
00:52:46.035 --> 00:52:50.902
постараюсь озвучить все.
Было три идеи, так что...
00:52:52.394 --> 00:52:55.201
Основываясь на том, что Джеймс сказал
некоторое время назад,
00:52:55.202 --> 00:52:59.001
у Викиданных с самого начала
была очень большая проблема
00:52:59.002 --> 00:53:01.574
в онтологии вышестоящего уровня.
00:53:02.363 --> 00:53:05.339
Мы говорили об этом
два года назад на WikidataCon,
00:53:05.340 --> 00:53:07.432
и мы говорили об этом на Викимании.
00:53:07.432 --> 00:53:09.818
На всех встречах по Викиданным
00:53:09.818 --> 00:53:11.656
мы говорим об этом,
00:53:11.656 --> 00:53:15.782
потому что это очень большая проблема
на очень высоком уровне --
00:53:15.783 --> 00:53:22.418
что такое сущность, работа,
что такое жанр, искусство, --
00:53:23.118 --> 00:53:25.461
все эти понятия очень важны.
00:53:27.215 --> 00:53:33.117
И на самом деле это слабое место
глобальной онтологии,
00:53:33.118 --> 00:53:37.453
потому что люди регулярно наводят порядок
00:53:38.017 --> 00:53:41.047
и тем самым всё ломают.
00:53:42.516 --> 00:53:48.649
Некоторые из вас помнят парня,
который из добрых намерений
00:53:48.649 --> 00:53:51.785
«сломал» все города мира.
00:53:51.785 --> 00:53:57.537
Элементы стали не географическими,
везде были нарушения ограничений.
00:53:58.720 --> 00:54:00.278
Это было сделано из добрых побуждений,
00:54:00.278 --> 00:54:03.623
ведь он действительно
исправлял ошибку в элементе,
00:54:04.170 --> 00:54:05.732
но всё сломалось.
00:54:06.349 --> 00:54:09.373
Я не уверена, как мы можем решить это,
00:54:10.216 --> 00:54:13.390
поскольку нет ни одного
внешнего учреждения,
00:54:13.390 --> 00:54:15.710
у которого мы могли бы скопировать,
00:54:15.710 --> 00:54:19.030
потому что все работают...
00:54:19.154 --> 00:54:22.041
Если я работаю с базой данных
исполнительского искусства,
00:54:22.042 --> 00:54:24.601
я просто перейду на уровень
исполнительского искусства,
00:54:24.601 --> 00:54:29.361
я не буду переходить
к философской концепции сущности,
00:54:29.362 --> 00:54:31.201
и это, на самом деле...
00:54:31.202 --> 00:54:34.561
Я не знаю ни одной базы данных,
работающей на этом уровне,
00:54:34.562 --> 00:54:36.827
но это самое слабое место Викиданных.
00:54:37.936 --> 00:54:40.812
Вероятно, когда мы говорим
о качестве данных,
00:54:40.812 --> 00:54:44.034
это является важным аспектом.
00:54:44.034 --> 00:54:48.569
Я думаю, это то же самое,
что мы заявили...
00:54:48.569 --> 00:54:50.452
Простите, я меняю тему,
00:54:51.401 --> 00:54:55.774
но на разных сессиях
мы говорили о качестве.
00:54:55.774 --> 00:54:59.398
На самом деле некоторые из нас
могут хорошо моделировать,
00:54:59.399 --> 00:55:01.240
работают с ShEx и так далее.
00:55:01.967 --> 00:55:07.655
Люди не видят этого в Викиданных,
они не видят ShEx,
00:55:07.655 --> 00:55:10.392
они не видят Вики-проект
на странице обсуждения,
00:55:10.393 --> 00:55:11.393
и иногда
00:55:11.394 --> 00:55:14.958
они даже не видят
страницы обсуждения свойств,
00:55:14.958 --> 00:55:19.628
которые чётко заявляют,
для чего используется конкретное свойство.
00:55:19.628 --> 00:55:23.887
Например, на прошлой неделе,
я добавила ограничение для свойства.
00:55:23.888 --> 00:55:26.324
Ограничение было чётко прописано
00:55:26.325 --> 00:55:28.690
в обсуждении создания свойства.
00:55:28.690 --> 00:55:34.548
Я просто добавила ограничение,
а кто-то возмутился:
00:55:34.548 --> 00:55:37.182
«Что? Ты сломала все мои правки!»
00:55:37.183 --> 00:55:41.542
Последние два года человек использовал
это свойство неправильно.
00:55:41.542 --> 00:55:46.868
Свойство было очень чёткое,
но не было никаких предупреждений,
00:55:46.869 --> 00:55:48.715
как и в Pink Pony,
00:55:48.715 --> 00:55:52.172
мы также сказали на Викимании,
что хотим делать Вики-проекты
00:55:52.172 --> 00:55:54.719
более наглядными,
делать ShEx более наглядным, но...
00:55:54.719 --> 00:55:56.917
Это то, что сказала Кристина.
00:55:56.917 --> 00:56:02.368
У нас проблема с визуализацией
существующих решений.
00:56:02.368 --> 00:56:04.242
На этой сессии
00:56:04.242 --> 00:56:06.862
мы все говорим о том,
как создать больше выражений формы,
00:56:06.863 --> 00:56:10.727
или облегчить работу редакторов.
00:56:11.605 --> 00:56:15.835
Но мы наводим порядок
с первого дня существования Викиданных,
00:56:15.836 --> 00:56:20.921
и, на глобальном уровне, мы проигрываем,
00:56:20.922 --> 00:56:22.960
поскольку, насколько я знаю,
имена сложные,
00:56:22.961 --> 00:56:26.162
но я единственная, кто их редактирует.
00:56:26.662 --> 00:56:29.671
Кто-то добавил имя на латинице
00:56:29.672 --> 00:56:31.584
всем китайским исследователям --
00:56:32.088 --> 00:56:35.616
мне понадобятся месяцы,
чтобы убрать это, и сама я не справлюсь,
00:56:35.616 --> 00:56:38.777
а он сделал массовую выгрузку.
00:56:39.462 --> 00:56:44.158
Проблем с визуализацией больше,
чем с инструментами, я думаю,
00:56:44.158 --> 00:56:45.733
поскольку у нас много инструментов.
00:56:45.733 --> 00:56:50.255
(Лидия) К сожалению,
мне дали знак, (смеётся),
00:56:50.256 --> 00:56:52.121
поэтому нам нужно заканчивать.
00:56:52.122 --> 00:56:53.563
Большое спасибо за ваши комментарии,
00:56:53.563 --> 00:56:56.611
надеюсь, вы продолжите обсуждение позже,
00:56:56.611 --> 00:56:57.840
и спасибо за ваш вклад.
00:56:58.359 --> 00:56:59.944
(аплодисменты)
00:57:04.108 --> 00:57:07.008
WikidataCon 2019
Викиданные и языки