0:00:00.000,0:00:02.310
Качество данных[br]Панельная дискуссия
0:00:02.310,0:00:03.945
Клаудиа Мюллер-Бирн, Лукас Веркмейстер,
0:00:03.945,0:00:05.945
Хосе Эмилио Лабра Гайо,[br]Кристина Сарасуа, Андра
0:00:05.945,0:00:09.476
Приветствую всех на панельной дискуссии,[br]посвящённой качеству данных.
0:00:10.288,0:00:13.671
Качество данных имеет большое значение,[br]ведь всё больше и больше людей
0:00:13.672,0:00:16.779
полагаются на хорошее качество данных,
0:00:16.779,0:00:19.323
о чём мы сегодня и поговорим.
0:00:21.229,0:00:26.960
Будет четыре докладчика, которые выступят[br]с небольшими презентациями на темы,
0:00:26.960,0:00:29.539
связанные с качеством данных,[br]а далее будут вопросы и ответы.
0:00:30.130,0:00:32.234
Начнём с Лукаса.
0:00:34.385,0:00:35.385
Спасибо.
0:00:35.901,0:00:39.899
Привет, я Лукас,[br]и я начну с краткого обзора
0:00:39.899,0:00:43.806
инструментов качества данных,[br]которые уже имеются в Викиданных,
0:00:43.807,0:00:46.109
и тех, которые скоро появятся.
0:00:46.932,0:00:50.623
Я выделил несколько общих тем:
0:00:50.623,0:00:53.761
визуализация ошибок,[br]решаемость проблем,
0:00:53.762,0:00:56.322
больше внимания данным[br]с целью выявления проблем,
0:00:56.945,0:01:00.206
исправление общих источников ошибок,
0:01:00.206,0:01:02.616
обеспечение качества существующих данных,
0:01:02.616,0:01:03.966
а также курирование.
0:01:05.063,0:01:07.868
Что у нас есть сейчас?
0:01:07.868,0:01:09.948
Начнём с ограничения свойств.
0:01:10.318,0:01:12.541
Вы наверняка видели это,[br]когда заходили на Викиданные.
0:01:12.541,0:01:14.029
Иногда можно видеть эти иконки,
0:01:14.530,0:01:17.241
которые проверяют[br]внутреннюю согласованность данных.
0:01:17.242,0:01:20.800
Например, если одно событие[br]следует за другим,
0:01:20.801,0:01:23.760
то за другим должно последовать[br]и это событие,
0:01:23.761,0:01:27.161
элемент WikidataCon,[br]который, похоже, отсутствует.
0:01:27.162,0:01:29.740
Это появилось пару дней назад.
0:01:30.040,0:01:34.681
Если этого для вас недостаточно,
0:01:34.682,0:01:38.080
вы можете ввести любой запрос,[br]используя сервис запросов,
0:01:38.081,0:01:39.842
который, конечно,[br]полезен для многих вещей,
0:01:39.843,0:01:44.543
но также его можно использовать[br]для поиска ошибок.
0:01:44.544,0:01:46.974
Например, если вы заметили[br]какую-то ошибку,
0:01:46.975,0:01:49.709
вы можете проверить, есть ли ещё места,
0:01:49.710,0:01:51.658
где люди допустили похожие ошибки,
0:01:51.658,0:01:53.438
и найти их с помощью сервиса запросов.
0:01:53.439,0:01:55.199
Также можно совместить[br]эти два инструмента
0:01:55.199,0:01:57.874
и искать нарушения ограничений,
0:01:57.875,0:02:01.240
например, нарушения в какой-то области
0:02:01.241,0:02:03.762
или нужном вам Вики-проекте,
0:02:03.762,0:02:06.828
хотя результаты пока неполные,[br]к сожалению.
0:02:08.422,0:02:09.877
Оценивание правок.
0:02:10.690,0:02:12.666
Я думаю, это из последних изменений.
0:02:12.667,0:02:16.217
Также можете добавить в свой[br]список наблюдения автоматическую оценку:
0:02:16.217,0:02:20.249
сделана ли правка[br]с добрыми намерениями или нет,
0:02:20.250,0:02:22.312
нанесёт ли она ущерб или нет.
0:02:22.313,0:02:24.205
Думаю, здесь два направления.
0:02:24.206,0:02:25.686
Если хотите, вы можете
0:02:25.687,0:02:28.458
сосредоточиться на поиске правок[br]с добрыми намерениями,
0:02:28.458,0:02:29.828
наносящих ущерб.
0:02:29.899,0:02:32.523
Если вы дружелюбны и вежливы,
0:02:32.524,0:02:37.121
можете написать этим редакторам:[br]«Спасибо за ваш вклад,
0:02:37.122,0:02:40.560
вот, как это следует делать,[br]но всё равно спасибо».
0:02:40.561,0:02:42.186
Если вы не хотите так делать,
0:02:42.187,0:02:44.132
можно найти правки[br]с недобрыми намерениями,
0:02:44.132,0:02:45.132
наносящие ущерб,
0:02:45.132,0:02:46.293
и откатить их назад.
0:02:47.544,0:02:49.761
Подобно этому есть рейтинг сущностей.
0:02:49.762,0:02:52.590
Вместо оценивания правки,[br]последующего за ней изменения,
0:02:52.591,0:02:53.904
вы оцениваете ревизию в целом.
0:02:53.904,0:02:56.483
Я думаю, это такой же инструмент[br]измерения качества,
0:02:56.483,0:02:59.863
о котором говорила Лидия[br]в начале конференции.
0:03:00.372,0:03:04.569
Вот здесь скрипт, который ставит[br]оценку от одного до пяти.
0:03:04.570,0:03:08.176
Он оценивает качество текущего элемента.
0:03:10.043,0:03:12.538
Инструмент проверки[br]первичных источников предназначен
0:03:12.538,0:03:14.857
для любой базы данных,[br]которую вы хотите импортировать,
0:03:14.857,0:03:18.374
но качество её данных не настолько высоко,[br]чтобы напрямую добавлять её в Викиданные,
0:03:18.374,0:03:20.335
поэтому вы добавляете базу[br]в этот инструмент,
0:03:20.336,0:03:22.956
после чего люди могут решить,
0:03:22.956,0:03:26.024
добавлять или не добавлять[br]отдельные утверждения.
0:03:28.595,0:03:30.363
Отображение координат в виде карт --
0:03:30.363,0:03:31.901
в основном, функция для удобства,
0:03:31.901,0:03:33.588
но она также полезна[br]для контроля качества.
0:03:33.588,0:03:36.937
Например, если вы видите, что здесь[br]должен быть офис Викимедиа Германии,
0:03:36.938,0:03:39.400
а координаты[br]где-то в Индийском океане,
0:03:39.401,0:03:41.529
то вы понимаете, что это неверный адрес,
0:03:41.530,0:03:44.790
и вам легче это заметить,[br]чем если бы у вас были только цифры.
0:03:46.382,0:03:49.576
Этот инструмент -- индикатор[br]относительной полноты.
0:03:49.577,0:03:52.480
Вот эта маленькая иконка здесь,
0:03:53.007,0:03:55.652
которая сообщает, насколько полно[br]описан конкретный элемент,
0:03:55.652,0:03:57.613
и каких свойств не хватает.
0:03:57.614,0:03:59.769
Это очень полезно,[br]если вы редактируете элемент
0:03:59.769,0:04:03.172
и не очень ориентируетесь в данной сфере
0:04:03.172,0:04:05.661
и не знаете,[br]какие свойства нужно указывать,
0:04:05.662,0:04:08.230
тогда этот инструмент будет очень полезен.
0:04:09.604,0:04:11.602
Также мы используем[br]инструмент Shape Expressions.
0:04:11.602,0:04:15.624
Думаю, Андра или Хосе[br]расскажут об этом больше,
0:04:15.624,0:04:20.508
но, по сути, это очень мощный способ[br]сравнения имеющихся данных со схемой,
0:04:20.508,0:04:22.058
например, какое утверждение
0:04:22.058,0:04:23.470
должны иметь определённые сущности,
0:04:23.470,0:04:25.229
с какими сущностями[br]они должны быть связаны
0:04:25.229,0:04:26.229
и как должны выглядеть.
0:04:26.229,0:04:29.374
Таким образом вы сможете[br]находить проблемы.
0:04:30.366,0:04:32.361
Я думаю... Нет, ещё не всё.
0:04:32.362,0:04:34.321
Integraality, или панель свойств.
0:04:34.322,0:04:36.773
На ней видны данные,[br]которые у вас уже есть.
0:04:36.774,0:04:39.147
Например, эти данные[br]из Вики-проекта о красных пандах,
0:04:39.657,0:04:41.181
и вы видите,
0:04:41.181,0:04:43.561
что у большинства красных панд[br]известен пол,
0:04:43.561,0:04:46.854
дата рождения зависит от зоопарка,
0:04:46.854,0:04:50.255
и у нас почти нет погибших панд,[br]что замечательно,
0:04:50.346,0:04:51.346
(смех)
0:04:51.437,0:04:52.600
потому что они такие милые.
0:04:53.699,0:04:55.654
Так что это тоже полезно.
0:04:56.377,0:04:59.185
Теперь о том, что ожидается.
0:04:59.889,0:05:03.784
Wikidata Bridge,[br]ранее известный как client editing
0:05:03.785,0:05:07.076
для редактирования Викиданных[br]прямо из карточек Википедии.
0:05:07.675,0:05:11.395
Это, с одной стороны,[br]позволит лучше контролировать данные,
0:05:11.395,0:05:13.441
так как их сможет увидеть[br]большее число людей,
0:05:13.441,0:05:15.851
и, мы надеемся, будет способствовать
0:05:15.851,0:05:18.795
более частому использованию[br]Викиданных в Википедии,
0:05:18.841,0:05:20.920
и это значит, большее число людей[br]сможет заметить,
0:05:20.921,0:05:23.547
что, например, некоторые данные устарели[br]и должны быть обновлены,
0:05:23.547,0:05:27.000
чем если бы они видели эти данные[br]только в Викиданных.
0:05:28.630,0:05:30.656
Также есть испорченные ссылки.
0:05:30.657,0:05:33.959
Идея в том, что если вы редактируете[br]значение утверждения,
0:05:34.683,0:05:37.279
вы также можете обновить и ссылки,
0:05:37.280,0:05:39.373
если это не просто опечатка[br]или что-то ещё.
0:05:39.897,0:05:43.662
Эти испорченные ссылки[br]сигнализируют редакторам
0:05:43.663,0:05:49.756
и дают возможность увидеть,[br]какие другие правки были сделаны,
0:05:49.756,0:05:52.641
где отредактировали значение утверждения,[br]но не обновили ссылку,
0:05:52.641,0:05:55.147
и вы можете всё подредактировать
0:05:55.147,0:05:59.566
и решить, следует ли ещё что-то делать,
0:05:59.566,0:06:02.796
или всё в порядке,[br]и ссылку обновлять не нужно.
0:06:03.543,0:06:05.756
Перейдём к подписанным утверждениям.
0:06:05.756,0:06:09.336
Я думаю, это связано с тем опасением,
0:06:09.336,0:06:12.355
что некоторые источники данных...
0:06:13.881,0:06:16.462
Есть утверждение, на которое ссылаются,[br]например, через ЮНЕСКО
0:06:16.462,0:06:17.792
или какое-то другое учреждение,
0:06:17.792,0:06:20.382
а потом кто-то неожиданно[br]вносит вандальные правки,
0:06:20.382,0:06:22.306
и они переживают, что это будет выглядеть,
0:06:22.827,0:06:26.992
как будто организация,[br]например, ЮНЕСКО, принимает эти правки.
0:06:26.993,0:06:28.706
В случае с подписанными утверждениями,
0:06:28.706,0:06:31.488
они могут криптографически[br]подписать эту ссылку,
0:06:31.488,0:06:33.562
и это не помешает её редактированию,
0:06:34.169,0:06:37.284
но если кто-то внесёт в утверждение[br]вандальные правки
0:06:37.284,0:06:40.255
или любые другие, [br]подпись будет недействительна,
0:06:40.255,0:06:43.401
и это уже не совсем то,[br]что утверждает организация.
0:06:43.402,0:06:45.035
Возможно, это хорошая правка,
0:06:45.035,0:06:47.065
и нужно просто переподписать[br]новое утверждение,
0:06:47.065,0:06:49.851
но, возможно, правку следует отменить.
0:06:51.203,0:06:54.166
Думаю, это будет увлекательно.
0:06:54.166,0:06:56.846
Citoid -- удивительная система,[br]которая есть в Википедии,
0:06:57.379,0:07:01.340
где вы можете вставить URL,[br]идентификатор или ISBN
0:07:01.340,0:07:04.759
или идентификатор Викиданных,[br]в общем, что угодно в визуальный редактор,
0:07:05.260,0:07:08.241
и это трансформируется[br]в красиво отформатированную ссылку,
0:07:08.242,0:07:11.269
которая содержит все нужные вам данные,[br]и ей легко пользоваться.
0:07:11.269,0:07:14.337
Для сравнения, если я хочу[br]добавить ссылку в Викиданных,
0:07:14.338,0:07:18.801
я обычно должен добавить URL ссылки,[br]название, строку с именем автора,
0:07:18.802,0:07:20.449
место и дату публикации,
0:07:20.450,0:07:24.141
даты получения --[br]по крайней мере, всё это --
0:07:24.141,0:07:25.141
и это очень утомительно,
0:07:25.141,0:07:29.261
а интеграция Citoid в Викибазу[br]должна помочь в этом.
0:07:30.245,0:07:33.604
Думаю, у меня всё.
0:07:33.604,0:07:36.400
Сейчас передаю слово Кристине.
0:07:37.510,0:07:40.581
(аплодисменты)
0:07:40.581,0:07:43.326
Как можно улучшить[br]управление качеством данных?
0:07:43.711,0:07:45.471
Привет, я Кристина.
0:07:45.472,0:07:47.672
Я научный сотрудник[br]Цюрихского университета
0:07:47.673,0:07:51.417
и активный член[br]швейцарского Вики-сообщества.
0:07:52.698,0:07:57.901
Когда мы вместе с Клаудией Мюллер-Бирн[br]отправляли наш доклад на WikidataCon,
0:07:57.902,0:08:00.410
мы хотели продолжить обсуждение,
0:08:00.411,0:08:02.424
начатое в этом году
0:08:02.424,0:08:07.442
на семинаре по качеству данных,[br]а также на нескольких сессиях Викимании.
0:08:07.442,0:08:10.535
В своём выступлении мы, в основном,[br]поделимся некоторыми соображениями
0:08:10.536,0:08:14.432
как сообщества, так и нашими,
0:08:14.432,0:08:16.560
и продолжим обсуждение.
0:08:16.561,0:08:20.065
Нам хотелось бы и дальше[br]активно общаться с вами.
0:08:21.557,0:08:23.371
Мы считаем, что очень важно
0:08:23.372,0:08:27.580
постоянно спрашивать[br]всех пользователей сообщества
0:08:27.581,0:08:32.240
о том, что им действительно нужно,[br]какие у них проблемы с качеством данных,
0:08:32.240,0:08:35.000
не только редакторов[br]но и людей, которые пишут код,
0:08:35.000,0:08:36.241
либо пользуются данными,
0:08:36.242,0:08:38.434
а также исследователей,[br]которые фактически используют
0:08:38.434,0:08:40.800
всю историю редактирования[br]для анализа происходящего.
0:08:42.367,0:08:46.101
Мы сделали обзор[br]примерно 80-ти инструментов,
0:08:46.101,0:08:48.386
существующих в Викиданных,
0:08:48.431,0:08:52.380
и привели их в соответствие[br]с разными показателями качества данных.
0:08:52.380,0:08:54.360
Мы увидели, что на самом деле
0:08:54.361,0:08:57.681
многие инструменты[br]отслеживают полноту,
0:08:57.681,0:09:02.820
а также некоторые из них поддерживают[br]взаимосвязи между данными.
0:09:02.820,0:09:08.442
Есть потребность в инструментах,[br]оценивающих разнообразие данных --
0:09:08.443,0:09:12.824
то, что мы можем иметь в Викиданных,
0:09:12.824,0:09:15.958
в особенности, этот принцип[br]разработки Викиданных,
0:09:15.959,0:09:17.901
в котором мы можем иметь[br]множественность --
0:09:17.902,0:09:20.308
разные утверждения[br]с разными значениями
0:09:20.784,0:09:22.236
из разных источников.
0:09:22.236,0:09:24.921
Поскольку это вторичный источник,[br]у нас нет инструментов,
0:09:24.922,0:09:27.750
сообщающих, сколько существует[br]множественных утверждений,
0:09:27.751,0:09:30.889
сколько из них мы можем улучшить[br]и каким образом,
0:09:30.890,0:09:32.833
и мы также точно не знаем,
0:09:32.833,0:09:35.538
в чём причина этой множественности.
0:09:36.491,0:09:39.201
На этих собраниях сообщества
0:09:39.201,0:09:43.084
мы обсуждали проблемы,[br]всё ещё требующие внимания.
0:09:43.084,0:09:46.499
Например, краудсорсинговые сообщества --
0:09:46.499,0:09:49.293
это очень хорошо,[br]потому что разные люди работают
0:09:49.293,0:09:51.833
с разными частями данных или графа,
0:09:51.834,0:09:54.615
у всех людей разные[br]фундаментальные знания.
0:09:54.616,0:09:59.161
Но на самом деле[br]очень трудно достичь однородности,
0:09:59.162,0:10:04.920
потому что люди используют[br]разные свойства по-разному,
0:10:04.920,0:10:08.401
и у них разные ожидания[br]от описаний сущностей.
0:10:09.003,0:10:12.721
Люди также сказали,[br]что им нужно больше инструментов,
0:10:12.722,0:10:16.000
которые дают лучший обзор[br]глобального статуса сущностей,
0:10:16.000,0:10:20.733
показывают, каких сущностей не хватает[br]с точки зрения полноты,
0:10:20.733,0:10:26.121
а также над чем сейчас работают люди.
0:10:26.121,0:10:30.516
Они также многократно упоминают[br]более тесное сотрудничество
0:10:30.517,0:10:33.311
не только между разными языками,[br]но и Вики-проектами
0:10:33.311,0:10:35.571
и различным платформами Викимедии.
0:10:35.571,0:10:40.029
Мы опубликовали все комментарии,[br]которые услышали во время этих обсуждений.
0:10:40.029,0:10:42.959
Вы можете посмотреть их,[br]пройдя по ссылкам в Etherpad,
0:10:42.959,0:10:46.162
а также на странице Викимании.
0:10:46.162,0:10:48.481
Некоторые новые решения
0:10:48.481,0:10:53.001
заключались в обмене лучшими практиками,
0:10:53.001,0:10:55.762
которые реализуются[br]в разных Вики-проектах,
0:10:55.762,0:11:01.238
но также людям нужны инструменты,[br]помогающие организовать работу в командах
0:11:01.239,0:11:03.845
или, по крайней мере,[br]понять, кто над этим работает.
0:11:03.845,0:11:07.815
Также люди упоминали,[br]что они хотят больше примеров
0:11:07.816,0:11:12.019
и шаблонов, которые помогут в работе.
0:11:12.946,0:11:14.163
У нас есть контакты
0:11:14.163,0:11:18.721
с организациями открытых[br]государственных данных
0:11:18.722,0:11:20.068
и, в частности,
0:11:20.068,0:11:23.102
я поддерживаю контакты[br]с кантоном и городом Цюрих.
0:11:23.102,0:11:26.207
Они очень заинтересованы в Викиданных,
0:11:26.207,0:11:29.896
потому что хотят, чтобы их данные[br]были доступны для всех
0:11:29.897,0:11:33.681
в таком месте, где люди[br]могут ознакомиться c этими данными.
0:11:33.682,0:11:36.550
Для них было бы действительно интересно
0:11:36.551,0:11:38.600
иметь какие-то качественные показатели
0:11:38.600,0:11:41.082
как в Вики, они уже есть,
0:11:41.082,0:11:42.801
но и в результатах SPARQL,
0:11:42.802,0:11:46.066
чтобы знать, доверять ли данным,[br]полученным от сообщества.
0:11:46.067,0:11:48.230
Они также хотят знать,
0:11:48.230,0:11:51.417
какие из их наборов данных[br]полезны для Викиданных,
0:11:51.418,0:11:53.091
и чтобы был такой инструмент,
0:11:53.091,0:11:56.041
который поможет им[br]оценивать это автоматически.
0:11:56.041,0:11:59.066
Им также нужна[br]какая-то методология или инструмент,
0:11:59.067,0:12:01.404
который бы помог им решить,
0:12:01.404,0:12:03.644
импортировать свои данные[br]или связывать их с Викиданными,
0:12:03.644,0:12:05.994
поскольку в некоторых случаях[br]у них есть свои наборы
0:12:05.994,0:12:07.137
связанных открытых данных,
0:12:07.138,0:12:09.746
поэтому они не знают,[br]публиковать эти данные
0:12:09.746,0:12:13.424
или создавать в наборах данных[br]ссылки на Викиданные
0:12:13.425,0:12:14.425
и наоборот.
0:12:14.950,0:12:20.044
Они также хотят знать, какие элементы[br]Викиданных ссылаются на их сайты.
0:12:20.044,0:12:22.790
Когда они делают такой запрос,
0:12:22.790,0:12:24.848
он остаётся без ответа[br]с истёкшим временем ожидания,
0:12:24.849,0:12:28.181
поэтому, возможно, нам действительно[br]стоит создавать больше инструментов,
0:12:28.181,0:12:32.240
которые помогут им получить[br]ответы на их вопросы.
0:12:33.148,0:12:36.208
Кроме того,
0:12:36.208,0:12:38.491
нам, вики-исследователям,
0:12:38.491,0:12:42.023
тоже иногда не хватает информации[br]в описаниях изменений.
0:12:42.024,0:12:44.953
Я помню, что когда[br]мы делали какую-то работу,
0:12:44.954,0:12:47.479
чтобы понять различное поведение
0:12:47.479,0:12:50.319
редакторов, ботов[br]или анонимных пользователей
0:12:50.319,0:12:53.403
с помощью инструментов,
0:12:53.403,0:12:56.154
нам действительно не хватало, например,
0:12:56.154,0:13:01.112
стандартного способа отслеживания[br]использования этих инструментов.
0:13:01.113,0:13:03.224
Есть несколько инструментов,[br]которые уже делают это,
0:13:03.224,0:13:05.230
например, PetScan и многие другие,
0:13:05.230,0:13:08.860
но, возможно, в сообществе[br]мы должны больше обсуждать,
0:13:08.860,0:13:13.611
как фиксировать более точное[br]происхождение данных.
0:13:14.169,0:13:16.111
Далее, мы полагаем,
0:13:16.111,0:13:20.801
что нужно подумать о более конкретных[br]показателях качества данных,
0:13:20.802,0:13:24.961
относящихся к связанным данным,[br]а не ко всем типам данных,
0:13:24.962,0:13:28.602
поэтому мы разрабатываем комплекс мер
0:13:28.602,0:13:31.752
для получения доступа[br]к приросту информации по ссылкам,
0:13:31.752,0:13:33.881
подразумевая то,
0:13:33.882,0:13:36.681
что когда мы связываем[br]Викиданные с другими наборами данных,
0:13:36.682,0:13:38.201
мы также должны думать о том,
0:13:38.202,0:13:41.921
сколько сущностей[br]получается в классификации,
0:13:41.922,0:13:45.601
описании и в словарях,[br]которыми они пользуются.
0:13:45.602,0:13:51.041
Просто для примера, что я имею в виду:
0:13:51.042,0:13:54.269
в нашем случае это будут Викиданные
0:13:54.270,0:13:57.771
или внешний набор данных,[br]который ссылается на Викиданные.
0:13:57.772,0:14:00.487
У нас есть сущность для человека[br]по имени Наташа Ной,
0:14:00.487,0:14:02.601
у нас есть принадлежность и другие вещи,
0:14:02.602,0:14:05.239
а затем мы ссылаемся на внешний источник,
0:14:05.240,0:14:08.919
и эта сущность с таким же именем,[br]но значение одно и то же.
0:14:08.920,0:14:12.889
Лучше сослаться на сущность[br]с другим действительным именем,
0:14:12.889,0:14:16.881
потому что имя этого человека[br]может быть написано двумя способами,
0:14:16.882,0:14:19.714
а также на другую информацию,[br]отсутствующую в Викиданных
0:14:19.715,0:14:21.760
или других наборах данных.
0:14:22.390,0:14:24.652
Лучше даже то,
0:14:24.653,0:14:27.770
что мы рассматриваем целевой набор данных,
0:14:27.770,0:14:31.392
что также существуют новые способы[br]классификации информации.
0:14:31.393,0:14:35.354
Не только то, что это человек,[br]но в другом наборе данных
0:14:35.355,0:14:38.061
сообщается, что это женщина,[br]или другая информация,
0:14:38.061,0:14:39.526
с которой классифицируется сущность.
0:14:39.526,0:14:43.401
В другом наборе данных[br]используются другие словари,
0:14:43.402,0:14:46.588
и это помогает при поиске информации.
0:14:48.291,0:14:51.233
Мы также считаем,
0:14:51.234,0:14:55.809
что можем более наглядно представлять[br]федеративные запросы,
0:14:55.810,0:15:00.448
потому что по журналу запросов,[br]предоставленному Малышевым и др.,
0:15:01.285,0:15:04.301
мы видим, что на самом деле[br]среди органических запросов
0:15:04.302,0:15:06.921
число федеративных запросов[br]очень небольшое.
0:15:06.922,0:15:09.151
На самом деле, федерация является
0:15:09.151,0:15:12.776
одним из ключевых преимуществ[br]наличия связанных данных,
0:15:12.802,0:15:16.903
так что, возможно, сообществу или людям,[br]которые пользуются Викиданными,
0:15:16.903,0:15:18.898
тоже нужно больше примеров.
0:15:18.898,0:15:22.666
Если мы посмотрим на список[br]используемых точек доступа,
0:15:22.667,0:15:25.401
он будет неполным,[br]у нас есть намного больше.
0:15:25.402,0:15:30.479
Эти данные были проанализированы[br]по запросам до марта 2018 года,
0:15:30.480,0:15:34.807
но мы должны проверить список[br]имеющихся объединённых точек доступа
0:15:34.808,0:15:37.048
и посмотреть,[br]действительно ли мы их используем.
0:15:37.813,0:15:40.361
У меня есть два вопроса к зрителям,
0:15:40.361,0:15:43.081
которые, возможно, мы впоследствии[br]можем использовать для обсуждения:
0:15:43.081,0:15:46.001
какие, на ваш взгляд, проблемы[br]с качеством данных нужно рассмотреть,
0:15:46.002,0:15:47.412
учитывая ваши потребности,
0:15:47.412,0:15:50.401
а также, где вам нужно[br]больше автоматизации --
0:15:50.402,0:15:52.943
при редактировании или патрулировании?
0:15:53.866,0:15:55.146
Это всё, большое спасибо.
0:15:55.779,0:15:57.527
(аплодисменты)
0:16:04.091,0:16:05.538
WikidataCon 2019[br]Викиданные и языки
0:16:05.538,0:16:07.603
Визуализация схемы сущности[br]и авторские инструменты
0:16:07.603,0:16:10.105
(Хосе Эмилио Лабра) Я расскажу[br]о некоторых инструментах,
0:16:10.105,0:16:12.606
которые мы разработали,
0:16:12.606,0:16:15.536
связанных с Shape Expressions.
0:16:15.536,0:16:19.371
Об этом я буду говорить.[br]Меня зовут Хосе Эмилио Лабра.
0:16:19.371,0:16:23.215
Все эти инструменты[br]были разработаны разными людьми,
0:16:23.920,0:16:26.780
в основном все они связаны[br]с сообществом W3C ShEx,
0:16:26.780,0:16:29.481
или сообществом Shape Expressions.
0:16:30.144,0:16:36.081
Первый инструмент -- RDFShape,[br]это общий инструмент,
0:16:36.082,0:16:40.681
потому что Shape Expressions[br]используется не только для Викиданных,
0:16:40.682,0:16:44.168
это язык для проверки RDF в целом.
0:16:44.168,0:16:47.568
Этот инструмент был разработан[br]в основном мной,
0:16:47.568,0:16:50.880
и это инструмент для проверки RDF.
0:16:50.881,0:16:55.139
Если вы хотите узнать о RDF[br]или проверить RDF
0:16:55.140,0:16:58.621
или точки доступа SPARQL[br]не только в Викиданных,
0:16:58.622,0:17:00.891
я советую вам пользоваться[br]этим инструментом.
0:17:00.891,0:17:03.255
В том числе и для обучения.
0:17:03.255,0:17:05.640
Я преподаю в университете
0:17:05.641,0:17:09.151
и пользуюсь им для обучения RDF[br]в своём веб-курсе по семантике.
0:17:09.161,0:17:12.121
Если хотите изучать RDF,[br]это хороший инструмент.
0:17:13.033,0:17:17.598
Например, это визуализация RDF-графа[br]с помощью этого инструмента.
0:17:18.587,0:17:22.643
Но прежде чем приехать сюда,[br]в прошлом месяце
0:17:22.643,0:17:28.441
я специально начал использовать [br]RDFShape для работы с Викиданными.
0:17:28.443,0:17:33.082
Инструмент называется WikiShape,[br]и вчера я подарил его Викиданным.
0:17:33.082,0:17:34.441
Что я сделал?
0:17:34.442,0:17:39.228
Я удалил всё,[br]что не связано с Викиданными,
0:17:39.228,0:17:42.912
добавил кое-что жёстко закодированное,
0:17:42.912,0:17:44.802
например, точку доступа SPARQL.
0:17:44.802,0:17:49.041
Но теперь меня попросили[br]сделать это и для Викибазы.
0:17:49.042,0:17:52.000
Это очень легко.
0:17:52.760,0:17:56.280
Этот инструмент WikiShape[br]достаточно новый.
0:17:57.015,0:17:59.843
Я думаю, что многие его функции работают,
0:17:59.844,0:18:02.468
но некоторые, возможно, не работают,
0:18:02.469,0:18:04.581
и если вы попробуете его[br]и захотите что-то улучшить,
0:18:04.581,0:18:06.281
пожалуйста, сообщите мне.
0:18:06.281,0:18:12.680
Здесь у нас скриншоты [неразборчиво],[br]но давайте попробуем.
0:18:15.385,0:18:17.003
Давайте посмотрим, работает ли он.
0:18:17.003,0:18:20.070
Во-первых, я должен выйти из...
0:18:22.453,0:18:23.453
Здесь.
0:18:24.226,0:18:28.324
Хорошо. Вот этот инструмент.
0:18:28.324,0:18:29.844
С помощью него вы можете,
0:18:29.845,0:18:35.275
например, проверить схемы сущностей.
0:18:35.276,0:18:38.611
Например, существует новое[br]пространство имён, начинающееся с «Е»,
0:18:38.612,0:18:44.805
и здесь, если вы начнёте писать,[br]например, «человек»...
0:18:44.806,0:18:48.812
Когда вы пишете,[br]автозаполнение позволяет проверить,
0:18:48.812,0:18:52.001
например, существуют ли[br]выражения формы для людей,
0:18:52.790,0:18:55.937
и вот здесь появляются выражения формы.
0:18:55.938,0:18:59.841
Как видите, в этом редакторе[br]есть подсветка синтаксиса.
0:18:59.842,0:19:04.559
Возможно, экран очень маленький.
0:19:05.676,0:19:07.590
Попробую увеличить.
0:19:09.194,0:19:10.973
Может, сейчас лучше видно.
0:19:10.973,0:19:14.241
Это редактор с подсветкой синтаксиса.
0:19:14.241,0:19:17.851
Для редактора используется[br]тот же исходный код,
0:19:17.851,0:19:19.641
что и для службы запросов Викиданных.
0:19:19.642,0:19:23.960
Так, например,[br]если вы наведёте мышкой сюда,
0:19:23.961,0:19:27.961
он покажет вам метки разных свойств.
0:19:27.962,0:19:31.298
Я думаю, это очень полезно,[br]потому что сейчас,
0:19:32.588,0:19:38.602
схемы сущностей в Викиданных --[br]это просто текст,
0:19:38.602,0:19:42.493
и я думаю, этот редактор намного лучше,[br]потому что у него есть автозаполнение,
0:19:42.494,0:19:43.743
и он также имеет...
0:19:43.744,0:19:48.241
Если вы, например,[br]хотите добавить ограничение,
0:19:48.241,0:19:51.570
вы пишете wdt:,
0:19:51.570,0:19:56.884
а затем начинаете писать auth,[br]нажимаете Ctrl+Space,
0:19:56.884,0:19:58.922
и он предлагает разные варианты.
0:19:58.922,0:20:02.388
Это похоже на службу запросов Викиданных,
0:20:02.389,0:20:06.445
но специально для выражений формы.
0:20:06.445,0:20:11.975
Так как я думаю,[br]что создание выражений формы
0:20:11.976,0:20:15.841
не сложнее,[br]чем написание SPARQL-запросов.
0:20:15.842,0:20:21.255
Хотя некоторые думают,[br]что это примерно одинаково по сложности.
0:20:22.278,0:20:26.296
Я думаю, это проще,[br]потому что Shape Expressions
0:20:26.296,0:20:31.241
был создан с целью облегчить работу.
0:20:31.242,0:20:35.001
Первое, что у вас есть -- это редактор
0:20:35.001,0:20:36.620
для выражений формы.
0:20:37.371,0:20:41.467
Здесь есть возможность,[br]например, визуализации.
0:20:41.468,0:20:44.801
Если у вас есть какое-то[br]выражение формы, например...
0:20:44.802,0:20:49.386
Думаю, written work -- хороший пример,
0:20:49.386,0:20:53.300
поскольку в нём есть взаимосвязь[br]между разными сущностями.
0:20:54.823,0:20:58.160
Вот UML-визуализация для written work.
0:20:58.161,0:21:02.090
Здесь легко увидеть разные свойства.
0:21:02.790,0:21:06.794
Когда вы делаете это совместно[br]с несколькими людьми,
0:21:06.795,0:21:09.216
они находят ошибки[br]в своих выражениях формы,
0:21:09.217,0:21:12.988
потому что так можно легко найти[br]недостающие свойства.
0:21:13.588,0:21:15.771
Есть ещё одна возможность проверки,
0:21:15.772,0:21:19.520
кажется, у меня она вот здесь.
0:21:20.496,0:21:25.285
Это было на какой-то вкладке,[br]возможно, я закрыл её.
0:21:26.267,0:21:30.988
Но вы можете, например,[br]нажать Validate entities.
0:21:32.308,0:21:34.232
Например,
0:21:35.404,0:21:41.921
Q42 сравнить с E42, схемой для авторов.
0:21:42.818,0:21:46.180
Думаю, можно попробовать[br]со схемой для людей.
0:21:49.050,0:21:50.050
А потом...
0:21:50.688,0:21:56.365
Это SPARQL-запрос,[br]и он занимает какое-то время,
0:21:56.365,0:21:59.134
например, сейчас сбой в сети, но...
0:21:59.657,0:22:01.580
Вы можете попробовать.
0:22:02.759,0:22:07.026
Давайте расскажем о других инструментах.
0:22:07.026,0:22:12.353
Если хотите попробовать[br]и у вас есть предложения, дайте мне знать.
0:22:13.133,0:22:15.540
Продолжим презентацию.
0:22:18.923,0:22:20.233
Это WikiShape.
0:22:23.800,0:22:26.509
Как я уже говорил,
0:22:27.681,0:22:34.157
Редактор Shape Expressions --[br]независимый проект на GitHub.
0:22:35.605,0:22:37.472
Вы можете использовать его[br]в своём проекте.
0:22:37.472,0:22:41.036
Если хотите использовать[br]инструмент Shape Expressions,
0:22:41.036,0:22:45.635
вы можете просто встроить его[br]в любой другой проект,
0:22:45.636,0:22:48.235
его можно найти на GitHub,[br]и им можно пользоваться.
0:22:48.868,0:22:51.970
Тот же автор, один из моих учеников,
0:22:52.684,0:22:55.704
также создал редактор[br]для Shape Expressions,
0:22:55.704,0:22:57.799
вдохновившись[br]службой запросов Викиданных.
0:23:00.682,0:23:05.103
Этот редактор более наглядный[br]для SPARQL-запросов,
0:23:05.104,0:23:07.135
куда вы можете загрузить подобные вещи.
0:23:07.136,0:23:09.123
Это снимок экрана.
0:23:09.123,0:23:12.662
Как видите, выражения формы[br]здесь в виде текста.
0:23:12.662,0:23:17.822
Но здесь они на базе форм,[br]и, вероятно, потребуется больше времени,
0:23:18.595,0:23:23.400
но вы можете вставлять[br]разные строки в разные поля.
0:23:23.401,0:23:25.800
Это ShExEr.
0:23:26.879,0:23:31.882
Его сделал аспирант[br]Университета Овьедо,
0:23:31.883,0:23:34.080
он сегодня здесь,[br]и расскажет вам о ShExEr.
0:23:38.147,0:23:40.024
(Данни) Привет, я Данни Фернандес,
0:23:40.025,0:23:44.099
аспирант Университета Овьедо,[br]работаю с Лаброй.
0:23:44.710,0:23:47.725
У нас заканчивается время,[br]поэтому давайте ускоримся.
0:23:47.726,0:23:52.641
Я покажу несколько скриншотов[br]вместо всей презентации.
0:23:52.642,0:23:57.897
Обычный способ работы с Shape Expressions[br]или любым подобным языком:
0:23:57.897,0:23:59.521
есть специалист,
0:23:59.522,0:24:02.313
который определяет,[br]как должен выглядеть граф,
0:24:02.314,0:24:03.555
определяет структуры,
0:24:03.556,0:24:06.983
а затем вы используете эти структуры[br]для проверки фактических данных.
0:24:08.124,0:24:11.641
Инструмент, о котором рассказал Лабра, --
0:24:11.642,0:24:14.441
общего назначения[br]для любого RDF-источника,
0:24:14.442,0:24:17.375
и он может работать[br]в обратном направлении.
0:24:17.376,0:24:18.758
У вас уже есть некоторые данные,
0:24:18.759,0:24:23.165
вы выбираете узлы,[br]форму которых хотите получить,
0:24:23.165,0:24:26.718
а затем автоматически[br]извлекаете или выводите форму.
0:24:26.719,0:24:29.791
Несмотря на то, что это инструмент[br]общего назначения,
0:24:29.791,0:24:34.063
мы сделали волшебную кнопку[br]для этой конференции,
0:24:34.884,0:24:37.081
и если вы нажмёте на неё,
0:24:37.081,0:24:42.079
появятся параметры конфигурации,
0:24:42.080,0:24:46.251
и он настроит работу[br]с точкой доступа Викиданных,
0:24:46.251,0:24:47.971
простите, он скоро закончит.
0:24:48.733,0:24:52.883
После нажатия этой кнопки[br]вы, по сути, получаете это.
0:24:52.884,0:24:55.126
Выбрав необходимые вам узлы
0:24:55.127,0:24:57.431
или экземпляры класса,
0:24:57.431,0:24:59.361
что бы вы ни искали,
0:24:59.361,0:25:01.321
вы получите автоматическую схему.
0:25:02.319,0:25:07.111
Все ограничения отсортированы[br]по количеству узлов,
0:25:07.112,0:25:09.772
можно отфильтровать[br]наименее распространённые и так далее.
0:25:09.772,0:25:12.126
Внизу есть плакат об этом материале,
0:25:12.127,0:25:14.595
я буду на нижнем и верхнем этажах,
0:25:14.596,0:25:16.454
а также в других местах,
0:25:16.455,0:25:19.081
поэтому если у вас будет интерес[br]к этому инструменту,
0:25:19.082,0:25:21.476
просто обращайтесь ко мне.
0:25:21.477,0:25:24.624
Отдаю микрофон Лабре, спасибо.
0:25:24.625,0:25:29.265
(аплодисменты)
0:25:29.812,0:25:32.578
(Хосе) Давайте обсудим[br]другие инструменты.
0:25:32.579,0:25:34.984
ShapeDesigner -- ещё один инструмент.
0:25:34.984,0:25:37.241
Андра, хочешь рассказать о ShapeDesigner
0:25:37.242,0:25:39.957
или позже на семинаре?
0:25:40.173,0:25:44.437
Сегодня будет семинар,[br]посвящённый Shape Expressions,
0:25:45.265,0:25:47.939
мы попробуем его на практике,
0:25:47.940,0:25:52.324
так что если хотите попрактиковаться[br]с ShEx, то вам сюда.
0:25:52.875,0:25:55.300
Это инструмент ShEx.js,
0:25:55.300,0:25:56.890
и Эрик может рассказать о нём.
0:25:57.969,0:26:00.687
(Эрик) Расскажу очень быстро.
0:26:00.687,0:26:05.711
Вы, вероятно, уже видели интерфейс ShEx,
0:26:05.711,0:26:07.601
заточенный под Викиданные.
0:26:07.602,0:26:12.930
Его сократили и адаптировали[br]специально под Викиданные
0:26:12.930,0:26:15.567
потому что в нём больше возможностей,
0:26:15.567,0:26:17.937
но я, кажется, говорил об этом,
0:26:17.937,0:26:19.977
потому что одна из этих функций[br]особенно полезна
0:26:19.978,0:26:23.201
для отладки схем Викиданных.
0:26:23.201,0:26:29.224
Если вы выбираете полный режим,
0:26:29.225,0:26:31.444
то пока я буду проводить проверку
0:26:31.445,0:26:34.694
всех этих триплетов,
0:26:34.695,0:26:36.274
и если я получу множество ошибок,
0:26:36.275,0:26:40.396
я могу пройтись по этим ошибкам
0:26:40.396,0:26:44.120
и посмотреть, какие триплеты здесь, внизу.
0:26:44.121,0:26:45.967
Это просто журнал того,[br]как всё происходило.
0:26:46.327,0:26:49.180
Затем можете поиграть с этим,
0:26:49.181,0:26:51.033
чтобы поменять что-либо.
0:26:51.033,0:26:54.160
Это более быстрая версия[br]того, как это сделать.
0:26:55.361,0:26:56.481
Это форма ShExC --
0:26:56.482,0:26:59.455
то, что предлагал Йохим,
0:27:00.035,0:27:04.631
что может быть полезно[br]для заполнения документов Викиданных
0:27:04.631,0:27:07.338
на основе выражения формы[br]для этого документа.
0:27:08.095,0:27:11.681
Она не адаптирована под Викиданные.
0:27:11.682,0:27:14.081
Я просто показываю,[br]что можно взять схему,
0:27:14.082,0:27:15.402
сделать аннотации,
0:27:15.403,0:27:17.518
чтобы конкретно указать,[br]какую схему вы хотите,
0:27:17.519,0:27:19.031
потом просто создать форму
0:27:19.031,0:27:21.191
и, если у вас есть данные,[br]можно заполнить форму.
0:27:24.517,0:27:26.164
PyShEx [неразборчиво].
0:27:28.025,0:27:31.080
(Хосе) Думаю, это последний инструмент.
0:27:31.821,0:27:34.080
Да, это PyShEx.
0:27:34.675,0:27:38.151
PyShEx -- это Shape Expressions,[br]реализованный на Python,
0:27:39.193,0:27:42.680
он совместим с Jupyter Notebooks.
0:27:42.680,0:27:44.432
Итак, это всё.
0:27:44.433,0:27:47.170
(аплодисменты)
0:27:52.916,0:27:56.088
(Андра) Итак, я расскажу[br]о конкретном проекте,
0:27:56.088,0:27:58.074
в котором участвую -- Gene Wiki,
0:27:58.865,0:28:04.366
и в котором мы тоже занимаемся[br]вопросами качества.
0:28:04.597,0:28:06.684
Прежде чем говорить о качестве,
0:28:06.685,0:28:09.229
я кратко расскажу вам о Gene Wiki.
0:28:09.855,0:28:15.175
Мы только что выпустили[br]предварительную версию статьи,
0:28:15.175,0:28:18.160
в которой описаны детали проекта.
0:28:19.821,0:28:22.066
Я вижу, люди фотографируют...
0:28:22.066,0:28:25.076
Gene Wiki публикует в Викиданных
0:28:25.076,0:28:28.027
общедоступные биомедицинские данные,
0:28:28.028,0:28:32.200
используя для этого определённый шаблон.
0:28:33.130,0:28:36.809
Если у нас появляется[br]новое хранилище или набор данных,
0:28:36.810,0:28:39.600
который можно включить Викиданные,
0:28:39.601,0:28:41.293
первый шаг -- вовлечение сообщества.
0:28:41.294,0:28:43.784
Необязательно сообщества Викиданных,
0:28:43.785,0:28:46.120
но местного исследовательского сообщества.
0:28:46.121,0:28:50.286
Мы встречаемся лично,[br]онлайн или на любой платформе
0:28:50.286,0:28:52.881
и пробуем придумать модель данных,
0:28:52.882,0:28:56.197
которая соединит их данные[br]с моделью Викиданных.
0:28:56.197,0:28:59.944
Вот фотография прошлогоднего семинара,
0:28:59.945,0:29:02.663
на котором мы анализировали[br]определённый набор данных,
0:29:02.663,0:29:05.280
и как видите, было много обсуждений,
0:29:05.281,0:29:07.960
затем приведение его[br]в соответствие с schema.org
0:29:07.960,0:29:10.320
и другими существующими онтологиями.
0:29:10.320,0:29:15.508
В конце первого шага[br]у нас на доске появился чертёж схемы,
0:29:15.509,0:29:17.336
которую мы хотим добавить в Викиданные.
0:29:17.337,0:29:20.440
Вы видите, она несложная,
0:29:20.441,0:29:22.116
на заднем плане,
0:29:22.116,0:29:26.270
и мы можем построить какие-то схемы[br]даже здесь, в рамках этой дискуссии.
0:29:26.560,0:29:28.399
Если у нас есть схема,
0:29:28.400,0:29:31.320
следующий шаг -- попытаться сделать[br]эта схему машиночитаемой,
0:29:32.358,0:29:36.841
чтобы иметь работающие модели[br]для переноса внешних данных
0:29:36.842,0:29:39.690
из любой медико-биологической[br]базы данных в Викиданные.
0:29:40.393,0:29:45.182
Здесь мы применяем[br]инструмент Shape Expressions,
0:29:46.471,0:29:52.518
поскольку он позволяет проверить,
0:29:52.518,0:29:57.040
является ли набор данных...[br]Сначала увидеть,
0:29:57.040,0:30:01.782
что уже существующие данные в Викиданных[br]следуют той же модели данных,
0:30:01.783,0:30:04.718
которая была получена[br]в предыдущих процессах.
0:30:04.719,0:30:06.641
С помощью Shape Expressions[br]мы можем проверить,
0:30:06.642,0:30:10.926
требуется ли корректировка данных[br]по этой теме в Викиданных,
0:30:10.926,0:30:15.013
нужно ли адаптировать нашу модель[br]к модели Викиданных или наоборот.
0:30:15.937,0:30:19.867
Как только всё на месте,[br]мы начинаем писать ботов,
0:30:20.670,0:30:23.801
а боты загружают информацию
0:30:23.802,0:30:27.308
из первоисточников в Викиданные.
0:30:27.846,0:30:29.303
Когда боты готовы,
0:30:29.304,0:30:33.851
а мы пишем их на платформе[br]WikidataIntegrator,
0:30:33.851,0:30:36.201
используя библиотеку Python,
0:30:36.202,0:30:38.167
которая появилась[br]в результате нашего проекта.
0:30:38.698,0:30:42.921
Когда боты написаны,[br]мы используем платформу Jenkins
0:30:42.921,0:30:44.540
для непрерывной интеграции.
0:30:44.540,0:30:45.762
С помощью Jenkins
0:30:45.762,0:30:51.160
мы постоянно обновляем[br]первоначальные источники с Викиданными.
0:30:52.178,0:30:55.889
Вот диаграмма, о которой я говорил ранее.
0:30:55.890,0:30:57.241
Это её текущий вид.
0:30:57.242,0:31:02.059
Оранжевые прямоугольники --[br]первоисточники медикаментов,
0:31:02.060,0:31:07.827
белков, генов, заболеваний,[br]химических соединений, со взаимосвязями,
0:31:07.827,0:31:10.870
но её невозможно прочитать сейчас,[br]поскольку она слишком маленькая,
0:31:10.870,0:31:17.472
но это база данных, источниками которых[br]мы управляем в Викиданных
0:31:17.473,0:31:20.560
и соединяем с первоисточниками.
0:31:20.561,0:31:22.355
Так выглядит наш рабочий процесс.
0:31:22.870,0:31:25.312
Один из наших партнёров --[br]онтология заболеваний.
0:31:25.312,0:31:28.289
Онтология заболеваний имеет лицензию CC0,
0:31:28.289,0:31:31.990
и такая онтология[br]имеет свой цикл курирования.
0:31:32.756,0:31:35.736
Онтология заболеваний[br]постоянно обновляется,
0:31:35.737,0:31:39.687
чтобы отразить базу заболеваний[br]или их объяснение.
0:31:40.336,0:31:44.361
Здесь изображён цикл курирования[br]Викиданных по заболеваниям,
0:31:44.362,0:31:49.844
где сообщество постоянно следит за тем,[br]что происходит с Викиданными.
0:31:50.406,0:31:51.601
Есть две роли.
0:31:51.602,0:31:55.477
Мы упрощённо называем их[br]хранитель-куратор,
0:31:56.009,0:31:59.561
и это были я и мой коллега пять лет назад.
0:31:59.562,0:32:03.414
Мы просто сидели за компьютерами[br]и мониторили Википедию и Викиданные,
0:32:03.415,0:32:08.601
и если была проблема, мы сообщали о ней[br]первоначальному сообществу,
0:32:08.602,0:32:11.765
первоначальным источникам,[br]они смотрели на реализацию и решали,
0:32:11.765,0:32:14.240
доверять ли данным,[br]введённым в Викиданные.
0:32:14.850,0:32:18.555
Если да, начинался цикл
0:32:18.555,0:32:22.686
и следующий шаг --[br]часть онтологии заболеваний
0:32:22.687,0:32:25.411
возвращалась в Викиданные.
0:32:27.419,0:32:31.480
Для WikiPathways мы делаем то же самое.
0:32:31.481,0:32:34.202
WikiPathways -- база данных[br]биологических путей,
0:32:34.202,0:32:36.602
вдохновлённая MediaWiki.
0:32:36.602,0:32:40.901
В Викиданных уже существуют[br]различные источники путей.
0:32:41.463,0:32:44.713
Между ними могут возникать конфликты,
0:32:45.312,0:32:49.521
и хранителям-кураторам[br]сообщается об их возникновении,
0:32:49.522,0:32:53.715
и вы управляете индивидуальными[br]циклами курирования.
0:32:53.715,0:32:57.068
Но если вы помните предыдущий цикл,
0:32:57.069,0:33:03.041
где речь велась[br]только о двух циклах, двух ресурсах,
0:33:03.566,0:33:06.300
нам нужно делать это[br]для каждого имеющегося ресурса
0:33:06.300,0:33:08.061
и нужно управлять происходящим,
0:33:08.062,0:33:09.775
потому что под курированием
0:33:09.775,0:33:14.157
я подразумеваю постоянное отслеживание[br]страниц Википедии и Викиданных.
0:33:14.545,0:33:19.316
Такая работа явно не для двух[br]хранителей-кураторов.
0:33:19.860,0:33:22.777
На конференции в 2016 году,
0:33:22.778,0:33:26.933
когда Эрик рассказывал[br]о Shape Expressions,
0:33:26.934,0:33:29.277
я присоединился, и подумал,
0:33:29.278,0:33:34.240
что Shape Expressions может помочь[br]выявить различия в Викиданных,
0:33:34.240,0:33:41.159
которые помогут хранителям[br]делать более подробные отчёты.
0:33:42.275,0:33:46.019
В этом году я был в восторге[br]от схемы сущности,
0:33:46.020,0:33:50.765
потому что теперь мы можем хранить[br]эти схемы в Викиданных,
0:33:50.765,0:33:53.183
до этого мы хранили их на GitHub.
0:33:53.860,0:33:56.815
Схема согласуется[br]с интерфейсом Викиданных,
0:33:56.816,0:33:59.350
здесь есть обсуждение документа,
0:33:59.350,0:34:00.762
но также доступны правки.
0:34:00.763,0:34:03.012
Вы можете пользоваться[br]первыми страницами
0:34:03.012,0:34:05.262
и правками в Викиданных,
0:34:05.262,0:34:12.255
чтобы обсуждать то,[br]что имеется в Викиданных
0:34:12.255,0:34:14.060
и первоначальных источниках.
0:34:14.966,0:34:19.686
Эрик уже об этом говорил,[br]это очень помогает.
0:34:19.686,0:34:24.335
Мы создали выражение формы[br]для гена человека,
0:34:24.336,0:34:30.225
потом пропустили его через ShEx,[br]как вы видите,
0:34:30.225,0:34:32.428
мы получили...
0:34:32.429,0:34:34.641
Есть один элемент, [br]за которым нужно следить, --
0:34:34.642,0:34:37.316
он не вписывается в эту схему,
0:34:37.316,0:34:43.139
и затем вы можете создать[br]сущности схемы, отчёты курирования,
0:34:43.140,0:34:46.240
и отправить их в разные отчёты.
0:34:48.058,0:34:52.788
Но ShEx -- это встроенный интерфейс,
0:34:52.788,0:34:55.860
и здесь я смогу показать только десять,
0:34:55.860,0:35:00.362
но у нас десятки тысяч,[br]и они несоизмеримы.
0:35:00.362,0:35:04.654
Интегратор Викиданных[br]теперь поддерживает ShEx,
0:35:05.168,0:35:07.431
и мы просто можем замкнуть[br]петли элементов,
0:35:07.431,0:35:11.494
указав «да-нет, да-нет,[br]правда-ложь, правда-ложь».
0:35:11.495,0:35:12.495
снова,
0:35:13.065,0:35:16.514
повышая эффективность[br]при составлении отчётов.
0:35:17.256,0:35:22.662
Но с недавних пор он строится[br]на сервисе запросов Викиданных,
0:35:23.181,0:35:24.998
мы недавно регулировали[br]количество запросов,
0:35:24.999,0:35:26.560
и это тоже несоизмеримо.
0:35:26.561,0:35:31.391
Работа с моделями на Викиданных --[br]непрерывный процесс.
0:35:32.202,0:35:36.682
ShEx не только пугает,
0:35:36.683,0:35:40.356
но он ещё и громоздкий.
0:35:41.068,0:35:43.192
Я начал работать,
0:35:43.192,0:35:46.082
это мой первый эксперимент или упражнение,
0:35:46.082,0:35:48.184
где был использован инструмент yEd,
0:35:48.184,0:35:52.591
и затем я начал отрисовывать[br]эти выражения формы,
0:35:52.591,0:35:58.098
и потом регенерировать эту схему
0:35:58.099,0:36:01.279
в формат, близкий к Shape Expressions,
0:36:01.280,0:36:04.520
понятный людям,
0:36:04.521,0:36:07.432
которых слишком пугает[br]язык Shape Expressions.
0:36:07.961,0:36:12.308
Но есть проблема с визуальным описанием,
0:36:12.309,0:36:18.229
потому что это также схема,[br]кем-то нарисованная в yEd.
0:36:18.230,0:36:23.838
Вот ещё одна, замечательная.
0:36:23.838,0:36:26.601
Я бы такую себе на стену повесил,
0:36:27.271,0:36:30.281
но она пока несовместима.
0:36:30.281,0:36:33.371
Хочу завершить своё выступление слайдом,
0:36:33.371,0:36:35.732
который я позаимствовал.
0:36:35.732,0:36:37.594
Для меня честь показать его аудитории.
0:36:37.595,0:36:39.423
Он мне очень нравится:
0:36:39.424,0:36:42.362
«Люди думают, что RDF -- это боль[br]из-за его сложности.
0:36:42.362,0:36:43.745
Но на самом деле всё ещё хуже.
0:36:43.745,0:36:48.133
RDF очень прост, но он позволяет работать[br]с реальными данными
0:36:48.134,0:36:50.031
и невероятно сложными проблемами.
0:36:50.031,0:36:52.361
Можно избежать использования RDF,
0:36:52.361,0:36:55.760
но вряд ли получится избежать[br]сложных данных и компьютерных проблем».
0:36:55.761,0:36:59.535
Речь об RDF, но, я думаю,[br]подходит под моделирование в целом.
0:37:00.112,0:37:02.769
Мой вопрос -- должны ли мы...
0:37:03.387,0:37:05.882
Как мы будем моделировать?
0:37:05.882,0:37:10.826
Поговорим о ShEx,[br]или визуальных моделях, или...
0:37:11.426,0:37:13.271
Как нам продолжить?
0:37:13.474,0:37:14.840
Спасибо за уделённое время.
0:37:15.102,0:37:17.787
(аплодисменты)
0:37:20.001,0:37:21.188
(Лидия) Спасибо большое.
0:37:21.692,0:37:24.001
Можете выйти вперёд,
0:37:24.002,0:37:27.741
чтобы аудитория могла задать вопросы.
0:37:28.610,0:37:30.203
Есть вопросы?
0:37:31.507,0:37:32.507
Да.
0:37:34.253,0:37:36.890
Думаю, для камеры нужно, чтобы...
0:37:38.835,0:37:40.968
(Лидия смеётся) Да.
0:37:43.094,0:37:46.273
(голос из зала 1) Вопрос Кристине, думаю.
0:37:47.366,0:37:51.641
Вы упоминали термин «прирост информации»
0:37:51.642,0:37:53.689
от объединения с другими системами.
0:37:53.690,0:37:56.579
Существует информационно-теоретический[br]показатель -- прирост информации,
0:37:56.579,0:37:58.201
основанный на статистике и вероятности.
0:37:59.542,0:38:01.736
Вы имели в виду именно этот показатель?
0:38:01.736,0:38:04.173
Прирост информации[br]на основе теории вероятности,
0:38:04.174,0:38:05.240
теории информации,
0:38:05.241,0:38:09.024
или просто такая концептуальная идея[br]для измерения прироста информации?
0:38:09.025,0:38:13.016
Нет, мы действительно[br]определили и применили показатели,
0:38:13.695,0:38:20.161
используя энтропию Шеннона,[br]поэтому смысл именно такой.
0:38:20.162,0:38:22.416
Не хочу вдаваться в детали[br]конкретных формул...
0:38:22.416,0:38:24.977
(голос из зала 1) Нет, конечно,[br]поэтому и прозвучал вопрос.
0:38:24.978,0:38:27.178
- (Кристина) Да.[br]- (голос из зала 1) Спасибо.
0:38:33.091,0:38:35.407
(голос из зала 2) Это больше[br]комментарий, нежели вопрос.
0:38:35.407,0:38:36.541
(Лидия) Да, конечно.
0:38:36.541,0:38:39.840
(голос из зала 2) Акцент был на элементах,
0:38:39.840,0:38:42.547
на их качестве и полноте,
0:38:42.547,0:38:47.374
но меня беспокоит,[br]что мы не применяем это к иерархиям,
0:38:47.374,0:38:51.480
и наша частая проблема -- плохая иерархия.
0:38:51.481,0:38:53.463
Мы видим, что это становится[br]реальной проблемой
0:38:53.464,0:38:55.774
при обычным поиске и других вещах.
0:38:56.771,0:39:01.321
Мы можем импортировать способ,
0:39:01.321,0:39:04.842
по которому внешние тезаурусы[br]выстраивают свои иерархии,
0:39:04.842,0:39:10.291
используя квалификатор P4900,[br]более широкое понятие.
0:39:11.037,0:39:16.167
Но я думаю, для этого есть[br]более подходящие инструменты,
0:39:16.168,0:39:21.212
и вы сможете импортировать[br]иерархию внешнего тезауруса,
0:39:21.212,0:39:24.111
отобразить её на элементы Викиданных.
0:39:24.111,0:39:28.199
И связав её с этими квалификаторами P4900,
0:39:28.200,0:39:31.494
вы можете делать[br]хорошие запросы через SPARQL,
0:39:32.490,0:39:37.534
чтобы увидеть, где наша иерархия[br]расходится с внешней.
0:39:37.534,0:39:41.346
Например, вы можете знать[br][Паолу Морма], под псевдонимом PKM,
0:39:41.346,0:39:43.533
этот пользователь[br]создаёт много статей о моде.
0:39:43.533,0:39:50.524
Мы включаем их в иерархию[br]тезауруса европейской моды
0:39:50.524,0:39:53.812
и в иерархию тезауруса[br]искусства и архитектуры,
0:39:53.812,0:39:57.957
а потом мы видим, какие пробелы[br]были в элементах более высокого уровня.
0:39:57.957,0:40:01.231
Для нас это реальная проблема,[br]потому что часто попадаются вещи,
0:40:01.231,0:40:04.355
которые существуют в Википедии[br]только как страницы значений,
0:40:04.356,0:40:09.270
многие элементы более высокого уровня[br]отсутствуют в наших иерархиях,
0:40:09.271,0:40:14.480
и мы должны рассмотреть это[br]с точки зрения качества и полноты,
0:40:14.480,0:40:18.773
но что действительно поможет,[br]станет лучшим инструментом,
0:40:18.773,0:40:20.871
чем те дебри скриптов, написанных мной, --
0:40:20.872,0:40:26.010
если бы кто-то поместил это[br]в PAWS notebook на Python,
0:40:26.561,0:40:31.972
чтобы можно было извлечь[br]внешний тезаурус, взять его иерархию,
0:40:31.973,0:40:34.595
которая может быть доступна[br]как связанные данные или же нет,
0:40:35.169,0:40:40.580
чтобы поместить это в QuickStatements,[br]чтобы вставить значения P4900.
0:40:41.165,0:40:42.165
Затем позже,
0:40:42.166,0:40:44.527
когда наше представление[br]станет более сложным,
0:40:44.528,0:40:49.691
обновить эти значения P4900,[br]потому что добавляются данные,
0:40:49.691,0:40:51.590
представление становится[br]более комплексным,
0:40:51.590,0:40:55.377
значения этих квалификаторов нужно менять,
0:40:56.230,0:40:59.526
чтобы показать, что в нашей системе[br]всё больше их иерархии.
0:40:59.526,0:41:03.728
Если бы кто-то мог сделать это,[br]думаю, это было бы очень полезно,
0:41:03.728,0:41:07.121
и мы должны рассмотреть[br]и другие подходы
0:41:07.122,0:41:10.762
для улучшения качества и полноты[br]на уровне иерархии,
0:41:10.763,0:41:12.378
а не только на уровне элемента.
0:41:13.308,0:41:14.840
(Андра) Могу я кое-что добавить?
0:41:16.362,0:41:19.901
Да, и мы это делаем,
0:41:19.911,0:41:23.551
и я рекомендую посмотреть[br]на выражение формы, которое сделал Финн
0:41:23.552,0:41:25.530
с лексическими данными,
0:41:25.530,0:41:27.330
где он создаёт выражения формы,
0:41:27.330,0:41:29.640
а затем опирается[br]на другие выражения формы,
0:41:29.641,0:41:32.678
так получается концепция[br]связанных выражений формы в Викиданных.
0:41:32.678,0:41:35.235
В частности, пример использования,[br]если я правильно понимаю --
0:41:35.235,0:41:37.183
это именно то, что мы делаем в Gene Wiki.
0:41:37.184,0:41:40.841
Есть онтология заболеваний,[br]которая помещена в Викиданные,
0:41:40.842,0:41:44.681
а затем поступают данные о заболевании,[br]и мы применяем Shape Expressions,
0:41:44.683,0:41:47.248
чтобы посмотреть,[br]соответствуют ли данные тезаурусу.
0:41:47.248,0:41:50.919
Есть и другие тезаурусы или другие[br]онтологии или контролируемые словари,
0:41:50.920,0:41:52.559
которые ещё должны войти в Викиданные,
0:41:52.559,0:41:55.351
и именно поэтому инструмент[br]Shape Expressions так интересен --
0:41:55.351,0:41:57.963
вы можете применять его[br]для онтологии заболеваний,
0:41:57.964,0:41:59.644
для MeSH.
0:41:59.645,0:42:01.851
Теперь вам нужно проверить качество.
0:42:01.851,0:42:04.059
Потому что в Викиданных[br]также есть контекст,
0:42:04.060,0:42:09.567
когда у вас есть контролируемый словарь,[br]вы считаете, что качество соответствует,
0:42:09.568,0:42:11.636
но могут быть случаи,[br]когда сообщество не согласно.
0:42:11.636,0:42:16.081
Инструмент уже есть,[br]но теперь нужно создать эти модели
0:42:16.082,0:42:18.144
и применять их для разных случаев.
0:42:18.811,0:42:20.921
(голос из зала 2)[br]Shape Expressions очень полезен,
0:42:20.922,0:42:25.928
если у вас уже есть внешняя онтология,[br]которая отображается в Викиданных,
0:42:25.929,0:42:29.474
но моя проблема в том,[br]что всё доходит до той стадии,
0:42:29.475,0:42:34.881
когда выясняется, какой части[br]внешней онтологии ещё нет в Викиданных,
0:42:34.882,0:42:36.256
и где есть пробелы,
0:42:36.257,0:42:40.660
и, я думаю, в этом случае иметь[br]более надёжные инструменты,
0:42:40.660,0:42:44.286
чтобы увидеть, чего не хватает[br]из внешних онтологий,
0:42:44.286,0:42:45.537
было бы очень полезно.
0:42:47.678,0:42:49.062
Самая большая проблема
0:42:49.062,0:42:51.201
не в инструментах, а в лицензировании.
0:42:51.803,0:42:55.249
Поместить онтологии в Викиданные[br]на самом деле очень просто,
0:42:55.250,0:42:59.295
но большинство онтологий имеют,[br]как я это вежливо называю,
0:42:59.965,0:43:03.256
ограниченное лицензирование,[br]поэтому они не совместимы с Викиданными.
0:43:04.068,0:43:06.998
(голос из зала 2) Есть множество[br]тезаурусов из государственного сектора
0:43:06.998,0:43:08.209
в сфере культуры.
0:43:08.210,0:43:11.151
- (Андра) Тогда нам нужно поговорить.[br]- (голос из зала 2) Это не проблема.
0:43:11.151,0:43:12.494
(Андра) Тогда поговорим.
0:43:13.624,0:43:19.192
(голос из зала 3) Мой комментарий --[br]на самом деле ответ Джеймсу.
0:43:19.192,0:43:22.401
Дело в том, что из иерархий[br]получаются графы,
0:43:22.374,0:43:24.041
и когда ты хочешь...
0:43:24.579,0:43:28.888
Я хочу в основном поговорить[br]об общей проблеме в иерархиях --
0:43:28.889,0:43:30.820
о циклических иерархиях,
0:43:30.821,0:43:33.796
они возвращаются друг к другу,[br]когда есть проблема,
0:43:33.796,0:43:35.920
которой в иерархиях не должно быть.
0:43:37.022,0:43:41.295
Это, как ни странно,[br]часто встречается в категориях Википедии
0:43:41.295,0:43:42.990
у нас много циклов в категориях,
0:43:43.898,0:43:46.612
но хорошая новость в том, что это...
0:43:47.713,0:43:50.393
Технически, это NP-полная задача,
0:43:50.393,0:43:51.583
и вы не можете найти её,
0:43:51.583,0:43:53.414
но легко найдёте, построив граф.
0:43:54.473,0:43:57.046
Но было разработано много способов
0:43:57.047,0:44:00.624
для нахождения проблем[br]в этих иерархических графах.
0:44:00.625,0:44:04.860
Есть такая статья...
0:44:04.861,0:44:07.955
о разрыве циклов в искажённых иерархиях,
0:44:07.956,0:44:12.671
и перечисленные в ней методы помогли [br]при категоризации английской Википедии.
0:44:12.672,0:44:17.141
Вы можете просто применять[br]эти иерархии в Викиданных,
0:44:17.142,0:44:19.540
а затем найти
0:44:19.541,0:44:22.481
и просто удалить то,[br]что вызывает проблемы,
0:44:22.482,0:44:24.593
и на самом деле найти проблемы.
0:44:24.594,0:44:26.960
Это просто идея.
0:44:28.780,0:44:30.533
(голос из зала 2)[br]Это всё очень хорошо,
0:44:30.533,0:44:34.402
но я думаю, вы недооцениваете количество[br]плохих связей между подклассами,
0:44:34.402,0:44:35.402
которые у нас имеются.
0:44:35.403,0:44:39.680
Это как город, который находится[br]совершенно не в той стране,
0:44:40.250,0:44:43.245
при том, что существуют[br]географические инструменты
0:44:43.245,0:44:44.875
для определения этой проблемы.
0:44:44.875,0:44:49.201
Нам в иерархиях нужны[br]более эффективные инструменты,
0:44:49.202,0:44:53.477
которые смогут определить,[br]где эквивалент элемента для страны
0:44:53.478,0:44:57.673
полностью отсутствует,[br]или где он является подклассом чего-то,
0:44:57.674,0:45:01.804
не имеющего к нему отношения.
0:45:02.804,0:45:07.165
(Лидия) Я думаю, вы подобрались к тому,
0:45:07.166,0:45:10.894
что мы с моей командой[br]постоянно слышим от людей,
0:45:10.894,0:45:13.991
которые многократно[br]используют наши данные.
0:45:15.002,0:45:16.638
Отдельная точка данных -- это отлично,
0:45:16.639,0:45:20.163
но если вам нужно посмотреть[br]на онтологию и так далее,
0:45:20.164,0:45:21.857
то становится очень...
0:45:22.388,0:45:26.437
Я думаю, одна из больших проблем,[br]почему это происходит --
0:45:26.437,0:45:30.736
множество правок в Викиданных
0:45:30.736,0:45:34.544
касаются отдельного элемента,
0:45:34.545,0:45:36.201
вы редактируете этот элемент,
0:45:37.653,0:45:42.075
не понимая, что это может привести[br]к глобальным последствиям
0:45:42.075,0:45:44.245
для остальной части графа, например.
0:45:45.356,0:45:50.041
Если у людей есть идеи,[br]как сделать более заметными
0:45:50.041,0:45:53.185
последствия таких индивидуальных[br]локальных правок,
0:45:54.005,0:45:56.537
думаю, что их стоит изучить,
0:45:57.550,0:46:01.583
чтобы лучше показать людям[br]последствия их правок,
0:46:01.584,0:46:03.434
сделанных с добрыми намерениями,
0:46:04.481,0:46:05.481
какие они.
0:46:06.939,0:46:12.237
Ого! Хорошо, давайте начнём с вас,[br]потом вы, потом вы, затем вы.
0:46:12.237,0:46:13.921
(голос из зала 4) После обсуждения,
0:46:13.922,0:46:18.262
просто чтобы выразить своё согласие[br]с тем, что говорил Джеймс.
0:46:18.263,0:46:22.467
По сути, кажется,[br]что самая опасная вещь -- иерархия,
0:46:22.468,0:46:23.910
не иерархия, но в целом
0:46:23.911,0:46:28.022
семантика связей[br]между подклассами в Викиданных.
0:46:28.022,0:46:32.561
Я недавно изучал языки,[br]только для этой конференции,
0:46:32.562,0:46:35.257
и, например, я нашёл много случаев,
0:46:35.257,0:46:39.463
когда язык является одновременно[br]и частью и подклассом одного и того же.
0:46:39.463,0:46:43.577
Можно сказать, что у нас гибкая онтология.
0:46:43.577,0:46:46.256
Викиданные дают свободу выражения.
0:46:46.256,0:46:47.257
Потому что, например,
0:46:47.258,0:46:50.721
эта онтология языков сложна[br]с политической точки зрения.
0:46:50.722,0:46:55.038
Даже хорошо иметь возможность[br]выразить уровень неопределённости.
0:46:55.038,0:46:57.913
Но представьте, как к этому[br]применить машинное чтение.
0:46:57.913,0:46:59.468
Действительно проблематично.
0:46:59.468,0:47:00.468
И опять же,
0:47:00.469,0:47:03.686
я не думаю, что онтология[br]была импортирована откуда-либо.
0:47:03.687,0:47:05.490
Она изначально наша.
0:47:05.491,0:47:08.321
Она с самого начала собрана из Википедии.
0:47:08.322,0:47:11.324
Так что мне интересно...[br]Shape Expressions -- отличный инструмент,
0:47:11.325,0:47:15.575
который проверяет и исправляет[br]онтологию Википедии
0:47:15.576,0:47:18.191
с помощью внешних ресурсов,[br]прекрасная идея.
0:47:19.026,0:47:20.026
В конце концов,
0:47:20.027,0:47:25.440
получится ли у нас отразить[br]внешние онтологии в Викиданных?
0:47:25.441,0:47:28.651
А также, что мы делаем[br]с основной частью нашей онтологии
0:47:28.652,0:47:30.642
которая никогда не собирается[br]из внешних ресурсов,
0:47:30.643,0:47:31.978
как нам исправить её?
0:47:31.979,0:47:35.276
Я действительно думаю,[br]что это само по себе будет проблемой.
0:47:35.277,0:47:40.080
Мы должны сосредоточиться на этом[br]независимо от идеи проверки онтологии
0:47:40.080,0:47:41.916
с помощью внешнего ресурса.
0:47:49.353,0:47:53.379
(голос из зала 5) Ограничения[br]и формы очень впечатляют,
0:47:53.380,0:47:55.055
то, что мы можем сделать с ними,
0:47:55.205,0:47:58.481
но главный момент[br]до сих пор не совсем понятен --
0:47:58.482,0:48:03.229
поскольку теперь мы можем более чётко[br]сформулировать, чего ожидаем от данных.
0:48:03.229,0:48:06.893
Сначала каждый должен написать[br]свои инструменты и скрипты,
0:48:06.894,0:48:10.601
сделать их более наглядными,[br]и мы сможем обсудить это.
0:48:10.602,0:48:13.641
Но речь не о том, что верно, а что нет,
0:48:13.642,0:48:15.870
а об ожиданиях,
0:48:15.870,0:48:18.105
и у вас будут разные ожидания и обсуждения
0:48:18.106,0:48:20.737
того, как моделировать в Викиданных.
0:48:22.836,0:48:26.280
Текущее состояние --[br]лишь один шаг в этом направлении,
0:48:26.281,0:48:28.041
потому что теперь нужно
0:48:28.042,0:48:31.041
привлечь много технических знаний,
0:48:31.042,0:48:35.721
и нам нужны лучшие способы[br]визуализации этого ограничения,
0:48:35.722,0:48:39.995
возможно, преобразование его[br]в более понятный людям язык,
0:48:40.939,0:48:43.768
но в меньшей степени здесь речь о том,[br]что верно, а что нет.
0:48:44.925,0:48:45.925
(Лидия) Да.
0:48:50.986,0:48:53.893
(голос из зала 6) По поводу качества,[br]хочу уточнить...
0:48:53.894,0:48:57.010
Я часто сталкивался с разногласиями,
0:48:58.838,0:49:02.330
связанными с разницей между[br]экземпляром и подклассом.
0:49:02.331,0:49:05.963
Я бы сказал, ошибки в таких ситуациях
0:49:05.963,0:49:11.521
и попытки найти их[br]были очень трудоёмким процессом.
0:49:11.522,0:49:12.655
То, к чему я пришёл:
0:49:12.655,0:49:16.051
«Если найти впечатляющие элементы, важные,
0:49:16.051,0:49:19.026
и затем использовать[br]все экземпляры подкласса,
0:49:19.026,0:49:21.896
чтобы найти все производные[br]этого утверждения», --
0:49:21.896,0:49:26.215
это очень полезный способ[br]поиска ошибок.
0:49:26.405,0:49:28.897
Но мне было интересно,
0:49:28.897,0:49:33.959
можно ли использовать Shape Expressions
0:49:33.959,0:49:36.854
в качестве инструмента[br]для решения таких проблем?
0:49:40.514,0:49:42.555
(голос из зала 7)[br]Имеет ли структурный след ...
0:49:45.910,0:49:49.170
Если имеется структурный след,[br]который может быть сфальсифицирован,
0:49:49.170,0:49:51.191
можно решить, что это неправильно,
0:49:51.192,0:49:52.670
а потом сделать это.
0:49:52.671,0:49:56.921
Но если это просто попытка сопоставления[br]с объектами реального мира,
0:49:56.922,0:49:59.082
то вам потребуется очень много «мозгов».
0:50:05.768,0:50:08.631
(голос из зала 8) Привет,[br]я Пабло Мендес из Apple Siri Knowledge.
0:50:09.154,0:50:12.770
Мы здесь, чтобы узнать,[br]как помочь проекту и сообществу,
0:50:12.770,0:50:15.645
но Кристина совершила ошибку,[br]спросив, чего мы хотим.
0:50:16.471,0:50:20.052
(смеётся) Думаю, одна вещь,[br]которую хотелось бы увидеть,
0:50:20.958,0:50:23.521
связана с возможностью проверки --
0:50:23.522,0:50:26.372
одним из основных принципов[br]проекта в сообществе,
0:50:27.062,0:50:28.590
а также с доверием.
0:50:28.590,0:50:32.042
Не все утверждения одинаковы,[br]некоторые из них серьёзно оспариваются,
0:50:32.042,0:50:33.443
некоторые легко предположить,
0:50:33.443,0:50:35.541
например, чью-либо дату рождения[br]можно проверить,
0:50:36.071,0:50:39.882
как вы видели сегодня в основном докладе,[br]гендерные проблемы намного сложнее.
0:50:40.205,0:50:42.560
Можете ли вы немного[br]рассказать о том, что вы знаете
0:50:42.560,0:50:47.271
о доверии и проверках --[br]этих аспектах качества данных?
0:50:55.442,0:50:58.138
Если этого не много,[br]хотелось бы намного больше. (смеётся)
0:51:00.646,0:51:01.646
(Лидия) Да.
0:51:03.314,0:51:06.548
Как выяснилось,[br]нам нечего сказать. (смеётся)
0:51:08.024,0:51:12.299
(Андра) Я думаю, мы можем сделать многое,[br]но у нас с вами вчера была дискуссия.
0:51:12.300,0:51:15.774
Мой любимый пример,[br]как я выяснил вчера, уже устарел.
0:51:15.774,0:51:20.281
Если вы зайдёте[br]на страницу элемента Q2, это Земля,
0:51:20.282,0:51:23.343
там есть утверждение, что Земля плоская.
0:51:24.183,0:51:26.055
Я люблю этот пример,
0:51:26.056,0:51:28.391
потому что есть сообщество,[br]которое это утверждает,
0:51:28.392,0:51:30.417
и у них есть достоверные источники.
0:51:30.418,0:51:32.254
Так что я думаю, это реальный случай,
0:51:32.255,0:51:34.641
его не нужно оспаривать,[br]он должен быть в Викиданных.
0:51:34.642,0:51:40.385
Я думаю, здесь Shape Expressions[br]может быть действительно полезен,
0:51:40.386,0:51:44.857
потому что вам действительно[br]может быть интересен этот прецедент,
0:51:44.857,0:51:47.129
или этот вариант использования,[br]с которым вы не согласны,
0:51:47.130,0:51:49.799
но может быть и такой[br]случай применения,
0:51:49.799,0:51:51.059
который вас заинтересует.
0:51:51.059,0:51:53.449
Например, глюкоза.
0:51:53.449,0:51:56.841
Биологу не интересно
0:51:56.841,0:52:00.177
строение молекулы глюкозы,
0:52:00.177,0:52:03.201
для него вся глюкоза одинаковая.
0:52:03.202,0:52:05.973
Но химика подобное покоробит,
0:52:05.973,0:52:08.191
существует 200 с лишним...
0:52:08.191,0:52:10.443
Когда у вас есть разные выражения формы,
0:52:10.443,0:52:13.887
я могу их применить с точки зрения химика.
0:52:13.887,0:52:16.691
А с точки зрения биолога
0:52:16.691,0:52:18.524
я применяю другое выражение формы.
0:52:18.524,0:52:20.358
А если вы хотите сотрудничать,
0:52:20.358,0:52:22.784
вы должны сказать Эрику о картах ShEx.
0:52:25.510,0:52:28.873
Но это только начало пути.
0:52:28.873,0:52:32.238
Но я лично верю,[br]что это весьма полезно для этой области.
0:52:34.292,0:52:35.535
(Лидия) Вон там.
0:52:37.949,0:52:39.168
(смех)
0:52:40.597,0:52:46.035
(голос из зала 9) У меня несколько идей[br]по некоторым моментам обсуждения,
0:52:46.035,0:52:50.902
постараюсь озвучить все.[br]Было три идеи, так что...
0:52:52.394,0:52:55.201
Основываясь на том, что Джеймс сказал[br]некоторое время назад,
0:52:55.202,0:52:59.001
у Викиданных с самого начала[br]была очень большая проблема
0:52:59.002,0:53:01.574
в онтологии вышестоящего уровня.
0:53:02.363,0:53:05.339
Мы говорили об этом[br]два года назад на WikidataCon,
0:53:05.340,0:53:07.432
и мы говорили об этом на Викимании.
0:53:07.432,0:53:09.818
На всех встречах по Викиданным
0:53:09.818,0:53:11.656
мы говорим об этом,
0:53:11.656,0:53:15.782
потому что это очень большая проблема[br]на очень высоком уровне --
0:53:15.783,0:53:22.418
что такое сущность, работа,[br]что такое жанр, искусство, --
0:53:23.118,0:53:25.461
все эти понятия очень важны.
0:53:27.215,0:53:33.117
И на самом деле это слабое место[br]глобальной онтологии,
0:53:33.118,0:53:37.453
потому что люди регулярно наводят порядок
0:53:38.017,0:53:41.047
и тем самым всё ломают.
0:53:42.516,0:53:48.649
Некоторые из вас помнят парня,[br]который из добрых намерений
0:53:48.649,0:53:51.785
«сломал» все города мира.
0:53:51.785,0:53:57.537
Элементы стали не географическими,[br]везде были нарушения ограничений.
0:53:58.720,0:54:00.278
Это было сделано из добрых побуждений,
0:54:00.278,0:54:03.623
ведь он действительно[br]исправлял ошибку в элементе,
0:54:04.170,0:54:05.732
но всё сломалось.
0:54:06.349,0:54:09.373
Я не уверена, как мы можем решить это,
0:54:10.216,0:54:13.390
поскольку нет ни одного[br]внешнего учреждения,
0:54:13.390,0:54:15.710
у которого мы могли бы скопировать,
0:54:15.710,0:54:19.030
потому что все работают...
0:54:19.154,0:54:22.041
Если я работаю с базой данных[br]исполнительского искусства,
0:54:22.042,0:54:24.601
я просто перейду на уровень[br]исполнительского искусства,
0:54:24.601,0:54:29.361
я не буду переходить[br]к философской концепции сущности,
0:54:29.362,0:54:31.201
и это, на самом деле...
0:54:31.202,0:54:34.561
Я не знаю ни одной базы данных,[br]работающей на этом уровне,
0:54:34.562,0:54:36.827
но это самое слабое место Викиданных.
0:54:37.936,0:54:40.812
Вероятно, когда мы говорим[br]о качестве данных,
0:54:40.812,0:54:44.034
это является важным аспектом.
0:54:44.034,0:54:48.569
Я думаю, это то же самое,[br]что мы заявили...
0:54:48.569,0:54:50.452
Простите, я меняю тему,
0:54:51.401,0:54:55.774
но на разных сессиях[br]мы говорили о качестве.
0:54:55.774,0:54:59.398
На самом деле некоторые из нас[br]могут хорошо моделировать,
0:54:59.399,0:55:01.240
работают с ShEx и так далее.
0:55:01.967,0:55:07.655
Люди не видят этого в Викиданных,[br]они не видят ShEx,
0:55:07.655,0:55:10.392
они не видят Вики-проект[br]на странице обсуждения,
0:55:10.393,0:55:11.393
и иногда
0:55:11.394,0:55:14.958
они даже не видят[br]страницы обсуждения свойств,
0:55:14.958,0:55:19.628
которые чётко заявляют,[br]для чего используется конкретное свойство.
0:55:19.628,0:55:23.887
Например, на прошлой неделе,[br]я добавила ограничение для свойства.
0:55:23.888,0:55:26.324
Ограничение было чётко прописано
0:55:26.325,0:55:28.690
в обсуждении создания свойства.
0:55:28.690,0:55:34.548
Я просто добавила ограничение,[br]а кто-то возмутился:
0:55:34.548,0:55:37.182
«Что? Ты сломала все мои правки!»
0:55:37.183,0:55:41.542
Последние два года человек использовал[br]это свойство неправильно.
0:55:41.542,0:55:46.868
Свойство было очень чёткое,[br]но не было никаких предупреждений,
0:55:46.869,0:55:48.715
как и в Pink Pony,
0:55:48.715,0:55:52.172
мы также сказали на Викимании,[br]что хотим делать Вики-проекты
0:55:52.172,0:55:54.719
более наглядными,[br]делать ShEx более наглядным, но...
0:55:54.719,0:55:56.917
Это то, что сказала Кристина.
0:55:56.917,0:56:02.368
У нас проблема с визуализацией[br]существующих решений.
0:56:02.368,0:56:04.242
На этой сессии
0:56:04.242,0:56:06.862
мы все говорим о том,[br]как создать больше выражений формы,
0:56:06.863,0:56:10.727
или облегчить работу редакторов.
0:56:11.605,0:56:15.835
Но мы наводим порядок[br]с первого дня существования Викиданных,
0:56:15.836,0:56:20.921
и, на глобальном уровне, мы проигрываем,
0:56:20.922,0:56:22.960
поскольку, насколько я знаю,[br]имена сложные,
0:56:22.961,0:56:26.162
но я единственная, кто их редактирует.
0:56:26.662,0:56:29.671
Кто-то добавил имя на латинице
0:56:29.672,0:56:31.584
всем китайским исследователям --
0:56:32.088,0:56:35.616
мне понадобятся месяцы,[br]чтобы убрать это, и сама я не справлюсь,
0:56:35.616,0:56:38.777
а он сделал массовую выгрузку.
0:56:39.462,0:56:44.158
Проблем с визуализацией больше,[br]чем с инструментами, я думаю,
0:56:44.158,0:56:45.733
поскольку у нас много инструментов.
0:56:45.733,0:56:50.255
(Лидия) К сожалению,[br]мне дали знак, (смеётся),
0:56:50.256,0:56:52.121
поэтому нам нужно заканчивать.
0:56:52.122,0:56:53.563
Большое спасибо за ваши комментарии,
0:56:53.563,0:56:56.611
надеюсь, вы продолжите обсуждение позже,
0:56:56.611,0:56:57.840
и спасибо за ваш вклад.
0:56:58.359,0:56:59.944
(аплодисменты)
0:57:04.108,0:57:07.008
WikidataCon 2019[br]Викиданные и языки