0:00:00.000,0:00:02.310 Качество данных[br]Панельная дискуссия 0:00:02.310,0:00:03.945 Клаудиа Мюллер-Бирн, Лукас Веркмейстер, 0:00:03.945,0:00:05.945 Хосе Эмилио Лабра Гайо,[br]Кристина Сарасуа, Андра 0:00:05.945,0:00:09.476 Приветствую всех на панельной дискуссии,[br]посвящённой качеству данных. 0:00:10.288,0:00:13.671 Качество данных имеет большое значение,[br]ведь всё больше и больше людей 0:00:13.672,0:00:16.779 полагаются на хорошее качество данных, 0:00:16.779,0:00:19.323 о чём мы сегодня и поговорим. 0:00:21.229,0:00:26.960 Будет четыре докладчика, которые выступят[br]с небольшими презентациями на темы, 0:00:26.960,0:00:29.539 связанные с качеством данных,[br]а далее будут вопросы и ответы. 0:00:30.130,0:00:32.234 Начнём с Лукаса. 0:00:34.385,0:00:35.385 Спасибо. 0:00:35.901,0:00:39.899 Привет, я Лукас,[br]и я начну с краткого обзора 0:00:39.899,0:00:43.806 инструментов качества данных,[br]которые уже имеются в Викиданных, 0:00:43.807,0:00:46.109 и тех, которые скоро появятся. 0:00:46.932,0:00:50.623 Я выделил несколько общих тем: 0:00:50.623,0:00:53.761 визуализация ошибок,[br]решаемость проблем, 0:00:53.762,0:00:56.322 больше внимания данным[br]с целью выявления проблем, 0:00:56.945,0:01:00.206 исправление общих источников ошибок, 0:01:00.206,0:01:02.616 обеспечение качества существующих данных, 0:01:02.616,0:01:03.966 а также курирование. 0:01:05.063,0:01:07.868 Что у нас есть сейчас? 0:01:07.868,0:01:09.948 Начнём с ограничения свойств. 0:01:10.318,0:01:12.541 Вы наверняка видели это,[br]когда заходили на Викиданные. 0:01:12.541,0:01:14.029 Иногда можно видеть эти иконки, 0:01:14.530,0:01:17.241 которые проверяют[br]внутреннюю согласованность данных. 0:01:17.242,0:01:20.800 Например, если одно событие[br]следует за другим, 0:01:20.801,0:01:23.760 то за другим должно последовать[br]и это событие, 0:01:23.761,0:01:27.161 элемент WikidataCon,[br]который, похоже, отсутствует. 0:01:27.162,0:01:29.740 Это появилось пару дней назад. 0:01:30.040,0:01:34.681 Если этого для вас недостаточно, 0:01:34.682,0:01:38.080 вы можете ввести любой запрос,[br]используя сервис запросов, 0:01:38.081,0:01:39.842 который, конечно,[br]полезен для многих вещей, 0:01:39.843,0:01:44.543 но также его можно использовать[br]для поиска ошибок. 0:01:44.544,0:01:46.974 Например, если вы заметили[br]какую-то ошибку, 0:01:46.975,0:01:49.709 вы можете проверить, есть ли ещё места, 0:01:49.710,0:01:51.658 где люди допустили похожие ошибки, 0:01:51.658,0:01:53.438 и найти их с помощью сервиса запросов. 0:01:53.439,0:01:55.199 Также можно совместить[br]эти два инструмента 0:01:55.199,0:01:57.874 и искать нарушения ограничений, 0:01:57.875,0:02:01.240 например, нарушения в какой-то области 0:02:01.241,0:02:03.762 или нужном вам Вики-проекте, 0:02:03.762,0:02:06.828 хотя результаты пока неполные,[br]к сожалению. 0:02:08.422,0:02:09.877 Оценивание правок. 0:02:10.690,0:02:12.666 Я думаю, это из последних изменений. 0:02:12.667,0:02:16.217 Также можете добавить в свой[br]список наблюдения автоматическую оценку: 0:02:16.217,0:02:20.249 сделана ли правка[br]с добрыми намерениями или нет, 0:02:20.250,0:02:22.312 нанесёт ли она ущерб или нет. 0:02:22.313,0:02:24.205 Думаю, здесь два направления. 0:02:24.206,0:02:25.686 Если хотите, вы можете 0:02:25.687,0:02:28.458 сосредоточиться на поиске правок[br]с добрыми намерениями, 0:02:28.458,0:02:29.828 наносящих ущерб. 0:02:29.899,0:02:32.523 Если вы дружелюбны и вежливы, 0:02:32.524,0:02:37.121 можете написать этим редакторам:[br]«Спасибо за ваш вклад, 0:02:37.122,0:02:40.560 вот, как это следует делать,[br]но всё равно спасибо». 0:02:40.561,0:02:42.186 Если вы не хотите так делать, 0:02:42.187,0:02:44.132 можно найти правки[br]с недобрыми намерениями, 0:02:44.132,0:02:45.132 наносящие ущерб, 0:02:45.132,0:02:46.293 и откатить их назад. 0:02:47.544,0:02:49.761 Подобно этому есть рейтинг сущностей. 0:02:49.762,0:02:52.590 Вместо оценивания правки,[br]последующего за ней изменения, 0:02:52.591,0:02:53.904 вы оцениваете ревизию в целом. 0:02:53.904,0:02:56.483 Я думаю, это такой же инструмент[br]измерения качества, 0:02:56.483,0:02:59.863 о котором говорила Лидия[br]в начале конференции. 0:03:00.372,0:03:04.569 Вот здесь скрипт, который ставит[br]оценку от одного до пяти. 0:03:04.570,0:03:08.176 Он оценивает качество текущего элемента. 0:03:10.043,0:03:12.538 Инструмент проверки[br]первичных источников предназначен 0:03:12.538,0:03:14.857 для любой базы данных,[br]которую вы хотите импортировать, 0:03:14.857,0:03:18.374 но качество её данных не настолько высоко,[br]чтобы напрямую добавлять её в Викиданные, 0:03:18.374,0:03:20.335 поэтому вы добавляете базу[br]в этот инструмент, 0:03:20.336,0:03:22.956 после чего люди могут решить, 0:03:22.956,0:03:26.024 добавлять или не добавлять[br]отдельные утверждения. 0:03:28.595,0:03:30.363 Отображение координат в виде карт -- 0:03:30.363,0:03:31.901 в основном, функция для удобства, 0:03:31.901,0:03:33.588 но она также полезна[br]для контроля качества. 0:03:33.588,0:03:36.937 Например, если вы видите, что здесь[br]должен быть офис Викимедиа Германии, 0:03:36.938,0:03:39.400 а координаты[br]где-то в Индийском океане, 0:03:39.401,0:03:41.529 то вы понимаете, что это неверный адрес, 0:03:41.530,0:03:44.790 и вам легче это заметить,[br]чем если бы у вас были только цифры. 0:03:46.382,0:03:49.576 Этот инструмент -- индикатор[br]относительной полноты. 0:03:49.577,0:03:52.480 Вот эта маленькая иконка здесь, 0:03:53.007,0:03:55.652 которая сообщает, насколько полно[br]описан конкретный элемент, 0:03:55.652,0:03:57.613 и каких свойств не хватает. 0:03:57.614,0:03:59.769 Это очень полезно,[br]если вы редактируете элемент 0:03:59.769,0:04:03.172 и не очень ориентируетесь в данной сфере 0:04:03.172,0:04:05.661 и не знаете,[br]какие свойства нужно указывать, 0:04:05.662,0:04:08.230 тогда этот инструмент будет очень полезен. 0:04:09.604,0:04:11.602 Также мы используем[br]инструмент Shape Expressions. 0:04:11.602,0:04:15.624 Думаю, Андра или Хосе[br]расскажут об этом больше, 0:04:15.624,0:04:20.508 но, по сути, это очень мощный способ[br]сравнения имеющихся данных со схемой, 0:04:20.508,0:04:22.058 например, какое утверждение 0:04:22.058,0:04:23.470 должны иметь определённые сущности, 0:04:23.470,0:04:25.229 с какими сущностями[br]они должны быть связаны 0:04:25.229,0:04:26.229 и как должны выглядеть. 0:04:26.229,0:04:29.374 Таким образом вы сможете[br]находить проблемы. 0:04:30.366,0:04:32.361 Я думаю... Нет, ещё не всё. 0:04:32.362,0:04:34.321 Integraality, или панель свойств. 0:04:34.322,0:04:36.773 На ней видны данные,[br]которые у вас уже есть. 0:04:36.774,0:04:39.147 Например, эти данные[br]из Вики-проекта о красных пандах, 0:04:39.657,0:04:41.181 и вы видите, 0:04:41.181,0:04:43.561 что у большинства красных панд[br]известен пол, 0:04:43.561,0:04:46.854 дата рождения зависит от зоопарка, 0:04:46.854,0:04:50.255 и у нас почти нет погибших панд,[br]что замечательно, 0:04:50.346,0:04:51.346 (смех) 0:04:51.437,0:04:52.600 потому что они такие милые. 0:04:53.699,0:04:55.654 Так что это тоже полезно. 0:04:56.377,0:04:59.185 Теперь о том, что ожидается. 0:04:59.889,0:05:03.784 Wikidata Bridge,[br]ранее известный как client editing 0:05:03.785,0:05:07.076 для редактирования Викиданных[br]прямо из карточек Википедии. 0:05:07.675,0:05:11.395 Это, с одной стороны,[br]позволит лучше контролировать данные, 0:05:11.395,0:05:13.441 так как их сможет увидеть[br]большее число людей, 0:05:13.441,0:05:15.851 и, мы надеемся, будет способствовать 0:05:15.851,0:05:18.795 более частому использованию[br]Викиданных в Википедии, 0:05:18.841,0:05:20.920 и это значит, большее число людей[br]сможет заметить, 0:05:20.921,0:05:23.547 что, например, некоторые данные устарели[br]и должны быть обновлены, 0:05:23.547,0:05:27.000 чем если бы они видели эти данные[br]только в Викиданных. 0:05:28.630,0:05:30.656 Также есть испорченные ссылки. 0:05:30.657,0:05:33.959 Идея в том, что если вы редактируете[br]значение утверждения, 0:05:34.683,0:05:37.279 вы также можете обновить и ссылки, 0:05:37.280,0:05:39.373 если это не просто опечатка[br]или что-то ещё. 0:05:39.897,0:05:43.662 Эти испорченные ссылки[br]сигнализируют редакторам 0:05:43.663,0:05:49.756 и дают возможность увидеть,[br]какие другие правки были сделаны, 0:05:49.756,0:05:52.641 где отредактировали значение утверждения,[br]но не обновили ссылку, 0:05:52.641,0:05:55.147 и вы можете всё подредактировать 0:05:55.147,0:05:59.566 и решить, следует ли ещё что-то делать, 0:05:59.566,0:06:02.796 или всё в порядке,[br]и ссылку обновлять не нужно. 0:06:03.543,0:06:05.756 Перейдём к подписанным утверждениям. 0:06:05.756,0:06:09.336 Я думаю, это связано с тем опасением, 0:06:09.336,0:06:12.355 что некоторые источники данных... 0:06:13.881,0:06:16.462 Есть утверждение, на которое ссылаются,[br]например, через ЮНЕСКО 0:06:16.462,0:06:17.792 или какое-то другое учреждение, 0:06:17.792,0:06:20.382 а потом кто-то неожиданно[br]вносит вандальные правки, 0:06:20.382,0:06:22.306 и они переживают, что это будет выглядеть, 0:06:22.827,0:06:26.992 как будто организация,[br]например, ЮНЕСКО, принимает эти правки. 0:06:26.993,0:06:28.706 В случае с подписанными утверждениями, 0:06:28.706,0:06:31.488 они могут криптографически[br]подписать эту ссылку, 0:06:31.488,0:06:33.562 и это не помешает её редактированию, 0:06:34.169,0:06:37.284 но если кто-то внесёт в утверждение[br]вандальные правки 0:06:37.284,0:06:40.255 или любые другие, [br]подпись будет недействительна, 0:06:40.255,0:06:43.401 и это уже не совсем то,[br]что утверждает организация. 0:06:43.402,0:06:45.035 Возможно, это хорошая правка, 0:06:45.035,0:06:47.065 и нужно просто переподписать[br]новое утверждение, 0:06:47.065,0:06:49.851 но, возможно, правку следует отменить. 0:06:51.203,0:06:54.166 Думаю, это будет увлекательно. 0:06:54.166,0:06:56.846 Citoid -- удивительная система,[br]которая есть в Википедии, 0:06:57.379,0:07:01.340 где вы можете вставить URL,[br]идентификатор или ISBN 0:07:01.340,0:07:04.759 или идентификатор Викиданных,[br]в общем, что угодно в визуальный редактор, 0:07:05.260,0:07:08.241 и это трансформируется[br]в красиво отформатированную ссылку, 0:07:08.242,0:07:11.269 которая содержит все нужные вам данные,[br]и ей легко пользоваться. 0:07:11.269,0:07:14.337 Для сравнения, если я хочу[br]добавить ссылку в Викиданных, 0:07:14.338,0:07:18.801 я обычно должен добавить URL ссылки,[br]название, строку с именем автора, 0:07:18.802,0:07:20.449 место и дату публикации, 0:07:20.450,0:07:24.141 даты получения --[br]по крайней мере, всё это -- 0:07:24.141,0:07:25.141 и это очень утомительно, 0:07:25.141,0:07:29.261 а интеграция Citoid в Викибазу[br]должна помочь в этом. 0:07:30.245,0:07:33.604 Думаю, у меня всё. 0:07:33.604,0:07:36.400 Сейчас передаю слово Кристине. 0:07:37.510,0:07:40.581 (аплодисменты) 0:07:40.581,0:07:43.326 Как можно улучшить[br]управление качеством данных? 0:07:43.711,0:07:45.471 Привет, я Кристина. 0:07:45.472,0:07:47.672 Я научный сотрудник[br]Цюрихского университета 0:07:47.673,0:07:51.417 и активный член[br]швейцарского Вики-сообщества. 0:07:52.698,0:07:57.901 Когда мы вместе с Клаудией Мюллер-Бирн[br]отправляли наш доклад на WikidataCon, 0:07:57.902,0:08:00.410 мы хотели продолжить обсуждение, 0:08:00.411,0:08:02.424 начатое в этом году 0:08:02.424,0:08:07.442 на семинаре по качеству данных,[br]а также на нескольких сессиях Викимании. 0:08:07.442,0:08:10.535 В своём выступлении мы, в основном,[br]поделимся некоторыми соображениями 0:08:10.536,0:08:14.432 как сообщества, так и нашими, 0:08:14.432,0:08:16.560 и продолжим обсуждение. 0:08:16.561,0:08:20.065 Нам хотелось бы и дальше[br]активно общаться с вами. 0:08:21.557,0:08:23.371 Мы считаем, что очень важно 0:08:23.372,0:08:27.580 постоянно спрашивать[br]всех пользователей сообщества 0:08:27.581,0:08:32.240 о том, что им действительно нужно,[br]какие у них проблемы с качеством данных, 0:08:32.240,0:08:35.000 не только редакторов[br]но и людей, которые пишут код, 0:08:35.000,0:08:36.241 либо пользуются данными, 0:08:36.242,0:08:38.434 а также исследователей,[br]которые фактически используют 0:08:38.434,0:08:40.800 всю историю редактирования[br]для анализа происходящего. 0:08:42.367,0:08:46.101 Мы сделали обзор[br]примерно 80-ти инструментов, 0:08:46.101,0:08:48.386 существующих в Викиданных, 0:08:48.431,0:08:52.380 и привели их в соответствие[br]с разными показателями качества данных. 0:08:52.380,0:08:54.360 Мы увидели, что на самом деле 0:08:54.361,0:08:57.681 многие инструменты[br]отслеживают полноту, 0:08:57.681,0:09:02.820 а также некоторые из них поддерживают[br]взаимосвязи между данными. 0:09:02.820,0:09:08.442 Есть потребность в инструментах,[br]оценивающих разнообразие данных -- 0:09:08.443,0:09:12.824 то, что мы можем иметь в Викиданных, 0:09:12.824,0:09:15.958 в особенности, этот принцип[br]разработки Викиданных, 0:09:15.959,0:09:17.901 в котором мы можем иметь[br]множественность -- 0:09:17.902,0:09:20.308 разные утверждения[br]с разными значениями 0:09:20.784,0:09:22.236 из разных источников. 0:09:22.236,0:09:24.921 Поскольку это вторичный источник,[br]у нас нет инструментов, 0:09:24.922,0:09:27.750 сообщающих, сколько существует[br]множественных утверждений, 0:09:27.751,0:09:30.889 сколько из них мы можем улучшить[br]и каким образом, 0:09:30.890,0:09:32.833 и мы также точно не знаем, 0:09:32.833,0:09:35.538 в чём причина этой множественности. 0:09:36.491,0:09:39.201 На этих собраниях сообщества 0:09:39.201,0:09:43.084 мы обсуждали проблемы,[br]всё ещё требующие внимания. 0:09:43.084,0:09:46.499 Например, краудсорсинговые сообщества -- 0:09:46.499,0:09:49.293 это очень хорошо,[br]потому что разные люди работают 0:09:49.293,0:09:51.833 с разными частями данных или графа, 0:09:51.834,0:09:54.615 у всех людей разные[br]фундаментальные знания. 0:09:54.616,0:09:59.161 Но на самом деле[br]очень трудно достичь однородности, 0:09:59.162,0:10:04.920 потому что люди используют[br]разные свойства по-разному, 0:10:04.920,0:10:08.401 и у них разные ожидания[br]от описаний сущностей. 0:10:09.003,0:10:12.721 Люди также сказали,[br]что им нужно больше инструментов, 0:10:12.722,0:10:16.000 которые дают лучший обзор[br]глобального статуса сущностей, 0:10:16.000,0:10:20.733 показывают, каких сущностей не хватает[br]с точки зрения полноты, 0:10:20.733,0:10:26.121 а также над чем сейчас работают люди. 0:10:26.121,0:10:30.516 Они также многократно упоминают[br]более тесное сотрудничество 0:10:30.517,0:10:33.311 не только между разными языками,[br]но и Вики-проектами 0:10:33.311,0:10:35.571 и различным платформами Викимедии. 0:10:35.571,0:10:40.029 Мы опубликовали все комментарии,[br]которые услышали во время этих обсуждений. 0:10:40.029,0:10:42.959 Вы можете посмотреть их,[br]пройдя по ссылкам в Etherpad, 0:10:42.959,0:10:46.162 а также на странице Викимании. 0:10:46.162,0:10:48.481 Некоторые новые решения 0:10:48.481,0:10:53.001 заключались в обмене лучшими практиками, 0:10:53.001,0:10:55.762 которые реализуются[br]в разных Вики-проектах, 0:10:55.762,0:11:01.238 но также людям нужны инструменты,[br]помогающие организовать работу в командах 0:11:01.239,0:11:03.845 или, по крайней мере,[br]понять, кто над этим работает. 0:11:03.845,0:11:07.815 Также люди упоминали,[br]что они хотят больше примеров 0:11:07.816,0:11:12.019 и шаблонов, которые помогут в работе. 0:11:12.946,0:11:14.163 У нас есть контакты 0:11:14.163,0:11:18.721 с организациями открытых[br]государственных данных 0:11:18.722,0:11:20.068 и, в частности, 0:11:20.068,0:11:23.102 я поддерживаю контакты[br]с кантоном и городом Цюрих. 0:11:23.102,0:11:26.207 Они очень заинтересованы в Викиданных, 0:11:26.207,0:11:29.896 потому что хотят, чтобы их данные[br]были доступны для всех 0:11:29.897,0:11:33.681 в таком месте, где люди[br]могут ознакомиться c этими данными. 0:11:33.682,0:11:36.550 Для них было бы действительно интересно 0:11:36.551,0:11:38.600 иметь какие-то качественные показатели 0:11:38.600,0:11:41.082 как в Вики, они уже есть, 0:11:41.082,0:11:42.801 но и в результатах SPARQL, 0:11:42.802,0:11:46.066 чтобы знать, доверять ли данным,[br]полученным от сообщества. 0:11:46.067,0:11:48.230 Они также хотят знать, 0:11:48.230,0:11:51.417 какие из их наборов данных[br]полезны для Викиданных, 0:11:51.418,0:11:53.091 и чтобы был такой инструмент, 0:11:53.091,0:11:56.041 который поможет им[br]оценивать это автоматически. 0:11:56.041,0:11:59.066 Им также нужна[br]какая-то методология или инструмент, 0:11:59.067,0:12:01.404 который бы помог им решить, 0:12:01.404,0:12:03.644 импортировать свои данные[br]или связывать их с Викиданными, 0:12:03.644,0:12:05.994 поскольку в некоторых случаях[br]у них есть свои наборы 0:12:05.994,0:12:07.137 связанных открытых данных, 0:12:07.138,0:12:09.746 поэтому они не знают,[br]публиковать эти данные 0:12:09.746,0:12:13.424 или создавать в наборах данных[br]ссылки на Викиданные 0:12:13.425,0:12:14.425 и наоборот. 0:12:14.950,0:12:20.044 Они также хотят знать, какие элементы[br]Викиданных ссылаются на их сайты. 0:12:20.044,0:12:22.790 Когда они делают такой запрос, 0:12:22.790,0:12:24.848 он остаётся без ответа[br]с истёкшим временем ожидания, 0:12:24.849,0:12:28.181 поэтому, возможно, нам действительно[br]стоит создавать больше инструментов, 0:12:28.181,0:12:32.240 которые помогут им получить[br]ответы на их вопросы. 0:12:33.148,0:12:36.208 Кроме того, 0:12:36.208,0:12:38.491 нам, вики-исследователям, 0:12:38.491,0:12:42.023 тоже иногда не хватает информации[br]в описаниях изменений. 0:12:42.024,0:12:44.953 Я помню, что когда[br]мы делали какую-то работу, 0:12:44.954,0:12:47.479 чтобы понять различное поведение 0:12:47.479,0:12:50.319 редакторов, ботов[br]или анонимных пользователей 0:12:50.319,0:12:53.403 с помощью инструментов, 0:12:53.403,0:12:56.154 нам действительно не хватало, например, 0:12:56.154,0:13:01.112 стандартного способа отслеживания[br]использования этих инструментов. 0:13:01.113,0:13:03.224 Есть несколько инструментов,[br]которые уже делают это, 0:13:03.224,0:13:05.230 например, PetScan и многие другие, 0:13:05.230,0:13:08.860 но, возможно, в сообществе[br]мы должны больше обсуждать, 0:13:08.860,0:13:13.611 как фиксировать более точное[br]происхождение данных. 0:13:14.169,0:13:16.111 Далее, мы полагаем, 0:13:16.111,0:13:20.801 что нужно подумать о более конкретных[br]показателях качества данных, 0:13:20.802,0:13:24.961 относящихся к связанным данным,[br]а не ко всем типам данных, 0:13:24.962,0:13:28.602 поэтому мы разрабатываем комплекс мер 0:13:28.602,0:13:31.752 для получения доступа[br]к приросту информации по ссылкам, 0:13:31.752,0:13:33.881 подразумевая то, 0:13:33.882,0:13:36.681 что когда мы связываем[br]Викиданные с другими наборами данных, 0:13:36.682,0:13:38.201 мы также должны думать о том, 0:13:38.202,0:13:41.921 сколько сущностей[br]получается в классификации, 0:13:41.922,0:13:45.601 описании и в словарях,[br]которыми они пользуются. 0:13:45.602,0:13:51.041 Просто для примера, что я имею в виду: 0:13:51.042,0:13:54.269 в нашем случае это будут Викиданные 0:13:54.270,0:13:57.771 или внешний набор данных,[br]который ссылается на Викиданные. 0:13:57.772,0:14:00.487 У нас есть сущность для человека[br]по имени Наташа Ной, 0:14:00.487,0:14:02.601 у нас есть принадлежность и другие вещи, 0:14:02.602,0:14:05.239 а затем мы ссылаемся на внешний источник, 0:14:05.240,0:14:08.919 и эта сущность с таким же именем,[br]но значение одно и то же. 0:14:08.920,0:14:12.889 Лучше сослаться на сущность[br]с другим действительным именем, 0:14:12.889,0:14:16.881 потому что имя этого человека[br]может быть написано двумя способами, 0:14:16.882,0:14:19.714 а также на другую информацию,[br]отсутствующую в Викиданных 0:14:19.715,0:14:21.760 или других наборах данных. 0:14:22.390,0:14:24.652 Лучше даже то, 0:14:24.653,0:14:27.770 что мы рассматриваем целевой набор данных, 0:14:27.770,0:14:31.392 что также существуют новые способы[br]классификации информации. 0:14:31.393,0:14:35.354 Не только то, что это человек,[br]но в другом наборе данных 0:14:35.355,0:14:38.061 сообщается, что это женщина,[br]или другая информация, 0:14:38.061,0:14:39.526 с которой классифицируется сущность. 0:14:39.526,0:14:43.401 В другом наборе данных[br]используются другие словари, 0:14:43.402,0:14:46.588 и это помогает при поиске информации. 0:14:48.291,0:14:51.233 Мы также считаем, 0:14:51.234,0:14:55.809 что можем более наглядно представлять[br]федеративные запросы, 0:14:55.810,0:15:00.448 потому что по журналу запросов,[br]предоставленному Малышевым и др., 0:15:01.285,0:15:04.301 мы видим, что на самом деле[br]среди органических запросов 0:15:04.302,0:15:06.921 число федеративных запросов[br]очень небольшое. 0:15:06.922,0:15:09.151 На самом деле, федерация является 0:15:09.151,0:15:12.776 одним из ключевых преимуществ[br]наличия связанных данных, 0:15:12.802,0:15:16.903 так что, возможно, сообществу или людям,[br]которые пользуются Викиданными, 0:15:16.903,0:15:18.898 тоже нужно больше примеров. 0:15:18.898,0:15:22.666 Если мы посмотрим на список[br]используемых точек доступа, 0:15:22.667,0:15:25.401 он будет неполным,[br]у нас есть намного больше. 0:15:25.402,0:15:30.479 Эти данные были проанализированы[br]по запросам до марта 2018 года, 0:15:30.480,0:15:34.807 но мы должны проверить список[br]имеющихся объединённых точек доступа 0:15:34.808,0:15:37.048 и посмотреть,[br]действительно ли мы их используем. 0:15:37.813,0:15:40.361 У меня есть два вопроса к зрителям, 0:15:40.361,0:15:43.081 которые, возможно, мы впоследствии[br]можем использовать для обсуждения: 0:15:43.081,0:15:46.001 какие, на ваш взгляд, проблемы[br]с качеством данных нужно рассмотреть, 0:15:46.002,0:15:47.412 учитывая ваши потребности, 0:15:47.412,0:15:50.401 а также, где вам нужно[br]больше автоматизации -- 0:15:50.402,0:15:52.943 при редактировании или патрулировании? 0:15:53.866,0:15:55.146 Это всё, большое спасибо. 0:15:55.779,0:15:57.527 (аплодисменты) 0:16:04.091,0:16:05.538 WikidataCon 2019[br]Викиданные и языки 0:16:05.538,0:16:07.603 Визуализация схемы сущности[br]и авторские инструменты 0:16:07.603,0:16:10.105 (Хосе Эмилио Лабра) Я расскажу[br]о некоторых инструментах, 0:16:10.105,0:16:12.606 которые мы разработали, 0:16:12.606,0:16:15.536 связанных с Shape Expressions. 0:16:15.536,0:16:19.371 Об этом я буду говорить.[br]Меня зовут Хосе Эмилио Лабра. 0:16:19.371,0:16:23.215 Все эти инструменты[br]были разработаны разными людьми, 0:16:23.920,0:16:26.780 в основном все они связаны[br]с сообществом W3C ShEx, 0:16:26.780,0:16:29.481 или сообществом Shape Expressions. 0:16:30.144,0:16:36.081 Первый инструмент -- RDFShape,[br]это общий инструмент, 0:16:36.082,0:16:40.681 потому что Shape Expressions[br]используется не только для Викиданных, 0:16:40.682,0:16:44.168 это язык для проверки RDF в целом. 0:16:44.168,0:16:47.568 Этот инструмент был разработан[br]в основном мной, 0:16:47.568,0:16:50.880 и это инструмент для проверки RDF. 0:16:50.881,0:16:55.139 Если вы хотите узнать о RDF[br]или проверить RDF 0:16:55.140,0:16:58.621 или точки доступа SPARQL[br]не только в Викиданных, 0:16:58.622,0:17:00.891 я советую вам пользоваться[br]этим инструментом. 0:17:00.891,0:17:03.255 В том числе и для обучения. 0:17:03.255,0:17:05.640 Я преподаю в университете 0:17:05.641,0:17:09.151 и пользуюсь им для обучения RDF[br]в своём веб-курсе по семантике. 0:17:09.161,0:17:12.121 Если хотите изучать RDF,[br]это хороший инструмент. 0:17:13.033,0:17:17.598 Например, это визуализация RDF-графа[br]с помощью этого инструмента. 0:17:18.587,0:17:22.643 Но прежде чем приехать сюда,[br]в прошлом месяце 0:17:22.643,0:17:28.441 я специально начал использовать [br]RDFShape для работы с Викиданными. 0:17:28.443,0:17:33.082 Инструмент называется WikiShape,[br]и вчера я подарил его Викиданным. 0:17:33.082,0:17:34.441 Что я сделал? 0:17:34.442,0:17:39.228 Я удалил всё,[br]что не связано с Викиданными, 0:17:39.228,0:17:42.912 добавил кое-что жёстко закодированное, 0:17:42.912,0:17:44.802 например, точку доступа SPARQL. 0:17:44.802,0:17:49.041 Но теперь меня попросили[br]сделать это и для Викибазы. 0:17:49.042,0:17:52.000 Это очень легко. 0:17:52.760,0:17:56.280 Этот инструмент WikiShape[br]достаточно новый. 0:17:57.015,0:17:59.843 Я думаю, что многие его функции работают, 0:17:59.844,0:18:02.468 но некоторые, возможно, не работают, 0:18:02.469,0:18:04.581 и если вы попробуете его[br]и захотите что-то улучшить, 0:18:04.581,0:18:06.281 пожалуйста, сообщите мне. 0:18:06.281,0:18:12.680 Здесь у нас скриншоты [неразборчиво],[br]но давайте попробуем. 0:18:15.385,0:18:17.003 Давайте посмотрим, работает ли он. 0:18:17.003,0:18:20.070 Во-первых, я должен выйти из... 0:18:22.453,0:18:23.453 Здесь. 0:18:24.226,0:18:28.324 Хорошо. Вот этот инструмент. 0:18:28.324,0:18:29.844 С помощью него вы можете, 0:18:29.845,0:18:35.275 например, проверить схемы сущностей. 0:18:35.276,0:18:38.611 Например, существует новое[br]пространство имён, начинающееся с «Е», 0:18:38.612,0:18:44.805 и здесь, если вы начнёте писать,[br]например, «человек»... 0:18:44.806,0:18:48.812 Когда вы пишете,[br]автозаполнение позволяет проверить, 0:18:48.812,0:18:52.001 например, существуют ли[br]выражения формы для людей, 0:18:52.790,0:18:55.937 и вот здесь появляются выражения формы. 0:18:55.938,0:18:59.841 Как видите, в этом редакторе[br]есть подсветка синтаксиса. 0:18:59.842,0:19:04.559 Возможно, экран очень маленький. 0:19:05.676,0:19:07.590 Попробую увеличить. 0:19:09.194,0:19:10.973 Может, сейчас лучше видно. 0:19:10.973,0:19:14.241 Это редактор с подсветкой синтаксиса. 0:19:14.241,0:19:17.851 Для редактора используется[br]тот же исходный код, 0:19:17.851,0:19:19.641 что и для службы запросов Викиданных. 0:19:19.642,0:19:23.960 Так, например,[br]если вы наведёте мышкой сюда, 0:19:23.961,0:19:27.961 он покажет вам метки разных свойств. 0:19:27.962,0:19:31.298 Я думаю, это очень полезно,[br]потому что сейчас, 0:19:32.588,0:19:38.602 схемы сущностей в Викиданных --[br]это просто текст, 0:19:38.602,0:19:42.493 и я думаю, этот редактор намного лучше,[br]потому что у него есть автозаполнение, 0:19:42.494,0:19:43.743 и он также имеет... 0:19:43.744,0:19:48.241 Если вы, например,[br]хотите добавить ограничение, 0:19:48.241,0:19:51.570 вы пишете wdt:, 0:19:51.570,0:19:56.884 а затем начинаете писать auth,[br]нажимаете Ctrl+Space, 0:19:56.884,0:19:58.922 и он предлагает разные варианты. 0:19:58.922,0:20:02.388 Это похоже на службу запросов Викиданных, 0:20:02.389,0:20:06.445 но специально для выражений формы. 0:20:06.445,0:20:11.975 Так как я думаю,[br]что создание выражений формы 0:20:11.976,0:20:15.841 не сложнее,[br]чем написание SPARQL-запросов. 0:20:15.842,0:20:21.255 Хотя некоторые думают,[br]что это примерно одинаково по сложности. 0:20:22.278,0:20:26.296 Я думаю, это проще,[br]потому что Shape Expressions 0:20:26.296,0:20:31.241 был создан с целью облегчить работу. 0:20:31.242,0:20:35.001 Первое, что у вас есть -- это редактор 0:20:35.001,0:20:36.620 для выражений формы. 0:20:37.371,0:20:41.467 Здесь есть возможность,[br]например, визуализации. 0:20:41.468,0:20:44.801 Если у вас есть какое-то[br]выражение формы, например... 0:20:44.802,0:20:49.386 Думаю, written work -- хороший пример, 0:20:49.386,0:20:53.300 поскольку в нём есть взаимосвязь[br]между разными сущностями. 0:20:54.823,0:20:58.160 Вот UML-визуализация для written work. 0:20:58.161,0:21:02.090 Здесь легко увидеть разные свойства. 0:21:02.790,0:21:06.794 Когда вы делаете это совместно[br]с несколькими людьми, 0:21:06.795,0:21:09.216 они находят ошибки[br]в своих выражениях формы, 0:21:09.217,0:21:12.988 потому что так можно легко найти[br]недостающие свойства. 0:21:13.588,0:21:15.771 Есть ещё одна возможность проверки, 0:21:15.772,0:21:19.520 кажется, у меня она вот здесь. 0:21:20.496,0:21:25.285 Это было на какой-то вкладке,[br]возможно, я закрыл её. 0:21:26.267,0:21:30.988 Но вы можете, например,[br]нажать Validate entities. 0:21:32.308,0:21:34.232 Например, 0:21:35.404,0:21:41.921 Q42 сравнить с E42, схемой для авторов. 0:21:42.818,0:21:46.180 Думаю, можно попробовать[br]со схемой для людей. 0:21:49.050,0:21:50.050 А потом... 0:21:50.688,0:21:56.365 Это SPARQL-запрос,[br]и он занимает какое-то время, 0:21:56.365,0:21:59.134 например, сейчас сбой в сети, но... 0:21:59.657,0:22:01.580 Вы можете попробовать. 0:22:02.759,0:22:07.026 Давайте расскажем о других инструментах. 0:22:07.026,0:22:12.353 Если хотите попробовать[br]и у вас есть предложения, дайте мне знать. 0:22:13.133,0:22:15.540 Продолжим презентацию. 0:22:18.923,0:22:20.233 Это WikiShape. 0:22:23.800,0:22:26.509 Как я уже говорил, 0:22:27.681,0:22:34.157 Редактор Shape Expressions --[br]независимый проект на GitHub. 0:22:35.605,0:22:37.472 Вы можете использовать его[br]в своём проекте. 0:22:37.472,0:22:41.036 Если хотите использовать[br]инструмент Shape Expressions, 0:22:41.036,0:22:45.635 вы можете просто встроить его[br]в любой другой проект, 0:22:45.636,0:22:48.235 его можно найти на GitHub,[br]и им можно пользоваться. 0:22:48.868,0:22:51.970 Тот же автор, один из моих учеников, 0:22:52.684,0:22:55.704 также создал редактор[br]для Shape Expressions, 0:22:55.704,0:22:57.799 вдохновившись[br]службой запросов Викиданных. 0:23:00.682,0:23:05.103 Этот редактор более наглядный[br]для SPARQL-запросов, 0:23:05.104,0:23:07.135 куда вы можете загрузить подобные вещи. 0:23:07.136,0:23:09.123 Это снимок экрана. 0:23:09.123,0:23:12.662 Как видите, выражения формы[br]здесь в виде текста. 0:23:12.662,0:23:17.822 Но здесь они на базе форм,[br]и, вероятно, потребуется больше времени, 0:23:18.595,0:23:23.400 но вы можете вставлять[br]разные строки в разные поля. 0:23:23.401,0:23:25.800 Это ShExEr. 0:23:26.879,0:23:31.882 Его сделал аспирант[br]Университета Овьедо, 0:23:31.883,0:23:34.080 он сегодня здесь,[br]и расскажет вам о ShExEr. 0:23:38.147,0:23:40.024 (Данни) Привет, я Данни Фернандес, 0:23:40.025,0:23:44.099 аспирант Университета Овьедо,[br]работаю с Лаброй. 0:23:44.710,0:23:47.725 У нас заканчивается время,[br]поэтому давайте ускоримся. 0:23:47.726,0:23:52.641 Я покажу несколько скриншотов[br]вместо всей презентации. 0:23:52.642,0:23:57.897 Обычный способ работы с Shape Expressions[br]или любым подобным языком: 0:23:57.897,0:23:59.521 есть специалист, 0:23:59.522,0:24:02.313 который определяет,[br]как должен выглядеть граф, 0:24:02.314,0:24:03.555 определяет структуры, 0:24:03.556,0:24:06.983 а затем вы используете эти структуры[br]для проверки фактических данных. 0:24:08.124,0:24:11.641 Инструмент, о котором рассказал Лабра, -- 0:24:11.642,0:24:14.441 общего назначения[br]для любого RDF-источника, 0:24:14.442,0:24:17.375 и он может работать[br]в обратном направлении. 0:24:17.376,0:24:18.758 У вас уже есть некоторые данные, 0:24:18.759,0:24:23.165 вы выбираете узлы,[br]форму которых хотите получить, 0:24:23.165,0:24:26.718 а затем автоматически[br]извлекаете или выводите форму. 0:24:26.719,0:24:29.791 Несмотря на то, что это инструмент[br]общего назначения, 0:24:29.791,0:24:34.063 мы сделали волшебную кнопку[br]для этой конференции, 0:24:34.884,0:24:37.081 и если вы нажмёте на неё, 0:24:37.081,0:24:42.079 появятся параметры конфигурации, 0:24:42.080,0:24:46.251 и он настроит работу[br]с точкой доступа Викиданных, 0:24:46.251,0:24:47.971 простите, он скоро закончит. 0:24:48.733,0:24:52.883 После нажатия этой кнопки[br]вы, по сути, получаете это. 0:24:52.884,0:24:55.126 Выбрав необходимые вам узлы 0:24:55.127,0:24:57.431 или экземпляры класса, 0:24:57.431,0:24:59.361 что бы вы ни искали, 0:24:59.361,0:25:01.321 вы получите автоматическую схему. 0:25:02.319,0:25:07.111 Все ограничения отсортированы[br]по количеству узлов, 0:25:07.112,0:25:09.772 можно отфильтровать[br]наименее распространённые и так далее. 0:25:09.772,0:25:12.126 Внизу есть плакат об этом материале, 0:25:12.127,0:25:14.595 я буду на нижнем и верхнем этажах, 0:25:14.596,0:25:16.454 а также в других местах, 0:25:16.455,0:25:19.081 поэтому если у вас будет интерес[br]к этому инструменту, 0:25:19.082,0:25:21.476 просто обращайтесь ко мне. 0:25:21.477,0:25:24.624 Отдаю микрофон Лабре, спасибо. 0:25:24.625,0:25:29.265 (аплодисменты) 0:25:29.812,0:25:32.578 (Хосе) Давайте обсудим[br]другие инструменты. 0:25:32.579,0:25:34.984 ShapeDesigner -- ещё один инструмент. 0:25:34.984,0:25:37.241 Андра, хочешь рассказать о ShapeDesigner 0:25:37.242,0:25:39.957 или позже на семинаре? 0:25:40.173,0:25:44.437 Сегодня будет семинар,[br]посвящённый Shape Expressions, 0:25:45.265,0:25:47.939 мы попробуем его на практике, 0:25:47.940,0:25:52.324 так что если хотите попрактиковаться[br]с ShEx, то вам сюда. 0:25:52.875,0:25:55.300 Это инструмент ShEx.js, 0:25:55.300,0:25:56.890 и Эрик может рассказать о нём. 0:25:57.969,0:26:00.687 (Эрик) Расскажу очень быстро. 0:26:00.687,0:26:05.711 Вы, вероятно, уже видели интерфейс ShEx, 0:26:05.711,0:26:07.601 заточенный под Викиданные. 0:26:07.602,0:26:12.930 Его сократили и адаптировали[br]специально под Викиданные 0:26:12.930,0:26:15.567 потому что в нём больше возможностей, 0:26:15.567,0:26:17.937 но я, кажется, говорил об этом, 0:26:17.937,0:26:19.977 потому что одна из этих функций[br]особенно полезна 0:26:19.978,0:26:23.201 для отладки схем Викиданных. 0:26:23.201,0:26:29.224 Если вы выбираете полный режим, 0:26:29.225,0:26:31.444 то пока я буду проводить проверку 0:26:31.445,0:26:34.694 всех этих триплетов, 0:26:34.695,0:26:36.274 и если я получу множество ошибок, 0:26:36.275,0:26:40.396 я могу пройтись по этим ошибкам 0:26:40.396,0:26:44.120 и посмотреть, какие триплеты здесь, внизу. 0:26:44.121,0:26:45.967 Это просто журнал того,[br]как всё происходило. 0:26:46.327,0:26:49.180 Затем можете поиграть с этим, 0:26:49.181,0:26:51.033 чтобы поменять что-либо. 0:26:51.033,0:26:54.160 Это более быстрая версия[br]того, как это сделать. 0:26:55.361,0:26:56.481 Это форма ShExC -- 0:26:56.482,0:26:59.455 то, что предлагал Йохим, 0:27:00.035,0:27:04.631 что может быть полезно[br]для заполнения документов Викиданных 0:27:04.631,0:27:07.338 на основе выражения формы[br]для этого документа. 0:27:08.095,0:27:11.681 Она не адаптирована под Викиданные. 0:27:11.682,0:27:14.081 Я просто показываю,[br]что можно взять схему, 0:27:14.082,0:27:15.402 сделать аннотации, 0:27:15.403,0:27:17.518 чтобы конкретно указать,[br]какую схему вы хотите, 0:27:17.519,0:27:19.031 потом просто создать форму 0:27:19.031,0:27:21.191 и, если у вас есть данные,[br]можно заполнить форму. 0:27:24.517,0:27:26.164 PyShEx [неразборчиво]. 0:27:28.025,0:27:31.080 (Хосе) Думаю, это последний инструмент. 0:27:31.821,0:27:34.080 Да, это PyShEx. 0:27:34.675,0:27:38.151 PyShEx -- это Shape Expressions,[br]реализованный на Python, 0:27:39.193,0:27:42.680 он совместим с Jupyter Notebooks. 0:27:42.680,0:27:44.432 Итак, это всё. 0:27:44.433,0:27:47.170 (аплодисменты) 0:27:52.916,0:27:56.088 (Андра) Итак, я расскажу[br]о конкретном проекте, 0:27:56.088,0:27:58.074 в котором участвую -- Gene Wiki, 0:27:58.865,0:28:04.366 и в котором мы тоже занимаемся[br]вопросами качества. 0:28:04.597,0:28:06.684 Прежде чем говорить о качестве, 0:28:06.685,0:28:09.229 я кратко расскажу вам о Gene Wiki. 0:28:09.855,0:28:15.175 Мы только что выпустили[br]предварительную версию статьи, 0:28:15.175,0:28:18.160 в которой описаны детали проекта. 0:28:19.821,0:28:22.066 Я вижу, люди фотографируют... 0:28:22.066,0:28:25.076 Gene Wiki публикует в Викиданных 0:28:25.076,0:28:28.027 общедоступные биомедицинские данные, 0:28:28.028,0:28:32.200 используя для этого определённый шаблон. 0:28:33.130,0:28:36.809 Если у нас появляется[br]новое хранилище или набор данных, 0:28:36.810,0:28:39.600 который можно включить Викиданные, 0:28:39.601,0:28:41.293 первый шаг -- вовлечение сообщества. 0:28:41.294,0:28:43.784 Необязательно сообщества Викиданных, 0:28:43.785,0:28:46.120 но местного исследовательского сообщества. 0:28:46.121,0:28:50.286 Мы встречаемся лично,[br]онлайн или на любой платформе 0:28:50.286,0:28:52.881 и пробуем придумать модель данных, 0:28:52.882,0:28:56.197 которая соединит их данные[br]с моделью Викиданных. 0:28:56.197,0:28:59.944 Вот фотография прошлогоднего семинара, 0:28:59.945,0:29:02.663 на котором мы анализировали[br]определённый набор данных, 0:29:02.663,0:29:05.280 и как видите, было много обсуждений, 0:29:05.281,0:29:07.960 затем приведение его[br]в соответствие с schema.org 0:29:07.960,0:29:10.320 и другими существующими онтологиями. 0:29:10.320,0:29:15.508 В конце первого шага[br]у нас на доске появился чертёж схемы, 0:29:15.509,0:29:17.336 которую мы хотим добавить в Викиданные. 0:29:17.337,0:29:20.440 Вы видите, она несложная, 0:29:20.441,0:29:22.116 на заднем плане, 0:29:22.116,0:29:26.270 и мы можем построить какие-то схемы[br]даже здесь, в рамках этой дискуссии. 0:29:26.560,0:29:28.399 Если у нас есть схема, 0:29:28.400,0:29:31.320 следующий шаг -- попытаться сделать[br]эта схему машиночитаемой, 0:29:32.358,0:29:36.841 чтобы иметь работающие модели[br]для переноса внешних данных 0:29:36.842,0:29:39.690 из любой медико-биологической[br]базы данных в Викиданные. 0:29:40.393,0:29:45.182 Здесь мы применяем[br]инструмент Shape Expressions, 0:29:46.471,0:29:52.518 поскольку он позволяет проверить, 0:29:52.518,0:29:57.040 является ли набор данных...[br]Сначала увидеть, 0:29:57.040,0:30:01.782 что уже существующие данные в Викиданных[br]следуют той же модели данных, 0:30:01.783,0:30:04.718 которая была получена[br]в предыдущих процессах. 0:30:04.719,0:30:06.641 С помощью Shape Expressions[br]мы можем проверить, 0:30:06.642,0:30:10.926 требуется ли корректировка данных[br]по этой теме в Викиданных, 0:30:10.926,0:30:15.013 нужно ли адаптировать нашу модель[br]к модели Викиданных или наоборот. 0:30:15.937,0:30:19.867 Как только всё на месте,[br]мы начинаем писать ботов, 0:30:20.670,0:30:23.801 а боты загружают информацию 0:30:23.802,0:30:27.308 из первоисточников в Викиданные. 0:30:27.846,0:30:29.303 Когда боты готовы, 0:30:29.304,0:30:33.851 а мы пишем их на платформе[br]WikidataIntegrator, 0:30:33.851,0:30:36.201 используя библиотеку Python, 0:30:36.202,0:30:38.167 которая появилась[br]в результате нашего проекта. 0:30:38.698,0:30:42.921 Когда боты написаны,[br]мы используем платформу Jenkins 0:30:42.921,0:30:44.540 для непрерывной интеграции. 0:30:44.540,0:30:45.762 С помощью Jenkins 0:30:45.762,0:30:51.160 мы постоянно обновляем[br]первоначальные источники с Викиданными. 0:30:52.178,0:30:55.889 Вот диаграмма, о которой я говорил ранее. 0:30:55.890,0:30:57.241 Это её текущий вид. 0:30:57.242,0:31:02.059 Оранжевые прямоугольники --[br]первоисточники медикаментов, 0:31:02.060,0:31:07.827 белков, генов, заболеваний,[br]химических соединений, со взаимосвязями, 0:31:07.827,0:31:10.870 но её невозможно прочитать сейчас,[br]поскольку она слишком маленькая, 0:31:10.870,0:31:17.472 но это база данных, источниками которых[br]мы управляем в Викиданных 0:31:17.473,0:31:20.560 и соединяем с первоисточниками. 0:31:20.561,0:31:22.355 Так выглядит наш рабочий процесс. 0:31:22.870,0:31:25.312 Один из наших партнёров --[br]онтология заболеваний. 0:31:25.312,0:31:28.289 Онтология заболеваний имеет лицензию CC0, 0:31:28.289,0:31:31.990 и такая онтология[br]имеет свой цикл курирования. 0:31:32.756,0:31:35.736 Онтология заболеваний[br]постоянно обновляется, 0:31:35.737,0:31:39.687 чтобы отразить базу заболеваний[br]или их объяснение. 0:31:40.336,0:31:44.361 Здесь изображён цикл курирования[br]Викиданных по заболеваниям, 0:31:44.362,0:31:49.844 где сообщество постоянно следит за тем,[br]что происходит с Викиданными. 0:31:50.406,0:31:51.601 Есть две роли. 0:31:51.602,0:31:55.477 Мы упрощённо называем их[br]хранитель-куратор, 0:31:56.009,0:31:59.561 и это были я и мой коллега пять лет назад. 0:31:59.562,0:32:03.414 Мы просто сидели за компьютерами[br]и мониторили Википедию и Викиданные, 0:32:03.415,0:32:08.601 и если была проблема, мы сообщали о ней[br]первоначальному сообществу, 0:32:08.602,0:32:11.765 первоначальным источникам,[br]они смотрели на реализацию и решали, 0:32:11.765,0:32:14.240 доверять ли данным,[br]введённым в Викиданные. 0:32:14.850,0:32:18.555 Если да, начинался цикл 0:32:18.555,0:32:22.686 и следующий шаг --[br]часть онтологии заболеваний 0:32:22.687,0:32:25.411 возвращалась в Викиданные. 0:32:27.419,0:32:31.480 Для WikiPathways мы делаем то же самое. 0:32:31.481,0:32:34.202 WikiPathways -- база данных[br]биологических путей, 0:32:34.202,0:32:36.602 вдохновлённая MediaWiki. 0:32:36.602,0:32:40.901 В Викиданных уже существуют[br]различные источники путей. 0:32:41.463,0:32:44.713 Между ними могут возникать конфликты, 0:32:45.312,0:32:49.521 и хранителям-кураторам[br]сообщается об их возникновении, 0:32:49.522,0:32:53.715 и вы управляете индивидуальными[br]циклами курирования. 0:32:53.715,0:32:57.068 Но если вы помните предыдущий цикл, 0:32:57.069,0:33:03.041 где речь велась[br]только о двух циклах, двух ресурсах, 0:33:03.566,0:33:06.300 нам нужно делать это[br]для каждого имеющегося ресурса 0:33:06.300,0:33:08.061 и нужно управлять происходящим, 0:33:08.062,0:33:09.775 потому что под курированием 0:33:09.775,0:33:14.157 я подразумеваю постоянное отслеживание[br]страниц Википедии и Викиданных. 0:33:14.545,0:33:19.316 Такая работа явно не для двух[br]хранителей-кураторов. 0:33:19.860,0:33:22.777 На конференции в 2016 году, 0:33:22.778,0:33:26.933 когда Эрик рассказывал[br]о Shape Expressions, 0:33:26.934,0:33:29.277 я присоединился, и подумал, 0:33:29.278,0:33:34.240 что Shape Expressions может помочь[br]выявить различия в Викиданных, 0:33:34.240,0:33:41.159 которые помогут хранителям[br]делать более подробные отчёты. 0:33:42.275,0:33:46.019 В этом году я был в восторге[br]от схемы сущности, 0:33:46.020,0:33:50.765 потому что теперь мы можем хранить[br]эти схемы в Викиданных, 0:33:50.765,0:33:53.183 до этого мы хранили их на GitHub. 0:33:53.860,0:33:56.815 Схема согласуется[br]с интерфейсом Викиданных, 0:33:56.816,0:33:59.350 здесь есть обсуждение документа, 0:33:59.350,0:34:00.762 но также доступны правки. 0:34:00.763,0:34:03.012 Вы можете пользоваться[br]первыми страницами 0:34:03.012,0:34:05.262 и правками в Викиданных, 0:34:05.262,0:34:12.255 чтобы обсуждать то,[br]что имеется в Викиданных 0:34:12.255,0:34:14.060 и первоначальных источниках. 0:34:14.966,0:34:19.686 Эрик уже об этом говорил,[br]это очень помогает. 0:34:19.686,0:34:24.335 Мы создали выражение формы[br]для гена человека, 0:34:24.336,0:34:30.225 потом пропустили его через ShEx,[br]как вы видите, 0:34:30.225,0:34:32.428 мы получили... 0:34:32.429,0:34:34.641 Есть один элемент, [br]за которым нужно следить, -- 0:34:34.642,0:34:37.316 он не вписывается в эту схему, 0:34:37.316,0:34:43.139 и затем вы можете создать[br]сущности схемы, отчёты курирования, 0:34:43.140,0:34:46.240 и отправить их в разные отчёты. 0:34:48.058,0:34:52.788 Но ShEx -- это встроенный интерфейс, 0:34:52.788,0:34:55.860 и здесь я смогу показать только десять, 0:34:55.860,0:35:00.362 но у нас десятки тысяч,[br]и они несоизмеримы. 0:35:00.362,0:35:04.654 Интегратор Викиданных[br]теперь поддерживает ShEx, 0:35:05.168,0:35:07.431 и мы просто можем замкнуть[br]петли элементов, 0:35:07.431,0:35:11.494 указав «да-нет, да-нет,[br]правда-ложь, правда-ложь». 0:35:11.495,0:35:12.495 снова, 0:35:13.065,0:35:16.514 повышая эффективность[br]при составлении отчётов. 0:35:17.256,0:35:22.662 Но с недавних пор он строится[br]на сервисе запросов Викиданных, 0:35:23.181,0:35:24.998 мы недавно регулировали[br]количество запросов, 0:35:24.999,0:35:26.560 и это тоже несоизмеримо. 0:35:26.561,0:35:31.391 Работа с моделями на Викиданных --[br]непрерывный процесс. 0:35:32.202,0:35:36.682 ShEx не только пугает, 0:35:36.683,0:35:40.356 но он ещё и громоздкий. 0:35:41.068,0:35:43.192 Я начал работать, 0:35:43.192,0:35:46.082 это мой первый эксперимент или упражнение, 0:35:46.082,0:35:48.184 где был использован инструмент yEd, 0:35:48.184,0:35:52.591 и затем я начал отрисовывать[br]эти выражения формы, 0:35:52.591,0:35:58.098 и потом регенерировать эту схему 0:35:58.099,0:36:01.279 в формат, близкий к Shape Expressions, 0:36:01.280,0:36:04.520 понятный людям, 0:36:04.521,0:36:07.432 которых слишком пугает[br]язык Shape Expressions. 0:36:07.961,0:36:12.308 Но есть проблема с визуальным описанием, 0:36:12.309,0:36:18.229 потому что это также схема,[br]кем-то нарисованная в yEd. 0:36:18.230,0:36:23.838 Вот ещё одна, замечательная. 0:36:23.838,0:36:26.601 Я бы такую себе на стену повесил, 0:36:27.271,0:36:30.281 но она пока несовместима. 0:36:30.281,0:36:33.371 Хочу завершить своё выступление слайдом, 0:36:33.371,0:36:35.732 который я позаимствовал. 0:36:35.732,0:36:37.594 Для меня честь показать его аудитории. 0:36:37.595,0:36:39.423 Он мне очень нравится: 0:36:39.424,0:36:42.362 «Люди думают, что RDF -- это боль[br]из-за его сложности. 0:36:42.362,0:36:43.745 Но на самом деле всё ещё хуже. 0:36:43.745,0:36:48.133 RDF очень прост, но он позволяет работать[br]с реальными данными 0:36:48.134,0:36:50.031 и невероятно сложными проблемами. 0:36:50.031,0:36:52.361 Можно избежать использования RDF, 0:36:52.361,0:36:55.760 но вряд ли получится избежать[br]сложных данных и компьютерных проблем». 0:36:55.761,0:36:59.535 Речь об RDF, но, я думаю,[br]подходит под моделирование в целом. 0:37:00.112,0:37:02.769 Мой вопрос -- должны ли мы... 0:37:03.387,0:37:05.882 Как мы будем моделировать? 0:37:05.882,0:37:10.826 Поговорим о ShEx,[br]или визуальных моделях, или... 0:37:11.426,0:37:13.271 Как нам продолжить? 0:37:13.474,0:37:14.840 Спасибо за уделённое время. 0:37:15.102,0:37:17.787 (аплодисменты) 0:37:20.001,0:37:21.188 (Лидия) Спасибо большое. 0:37:21.692,0:37:24.001 Можете выйти вперёд, 0:37:24.002,0:37:27.741 чтобы аудитория могла задать вопросы. 0:37:28.610,0:37:30.203 Есть вопросы? 0:37:31.507,0:37:32.507 Да. 0:37:34.253,0:37:36.890 Думаю, для камеры нужно, чтобы... 0:37:38.835,0:37:40.968 (Лидия смеётся) Да. 0:37:43.094,0:37:46.273 (голос из зала 1) Вопрос Кристине, думаю. 0:37:47.366,0:37:51.641 Вы упоминали термин «прирост информации» 0:37:51.642,0:37:53.689 от объединения с другими системами. 0:37:53.690,0:37:56.579 Существует информационно-теоретический[br]показатель -- прирост информации, 0:37:56.579,0:37:58.201 основанный на статистике и вероятности. 0:37:59.542,0:38:01.736 Вы имели в виду именно этот показатель? 0:38:01.736,0:38:04.173 Прирост информации[br]на основе теории вероятности, 0:38:04.174,0:38:05.240 теории информации, 0:38:05.241,0:38:09.024 или просто такая концептуальная идея[br]для измерения прироста информации? 0:38:09.025,0:38:13.016 Нет, мы действительно[br]определили и применили показатели, 0:38:13.695,0:38:20.161 используя энтропию Шеннона,[br]поэтому смысл именно такой. 0:38:20.162,0:38:22.416 Не хочу вдаваться в детали[br]конкретных формул... 0:38:22.416,0:38:24.977 (голос из зала 1) Нет, конечно,[br]поэтому и прозвучал вопрос. 0:38:24.978,0:38:27.178 - (Кристина) Да.[br]- (голос из зала 1) Спасибо. 0:38:33.091,0:38:35.407 (голос из зала 2) Это больше[br]комментарий, нежели вопрос. 0:38:35.407,0:38:36.541 (Лидия) Да, конечно. 0:38:36.541,0:38:39.840 (голос из зала 2) Акцент был на элементах, 0:38:39.840,0:38:42.547 на их качестве и полноте, 0:38:42.547,0:38:47.374 но меня беспокоит,[br]что мы не применяем это к иерархиям, 0:38:47.374,0:38:51.480 и наша частая проблема -- плохая иерархия. 0:38:51.481,0:38:53.463 Мы видим, что это становится[br]реальной проблемой 0:38:53.464,0:38:55.774 при обычным поиске и других вещах. 0:38:56.771,0:39:01.321 Мы можем импортировать способ, 0:39:01.321,0:39:04.842 по которому внешние тезаурусы[br]выстраивают свои иерархии, 0:39:04.842,0:39:10.291 используя квалификатор P4900,[br]более широкое понятие. 0:39:11.037,0:39:16.167 Но я думаю, для этого есть[br]более подходящие инструменты, 0:39:16.168,0:39:21.212 и вы сможете импортировать[br]иерархию внешнего тезауруса, 0:39:21.212,0:39:24.111 отобразить её на элементы Викиданных. 0:39:24.111,0:39:28.199 И связав её с этими квалификаторами P4900, 0:39:28.200,0:39:31.494 вы можете делать[br]хорошие запросы через SPARQL, 0:39:32.490,0:39:37.534 чтобы увидеть, где наша иерархия[br]расходится с внешней. 0:39:37.534,0:39:41.346 Например, вы можете знать[br][Паолу Морма], под псевдонимом PKM, 0:39:41.346,0:39:43.533 этот пользователь[br]создаёт много статей о моде. 0:39:43.533,0:39:50.524 Мы включаем их в иерархию[br]тезауруса европейской моды 0:39:50.524,0:39:53.812 и в иерархию тезауруса[br]искусства и архитектуры, 0:39:53.812,0:39:57.957 а потом мы видим, какие пробелы[br]были в элементах более высокого уровня. 0:39:57.957,0:40:01.231 Для нас это реальная проблема,[br]потому что часто попадаются вещи, 0:40:01.231,0:40:04.355 которые существуют в Википедии[br]только как страницы значений, 0:40:04.356,0:40:09.270 многие элементы более высокого уровня[br]отсутствуют в наших иерархиях, 0:40:09.271,0:40:14.480 и мы должны рассмотреть это[br]с точки зрения качества и полноты, 0:40:14.480,0:40:18.773 но что действительно поможет,[br]станет лучшим инструментом, 0:40:18.773,0:40:20.871 чем те дебри скриптов, написанных мной, -- 0:40:20.872,0:40:26.010 если бы кто-то поместил это[br]в PAWS notebook на Python, 0:40:26.561,0:40:31.972 чтобы можно было извлечь[br]внешний тезаурус, взять его иерархию, 0:40:31.973,0:40:34.595 которая может быть доступна[br]как связанные данные или же нет, 0:40:35.169,0:40:40.580 чтобы поместить это в QuickStatements,[br]чтобы вставить значения P4900. 0:40:41.165,0:40:42.165 Затем позже, 0:40:42.166,0:40:44.527 когда наше представление[br]станет более сложным, 0:40:44.528,0:40:49.691 обновить эти значения P4900,[br]потому что добавляются данные, 0:40:49.691,0:40:51.590 представление становится[br]более комплексным, 0:40:51.590,0:40:55.377 значения этих квалификаторов нужно менять, 0:40:56.230,0:40:59.526 чтобы показать, что в нашей системе[br]всё больше их иерархии. 0:40:59.526,0:41:03.728 Если бы кто-то мог сделать это,[br]думаю, это было бы очень полезно, 0:41:03.728,0:41:07.121 и мы должны рассмотреть[br]и другие подходы 0:41:07.122,0:41:10.762 для улучшения качества и полноты[br]на уровне иерархии, 0:41:10.763,0:41:12.378 а не только на уровне элемента. 0:41:13.308,0:41:14.840 (Андра) Могу я кое-что добавить? 0:41:16.362,0:41:19.901 Да, и мы это делаем, 0:41:19.911,0:41:23.551 и я рекомендую посмотреть[br]на выражение формы, которое сделал Финн 0:41:23.552,0:41:25.530 с лексическими данными, 0:41:25.530,0:41:27.330 где он создаёт выражения формы, 0:41:27.330,0:41:29.640 а затем опирается[br]на другие выражения формы, 0:41:29.641,0:41:32.678 так получается концепция[br]связанных выражений формы в Викиданных. 0:41:32.678,0:41:35.235 В частности, пример использования,[br]если я правильно понимаю -- 0:41:35.235,0:41:37.183 это именно то, что мы делаем в Gene Wiki. 0:41:37.184,0:41:40.841 Есть онтология заболеваний,[br]которая помещена в Викиданные, 0:41:40.842,0:41:44.681 а затем поступают данные о заболевании,[br]и мы применяем Shape Expressions, 0:41:44.683,0:41:47.248 чтобы посмотреть,[br]соответствуют ли данные тезаурусу. 0:41:47.248,0:41:50.919 Есть и другие тезаурусы или другие[br]онтологии или контролируемые словари, 0:41:50.920,0:41:52.559 которые ещё должны войти в Викиданные, 0:41:52.559,0:41:55.351 и именно поэтому инструмент[br]Shape Expressions так интересен -- 0:41:55.351,0:41:57.963 вы можете применять его[br]для онтологии заболеваний, 0:41:57.964,0:41:59.644 для MeSH. 0:41:59.645,0:42:01.851 Теперь вам нужно проверить качество. 0:42:01.851,0:42:04.059 Потому что в Викиданных[br]также есть контекст, 0:42:04.060,0:42:09.567 когда у вас есть контролируемый словарь,[br]вы считаете, что качество соответствует, 0:42:09.568,0:42:11.636 но могут быть случаи,[br]когда сообщество не согласно. 0:42:11.636,0:42:16.081 Инструмент уже есть,[br]но теперь нужно создать эти модели 0:42:16.082,0:42:18.144 и применять их для разных случаев. 0:42:18.811,0:42:20.921 (голос из зала 2)[br]Shape Expressions очень полезен, 0:42:20.922,0:42:25.928 если у вас уже есть внешняя онтология,[br]которая отображается в Викиданных, 0:42:25.929,0:42:29.474 но моя проблема в том,[br]что всё доходит до той стадии, 0:42:29.475,0:42:34.881 когда выясняется, какой части[br]внешней онтологии ещё нет в Викиданных, 0:42:34.882,0:42:36.256 и где есть пробелы, 0:42:36.257,0:42:40.660 и, я думаю, в этом случае иметь[br]более надёжные инструменты, 0:42:40.660,0:42:44.286 чтобы увидеть, чего не хватает[br]из внешних онтологий, 0:42:44.286,0:42:45.537 было бы очень полезно. 0:42:47.678,0:42:49.062 Самая большая проблема 0:42:49.062,0:42:51.201 не в инструментах, а в лицензировании. 0:42:51.803,0:42:55.249 Поместить онтологии в Викиданные[br]на самом деле очень просто, 0:42:55.250,0:42:59.295 но большинство онтологий имеют,[br]как я это вежливо называю, 0:42:59.965,0:43:03.256 ограниченное лицензирование,[br]поэтому они не совместимы с Викиданными. 0:43:04.068,0:43:06.998 (голос из зала 2) Есть множество[br]тезаурусов из государственного сектора 0:43:06.998,0:43:08.209 в сфере культуры. 0:43:08.210,0:43:11.151 - (Андра) Тогда нам нужно поговорить.[br]- (голос из зала 2) Это не проблема. 0:43:11.151,0:43:12.494 (Андра) Тогда поговорим. 0:43:13.624,0:43:19.192 (голос из зала 3) Мой комментарий --[br]на самом деле ответ Джеймсу. 0:43:19.192,0:43:22.401 Дело в том, что из иерархий[br]получаются графы, 0:43:22.374,0:43:24.041 и когда ты хочешь... 0:43:24.579,0:43:28.888 Я хочу в основном поговорить[br]об общей проблеме в иерархиях -- 0:43:28.889,0:43:30.820 о циклических иерархиях, 0:43:30.821,0:43:33.796 они возвращаются друг к другу,[br]когда есть проблема, 0:43:33.796,0:43:35.920 которой в иерархиях не должно быть. 0:43:37.022,0:43:41.295 Это, как ни странно,[br]часто встречается в категориях Википедии 0:43:41.295,0:43:42.990 у нас много циклов в категориях, 0:43:43.898,0:43:46.612 но хорошая новость в том, что это... 0:43:47.713,0:43:50.393 Технически, это NP-полная задача, 0:43:50.393,0:43:51.583 и вы не можете найти её, 0:43:51.583,0:43:53.414 но легко найдёте, построив граф. 0:43:54.473,0:43:57.046 Но было разработано много способов 0:43:57.047,0:44:00.624 для нахождения проблем[br]в этих иерархических графах. 0:44:00.625,0:44:04.860 Есть такая статья... 0:44:04.861,0:44:07.955 о разрыве циклов в искажённых иерархиях, 0:44:07.956,0:44:12.671 и перечисленные в ней методы помогли [br]при категоризации английской Википедии. 0:44:12.672,0:44:17.141 Вы можете просто применять[br]эти иерархии в Викиданных, 0:44:17.142,0:44:19.540 а затем найти 0:44:19.541,0:44:22.481 и просто удалить то,[br]что вызывает проблемы, 0:44:22.482,0:44:24.593 и на самом деле найти проблемы. 0:44:24.594,0:44:26.960 Это просто идея. 0:44:28.780,0:44:30.533 (голос из зала 2)[br]Это всё очень хорошо, 0:44:30.533,0:44:34.402 но я думаю, вы недооцениваете количество[br]плохих связей между подклассами, 0:44:34.402,0:44:35.402 которые у нас имеются. 0:44:35.403,0:44:39.680 Это как город, который находится[br]совершенно не в той стране, 0:44:40.250,0:44:43.245 при том, что существуют[br]географические инструменты 0:44:43.245,0:44:44.875 для определения этой проблемы. 0:44:44.875,0:44:49.201 Нам в иерархиях нужны[br]более эффективные инструменты, 0:44:49.202,0:44:53.477 которые смогут определить,[br]где эквивалент элемента для страны 0:44:53.478,0:44:57.673 полностью отсутствует,[br]или где он является подклассом чего-то, 0:44:57.674,0:45:01.804 не имеющего к нему отношения. 0:45:02.804,0:45:07.165 (Лидия) Я думаю, вы подобрались к тому, 0:45:07.166,0:45:10.894 что мы с моей командой[br]постоянно слышим от людей, 0:45:10.894,0:45:13.991 которые многократно[br]используют наши данные. 0:45:15.002,0:45:16.638 Отдельная точка данных -- это отлично, 0:45:16.639,0:45:20.163 но если вам нужно посмотреть[br]на онтологию и так далее, 0:45:20.164,0:45:21.857 то становится очень... 0:45:22.388,0:45:26.437 Я думаю, одна из больших проблем,[br]почему это происходит -- 0:45:26.437,0:45:30.736 множество правок в Викиданных 0:45:30.736,0:45:34.544 касаются отдельного элемента, 0:45:34.545,0:45:36.201 вы редактируете этот элемент, 0:45:37.653,0:45:42.075 не понимая, что это может привести[br]к глобальным последствиям 0:45:42.075,0:45:44.245 для остальной части графа, например. 0:45:45.356,0:45:50.041 Если у людей есть идеи,[br]как сделать более заметными 0:45:50.041,0:45:53.185 последствия таких индивидуальных[br]локальных правок, 0:45:54.005,0:45:56.537 думаю, что их стоит изучить, 0:45:57.550,0:46:01.583 чтобы лучше показать людям[br]последствия их правок, 0:46:01.584,0:46:03.434 сделанных с добрыми намерениями, 0:46:04.481,0:46:05.481 какие они. 0:46:06.939,0:46:12.237 Ого! Хорошо, давайте начнём с вас,[br]потом вы, потом вы, затем вы. 0:46:12.237,0:46:13.921 (голос из зала 4) После обсуждения, 0:46:13.922,0:46:18.262 просто чтобы выразить своё согласие[br]с тем, что говорил Джеймс. 0:46:18.263,0:46:22.467 По сути, кажется,[br]что самая опасная вещь -- иерархия, 0:46:22.468,0:46:23.910 не иерархия, но в целом 0:46:23.911,0:46:28.022 семантика связей[br]между подклассами в Викиданных. 0:46:28.022,0:46:32.561 Я недавно изучал языки,[br]только для этой конференции, 0:46:32.562,0:46:35.257 и, например, я нашёл много случаев, 0:46:35.257,0:46:39.463 когда язык является одновременно[br]и частью и подклассом одного и того же. 0:46:39.463,0:46:43.577 Можно сказать, что у нас гибкая онтология. 0:46:43.577,0:46:46.256 Викиданные дают свободу выражения. 0:46:46.256,0:46:47.257 Потому что, например, 0:46:47.258,0:46:50.721 эта онтология языков сложна[br]с политической точки зрения. 0:46:50.722,0:46:55.038 Даже хорошо иметь возможность[br]выразить уровень неопределённости. 0:46:55.038,0:46:57.913 Но представьте, как к этому[br]применить машинное чтение. 0:46:57.913,0:46:59.468 Действительно проблематично. 0:46:59.468,0:47:00.468 И опять же, 0:47:00.469,0:47:03.686 я не думаю, что онтология[br]была импортирована откуда-либо. 0:47:03.687,0:47:05.490 Она изначально наша. 0:47:05.491,0:47:08.321 Она с самого начала собрана из Википедии. 0:47:08.322,0:47:11.324 Так что мне интересно...[br]Shape Expressions -- отличный инструмент, 0:47:11.325,0:47:15.575 который проверяет и исправляет[br]онтологию Википедии 0:47:15.576,0:47:18.191 с помощью внешних ресурсов,[br]прекрасная идея. 0:47:19.026,0:47:20.026 В конце концов, 0:47:20.027,0:47:25.440 получится ли у нас отразить[br]внешние онтологии в Викиданных? 0:47:25.441,0:47:28.651 А также, что мы делаем[br]с основной частью нашей онтологии 0:47:28.652,0:47:30.642 которая никогда не собирается[br]из внешних ресурсов, 0:47:30.643,0:47:31.978 как нам исправить её? 0:47:31.979,0:47:35.276 Я действительно думаю,[br]что это само по себе будет проблемой. 0:47:35.277,0:47:40.080 Мы должны сосредоточиться на этом[br]независимо от идеи проверки онтологии 0:47:40.080,0:47:41.916 с помощью внешнего ресурса. 0:47:49.353,0:47:53.379 (голос из зала 5) Ограничения[br]и формы очень впечатляют, 0:47:53.380,0:47:55.055 то, что мы можем сделать с ними, 0:47:55.205,0:47:58.481 но главный момент[br]до сих пор не совсем понятен -- 0:47:58.482,0:48:03.229 поскольку теперь мы можем более чётко[br]сформулировать, чего ожидаем от данных. 0:48:03.229,0:48:06.893 Сначала каждый должен написать[br]свои инструменты и скрипты, 0:48:06.894,0:48:10.601 сделать их более наглядными,[br]и мы сможем обсудить это. 0:48:10.602,0:48:13.641 Но речь не о том, что верно, а что нет, 0:48:13.642,0:48:15.870 а об ожиданиях, 0:48:15.870,0:48:18.105 и у вас будут разные ожидания и обсуждения 0:48:18.106,0:48:20.737 того, как моделировать в Викиданных. 0:48:22.836,0:48:26.280 Текущее состояние --[br]лишь один шаг в этом направлении, 0:48:26.281,0:48:28.041 потому что теперь нужно 0:48:28.042,0:48:31.041 привлечь много технических знаний, 0:48:31.042,0:48:35.721 и нам нужны лучшие способы[br]визуализации этого ограничения, 0:48:35.722,0:48:39.995 возможно, преобразование его[br]в более понятный людям язык, 0:48:40.939,0:48:43.768 но в меньшей степени здесь речь о том,[br]что верно, а что нет. 0:48:44.925,0:48:45.925 (Лидия) Да. 0:48:50.986,0:48:53.893 (голос из зала 6) По поводу качества,[br]хочу уточнить... 0:48:53.894,0:48:57.010 Я часто сталкивался с разногласиями, 0:48:58.838,0:49:02.330 связанными с разницей между[br]экземпляром и подклассом. 0:49:02.331,0:49:05.963 Я бы сказал, ошибки в таких ситуациях 0:49:05.963,0:49:11.521 и попытки найти их[br]были очень трудоёмким процессом. 0:49:11.522,0:49:12.655 То, к чему я пришёл: 0:49:12.655,0:49:16.051 «Если найти впечатляющие элементы, важные, 0:49:16.051,0:49:19.026 и затем использовать[br]все экземпляры подкласса, 0:49:19.026,0:49:21.896 чтобы найти все производные[br]этого утверждения», -- 0:49:21.896,0:49:26.215 это очень полезный способ[br]поиска ошибок. 0:49:26.405,0:49:28.897 Но мне было интересно, 0:49:28.897,0:49:33.959 можно ли использовать Shape Expressions 0:49:33.959,0:49:36.854 в качестве инструмента[br]для решения таких проблем? 0:49:40.514,0:49:42.555 (голос из зала 7)[br]Имеет ли структурный след ... 0:49:45.910,0:49:49.170 Если имеется структурный след,[br]который может быть сфальсифицирован, 0:49:49.170,0:49:51.191 можно решить, что это неправильно, 0:49:51.192,0:49:52.670 а потом сделать это. 0:49:52.671,0:49:56.921 Но если это просто попытка сопоставления[br]с объектами реального мира, 0:49:56.922,0:49:59.082 то вам потребуется очень много «мозгов». 0:50:05.768,0:50:08.631 (голос из зала 8) Привет,[br]я Пабло Мендес из Apple Siri Knowledge. 0:50:09.154,0:50:12.770 Мы здесь, чтобы узнать,[br]как помочь проекту и сообществу, 0:50:12.770,0:50:15.645 но Кристина совершила ошибку,[br]спросив, чего мы хотим. 0:50:16.471,0:50:20.052 (смеётся) Думаю, одна вещь,[br]которую хотелось бы увидеть, 0:50:20.958,0:50:23.521 связана с возможностью проверки -- 0:50:23.522,0:50:26.372 одним из основных принципов[br]проекта в сообществе, 0:50:27.062,0:50:28.590 а также с доверием. 0:50:28.590,0:50:32.042 Не все утверждения одинаковы,[br]некоторые из них серьёзно оспариваются, 0:50:32.042,0:50:33.443 некоторые легко предположить, 0:50:33.443,0:50:35.541 например, чью-либо дату рождения[br]можно проверить, 0:50:36.071,0:50:39.882 как вы видели сегодня в основном докладе,[br]гендерные проблемы намного сложнее. 0:50:40.205,0:50:42.560 Можете ли вы немного[br]рассказать о том, что вы знаете 0:50:42.560,0:50:47.271 о доверии и проверках --[br]этих аспектах качества данных? 0:50:55.442,0:50:58.138 Если этого не много,[br]хотелось бы намного больше. (смеётся) 0:51:00.646,0:51:01.646 (Лидия) Да. 0:51:03.314,0:51:06.548 Как выяснилось,[br]нам нечего сказать. (смеётся) 0:51:08.024,0:51:12.299 (Андра) Я думаю, мы можем сделать многое,[br]но у нас с вами вчера была дискуссия. 0:51:12.300,0:51:15.774 Мой любимый пример,[br]как я выяснил вчера, уже устарел. 0:51:15.774,0:51:20.281 Если вы зайдёте[br]на страницу элемента Q2, это Земля, 0:51:20.282,0:51:23.343 там есть утверждение, что Земля плоская. 0:51:24.183,0:51:26.055 Я люблю этот пример, 0:51:26.056,0:51:28.391 потому что есть сообщество,[br]которое это утверждает, 0:51:28.392,0:51:30.417 и у них есть достоверные источники. 0:51:30.418,0:51:32.254 Так что я думаю, это реальный случай, 0:51:32.255,0:51:34.641 его не нужно оспаривать,[br]он должен быть в Викиданных. 0:51:34.642,0:51:40.385 Я думаю, здесь Shape Expressions[br]может быть действительно полезен, 0:51:40.386,0:51:44.857 потому что вам действительно[br]может быть интересен этот прецедент, 0:51:44.857,0:51:47.129 или этот вариант использования,[br]с которым вы не согласны, 0:51:47.130,0:51:49.799 но может быть и такой[br]случай применения, 0:51:49.799,0:51:51.059 который вас заинтересует. 0:51:51.059,0:51:53.449 Например, глюкоза. 0:51:53.449,0:51:56.841 Биологу не интересно 0:51:56.841,0:52:00.177 строение молекулы глюкозы, 0:52:00.177,0:52:03.201 для него вся глюкоза одинаковая. 0:52:03.202,0:52:05.973 Но химика подобное покоробит, 0:52:05.973,0:52:08.191 существует 200 с лишним... 0:52:08.191,0:52:10.443 Когда у вас есть разные выражения формы, 0:52:10.443,0:52:13.887 я могу их применить с точки зрения химика. 0:52:13.887,0:52:16.691 А с точки зрения биолога 0:52:16.691,0:52:18.524 я применяю другое выражение формы. 0:52:18.524,0:52:20.358 А если вы хотите сотрудничать, 0:52:20.358,0:52:22.784 вы должны сказать Эрику о картах ShEx. 0:52:25.510,0:52:28.873 Но это только начало пути. 0:52:28.873,0:52:32.238 Но я лично верю,[br]что это весьма полезно для этой области. 0:52:34.292,0:52:35.535 (Лидия) Вон там. 0:52:37.949,0:52:39.168 (смех) 0:52:40.597,0:52:46.035 (голос из зала 9) У меня несколько идей[br]по некоторым моментам обсуждения, 0:52:46.035,0:52:50.902 постараюсь озвучить все.[br]Было три идеи, так что... 0:52:52.394,0:52:55.201 Основываясь на том, что Джеймс сказал[br]некоторое время назад, 0:52:55.202,0:52:59.001 у Викиданных с самого начала[br]была очень большая проблема 0:52:59.002,0:53:01.574 в онтологии вышестоящего уровня. 0:53:02.363,0:53:05.339 Мы говорили об этом[br]два года назад на WikidataCon, 0:53:05.340,0:53:07.432 и мы говорили об этом на Викимании. 0:53:07.432,0:53:09.818 На всех встречах по Викиданным 0:53:09.818,0:53:11.656 мы говорим об этом, 0:53:11.656,0:53:15.782 потому что это очень большая проблема[br]на очень высоком уровне -- 0:53:15.783,0:53:22.418 что такое сущность, работа,[br]что такое жанр, искусство, -- 0:53:23.118,0:53:25.461 все эти понятия очень важны. 0:53:27.215,0:53:33.117 И на самом деле это слабое место[br]глобальной онтологии, 0:53:33.118,0:53:37.453 потому что люди регулярно наводят порядок 0:53:38.017,0:53:41.047 и тем самым всё ломают. 0:53:42.516,0:53:48.649 Некоторые из вас помнят парня,[br]который из добрых намерений 0:53:48.649,0:53:51.785 «сломал» все города мира. 0:53:51.785,0:53:57.537 Элементы стали не географическими,[br]везде были нарушения ограничений. 0:53:58.720,0:54:00.278 Это было сделано из добрых побуждений, 0:54:00.278,0:54:03.623 ведь он действительно[br]исправлял ошибку в элементе, 0:54:04.170,0:54:05.732 но всё сломалось. 0:54:06.349,0:54:09.373 Я не уверена, как мы можем решить это, 0:54:10.216,0:54:13.390 поскольку нет ни одного[br]внешнего учреждения, 0:54:13.390,0:54:15.710 у которого мы могли бы скопировать, 0:54:15.710,0:54:19.030 потому что все работают... 0:54:19.154,0:54:22.041 Если я работаю с базой данных[br]исполнительского искусства, 0:54:22.042,0:54:24.601 я просто перейду на уровень[br]исполнительского искусства, 0:54:24.601,0:54:29.361 я не буду переходить[br]к философской концепции сущности, 0:54:29.362,0:54:31.201 и это, на самом деле... 0:54:31.202,0:54:34.561 Я не знаю ни одной базы данных,[br]работающей на этом уровне, 0:54:34.562,0:54:36.827 но это самое слабое место Викиданных. 0:54:37.936,0:54:40.812 Вероятно, когда мы говорим[br]о качестве данных, 0:54:40.812,0:54:44.034 это является важным аспектом. 0:54:44.034,0:54:48.569 Я думаю, это то же самое,[br]что мы заявили... 0:54:48.569,0:54:50.452 Простите, я меняю тему, 0:54:51.401,0:54:55.774 но на разных сессиях[br]мы говорили о качестве. 0:54:55.774,0:54:59.398 На самом деле некоторые из нас[br]могут хорошо моделировать, 0:54:59.399,0:55:01.240 работают с ShEx и так далее. 0:55:01.967,0:55:07.655 Люди не видят этого в Викиданных,[br]они не видят ShEx, 0:55:07.655,0:55:10.392 они не видят Вики-проект[br]на странице обсуждения, 0:55:10.393,0:55:11.393 и иногда 0:55:11.394,0:55:14.958 они даже не видят[br]страницы обсуждения свойств, 0:55:14.958,0:55:19.628 которые чётко заявляют,[br]для чего используется конкретное свойство. 0:55:19.628,0:55:23.887 Например, на прошлой неделе,[br]я добавила ограничение для свойства. 0:55:23.888,0:55:26.324 Ограничение было чётко прописано 0:55:26.325,0:55:28.690 в обсуждении создания свойства. 0:55:28.690,0:55:34.548 Я просто добавила ограничение,[br]а кто-то возмутился: 0:55:34.548,0:55:37.182 «Что? Ты сломала все мои правки!» 0:55:37.183,0:55:41.542 Последние два года человек использовал[br]это свойство неправильно. 0:55:41.542,0:55:46.868 Свойство было очень чёткое,[br]но не было никаких предупреждений, 0:55:46.869,0:55:48.715 как и в Pink Pony, 0:55:48.715,0:55:52.172 мы также сказали на Викимании,[br]что хотим делать Вики-проекты 0:55:52.172,0:55:54.719 более наглядными,[br]делать ShEx более наглядным, но... 0:55:54.719,0:55:56.917 Это то, что сказала Кристина. 0:55:56.917,0:56:02.368 У нас проблема с визуализацией[br]существующих решений. 0:56:02.368,0:56:04.242 На этой сессии 0:56:04.242,0:56:06.862 мы все говорим о том,[br]как создать больше выражений формы, 0:56:06.863,0:56:10.727 или облегчить работу редакторов. 0:56:11.605,0:56:15.835 Но мы наводим порядок[br]с первого дня существования Викиданных, 0:56:15.836,0:56:20.921 и, на глобальном уровне, мы проигрываем, 0:56:20.922,0:56:22.960 поскольку, насколько я знаю,[br]имена сложные, 0:56:22.961,0:56:26.162 но я единственная, кто их редактирует. 0:56:26.662,0:56:29.671 Кто-то добавил имя на латинице 0:56:29.672,0:56:31.584 всем китайским исследователям -- 0:56:32.088,0:56:35.616 мне понадобятся месяцы,[br]чтобы убрать это, и сама я не справлюсь, 0:56:35.616,0:56:38.777 а он сделал массовую выгрузку. 0:56:39.462,0:56:44.158 Проблем с визуализацией больше,[br]чем с инструментами, я думаю, 0:56:44.158,0:56:45.733 поскольку у нас много инструментов. 0:56:45.733,0:56:50.255 (Лидия) К сожалению,[br]мне дали знак, (смеётся), 0:56:50.256,0:56:52.121 поэтому нам нужно заканчивать. 0:56:52.122,0:56:53.563 Большое спасибо за ваши комментарии, 0:56:53.563,0:56:56.611 надеюсь, вы продолжите обсуждение позже, 0:56:56.611,0:56:57.840 и спасибо за ваш вклад. 0:56:58.359,0:56:59.944 (аплодисменты) 0:57:04.108,0:57:07.008 WikidataCon 2019[br]Викиданные и языки