WEBVTT 00:00:00.000 --> 00:00:02.310 Качество данных Панельная дискуссия 00:00:02.310 --> 00:00:03.945 Клаудиа Мюллер-Бирн, Лукас Веркмейстер, 00:00:03.945 --> 00:00:05.945 Хосе Эмилио Лабра Гайо, Кристина Сарасуа, Андра 00:00:05.945 --> 00:00:09.476 Приветствую всех на панельной дискуссии, посвящённой качеству данных. 00:00:10.288 --> 00:00:13.671 Качество данных имеет большое значение, ведь всё больше и больше людей 00:00:13.672 --> 00:00:16.779 полагаются на хорошее качество данных, 00:00:16.779 --> 00:00:19.323 о чём мы сегодня и поговорим. 00:00:21.229 --> 00:00:26.960 Будет четыре докладчика, которые выступят с небольшими презентациями на темы, 00:00:26.960 --> 00:00:29.539 связанные с качеством данных, а далее будут вопросы и ответы. 00:00:30.130 --> 00:00:32.234 Начнём с Лукаса. 00:00:34.385 --> 00:00:35.385 Спасибо. 00:00:35.901 --> 00:00:39.899 Привет, я Лукас, и я начну с краткого обзора 00:00:39.899 --> 00:00:43.806 инструментов качества данных, которые уже имеются в Викиданных, 00:00:43.807 --> 00:00:46.109 и тех, которые скоро появятся. 00:00:46.932 --> 00:00:50.623 Я выделил несколько общих тем: 00:00:50.623 --> 00:00:53.761 визуализация ошибок, решаемость проблем, 00:00:53.762 --> 00:00:56.322 больше внимания данным с целью выявления проблем, 00:00:56.945 --> 00:01:00.206 исправление общих источников ошибок, 00:01:00.206 --> 00:01:02.616 обеспечение качества существующих данных, 00:01:02.616 --> 00:01:03.966 а также курирование. 00:01:05.063 --> 00:01:07.868 Что у нас есть сейчас? 00:01:07.868 --> 00:01:09.948 Начнём с ограничения свойств. 00:01:10.318 --> 00:01:12.541 Вы наверняка видели это, когда заходили на Викиданные. 00:01:12.541 --> 00:01:14.029 Иногда можно видеть эти иконки, 00:01:14.530 --> 00:01:17.241 которые проверяют внутреннюю согласованность данных. 00:01:17.242 --> 00:01:20.800 Например, если одно событие следует за другим, 00:01:20.801 --> 00:01:23.760 то за другим должно последовать и это событие, 00:01:23.761 --> 00:01:27.161 элемент WikidataCon, который, похоже, отсутствует. 00:01:27.162 --> 00:01:29.740 Это появилось пару дней назад. 00:01:30.040 --> 00:01:34.681 Если этого для вас недостаточно, 00:01:34.682 --> 00:01:38.080 вы можете ввести любой запрос, используя сервис запросов, 00:01:38.081 --> 00:01:39.842 который, конечно, полезен для многих вещей, 00:01:39.843 --> 00:01:44.543 но также его можно использовать для поиска ошибок. 00:01:44.544 --> 00:01:46.974 Например, если вы заметили какую-то ошибку, 00:01:46.975 --> 00:01:49.709 вы можете проверить, есть ли ещё места, 00:01:49.710 --> 00:01:51.658 где люди допустили похожие ошибки, 00:01:51.658 --> 00:01:53.438 и найти их с помощью сервиса запросов. 00:01:53.439 --> 00:01:55.199 Также можно совместить эти два инструмента 00:01:55.199 --> 00:01:57.874 и искать нарушения ограничений, 00:01:57.875 --> 00:02:01.240 например, нарушения в какой-то области 00:02:01.241 --> 00:02:03.762 или нужном вам Вики-проекте, 00:02:03.762 --> 00:02:06.828 хотя результаты пока неполные, к сожалению. 00:02:08.422 --> 00:02:09.877 Оценивание правок. 00:02:10.690 --> 00:02:12.666 Я думаю, это из последних изменений. 00:02:12.667 --> 00:02:16.217 Также можете добавить в свой список наблюдения автоматическую оценку: 00:02:16.217 --> 00:02:20.249 сделана ли правка с добрыми намерениями или нет, 00:02:20.250 --> 00:02:22.312 нанесёт ли она ущерб или нет. 00:02:22.313 --> 00:02:24.205 Думаю, здесь два направления. 00:02:24.206 --> 00:02:25.686 Если хотите, вы можете 00:02:25.687 --> 00:02:28.458 сосредоточиться на поиске правок с добрыми намерениями, 00:02:28.458 --> 00:02:29.828 наносящих ущерб. 00:02:29.899 --> 00:02:32.523 Если вы дружелюбны и вежливы, 00:02:32.524 --> 00:02:37.121 можете написать этим редакторам: «Спасибо за ваш вклад, 00:02:37.122 --> 00:02:40.560 вот, как это следует делать, но всё равно спасибо». 00:02:40.561 --> 00:02:42.186 Если вы не хотите так делать, 00:02:42.187 --> 00:02:44.132 можно найти правки с недобрыми намерениями, 00:02:44.132 --> 00:02:45.132 наносящие ущерб, 00:02:45.132 --> 00:02:46.293 и откатить их назад. 00:02:47.544 --> 00:02:49.761 Подобно этому есть рейтинг сущностей. 00:02:49.762 --> 00:02:52.590 Вместо оценивания правки, последующего за ней изменения, 00:02:52.591 --> 00:02:53.904 вы оцениваете ревизию в целом. 00:02:53.904 --> 00:02:56.483 Я думаю, это такой же инструмент измерения качества, 00:02:56.483 --> 00:02:59.863 о котором говорила Лидия в начале конференции. 00:03:00.372 --> 00:03:04.569 Вот здесь скрипт, который ставит оценку от одного до пяти. 00:03:04.570 --> 00:03:08.176 Он оценивает качество текущего элемента. 00:03:10.043 --> 00:03:12.538 Инструмент проверки первичных источников предназначен 00:03:12.538 --> 00:03:14.857 для любой базы данных, которую вы хотите импортировать, 00:03:14.857 --> 00:03:18.374 но качество её данных не настолько высоко, чтобы напрямую добавлять её в Викиданные, 00:03:18.374 --> 00:03:20.335 поэтому вы добавляете базу в этот инструмент, 00:03:20.336 --> 00:03:22.956 после чего люди могут решить, 00:03:22.956 --> 00:03:26.024 добавлять или не добавлять отдельные утверждения. 00:03:28.595 --> 00:03:30.363 Отображение координат в виде карт -- 00:03:30.363 --> 00:03:31.901 в основном, функция для удобства, 00:03:31.901 --> 00:03:33.588 но она также полезна для контроля качества. 00:03:33.588 --> 00:03:36.937 Например, если вы видите, что здесь должен быть офис Викимедиа Германии, 00:03:36.938 --> 00:03:39.400 а координаты где-то в Индийском океане, 00:03:39.401 --> 00:03:41.529 то вы понимаете, что это неверный адрес, 00:03:41.530 --> 00:03:44.790 и вам легче это заметить, чем если бы у вас были только цифры. 00:03:46.382 --> 00:03:49.576 Этот инструмент -- индикатор относительной полноты. 00:03:49.577 --> 00:03:52.480 Вот эта маленькая иконка здесь, 00:03:53.007 --> 00:03:55.652 которая сообщает, насколько полно описан конкретный элемент, 00:03:55.652 --> 00:03:57.613 и каких свойств не хватает. 00:03:57.614 --> 00:03:59.769 Это очень полезно, если вы редактируете элемент 00:03:59.769 --> 00:04:03.172 и не очень ориентируетесь в данной сфере 00:04:03.172 --> 00:04:05.661 и не знаете, какие свойства нужно указывать, 00:04:05.662 --> 00:04:08.230 тогда этот инструмент будет очень полезен. 00:04:09.604 --> 00:04:11.602 Также мы используем инструмент Shape Expressions. 00:04:11.602 --> 00:04:15.624 Думаю, Андра или Хосе расскажут об этом больше, 00:04:15.624 --> 00:04:20.508 но, по сути, это очень мощный способ сравнения имеющихся данных со схемой, 00:04:20.508 --> 00:04:22.058 например, какое утверждение 00:04:22.058 --> 00:04:23.470 должны иметь определённые сущности, 00:04:23.470 --> 00:04:25.229 с какими сущностями они должны быть связаны 00:04:25.229 --> 00:04:26.229 и как должны выглядеть. 00:04:26.229 --> 00:04:29.374 Таким образом вы сможете находить проблемы. 00:04:30.366 --> 00:04:32.361 Я думаю... Нет, ещё не всё. 00:04:32.362 --> 00:04:34.321 Integraality, или панель свойств. 00:04:34.322 --> 00:04:36.773 На ней видны данные, которые у вас уже есть. 00:04:36.774 --> 00:04:39.147 Например, эти данные из Вики-проекта о красных пандах, 00:04:39.657 --> 00:04:41.181 и вы видите, 00:04:41.181 --> 00:04:43.561 что у большинства красных панд известен пол, 00:04:43.561 --> 00:04:46.854 дата рождения зависит от зоопарка, 00:04:46.854 --> 00:04:50.255 и у нас почти нет погибших панд, что замечательно, 00:04:50.346 --> 00:04:51.346 (смех) 00:04:51.437 --> 00:04:52.600 потому что они такие милые. 00:04:53.699 --> 00:04:55.654 Так что это тоже полезно. 00:04:56.377 --> 00:04:59.185 Теперь о том, что ожидается. 00:04:59.889 --> 00:05:03.784 Wikidata Bridge, ранее известный как client editing 00:05:03.785 --> 00:05:07.076 для редактирования Викиданных прямо из карточек Википедии. 00:05:07.675 --> 00:05:11.395 Это, с одной стороны, позволит лучше контролировать данные, 00:05:11.395 --> 00:05:13.441 так как их сможет увидеть большее число людей, 00:05:13.441 --> 00:05:15.851 и, мы надеемся, будет способствовать 00:05:15.851 --> 00:05:18.795 более частому использованию Викиданных в Википедии, 00:05:18.841 --> 00:05:20.920 и это значит, большее число людей сможет заметить, 00:05:20.921 --> 00:05:23.547 что, например, некоторые данные устарели и должны быть обновлены, 00:05:23.547 --> 00:05:27.000 чем если бы они видели эти данные только в Викиданных. 00:05:28.630 --> 00:05:30.656 Также есть испорченные ссылки. 00:05:30.657 --> 00:05:33.959 Идея в том, что если вы редактируете значение утверждения, 00:05:34.683 --> 00:05:37.279 вы также можете обновить и ссылки, 00:05:37.280 --> 00:05:39.373 если это не просто опечатка или что-то ещё. 00:05:39.897 --> 00:05:43.662 Эти испорченные ссылки сигнализируют редакторам 00:05:43.663 --> 00:05:49.756 и дают возможность увидеть, какие другие правки были сделаны, 00:05:49.756 --> 00:05:52.641 где отредактировали значение утверждения, но не обновили ссылку, 00:05:52.641 --> 00:05:55.147 и вы можете всё подредактировать 00:05:55.147 --> 00:05:59.566 и решить, следует ли ещё что-то делать, 00:05:59.566 --> 00:06:02.796 или всё в порядке, и ссылку обновлять не нужно. 00:06:03.543 --> 00:06:05.756 Перейдём к подписанным утверждениям. 00:06:05.756 --> 00:06:09.336 Я думаю, это связано с тем опасением, 00:06:09.336 --> 00:06:12.355 что некоторые источники данных... 00:06:13.881 --> 00:06:16.462 Есть утверждение, на которое ссылаются, например, через ЮНЕСКО 00:06:16.462 --> 00:06:17.792 или какое-то другое учреждение, 00:06:17.792 --> 00:06:20.382 а потом кто-то неожиданно вносит вандальные правки, 00:06:20.382 --> 00:06:22.306 и они переживают, что это будет выглядеть, 00:06:22.827 --> 00:06:26.992 как будто организация, например, ЮНЕСКО, принимает эти правки. 00:06:26.993 --> 00:06:28.706 В случае с подписанными утверждениями, 00:06:28.706 --> 00:06:31.488 они могут криптографически подписать эту ссылку, 00:06:31.488 --> 00:06:33.562 и это не помешает её редактированию, 00:06:34.169 --> 00:06:37.284 но если кто-то внесёт в утверждение вандальные правки 00:06:37.284 --> 00:06:40.255 или любые другие, подпись будет недействительна, 00:06:40.255 --> 00:06:43.401 и это уже не совсем то, что утверждает организация. 00:06:43.402 --> 00:06:45.035 Возможно, это хорошая правка, 00:06:45.035 --> 00:06:47.065 и нужно просто переподписать новое утверждение, 00:06:47.065 --> 00:06:49.851 но, возможно, правку следует отменить. 00:06:51.203 --> 00:06:54.166 Думаю, это будет увлекательно. 00:06:54.166 --> 00:06:56.846 Citoid -- удивительная система, которая есть в Википедии, 00:06:57.379 --> 00:07:01.340 где вы можете вставить URL, идентификатор или ISBN 00:07:01.340 --> 00:07:04.759 или идентификатор Викиданных, в общем, что угодно в визуальный редактор, 00:07:05.260 --> 00:07:08.241 и это трансформируется в красиво отформатированную ссылку, 00:07:08.242 --> 00:07:11.269 которая содержит все нужные вам данные, и ей легко пользоваться. 00:07:11.269 --> 00:07:14.337 Для сравнения, если я хочу добавить ссылку в Викиданных, 00:07:14.338 --> 00:07:18.801 я обычно должен добавить URL ссылки, название, строку с именем автора, 00:07:18.802 --> 00:07:20.449 место и дату публикации, 00:07:20.450 --> 00:07:24.141 даты получения -- по крайней мере, всё это -- 00:07:24.141 --> 00:07:25.141 и это очень утомительно, 00:07:25.141 --> 00:07:29.261 а интеграция Citoid в Викибазу должна помочь в этом. 00:07:30.245 --> 00:07:33.604 Думаю, у меня всё. 00:07:33.604 --> 00:07:36.400 Сейчас передаю слово Кристине. 00:07:37.510 --> 00:07:40.581 (аплодисменты) 00:07:40.581 --> 00:07:43.326 Как можно улучшить управление качеством данных? 00:07:43.711 --> 00:07:45.471 Привет, я Кристина. 00:07:45.472 --> 00:07:47.672 Я научный сотрудник Цюрихского университета 00:07:47.673 --> 00:07:51.417 и активный член швейцарского Вики-сообщества. 00:07:52.698 --> 00:07:57.901 Когда мы вместе с Клаудией Мюллер-Бирн отправляли наш доклад на WikidataCon, 00:07:57.902 --> 00:08:00.410 мы хотели продолжить обсуждение, 00:08:00.411 --> 00:08:02.424 начатое в этом году 00:08:02.424 --> 00:08:07.442 на семинаре по качеству данных, а также на нескольких сессиях Викимании. 00:08:07.442 --> 00:08:10.535 В своём выступлении мы, в основном, поделимся некоторыми соображениями 00:08:10.536 --> 00:08:14.432 как сообщества, так и нашими, 00:08:14.432 --> 00:08:16.560 и продолжим обсуждение. 00:08:16.561 --> 00:08:20.065 Нам хотелось бы и дальше активно общаться с вами. 00:08:21.557 --> 00:08:23.371 Мы считаем, что очень важно 00:08:23.372 --> 00:08:27.580 постоянно спрашивать всех пользователей сообщества 00:08:27.581 --> 00:08:32.240 о том, что им действительно нужно, какие у них проблемы с качеством данных, 00:08:32.240 --> 00:08:35.000 не только редакторов но и людей, которые пишут код, 00:08:35.000 --> 00:08:36.241 либо пользуются данными, 00:08:36.242 --> 00:08:38.434 а также исследователей, которые фактически используют 00:08:38.434 --> 00:08:40.800 всю историю редактирования для анализа происходящего. 00:08:42.367 --> 00:08:46.101 Мы сделали обзор примерно 80-ти инструментов, 00:08:46.101 --> 00:08:48.386 существующих в Викиданных, 00:08:48.431 --> 00:08:52.380 и привели их в соответствие с разными показателями качества данных. 00:08:52.380 --> 00:08:54.360 Мы увидели, что на самом деле 00:08:54.361 --> 00:08:57.681 многие инструменты отслеживают полноту, 00:08:57.681 --> 00:09:02.820 а также некоторые из них поддерживают взаимосвязи между данными. 00:09:02.820 --> 00:09:08.442 Есть потребность в инструментах, оценивающих разнообразие данных -- 00:09:08.443 --> 00:09:12.824 то, что мы можем иметь в Викиданных, 00:09:12.824 --> 00:09:15.958 в особенности, этот принцип разработки Викиданных, 00:09:15.959 --> 00:09:17.901 в котором мы можем иметь множественность -- 00:09:17.902 --> 00:09:20.308 разные утверждения с разными значениями 00:09:20.784 --> 00:09:22.236 из разных источников. 00:09:22.236 --> 00:09:24.921 Поскольку это вторичный источник, у нас нет инструментов, 00:09:24.922 --> 00:09:27.750 сообщающих, сколько существует множественных утверждений, 00:09:27.751 --> 00:09:30.889 сколько из них мы можем улучшить и каким образом, 00:09:30.890 --> 00:09:32.833 и мы также точно не знаем, 00:09:32.833 --> 00:09:35.538 в чём причина этой множественности. 00:09:36.491 --> 00:09:39.201 На этих собраниях сообщества 00:09:39.201 --> 00:09:43.084 мы обсуждали проблемы, всё ещё требующие внимания. 00:09:43.084 --> 00:09:46.499 Например, краудсорсинговые сообщества -- 00:09:46.499 --> 00:09:49.293 это очень хорошо, потому что разные люди работают 00:09:49.293 --> 00:09:51.833 с разными частями данных или графа, 00:09:51.834 --> 00:09:54.615 у всех людей разные фундаментальные знания. 00:09:54.616 --> 00:09:59.161 Но на самом деле очень трудно достичь однородности, 00:09:59.162 --> 00:10:04.920 потому что люди используют разные свойства по-разному, 00:10:04.920 --> 00:10:08.401 и у них разные ожидания от описаний сущностей. 00:10:09.003 --> 00:10:12.721 Люди также сказали, что им нужно больше инструментов, 00:10:12.722 --> 00:10:16.000 которые дают лучший обзор глобального статуса сущностей, 00:10:16.000 --> 00:10:20.733 показывают, каких сущностей не хватает с точки зрения полноты, 00:10:20.733 --> 00:10:26.121 а также над чем сейчас работают люди. 00:10:26.121 --> 00:10:30.516 Они также многократно упоминают более тесное сотрудничество 00:10:30.517 --> 00:10:33.311 не только между разными языками, но и Вики-проектами 00:10:33.311 --> 00:10:35.571 и различным платформами Викимедии. 00:10:35.571 --> 00:10:40.029 Мы опубликовали все комментарии, которые услышали во время этих обсуждений. 00:10:40.029 --> 00:10:42.959 Вы можете посмотреть их, пройдя по ссылкам в Etherpad, 00:10:42.959 --> 00:10:46.162 а также на странице Викимании. 00:10:46.162 --> 00:10:48.481 Некоторые новые решения 00:10:48.481 --> 00:10:53.001 заключались в обмене лучшими практиками, 00:10:53.001 --> 00:10:55.762 которые реализуются в разных Вики-проектах, 00:10:55.762 --> 00:11:01.238 но также людям нужны инструменты, помогающие организовать работу в командах 00:11:01.239 --> 00:11:03.845 или, по крайней мере, понять, кто над этим работает. 00:11:03.845 --> 00:11:07.815 Также люди упоминали, что они хотят больше примеров 00:11:07.816 --> 00:11:12.019 и шаблонов, которые помогут в работе. 00:11:12.946 --> 00:11:14.163 У нас есть контакты 00:11:14.163 --> 00:11:18.721 с организациями открытых государственных данных 00:11:18.722 --> 00:11:20.068 и, в частности, 00:11:20.068 --> 00:11:23.102 я поддерживаю контакты с кантоном и городом Цюрих. 00:11:23.102 --> 00:11:26.207 Они очень заинтересованы в Викиданных, 00:11:26.207 --> 00:11:29.896 потому что хотят, чтобы их данные были доступны для всех 00:11:29.897 --> 00:11:33.681 в таком месте, где люди могут ознакомиться c этими данными. 00:11:33.682 --> 00:11:36.550 Для них было бы действительно интересно 00:11:36.551 --> 00:11:38.600 иметь какие-то качественные показатели 00:11:38.600 --> 00:11:41.082 как в Вики, они уже есть, 00:11:41.082 --> 00:11:42.801 но и в результатах SPARQL, 00:11:42.802 --> 00:11:46.066 чтобы знать, доверять ли данным, полученным от сообщества. 00:11:46.067 --> 00:11:48.230 Они также хотят знать, 00:11:48.230 --> 00:11:51.417 какие из их наборов данных полезны для Викиданных, 00:11:51.418 --> 00:11:53.091 и чтобы был такой инструмент, 00:11:53.091 --> 00:11:56.041 который поможет им оценивать это автоматически. 00:11:56.041 --> 00:11:59.066 Им также нужна какая-то методология или инструмент, 00:11:59.067 --> 00:12:01.404 который бы помог им решить, 00:12:01.404 --> 00:12:03.644 импортировать свои данные или связывать их с Викиданными, 00:12:03.644 --> 00:12:05.994 поскольку в некоторых случаях у них есть свои наборы 00:12:05.994 --> 00:12:07.137 связанных открытых данных, 00:12:07.138 --> 00:12:09.746 поэтому они не знают, публиковать эти данные 00:12:09.746 --> 00:12:13.424 или создавать в наборах данных ссылки на Викиданные 00:12:13.425 --> 00:12:14.425 и наоборот. 00:12:14.950 --> 00:12:20.044 Они также хотят знать, какие элементы Викиданных ссылаются на их сайты. 00:12:20.044 --> 00:12:22.790 Когда они делают такой запрос, 00:12:22.790 --> 00:12:24.848 он остаётся без ответа с истёкшим временем ожидания, 00:12:24.849 --> 00:12:28.181 поэтому, возможно, нам действительно стоит создавать больше инструментов, 00:12:28.181 --> 00:12:32.240 которые помогут им получить ответы на их вопросы. 00:12:33.148 --> 00:12:36.208 Кроме того, 00:12:36.208 --> 00:12:38.491 нам, вики-исследователям, 00:12:38.491 --> 00:12:42.023 тоже иногда не хватает информации в описаниях изменений. 00:12:42.024 --> 00:12:44.953 Я помню, что когда мы делали какую-то работу, 00:12:44.954 --> 00:12:47.479 чтобы понять различное поведение 00:12:47.479 --> 00:12:50.319 редакторов, ботов или анонимных пользователей 00:12:50.319 --> 00:12:53.403 с помощью инструментов, 00:12:53.403 --> 00:12:56.154 нам действительно не хватало, например, 00:12:56.154 --> 00:13:01.112 стандартного способа отслеживания использования этих инструментов. 00:13:01.113 --> 00:13:03.224 Есть несколько инструментов, которые уже делают это, 00:13:03.224 --> 00:13:05.230 например, PetScan и многие другие, 00:13:05.230 --> 00:13:08.860 но, возможно, в сообществе мы должны больше обсуждать, 00:13:08.860 --> 00:13:13.611 как фиксировать более точное происхождение данных. 00:13:14.169 --> 00:13:16.111 Далее, мы полагаем, 00:13:16.111 --> 00:13:20.801 что нужно подумать о более конкретных показателях качества данных, 00:13:20.802 --> 00:13:24.961 относящихся к связанным данным, а не ко всем типам данных, 00:13:24.962 --> 00:13:28.602 поэтому мы разрабатываем комплекс мер 00:13:28.602 --> 00:13:31.752 для получения доступа к приросту информации по ссылкам, 00:13:31.752 --> 00:13:33.881 подразумевая то, 00:13:33.882 --> 00:13:36.681 что когда мы связываем Викиданные с другими наборами данных, 00:13:36.682 --> 00:13:38.201 мы также должны думать о том, 00:13:38.202 --> 00:13:41.921 сколько сущностей получается в классификации, 00:13:41.922 --> 00:13:45.601 описании и в словарях, которыми они пользуются. 00:13:45.602 --> 00:13:51.041 Просто для примера, что я имею в виду: 00:13:51.042 --> 00:13:54.269 в нашем случае это будут Викиданные 00:13:54.270 --> 00:13:57.771 или внешний набор данных, который ссылается на Викиданные. 00:13:57.772 --> 00:14:00.487 У нас есть сущность для человека по имени Наташа Ной, 00:14:00.487 --> 00:14:02.601 у нас есть принадлежность и другие вещи, 00:14:02.602 --> 00:14:05.239 а затем мы ссылаемся на внешний источник, 00:14:05.240 --> 00:14:08.919 и эта сущность с таким же именем, но значение одно и то же. 00:14:08.920 --> 00:14:12.889 Лучше сослаться на сущность с другим действительным именем, 00:14:12.889 --> 00:14:16.881 потому что имя этого человека может быть написано двумя способами, 00:14:16.882 --> 00:14:19.714 а также на другую информацию, отсутствующую в Викиданных 00:14:19.715 --> 00:14:21.760 или других наборах данных. 00:14:22.390 --> 00:14:24.652 Лучше даже то, 00:14:24.653 --> 00:14:27.770 что мы рассматриваем целевой набор данных, 00:14:27.770 --> 00:14:31.392 что также существуют новые способы классификации информации. NOTE Paragraph 00:14:31.393 --> 00:14:35.354 Не только то, что это человек, но в другом наборе данных 00:14:35.355 --> 00:14:38.061 сообщается, что это женщина, или другая информация, 00:14:38.061 --> 00:14:39.526 с которой классифицируется сущность. 00:14:39.526 --> 00:14:43.401 В другом наборе данных используются другие словари, 00:14:43.402 --> 00:14:46.588 и это помогает при поиске информации. 00:14:48.291 --> 00:14:51.233 Мы также считаем, 00:14:51.234 --> 00:14:55.809 что можем более наглядно представлять федеративные запросы, 00:14:55.810 --> 00:15:00.448 потому что по журналу запросов, предоставленному Малышевым и др., 00:15:01.285 --> 00:15:04.301 мы видим, что на самом деле среди органических запросов 00:15:04.302 --> 00:15:06.921 число федеративных запросов очень небольшое. 00:15:06.922 --> 00:15:09.151 На самом деле, федерация является 00:15:09.151 --> 00:15:12.776 одним из ключевых преимуществ наличия связанных данных, 00:15:12.802 --> 00:15:16.903 так что, возможно, сообществу или людям, которые пользуются Викиданными, 00:15:16.903 --> 00:15:18.898 тоже нужно больше примеров. 00:15:18.898 --> 00:15:22.666 Если мы посмотрим на список используемых точек доступа, 00:15:22.667 --> 00:15:25.401 он будет неполным, у нас есть намного больше. 00:15:25.402 --> 00:15:30.479 Эти данные были проанализированы по запросам до марта 2018 года, 00:15:30.480 --> 00:15:34.807 но мы должны проверить список имеющихся объединённых точек доступа 00:15:34.808 --> 00:15:37.048 и посмотреть, действительно ли мы их используем. 00:15:37.813 --> 00:15:40.361 У меня есть два вопроса к зрителям, 00:15:40.361 --> 00:15:43.081 которые, возможно, мы впоследствии можем использовать для обсуждения: 00:15:43.081 --> 00:15:46.001 какие, на ваш взгляд, проблемы с качеством данных нужно рассмотреть, 00:15:46.002 --> 00:15:47.412 учитывая ваши потребности, 00:15:47.412 --> 00:15:50.401 а также, где вам нужно больше автоматизации -- 00:15:50.402 --> 00:15:52.943 при редактировании или патрулировании? 00:15:53.866 --> 00:15:55.146 Это всё, большое спасибо. 00:15:55.779 --> 00:15:57.527 (аплодисменты) 00:16:04.091 --> 00:16:05.538 WikidataCon 2019 Викиданные и языки 00:16:05.538 --> 00:16:07.603 Визуализация схемы сущности и авторские инструменты 00:16:07.603 --> 00:16:10.105 (Хосе Эмилио Лабра) Я расскажу о некоторых инструментах, 00:16:10.105 --> 00:16:12.606 которые мы разработали, 00:16:12.606 --> 00:16:15.536 связанных с Shape Expressions. 00:16:15.536 --> 00:16:19.371 Об этом я буду говорить. Меня зовут Хосе Эмилио Лабра. 00:16:19.371 --> 00:16:23.215 Все эти инструменты были разработаны разными людьми, 00:16:23.920 --> 00:16:26.780 в основном все они связаны с сообществом W3C ShEx, 00:16:26.780 --> 00:16:29.481 или сообществом Shape Expressions. 00:16:30.144 --> 00:16:36.081 Первый инструмент -- RDFShape, это общий инструмент, 00:16:36.082 --> 00:16:40.681 потому что Shape Expressions используется не только для Викиданных, 00:16:40.682 --> 00:16:44.168 это язык для проверки RDF в целом. 00:16:44.168 --> 00:16:47.568 Этот инструмент был разработан в основном мной, 00:16:47.568 --> 00:16:50.880 и это инструмент для проверки RDF. 00:16:50.881 --> 00:16:55.139 Если вы хотите узнать о RDF или проверить RDF 00:16:55.140 --> 00:16:58.621 или точки доступа SPARQL не только в Викиданных, 00:16:58.622 --> 00:17:00.891 я советую вам пользоваться этим инструментом. 00:17:00.891 --> 00:17:03.255 В том числе и для обучения. 00:17:03.255 --> 00:17:05.640 Я преподаю в университете 00:17:05.641 --> 00:17:09.151 и пользуюсь им для обучения RDF в своём веб-курсе по семантике. 00:17:09.161 --> 00:17:12.121 Если хотите изучать RDF, это хороший инструмент. 00:17:13.033 --> 00:17:17.598 Например, это визуализация RDF-графа с помощью этого инструмента. 00:17:18.587 --> 00:17:22.643 Но прежде чем приехать сюда, в прошлом месяце 00:17:22.643 --> 00:17:28.441 я специально начал использовать RDFShape для работы с Викиданными. 00:17:28.443 --> 00:17:33.082 Инструмент называется WikiShape, и вчера я подарил его Викиданным. 00:17:33.082 --> 00:17:34.441 Что я сделал? 00:17:34.442 --> 00:17:39.228 Я удалил всё, что не связано с Викиданными, 00:17:39.228 --> 00:17:42.912 добавил кое-что жёстко закодированное, 00:17:42.912 --> 00:17:44.802 например, точку доступа SPARQL. 00:17:44.802 --> 00:17:49.041 Но теперь меня попросили сделать это и для Викибазы. 00:17:49.042 --> 00:17:52.000 Это очень легко. 00:17:52.760 --> 00:17:56.280 Этот инструмент WikiShape достаточно новый. 00:17:57.015 --> 00:17:59.843 Я думаю, что многие его функции работают, 00:17:59.844 --> 00:18:02.468 но некоторые, возможно, не работают, 00:18:02.469 --> 00:18:04.581 и если вы попробуете его и захотите что-то улучшить, 00:18:04.581 --> 00:18:06.281 пожалуйста, сообщите мне. 00:18:06.281 --> 00:18:12.680 Здесь у нас скриншоты [неразборчиво], но давайте попробуем. 00:18:15.385 --> 00:18:17.003 Давайте посмотрим, работает ли он. 00:18:17.003 --> 00:18:20.070 Во-первых, я должен выйти из... 00:18:22.453 --> 00:18:23.453 Здесь. 00:18:24.226 --> 00:18:28.324 Хорошо. Вот этот инструмент. 00:18:28.324 --> 00:18:29.844 С помощью него вы можете, 00:18:29.845 --> 00:18:35.275 например, проверить схемы сущностей. 00:18:35.276 --> 00:18:38.611 Например, существует новое пространство имён, начинающееся с «Е», 00:18:38.612 --> 00:18:44.805 и здесь, если вы начнёте писать, например, «человек»... 00:18:44.806 --> 00:18:48.812 Когда вы пишете, автозаполнение позволяет проверить, 00:18:48.812 --> 00:18:52.001 например, существуют ли выражения формы для людей, 00:18:52.790 --> 00:18:55.937 и вот здесь появляются выражения формы. 00:18:55.938 --> 00:18:59.841 Как видите, в этом редакторе есть подсветка синтаксиса. 00:18:59.842 --> 00:19:04.559 Возможно, экран очень маленький. 00:19:05.676 --> 00:19:07.590 Попробую увеличить. 00:19:09.194 --> 00:19:10.973 Может, сейчас лучше видно. 00:19:10.973 --> 00:19:14.241 Это редактор с подсветкой синтаксиса. 00:19:14.241 --> 00:19:17.851 Для редактора используется тот же исходный код, 00:19:17.851 --> 00:19:19.641 что и для службы запросов Викиданных. 00:19:19.642 --> 00:19:23.960 Так, например, если вы наведёте мышкой сюда, 00:19:23.961 --> 00:19:27.961 он покажет вам метки разных свойств. 00:19:27.962 --> 00:19:31.298 Я думаю, это очень полезно, потому что сейчас, 00:19:32.588 --> 00:19:38.602 схемы сущностей в Викиданных -- это просто текст, 00:19:38.602 --> 00:19:42.493 и я думаю, этот редактор намного лучше, потому что у него есть автозаполнение, 00:19:42.494 --> 00:19:43.743 и он также имеет... 00:19:43.744 --> 00:19:48.241 Если вы, например, хотите добавить ограничение, 00:19:48.241 --> 00:19:51.570 вы пишете wdt:, 00:19:51.570 --> 00:19:56.884 а затем начинаете писать auth, нажимаете Ctrl+Space, 00:19:56.884 --> 00:19:58.922 и он предлагает разные варианты. 00:19:58.922 --> 00:20:02.388 Это похоже на службу запросов Викиданных, 00:20:02.389 --> 00:20:06.445 но специально для выражений формы. 00:20:06.445 --> 00:20:11.975 Так как я думаю, что создание выражений формы 00:20:11.976 --> 00:20:15.841 не сложнее, чем написание SPARQL-запросов. 00:20:15.842 --> 00:20:21.255 Хотя некоторые думают, что это примерно одинаково по сложности. 00:20:22.278 --> 00:20:26.296 Я думаю, это проще, потому что Shape Expressions 00:20:26.296 --> 00:20:31.241 был создан с целью облегчить работу. 00:20:31.242 --> 00:20:35.001 Первое, что у вас есть -- это редактор 00:20:35.001 --> 00:20:36.620 для выражений формы. 00:20:37.371 --> 00:20:41.467 Здесь есть возможность, например, визуализации. 00:20:41.468 --> 00:20:44.801 Если у вас есть какое-то выражение формы, например... 00:20:44.802 --> 00:20:49.386 Думаю, written work -- хороший пример, 00:20:49.386 --> 00:20:53.300 поскольку в нём есть взаимосвязь между разными сущностями. 00:20:54.823 --> 00:20:58.160 Вот UML-визуализация для written work. 00:20:58.161 --> 00:21:02.090 Здесь легко увидеть разные свойства. 00:21:02.790 --> 00:21:06.794 Когда вы делаете это совместно с несколькими людьми, 00:21:06.795 --> 00:21:09.216 они находят ошибки в своих выражениях формы, 00:21:09.217 --> 00:21:12.988 потому что так можно легко найти недостающие свойства. 00:21:13.588 --> 00:21:15.771 Есть ещё одна возможность проверки, 00:21:15.772 --> 00:21:19.520 кажется, у меня она вот здесь. 00:21:20.496 --> 00:21:25.285 Это было на какой-то вкладке, возможно, я закрыл её. 00:21:26.267 --> 00:21:30.988 Но вы можете, например, нажать Validate entities. 00:21:32.308 --> 00:21:34.232 Например, 00:21:35.404 --> 00:21:41.921 Q42 сравнить с E42, схемой для авторов. 00:21:42.818 --> 00:21:46.180 Думаю, можно попробовать со схемой для людей. 00:21:49.050 --> 00:21:50.050 А потом... 00:21:50.688 --> 00:21:56.365 Это SPARQL-запрос, и он занимает какое-то время, 00:21:56.365 --> 00:21:59.134 например, сейчас сбой в сети, но... 00:21:59.657 --> 00:22:01.580 Вы можете попробовать. 00:22:02.759 --> 00:22:07.026 Давайте расскажем о других инструментах. 00:22:07.026 --> 00:22:12.353 Если хотите попробовать и у вас есть предложения, дайте мне знать. 00:22:13.133 --> 00:22:15.540 Продолжим презентацию. 00:22:18.923 --> 00:22:20.233 Это WikiShape. 00:22:23.800 --> 00:22:26.509 Как я уже говорил, 00:22:27.681 --> 00:22:34.157 Редактор Shape Expressions -- независимый проект на GitHub. 00:22:35.605 --> 00:22:37.472 Вы можете использовать его в своём проекте. 00:22:37.472 --> 00:22:41.036 Если хотите использовать инструмент Shape Expressions, 00:22:41.036 --> 00:22:45.635 вы можете просто встроить его в любой другой проект, 00:22:45.636 --> 00:22:48.235 его можно найти на GitHub, и им можно пользоваться. 00:22:48.868 --> 00:22:51.970 Тот же автор, один из моих учеников, 00:22:52.684 --> 00:22:55.704 также создал редактор для Shape Expressions, 00:22:55.704 --> 00:22:57.799 вдохновившись службой запросов Викиданных. 00:23:00.682 --> 00:23:05.103 Этот редактор более наглядный для SPARQL-запросов, 00:23:05.104 --> 00:23:07.135 куда вы можете загрузить подобные вещи. 00:23:07.136 --> 00:23:09.123 Это снимок экрана. 00:23:09.123 --> 00:23:12.662 Как видите, выражения формы здесь в виде текста. 00:23:12.662 --> 00:23:17.822 Но здесь они на базе форм, и, вероятно, потребуется больше времени, 00:23:18.595 --> 00:23:23.400 но вы можете вставлять разные строки в разные поля. 00:23:23.401 --> 00:23:25.800 Это ShExEr. 00:23:26.879 --> 00:23:31.882 Его сделал аспирант Университета Овьедо, 00:23:31.883 --> 00:23:34.080 он сегодня здесь, и расскажет вам о ShExEr. 00:23:38.147 --> 00:23:40.024 (Данни) Привет, я Данни Фернандес, 00:23:40.025 --> 00:23:44.099 аспирант Университета Овьедо, работаю с Лаброй. 00:23:44.710 --> 00:23:47.725 У нас заканчивается время, поэтому давайте ускоримся. 00:23:47.726 --> 00:23:52.641 Я покажу несколько скриншотов вместо всей презентации. 00:23:52.642 --> 00:23:57.897 Обычный способ работы с Shape Expressions или любым подобным языком: 00:23:57.897 --> 00:23:59.521 есть специалист, 00:23:59.522 --> 00:24:02.313 который определяет, как должен выглядеть граф, 00:24:02.314 --> 00:24:03.555 определяет структуры, 00:24:03.556 --> 00:24:06.983 а затем вы используете эти структуры для проверки фактических данных. 00:24:08.124 --> 00:24:11.641 Инструмент, о котором рассказал Лабра, -- 00:24:11.642 --> 00:24:14.441 общего назначения для любого RDF-источника, 00:24:14.442 --> 00:24:17.375 и он может работать в обратном направлении. 00:24:17.376 --> 00:24:18.758 У вас уже есть некоторые данные, 00:24:18.759 --> 00:24:23.165 вы выбираете узлы, форму которых хотите получить, 00:24:23.165 --> 00:24:26.718 а затем автоматически извлекаете или выводите форму. 00:24:26.719 --> 00:24:29.791 Несмотря на то, что это инструмент общего назначения, 00:24:29.791 --> 00:24:34.063 мы сделали волшебную кнопку для этой конференции, 00:24:34.884 --> 00:24:37.081 и если вы нажмёте на неё, 00:24:37.081 --> 00:24:42.079 появятся параметры конфигурации, 00:24:42.080 --> 00:24:46.251 и он настроит работу с точкой доступа Викиданных, 00:24:46.251 --> 00:24:47.971 простите, он скоро закончит. 00:24:48.733 --> 00:24:52.883 После нажатия этой кнопки вы, по сути, получаете это. 00:24:52.884 --> 00:24:55.126 Выбрав необходимые вам узлы 00:24:55.127 --> 00:24:57.431 или экземпляры класса, 00:24:57.431 --> 00:24:59.361 что бы вы ни искали, 00:24:59.361 --> 00:25:01.321 вы получите автоматическую схему. 00:25:02.319 --> 00:25:07.111 Все ограничения отсортированы по количеству узлов, 00:25:07.112 --> 00:25:09.772 можно отфильтровать наименее распространённые и так далее. 00:25:09.772 --> 00:25:12.126 Внизу есть плакат об этом материале, 00:25:12.127 --> 00:25:14.595 я буду на нижнем и верхнем этажах, 00:25:14.596 --> 00:25:16.454 а также в других местах, 00:25:16.455 --> 00:25:19.081 поэтому если у вас будет интерес к этому инструменту, 00:25:19.082 --> 00:25:21.476 просто обращайтесь ко мне. 00:25:21.477 --> 00:25:24.624 Отдаю микрофон Лабре, спасибо. 00:25:24.625 --> 00:25:29.265 (аплодисменты) 00:25:29.812 --> 00:25:32.578 (Хосе) Давайте обсудим другие инструменты. 00:25:32.579 --> 00:25:34.984 ShapeDesigner -- ещё один инструмент. 00:25:34.984 --> 00:25:37.241 Андра, хочешь рассказать о ShapeDesigner 00:25:37.242 --> 00:25:39.957 или позже на семинаре? 00:25:40.173 --> 00:25:44.437 Сегодня будет семинар, посвящённый Shape Expressions, 00:25:45.265 --> 00:25:47.939 мы попробуем его на практике, 00:25:47.940 --> 00:25:52.324 так что если хотите попрактиковаться с ShEx, то вам сюда. 00:25:52.875 --> 00:25:55.300 Это инструмент ShEx.js, 00:25:55.300 --> 00:25:56.890 и Эрик может рассказать о нём. 00:25:57.969 --> 00:26:00.687 (Эрик) Расскажу очень быстро. 00:26:00.687 --> 00:26:05.711 Вы, вероятно, уже видели интерфейс ShEx, 00:26:05.711 --> 00:26:07.601 заточенный под Викиданные. 00:26:07.602 --> 00:26:12.930 Его сократили и адаптировали специально под Викиданные 00:26:12.930 --> 00:26:15.567 потому что в нём больше возможностей, 00:26:15.567 --> 00:26:17.937 но я, кажется, говорил об этом, 00:26:17.937 --> 00:26:19.977 потому что одна из этих функций особенно полезна 00:26:19.978 --> 00:26:23.201 для отладки схем Викиданных. 00:26:23.201 --> 00:26:29.224 Если вы выбираете полный режим, 00:26:29.225 --> 00:26:31.444 то пока я буду проводить проверку 00:26:31.445 --> 00:26:34.694 всех этих триплетов, 00:26:34.695 --> 00:26:36.274 и если я получу множество ошибок, 00:26:36.275 --> 00:26:40.396 я могу пройтись по этим ошибкам 00:26:40.396 --> 00:26:44.120 и посмотреть, какие триплеты здесь, внизу. 00:26:44.121 --> 00:26:45.967 Это просто журнал того, как всё происходило. 00:26:46.327 --> 00:26:49.180 Затем можете поиграть с этим, 00:26:49.181 --> 00:26:51.033 чтобы поменять что-либо. 00:26:51.033 --> 00:26:54.160 Это более быстрая версия того, как это сделать. 00:26:55.361 --> 00:26:56.481 Это форма ShExC -- 00:26:56.482 --> 00:26:59.455 то, что предлагал Йохим, 00:27:00.035 --> 00:27:04.631 что может быть полезно для заполнения документов Викиданных 00:27:04.631 --> 00:27:07.338 на основе выражения формы для этого документа. 00:27:08.095 --> 00:27:11.681 Она не адаптирована под Викиданные. 00:27:11.682 --> 00:27:14.081 Я просто показываю, что можно взять схему, 00:27:14.082 --> 00:27:15.402 сделать аннотации, 00:27:15.403 --> 00:27:17.518 чтобы конкретно указать, какую схему вы хотите, 00:27:17.519 --> 00:27:19.031 потом просто создать форму 00:27:19.031 --> 00:27:21.191 и, если у вас есть данные, можно заполнить форму. 00:27:24.517 --> 00:27:26.164 PyShEx [неразборчиво]. 00:27:28.025 --> 00:27:31.080 (Хосе) Думаю, это последний инструмент. 00:27:31.821 --> 00:27:34.080 Да, это PyShEx. 00:27:34.675 --> 00:27:38.151 PyShEx -- это Shape Expressions, реализованный на Python, 00:27:39.193 --> 00:27:42.680 он совместим с Jupyter Notebooks. 00:27:42.680 --> 00:27:44.432 Итак, это всё. 00:27:44.433 --> 00:27:47.170 (аплодисменты) 00:27:52.916 --> 00:27:56.088 (Андра) Итак, я расскажу о конкретном проекте, 00:27:56.088 --> 00:27:58.074 в котором участвую -- Gene Wiki, 00:27:58.865 --> 00:28:04.366 и в котором мы тоже занимаемся вопросами качества. 00:28:04.597 --> 00:28:06.684 Прежде чем говорить о качестве, 00:28:06.685 --> 00:28:09.229 я кратко расскажу вам о Gene Wiki. 00:28:09.855 --> 00:28:15.175 Мы только что выпустили предварительную версию статьи, 00:28:15.175 --> 00:28:18.160 в которой описаны детали проекта. 00:28:19.821 --> 00:28:22.066 Я вижу, люди фотографируют... 00:28:22.066 --> 00:28:25.076 Gene Wiki публикует в Викиданных 00:28:25.076 --> 00:28:28.027 общедоступные биомедицинские данные, 00:28:28.028 --> 00:28:32.200 используя для этого определённый шаблон. 00:28:33.130 --> 00:28:36.809 Если у нас появляется новое хранилище или набор данных, 00:28:36.810 --> 00:28:39.600 который можно включить Викиданные, 00:28:39.601 --> 00:28:41.293 первый шаг -- вовлечение сообщества. 00:28:41.294 --> 00:28:43.784 Необязательно сообщества Викиданных, 00:28:43.785 --> 00:28:46.120 но местного исследовательского сообщества. 00:28:46.121 --> 00:28:50.286 Мы встречаемся лично, онлайн или на любой платформе 00:28:50.286 --> 00:28:52.881 и пробуем придумать модель данных, 00:28:52.882 --> 00:28:56.197 которая соединит их данные с моделью Викиданных. 00:28:56.197 --> 00:28:59.944 Вот фотография прошлогоднего семинара, 00:28:59.945 --> 00:29:02.663 на котором мы анализировали определённый набор данных, 00:29:02.663 --> 00:29:05.280 и как видите, было много обсуждений, 00:29:05.281 --> 00:29:07.960 затем приведение его в соответствие с schema.org 00:29:07.960 --> 00:29:10.320 и другими существующими онтологиями. 00:29:10.320 --> 00:29:15.508 В конце первого шага у нас на доске появился чертёж схемы, 00:29:15.509 --> 00:29:17.336 которую мы хотим добавить в Викиданные. 00:29:17.337 --> 00:29:20.440 Вы видите, она несложная, 00:29:20.441 --> 00:29:22.116 на заднем плане, 00:29:22.116 --> 00:29:26.270 и мы можем построить какие-то схемы даже здесь, в рамках этой дискуссии. 00:29:26.560 --> 00:29:28.399 Если у нас есть схема, 00:29:28.400 --> 00:29:31.320 следующий шаг -- попытаться сделать эта схему машиночитаемой, 00:29:32.358 --> 00:29:36.841 чтобы иметь работающие модели для переноса внешних данных 00:29:36.842 --> 00:29:39.690 из любой медико-биологической базы данных в Викиданные. 00:29:40.393 --> 00:29:45.182 Здесь мы применяем инструмент Shape Expressions, 00:29:46.471 --> 00:29:52.518 поскольку он позволяет проверить, 00:29:52.518 --> 00:29:57.040 является ли набор данных... Сначала увидеть, 00:29:57.040 --> 00:30:01.782 что уже существующие данные в Викиданных следуют той же модели данных, 00:30:01.783 --> 00:30:04.718 которая была получена в предыдущих процессах. 00:30:04.719 --> 00:30:06.641 С помощью Shape Expressions мы можем проверить, 00:30:06.642 --> 00:30:10.926 требуется ли корректировка данных по этой теме в Викиданных, 00:30:10.926 --> 00:30:15.013 нужно ли адаптировать нашу модель к модели Викиданных или наоборот. 00:30:15.937 --> 00:30:19.867 Как только всё на месте, мы начинаем писать ботов, 00:30:20.670 --> 00:30:23.801 а боты загружают информацию 00:30:23.802 --> 00:30:27.308 из первоисточников в Викиданные. 00:30:27.846 --> 00:30:29.303 Когда боты готовы, 00:30:29.304 --> 00:30:33.851 а мы пишем их на платформе WikidataIntegrator, 00:30:33.851 --> 00:30:36.201 используя библиотеку Python, 00:30:36.202 --> 00:30:38.167 которая появилась в результате нашего проекта. 00:30:38.698 --> 00:30:42.921 Когда боты написаны, мы используем платформу Jenkins 00:30:42.921 --> 00:30:44.540 для непрерывной интеграции. 00:30:44.540 --> 00:30:45.762 С помощью Jenkins 00:30:45.762 --> 00:30:51.160 мы постоянно обновляем первоначальные источники с Викиданными. 00:30:52.178 --> 00:30:55.889 Вот диаграмма, о которой я говорил ранее. 00:30:55.890 --> 00:30:57.241 Это её текущий вид. 00:30:57.242 --> 00:31:02.059 Оранжевые прямоугольники -- первоисточники медикаментов, 00:31:02.060 --> 00:31:07.827 белков, генов, заболеваний, химических соединений, со взаимосвязями, 00:31:07.827 --> 00:31:10.870 но её невозможно прочитать сейчас, поскольку она слишком маленькая, 00:31:10.870 --> 00:31:17.472 но это база данных, источниками которых мы управляем в Викиданных 00:31:17.473 --> 00:31:20.560 и соединяем с первоисточниками. 00:31:20.561 --> 00:31:22.355 Так выглядит наш рабочий процесс. 00:31:22.870 --> 00:31:25.312 Один из наших партнёров -- онтология заболеваний. 00:31:25.312 --> 00:31:28.289 Онтология заболеваний имеет лицензию CC0, 00:31:28.289 --> 00:31:31.990 и такая онтология имеет свой цикл курирования. 00:31:32.756 --> 00:31:35.736 Онтология заболеваний постоянно обновляется, 00:31:35.737 --> 00:31:39.687 чтобы отразить базу заболеваний или их объяснение. 00:31:40.336 --> 00:31:44.361 Здесь изображён цикл курирования Викиданных по заболеваниям, 00:31:44.362 --> 00:31:49.844 где сообщество постоянно следит за тем, что происходит с Викиданными. 00:31:50.406 --> 00:31:51.601 Есть две роли. 00:31:51.602 --> 00:31:55.477 Мы упрощённо называем их хранитель-куратор, 00:31:56.009 --> 00:31:59.561 и это были я и мой коллега пять лет назад. 00:31:59.562 --> 00:32:03.414 Мы просто сидели за компьютерами и мониторили Википедию и Викиданные, 00:32:03.415 --> 00:32:08.601 и если была проблема, мы сообщали о ней первоначальному сообществу, 00:32:08.602 --> 00:32:11.765 первоначальным источникам, они смотрели на реализацию и решали, 00:32:11.765 --> 00:32:14.240 доверять ли данным, введённым в Викиданные. 00:32:14.850 --> 00:32:18.555 Если да, начинался цикл 00:32:18.555 --> 00:32:22.686 и следующий шаг -- часть онтологии заболеваний 00:32:22.687 --> 00:32:25.411 возвращалась в Викиданные. 00:32:27.419 --> 00:32:31.480 Для WikiPathways мы делаем то же самое. 00:32:31.481 --> 00:32:34.202 WikiPathways -- база данных биологических путей, 00:32:34.202 --> 00:32:36.602 вдохновлённая MediaWiki. 00:32:36.602 --> 00:32:40.901 В Викиданных уже существуют различные источники путей. 00:32:41.463 --> 00:32:44.713 Между ними могут возникать конфликты, 00:32:45.312 --> 00:32:49.521 и хранителям-кураторам сообщается об их возникновении, 00:32:49.522 --> 00:32:53.715 и вы управляете индивидуальными циклами курирования. 00:32:53.715 --> 00:32:57.068 Но если вы помните предыдущий цикл, 00:32:57.069 --> 00:33:03.041 где речь велась только о двух циклах, двух ресурсах, 00:33:03.566 --> 00:33:06.300 нам нужно делать это для каждого имеющегося ресурса 00:33:06.300 --> 00:33:08.061 и нужно управлять происходящим, 00:33:08.062 --> 00:33:09.775 потому что под курированием 00:33:09.775 --> 00:33:14.157 я подразумеваю постоянное отслеживание страниц Википедии и Викиданных. 00:33:14.545 --> 00:33:19.316 Такая работа явно не для двух хранителей-кураторов. 00:33:19.860 --> 00:33:22.777 На конференции в 2016 году, 00:33:22.778 --> 00:33:26.933 когда Эрик рассказывал о Shape Expressions, 00:33:26.934 --> 00:33:29.277 я присоединился, и подумал, 00:33:29.278 --> 00:33:34.240 что Shape Expressions может помочь выявить различия в Викиданных, 00:33:34.240 --> 00:33:41.159 которые помогут хранителям делать более подробные отчёты. 00:33:42.275 --> 00:33:46.019 В этом году я был в восторге от схемы сущности, 00:33:46.020 --> 00:33:50.765 потому что теперь мы можем хранить эти схемы в Викиданных, 00:33:50.765 --> 00:33:53.183 до этого мы хранили их на GitHub. 00:33:53.860 --> 00:33:56.815 Схема согласуется с интерфейсом Викиданных, 00:33:56.816 --> 00:33:59.350 здесь есть обсуждение документа, 00:33:59.350 --> 00:34:00.762 но также доступны правки. 00:34:00.763 --> 00:34:03.012 Вы можете пользоваться первыми страницами 00:34:03.012 --> 00:34:05.262 и правками в Викиданных, 00:34:05.262 --> 00:34:12.255 чтобы обсуждать то, что имеется в Викиданных 00:34:12.255 --> 00:34:14.060 и первоначальных источниках. 00:34:14.966 --> 00:34:19.686 Эрик уже об этом говорил, это очень помогает. 00:34:19.686 --> 00:34:24.335 Мы создали выражение формы для гена человека, 00:34:24.336 --> 00:34:30.225 потом пропустили его через ShEx, как вы видите, 00:34:30.225 --> 00:34:32.428 мы получили... 00:34:32.429 --> 00:34:34.641 Есть один элемент, за которым нужно следить, -- 00:34:34.642 --> 00:34:37.316 он не вписывается в эту схему, 00:34:37.316 --> 00:34:43.139 и затем вы можете создать сущности схемы, отчёты курирования, 00:34:43.140 --> 00:34:46.240 и отправить их в разные отчёты. 00:34:48.058 --> 00:34:52.788 Но ShEx -- это встроенный интерфейс, 00:34:52.788 --> 00:34:55.860 и здесь я смогу показать только десять, 00:34:55.860 --> 00:35:00.362 но у нас десятки тысяч, и они несоизмеримы. 00:35:00.362 --> 00:35:04.654 Интегратор Викиданных теперь поддерживает ShEx, 00:35:05.168 --> 00:35:07.431 и мы просто можем замкнуть петли элементов, 00:35:07.431 --> 00:35:11.494 указав «да-нет, да-нет, правда-ложь, правда-ложь». 00:35:11.495 --> 00:35:12.495 снова, 00:35:13.065 --> 00:35:16.514 повышая эффективность при составлении отчётов. 00:35:17.256 --> 00:35:22.662 Но с недавних пор он строится на сервисе запросов Викиданных, 00:35:23.181 --> 00:35:24.998 мы недавно регулировали количество запросов, 00:35:24.999 --> 00:35:26.560 и это тоже несоизмеримо. 00:35:26.561 --> 00:35:31.391 Работа с моделями на Викиданных -- непрерывный процесс. 00:35:32.202 --> 00:35:36.682 ShEx не только пугает, 00:35:36.683 --> 00:35:40.356 но он ещё и громоздкий. 00:35:41.068 --> 00:35:43.192 Я начал работать, 00:35:43.192 --> 00:35:46.082 это мой первый эксперимент или упражнение, 00:35:46.082 --> 00:35:48.184 где был использован инструмент yEd, 00:35:48.184 --> 00:35:52.591 и затем я начал отрисовывать эти выражения формы, 00:35:52.591 --> 00:35:58.098 и потом регенерировать эту схему 00:35:58.099 --> 00:36:01.279 в формат, близкий к Shape Expressions, 00:36:01.280 --> 00:36:04.520 понятный людям, 00:36:04.521 --> 00:36:07.432 которых слишком пугает язык Shape Expressions. 00:36:07.961 --> 00:36:12.308 Но есть проблема с визуальным описанием, 00:36:12.309 --> 00:36:18.229 потому что это также схема, кем-то нарисованная в yEd. 00:36:18.230 --> 00:36:23.838 Вот ещё одна, замечательная. 00:36:23.838 --> 00:36:26.601 Я бы такую себе на стену повесил, 00:36:27.271 --> 00:36:30.281 но она пока несовместима. 00:36:30.281 --> 00:36:33.371 Хочу завершить своё выступление слайдом, 00:36:33.371 --> 00:36:35.732 который я позаимствовал. 00:36:35.732 --> 00:36:37.594 Для меня честь показать его аудитории. 00:36:37.595 --> 00:36:39.423 Он мне очень нравится: 00:36:39.424 --> 00:36:42.362 «Люди думают, что RDF -- это боль из-за его сложности. 00:36:42.362 --> 00:36:43.745 Но на самом деле всё ещё хуже. 00:36:43.745 --> 00:36:48.133 RDF очень прост, но он позволяет работать с реальными данными 00:36:48.134 --> 00:36:50.031 и невероятно сложными проблемами. 00:36:50.031 --> 00:36:52.361 Можно избежать использования RDF, 00:36:52.361 --> 00:36:55.760 но вряд ли получится избежать сложных данных и компьютерных проблем». 00:36:55.761 --> 00:36:59.535 Речь об RDF, но, я думаю, подходит под моделирование в целом. 00:37:00.112 --> 00:37:02.769 Мой вопрос -- должны ли мы... 00:37:03.387 --> 00:37:05.882 Как мы будем моделировать? 00:37:05.882 --> 00:37:10.826 Поговорим о ShEx, или визуальных моделях, или... 00:37:11.426 --> 00:37:13.271 Как нам продолжить? 00:37:13.474 --> 00:37:14.840 Спасибо за уделённое время. 00:37:15.102 --> 00:37:17.787 (аплодисменты) 00:37:20.001 --> 00:37:21.188 (Лидия) Спасибо большое. 00:37:21.692 --> 00:37:24.001 Можете выйти вперёд, 00:37:24.002 --> 00:37:27.741 чтобы аудитория могла задать вопросы. 00:37:28.610 --> 00:37:30.203 Есть вопросы? 00:37:31.507 --> 00:37:32.507 Да. 00:37:34.253 --> 00:37:36.890 Думаю, для камеры нужно, чтобы... 00:37:38.835 --> 00:37:40.968 (Лидия смеётся) Да. 00:37:43.094 --> 00:37:46.273 (голос из зала 1) Вопрос Кристине, думаю. 00:37:47.366 --> 00:37:51.641 Вы упоминали термин «прирост информации» 00:37:51.642 --> 00:37:53.689 от объединения с другими системами. 00:37:53.690 --> 00:37:56.579 Существует информационно-теоретический показатель -- прирост информации, 00:37:56.579 --> 00:37:58.201 основанный на статистике и вероятности. 00:37:59.542 --> 00:38:01.736 Вы имели в виду именно этот показатель? 00:38:01.736 --> 00:38:04.173 Прирост информации на основе теории вероятности, 00:38:04.174 --> 00:38:05.240 теории информации, 00:38:05.241 --> 00:38:09.024 или просто такая концептуальная идея для измерения прироста информации? 00:38:09.025 --> 00:38:13.016 Нет, мы действительно определили и применили показатели, 00:38:13.695 --> 00:38:20.161 используя энтропию Шеннона, поэтому смысл именно такой. 00:38:20.162 --> 00:38:22.416 Не хочу вдаваться в детали конкретных формул... 00:38:22.416 --> 00:38:24.977 (голос из зала 1) Нет, конечно, поэтому и прозвучал вопрос. 00:38:24.978 --> 00:38:27.178 - (Кристина) Да. - (голос из зала 1) Спасибо. 00:38:33.091 --> 00:38:35.407 (голос из зала 2) Это больше комментарий, нежели вопрос. 00:38:35.407 --> 00:38:36.541 (Лидия) Да, конечно. 00:38:36.541 --> 00:38:39.840 (голос из зала 2) Акцент был на элементах, 00:38:39.840 --> 00:38:42.547 на их качестве и полноте, 00:38:42.547 --> 00:38:47.374 но меня беспокоит, что мы не применяем это к иерархиям, 00:38:47.374 --> 00:38:51.480 и наша частая проблема -- плохая иерархия. 00:38:51.481 --> 00:38:53.463 Мы видим, что это становится реальной проблемой 00:38:53.464 --> 00:38:55.774 при обычным поиске и других вещах. 00:38:56.771 --> 00:39:01.321 Мы можем импортировать способ, 00:39:01.321 --> 00:39:04.842 по которому внешние тезаурусы выстраивают свои иерархии, 00:39:04.842 --> 00:39:10.291 используя квалификатор P4900, более широкое понятие. 00:39:11.037 --> 00:39:16.167 Но я думаю, для этого есть более подходящие инструменты, 00:39:16.168 --> 00:39:21.212 и вы сможете импортировать иерархию внешнего тезауруса, 00:39:21.212 --> 00:39:24.111 отобразить её на элементы Викиданных. 00:39:24.111 --> 00:39:28.199 И связав её с этими квалификаторами P4900, 00:39:28.200 --> 00:39:31.494 вы можете делать хорошие запросы через SPARQL, 00:39:32.490 --> 00:39:37.534 чтобы увидеть, где наша иерархия расходится с внешней. 00:39:37.534 --> 00:39:41.346 Например, вы можете знать [Паолу Морма], под псевдонимом PKM, 00:39:41.346 --> 00:39:43.533 этот пользователь создаёт много статей о моде. 00:39:43.533 --> 00:39:50.524 Мы включаем их в иерархию тезауруса европейской моды 00:39:50.524 --> 00:39:53.812 и в иерархию тезауруса искусства и архитектуры, 00:39:53.812 --> 00:39:57.957 а потом мы видим, какие пробелы были в элементах более высокого уровня. 00:39:57.957 --> 00:40:01.231 Для нас это реальная проблема, потому что часто попадаются вещи, 00:40:01.231 --> 00:40:04.355 которые существуют в Википедии только как страницы значений, 00:40:04.356 --> 00:40:09.270 многие элементы более высокого уровня отсутствуют в наших иерархиях, 00:40:09.271 --> 00:40:14.480 и мы должны рассмотреть это с точки зрения качества и полноты, 00:40:14.480 --> 00:40:18.773 но что действительно поможет, станет лучшим инструментом, 00:40:18.773 --> 00:40:20.871 чем те дебри скриптов, написанных мной, -- 00:40:20.872 --> 00:40:26.010 если бы кто-то поместил это в PAWS notebook на Python, 00:40:26.561 --> 00:40:31.972 чтобы можно было извлечь внешний тезаурус, взять его иерархию, 00:40:31.973 --> 00:40:34.595 которая может быть доступна как связанные данные или же нет, 00:40:35.169 --> 00:40:40.580 чтобы поместить это в QuickStatements, чтобы вставить значения P4900. 00:40:41.165 --> 00:40:42.165 Затем позже, 00:40:42.166 --> 00:40:44.527 когда наше представление станет более сложным, 00:40:44.528 --> 00:40:49.691 обновить эти значения P4900, потому что добавляются данные, 00:40:49.691 --> 00:40:51.590 представление становится более комплексным, 00:40:51.590 --> 00:40:55.377 значения этих квалификаторов нужно менять, 00:40:56.230 --> 00:40:59.526 чтобы показать, что в нашей системе всё больше их иерархии. 00:40:59.526 --> 00:41:03.728 Если бы кто-то мог сделать это, думаю, это было бы очень полезно, 00:41:03.728 --> 00:41:07.121 и мы должны рассмотреть и другие подходы 00:41:07.122 --> 00:41:10.762 для улучшения качества и полноты на уровне иерархии, 00:41:10.763 --> 00:41:12.378 а не только на уровне элемента. 00:41:13.308 --> 00:41:14.840 (Андра) Могу я кое-что добавить? 00:41:16.362 --> 00:41:19.901 Да, и мы это делаем, 00:41:19.911 --> 00:41:23.551 и я рекомендую посмотреть на выражение формы, которое сделал Финн 00:41:23.552 --> 00:41:25.530 с лексическими данными, 00:41:25.530 --> 00:41:27.330 где он создаёт выражения формы, 00:41:27.330 --> 00:41:29.640 а затем опирается на другие выражения формы, 00:41:29.641 --> 00:41:32.678 так получается концепция связанных выражений формы в Викиданных. 00:41:32.678 --> 00:41:35.235 В частности, пример использования, если я правильно понимаю -- 00:41:35.235 --> 00:41:37.183 это именно то, что мы делаем в Gene Wiki. 00:41:37.184 --> 00:41:40.841 Есть онтология заболеваний, которая помещена в Викиданные, 00:41:40.842 --> 00:41:44.681 а затем поступают данные о заболевании, и мы применяем Shape Expressions, 00:41:44.683 --> 00:41:47.248 чтобы посмотреть, соответствуют ли данные тезаурусу. 00:41:47.248 --> 00:41:50.919 Есть и другие тезаурусы или другие онтологии или контролируемые словари, 00:41:50.920 --> 00:41:52.559 которые ещё должны войти в Викиданные, 00:41:52.559 --> 00:41:55.351 и именно поэтому инструмент Shape Expressions так интересен -- 00:41:55.351 --> 00:41:57.963 вы можете применять его для онтологии заболеваний, 00:41:57.964 --> 00:41:59.644 для MeSH. 00:41:59.645 --> 00:42:01.851 Теперь вам нужно проверить качество. 00:42:01.851 --> 00:42:04.059 Потому что в Викиданных также есть контекст, 00:42:04.060 --> 00:42:09.567 когда у вас есть контролируемый словарь, вы считаете, что качество соответствует, 00:42:09.568 --> 00:42:11.636 но могут быть случаи, когда сообщество не согласно. 00:42:11.636 --> 00:42:16.081 Инструмент уже есть, но теперь нужно создать эти модели 00:42:16.082 --> 00:42:18.144 и применять их для разных случаев. 00:42:18.811 --> 00:42:20.921 (голос из зала 2) Shape Expressions очень полезен, 00:42:20.922 --> 00:42:25.928 если у вас уже есть внешняя онтология, которая отображается в Викиданных, 00:42:25.929 --> 00:42:29.474 но моя проблема в том, что всё доходит до той стадии, 00:42:29.475 --> 00:42:34.881 когда выясняется, какой части внешней онтологии ещё нет в Викиданных, 00:42:34.882 --> 00:42:36.256 и где есть пробелы, 00:42:36.257 --> 00:42:40.660 и, я думаю, в этом случае иметь более надёжные инструменты, 00:42:40.660 --> 00:42:44.286 чтобы увидеть, чего не хватает из внешних онтологий, 00:42:44.286 --> 00:42:45.537 было бы очень полезно. 00:42:47.678 --> 00:42:49.062 Самая большая проблема 00:42:49.062 --> 00:42:51.201 не в инструментах, а в лицензировании. 00:42:51.803 --> 00:42:55.249 Поместить онтологии в Викиданные на самом деле очень просто, 00:42:55.250 --> 00:42:59.295 но большинство онтологий имеют, как я это вежливо называю, 00:42:59.965 --> 00:43:03.256 ограниченное лицензирование, поэтому они не совместимы с Викиданными. 00:43:04.068 --> 00:43:06.998 (голос из зала 2) Есть множество тезаурусов из государственного сектора 00:43:06.998 --> 00:43:08.209 в сфере культуры. 00:43:08.210 --> 00:43:11.151 - (Андра) Тогда нам нужно поговорить. - (голос из зала 2) Это не проблема. 00:43:11.151 --> 00:43:12.494 (Андра) Тогда поговорим. 00:43:13.624 --> 00:43:19.192 (голос из зала 3) Мой комментарий -- на самом деле ответ Джеймсу. 00:43:19.192 --> 00:43:22.401 Дело в том, что из иерархий получаются графы, 00:43:22.374 --> 00:43:24.041 и когда ты хочешь... 00:43:24.579 --> 00:43:28.888 Я хочу в основном поговорить об общей проблеме в иерархиях -- 00:43:28.889 --> 00:43:30.820 о циклических иерархиях, 00:43:30.821 --> 00:43:33.796 они возвращаются друг к другу, когда есть проблема, 00:43:33.796 --> 00:43:35.920 которой в иерархиях не должно быть. 00:43:37.022 --> 00:43:41.295 Это, как ни странно, часто встречается в категориях Википедии 00:43:41.295 --> 00:43:42.990 у нас много циклов в категориях, 00:43:43.898 --> 00:43:46.612 но хорошая новость в том, что это... 00:43:47.713 --> 00:43:50.393 Технически, это NP-полная задача, 00:43:50.393 --> 00:43:51.583 и вы не можете найти её, 00:43:51.583 --> 00:43:53.414 но легко найдёте, построив граф. 00:43:54.473 --> 00:43:57.046 Но было разработано много способов 00:43:57.047 --> 00:44:00.624 для нахождения проблем в этих иерархических графах. 00:44:00.625 --> 00:44:04.860 Есть такая статья... 00:44:04.861 --> 00:44:07.955 о разрыве циклов в искажённых иерархиях, 00:44:07.956 --> 00:44:12.671 и перечисленные в ней методы помогли при категоризации английской Википедии. 00:44:12.672 --> 00:44:17.141 Вы можете просто применять эти иерархии в Викиданных, 00:44:17.142 --> 00:44:19.540 а затем найти 00:44:19.541 --> 00:44:22.481 и просто удалить то, что вызывает проблемы, 00:44:22.482 --> 00:44:24.593 и на самом деле найти проблемы. 00:44:24.594 --> 00:44:26.960 Это просто идея. 00:44:28.780 --> 00:44:30.533 (голос из зала 2) Это всё очень хорошо, 00:44:30.533 --> 00:44:34.402 но я думаю, вы недооцениваете количество плохих связей между подклассами, 00:44:34.402 --> 00:44:35.402 которые у нас имеются. 00:44:35.403 --> 00:44:39.680 Это как город, который находится совершенно не в той стране, 00:44:40.250 --> 00:44:43.245 при том, что существуют географические инструменты 00:44:43.245 --> 00:44:44.875 для определения этой проблемы. 00:44:44.875 --> 00:44:49.201 Нам в иерархиях нужны более эффективные инструменты, 00:44:49.202 --> 00:44:53.477 которые смогут определить, где эквивалент элемента для страны 00:44:53.478 --> 00:44:57.673 полностью отсутствует, или где он является подклассом чего-то, 00:44:57.674 --> 00:45:01.804 не имеющего к нему отношения. 00:45:02.804 --> 00:45:07.165 (Лидия) Я думаю, вы подобрались к тому, 00:45:07.166 --> 00:45:10.894 что мы с моей командой постоянно слышим от людей, 00:45:10.894 --> 00:45:13.991 которые многократно используют наши данные. 00:45:15.002 --> 00:45:16.638 Отдельная точка данных -- это отлично, 00:45:16.639 --> 00:45:20.163 но если вам нужно посмотреть на онтологию и так далее, 00:45:20.164 --> 00:45:21.857 то становится очень... 00:45:22.388 --> 00:45:26.437 Я думаю, одна из больших проблем, почему это происходит -- 00:45:26.437 --> 00:45:30.736 множество правок в Викиданных 00:45:30.736 --> 00:45:34.544 касаются отдельного элемента, 00:45:34.545 --> 00:45:36.201 вы редактируете этот элемент, 00:45:37.653 --> 00:45:42.075 не понимая, что это может привести к глобальным последствиям 00:45:42.075 --> 00:45:44.245 для остальной части графа, например. 00:45:45.356 --> 00:45:50.041 Если у людей есть идеи, как сделать более заметными 00:45:50.041 --> 00:45:53.185 последствия таких индивидуальных локальных правок, 00:45:54.005 --> 00:45:56.537 думаю, что их стоит изучить, 00:45:57.550 --> 00:46:01.583 чтобы лучше показать людям последствия их правок, 00:46:01.584 --> 00:46:03.434 сделанных с добрыми намерениями, 00:46:04.481 --> 00:46:05.481 какие они. 00:46:06.939 --> 00:46:12.237 Ого! Хорошо, давайте начнём с вас, потом вы, потом вы, затем вы. 00:46:12.237 --> 00:46:13.921 (голос из зала 4) После обсуждения, 00:46:13.922 --> 00:46:18.262 просто чтобы выразить своё согласие с тем, что говорил Джеймс. 00:46:18.263 --> 00:46:22.467 По сути, кажется, что самая опасная вещь -- иерархия, 00:46:22.468 --> 00:46:23.910 не иерархия, но в целом 00:46:23.911 --> 00:46:28.022 семантика связей между подклассами в Викиданных. 00:46:28.022 --> 00:46:32.561 Я недавно изучал языки, только для этой конференции, 00:46:32.562 --> 00:46:35.257 и, например, я нашёл много случаев, 00:46:35.257 --> 00:46:39.463 когда язык является одновременно и частью и подклассом одного и того же. 00:46:39.463 --> 00:46:43.577 Можно сказать, что у нас гибкая онтология. 00:46:43.577 --> 00:46:46.256 Викиданные дают свободу выражения. 00:46:46.256 --> 00:46:47.257 Потому что, например, 00:46:47.258 --> 00:46:50.721 эта онтология языков сложна с политической точки зрения. 00:46:50.722 --> 00:46:55.038 Даже хорошо иметь возможность выразить уровень неопределённости. 00:46:55.038 --> 00:46:57.913 Но представьте, как к этому применить машинное чтение. 00:46:57.913 --> 00:46:59.468 Действительно проблематично. 00:46:59.468 --> 00:47:00.468 И опять же, 00:47:00.469 --> 00:47:03.686 я не думаю, что онтология была импортирована откуда-либо. 00:47:03.687 --> 00:47:05.490 Она изначально наша. 00:47:05.491 --> 00:47:08.321 Она с самого начала собрана из Википедии. 00:47:08.322 --> 00:47:11.324 Так что мне интересно... Shape Expressions -- отличный инструмент, 00:47:11.325 --> 00:47:15.575 который проверяет и исправляет онтологию Википедии 00:47:15.576 --> 00:47:18.191 с помощью внешних ресурсов, прекрасная идея. 00:47:19.026 --> 00:47:20.026 В конце концов, 00:47:20.027 --> 00:47:25.440 получится ли у нас отразить внешние онтологии в Викиданных? 00:47:25.441 --> 00:47:28.651 А также, что мы делаем с основной частью нашей онтологии 00:47:28.652 --> 00:47:30.642 которая никогда не собирается из внешних ресурсов, 00:47:30.643 --> 00:47:31.978 как нам исправить её? 00:47:31.979 --> 00:47:35.276 Я действительно думаю, что это само по себе будет проблемой. 00:47:35.277 --> 00:47:40.080 Мы должны сосредоточиться на этом независимо от идеи проверки онтологии 00:47:40.080 --> 00:47:41.916 с помощью внешнего ресурса. 00:47:49.353 --> 00:47:53.379 (голос из зала 5) Ограничения и формы очень впечатляют, 00:47:53.380 --> 00:47:55.055 то, что мы можем сделать с ними, 00:47:55.205 --> 00:47:58.481 но главный момент до сих пор не совсем понятен -- 00:47:58.482 --> 00:48:03.229 поскольку теперь мы можем более чётко сформулировать, чего ожидаем от данных. 00:48:03.229 --> 00:48:06.893 Сначала каждый должен написать свои инструменты и скрипты, 00:48:06.894 --> 00:48:10.601 сделать их более наглядными, и мы сможем обсудить это. 00:48:10.602 --> 00:48:13.641 Но речь не о том, что верно, а что нет, 00:48:13.642 --> 00:48:15.870 а об ожиданиях, 00:48:15.870 --> 00:48:18.105 и у вас будут разные ожидания и обсуждения 00:48:18.106 --> 00:48:20.737 того, как моделировать в Викиданных. 00:48:22.836 --> 00:48:26.280 Текущее состояние -- лишь один шаг в этом направлении, 00:48:26.281 --> 00:48:28.041 потому что теперь нужно 00:48:28.042 --> 00:48:31.041 привлечь много технических знаний, 00:48:31.042 --> 00:48:35.721 и нам нужны лучшие способы визуализации этого ограничения, 00:48:35.722 --> 00:48:39.995 возможно, преобразование его в более понятный людям язык, 00:48:40.939 --> 00:48:43.768 но в меньшей степени здесь речь о том, что верно, а что нет. 00:48:44.925 --> 00:48:45.925 (Лидия) Да. 00:48:50.986 --> 00:48:53.893 (голос из зала 6) По поводу качества, хочу уточнить... 00:48:53.894 --> 00:48:57.010 Я часто сталкивался с разногласиями, 00:48:58.838 --> 00:49:02.330 связанными с разницей между экземпляром и подклассом. 00:49:02.331 --> 00:49:05.963 Я бы сказал, ошибки в таких ситуациях 00:49:05.963 --> 00:49:11.521 и попытки найти их были очень трудоёмким процессом. 00:49:11.522 --> 00:49:12.655 То, к чему я пришёл: 00:49:12.655 --> 00:49:16.051 «Если найти впечатляющие элементы, важные, 00:49:16.051 --> 00:49:19.026 и затем использовать все экземпляры подкласса, 00:49:19.026 --> 00:49:21.896 чтобы найти все производные этого утверждения», -- 00:49:21.896 --> 00:49:26.215 это очень полезный способ поиска ошибок. 00:49:26.405 --> 00:49:28.897 Но мне было интересно, 00:49:28.897 --> 00:49:33.959 можно ли использовать Shape Expressions 00:49:33.959 --> 00:49:36.854 в качестве инструмента для решения таких проблем? 00:49:40.514 --> 00:49:42.555 (голос из зала 7) Имеет ли структурный след ... 00:49:45.910 --> 00:49:49.170 Если имеется структурный след, который может быть сфальсифицирован, 00:49:49.170 --> 00:49:51.191 можно решить, что это неправильно, 00:49:51.192 --> 00:49:52.670 а потом сделать это. 00:49:52.671 --> 00:49:56.921 Но если это просто попытка сопоставления с объектами реального мира, 00:49:56.922 --> 00:49:59.082 то вам потребуется очень много «мозгов». 00:50:05.768 --> 00:50:08.631 (голос из зала 8) Привет, я Пабло Мендес из Apple Siri Knowledge. 00:50:09.154 --> 00:50:12.770 Мы здесь, чтобы узнать, как помочь проекту и сообществу, 00:50:12.770 --> 00:50:15.645 но Кристина совершила ошибку, спросив, чего мы хотим. 00:50:16.471 --> 00:50:20.052 (смеётся) Думаю, одна вещь, которую хотелось бы увидеть, 00:50:20.958 --> 00:50:23.521 связана с возможностью проверки -- 00:50:23.522 --> 00:50:26.372 одним из основных принципов проекта в сообществе, 00:50:27.062 --> 00:50:28.590 а также с доверием. 00:50:28.590 --> 00:50:32.042 Не все утверждения одинаковы, некоторые из них серьёзно оспариваются, 00:50:32.042 --> 00:50:33.443 некоторые легко предположить, 00:50:33.443 --> 00:50:35.541 например, чью-либо дату рождения можно проверить, 00:50:36.071 --> 00:50:39.882 как вы видели сегодня в основном докладе, гендерные проблемы намного сложнее. 00:50:40.205 --> 00:50:42.560 Можете ли вы немного рассказать о том, что вы знаете 00:50:42.560 --> 00:50:47.271 о доверии и проверках -- этих аспектах качества данных? 00:50:55.442 --> 00:50:58.138 Если этого не много, хотелось бы намного больше. (смеётся) 00:51:00.646 --> 00:51:01.646 (Лидия) Да. 00:51:03.314 --> 00:51:06.548 Как выяснилось, нам нечего сказать. (смеётся) 00:51:08.024 --> 00:51:12.299 (Андра) Я думаю, мы можем сделать многое, но у нас с вами вчера была дискуссия. 00:51:12.300 --> 00:51:15.774 Мой любимый пример, как я выяснил вчера, уже устарел. 00:51:15.774 --> 00:51:20.281 Если вы зайдёте на страницу элемента Q2, это Земля, 00:51:20.282 --> 00:51:23.343 там есть утверждение, что Земля плоская. 00:51:24.183 --> 00:51:26.055 Я люблю этот пример, 00:51:26.056 --> 00:51:28.391 потому что есть сообщество, которое это утверждает, 00:51:28.392 --> 00:51:30.417 и у них есть достоверные источники. 00:51:30.418 --> 00:51:32.254 Так что я думаю, это реальный случай, 00:51:32.255 --> 00:51:34.641 его не нужно оспаривать, он должен быть в Викиданных. 00:51:34.642 --> 00:51:40.385 Я думаю, здесь Shape Expressions может быть действительно полезен, 00:51:40.386 --> 00:51:44.857 потому что вам действительно может быть интересен этот прецедент, 00:51:44.857 --> 00:51:47.129 или этот вариант использования, с которым вы не согласны, 00:51:47.130 --> 00:51:49.799 но может быть и такой случай применения, 00:51:49.799 --> 00:51:51.059 который вас заинтересует. 00:51:51.059 --> 00:51:53.449 Например, глюкоза. 00:51:53.449 --> 00:51:56.841 Биологу не интересно 00:51:56.841 --> 00:52:00.177 строение молекулы глюкозы, 00:52:00.177 --> 00:52:03.201 для него вся глюкоза одинаковая. 00:52:03.202 --> 00:52:05.973 Но химика подобное покоробит, 00:52:05.973 --> 00:52:08.191 существует 200 с лишним... 00:52:08.191 --> 00:52:10.443 Когда у вас есть разные выражения формы, 00:52:10.443 --> 00:52:13.887 я могу их применить с точки зрения химика. 00:52:13.887 --> 00:52:16.691 А с точки зрения биолога 00:52:16.691 --> 00:52:18.524 я применяю другое выражение формы. 00:52:18.524 --> 00:52:20.358 А если вы хотите сотрудничать, 00:52:20.358 --> 00:52:22.784 вы должны сказать Эрику о картах ShEx. 00:52:25.510 --> 00:52:28.873 Но это только начало пути. 00:52:28.873 --> 00:52:32.238 Но я лично верю, что это весьма полезно для этой области. 00:52:34.292 --> 00:52:35.535 (Лидия) Вон там. 00:52:37.949 --> 00:52:39.168 (смех) 00:52:40.597 --> 00:52:46.035 (голос из зала 9) У меня несколько идей по некоторым моментам обсуждения, 00:52:46.035 --> 00:52:50.902 постараюсь озвучить все. Было три идеи, так что... 00:52:52.394 --> 00:52:55.201 Основываясь на том, что Джеймс сказал некоторое время назад, 00:52:55.202 --> 00:52:59.001 у Викиданных с самого начала была очень большая проблема 00:52:59.002 --> 00:53:01.574 в онтологии вышестоящего уровня. 00:53:02.363 --> 00:53:05.339 Мы говорили об этом два года назад на WikidataCon, 00:53:05.340 --> 00:53:07.432 и мы говорили об этом на Викимании. 00:53:07.432 --> 00:53:09.818 На всех встречах по Викиданным 00:53:09.818 --> 00:53:11.656 мы говорим об этом, 00:53:11.656 --> 00:53:15.782 потому что это очень большая проблема на очень высоком уровне -- 00:53:15.783 --> 00:53:22.418 что такое сущность, работа, что такое жанр, искусство, -- 00:53:23.118 --> 00:53:25.461 все эти понятия очень важны. 00:53:27.215 --> 00:53:33.117 И на самом деле это слабое место глобальной онтологии, 00:53:33.118 --> 00:53:37.453 потому что люди регулярно наводят порядок 00:53:38.017 --> 00:53:41.047 и тем самым всё ломают. 00:53:42.516 --> 00:53:48.649 Некоторые из вас помнят парня, который из добрых намерений 00:53:48.649 --> 00:53:51.785 «сломал» все города мира. 00:53:51.785 --> 00:53:57.537 Элементы стали не географическими, везде были нарушения ограничений. 00:53:58.720 --> 00:54:00.278 Это было сделано из добрых побуждений, 00:54:00.278 --> 00:54:03.623 ведь он действительно исправлял ошибку в элементе, 00:54:04.170 --> 00:54:05.732 но всё сломалось. 00:54:06.349 --> 00:54:09.373 Я не уверена, как мы можем решить это, 00:54:10.216 --> 00:54:13.390 поскольку нет ни одного внешнего учреждения, 00:54:13.390 --> 00:54:15.710 у которого мы могли бы скопировать, 00:54:15.710 --> 00:54:19.030 потому что все работают... 00:54:19.154 --> 00:54:22.041 Если я работаю с базой данных исполнительского искусства, 00:54:22.042 --> 00:54:24.601 я просто перейду на уровень исполнительского искусства, 00:54:24.601 --> 00:54:29.361 я не буду переходить к философской концепции сущности, 00:54:29.362 --> 00:54:31.201 и это, на самом деле... 00:54:31.202 --> 00:54:34.561 Я не знаю ни одной базы данных, работающей на этом уровне, 00:54:34.562 --> 00:54:36.827 но это самое слабое место Викиданных. 00:54:37.936 --> 00:54:40.812 Вероятно, когда мы говорим о качестве данных, 00:54:40.812 --> 00:54:44.034 это является важным аспектом. 00:54:44.034 --> 00:54:48.569 Я думаю, это то же самое, что мы заявили... 00:54:48.569 --> 00:54:50.452 Простите, я меняю тему, 00:54:51.401 --> 00:54:55.774 но на разных сессиях мы говорили о качестве. 00:54:55.774 --> 00:54:59.398 На самом деле некоторые из нас могут хорошо моделировать, 00:54:59.399 --> 00:55:01.240 работают с ShEx и так далее. 00:55:01.967 --> 00:55:07.655 Люди не видят этого в Викиданных, они не видят ShEx, 00:55:07.655 --> 00:55:10.392 они не видят Вики-проект на странице обсуждения, 00:55:10.393 --> 00:55:11.393 и иногда 00:55:11.394 --> 00:55:14.958 они даже не видят страницы обсуждения свойств, 00:55:14.958 --> 00:55:19.628 которые чётко заявляют, для чего используется конкретное свойство. 00:55:19.628 --> 00:55:23.887 Например, на прошлой неделе, я добавила ограничение для свойства. 00:55:23.888 --> 00:55:26.324 Ограничение было чётко прописано 00:55:26.325 --> 00:55:28.690 в обсуждении создания свойства. 00:55:28.690 --> 00:55:34.548 Я просто добавила ограничение, а кто-то возмутился: 00:55:34.548 --> 00:55:37.182 «Что? Ты сломала все мои правки!» 00:55:37.183 --> 00:55:41.542 Последние два года человек использовал это свойство неправильно. 00:55:41.542 --> 00:55:46.868 Свойство было очень чёткое, но не было никаких предупреждений, 00:55:46.869 --> 00:55:48.715 как и в Pink Pony, 00:55:48.715 --> 00:55:52.172 мы также сказали на Викимании, что хотим делать Вики-проекты 00:55:52.172 --> 00:55:54.719 более наглядными, делать ShEx более наглядным, но... 00:55:54.719 --> 00:55:56.917 Это то, что сказала Кристина. 00:55:56.917 --> 00:56:02.368 У нас проблема с визуализацией существующих решений. 00:56:02.368 --> 00:56:04.242 На этой сессии 00:56:04.242 --> 00:56:06.862 мы все говорим о том, как создать больше выражений формы, 00:56:06.863 --> 00:56:10.727 или облегчить работу редакторов. 00:56:11.605 --> 00:56:15.835 Но мы наводим порядок с первого дня существования Викиданных, 00:56:15.836 --> 00:56:20.921 и, на глобальном уровне, мы проигрываем, 00:56:20.922 --> 00:56:22.960 поскольку, насколько я знаю, имена сложные, 00:56:22.961 --> 00:56:26.162 но я единственная, кто их редактирует. 00:56:26.662 --> 00:56:29.671 Кто-то добавил имя на латинице 00:56:29.672 --> 00:56:31.584 всем китайским исследователям -- 00:56:32.088 --> 00:56:35.616 мне понадобятся месяцы, чтобы убрать это, и сама я не справлюсь, 00:56:35.616 --> 00:56:38.777 а он сделал массовую выгрузку. 00:56:39.462 --> 00:56:44.158 Проблем с визуализацией больше, чем с инструментами, я думаю, 00:56:44.158 --> 00:56:45.733 поскольку у нас много инструментов. 00:56:45.733 --> 00:56:50.255 (Лидия) К сожалению, мне дали знак, (смеётся), 00:56:50.256 --> 00:56:52.121 поэтому нам нужно заканчивать. 00:56:52.122 --> 00:56:53.563 Большое спасибо за ваши комментарии, 00:56:53.563 --> 00:56:56.611 надеюсь, вы продолжите обсуждение позже, 00:56:56.611 --> 00:56:57.840 и спасибо за ваш вклад. 00:56:58.359 --> 00:56:59.944 (аплодисменты) 00:57:04.108 --> 00:57:07.008 WikidataCon 2019 Викиданные и языки