WEBVTT 00:00:00.265 --> 00:00:02.510 НЕМНОГО О ВИКИДАННЫХ 00:00:02.510 --> 00:00:06.140 Докладчик -- Лидия Пинчер. 00:00:06.370 --> 00:00:08.300 (Лидия Пинчер) Привет всем. 00:00:08.300 --> 00:00:11.636 Просто замечательно, что вы здесь собрались и вас так много! 00:00:11.647 --> 00:00:13.298 Это действительно здорово. 00:00:14.459 --> 00:00:19.541 Леа уже многое рассказала об этом событии. 00:00:19.541 --> 00:00:22.875 Я же расскажу немного о Викиданных как таковых, 00:00:22.875 --> 00:00:26.255 что происходило с ними в прошлом году 00:00:26.255 --> 00:00:28.353 и куда мы двигаемся. 00:00:28.663 --> 00:00:32.974 Итак... Что это? Простите. 00:00:40.118 --> 00:00:44.420 Где мы сейчас? Куда мы двигаемся? 00:00:45.480 --> 00:00:49.680 В прошлом году было немало поводов для празднования, 00:00:49.680 --> 00:00:52.329 и некоторые из них хотелось бы особо отметить, 00:00:52.329 --> 00:00:55.025 чтобы они не остались незамеченными, как это иногда бывает. 00:00:56.855 --> 00:01:02.225 Во-первых, хотелось бы привести небольшую статистику 00:01:02.225 --> 00:01:05.245 по редакторам, по нашему контенту 00:01:05.245 --> 00:01:07.199 и о том, как используются наши данные. 00:01:10.376 --> 00:01:14.976 В прошлом году выросло число участников нашего сообщества, 00:01:14.976 --> 00:01:16.724 и это потрясающе. 00:01:16.724 --> 00:01:21.248 Около 3 000 новичков 00:01:21.248 --> 00:01:26.133 занимаются редактированием один раз или чаще в течение месяца. 00:01:26.133 --> 00:01:30.276 Стало быть, 3 000 новых викизнаек. Ура! 00:01:31.617 --> 00:01:34.724 Если посмотреть на тех, кто редактирует чаще -- 00:01:34.724 --> 00:01:36.544 около пяти раз в течение месяца -- 00:01:36.544 --> 00:01:40.995 то прирост составляет примерно 1 200 человек. 00:01:40.995 --> 00:01:44.202 Если посмотреть на тех, кто редактирует 100 раз и чаще -- 00:01:44.202 --> 00:01:47.366 надеюсь, это многие из присутствующих -- 00:01:47.366 --> 00:01:48.996 то у нас появилось 300 человек. 00:01:48.996 --> 00:01:51.450 Поднимите руку, если вы из последней группы. 00:01:52.733 --> 00:01:56.049 Ух ты! Вы молодцы! 00:01:58.059 --> 00:02:04.776 И хотя количество правок -- это не то, 00:02:04.776 --> 00:02:08.592 чему мы обычно уделяем много внимания, 00:02:08.592 --> 00:02:12.783 в этом году мы пересекли-таки отметку в 1 миллиард правок. 00:02:12.967 --> 00:02:17.367 (аплодисменты) 00:02:21.347 --> 00:02:23.474 Хорошо, давайте взглянем на контент. 00:02:27.610 --> 00:02:31.462 Сейчас у нас около 65 миллионов элементов, 00:02:31.462 --> 00:02:34.093 то есть сущностей для описания мира, 00:02:34.093 --> 00:02:40.661 и мы делаем его при помощи 6 700 свойств. 00:02:43.667 --> 00:02:48.079 Из них около 4 300 являются внешними идентификаторами, 00:02:48.079 --> 00:02:51.278 что позволяет ссылаться 00:02:51.278 --> 00:02:55.607 на огромное количество каталогов, баз данных, сайтов и многого другого, 00:02:55.927 --> 00:02:59.024 благодаря чему Викиданные занимают центральное место 00:02:59.024 --> 00:03:01.594 в связанных открытых данных сети. 00:03:02.283 --> 00:03:07.241 Благодаря этим свойствам и элементам 00:03:07.241 --> 00:03:11.990 нами получено около 800 миллионов утверждений: 00:03:11.990 --> 00:03:15.892 в сравнении с предыдущим годом на каждый элемент у нас приходится 00:03:15.892 --> 00:03:18.365 на пол-утверждения больше. 00:03:18.550 --> 00:03:20.480 (смех) 00:03:22.595 --> 00:03:25.144 Викиданные становятся умнее. 00:03:26.914 --> 00:03:29.444 Но у нас есть не только элементы и свойства, 00:03:29.444 --> 00:03:33.704 в нашем арсенале появились лексемы -- 00:03:33.704 --> 00:03:38.165 сейчас у нас насчитывается около 204 000 лексем, 00:03:38.165 --> 00:03:41.860 описывающих слова на самых разных языках. 00:03:41.939 --> 00:03:43.241 Это очень круто. 00:03:43.241 --> 00:03:47.661 Я расскажу об этом подробнее во время сегодняшнего заседания. 00:03:48.860 --> 00:03:52.690 Последним добавлением стали таблицы локализации, 00:03:52.690 --> 00:03:54.571 при помощи которых мы можем просчитать, 00:03:54.571 --> 00:03:58.503 как последовательно моделировать данные 00:03:58.503 --> 00:04:00.971 в заданной области. 00:04:02.171 --> 00:04:04.692 Сейчас у нас около 140 таких таблиц. 00:04:07.391 --> 00:04:12.342 Цифры не всё могут рассказать о контенте, объёме контента -- 00:04:12.342 --> 00:04:14.847 мы также заботимся и о его качестве. 00:04:15.613 --> 00:04:21.976 И мы уже завершили тренировку системы машинного обучения 00:04:21.976 --> 00:04:24.527 для качественной оценки каждого элемента. 00:04:25.642 --> 00:04:29.531 Она всё ещё далека от совершенства, но позволяет получить о нём представление. 00:04:29.656 --> 00:04:35.011 Каждому элементу Викиданных присваивается оценка от одного до пяти. 00:04:35.011 --> 00:04:37.895 Один -- это довольно ужасно; пять -- замечательно. 00:04:38.756 --> 00:04:41.901 Она анализирует количество утверждений, 00:04:41.901 --> 00:04:44.031 внешних идентификаторов, 00:04:44.031 --> 00:04:45.922 ссылок, 00:04:45.922 --> 00:04:49.414 различных меток в разных языках 00:04:49.414 --> 00:04:50.604 и так далее. 00:04:50.604 --> 00:04:55.118 Мы проанализировали Викиданные в динамике, 00:04:55.118 --> 00:04:59.751 и, как видите, судя по показателям, 00:04:59.751 --> 00:05:03.918 будучи изначально ужасной, наша оценка значительно улучшилась. 00:05:03.918 --> 00:05:05.238 (смех) 00:05:05.649 --> 00:05:07.068 Это хорошо. 00:05:07.663 --> 00:05:12.611 Но вы также можете видите, что до пятёрки ещё очень далеко. 00:05:13.664 --> 00:05:16.300 Не думаю, 00:05:16.300 --> 00:05:20.380 что мы до неё доберёмся, верно? 00:05:20.380 --> 00:05:23.123 Не всякий элемент идеален, 00:05:23.123 --> 00:05:26.087 судя по полученным нами показателям. 00:05:26.087 --> 00:05:28.229 Но я так рада видеть, 00:05:28.229 --> 00:05:32.387 что постепенно качество наших данных становится всё лучше и лучше. 00:05:36.709 --> 00:05:43.391 Но создания данных явно недостаточно. 00:05:44.078 --> 00:05:46.734 Мы делаем это не просто так. 00:05:46.734 --> 00:05:48.749 Мы хотим, чтобы их использовали. 00:05:48.749 --> 00:05:53.260 Мы установили, 00:05:53.260 --> 00:05:57.970 сколько статей во всех других проектах Викимедии 00:05:57.970 --> 00:06:00.865 используют данные Викиданных. 00:06:02.040 --> 00:06:07.132 и подсчитали их процентное соотношение ко всем статьям тех проектов. 00:06:07.395 --> 00:06:09.554 Если вы проанализируете всю Викимедию 00:06:09.554 --> 00:06:11.989 и находящиеся в ней статьи, 00:06:11.989 --> 00:06:17.392 то увидите, что сегодня 56,35% из них сегодня используют 00:06:17.392 --> 00:06:20.054 данные Викиданных, 00:06:20.054 --> 00:06:21.585 что, я думаю, довольно неплохо, 00:06:21.585 --> 00:06:27.508 но, конечно же, это далеко не 100%. 00:06:29.085 --> 00:06:31.371 Затем я проанализировала, 00:06:31.371 --> 00:06:36.188 какие проекты наиболее активно используют Викиданные, 00:06:36.188 --> 00:06:39.401 и я распределила их по языковым версиям и так далее. 00:06:39.606 --> 00:06:44.827 Как вы думаете, пять топ-проектов -- 00:06:45.577 --> 00:06:48.254 что они собой представляют? 00:06:48.254 --> 00:06:50.834 К какому родственному проекту принадлежат? 00:06:51.036 --> 00:06:53.177 (несколько голосов в зале) Викисклад. 00:06:53.278 --> 00:06:56.607 Хорошо, почти единодушно -- Викисклад. 00:06:57.216 --> 00:06:58.903 В действительности вы ошибаетесь. 00:06:58.903 --> 00:07:01.684 Все пять проектов -- это Викигид. 00:07:02.084 --> 00:07:03.650 (в зале) Ах! 00:07:03.692 --> 00:07:05.044 (смех) 00:07:05.439 --> 00:07:08.345 Поаплодируем Викигиду. 00:07:08.797 --> 00:07:13.191 (аплодисменты) 00:07:16.750 --> 00:07:19.113 Если захотите проверить, 00:07:19.113 --> 00:07:21.933 где на самом деле находится Викисклад и остальные ваши проекты, 00:07:21.933 --> 00:07:23.521 есть информационная панель. 00:07:23.521 --> 00:07:25.443 Подойдите ко мне, и мы вместе проверим. 00:07:28.049 --> 00:07:32.016 Конечно же, наши данные используются не только внутри Викимедиа. 00:07:32.016 --> 00:07:34.796 Они довольно часто используются и за её пределами. 00:07:34.966 --> 00:07:39.518 Всех проектов не перечислить, но я упомяну некоторые: 00:07:39.518 --> 00:07:43.888 наши данные приносят огромную пользу Метрополитен-музею, фонду Wellcome Trust, 00:07:43.888 --> 00:07:45.687 Библиотеке Конгресса, 00:07:45.687 --> 00:07:47.848 Gene Wiki и многим другим. 00:07:47.951 --> 00:07:51.296 Если вы будете участвовать в заседаниях в рамках программы, 00:07:51.296 --> 00:07:53.292 вы услышите о некоторых из них. 00:07:56.635 --> 00:07:59.608 Хорошо, хватит статистики. 00:07:59.608 --> 00:08:02.171 Давайте рассмотрим другие интересные моменты. 00:08:02.644 --> 00:08:06.897 Мы уже говорили об улучшении качества данных. 00:08:06.897 --> 00:08:10.646 Если взглянуть на качество данных, то вы увидите, 00:08:10.646 --> 00:08:13.032 что его можно проанализировать по самым разным показателям; 00:08:13.032 --> 00:08:16.482 мы улучшили некоторые из них, 00:08:16.482 --> 00:08:18.980 такие как точность данных, 00:08:18.980 --> 00:08:20.751 достоверность данных, 00:08:20.751 --> 00:08:22.515 частота упоминаний, 00:08:22.515 --> 00:08:25.355 последовательность моделирования, 00:08:26.351 --> 00:08:28.992 степень полноты и так далее. 00:08:31.263 --> 00:08:35.746 Взять, к примеру, такой параметр как последовательность моделирования: 00:08:35.746 --> 00:08:39.745 мы сделали возможным 00:08:39.745 --> 00:08:42.355 хранение таблиц локализации в Викиданных, 00:08:42.355 --> 00:08:46.673 чтобы вы могли описывать, как моделировать те или иные домены. 00:08:46.673 --> 00:08:49.727 Вы можете обнаружить... 00:08:49.727 --> 00:08:53.902 Вы можете создать таблицу локализации, скажем, для голландских художников, 00:08:53.902 --> 00:08:56.492 а затем проанализировать, как... 00:08:56.492 --> 00:09:00.297 Какие элементы для голландских художников отсутствуют: 00:09:00.297 --> 00:09:02.470 например, дата рождения, а она должна быть, 00:09:02.470 --> 00:09:04.835 и всё в таком духе. 00:09:05.557 --> 00:09:10.011 И, я надеюсь, гораздо больше вики-проектов 00:09:10.011 --> 00:09:12.431 будут использовать таблицы локализации, 00:09:12.431 --> 00:09:14.385 чтобы обеспечить надлежащую заботу о данных. 00:09:14.385 --> 00:09:15.925 Если хотите научиться, как это делать, 00:09:15.925 --> 00:09:19.165 позже в рамках программы заседание будут вести люди 00:09:19.165 --> 00:09:20.942 которые всё об этом знают 00:09:20.942 --> 00:09:24.858 и смогут дать вам большее об этом представление. 00:09:27.575 --> 00:09:28.745 Хорошо. 00:09:30.899 --> 00:09:35.734 В прошлом году мы серьёзно продвинулись 00:09:35.734 --> 00:09:37.819 в вопросе среды поддержки Викибазы. 00:09:37.819 --> 00:09:41.915 Суть в том, что не все открытые данные 00:09:41.915 --> 00:09:45.085 необходимо относить к Викиданным: 00:09:45.085 --> 00:09:47.490 вместо этого нам нужна эффективная опорная инфраструктура 00:09:47.490 --> 00:09:51.151 для различных мест и структур, 00:09:51.151 --> 00:09:54.623 таких как организации, компании, волонтёрские проекты, 00:09:54.623 --> 00:09:58.437 которые откроют доступ к своим данным тем же образом, что и Викиданные, 00:09:58.437 --> 00:10:00.372 объединятся в одну сеть 00:10:00.372 --> 00:10:03.317 и будут обмениваться данными, связывая их между собой. 00:10:04.132 --> 00:10:08.808 За прошедший год интерес к этому, 00:10:08.808 --> 00:10:11.440 как и интерес к организациям и людям, 00:10:11.440 --> 00:10:14.977 занимающимся схожими с Викибазой проектами, только возрос, 00:10:14.977 --> 00:10:20.466 особенно к разделу библиотек. 00:10:23.009 --> 00:10:26.226 Многое ещё предстоит протестировать и подсчитать, 00:10:26.226 --> 00:10:28.787 и, если уж начистоту, многое сделать впервые: 00:10:28.787 --> 00:10:35.126 сейчас предприимчивые организации сотрудничают с нами, 00:10:35.126 --> 00:10:38.872 чтобы понять, как Викибаза может помочь в организации 00:10:38.872 --> 00:10:42.243 их коллекций, каталогов и так далее. 00:10:42.539 --> 00:10:45.024 Среди них: Немецкая национальная библиотека, 00:10:45.024 --> 00:10:46.419 Национальная библиотека Франции, 00:10:46.419 --> 00:10:49.644 OCLC -- и это впечатляет. 00:10:55.278 --> 00:10:57.360 По-моему, одна из причин такого воодушевления -- 00:10:57.360 --> 00:11:02.868 это то, что мы помогаем организациям передать данные в открытый доступ, 00:11:02.868 --> 00:11:07.754 мы не только выкладываем их на сайте, чтобы кто-то получил к ним доступ, 00:11:07.754 --> 00:11:11.767 а ещё и думаем о том, каким будет наш следующий шаг. 00:11:11.767 --> 00:11:16.399 Мы хотим позволить им вести базу данных, наращивать, дополнять её -- 00:11:16.399 --> 00:11:20.449 это действительно сдвиг, 00:11:20.450 --> 00:11:24.696 который, я надеюсь, приведёт к чему-нибудь хорошему. 00:11:26.041 --> 00:11:27.859 Ещё нам помогает то, 00:11:27.859 --> 00:11:31.523 что у специалистов появляется возможность курировать данные, 00:11:31.523 --> 00:11:33.363 не покидая свои места, 00:11:33.363 --> 00:11:37.474 поддерживать их в надлежащем состоянии 00:11:37.474 --> 00:11:42.317 для синхронизации процессов с Викиданными, например, 00:11:42.317 --> 00:11:45.604 а нам больше не нужно постоянно заниматься этим вопросом. 00:11:46.269 --> 00:11:50.373 Я надеюсь, в конце концов, это снимет часть нагрузки 00:11:50.373 --> 00:11:54.086 с Викиданных как с ресурса, на котором всё происходит. 00:11:57.690 --> 00:12:00.450 Лексикографические данные. 00:12:01.962 --> 00:12:07.060 В прошлом году люди начали описывать слова 00:12:07.060 --> 00:12:09.474 в Викиданных на своих языках, 00:12:09.474 --> 00:12:12.264 чтобы мы смогли создать 00:12:12.264 --> 00:12:14.713 инструменты автоматизированного перевода. 00:12:16.413 --> 00:12:21.019 И на данный момент для некоторых языков 00:12:21.019 --> 00:12:25.320 мы подбираемся всё ближе и ближе к такому объёму данных, 00:12:25.320 --> 00:12:29.143 достигнув которого, вплотную займёмся созданием серьёзного приложения. 00:12:29.527 --> 00:12:32.614 Для ряда языков это дело далёкого будущего, 00:12:32.614 --> 00:12:35.411 но для некоторых мы уже начали разработку приложения, 00:12:35.411 --> 00:12:37.265 и это очень здорово. 00:12:38.401 --> 00:12:39.951 Если хотите больше об этом узнать, 00:12:39.951 --> 00:12:41.829 приходите сегодня на заседание с моим участием. 00:12:46.064 --> 00:12:48.954 И, конечно, не забывайте 00:12:48.954 --> 00:12:50.955 о структурированных данных на Викискладе. 00:12:51.150 --> 00:12:52.154 (свист в зале) 00:12:52.154 --> 00:12:54.052 Да. (смеётся) 00:12:54.052 --> 00:12:55.941 (аплодисменты) 00:12:59.324 --> 00:13:05.225 Структурированные данные Викисклада, будучи его основой, помогли... 00:13:07.121 --> 00:13:11.459 Помогли всё объединить и в прошлом году сделали возможным 00:13:11.459 --> 00:13:15.479 добавление утверждений к файлам на Викискладе, 00:13:15.479 --> 00:13:18.586 при этом люди начали добавлять утверждения к изображениям, 00:13:18.586 --> 00:13:22.770 чтобы их было легче найти, а, значит, и сделать приложения лучше 00:13:22.770 --> 00:13:24.292 и даже больше. 00:13:24.292 --> 00:13:26.852 Это так захватывающе -- видеть, как всё разрастается, 00:13:26.852 --> 00:13:29.988 и, я думаю, важно, 00:13:29.988 --> 00:13:32.959 чтобы сообщество Викиданных понимало: 00:13:32.959 --> 00:13:36.555 когда видишь «изображённый объект», 00:13:36.555 --> 00:13:41.577 «домашний кот», «сидение», «ящерица» и «стена» -- 00:13:41.577 --> 00:13:44.867 это всё ссылки на элементы и свойства Викиданных. 00:13:45.425 --> 00:13:49.620 То есть когда мы создаём элементы и свойства, 00:13:49.620 --> 00:13:54.031 мы не просто пополняем словарный запас Викиданных. 00:13:54.031 --> 00:13:57.904 Также пополняется и словарный запас Викисклада. 00:13:57.904 --> 00:14:00.695 И так будет происходить чаще и чаще: 00:14:00.695 --> 00:14:02.949 придётся больше чем раньше уделять внимания вопросу, 00:14:02.949 --> 00:14:06.550 как наши онтология и словарный запас 00:14:06.550 --> 00:14:09.777 используются в других местах. 00:14:13.339 --> 00:14:17.084 И последнее, о чём надо рассказать, 00:14:17.084 --> 00:14:19.905 это о налаживании более тесных связей 00:14:19.905 --> 00:14:21.902 с другими проектами Викимедиа. 00:14:23.281 --> 00:14:26.159 Мы с командой работаем над проектом под названием «Wikidata Bridge», 00:14:26.159 --> 00:14:28.679 вам стоит подойти к стенду UX 00:14:28.679 --> 00:14:32.904 и потестировать текущую версию: 00:14:32.904 --> 00:14:36.240 например, в ней редакторы Википедии 00:14:36.240 --> 00:14:38.870 смогут редактировать Викиданные непосредственно в своих проектах, 00:14:38.870 --> 00:14:40.988 без необходимости заходить на Викиданные 00:14:40.988 --> 00:14:43.958 и разбираться, как здесь всё устроено. 00:14:43.958 --> 00:14:49.151 Я надеюсь, исчезнет ещё одна преграда, 00:14:49.151 --> 00:14:52.561 мешавшая проектам Викимедиа использовать 00:14:52.561 --> 00:14:54.498 больший объём данных с Викиданных. 00:14:57.165 --> 00:15:01.012 Хорошо, теперь о стратегиях. Куда мы движемся? 00:15:03.005 --> 00:15:07.179 С декабря команда Викиданных в Wikimedia Deutschland 00:15:07.179 --> 00:15:12.262 и представители Фонда Викимедиа разрабатывали стратегии 00:15:12.262 --> 00:15:14.675 и документы для Викиданных. 00:15:14.675 --> 00:15:16.101 В них фактически изложено всё то, 00:15:16.101 --> 00:15:19.526 о чём многие из нас говорили 00:15:19.526 --> 00:15:22.958 на протяжении последних четырёх или пяти лет. 00:15:23.995 --> 00:15:29.292 Не знаю, все ли из вас читали эти документы. 00:15:29.292 --> 00:15:33.737 До конца месяца они появятся на служебном сайте Викисклада. 00:15:33.737 --> 00:15:35.806 Хорошо бы, если вы их не читали, 00:15:35.806 --> 00:15:39.019 прочитать их и оставить там комментарии и всё в таком духе. 00:15:40.062 --> 00:15:44.338 Теперь беглый обзор: 00:15:44.338 --> 00:15:50.991 в них изложено в трёх частях то, что мы думаем о Викиданных и Викибазе . 00:15:51.506 --> 00:15:55.442 В первом речь идёт о Викиданных как о платформе. 00:15:55.442 --> 00:15:57.213 Его можно увидеть в нижнем углу -- 00:15:57.301 --> 00:16:01.356 он о том, 00:16:01.356 --> 00:16:03.876 что Викиданные позволяют всем и каждому 00:16:03.876 --> 00:16:06.273 получить доступ к информации и делиться ей 00:16:06.273 --> 00:16:09.038 вне зависимости от их языка и техники. 00:16:09.038 --> 00:16:14.479 Для этого мы предоставляем данные общего назначения о мире. 00:16:14.479 --> 00:16:18.161 То есть то, что вы делаете каждый день. 00:16:21.282 --> 00:16:25.337 Вторая часть посвящена среде поддержки Викибазы, 00:16:25.337 --> 00:16:31.184 где программное обеспечение Викибазы позволяет функционировать Викиданным 00:16:31.184 --> 00:16:33.953 и распространять открытые данные в сети -- 00:16:33.953 --> 00:16:36.817 это опорная сеть для свободного и открытого распространения знаний. 00:16:38.126 --> 00:16:40.483 И последняя, третья, часть рассказывает 00:16:40.483 --> 00:16:44.435 о роли Викиданных в главных проектах Викимедиа, 00:16:44.435 --> 00:16:47.461 где Викиданные помогают 00:16:47.461 --> 00:16:49.594 проектам Викимедиа, 00:16:50.750 --> 00:16:53.779 что они могли работать и в будущем. 00:16:57.597 --> 00:17:03.113 К чему это приведёт в ближайшем или среднесрочном будущем? 00:17:03.932 --> 00:17:06.329 Викиданные как платформа. 00:17:06.669 --> 00:17:09.162 Нам нужно повысить качество данных, 00:17:09.162 --> 00:17:11.780 так что мы продолжим разрабатывать более эффективные инструменты, 00:17:11.780 --> 00:17:14.195 улучшать уже существующие и так далее. 00:17:15.293 --> 00:17:18.899 Необходимо сделать наши данные более доступными, 00:17:18.899 --> 00:17:23.574 улучшив интерфейс API и обеспечив более надёжную точку доступа SPARQL, 00:17:23.574 --> 00:17:27.315 а также сделать моделирование данных более последовательным, 00:17:27.315 --> 00:17:31.435 чтобы их было легко многократно использовать в приложениях. 00:17:31.867 --> 00:17:34.476 И остаётся только сказать 00:17:35.576 --> 00:17:38.999 о налаживании получения отзывов от наших партнёров. 00:17:40.399 --> 00:17:43.905 В отличие от Википедии, Викиданные не являются тем, 00:17:43.905 --> 00:17:46.152 что можно назвать «проект с конечным результатом», верно? 00:17:46.152 --> 00:17:49.166 Люди заходят на Википедию и читают её, 00:17:49.166 --> 00:17:50.742 тогда как с Викиданными всё не так: 00:17:50.742 --> 00:17:53.295 на них не заходят и не читают. 00:17:53.295 --> 00:17:54.309 Было бы замечательно, 00:17:54.309 --> 00:17:57.882 но в реальности это не так, верно? 00:17:57.882 --> 00:18:01.049 Многие пользователи наших данных 00:18:01.049 --> 00:18:02.770 не заходят на Викиданные как таковые, 00:18:02.770 --> 00:18:06.838 они просматривают их на Википедии и многих других ресурсах. 00:18:07.567 --> 00:18:11.998 Но все эти ресурсы получают отзывы о данных, верно? 00:18:11.998 --> 00:18:14.635 Их пользователи говорят им: «Эй, здесь что-то не так». 00:18:16.775 --> 00:18:20.952 И мне бы хотелось того же -- чтобы мы предоставляли отзывы тем, 00:18:20.958 --> 00:18:24.179 кто на самом деле редактирует Викиданные, то есть вам. 00:18:24.704 --> 00:18:27.102 Понять, как это сделать наиболее эффективно, 00:18:27.102 --> 00:18:29.402 никого не перегружая -- 00:18:30.072 --> 00:18:33.143 это будет одна из наших задач в следующем году. 00:18:34.623 --> 00:18:37.127 Среда поддержки Викибазы. 00:18:37.127 --> 00:18:41.055 Мы продолжим работать с библиотеками, 00:18:41.055 --> 00:18:46.278 но займёмся ещё и наукой и не только этим. 00:18:46.278 --> 00:18:49.671 Сегодня состоится презентация Викибазы -- 00:18:49.671 --> 00:18:52.951 обязательно её посетите, чтобы увидеть, что уже в ней есть 00:18:52.951 --> 00:18:55.695 и что люди уже делают с Викибазой. 00:18:55.695 --> 00:18:57.281 Это того стоит. 00:18:58.532 --> 00:19:00.632 Что нам нужно, 00:19:00.632 --> 00:19:03.541 так это отладка процессов. 00:19:04.384 --> 00:19:08.138 Нужно помочь людям понять, с кем и о чём говорить, 00:19:08.138 --> 00:19:10.467 где им могут оказать помощь, 00:19:10.467 --> 00:19:11.831 и всё в таком роде. 00:19:13.474 --> 00:19:18.205 И, конечно, нужно облегчить установку и обеспечение функционирования Викибазы, 00:19:18.205 --> 00:19:20.309 потому что у нас есть с этим проблемы. 00:19:21.144 --> 00:19:23.257 И последнее, чего надо коснуться, -- это федерация, 00:19:23.257 --> 00:19:26.905 я уже говорила об этом, рассказывая о Викискладе: 00:19:26.905 --> 00:19:30.704 когда Викисклад использует элементы и свойства Викиданных, 00:19:30.704 --> 00:19:33.514 но уже применительно к экземплярам Викибазы, 00:19:33.514 --> 00:19:36.488 чтобы они тоже могли использовать словарный запас Викиданных. 00:19:37.742 --> 00:19:41.007 Как я говорила раньше, 00:19:41.007 --> 00:19:45.066 это в очередной раз заставляет нас проявлять бдительность 00:19:45.066 --> 00:19:48.488 в отношении внешнего использования нашего словарного запаса -- 00:19:48.488 --> 00:19:51.275 более, чем когда-либо ранее. 00:19:53.792 --> 00:19:56.856 Викиданные для проектов Викимедиа -- 00:19:56.856 --> 00:20:00.580 нам нужна более тесная интеграция при помощи Wikidata Bridge, 00:20:00.580 --> 00:20:04.154 и непосредственное редактирование прямо в других проектах, 00:20:04.154 --> 00:20:09.119 и то, о чём, как мне кажется, нам надо всем вместе подумать -- 00:20:09.119 --> 00:20:15.484 как преодолеть языковой барьер. 00:20:15.484 --> 00:20:19.096 Чем теснее Викиданные интегрируются в проекты Викимедиа, 00:20:19.096 --> 00:20:22.472 тем большему количеству людей необходимо поговорить друг с другом 00:20:22.472 --> 00:20:25.705 об этих данных на разных языках, 00:20:25.705 --> 00:20:29.090 и нам надо обдумать, 00:20:30.418 --> 00:20:32.378 как с этим быть. 00:20:33.276 --> 00:20:36.634 Если у кого-то появятся хорошие идеи, я была бы рада обсудить их с вами. 00:20:38.790 --> 00:20:41.618 На этом моя речь подходит к концу. 00:20:41.618 --> 00:20:44.248 Спасибо всем, что даёте все большему количеству людей доступ 00:20:44.248 --> 00:20:46.305 к ещё большему количеству знаний -- каждый день. 00:20:46.688 --> 00:20:48.914 (аплодисменты) 00:20:58.015 --> 00:20:59.902 У нас осталось время для вопросов, 00:20:59.902 --> 00:21:01.474 так что если они есть у присутствующих, 00:21:01.474 --> 00:21:04.992 или если вы смотрите трансляцию в прямом эфире -- «Мама, привет!» -- 00:21:04.992 --> 00:21:08.072 вы можете задать вопрос в EtherPad 00:21:08.072 --> 00:21:11.387 или на канале Telegram, и мы сделаем всё возможное. 00:21:11.387 --> 00:21:13.233 Итак, есть вопросы? 00:21:15.516 --> 00:21:16.655 Тут. 00:21:21.133 --> 00:21:25.243 (голос из зала 1) Всем привет. Это больше мем, чем вопрос. 00:21:25.243 --> 00:21:32.241 Когда в расширении времени можно будет 00:21:32.241 --> 00:21:35.169 устанавливать часы, минуты, секунды, 00:21:35.169 --> 00:21:38.376 так как сейчас можно выставить только дату. 00:21:38.376 --> 00:21:41.380 - Я знаю... Это не мой вопрос... - (смеётся) 00:21:41.380 --> 00:21:44.230 Вот почему я сказал, что это мем. 00:21:44.230 --> 00:21:45.763 Всякий раз одно и то же, 00:21:45.763 --> 00:21:48.738 но начинают всегда издалека, так что... 00:21:50.001 --> 00:21:53.188 У меня нет чёткого ответа на этот вопрос. 00:21:53.188 --> 00:21:54.443 Простите. 00:21:55.678 --> 00:21:57.956 Но в качестве справки: 00:21:58.186 --> 00:22:01.336 люди ещё сильнее нуждаются в этом 00:22:01.336 --> 00:22:03.518 для описания изображений на Викискладе, 00:22:03.518 --> 00:22:08.221 поэтому, возможно, этот вопрос переместится вверх списка дел, 00:22:08.221 --> 00:22:11.501 которые надо выполнить чуточку быстрее. 00:22:14.513 --> 00:22:16.236 Ещё вопросы? 00:22:24.686 --> 00:22:27.655 (голос из зала 2) Линда, исследовательская группа Фонда Викимедиа. 00:22:27.655 --> 00:22:32.600 Хотелось бы узнать ваше мнение о патрулировании, 00:22:33.370 --> 00:22:37.963 ведь это имеет отношение к качеству контента Викиданных, 00:22:38.053 --> 00:22:39.476 вы не могли бы рассказать, 00:22:39.476 --> 00:22:43.362 как изменится патрулирование в среднесрочной перспективе, 00:22:43.362 --> 00:22:45.557 особенно после проекта Bridge? 00:22:45.559 --> 00:22:48.147 Я с нетерпением жду его реализации и мечтаю попробовать. 00:22:48.147 --> 00:22:49.433 Да, спасибо. 00:22:52.298 --> 00:22:56.812 Как вы сказали, после таких проектов, как Bridge, 00:22:58.812 --> 00:23:03.387 для патрулирования придётся приложить значительно больше усилий. 00:23:04.482 --> 00:23:08.673 Но мы достигли такого объёма данных, когда это будет практически неосуществимо 00:23:08.673 --> 00:23:10.772 вручную, одними только людьми. 00:23:10.772 --> 00:23:14.610 Нам придётся потрудиться, чтобы сделать его лучше -- 00:23:14.610 --> 00:23:18.517 например, нам в этом поможет ORES, система машинного обучения, 00:23:18.517 --> 00:23:20.650 она поможет нам понять, 00:23:21.200 --> 00:23:24.588 какие правки человеку действительно нужно проверить, 00:23:24.588 --> 00:23:26.083 а какие, скорее всего, из серии: 00:23:26.083 --> 00:23:30.142 «Ладно, всё как обычно, мне не надо это проверять». 00:23:33.777 --> 00:23:38.878 На данный момент ORES не слишком хороша в оценке того, 00:23:38.878 --> 00:23:41.459 хорошая или плохая правка появилась в Викиданных. 00:23:42.169 --> 00:23:44.549 Сейчас продолжается кампания 00:23:44.549 --> 00:23:50.510 по обучению системы машинного обучения, 00:23:51.062 --> 00:23:52.474 чтобы с вашей помощью 00:23:53.141 --> 00:23:55.550 научить её, по сути, какая правка хорошая, 00:23:55.550 --> 00:23:57.109 а какая плохая. 00:23:57.109 --> 00:24:02.774 Пока что не достигнут пороговый уровень достаточного для обучения числа людей, 00:24:02.774 --> 00:24:05.965 чтобы действительно улучшить её, 00:24:05.965 --> 00:24:08.025 но если у вас есть несколько минут, 00:24:08.025 --> 00:24:11.098 было бы замечательно, если бы вы помогли обучить ORES 00:24:11.098 --> 00:24:13.586 делать более правильные суждения о правках Викиданных. 00:24:13.586 --> 00:24:15.837 Это на самом деле просто -- она показывает правку, 00:24:15.837 --> 00:24:17.584 а вы говорите, что это хорошая правка, 00:24:17.584 --> 00:24:19.658 а вот эта плохая -- и всё. 00:24:20.041 --> 00:24:23.683 Вы можете это делать вечером на диване перед телевизором. 00:24:25.588 --> 00:24:27.021 (голос из зала 3) Дайте ссылку. 00:24:28.000 --> 00:24:31.059 Да, мы дадим ссылку в группе Telegram. 00:24:32.239 --> 00:24:36.239 Достигнув заданного порогового уровня -- 00:24:36.239 --> 00:24:39.649 а это около 7 000, но я могу и ошибаться -- 00:24:40.223 --> 00:24:43.614 мы сможем заново запустить процесс обучения для ORES, 00:24:43.614 --> 00:24:47.304 и тогда она станет, надеюсь, значительно лучше делать суждения 00:24:47.304 --> 00:24:48.944 о правках Викиданных. 00:24:49.909 --> 00:24:52.063 Надеюсь, тогда многие из вас смогут её использовать 00:24:52.063 --> 00:24:56.029 для фильтрации свежих правок или проверки списка наблюдения 00:24:56.029 --> 00:24:58.333 на предмет правок, которым требуется внимание. 00:24:59.093 --> 00:25:00.227 Да! 00:25:01.809 --> 00:25:03.694 - (голос из зала 4) Привет! - Привет. 00:25:05.325 --> 00:25:06.615 Микрофон! 00:25:07.116 --> 00:25:09.876 (голос из зала 4) Мне хотелось узнать, и это не мой вопрос, 00:25:09.884 --> 00:25:12.729 а партнёров, с которыми я работаю: 00:25:12.729 --> 00:25:16.190 чем больше партнёров присоединится к Викиданным 00:25:16.190 --> 00:25:19.916 и начнёт экспериментировать с поисковыми запросами, 00:25:19.916 --> 00:25:23.147 тем больше проблем у нас появится с периодом ожидания их выполнения, 00:25:23.147 --> 00:25:25.926 так как обстоят с этим дела? 00:25:27.732 --> 00:25:31.600 Некоторые люди в Фонде Викимедии занимаются этим 00:25:31.600 --> 00:25:34.275 и -- небольшой спойлер -- 00:25:34.275 --> 00:25:36.988 придут на заседание в честь дня рождения, где будут подарки дарить. 00:25:36.988 --> 00:25:38.647 (смех) 00:25:43.384 --> 00:25:46.201 (голос из зала 5) Здравствуйте, я Барт Магнус из Бельгии (PACKED). 00:25:46.201 --> 00:25:50.000 Хотелось бы знать, что сейчас происходит с федерацией 00:25:50.000 --> 00:25:52.115 и с увеличением числа свойств 00:25:52.115 --> 00:25:53.482 в вашем экземпляре Викибазы -- 00:25:53.482 --> 00:25:56.707 есть ли что-то, о чём стоит упомянуть? 00:25:56.707 --> 00:26:01.405 В прошлом году многие нам сказали, 00:26:01.405 --> 00:26:03.996 что им нужна федерация. 00:26:03.996 --> 00:26:06.866 Но проблема в том, что многие понимают 00:26:06.866 --> 00:26:09.318 под «федерацией» совершенно разные вещи. 00:26:10.566 --> 00:26:13.353 Некоторые из них очень легко выполнить, 00:26:13.353 --> 00:26:15.664 а некоторые -- очень, очень трудно. 00:26:16.934 --> 00:26:21.058 Мы с командой беседовали со многими, 00:26:21.058 --> 00:26:24.913 например,с партнёрами, с которыми сотрудничаем в библиотеках, 00:26:24.913 --> 00:26:28.836 чтобы понять, что же им действительно надо. 00:26:30.111 --> 00:26:32.823 Мы уже закончили обсуждения, 00:26:32.823 --> 00:26:35.230 но буду счастлива получить больше отзывов, 00:26:35.230 --> 00:26:37.850 если вы хотите со мной об этом поговорить. 00:26:37.850 --> 00:26:41.397 а сейчас я нахожусь на этапе, когда могу сказать: 00:26:41.397 --> 00:26:43.480 «Хорошо, мы начинаем». 00:26:44.606 --> 00:26:48.197 Это произойдет в течение следующих двух или трёх месяцев, 00:26:48.197 --> 00:26:51.243 когда мы напишем первые строки кода, 00:26:51.243 --> 00:26:54.603 а затем люди смогут его тестировать 00:26:54.603 --> 00:26:56.593 в начале следующего года. 00:26:59.661 --> 00:27:01.293 (модератор) Хорошо, последние вопросы. 00:27:02.457 --> 00:27:05.603 (голос из зала 6) Финн Аруп Нильсен из Копенгагена, Дания. 00:27:05.973 --> 00:27:11.443 Что касается других языков, в сообществе WikiCite обсуждалось, 00:27:11.443 --> 00:27:15.668 должны ли мы продолжать добавлять научные работы -- 00:27:15.668 --> 00:27:19.913 это связано с тем, сколько данных мы можем добавить в Викиданные. 00:27:19.913 --> 00:27:22.212 Период ожидания в Службе запросов Викиданных 00:27:22.212 --> 00:27:24.818 стал проблемой, а ещё и хранение... 00:27:25.378 --> 00:27:30.620 Что вы думаете об этом?.. 00:27:31.060 --> 00:27:35.847 Не становится ли объём Викиданных проблемой в целом? 00:27:35.847 --> 00:27:38.666 Стоит ли нам перестать добавлять лексикографические данные? 00:27:38.666 --> 00:27:42.742 Стоит ли нам перестать добавлять данные научного характера в Викиданные, 00:27:42.742 --> 00:27:45.717 или исследование этой проблемы 00:27:45.717 --> 00:27:50.292 и других технических проблем находится в самом разгаре? 00:27:50.292 --> 00:27:51.445 Да... 00:27:53.266 --> 00:27:57.419 Викиданные точно движутся в направлении... 00:27:58.906 --> 00:28:02.732 Границ масштабируемости, скажем так, 00:28:03.740 --> 00:28:05.975 и в техническом плане, и в плане людей. 00:28:05.975 --> 00:28:09.197 И в обоих случаях нам нужны решения, верно? 00:28:09.197 --> 00:28:13.538 В плане сообщества у нас появилось столько редакторов и свежих правок, 00:28:13.538 --> 00:28:17.739 что людям стало невозможно патрулировать, 00:28:17.739 --> 00:28:20.103 потому что правок слишком много. 00:28:21.246 --> 00:28:26.415 Но в техническом плане нам удалось кое-что решить. 00:28:26.415 --> 00:28:29.958 Например, изменить архитектуру базы данных 00:28:29.958 --> 00:28:34.038 вокруг таблицы WB terms, если что-то кому-то это говорит. 00:28:35.900 --> 00:28:38.366 Но это помогает только пока, 00:28:38.366 --> 00:28:41.343 и в следующем году мы хотим проанализировать, 00:28:41.343 --> 00:28:44.828 где ещё остались проблемы 00:28:44.828 --> 00:28:47.595 и как их устранить в техническом плане. 00:28:49.085 --> 00:28:50.638 Такова общая картина. 00:28:50.638 --> 00:28:55.085 В то же время я не решаюсь кому-то говорить: 00:28:55.085 --> 00:28:58.400 «Нет, нет, нет, прекратите выкладывать данные в Викиданные». 00:28:58.400 --> 00:29:02.408 Это бы противоречило их цели. 00:29:04.311 --> 00:29:07.061 Но, например, среда поддержки Викибазы -- 00:29:07.061 --> 00:29:08.940 один из способов с этим справиться, 00:29:08.940 --> 00:29:13.952 она позволяет не хранить все данные на Викиданных. 00:29:13.952 --> 00:29:16.267 В этом вся прелесть связанных открытых данных. 00:29:16.267 --> 00:29:18.298 Вам не надо хранить всё в одном месте. 00:29:18.298 --> 00:29:19.642 Можно связывать разные места. 00:29:19.642 --> 00:29:20.859 И это замечательно. 00:29:21.957 --> 00:29:28.309 Так что именно в случае WikiCite -- да! 00:29:29.354 --> 00:29:31.628 Только в случае WikiCite! 00:29:32.388 --> 00:29:35.976 Думаю, нам надо взглянуть на пропорции. 00:29:35.976 --> 00:29:37.958 У меня нет точных данных, 00:29:37.958 --> 00:29:44.511 какой процент всех элементов Викиданных имеет отношение к категориям WikiCite, 00:29:44.511 --> 00:29:46.476 но этот процент очень велик. 00:29:46.476 --> 00:29:49.869 Наверное, это то, о чём нам надо поговорить... 00:29:50.356 --> 00:29:52.442 Во время перерыва. 00:29:53.191 --> 00:29:54.766 Огромное всем спасибо. 00:29:54.766 --> 00:29:56.281 (аплодисменты)