НЕМНОГО О ВИКИДАННЫХ
Докладчик -- Лидия Пинчер.
(Лидия Пинчер) Привет всем.
Просто замечательно,
что вы здесь собрались и вас так много!
Это действительно здорово.
Леа уже многое рассказала об этом событии.
Я же расскажу немного
о Викиданных как таковых,
что происходило с ними в прошлом году
и куда мы двигаемся.
Итак... Что это? Простите.
Где мы сейчас?
Куда мы двигаемся?
В прошлом году было
немало поводов для празднования,
и некоторые из них
хотелось бы особо отметить,
чтобы они не остались незамеченными,
как это иногда бывает.
Во-первых, хотелось бы
привести небольшую статистику
по редакторам, по нашему контенту
и о том, как используются наши данные.
В прошлом году выросло
число участников нашего сообщества,
и это потрясающе.
Около 3 000 новичков
занимаются редактированием
один раз или чаще в течение месяца.
Стало быть, 3 000 новых викизнаек. Ура!
Если посмотреть на тех,
кто редактирует чаще --
около пяти раз в течение месяца --
то прирост составляет
примерно 1 200 человек.
Если посмотреть на тех,
кто редактирует 100 раз и чаще --
надеюсь, это многие из присутствующих --
то у нас появилось 300 человек.
Поднимите руку,
если вы из последней группы.
Ух ты! Вы молодцы!
И хотя количество правок -- это не то,
чему мы обычно уделяем много внимания,
в этом году мы пересекли-таки
отметку в 1 миллиард правок.
(аплодисменты)
Хорошо, давайте взглянем на контент.
Сейчас у нас около 65 миллионов элементов,
то есть сущностей для описания мира,
и мы делаем его при помощи 6 700 свойств.
Из них около 4 300 являются
внешними идентификаторами,
что позволяет ссылаться
на огромное количество каталогов,
баз данных, сайтов и многого другого,
благодаря чему Викиданные занимают
центральное место
в связанных открытых данных сети.
Благодаря этим свойствам и элементам
нами получено
около 800 миллионов утверждений:
в сравнении с предыдущим годом
на каждый элемент у нас приходится
на пол-утверждения больше.
(смех)
Викиданные становятся умнее.
Но у нас есть
не только элементы и свойства,
в нашем арсенале появились лексемы --
сейчас у нас насчитывается
около 204 000 лексем,
описывающих слова на самых разных языках.
Это очень круто.
Я расскажу об этом подробнее
во время сегодняшнего заседания.
Последним добавлением
стали таблицы локализации,
при помощи которых мы можем просчитать,
как последовательно моделировать данные
в заданной области.
Сейчас у нас около 140 таких таблиц.
Цифры не всё могут рассказать
о контенте, объёме контента --
мы также заботимся и о его качестве.
И мы уже завершили тренировку
системы машинного обучения
для качественной оценки каждого элемента.
Она всё ещё далека от совершенства,
но позволяет получить о нём представление.
Каждому элементу Викиданных
присваивается оценка от одного до пяти.
Один -- это довольно ужасно;
пять -- замечательно.
Она анализирует количество утверждений,
внешних идентификаторов,
ссылок,
различных меток в разных языках
и так далее.
Мы проанализировали Викиданные в динамике,
и, как видите, судя по показателям,
будучи изначально ужасной,
наша оценка значительно улучшилась.
(смех)
Это хорошо.
Но вы также можете видите,
что до пятёрки ещё очень далеко.
Не думаю,
что мы до неё доберёмся, верно?
Не всякий элемент идеален,
судя по полученным нами показателям.
Но я так рада видеть,
что постепенно качество наших данных
становится всё лучше и лучше.
Но создания данных явно недостаточно.
Мы делаем это не просто так.
Мы хотим, чтобы их использовали.
Мы установили,
сколько статей
во всех других проектах Викимедии
используют данные Викиданных.
и подсчитали их процентное соотношение
ко всем статьям тех проектов.
Если вы проанализируете всю Викимедию
и находящиеся в ней статьи,
то увидите, что сегодня 56,35% из них
сегодня используют
данные Викиданных,
что, я думаю, довольно неплохо,
но, конечно же, это далеко не 100%.
Затем я проанализировала,
какие проекты наиболее активно
используют Викиданные,
и я распределила их
по языковым версиям и так далее.
Как вы думаете, пять топ-проектов --
что они собой представляют?
К какому родственному проекту принадлежат?
(несколько голосов в зале)
Викисклад.
Хорошо, почти единодушно -- Викисклад.
В действительности вы ошибаетесь.
Все пять проектов -- это Викигид.
(в зале)
Ах!
(смех)
Поаплодируем Викигиду.
(аплодисменты)
Если захотите проверить,
где на самом деле находится Викисклад
и остальные ваши проекты,
есть информационная панель.
Подойдите ко мне, и мы вместе проверим.
Конечно же, наши данные используются
не только внутри Викимедиа.
Они довольно часто используются
и за её пределами.
Всех проектов не перечислить,
но я упомяну некоторые:
наши данные приносят огромную пользу
Метрополитен-музею, фонду Wellcome Trust,
Библиотеке Конгресса,
Gene Wiki и многим другим.
Если вы будете участвовать
в заседаниях в рамках программы,
вы услышите о некоторых из них.
Хорошо, хватит статистики.
Давайте рассмотрим
другие интересные моменты.
Мы уже говорили
об улучшении качества данных.
Если взглянуть на качество данных,
то вы увидите,
что его можно проанализировать
по самым разным показателям;
мы улучшили некоторые из них,
такие как точность данных,
достоверность данных,
частота упоминаний,
последовательность моделирования,
степень полноты и так далее.
Взять, к примеру, такой параметр
как последовательность моделирования:
мы сделали возможным
хранение таблиц локализации в Викиданных,
чтобы вы могли описывать,
как моделировать те или иные домены.
Вы можете обнаружить...
Вы можете создать таблицу локализации,
скажем, для голландских художников,
а затем проанализировать, как...
Какие элементы
для голландских художников отсутствуют:
например, дата рождения,
а она должна быть,
и всё в таком духе.
И, я надеюсь,
гораздо больше вики-проектов
будут использовать таблицы локализации,
чтобы обеспечить
надлежащую заботу о данных.
Если хотите научиться, как это делать,
позже в рамках программы
заседание будут вести люди
которые всё об этом знают
и смогут дать вам
большее об этом представление.
Хорошо.
В прошлом году мы серьёзно продвинулись
в вопросе среды поддержки Викибазы.
Суть в том, что не все открытые данные
необходимо относить к Викиданным:
вместо этого нам нужна
эффективная опорная инфраструктура
для различных мест и структур,
таких как организации, компании,
волонтёрские проекты,
которые откроют доступ к своим данным
тем же образом, что и Викиданные,
объединятся в одну сеть
и будут обмениваться данными,
связывая их между собой.
За прошедший год интерес к этому,
как и интерес к организациям и людям,
занимающимся схожими
с Викибазой проектами, только возрос,
особенно к разделу библиотек.
Многое ещё предстоит
протестировать и подсчитать,
и, если уж начистоту,
многое сделать впервые:
сейчас предприимчивые организации
сотрудничают с нами,
чтобы понять, как Викибаза
может помочь в организации
их коллекций, каталогов и так далее.
Среди них:
Немецкая национальная библиотека,
Национальная библиотека Франции,
OCLC -- и это впечатляет.
По-моему, одна из причин
такого воодушевления --
это то, что мы помогаем организациям
передать данные в открытый доступ,
мы не только выкладываем их на сайте,
чтобы кто-то получил к ним доступ,
а ещё и думаем о том,
каким будет наш следующий шаг.
Мы хотим позволить им вести базу данных,
наращивать, дополнять её --
это действительно сдвиг,
который, я надеюсь,
приведёт к чему-нибудь хорошему.
Ещё нам помогает то,
что у специалистов появляется
возможность курировать данные,
не покидая свои места,
поддерживать их в надлежащем состоянии
для синхронизации процессов
с Викиданными, например,
а нам больше не нужно
постоянно заниматься этим вопросом.
Я надеюсь, в конце концов,
это снимет часть нагрузки
с Викиданных как с ресурса,
на котором всё происходит.
Лексикографические данные.
В прошлом году
люди начали описывать слова
в Викиданных на своих языках,
чтобы мы смогли создать
инструменты автоматизированного перевода.
И на данный момент для некоторых языков
мы подбираемся всё ближе
и ближе к такому объёму данных,
достигнув которого, вплотную займёмся
созданием серьёзного приложения.
Для ряда языков
это дело далёкого будущего,
но для некоторых мы уже начали
разработку приложения,
и это очень здорово.
Если хотите больше об этом узнать,
приходите сегодня
на заседание с моим участием.
И, конечно, не забывайте
о структурированных данных на Викискладе.
(свист в зале)
Да.
(смеётся)
(аплодисменты)
Структурированные данные Викисклада,
будучи его основой, помогли...
Помогли всё объединить
и в прошлом году сделали возможным
добавление утверждений
к файлам на Викискладе,
при этом люди начали добавлять
утверждения к изображениям,
чтобы их было легче найти,
а, значит, и сделать приложения лучше
и даже больше.
Это так захватывающе --
видеть, как всё разрастается,
и, я думаю, важно,
чтобы сообщество Викиданных понимало:
когда видишь «изображённый объект»,
«домашний кот», «сидение»,
«ящерица» и «стена» --
это всё ссылки
на элементы и свойства Викиданных.
То есть когда мы создаём
элементы и свойства,
мы не просто пополняем
словарный запас Викиданных.
Также пополняется
и словарный запас Викисклада.
И так будет происходить чаще и чаще:
придётся больше чем раньше
уделять внимания вопросу,
как наши онтология и словарный запас
используются в других местах.
И последнее, о чём надо рассказать,
это о налаживании более тесных связей
с другими проектами Викимедиа.
Мы с командой работаем над проектом
под названием «Wikidata Bridge»,
вам стоит подойти к стенду UX
и потестировать текущую версию:
например, в ней редакторы Википедии
смогут редактировать Викиданные
непосредственно в своих проектах,
без необходимости заходить на Викиданные
и разбираться, как здесь всё устроено.
Я надеюсь, исчезнет ещё одна преграда,
мешавшая проектам Викимедиа использовать
больший объём данных с Викиданных.
Хорошо, теперь о стратегиях.
Куда мы движемся?
С декабря команда Викиданных
в Wikimedia Deutschland
и представители Фонда Викимедиа
разрабатывали стратегии
и документы для Викиданных.
В них фактически изложено всё то,
о чём многие из нас говорили
на протяжении последних
четырёх или пяти лет.
Не знаю, все ли из вас читали
эти документы.
До конца месяца они появятся
на служебном сайте Викисклада.
Хорошо бы, если вы их не читали,
прочитать их и оставить
там комментарии и всё в таком духе.
Теперь беглый обзор:
в них изложено в трёх частях то,
что мы думаем о Викиданных и Викибазе .
В первом речь идёт
о Викиданных как о платформе.
Его можно увидеть в нижнем углу --
он о том,
что Викиданные позволяют всем и каждому
получить доступ к информации
и делиться ей
вне зависимости от их языка и техники.
Для этого мы предоставляем
данные общего назначения о мире.
То есть то, что вы делаете каждый день.
Вторая часть посвящена
среде поддержки Викибазы,
где программное обеспечение Викибазы
позволяет функционировать Викиданным
и распространять открытые данные в сети --
это опорная сеть для свободного
и открытого распространения знаний.
И последняя, третья, часть рассказывает
о роли Викиданных
в главных проектах Викимедиа,
где Викиданные помогают
проектам Викимедиа,
что они могли работать и в будущем.
К чему это приведёт
в ближайшем или среднесрочном будущем?
Викиданные как платформа.
Нам нужно повысить качество данных,
так что мы продолжим разрабатывать
более эффективные инструменты,
улучшать уже существующие и так далее.
Необходимо сделать
наши данные более доступными,
улучшив интерфейс API и обеспечив
более надёжную точку доступа SPARQL,
а также сделать моделирование данных
более последовательным,
чтобы их было легко
многократно использовать в приложениях.
И остаётся только сказать
о налаживании получения отзывов
от наших партнёров.
В отличие от Википедии,
Викиданные не являются тем,
что можно назвать
«проект с конечным результатом», верно?
Люди заходят на Википедию и читают её,
тогда как с Викиданными всё не так:
на них не заходят и не читают.
Было бы замечательно,
но в реальности это не так, верно?
Многие пользователи наших данных
не заходят на Викиданные как таковые,
они просматривают их на Википедии
и многих других ресурсах.
Но все эти ресурсы получают
отзывы о данных, верно?
Их пользователи говорят им:
«Эй, здесь что-то не так».
И мне бы хотелось того же --
чтобы мы предоставляли отзывы тем,
кто на самом деле редактирует
Викиданные, то есть вам.
Понять, как это сделать
наиболее эффективно,
никого не перегружая --
это будет одна из наших задач
в следующем году.
Среда поддержки Викибазы.
Мы продолжим работать с библиотеками,
но займёмся ещё и наукой
и не только этим.
Сегодня состоится презентация Викибазы --
обязательно её посетите,
чтобы увидеть, что уже в ней есть
и что люди уже делают с Викибазой.
Это того стоит.
Что нам нужно,
так это отладка процессов.
Нужно помочь людям понять,
с кем и о чём говорить,
где им могут оказать помощь,
и всё в таком роде.
И, конечно, нужно облегчить установку
и обеспечение функционирования Викибазы,
потому что у нас есть с этим проблемы.
И последнее, чего надо коснуться, --
это федерация,
я уже говорила об этом,
рассказывая о Викискладе:
когда Викисклад использует
элементы и свойства Викиданных,
но уже применительно
к экземплярам Викибазы,
чтобы они тоже могли использовать
словарный запас Викиданных.
Как я говорила раньше,
это в очередной раз заставляет
нас проявлять бдительность
в отношении внешнего использования
нашего словарного запаса --
более, чем когда-либо ранее.
Викиданные для проектов Викимедиа --
нам нужна более тесная интеграция
при помощи Wikidata Bridge,
и непосредственное редактирование
прямо в других проектах,
и то, о чём, как мне кажется,
нам надо всем вместе подумать --
как преодолеть языковой барьер.
Чем теснее Викиданные
интегрируются в проекты Викимедиа,
тем большему количеству людей
необходимо поговорить друг с другом
об этих данных на разных языках,
и нам надо обдумать,
как с этим быть.
Если у кого-то появятся хорошие идеи,
я была бы рада обсудить их с вами.
На этом моя речь подходит к концу.
Спасибо всем, что даёте
все большему количеству людей доступ
к ещё большему количеству знаний --
каждый день.
(аплодисменты)
У нас осталось время для вопросов,
так что если они есть у присутствующих,
или если вы смотрите трансляцию
в прямом эфире -- «Мама, привет!» --
вы можете задать вопрос в EtherPad
или на канале Telegram,
и мы сделаем всё возможное.
Итак, есть вопросы?
Тут.
(голос из зала 1) Всем привет.
Это больше мем, чем вопрос.
Когда в расширении времени можно будет
устанавливать часы, минуты, секунды,
так как сейчас
можно выставить только дату.
- Я знаю... Это не мой вопрос...
- (смеётся)
Вот почему я сказал, что это мем.
Всякий раз одно и то же,
но начинают всегда издалека, так что...
У меня нет чёткого ответа на этот вопрос.
Простите.
Но в качестве справки:
люди ещё сильнее нуждаются в этом
для описания изображений на Викискладе,
поэтому, возможно,
этот вопрос переместится вверх списка дел,
которые надо выполнить чуточку быстрее.
Ещё вопросы?
(голос из зала 2) Линда,
исследовательская группа Фонда Викимедиа.
Хотелось бы узнать ваше мнение
о патрулировании,
ведь это имеет отношение
к качеству контента Викиданных,
вы не могли бы рассказать,
как изменится патрулирование
в среднесрочной перспективе,
особенно после проекта Bridge?
Я с нетерпением жду его реализации
и мечтаю попробовать.
Да, спасибо.
Как вы сказали,
после таких проектов, как Bridge,
для патрулирования придётся
приложить значительно больше усилий.
Но мы достигли такого объёма данных,
когда это будет практически неосуществимо
вручную, одними только людьми.
Нам придётся потрудиться,
чтобы сделать его лучше --
например, нам в этом поможет
ORES, система машинного обучения,
она поможет нам понять,
какие правки человеку
действительно нужно проверить,
а какие, скорее всего, из серии:
«Ладно, всё как обычно,
мне не надо это проверять».
На данный момент
ORES не слишком хороша в оценке того,
хорошая или плохая правка
появилась в Викиданных.
Сейчас продолжается кампания
по обучению системы машинного обучения,
чтобы с вашей помощью
научить её, по сути, какая правка хорошая,
а какая плохая.
Пока что не достигнут пороговый уровень
достаточного для обучения числа людей,
чтобы действительно улучшить её,
но если у вас есть несколько минут,
было бы замечательно,
если бы вы помогли обучить ORES
делать более правильные суждения
о правках Викиданных.
Это на самом деле просто --
она показывает правку,
а вы говорите, что это хорошая правка,
а вот эта плохая -- и всё.
Вы можете это делать вечером
на диване перед телевизором.
(голос из зала 3) Дайте ссылку.
Да, мы дадим ссылку в группе Telegram.
Достигнув заданного порогового уровня --
а это около 7 000,
но я могу и ошибаться --
мы сможем заново запустить процесс
обучения для ORES,
и тогда она станет, надеюсь,
значительно лучше делать суждения
о правках Викиданных.
Надеюсь, тогда многие из вас
смогут её использовать
для фильтрации свежих правок
или проверки списка наблюдения
на предмет правок,
которым требуется внимание.
Да!
- (голос из зала 4) Привет!
- Привет.
Микрофон!
(голос из зала 4)
Мне хотелось узнать, и это не мой вопрос,
а партнёров, с которыми я работаю:
чем больше партнёров
присоединится к Викиданным
и начнёт экспериментировать
с поисковыми запросами,
тем больше проблем у нас появится
с периодом ожидания их выполнения,
так как обстоят с этим дела?
Некоторые люди в Фонде Викимедии
занимаются этим
и -- небольшой спойлер --
придут на заседание в честь дня рождения,
где будут подарки дарить.
(смех)
(голос из зала 5) Здравствуйте,
я Барт Магнус из Бельгии (PACKED).
Хотелось бы знать,
что сейчас происходит с федерацией
и с увеличением числа свойств
в вашем экземпляре Викибазы --
есть ли что-то, о чём стоит упомянуть?
В прошлом году многие нам сказали,
что им нужна федерация.
Но проблема в том, что многие понимают
под «федерацией» совершенно разные вещи.
Некоторые из них очень легко выполнить,
а некоторые -- очень, очень трудно.
Мы с командой беседовали со многими,
например,с партнёрами,
с которыми сотрудничаем в библиотеках,
чтобы понять,
что же им действительно надо.
Мы уже закончили обсуждения,
но буду счастлива получить больше отзывов,
если вы хотите со мной об этом поговорить.
а сейчас я нахожусь на этапе,
когда могу сказать:
«Хорошо, мы начинаем».
Это произойдет в течение
следующих двух или трёх месяцев,
когда мы напишем первые строки кода,
а затем люди смогут его тестировать
в начале следующего года.
(модератор)
Хорошо, последние вопросы.
(голос из зала 6) Финн Аруп Нильсен
из Копенгагена, Дания.
Что касается других языков,
в сообществе WikiCite обсуждалось,
должны ли мы продолжать
добавлять научные работы --
это связано с тем, сколько данных
мы можем добавить в Викиданные.
Период ожидания
в Службе запросов Викиданных
стал проблемой, а ещё и хранение...
Что вы думаете об этом?..
Не становится ли объём
Викиданных проблемой в целом?
Стоит ли нам перестать добавлять
лексикографические данные?
Стоит ли нам перестать добавлять данные
научного характера в Викиданные,
или исследование этой проблемы
и других технических проблем
находится в самом разгаре?
Да...
Викиданные точно движутся в направлении...
Границ масштабируемости, скажем так,
и в техническом плане, и в плане людей.
И в обоих случаях
нам нужны решения, верно?
В плане сообщества у нас появилось
столько редакторов и свежих правок,
что людям стало невозможно патрулировать,
потому что правок слишком много.
Но в техническом плане
нам удалось кое-что решить.
Например, изменить
архитектуру базы данных
вокруг таблицы WB terms,
если что-то кому-то это говорит.
Но это помогает только пока,
и в следующем году
мы хотим проанализировать,
где ещё остались проблемы
и как их устранить в техническом плане.
Такова общая картина.
В то же время я не решаюсь
кому-то говорить:
«Нет, нет, нет, прекратите выкладывать
данные в Викиданные».
Это бы противоречило их цели.
Но, например, среда поддержки Викибазы --
один из способов с этим справиться,
она позволяет не хранить
все данные на Викиданных.
В этом вся прелесть
связанных открытых данных.
Вам не надо хранить всё в одном месте.
Можно связывать разные места.
И это замечательно.
Так что именно в случае WikiCite -- да!
Только в случае WikiCite!
Думаю, нам надо взглянуть на пропорции.
У меня нет точных данных,
какой процент всех элементов Викиданных
имеет отношение к категориям WikiCite,
но этот процент очень велик.
Наверное, это то,
о чём нам надо поговорить...
Во время перерыва.
Огромное всем спасибо.
(аплодисменты)