-
НЕМНОГО О ВИКИДАННЫХ
-
Докладчик -- Лидия Пинчер.
-
(Лидия Пинчер) Привет всем.
-
Просто замечательно,
что вы здесь собрались и вас так много!
-
Это действительно здорово.
-
Леа уже многое рассказала об этом событии.
-
Я же расскажу немного
о Викиданных как таковых,
-
что происходило с ними в прошлом году
-
и куда мы двигаемся.
-
Итак... Что это? Простите.
-
Где мы сейчас?
Куда мы двигаемся?
-
В прошлом году было
немало поводов для празднования,
-
и некоторые из них
хотелось бы особо отметить,
-
чтобы они не остались незамеченными,
как это иногда бывает.
-
Во-первых, хотелось бы
привести небольшую статистику
-
по редакторам, по нашему контенту
-
и о том, как используются наши данные.
-
В прошлом году выросло
число участников нашего сообщества,
-
и это потрясающе.
-
Около 3 000 новичков
-
занимаются редактированием
один раз или чаще в течение месяца.
-
Стало быть, 3 000 новых викизнаек. Ура!
-
Если посмотреть на тех,
кто редактирует чаще --
-
около пяти раз в течение месяца --
-
то прирост составляет
примерно 1 200 человек.
-
Если посмотреть на тех,
кто редактирует 100 раз и чаще --
-
надеюсь, это многие из присутствующих --
-
то у нас появилось 300 человек.
-
Поднимите руку,
если вы из последней группы.
-
Ух ты! Вы молодцы!
-
И хотя количество правок -- это не то,
-
чему мы обычно уделяем много внимания,
-
в этом году мы пересекли-таки
отметку в 1 миллиард правок.
-
(аплодисменты)
-
Хорошо, давайте взглянем на контент.
-
Сейчас у нас около 65 миллионов элементов,
-
то есть сущностей для описания мира,
-
и мы делаем его при помощи 6 700 свойств.
-
Из них около 4 300 являются
внешними идентификаторами,
-
что позволяет ссылаться
-
на огромное количество каталогов,
баз данных, сайтов и многого другого,
-
благодаря чему Викиданные занимают
центральное место
-
в связанных открытых данных сети.
-
Благодаря этим свойствам и элементам
-
нами получено
около 800 миллионов утверждений:
-
в сравнении с предыдущим годом
на каждый элемент у нас приходится
-
на пол-утверждения больше.
-
(смех)
-
Викиданные становятся умнее.
-
Но у нас есть
не только элементы и свойства,
-
в нашем арсенале появились лексемы --
-
сейчас у нас насчитывается
около 204 000 лексем,
-
описывающих слова на самых разных языках.
-
Это очень круто.
-
Я расскажу об этом подробнее
во время сегодняшнего заседания.
-
Последним добавлением
стали таблицы локализации,
-
при помощи которых мы можем просчитать,
-
как последовательно моделировать данные
-
в заданной области.
-
Сейчас у нас около 140 таких таблиц.
-
Цифры не всё могут рассказать
о контенте, объёме контента --
-
мы также заботимся и о его качестве.
-
И мы уже завершили тренировку
системы машинного обучения
-
для качественной оценки каждого элемента.
-
Она всё ещё далека от совершенства,
но позволяет получить о нём представление.
-
Каждому элементу Викиданных
присваивается оценка от одного до пяти.
-
Один -- это довольно ужасно;
пять -- замечательно.
-
Она анализирует количество утверждений,
-
внешних идентификаторов,
-
ссылок,
-
различных меток в разных языках
-
и так далее.
-
Мы проанализировали Викиданные в динамике,
-
и, как видите, судя по показателям,
-
будучи изначально ужасной,
наша оценка значительно улучшилась.
-
(смех)
-
Это хорошо.
-
Но вы также можете видите,
что до пятёрки ещё очень далеко.
-
Не думаю,
-
что мы до неё доберёмся, верно?
-
Не всякий элемент идеален,
-
судя по полученным нами показателям.
-
Но я так рада видеть,
-
что постепенно качество наших данных
становится всё лучше и лучше.
-
Но создания данных явно недостаточно.
-
Мы делаем это не просто так.
-
Мы хотим, чтобы их использовали.
-
Мы установили,
-
сколько статей
во всех других проектах Викимедии
-
используют данные Викиданных.
-
и подсчитали их процентное соотношение
ко всем статьям тех проектов.
-
Если вы проанализируете всю Викимедию
-
и находящиеся в ней статьи,
-
то увидите, что сегодня 56,35% из них
сегодня используют
-
данные Викиданных,
-
что, я думаю, довольно неплохо,
-
но, конечно же, это далеко не 100%.
-
Затем я проанализировала,
-
какие проекты наиболее активно
используют Викиданные,
-
и я распределила их
по языковым версиям и так далее.
-
Как вы думаете, пять топ-проектов --
-
что они собой представляют?
-
К какому родственному проекту принадлежат?
-
(несколько голосов в зале)
Викисклад.
-
Хорошо, почти единодушно -- Викисклад.
-
В действительности вы ошибаетесь.
-
Все пять проектов -- это Викигид.
-
(в зале)
Ах!
-
(смех)
-
Поаплодируем Викигиду.
-
(аплодисменты)
-
Если захотите проверить,
-
где на самом деле находится Викисклад
и остальные ваши проекты,
-
есть информационная панель.
-
Подойдите ко мне, и мы вместе проверим.
-
Конечно же, наши данные используются
не только внутри Викимедиа.
-
Они довольно часто используются
и за её пределами.
-
Всех проектов не перечислить,
но я упомяну некоторые:
-
наши данные приносят огромную пользу
Метрополитен-музею, фонду Wellcome Trust,
-
Библиотеке Конгресса,
-
Gene Wiki и многим другим.
-
Если вы будете участвовать
в заседаниях в рамках программы,
-
вы услышите о некоторых из них.
-
Хорошо, хватит статистики.
-
Давайте рассмотрим
другие интересные моменты.
-
Мы уже говорили
об улучшении качества данных.
-
Если взглянуть на качество данных,
то вы увидите,
-
что его можно проанализировать
по самым разным показателям;
-
мы улучшили некоторые из них,
-
такие как точность данных,
-
достоверность данных,
-
частота упоминаний,
-
последовательность моделирования,
-
степень полноты и так далее.
-
Взять, к примеру, такой параметр
как последовательность моделирования:
-
мы сделали возможным
-
хранение таблиц локализации в Викиданных,
-
чтобы вы могли описывать,
как моделировать те или иные домены.
-
Вы можете обнаружить...
-
Вы можете создать таблицу локализации,
скажем, для голландских художников,
-
а затем проанализировать, как...
-
Какие элементы
для голландских художников отсутствуют:
-
например, дата рождения,
а она должна быть,
-
и всё в таком духе.
-
И, я надеюсь,
гораздо больше вики-проектов
-
будут использовать таблицы локализации,
-
чтобы обеспечить
надлежащую заботу о данных.
-
Если хотите научиться, как это делать,
-
позже в рамках программы
заседание будут вести люди
-
которые всё об этом знают
-
и смогут дать вам
большее об этом представление.
-
Хорошо.
-
В прошлом году мы серьёзно продвинулись
-
в вопросе среды поддержки Викибазы.
-
Суть в том, что не все открытые данные
-
необходимо относить к Викиданным:
-
вместо этого нам нужна
эффективная опорная инфраструктура
-
для различных мест и структур,
-
таких как организации, компании,
волонтёрские проекты,
-
которые откроют доступ к своим данным
тем же образом, что и Викиданные,
-
объединятся в одну сеть
-
и будут обмениваться данными,
связывая их между собой.
-
За прошедший год интерес к этому,
-
как и интерес к организациям и людям,
-
занимающимся схожими
с Викибазой проектами, только возрос,
-
особенно к разделу библиотек.
-
Многое ещё предстоит
протестировать и подсчитать,
-
и, если уж начистоту,
многое сделать впервые:
-
сейчас предприимчивые организации
сотрудничают с нами,
-
чтобы понять, как Викибаза
может помочь в организации
-
их коллекций, каталогов и так далее.
-
Среди них:
Немецкая национальная библиотека,
-
Национальная библиотека Франции,
-
OCLC -- и это впечатляет.
-
По-моему, одна из причин
такого воодушевления --
-
это то, что мы помогаем организациям
передать данные в открытый доступ,
-
мы не только выкладываем их на сайте,
чтобы кто-то получил к ним доступ,
-
а ещё и думаем о том,
каким будет наш следующий шаг.
-
Мы хотим позволить им вести базу данных,
наращивать, дополнять её --
-
это действительно сдвиг,
-
который, я надеюсь,
приведёт к чему-нибудь хорошему.
-
Ещё нам помогает то,
-
что у специалистов появляется
возможность курировать данные,
-
не покидая свои места,
-
поддерживать их в надлежащем состоянии
-
для синхронизации процессов
с Викиданными, например,
-
а нам больше не нужно
постоянно заниматься этим вопросом.
-
Я надеюсь, в конце концов,
это снимет часть нагрузки
-
с Викиданных как с ресурса,
на котором всё происходит.
-
Лексикографические данные.
-
В прошлом году
люди начали описывать слова
-
в Викиданных на своих языках,
-
чтобы мы смогли создать
-
инструменты автоматизированного перевода.
-
И на данный момент для некоторых языков
-
мы подбираемся всё ближе
и ближе к такому объёму данных,
-
достигнув которого, вплотную займёмся
созданием серьёзного приложения.
-
Для ряда языков
это дело далёкого будущего,
-
но для некоторых мы уже начали
разработку приложения,
-
и это очень здорово.
-
Если хотите больше об этом узнать,
-
приходите сегодня
на заседание с моим участием.
-
И, конечно, не забывайте
-
о структурированных данных на Викискладе.
-
(свист в зале)
-
Да.
(смеётся)
-
(аплодисменты)
-
Структурированные данные Викисклада,
будучи его основой, помогли...
-
Помогли всё объединить
и в прошлом году сделали возможным
-
добавление утверждений
к файлам на Викискладе,
-
при этом люди начали добавлять
утверждения к изображениям,
-
чтобы их было легче найти,
а, значит, и сделать приложения лучше
-
и даже больше.
-
Это так захватывающе --
видеть, как всё разрастается,
-
и, я думаю, важно,
-
чтобы сообщество Викиданных понимало:
-
когда видишь «изображённый объект»,
-
«домашний кот», «сидение»,
«ящерица» и «стена» --
-
это всё ссылки
на элементы и свойства Викиданных.
-
То есть когда мы создаём
элементы и свойства,
-
мы не просто пополняем
словарный запас Викиданных.
-
Также пополняется
и словарный запас Викисклада.
-
И так будет происходить чаще и чаще:
-
придётся больше чем раньше
уделять внимания вопросу,
-
как наши онтология и словарный запас
-
используются в других местах.
-
И последнее, о чём надо рассказать,
-
это о налаживании более тесных связей
-
с другими проектами Викимедиа.
-
Мы с командой работаем над проектом
под названием «Wikidata Bridge»,
-
вам стоит подойти к стенду UX
-
и потестировать текущую версию:
-
например, в ней редакторы Википедии
-
смогут редактировать Викиданные
непосредственно в своих проектах,
-
без необходимости заходить на Викиданные
-
и разбираться, как здесь всё устроено.
-
Я надеюсь, исчезнет ещё одна преграда,
-
мешавшая проектам Викимедиа использовать
-
больший объём данных с Викиданных.
-
Хорошо, теперь о стратегиях.
Куда мы движемся?
-
С декабря команда Викиданных
в Wikimedia Deutschland
-
и представители Фонда Викимедиа
разрабатывали стратегии
-
и документы для Викиданных.
-
В них фактически изложено всё то,
-
о чём многие из нас говорили
-
на протяжении последних
четырёх или пяти лет.
-
Не знаю, все ли из вас читали
эти документы.
-
До конца месяца они появятся
на служебном сайте Викисклада.
-
Хорошо бы, если вы их не читали,
-
прочитать их и оставить
там комментарии и всё в таком духе.
-
Теперь беглый обзор:
-
в них изложено в трёх частях то,
что мы думаем о Викиданных и Викибазе .
-
В первом речь идёт
о Викиданных как о платформе.
-
Его можно увидеть в нижнем углу --
-
он о том,
-
что Викиданные позволяют всем и каждому
-
получить доступ к информации
и делиться ей
-
вне зависимости от их языка и техники.
-
Для этого мы предоставляем
данные общего назначения о мире.
-
То есть то, что вы делаете каждый день.
-
Вторая часть посвящена
среде поддержки Викибазы,
-
где программное обеспечение Викибазы
позволяет функционировать Викиданным
-
и распространять открытые данные в сети --
-
это опорная сеть для свободного
и открытого распространения знаний.
-
И последняя, третья, часть рассказывает
-
о роли Викиданных
в главных проектах Викимедиа,
-
где Викиданные помогают
-
проектам Викимедиа,
-
что они могли работать и в будущем.
-
К чему это приведёт
в ближайшем или среднесрочном будущем?
-
Викиданные как платформа.
-
Нам нужно повысить качество данных,
-
так что мы продолжим разрабатывать
более эффективные инструменты,
-
улучшать уже существующие и так далее.
-
Необходимо сделать
наши данные более доступными,
-
улучшив интерфейс API и обеспечив
более надёжную точку доступа SPARQL,
-
а также сделать моделирование данных
более последовательным,
-
чтобы их было легко
многократно использовать в приложениях.
-
И остаётся только сказать
-
о налаживании получения отзывов
от наших партнёров.
-
В отличие от Википедии,
Викиданные не являются тем,
-
что можно назвать
«проект с конечным результатом», верно?
-
Люди заходят на Википедию и читают её,
-
тогда как с Викиданными всё не так:
-
на них не заходят и не читают.
-
Было бы замечательно,
-
но в реальности это не так, верно?
-
Многие пользователи наших данных
-
не заходят на Викиданные как таковые,
-
они просматривают их на Википедии
и многих других ресурсах.
-
Но все эти ресурсы получают
отзывы о данных, верно?
-
Их пользователи говорят им:
«Эй, здесь что-то не так».
-
И мне бы хотелось того же --
чтобы мы предоставляли отзывы тем,
-
кто на самом деле редактирует
Викиданные, то есть вам.
-
Понять, как это сделать
наиболее эффективно,
-
никого не перегружая --
-
это будет одна из наших задач
в следующем году.
-
Среда поддержки Викибазы.
-
Мы продолжим работать с библиотеками,
-
но займёмся ещё и наукой
и не только этим.
-
Сегодня состоится презентация Викибазы --
-
обязательно её посетите,
чтобы увидеть, что уже в ней есть
-
и что люди уже делают с Викибазой.
-
Это того стоит.
-
Что нам нужно,
-
так это отладка процессов.
-
Нужно помочь людям понять,
с кем и о чём говорить,
-
где им могут оказать помощь,
-
и всё в таком роде.
-
И, конечно, нужно облегчить установку
и обеспечение функционирования Викибазы,
-
потому что у нас есть с этим проблемы.
-
И последнее, чего надо коснуться, --
это федерация,
-
я уже говорила об этом,
рассказывая о Викискладе:
-
когда Викисклад использует
элементы и свойства Викиданных,
-
но уже применительно
к экземплярам Викибазы,
-
чтобы они тоже могли использовать
словарный запас Викиданных.
-
Как я говорила раньше,
-
это в очередной раз заставляет
нас проявлять бдительность
-
в отношении внешнего использования
нашего словарного запаса --
-
более, чем когда-либо ранее.
-
Викиданные для проектов Викимедиа --
-
нам нужна более тесная интеграция
при помощи Wikidata Bridge,
-
и непосредственное редактирование
прямо в других проектах,
-
и то, о чём, как мне кажется,
нам надо всем вместе подумать --
-
как преодолеть языковой барьер.
-
Чем теснее Викиданные
интегрируются в проекты Викимедиа,
-
тем большему количеству людей
необходимо поговорить друг с другом
-
об этих данных на разных языках,
-
и нам надо обдумать,
-
как с этим быть.
-
Если у кого-то появятся хорошие идеи,
я была бы рада обсудить их с вами.
-
На этом моя речь подходит к концу.
-
Спасибо всем, что даёте
все большему количеству людей доступ
-
к ещё большему количеству знаний --
каждый день.
-
(аплодисменты)
-
У нас осталось время для вопросов,
-
так что если они есть у присутствующих,
-
или если вы смотрите трансляцию
в прямом эфире -- «Мама, привет!» --
-
вы можете задать вопрос в EtherPad
-
или на канале Telegram,
и мы сделаем всё возможное.
-
Итак, есть вопросы?
-
Тут.
-
(голос из зала 1) Всем привет.
Это больше мем, чем вопрос.
-
Когда в расширении времени можно будет
-
устанавливать часы, минуты, секунды,
-
так как сейчас
можно выставить только дату.
-
- Я знаю... Это не мой вопрос...
- (смеётся)
-
Вот почему я сказал, что это мем.
-
Всякий раз одно и то же,
-
но начинают всегда издалека, так что...
-
У меня нет чёткого ответа на этот вопрос.
-
Простите.
-
Но в качестве справки:
-
люди ещё сильнее нуждаются в этом
-
для описания изображений на Викискладе,
-
поэтому, возможно,
этот вопрос переместится вверх списка дел,
-
которые надо выполнить чуточку быстрее.
-
Ещё вопросы?
-
(голос из зала 2) Линда,
исследовательская группа Фонда Викимедиа.
-
Хотелось бы узнать ваше мнение
о патрулировании,
-
ведь это имеет отношение
к качеству контента Викиданных,
-
вы не могли бы рассказать,
-
как изменится патрулирование
в среднесрочной перспективе,
-
особенно после проекта Bridge?
-
Я с нетерпением жду его реализации
и мечтаю попробовать.
-
Да, спасибо.
-
Как вы сказали,
после таких проектов, как Bridge,
-
для патрулирования придётся
приложить значительно больше усилий.
-
Но мы достигли такого объёма данных,
когда это будет практически неосуществимо
-
вручную, одними только людьми.
-
Нам придётся потрудиться,
чтобы сделать его лучше --
-
например, нам в этом поможет
ORES, система машинного обучения,
-
она поможет нам понять,
-
какие правки человеку
действительно нужно проверить,
-
а какие, скорее всего, из серии:
-
«Ладно, всё как обычно,
мне не надо это проверять».
-
На данный момент
ORES не слишком хороша в оценке того,
-
хорошая или плохая правка
появилась в Викиданных.
-
Сейчас продолжается кампания
-
по обучению системы машинного обучения,
-
чтобы с вашей помощью
-
научить её, по сути, какая правка хорошая,
-
а какая плохая.
-
Пока что не достигнут пороговый уровень
достаточного для обучения числа людей,
-
чтобы действительно улучшить её,
-
но если у вас есть несколько минут,
-
было бы замечательно,
если бы вы помогли обучить ORES
-
делать более правильные суждения
о правках Викиданных.
-
Это на самом деле просто --
она показывает правку,
-
а вы говорите, что это хорошая правка,
-
а вот эта плохая -- и всё.
-
Вы можете это делать вечером
на диване перед телевизором.
-
(голос из зала 3) Дайте ссылку.
-
Да, мы дадим ссылку в группе Telegram.
-
Достигнув заданного порогового уровня --
-
а это около 7 000,
но я могу и ошибаться --
-
мы сможем заново запустить процесс
обучения для ORES,
-
и тогда она станет, надеюсь,
значительно лучше делать суждения
-
о правках Викиданных.
-
Надеюсь, тогда многие из вас
смогут её использовать
-
для фильтрации свежих правок
или проверки списка наблюдения
-
на предмет правок,
которым требуется внимание.
-
Да!
-
- (голос из зала 4) Привет!
- Привет.
-
Микрофон!
-
(голос из зала 4)
Мне хотелось узнать, и это не мой вопрос,
-
а партнёров, с которыми я работаю:
-
чем больше партнёров
присоединится к Викиданным
-
и начнёт экспериментировать
с поисковыми запросами,
-
тем больше проблем у нас появится
с периодом ожидания их выполнения,
-
так как обстоят с этим дела?
-
Некоторые люди в Фонде Викимедии
занимаются этим
-
и -- небольшой спойлер --
-
придут на заседание в честь дня рождения,
где будут подарки дарить.
-
(смех)
-
(голос из зала 5) Здравствуйте,
я Барт Магнус из Бельгии (PACKED).
-
Хотелось бы знать,
что сейчас происходит с федерацией
-
и с увеличением числа свойств
-
в вашем экземпляре Викибазы --
-
есть ли что-то, о чём стоит упомянуть?
-
В прошлом году многие нам сказали,
-
что им нужна федерация.
-
Но проблема в том, что многие понимают
-
под «федерацией» совершенно разные вещи.
-
Некоторые из них очень легко выполнить,
-
а некоторые -- очень, очень трудно.
-
Мы с командой беседовали со многими,
-
например,с партнёрами,
с которыми сотрудничаем в библиотеках,
-
чтобы понять,
что же им действительно надо.
-
Мы уже закончили обсуждения,
-
но буду счастлива получить больше отзывов,
-
если вы хотите со мной об этом поговорить.
-
а сейчас я нахожусь на этапе,
когда могу сказать:
-
«Хорошо, мы начинаем».
-
Это произойдет в течение
следующих двух или трёх месяцев,
-
когда мы напишем первые строки кода,
-
а затем люди смогут его тестировать
-
в начале следующего года.
-
(модератор)
Хорошо, последние вопросы.
-
(голос из зала 6) Финн Аруп Нильсен
из Копенгагена, Дания.
-
Что касается других языков,
в сообществе WikiCite обсуждалось,
-
должны ли мы продолжать
добавлять научные работы --
-
это связано с тем, сколько данных
мы можем добавить в Викиданные.
-
Период ожидания
в Службе запросов Викиданных
-
стал проблемой, а ещё и хранение...
-
Что вы думаете об этом?..
-
Не становится ли объём
Викиданных проблемой в целом?
-
Стоит ли нам перестать добавлять
лексикографические данные?
-
Стоит ли нам перестать добавлять данные
научного характера в Викиданные,
-
или исследование этой проблемы
-
и других технических проблем
находится в самом разгаре?
-
Да...
-
Викиданные точно движутся в направлении...
-
Границ масштабируемости, скажем так,
-
и в техническом плане, и в плане людей.
-
И в обоих случаях
нам нужны решения, верно?
-
В плане сообщества у нас появилось
столько редакторов и свежих правок,
-
что людям стало невозможно патрулировать,
-
потому что правок слишком много.
-
Но в техническом плане
нам удалось кое-что решить.
-
Например, изменить
архитектуру базы данных
-
вокруг таблицы WB terms,
если что-то кому-то это говорит.
-
Но это помогает только пока,
-
и в следующем году
мы хотим проанализировать,
-
где ещё остались проблемы
-
и как их устранить в техническом плане.
-
Такова общая картина.
-
В то же время я не решаюсь
кому-то говорить:
-
«Нет, нет, нет, прекратите выкладывать
данные в Викиданные».
-
Это бы противоречило их цели.
-
Но, например, среда поддержки Викибазы --
-
один из способов с этим справиться,
-
она позволяет не хранить
все данные на Викиданных.
-
В этом вся прелесть
связанных открытых данных.
-
Вам не надо хранить всё в одном месте.
-
Можно связывать разные места.
-
И это замечательно.
-
Так что именно в случае WikiCite -- да!
-
Только в случае WikiCite!
-
Думаю, нам надо взглянуть на пропорции.
-
У меня нет точных данных,
-
какой процент всех элементов Викиданных
имеет отношение к категориям WikiCite,
-
но этот процент очень велик.
-
Наверное, это то,
о чём нам надо поговорить...
-
Во время перерыва.
-
Огромное всем спасибо.
-
(аплодисменты)