UN VISTAZO A WIKIDATA
(Lydia) Hola a todos.
Es increíble que estén aquí,
tantos de ustedes,
es tan estupendo.
Lea ya habló mucho de este evento,
ahora hablaré de Wikidata
y lo que ha ocurrido este último año
y hacia dónde nos dirigimos.
¿Qué es esto? Lo siento.
¿Dónde estamos? ¿Hacia dónde vamos?
El último año ha habido tanto que celebrar
y quiero destacar algunas cosas
porque a veces pasan desapercibidas.
Primero quiero hablarles
de estadísticas sobre editores,
nuestro contenido
y cómo se usan nuestro datos.
El último año,
hemos crecido nuestra comunidad,
lo cual es maravilloso.
Tenemos casi 3000 personas nuevas
que editan una vez o más en 30 días.
Son 3000 nuevos miembros de Wikidata, ¡sí!
Si ven a los que hacen más,
cinco ediciones en 30 días,
tenemos aproximadamente 1200 más.
Y si ven los que hacen
100 ediciones o más,
espero que la mayoría en esta sala,
tenemos 300 más.
Levanten la mano
si están en este último grupo.
¡Yuju! ¡Son asombrosos!
Y aunque la cantidad de ediciones
no es algo a lo que usualmente
prestamos mucha atención,
sí superamos la barrera
de mil millones de ediciones este año.
(aplausos)
Bien, veamos los contenidos.
Tenemos ahora 65 millones de elementos,
entidades para describir el mundo,
y lo hacemos con unas 6700 propiedades.
De ellas, casi 4300
son identificadores externos,
lo que nos da un montón de enlaces
a otros catálogos, bases de datos,
páginas web y demás,
y hace a Wikidata el lugar central,
una web de datos abierta y conectada.
Al usar estas propiedades y elementos,
tenemos unas 800 millones
de declaraciones,
y, comparado al año pasado,
ahora sabemos media declaración más
sobre cada elemento.
(risas)
Sí, Wikidata se volvió más inteligente.
Pero no solo tenemos
elementos y propiedades,
también hay cosas nuevas como los lexemas
y ahora hay 204 000 lexemas
que describen palabras
en muchísimos idiomas.
Es genial.
Hablaré más sobre esto
en una sesión de hoy.
Por último, la última añadidura
son los esquemas de entidad
que nos ayudan a modelar uniformemente
los datos de todo un área particular.
Y tenemos unos 140.
Los números no lo son todo
en cuanto a contenido,
también nos preocupamos
por la calidad del contenido.
Lo que hemos hecho es entrenar
un sistema de aprendizaje automático
para que juzgue la calidad de un elemento.
Está lejos de ser perfecto,
pero les da una idea.
Cada elemento de Wikidata
recibe una calificación de 1 a 5.
1 es terrible, 5 es maravilloso.
Se examina cosas como
cuántas declaraciones tiene,
cuántos identificadores externos,
cuántas referencias,
cuántas etiquetas diferentes
en diferentes idiomas
y así.
Observamos a Wikidata en el tiempo,
como ven, según estas métricas,
pasamos de terrible a mucho mejor.
(risas)
Es bueno.
Pero también pueden ver
que aún falta para llegar a 5.
No creo que es adonde lleguemos, ¿cierto?
No todos los elementos
serán absolutamente perfectos
según las métricas que hemos tomado.
Pero me alegra ver que constantemente
la calidad de los datos mejoran y mejoran.
Bien, pero crear los datos
no es suficiente.
Lo hacemos por alguna razón.
Queremos que se utilicen.
Vimos cuántos artículos
de los otros proyectos de Wikimedia
utilizan datos de Wikidata.
Vimos los porcentajes
de todos los artículos de esos proyectos.
Si ven toda la Wikimedia
y todos sus artículos,
56.35 % utilizan hoy
algún dato de Wikidata.
Que pienso es bastante bueno,
pero, por supuesto,
aún falta mucho para 100 %.
Luego vi qué proyectos
utilizan más los datos de Wikidata
y los separé por idiomas y demás.
¿Cuáles creen que son
los cinco proyectos principales?
¿Cuáles son?
¿A qué familia de proyectos pertenecen?
(audiencia) Commons.
Bien, uniformemente, Commons.
Se equivocan.
Los cinco principales son de Wikivoyage.
(audiencia) ¡Oh!
(risas)
Sí, aplausos a Wikivoyage.
(aplausos)
Si quieren ver dónde está Commons
y los demás proyectos,
hay un tablero.
Vengan a mí y lo revisamos.
Claro, Wikimedia no es el único lugar
donde se utilizan nuestros datos,
también afuera, muchísimo.
No puedo esperar a mencionarlos,
pero, para destacar algunos,
hay muy buenos usos
en el Met, en Wellcome Trust,
la Biblioteca del Congreso,
GeneWiki y muchos más.
Si asisten a las próximas sesiones
del programa,
escucharán de ellos.
Muy bien, basta de estadísticas.
Veamos otras consideraciones.
Ya hablamos de mejorar
la calidad de los datos.
Cuando observamos la calidad,
hay muchos aspectos donde verlo
y hemos mejorado en algunos,
por ejemplo, qué tan preciso es,
qué tan confiable es,
cuántas referencias,
qué tan uniforme es su modelo,
qué tan completo y demás.
Por escoger uno,
la uniformidad, por ejemplo,
creamos la habilidad de almacenar
esquemas de entidad en Wikidata
para poder describir
cómo deben modelarse ciertos dominios.
Puedes encontrar...
puedes crear un esquema de entidad,
por ejemplo, para pintores neerlandeses,
entonces, puedes ver cómo...
qué elementos hay
para los pintores neerlandeses,
no tienen, por ejemplo,
fecha de nacimiento, pero deberían,
y cosas así.
Espero que más proyectos
de la Wiki y demás
puedan utilizar los esquemas de entidad
para cuidar de sus datos.
Si quieren saber cómo hacerlo,
más tarde hay una sesión en el programa
por gente que sabe todo sobre esto
y hará que no sea una caja misteriosa.
Bien.
Otra cosa que tuvo un gran empuje
el año pasado
es el ecosistema de la Wikibase,
la idea de que no todos los datos abiertos
pasen o tengan que pasar por la Wikidata
sino que queremos un sistema próspero
de diferentes lugares y actores,
como instituciones, compañías,
proyectos voluntarios,
que abran sus datos
de manera similar que Wikidata
y las conecten e intercambien datos,
que enlacen esos datos.
Durante al año pasado, ese interés,
el interés de las instituciones y personas
por organizar sus instancias
de la Wikibase
hizo explosión, en especial
en el sector de las bibliotecas.
Hay muchas pruebas, evaluaciones
y, siendo honesta, innovadoras,
que se están realizando,
donde instituciones emprendedoras
trabajan con nosotros
para saber cómo la Wikibase funciona
para sus colecciones, catálogos y demás.
Entre ellos está
la Biblioteca Nacional Alemana,
la Biblioteca Nacional Francesa, la OCLC
y nos emociona verlo.
Una de las razones por las que creo
que es emocionante
es que las ayudamos a que abran sus datos
de modo que no solo es colocarlos
en una página y que alguien acceda,
sino pensar bien el paso consiguiente:
dejar que la gente te ayude a cuidarlos,
aumentarlos, enriquecerlos,
y ya eso es un cambio
que espero traiga cosas buenas.
Otra cosa con la que nos ayuda
es que permite que expertos
curen los datos en su espacio,
los mantengan en forma
para poder sincronizar procesos
con Wikidata, por ejemplo,
en vez de tener que dedicarnos a ello
todo el tiempo.
En definitiva, espero que alivie
algo de presión a Wikidata
de que tiene que ser el lugar
donde todo tiene que realizarse.
Bien, datos lexicográficos.
El año pasado,
la gente en Wikidata comenzó
a describir palabras en su idioma
para poder desarrollar cosas como
herramientas de traducción automática,
y estamos en el punto donde
en algunos idiomas
nos acercamos a la masa crítica
que se requiere para desarrollar
una aplicación seria.
En muchos idiomas aún nos falta bastante,
pero en algunos ya casi estamos ahí
y es fantástico verlo.
Si quieren saber más de esto,
vengan a mi sesión que será hoy.
Y, por supuesto,
no olvidemos a Structured Data on Commons.
(audiencia) (silbido)
¡Sí!
(aplausos)
Structure Data on Commons,
que se encuentra en la base,
ha logrado organizar todo
y ha hecho posible añadir declaraciones
a los archivos en Commons
durante el año pasado
y la gente está comenzando
a añadir declaraciones a las imágenes
para facilitar encontrarlos,
para desarrollar mejores aplicaciones
y muchas más cosas,
y nos entusiasma ver cómo está creciendo.
Creo que es fundamental
que la comunidad de Wikidata
comprenda
que cuando ves Depicts
o "gato", "sentado", "lagarto", "muro",
son enlaces a elementos y propiedades
de Wikidata.
Significa que cuando
creamos elementos y propiedades
no solo se provee el vocabulario
para Wikidata,
se provee a Commons también.
Será cada vez más así,
así que debemos prestar mucha atención
a cómo nuestra ontología y vocabulario
ya se están utilizando en otros lugares
antes de que nosotros lo hagamos.
Lo último que tengo
es que hemos comenzado a desarrollar
puentes más robustos
hacia otros proyectos de la Wikimedia.
Mi equipo y yo trabajamos
en un proyecto llamado Wikidata Bridge,
definitivamente deben ir
a la cabina de Experiencia de usuario
y probar su estado actual.
Hará que, por ejemplo,
los editores de Wikipedia
editen directamente Wikidata
desde sus proyectos
sin tener que ir a Wikidata
y tener que entender todo lo de ahí.
Espero que se elimine un obstáculo más
que dificulta
que los proyectos de Wikimedia
adopten más datos de Wikidata.
Bien, ahora las estrategias
y adónde vamos.
Desde diciembre, el equipo de Wikidata
en Wikimedia Alemania
y gente de la Fundación Wikimedia
han trabajado en estrategias,
publicaciones entorno a Wikidata.
Básicamente, han dejado por escrito
muchas de las cosas
de las que hemos hablado
los últimos cuatro o cinco años.
No sé si todos aquí han leído
estas publicaciones,
se publican en Meta y Commons
al final del mes.
Sería genial que, si no los han leído,
los lean, los comenten y demás.
Un rápido resumen de lo que hay allí
es que pensamos a Wikidata y Wikibase
en tres piezas.
La primera es Wikidata
como una plataforma,
se ve en la esquina inferior.
Se trata de que Wikidata
permite a cada persona
acceder y compartir información
sin importar su idioma o tecnología,
y lo logramos proporcionando
datos de propósito general sobre el mundo.
Básicamente,
lo que hacemos todos los días.
La segunda es el ecosistema de Wikibase,
donde Wikibase,
el software que ejecuta Wikidata,
impulsa no solo a Wikidata,
sino a toda una web de datos abiertos
que es la columna vertebral
del conocimiento libre y abierto.
La tercera y última es Wikidata
para los proyectos de Wikimedia,
la de arriba,
donde Wikidata está
para ayudar los proyectos de Wikimedia,
prepararlos para el futuro.
En concreto, ¿qué significa esto
para el futuro cercano y a mediano plazo?
Wikidata como una plataforma, ¿correcto?
Queremos mejor la calidad de datos,
continuaremos trabajando
en mejores herramientas,
mejorándolas y demás.
Debemos hacer más accesibles
nuestros datos
mediante mejores API,
un SPARQL remoto más robusto,
pero también cosas como
modelar con mayor uniformidad los datos
para que sea fácil reusarlos
en las aplicaciones.
Y, por último,
organizar procesos de retroalimentación
con nuestros aliados.
A diferencia de Wikipedia,
Wikidata no es lo que llamaría
un proyecto destino.
Alguien va a Wikipedia y lo lee,
mientras que Wikidata,
por lo general, nadie va y lo lee.
Sería fantástico,
pero, siendo realistas, no es eso.
Mucha de la gente
que está expuesta a nuestro datos
no está en la propia Wikidata,
sino que los ven a través Wikipedia
y muchos otros lugares.
Pero esos lugares sí reciben
comentarios de los datos.
Los usuarios les dicen:
"Oye, aquí hay un error".
Me gustaría tener eso
para hacerlo accesible
para quienes editan Wikidata,
o sea, ustedes,
y resolver cómo hacerlo de manera útil
sin abrumar a nadie
será una de las cosas a hacer
el próximo año.
Bien, el ecosistema de Wikibase.
Continuaremos trabajando
con las bibliotecas,
pero también profundizando
en la ciencia, por ejemplo, y más.
Más tarde habrá
una exposición de Wikibase
a la que deberían ir y ver qué hay
y qué está haciendo la gente con Wikibase.
Vale la pena verlo.
También necesitamos
organizar buenos procesos.
Hacerle saber a la gente
a quién hablarle de qué cosa,
dónde encontrar ayuda,
todo este tipo de cosas.
Y, desde luego, facilitar la instalación
y el mantenimiento de una Wikibase
porque aún es un poquito difícil.
La último es federación,
básicamente lo último
de lo hablábamos para Commons
donde Commons usa
los elementos y propiedades de Wikidata,
pero para otras instancias de la Wikibase
para que puedan utilizar
el vocabulario de Wikidata.
Y eso, como ya dije,
incrementa una vez más
la necesidad de estar conscientes
de cómo se utiliza nuestro vocabulario
allá afuera
más de lo que estuvimos hasta ahora.
Y Wikidata
para los proyectos de Wikimedia,
desde luego, mayor integración
a través de Wikidata Bridge
y que la gente pueda editar
directamente desde sus proyectos
y otra cosa que debemos
de pensar en conjunto
es cómo reducir las barreras lingüísticas.
Cuanto más Wikidata se integre
en los proyectos de Wikimedia,
más personas tendrán la necesidad
de hablar entre ellos de esos datos
sin hablar el mismo idioma,
y debemos pensar cómo manejar eso.
Si las personas tienen ideas ingeniosas,
me encantaría conversar.
Y así llego al final de mi charla.
Gracias a todos por darle a más personas
más acceso a más conocimiento
todos los días.
(aplausos)
Tenemos tiempo para preguntas,
por lo que si hay preguntas
entre el público
o si están en remoto viéndolo en vivo...
Hola, mamá.
(risas en la audiencia)
...pueden preguntarlo en EtherPad
o el canal de Telegram
y trataremos de contestar.
¿Alguna pregunta?
(persona 1) Hola a todos,
esto es más meme que pregunta.
¿Cuándo la extensión de tiempo
podrá recibir horas, minutos y segundos?,
porque hasta ahora solo es la fecha.
- Ya sé... No es mi pregunta,
- (risas)
por eso dije que es un meme.
Siempre es algo así,
pero siempre viene de remoto.
No tengo una buena respuesta para eso.
Lo siento.
Pero, como contexto,
la gente lo necesita más
para describir imágenes en Commons,
agrandará la gran lista de cosas
que hay que apresurar, con esa pregunta.
¿Más preguntas?
(persona 2) Del equipo de investigación
de la Fundación Wikipedia.
Tengo una pregunta sobre
lo que piensas sobre el patrullaje
y quizás esté relacionado
con la calidad del contenido en Wikidata,
pero si puedes hablar de eso
por ejemplo, el mediano y corto plazo
de los cambios en el patrullaje,
en especial con el proyecto Bridge,
que espero probar.
Sí, gracias.
Como dices, con las cosas
que hicimos en Bridge,
habrá que hacer un mayor esfuerzo
en el patrullaje, creo.
Pero estamos en una magnitud
que no creo factible
que hagamos a mano, por un humano,
así que debemos esforzarnos más
en mejorar, por ejemplo, ORES,
el sistema de aprendizaje automático
que nos ayuda con eso,
que nos ayude a saber qué ediciones
amerita la revisión de un humano
y cuál es quizás "Ah, sí",
el material regular
que no necesito revisar.
Actualmente, ORES no es demasiado bueno
para juzgar si una edición en Wikidata
es buena o mala.
Hay actualmente una campaña en curso
que es entrenar
el sistema de aprendizaje automático,
con la ayuda de ustedes,
para enseñarle lo que es
una buena edición y una mala.
No hemos alcanzado el umbral
de número de humanos que le enseñen
para que mejore realmente,
pero, si tienen unos minutos,
sería estupendo que ayudaran
en enseñar a ORES
juzgar mejor las ediciones de Wikidata.
Es muy simple, te muestra una edición,
tú dices "esta es una buena edición,
esta es mala",
y eso es todo.
Puedes hacerlo frente al televisor
en la noche en el sofá.
(persona 3) Comparte un enlace.
Compartiremos un enlace
en el grupo de Telegram, sí.
Una vez alcanzado el umbral necesario,
creo que es unos 7000, quizás me equivoco,
podremos volver a ejecutar
el entrenamiento para ORES
y con suerte será mucho mejor
juzgando las ediciones en Wikidata.
Espero que más de ustedes
puedan usarlo
para filtrar cambios recientes,
por ejemplo,
o la lista de ediciones
que necesitan de su atención.
Sí.
Hola.
(persona 4) Me da curiosidad saber,
y no es una pregunta mía,
sino para aliados con quienes trabajo,
cuanto más aliados se nos unen en Wikidata
y empiezan a experimentar
con las consultas,
más problemas tenemos
con el tiempo de expiración para ellas.
¿Qué está sucediendo con eso?
Algunas personas en la Fundación Wikimedia
están investigando eso,
y, pequeño destripe,
ve a la sesión de regalo de cumpleaños.
(risas)
(persona 5) Hola, soy Bart Magnus
de [PACKED] de Bélgica.
Me gustaría saber cuál es el estado actual
respecto a la federación
con aumentar las propiedades
en tu propia instancia de la Wikibase.
¿Algo que decir de eso?
El año pasado,
muchas personas nos dijeron
que querían federación.
El problema fue que muchos
entendieron cosas muy diferentes
cuando dicen "federación".
Algunas cosas son fácilmente realizables,
algunas son realmente muy difíciles.
Mi equipo y yo hemos hablamos
con mucha gente, por ejemplo,
los aliados con los que trabajamos
en las bibliotecas
para saber con exactitud qué necesitan.
Ya concluimos eso,
pero me alegraría recibir
más retroalimentación
si quieres hablarme de eso,
y ahora estoy en un estadio
donde me siento cómoda diciendo:
"Sí, vamos a comenzar eso".
Diría que será los próximos
dos o tres meses
que escribamos
las primeras líneas de código
y esperamos que haya personas
que lo prueben
a comienzos del próximo año.
(presentador) Bien, últimas preguntas.
(persona 6) Finn Årup Nielsen,
de Copenhagen, Dinamarca.
En relación a los otros lenguajes,
ha habido como una discusión
en la comunidad de WikiCite
sobre si continuamos poniendo
más publicaciones científicas en ella.
Se relaciona con cuántos datos
podemos poner en Wikidata.
El tiempo de expiración en las consultas
de Wikidata es un problema
pero también el mantenimiento,
¿qué piensas al respecto?
¿El tamaño de Wikidata
empieza a ser un problema?
¿Debemos parar de agregar
datos en los lexemas?
¿Debemos parar de poner
datos científicos en Wikidata
o tenemos alguna investigación sobre eso
o problemas técnicos con el crecimiento?
Sí.
Wikidata está, en definitiva,
alcanzando...
límites de escalabilidad, digamos,
tanto técnica como socialmente.
Para ambos casos, necesitamos soluciones.
Socialmente, tenemos cosas
como más editores
y cambios recientes al punto
que no es factible
para un humano patrullarlo,
porque simplemente es demasiado.
Pero también, técnicamente,
hemos trabajado en parte en eso,
por ejemplo, rediseño de bases de datos
en torno a tablas convertidas en vistas,
si eso les dice algo.
Pero solo eso hasta ahora
y una de las cosas
que queremos ver el próximo año
es dónde están
los otros puntos problemáticos
y qué podemos hacer desde el lado técnico.
Eso en general.
Al mismo tiempo,
me cuido de decirle a la gente:
"No, no, no pongas más nada en Wikidata".
(risas)
Sería como matar el propósito.
Pero, por ejemplo,
el ecosistema de Wikibase
es una forma de resolverlo,
no requerir todo de la Wikidata.
Es la belleza de los datos abiertos
interconectados,
no tienes que tenerlo todo
en el mismo lugar,
puedes conectar diferentes sitios.
Es fantástico.
Sobre WikiCites, específicamente, sí.
WikiCites específicamente
creo que debemos verlo proporcionalmente.
No tengo un porcentaje exacto
de cuántos elementos en Wikidata
giran en torno a temas de WikiCite,
pero es un porcentaje grande.
Quizás es algo que debamos conversar
en el receso.
¡Muchas gracias!
(aplausos)