UN VISTAZO A WIKIDATA (Lydia) Hola a todos. Es increíble que estén aquí, tantos de ustedes, es tan estupendo. Lea ya habló mucho de este evento, ahora hablaré de Wikidata y lo que ha ocurrido este último año y hacia dónde nos dirigimos. ¿Qué es esto? Lo siento. ¿Dónde estamos? ¿Hacia dónde vamos? El último año ha habido tanto que celebrar y quiero destacar algunas cosas porque a veces pasan desapercibidas. Primero quiero hablarles de estadísticas sobre editores, nuestro contenido y cómo se usan nuestro datos. El último año, hemos crecido nuestra comunidad, lo cual es maravilloso. Tenemos casi 3000 personas nuevas que editan una vez o más en 30 días. Son 3000 nuevos miembros de Wikidata, ¡sí! Si ven a los que hacen más, cinco ediciones en 30 días, tenemos aproximadamente 1200 más. Y si ven los que hacen 100 ediciones o más, espero que la mayoría en esta sala, tenemos 300 más. Levanten la mano si están en este último grupo. ¡Yuju! ¡Son asombrosos! Y aunque la cantidad de ediciones no es algo a lo que usualmente prestamos mucha atención, sí superamos la barrera de mil millones de ediciones este año. (aplausos) Bien, veamos los contenidos. Tenemos ahora 65 millones de elementos, entidades para describir el mundo, y lo hacemos con unas 6700 propiedades. De ellas, casi 4300 son identificadores externos, lo que nos da un montón de enlaces a otros catálogos, bases de datos, páginas web y demás, y hace a Wikidata el lugar central, una web de datos abierta y conectada. Al usar estas propiedades y elementos, tenemos unas 800 millones de declaraciones, y, comparado al año pasado, ahora sabemos media declaración más sobre cada elemento. (risas) Sí, Wikidata se volvió más inteligente. Pero no solo tenemos elementos y propiedades, también hay cosas nuevas como los lexemas y ahora hay 204 000 lexemas que describen palabras en muchísimos idiomas. Es genial. Hablaré más sobre esto en una sesión de hoy. Por último, la última añadidura son los esquemas de entidad que nos ayudan a modelar uniformemente los datos de todo un área particular. Y tenemos unos 140. Los números no lo son todo en cuanto a contenido, también nos preocupamos por la calidad del contenido. Lo que hemos hecho es entrenar un sistema de aprendizaje automático para que juzgue la calidad de un elemento. Está lejos de ser perfecto, pero les da una idea. Cada elemento de Wikidata recibe una calificación de 1 a 5. 1 es terrible, 5 es maravilloso. Se examina cosas como cuántas declaraciones tiene, cuántos identificadores externos, cuántas referencias, cuántas etiquetas diferentes en diferentes idiomas y así. Observamos a Wikidata en el tiempo, como ven, según estas métricas, pasamos de terrible a mucho mejor. (risas) Es bueno. Pero también pueden ver que aún falta para llegar a 5. No creo que es adonde lleguemos, ¿cierto? No todos los elementos serán absolutamente perfectos según las métricas que hemos tomado. Pero me alegra ver que constantemente la calidad de los datos mejoran y mejoran. Bien, pero crear los datos no es suficiente. Lo hacemos por alguna razón. Queremos que se utilicen. Vimos cuántos artículos de los otros proyectos de Wikimedia utilizan datos de Wikidata. Vimos los porcentajes de todos los artículos de esos proyectos. Si ven toda la Wikimedia y todos sus artículos, 56.35 % utilizan hoy algún dato de Wikidata. Que pienso es bastante bueno, pero, por supuesto, aún falta mucho para 100 %. Luego vi qué proyectos utilizan más los datos de Wikidata y los separé por idiomas y demás. ¿Cuáles creen que son los cinco proyectos principales? ¿Cuáles son? ¿A qué familia de proyectos pertenecen? (audiencia) Commons. Bien, uniformemente, Commons. Se equivocan. Los cinco principales son de Wikivoyage. (audiencia) ¡Oh! (risas) Sí, aplausos a Wikivoyage. (aplausos) Si quieren ver dónde está Commons y los demás proyectos, hay un tablero. Vengan a mí y lo revisamos. Claro, Wikimedia no es el único lugar donde se utilizan nuestros datos, también afuera, muchísimo. No puedo esperar a mencionarlos, pero, para destacar algunos, hay muy buenos usos en el Met, en Wellcome Trust, la Biblioteca del Congreso, GeneWiki y muchos más. Si asisten a las próximas sesiones del programa, escucharán de ellos. Muy bien, basta de estadísticas. Veamos otras consideraciones. Ya hablamos de mejorar la calidad de los datos. Cuando observamos la calidad, hay muchos aspectos donde verlo y hemos mejorado en algunos, por ejemplo, qué tan preciso es, qué tan confiable es, cuántas referencias, qué tan uniforme es su modelo, qué tan completo y demás. Por escoger uno, la uniformidad, por ejemplo, creamos la habilidad de almacenar esquemas de entidad en Wikidata para poder describir cómo deben modelarse ciertos dominios. Puedes encontrar... puedes crear un esquema de entidad, por ejemplo, para pintores neerlandeses, entonces, puedes ver cómo... qué elementos hay para los pintores neerlandeses, no tienen, por ejemplo, fecha de nacimiento, pero deberían, y cosas así. Espero que más proyectos de la Wiki y demás puedan utilizar los esquemas de entidad para cuidar de sus datos. Si quieren saber cómo hacerlo, más tarde hay una sesión en el programa por gente que sabe todo sobre esto y hará que no sea una caja misteriosa. Bien. Otra cosa que tuvo un gran empuje el año pasado es el ecosistema de la Wikibase, la idea de que no todos los datos abiertos pasen o tengan que pasar por la Wikidata sino que queremos un sistema próspero de diferentes lugares y actores, como instituciones, compañías, proyectos voluntarios, que abran sus datos de manera similar que Wikidata y las conecten e intercambien datos, que enlacen esos datos. Durante al año pasado, ese interés, el interés de las instituciones y personas por organizar sus instancias de la Wikibase hizo explosión, en especial en el sector de las bibliotecas. Hay muchas pruebas, evaluaciones y, siendo honesta, innovadoras, que se están realizando, donde instituciones emprendedoras trabajan con nosotros para saber cómo la Wikibase funciona para sus colecciones, catálogos y demás. Entre ellos está la Biblioteca Nacional Alemana, la Biblioteca Nacional Francesa, la OCLC y nos emociona verlo. Una de las razones por las que creo que es emocionante es que las ayudamos a que abran sus datos de modo que no solo es colocarlos en una página y que alguien acceda, sino pensar bien el paso consiguiente: dejar que la gente te ayude a cuidarlos, aumentarlos, enriquecerlos, y ya eso es un cambio que espero traiga cosas buenas. Otra cosa con la que nos ayuda es que permite que expertos curen los datos en su espacio, los mantengan en forma para poder sincronizar procesos con Wikidata, por ejemplo, en vez de tener que dedicarnos a ello todo el tiempo. En definitiva, espero que alivie algo de presión a Wikidata de que tiene que ser el lugar donde todo tiene que realizarse. Bien, datos lexicográficos. El año pasado, la gente en Wikidata comenzó a describir palabras en su idioma para poder desarrollar cosas como herramientas de traducción automática, y estamos en el punto donde en algunos idiomas nos acercamos a la masa crítica que se requiere para desarrollar una aplicación seria. En muchos idiomas aún nos falta bastante, pero en algunos ya casi estamos ahí y es fantástico verlo. Si quieren saber más de esto, vengan a mi sesión que será hoy. Y, por supuesto, no olvidemos a Structured Data on Commons. (audiencia) (silbido) ¡Sí! (aplausos) Structure Data on Commons, que se encuentra en la base, ha logrado organizar todo y ha hecho posible añadir declaraciones a los archivos en Commons durante el año pasado y la gente está comenzando a añadir declaraciones a las imágenes para facilitar encontrarlos, para desarrollar mejores aplicaciones y muchas más cosas, y nos entusiasma ver cómo está creciendo. Creo que es fundamental que la comunidad de Wikidata comprenda que cuando ves Depicts o "gato", "sentado", "lagarto", "muro", son enlaces a elementos y propiedades de Wikidata. Significa que cuando creamos elementos y propiedades no solo se provee el vocabulario para Wikidata, se provee a Commons también. Será cada vez más así, así que debemos prestar mucha atención a cómo nuestra ontología y vocabulario ya se están utilizando en otros lugares antes de que nosotros lo hagamos. Lo último que tengo es que hemos comenzado a desarrollar puentes más robustos hacia otros proyectos de la Wikimedia. Mi equipo y yo trabajamos en un proyecto llamado Wikidata Bridge, definitivamente deben ir a la cabina de Experiencia de usuario y probar su estado actual. Hará que, por ejemplo, los editores de Wikipedia editen directamente Wikidata desde sus proyectos sin tener que ir a Wikidata y tener que entender todo lo de ahí. Espero que se elimine un obstáculo más que dificulta que los proyectos de Wikimedia adopten más datos de Wikidata. Bien, ahora las estrategias y adónde vamos. Desde diciembre, el equipo de Wikidata en Wikimedia Alemania y gente de la Fundación Wikimedia han trabajado en estrategias, publicaciones entorno a Wikidata. Básicamente, han dejado por escrito muchas de las cosas de las que hemos hablado los últimos cuatro o cinco años. No sé si todos aquí han leído estas publicaciones, se publican en Meta y Commons al final del mes. Sería genial que, si no los han leído, los lean, los comenten y demás. Un rápido resumen de lo que hay allí es que pensamos a Wikidata y Wikibase en tres piezas. La primera es Wikidata como una plataforma, se ve en la esquina inferior. Se trata de que Wikidata permite a cada persona acceder y compartir información sin importar su idioma o tecnología, y lo logramos proporcionando datos de propósito general sobre el mundo. Básicamente, lo que hacemos todos los días. La segunda es el ecosistema de Wikibase, donde Wikibase, el software que ejecuta Wikidata, impulsa no solo a Wikidata, sino a toda una web de datos abiertos que es la columna vertebral del conocimiento libre y abierto. La tercera y última es Wikidata para los proyectos de Wikimedia, la de arriba, donde Wikidata está para ayudar los proyectos de Wikimedia, prepararlos para el futuro. En concreto, ¿qué significa esto para el futuro cercano y a mediano plazo? Wikidata como una plataforma, ¿correcto? Queremos mejor la calidad de datos, continuaremos trabajando en mejores herramientas, mejorándolas y demás. Debemos hacer más accesibles nuestros datos mediante mejores API, un SPARQL remoto más robusto, pero también cosas como modelar con mayor uniformidad los datos para que sea fácil reusarlos en las aplicaciones. Y, por último, organizar procesos de retroalimentación con nuestros aliados. A diferencia de Wikipedia, Wikidata no es lo que llamaría un proyecto destino. Alguien va a Wikipedia y lo lee, mientras que Wikidata, por lo general, nadie va y lo lee. Sería fantástico, pero, siendo realistas, no es eso. Mucha de la gente que está expuesta a nuestro datos no está en la propia Wikidata, sino que los ven a través Wikipedia y muchos otros lugares. Pero esos lugares sí reciben comentarios de los datos. Los usuarios les dicen: "Oye, aquí hay un error". Me gustaría tener eso para hacerlo accesible para quienes editan Wikidata, o sea, ustedes, y resolver cómo hacerlo de manera útil sin abrumar a nadie será una de las cosas a hacer el próximo año. Bien, el ecosistema de Wikibase. Continuaremos trabajando con las bibliotecas, pero también profundizando en la ciencia, por ejemplo, y más. Más tarde habrá una exposición de Wikibase a la que deberían ir y ver qué hay y qué está haciendo la gente con Wikibase. Vale la pena verlo. También necesitamos organizar buenos procesos. Hacerle saber a la gente a quién hablarle de qué cosa, dónde encontrar ayuda, todo este tipo de cosas. Y, desde luego, facilitar la instalación y el mantenimiento de una Wikibase porque aún es un poquito difícil. La último es federación, básicamente lo último de lo hablábamos para Commons donde Commons usa los elementos y propiedades de Wikidata, pero para otras instancias de la Wikibase para que puedan utilizar el vocabulario de Wikidata. Y eso, como ya dije, incrementa una vez más la necesidad de estar conscientes de cómo se utiliza nuestro vocabulario allá afuera más de lo que estuvimos hasta ahora. Y Wikidata para los proyectos de Wikimedia, desde luego, mayor integración a través de Wikidata Bridge y que la gente pueda editar directamente desde sus proyectos y otra cosa que debemos de pensar en conjunto es cómo reducir las barreras lingüísticas. Cuanto más Wikidata se integre en los proyectos de Wikimedia, más personas tendrán la necesidad de hablar entre ellos de esos datos sin hablar el mismo idioma, y debemos pensar cómo manejar eso. Si las personas tienen ideas ingeniosas, me encantaría conversar. Y así llego al final de mi charla. Gracias a todos por darle a más personas más acceso a más conocimiento todos los días. (aplausos) Tenemos tiempo para preguntas, por lo que si hay preguntas entre el público o si están en remoto viéndolo en vivo... Hola, mamá. (risas en la audiencia) ...pueden preguntarlo en EtherPad o el canal de Telegram y trataremos de contestar. ¿Alguna pregunta? (persona 1) Hola a todos, esto es más meme que pregunta. ¿Cuándo la extensión de tiempo podrá recibir horas, minutos y segundos?, porque hasta ahora solo es la fecha. - Ya sé... No es mi pregunta, - (risas) por eso dije que es un meme. Siempre es algo así, pero siempre viene de remoto. No tengo una buena respuesta para eso. Lo siento. Pero, como contexto, la gente lo necesita más para describir imágenes en Commons, agrandará la gran lista de cosas que hay que apresurar, con esa pregunta. ¿Más preguntas? (persona 2) Del equipo de investigación de la Fundación Wikipedia. Tengo una pregunta sobre lo que piensas sobre el patrullaje y quizás esté relacionado con la calidad del contenido en Wikidata, pero si puedes hablar de eso por ejemplo, el mediano y corto plazo de los cambios en el patrullaje, en especial con el proyecto Bridge, que espero probar. Sí, gracias. Como dices, con las cosas que hicimos en Bridge, habrá que hacer un mayor esfuerzo en el patrullaje, creo. Pero estamos en una magnitud que no creo factible que hagamos a mano, por un humano, así que debemos esforzarnos más en mejorar, por ejemplo, ORES, el sistema de aprendizaje automático que nos ayuda con eso, que nos ayude a saber qué ediciones amerita la revisión de un humano y cuál es quizás "Ah, sí", el material regular que no necesito revisar. Actualmente, ORES no es demasiado bueno para juzgar si una edición en Wikidata es buena o mala. Hay actualmente una campaña en curso que es entrenar el sistema de aprendizaje automático, con la ayuda de ustedes, para enseñarle lo que es una buena edición y una mala. No hemos alcanzado el umbral de número de humanos que le enseñen para que mejore realmente, pero, si tienen unos minutos, sería estupendo que ayudaran en enseñar a ORES juzgar mejor las ediciones de Wikidata. Es muy simple, te muestra una edición, tú dices "esta es una buena edición, esta es mala", y eso es todo. Puedes hacerlo frente al televisor en la noche en el sofá. (persona 3) Comparte un enlace. Compartiremos un enlace en el grupo de Telegram, sí. Una vez alcanzado el umbral necesario, creo que es unos 7000, quizás me equivoco, podremos volver a ejecutar el entrenamiento para ORES y con suerte será mucho mejor juzgando las ediciones en Wikidata. Espero que más de ustedes puedan usarlo para filtrar cambios recientes, por ejemplo, o la lista de ediciones que necesitan de su atención. Sí. Hola. (persona 4) Me da curiosidad saber, y no es una pregunta mía, sino para aliados con quienes trabajo, cuanto más aliados se nos unen en Wikidata y empiezan a experimentar con las consultas, más problemas tenemos con el tiempo de expiración para ellas. ¿Qué está sucediendo con eso? Algunas personas en la Fundación Wikimedia están investigando eso, y, pequeño destripe, ve a la sesión de regalo de cumpleaños. (risas) (persona 5) Hola, soy Bart Magnus de [PACKED] de Bélgica. Me gustaría saber cuál es el estado actual respecto a la federación con aumentar las propiedades en tu propia instancia de la Wikibase. ¿Algo que decir de eso? El año pasado, muchas personas nos dijeron que querían federación. El problema fue que muchos entendieron cosas muy diferentes cuando dicen "federación". Algunas cosas son fácilmente realizables, algunas son realmente muy difíciles. Mi equipo y yo hemos hablamos con mucha gente, por ejemplo, los aliados con los que trabajamos en las bibliotecas para saber con exactitud qué necesitan. Ya concluimos eso, pero me alegraría recibir más retroalimentación si quieres hablarme de eso, y ahora estoy en un estadio donde me siento cómoda diciendo: "Sí, vamos a comenzar eso". Diría que será los próximos dos o tres meses que escribamos las primeras líneas de código y esperamos que haya personas que lo prueben a comienzos del próximo año. (presentador) Bien, últimas preguntas. (persona 6) Finn Årup Nielsen, de Copenhagen, Dinamarca. En relación a los otros lenguajes, ha habido como una discusión en la comunidad de WikiCite sobre si continuamos poniendo más publicaciones científicas en ella. Se relaciona con cuántos datos podemos poner en Wikidata. El tiempo de expiración en las consultas de Wikidata es un problema pero también el mantenimiento, ¿qué piensas al respecto? ¿El tamaño de Wikidata empieza a ser un problema? ¿Debemos parar de agregar datos en los lexemas? ¿Debemos parar de poner datos científicos en Wikidata o tenemos alguna investigación sobre eso o problemas técnicos con el crecimiento? Sí. Wikidata está, en definitiva, alcanzando... límites de escalabilidad, digamos, tanto técnica como socialmente. Para ambos casos, necesitamos soluciones. Socialmente, tenemos cosas como más editores y cambios recientes al punto que no es factible para un humano patrullarlo, porque simplemente es demasiado. Pero también, técnicamente, hemos trabajado en parte en eso, por ejemplo, rediseño de bases de datos en torno a tablas convertidas en vistas, si eso les dice algo. Pero solo eso hasta ahora y una de las cosas que queremos ver el próximo año es dónde están los otros puntos problemáticos y qué podemos hacer desde el lado técnico. Eso en general. Al mismo tiempo, me cuido de decirle a la gente: "No, no, no pongas más nada en Wikidata". (risas) Sería como matar el propósito. Pero, por ejemplo, el ecosistema de Wikibase es una forma de resolverlo, no requerir todo de la Wikidata. Es la belleza de los datos abiertos interconectados, no tienes que tenerlo todo en el mismo lugar, puedes conectar diferentes sitios. Es fantástico. Sobre WikiCites, específicamente, sí. WikiCites específicamente creo que debemos verlo proporcionalmente. No tengo un porcentaje exacto de cuántos elementos en Wikidata giran en torno a temas de WikiCite, pero es un porcentaje grande. Quizás es algo que debamos conversar en el receso. ¡Muchas gracias! (aplausos)