Hola a todos los del panel
de Calidad de Datos.
La calidad de los datos importa
porque cada vez más personas
confían en que nuestros datos están bien,
así que hablaremos de su calidad,
y habrán cuatro oradores
quienes darán breves presentaciones
sobre temas de la calidad de los datos
y luego tendremos preguntas y respuestas.
Y el primero es Lucas.
Gracias.
(Lucas) Hola, soy Lucas y voy a comenzar
con una descripción general
de las herramientas de calidad de datos
que ya tenemos en Wikidata
y también algunas cosas
que vendrán pronto.
Y los he agrupado
en algunos temas generales
sobre hacer los errores más visibles,
hacer que los problemas sean procesables,
ver mejor los datos para que la gente
note los problemas,
arreglar fuentes comunes de errores,
mantener calidad de los datos existentes
y también la curación humana.
Y los que están disponibles actualmente
comienzan con restricciones de propiedad.
Así que tal vez ya has visto esto
si estás en Wikidata.
A veces puedes obtener estos íconos
revisando la consistencia interna
de los datos.
Por ejemplo, si un evento sigue al otro,
entonces el otro evento debería
también ser seguido por este,
que en el artículo de WikidataCon
al parecer faltaba.
No estoy seguro,
esta característica es de unos días.
Y también, si esto es demasiado limitado
o simple para usted,
puedes escribir cualquier chequeo
que quieras usando el servicio de consulta
que es útil para muchas cosas
por supuesto,
pero también puedes usarlo
para encontrar errores.
Si te diste cuenta
de la ocurrencia de un error,
entonces puedes verificar
si hay otros lugares
donde la gente ha hecho
un error muy similar
y encontrarlo con el Servicio
de Consultas.
También puedes combinar los dos
y buscar violaciones de restricciones
en el Servicio de Consulta,
por ejemplo,
las violaciones en alguna área
o WikiProject que sea
relevante para usted,
aunque los resultados no están
completos actualmente, lamentablemente.
Hay puntuación de revisión.
Eso es... creo que esto
es de los cambios recientes
también puedes incluir en tu lista
una evaluación automática
de si es probable que esta edición sea
de buena fe o de mala fe
y si es probable que sea
dañino o no dañino,
creo que esas son las dos dimensiones.
Entonces puedes, si quieres,
centrarte en solo mirar las ediciones
perjudiciales pero de buena fe.
Si te sientes particularmente
amable y acogedor
puedes decirle a estos editores,
"Gracias por tu contribución,
así es como deberías haberlo hecho,
pero igualmente gracias".
Y si no te sientes así,
puedes irte por la mala fe,
las ediciones perjudiciales,
y revertir los vándalos.
También hay, similar a eso,
puntuación de la entidad.
Entonces, en lugar de anotar una edición,
el cambio que hizo,
puedes puntuar toda la revisión,
y creo que es la misma medida de calidad
que Lydia menciona
al comienzo de la conferencia.
Eso da un guión de usuario aquí arriba
y te da una puntuación de uno a cinco,
Creo que trata, de qué calidad
es el artículo actual.
La herramienta de fuentes primarias es
para cualquier base de datos
que quieras importar pero no es de calidad
suficiente para agregar a Wikidata,
entonces a su vez lo agregas
a la herramienta de fuentes primarias,
y luego las personas pueden decidir
si deben agregar estas declaraciones
individuales o no.
Mostrar coordenadas como mapas
principalmente es una característica
de conveniencia, pero también es
útil para el control de calidad.
Supón que esta es
la oficina de Wikimedia en Alemania
y si las coordenadas están
en algún lugar del Océano Índico,
entonces sabes que algo no está bien
y puedes verlo mucho más fácil
que si solo tuvieras los números.
Este es un dispositivo llamado
el indicador de integridad relativa
que te muestra este pequeño icono aquí
diciéndote cuán completo
cree que es este artículo
y también qué propiedades
es muy probable que falten,
lo cual es realmente útil
si estás editando un elemento
y estás en un área
con la que no estás muy familiarizado
y no sabes qué propiedades correctas usar,
entonces se tiene un dispositivo muy útil.
Y tenemos Shape Expressions.
Creo que Andra o José
van a hablar más sobre esto
pero básicamente, es una forma
muy poderosa de comparar los datos
que tienes versus el esquema,
como qué declaración deberían
ciertas entidades tener,
a qué otras entidades deberían vincularse
y cómo deberían ser,
y así puedes encontrar
problemas de esa manera.
Creo que... No, todavía hay más.
Panel de integralidad o propiedad.
Te da una visión general rápida
de los datos que ya tienes.
Por ejemplo, esto es de
los pandas rojos de WikiProject,
y puedes ver que tenemos el sexo
para casi todos los pandas rojos,
la fecha de nacimiento varía mucho
debido al zoológico del que provienen
y no tenemos casi ningún panda muerto,
lo cual es maravilloso,
porque son muy lindos.
Entonces esto también es útil.
Aquí vamos, bien,
con lo que vamos a seguir.
Puente de Wikidata, o también conocido,
antes conocido como edición del cliente,
así que editar Wikidata desde las cajas
de información de Wikipedia
lo que por un lado se obtendrá
más enfoque en los datos
porque más personas pueden
ver los datos allí
y con suerte alentará más el uso
de Wikidata en las Wikipedias
y eso significa que más personas
pueden notar
si, por ejemplo, algunos datos están
desactualizados y necesitan actualizarse
en lugar de solo verlos en Wikidata.
También hay referencias corrompidas.
La idea aquí es que si editas
un valor de declaración,
es posible que también desees
actualizar las referencias,
a menos que solo fuera
un error tipográfico o algo así.
Y estas referencias corrompidas
le dicen eso a los editores
y también que otros editores
ven qué otras modificaciones se hicieron
que editaron un valor de declaración
y no actualizaron una referencia
entonces puedes limpiar después de eso
y decidir si eso es...
¿Necesitas hacer algo más que eso
o está realmente bien y no necesitas
actualizar la referencia.
Se relaciona con declaraciones firmadas
que vienen de una preocupación, creo,
que algunos proveedores
de datos tienen como...
Hay una declaración a la que se hace
referencia a través de la UNESCO o algo
y de repente, alguien destroza
la declaración
y se preocupan de que se verá como
esta organización, como la UNESCO,
que aún establece este valor de vandalismo
y así, con las declaraciones firmadas,
pueden criptográficamente
firmar esta referencia
y eso no evita ninguna edición,
pero al menos, si alguien
destroza la declaración
o la edita de cualquier manera,
entonces la firma ya no es válida,
y puedes decir que eso no es exactamente
lo que dijo la organización,
y quizás sea una buena edición y deban
volver a firmar la nueva declaración,
pero también quizás deba revertirse.
Y también, esto va a ser
muy emocionante, creo,
Citoid es este asombroso sistema
que tienen en Wikipedia
donde puedes pegar una URL,
o un identificador, o un ISBN
o un ID de Wikidata o básicamente
cualquier cosa en el editor visual,
y lanza una referencia
que está bien formateada
y tiene todos los datos que quieres
y es maravilloso de usar.
Y en comparación, en Wikidata,
si quiero agregar una referencia
debo agregar una URL de referencia,
título, cadena del nombre del autor,
lugar de publicación,
fecha de publicación,
fechas de recuperación,
al menos esos, y eso es molesto,
e integrando Citoid en Wikibase
se espera a que ayude con eso.
Y creo que eso es todo lo que tengo, sí.
Así que, ahora voy a pasarles a Cristina.
(aplausos)
(Cristina) Hola, soy Cristina.
Soy una investigadora científica
de la Universidad de Zürich,
y también soy una miembro activa
de la Comunidad Suiza.
Cuando Claudia Müller-Birn
y yo le enviamos esto a WikidataCon,
lo que queríamos hacer
es continuar nuestra discusión
que empezamos a principios de año
con un taller sobre calidad de datos
y también algunas sesiones en Wikimania.
Entonces el objetivo de esta charla
es básicamente traer algunos pensamientos
que hemos estado recolectando
de la comunidad y de nosotros mismos
y continuar la discusión.
Entonces, lo que nos gustaría es continuar
interactuando bastante con ustedes.
Entonces, lo que pensamos
es muy importante
es que le preguntamos continuamente
a todo tipo de usuarios en la comunidad
sobre lo que realmente necesitan,
qué problemas tienen con la calidad
de los datos; no solo a editores,
sino además a las personas que codifican,
o consumen los datos,
y también a investigadores que usan
todo el historial de edición
para analizar lo que está pasando.
Así que revisamos alrededor de 80
herramientas que existen en Wikidata
y las alineamos a las diferentes
dimensiones de calidad de datos.
Y lo que vimos fue que en realidad,
muchas de ellas se enfocan en,
monitoreo de integridad,
pero en realidad... algunas de ellas
también habilitan la interconexión.
Pero hay una gran necesidad
de herramientas que busquen la diversidad,
lo cual es una de las cosas
que realmente podemos tener en Wikidata,
especialmente este principio
de diseño de Wikidata
donde podemos tener pluralidad
y diferentes declaraciones
con diferentes valores
procedentes de diferentes fuentes.
Debido a que es una fuente secundaria,
realmente no tenemos herramientas
que nos digan cuántas
declaraciones plurales hay,
y cuántas podemos mejorar y cómo,
y tampoco sabemos realmente
cuáles son todas las razones
de pluralidad que podemos tener.
Entonces, de estas reuniones comunitarias,
lo que discutimos fueron los desafíos
que aún necesitan atención.
Por ejemplo, que tener
todas estas comunidades de crowdsourcing
es muy bueno porque diversas personas
atacan diferentes partes
de los datos o el gráfico,
y también tenemos
conocimiento de fondo diferente
pero en realidad, es muy difícil alinear
todo en algo homogéneo
porque diversas personas están usando
diferentes propiedades de distintas formas
y también esperan cosas diferentes
de las descripciones de entidades.
La gente también dijo que también
necesitan más herramientas
que den una mejor visión general
del estado global de las cosas.
Entonces, qué entidades faltan
en términos de integridad,
pero además en qué las personas
trabajan la mayor parte del tiempo,
y también mencionan muchas veces
una colaboración más estrecha
a través de, no solo idiomas,
sino los WikiProjects
y las diferentes plataformas de Wikimedia.
Y publicamos todos
los comentarios transcritos
de todas estas discusiones
en esos enlaces aquí en los Etherpads
y también en la página wiki de Wikimania.
Algunas soluciones que aparecieron
iban encaminados en compartir
más las mejores prácticas
que se están desarrollando
en diferentes WikiProjects,
pero también la gente quiere herramientas
que ayuden a ordenar el trabajo en equipos
o al menos entender
quién está trabajando en eso,
y también mencionaron
que quieren más vitrinas
y más plantillas que los ayuden
a crear cosas de una mejor manera.
Y del contacto que tenemos
con organizaciones de datos
gubernamentales abiertos,
y en particular,
estoy en contacto con el cantón
y la ciudad de Zürich,
están muy interesados
en trabajar con Wikidata
porque quieren que sus datos
sean accesibles para todos
en el lugar donde va la gente
y consulta o accede a los datos.
Entonces para ellos, algo
que sería realmente interesante
es tener algún tipo
de indicadores de calidad
ambos en wiki, algo que ya sucede,
y también en los resultados SPARQL,
para saber si pueden confiar
o no en esos datos de la comunidad.
Y luego, también quieren saber
qué partes de sus propios conjuntos
de datos son útiles para Wikidata
y les encantaría tener una herramienta
que los ayude a evaluarlo automáticamente.
También necesitan algún tipo
de metodología o herramienta
que les ayude a decidir si deberían
importar o vincular sus datos
porque en algunos casos,
también tienen sus propios
conjuntos de datos abiertos vinculados,
así que no saben si
simplemente ingerir los datos
o seguir creando enlaces
de los conjuntos de datos a Wikidata
y a la inversa.
Y también quieren saber a dónde
se refieren sus sitios web en Wikidata.
Y cuando ejecutan tal consulta
en el servicio de consulta,
a menudo obtienen tiempos de espera,
entonces tal vez deberíamos
realmente crear más herramientas
que les ayude a responder sus preguntas.
Y además de eso,
a nosotros, los investigadores de wiki,
también a veces
nos falta algo de información
en la edición de resúmenes.
Entonces me acuerdo de eso cuando
estábamos haciendo algo de trabajo
para comprender el comportamiento
diferente de los editores
con herramientas o robots
o usuarios anónimos, etc.
realmente nos faltaba, por ejemplo,
una forma estándar para rastrear
que las herramientas se usaban.
Y hay algunas herramientas
que ya están haciendo eso
como PetScan y muchas otras,
pero tal vez deberíamos en la comunidad
discutir más sobre cómo grabarlas
para una procedencia detallada.
Y más adelante,
creemos que necesitamos pensar sobre
dimensiones de calidad de datos
más concretas que se relacionen
con los datos del enlace
pero no todos los tipos de datos,
así que trabajamos en algunas medidas
para acceder a la ganancia de información
habilitada por los enlaces,
y lo que queremos decir es que cuando
enlazamos Wikidata a otros conjuntos
de datos, también deberíamos pensar
cuánto en realidad están ganando
las entidades en la clasificación,
también en la descripción,
pero también en los vocabularios que usan.
Solo para dar un ejemplo muy simple
de lo que quiero decir con esto
es que podemos pensar en...
en este caso, que sería Wikidata
o el conjunto de datos externos
que se vincula a Wikidata,
tenemos la entidad para una persona
que se llama Natasha Noy,
tenemos la afiliación y otras cosas,
y luego decimos que sí,
nos vinculamos a un lugar externo,
y esa entidad también tiene ese nombre,
pero en realidad tenemos el mismo valor.
Lo que sería mejor es que lo vinculemos
a algo que tenga un nombre distinto,
eso aún es válido, porque esta persona
tiene dos formas de escribir el nombre,
y también otra información
que no tenemos en Wikidata
o que no tenemos
en el otro conjunto de datos.
Pero además, lo que es aún mejor
es que en realidad estamos mirando
en el conjunto de datos de destino
que también tienen nuevas formas
de clasificar la información.
Entonces no solo es una persona,
sino que en el otro conjunto de datos,
también dicen que es una mujer o cualquier
otra cosa con que la clasifiquen.
Y si en el otro conjunto de datos,
están usando muchos otros vocabularios
que también ayuda en todo el asunto
de recuperación de información.
Entonces con eso,
también me gustaría decir
que creemos que podemos
mostrar mejor las consultas federadas
porque cuando miramos el registro
de consultas brindado por Malyshev et al.,
vemos en realidad
que de las consultas orgánicas,
solo tenemos muy pocas
consultas federadas.
Y en realidad, la federación es una
de las ventajas clave de tener datos
de enlace, entonces quizás la comunidad
o las personas que usan Wikidata
también necesitan más ejemplos de esto.
Y si miramos la lista de puntos finales
que se están usando,
no es una lista completa
y tenemos muchos más.
Desde luego, estos datos fueron analizados
de consultas hasta marzo de 2018,
pero deberíamos mirar en la lista
de puntos finales federados que tenemos
y ver si realmente
los estamos usando o no.
Dos preguntas que tengo para la audiencia
que tal vez podamos usar
luego para la discusión son:
qué problemas de calidad de datos
debemos abordar en su opinión,
de acuerdo a las necesidades que tengan,
pero además, dónde necesitan
más automatización
que los ayude
con la edición o la vigilancia.
Eso es todo, muchas gracias.
(aplausos)
(Jose Emilio Labra) Bien,
entonces de lo que voy a hablar
es de algunas herramientas que estábamos
desarrollando sobre Shape Expressions.
Entonces de esto es de lo que quiero
hablar... Soy Jose Emilio Labra,
pero esto... todas estas herramientas
han sido hechas por diferentes personas,
relacionadas principalmente con W3C ShEx,
Grupo de Comunidad de Shape Expressions.
Grupo de Comunidad ShEx.
La primera herramienta que deseo mencionar
es RDFShape, es una herramienta general,
porque Shape Expressions
no es solo para Wikidata,
las expresiones de forma es un lenguaje
para validar RDF en general.
Entonces, esta herramienta fue
desarrollada principalmente por mí
y es una herramienta
para validar RDF en general.
Entonces, si quieres aprender sobre RDF
o quieres validar RDF
o puntos finales SPARQL
no solo en Wikidata,
mi consejo es que puedes
usar esta herramienta.
También para enseñar.
Soy profesor en la universidad
y la uso en mi curso semántico web
para enseñar RDF.
Entonces, si quieres aprender RDF,
creo que es una buena herramienta.
Por ejemplo, esta es una visualización
de un gráfico RDF con la herramienta.
Pero antes de venir aquí,
en el último mes,
empecé una bifurcación de rdfshape
específicamente para Wikidata,
porque pensé... se llama WikiShape y ayer
lo presenté como un regalo para Wikidata.
Entonces lo que tomé es...
lo que hice fue eliminar todas las cosas
que no estaban relacionadas con Wikidata
y poner varias cosas, codificadas,
por ejemplo, el punto final de Wikidata
SPARQL, pero ahora, alguien me preguntó
si pudiera hacerlo también para Wikibase.
Y también es muy fácil
hacerlo para Wikibase.
Entonces, esta herramienta,
WikiShape, es bastante nueva.
Creo que funciona,
la mayoría de las características,
pero hay algunas características
que tal vez no funcionen,
y si lo intentas y quieres
mejorarla, por favor dímelo.
Estas son capturas [inaudible],
pero creo que puedo intentar, veámos.
Entonces, veamos si funciona.
Primero, tengo que salir de...
Aquí.
De acuerdo, sí. Esta es la herramienta.
Cosas que puedes hacer con la herramienta,
por ejemplo, es que puedes
comprobar esquemas, esquemas de entidad.
Sabes que hay un nuevo espacio
de nombres que es "E lo que sea",
así que si comienzas, por ejemplo,
escribe por ejemplo "humano"...
Mientras escribes, su autocompletado
te permite verificar,
por ejemplo, estas son
las Shape Expressions de un humano,
y estas son las Shape Expressions aquí.
Y como puedes ver,
este editor tiene resaltado de sintaxis,
esto es... bueno,
tal vez es muy pequeña, la pantalla.
Puedo intentar hacerla más grande.
Quizás lo veas mejor ahora.
Y este es el editor con resaltado
de sintaxis y también tiene...
Quiero decir, este editor
proviene del mismo código fuente
del servicio de consulta de Wikidata.
Así que por ejemplo,
si pasas el ratón por aquí,
te muestra las etiquetas
de las diferentes propiedades.
Entonces creo que es muy útil
porque ahora los esquemas de entidad
que están en Wikidata
son solo una idea de texto plano,
y creo que este editor es mucho mejor
porque tiene autocompletado
y también tiene...
Quiero decir, si tú, por ejemplo,
querías agregar una restricción,
dices "wdt:"
Empiezas a escribir "autor"
y luego haces clic en Ctrl + Espacio
y te sugiere las diferentes cosas.
Entonces esto es similar
al servicio de consulta de Wikidata
pero específicamente
para Shape Expressions
porque lo que siento es que crear
Shape Expressions
no es más difícil
que escribir consultas SPARQL.
Entonces algunas personas piensan
que está al mismo nivel,
Probablemente sea más fácil, creo,
porque Shape Expressions era,
cuando lo diseñamos, lo hicimos
para que fuera más fácil de trabajar.
Bien, esta es una de las primeras cosas,
que tienes este editor
para Shape Expressions.
Y luego también tienes la posibilidad,
por ejemplo, de visualizar.
Si tienes un Shape Expression,
usar por ejemplo...
Creo, "trabajo escrito" es
un buen Shape Expression
porque tiene algunas relaciones
entre diferentes cosas.
Y esta es la visualización UML
del trabajo escrito.
En un UML, es fácil ver
las diferentes propiedades.
Cuando haces esto, me di cuenta
cuando intenté con varias personas,
que encuentran algunos errores
en sus Shape Expressions
porque es fácil detectar cuáles son
las propiedades faltantes o lo que sea.
Entonces hay otra posibilidad aquí
es que también puedes validar,
creo que lo tengo aquí, la validación.
Creo que lo tenía en alguna etiqueta,
tal vez lo cerré.
Bien, pero puedes, por ejemplo,
puedes hacer clic aquí, Validar entidades.
Tú, por ejemplo,
"q42" con "e42", que es el autor.
Con "humano", creo que podemos
hacerlo con "humanos".
Y luego es...
Y está tomando un poco de tiempo hacerlo
porque está haciendo las consultas SPARQL
y ahora, por ejemplo,
está fallando por la red pero...
Puedes probarlo.
Bien, continuemos con la presentación,
con otras herramientas.
Así que que si quieres probarlo
y quieres algún comentario, házmelo saber.
Entonces para continuar
con la presentación...
Entonces esto es WikiShape.
Bien, ya dije esto,
el editor de Shape Expressions
es un proyecto independiente en GitHub.
Puedes usarlo en tu propio proyecto.
Si quieres hacer una herramienta
de Shape Expressions,
puedes incrustarlo
en cualquier otro proyecto,
está en GitHub y puedes usarlo.
El mismo autor, es uno de mis alumnos,
él también creó
un editor para Shape Expressions,
también inspirado por el servicio
de consulta de Wikidata
donde, en una columna,
tienes este editor más visual
de consultas SPARQL
donde puedes poner este tipo de cosas.
Esta es una captura de pantalla.
Puedes ver que esas son
las Shape Expressions en el texto
pero es una forma de Shape Expressions
donde tal vez tome un poco más de tiempo
donde puedes poner las diferentes filas
en los diferentes campos.
Luego está ShExEr.
Tenemos que... Lo hizo un estudiante
de doctorado de la universidad de Oviedo
y él está aquí,
así que puedes presentar ShExEr.
(Danny) Hola, soy Danny Fernández,
Soy un estudiante de doctorado
de la Universidad de Oviedo
y trabajo con Labra.
Ya que hay poco tiempo,
hagamos esto rápido,
no tomemos ninguna demostración real,
solo con algunas capturas de pantalla.
La forma habitual de trabajar
con Shape Expressions o cualquier lenguaje
es que tienes un experto en dominios
que define a priori
cómo debería verse el gráfico,
define algunas estructuras,
y luego usas estas estructuras
para validar los datos reales con él.
Esta herramienta, que es tan buena como
la que Labra ha estado presentando,
es una herramienta de uso general
para cualquier fuente RDF,
está diseñada para hacer lo contrario.
Ya tienes algunos datos,
selecciona de qué nodos
quieres tener la forma
y luego automáticamente
extrae o infiere la forma.
Aunque esta es una herramienta
de propósito general,
lo que hicimos para esta WikidataCon
es este botón elegante
que si haces clic en él,
esencialmente lo que pasa
es que hay tantos
parámetros de configuraciones
y lo configura para funcionar
con el punto final de Wikidata
y terminará pronto, lo siento.
Una vez que presionas este botón
lo que obtienes es esencialmente esto.
Después de haber seleccionado
qué tipo de nodos,
qué tipo de instancias de nuestra clase,
lo que sea que estés buscando,
obtienes un esquema automático.
Todas las restricciones están ordenadas
por cuántos nodos se ajusten a él,
puedes filtrar los menos comunes, etc.
Hay un cartel abajo de estas cosas
y bueno, estaré abajo y arriba
y por todo el lugar todo el día,
así que si tienes más interés
en esta herramienta,
solo háblame durante este viaje.
Y ahora, le devolveré
el micrófono a Labra, gracias.
(aplausos)
(Jose) Bien, continuemos
con las otras herramientas.
La otra herramienta es ShapeDesigner.
Andra, ¿quieres hacer
el ShapeDesigner ahora
o tal vez más tarde o en el taller?
Hay un taller...
Esta tarde hay un taller específicamente
para Shape Expressions, y...
La idea es que iba a practicarse más,
y si quieres practicar
un poco de ShEx, puedes hacerlo allí.
Esta herramienta es ShEx...
y ahí está Eric,
así que puedes presentarla.
(Eric) Así que rápidamente,
lo que quiero decir
es que probablemente
ya has visto la interfaz de ShEx
está hecho para Wikidata.
Está efectivamente despojado
y diseñado específicamente para Wikidata,
el genérico tiene más características
pero pensé que ya lo había mencionado
porque una de esas características
es particularmente útil
para depurar esquemas de Wikidata,
la cual es que si vas
y seleccionas el modo de sorber,
lo que hace es decir
mientras estoy validando,
quiero derribar todos los triples
y eso significa
que si tengo un montón de fallas,
puedo pasar y empezar a buscar
esas fallas y decir,
cuáles son los triples que están aquí,
lo siento, los triples están aquí abajo,
esto es solo un registro de lo que pasó.
Luego puedes sentarte allí
y jugar con él en tiempo real
como si jugaras con algo que cambia.
Es una versión más rápida
para hacer todo eso.
Este es un formulario de ShExC,
esto es algo que [Joachim] había sugerido
podría ser útil para poblar
documentos de Wikidata
basados en una Shape Expression
para ese documento.
Esto no está diseñado para Wikidata,
pero es solo para decir
que puedes tener un esquema
y puedes tener algunas anotaciones
y decir específicamente cómo quiero
hacer ese esquema
y luego se construye un formulario,
y si tienes datos,
se puede llenar el formulario.
PyShEx [inaudible].
(Jose) Creo que este es el último.
Sí, el último es PyShEx.
PyShEx es una implementación Python
de Shape Expressions,
puedes jugar también con Jupyter Notebooks
si quieres ese tipo de cosas.
Bien, eso es todo de esto.
(aplausos)
(Andra) Voy a hablar sobre un proyecto
específico en el que estoy involucrado
llamado Gene Wiki,
y donde también estamos
lidiando con problemas de calidad.
Pero antes de entrar en la calidad,
una introducción rápida
sobre qué es Gene Wiki,
y recientemente lanzamos una preimpresión
de un artículo que acabamos de escribir
que explica los detalles del proyecto.
Veo gente tomando fotos,
pero básicamente, lo que hace Gene Wiki,
es tratar de obtener datos biomédicos,
datos públicos en Wikidata,
y seguimos un patrón específico
para obtener esos datos en Wikidata.
Y cuando tenemos un nuevo repositorio
o un nuevo conjunto de datos
que puede ser incluido en Wikidata,
el primer paso es la participación
de la comunidad.
No es necesario dirigirse
a una comunidad de Wikidata
sino a una comunidad
de investigación local,
y nos encontramos en persona
o en línea o en cualquier plataforma
e intentar crear un modelo de datos
que unan sus datos
con el modelo de Wikidata.
Aquí tengo una foto de un taller
que se hizo aquí el año pasado
donde se trataba de ver
un conjunto de datos específico
y, bueno, ves muchas discusiones,
luego alineándolo con schema.org
y otras ontologías que hay por ahí.
Luego, al final del primer paso, tenemos
un dibujo en pizarra del esquema
que queremos implementar en Wikidata.
Lo que ves allí, es claro,
lo tenemos al fondo,
incluso hoy podemos hacer
algunos esquemas dentro de este panel.
Una vez que tengamos
el esquema en su lugar,
lo siguiente es intentar hacer
ese esquema legible por la máquina
porque quieres tener modelos accionables
para unir los datos que traes
de cualquier base de datos
biomédica en Wikidata.
Y aquí estamos aplicando
Shape Expressions.
Y usamos eso porque Shape Expressions
te permite probar
si el conjunto de datos en realidad...
no, para ver primero
si los datos ya existentes en Wikidata
siguen el mismo modelo de datos
que se logró en el proceso anterior.
Entonces, con Shape Expression
podemos verificar:
los datos que están en este tema
en Wikidata, ¿necesitan algo de limpieza
o necesitamos adaptar nuestro modelo
al modelo de Wikidata o viceversa?
Una vez que esté en su lugar
y comenzamos a escribir robots,
y los robots están sembrando
la información
que está en las fuentes primarias
de Wikidata.
Y cuando los robots estén listos,
escribimos estos robots
con una plataforma llamada...
con una biblioteca de Python
llamada integrador de Wikidata
que salió de nuestro proyecto.
Una vez que tengamos nuestros robots,
usamos una plataforma llamada Jenkins
para una integración continua.
Y con Jenkins,
actualizamos continuamente
las fuentes primarias con Wikidata.
Este es un diagrama para el artículo
que mencioné previamente.
Este es nuestro panorama actual.
Cada caja naranja de ahí
es una fuente primaria de drogas,
proteínas, genes, enfermedades,
compuestos químicos con interacción,
y este modelo es
demasiado pequeño para leer
pero esta es la base de datos,
las fuentes que gestionamos en Wikidata
y se unen con las fuentes primarias.
Este es el flujo de trabajo.
Uno de nuestros socios
es la ontología de la enfermedad
la ontología de la enfermedad
es una ontología CC0,
y la ontología CC0
tiene un ciclo propio de curación,
ellos continuamente actualizan
la ontología de la enfermedad
para reflejar el espacio de la enfermedad
o la interpretación de enfermedades.
Ahí está también el ciclo de curación
de Wikidata en enfermedades
donde la comunidad de Wikidata
monitorea lo que ocurre en Wikidata.
Y luego tenemos dos roles,
los llamamos coloquialmente
el portero guardián,
este éramos un colega y yo hace cinco años
y nos sentábamos en nuestras computadoras
a monitorear Wikipedia y Wikidata,
si había un problema que fuera
reportado a la comunidad primaria,
las fuentes primarias, miraban
la implementación y decidían:
¿confiamos en la entrada de Wikidata?
Sí... entonces se considera,
y entra en el ciclo,
y la próxima iteración es parte
de la ontología de la enfermedad
y se retroalimentaba a Wikidata.
Estamos haciendo lo mismo en WikiPathways.
WikiPathways es una ruta inspirada
en MediaWiki y un repositorio de la ruta.
La misma historia, ya hay diferentes
recursos de ruta en Wikidata.
Puede haber conflictos
entre esos recursos de ruta
y estos conflictos se reportan de nuevo
por los porteros guardianes
a esa comunidad,
y tú mantienes
los ciclos de curación individual.
Pero si recuerdas el ciclo anterior,
aquí solo mencioné dos ciclos,
dos recursos,
tenemos que hacer eso
para cada recurso que tenemos
y tenemos que gestionar lo que ocurre
porque cuando digo curación,
Realmente me refiero a ir
a las páginas principales de Wikipedia,
entrar en las páginas principales
de Wikidata y tratar de hacer eso.
Eso no pesa para los dos porteros
guardianes que tuvimos.
Cuando estaba en una conferencia en 2016
donde Eric hizo una presentación
de Shape Expressions,
salté al carro y dije bien,
Shape Expressions puede ayudarnos
a detectar qué diferencias hay en Wikidata
y eso permite que los porteros guardianes
tengan informes más eficazes que reportar.
Entonces este año, estaba encantado
con la entidad del esquema
porque ahora, podemos almacenar
esos esquemas de entidad en Wikidata,
en el mismo Wikidata,
mientras que antes estaban en GitHub,
y esto se alinea
con la interfaz de Wikidata,
entonces tienes cosas
como discusiones de documentos
pero también tienes revisiones.
Puedes aprovechar las páginas principales
y las revisiones en Wikidata
y usar eso para discutir
sobre lo que hay en Wikidata
y qué hay en las fuentes primarias.
Entonces, lo que Eric acaba de presentar,
ya es un gran beneficio.
Así que aquí, creamos una Shape Expression
para el gen humano,
y luego lo ejecutamos en ShEx simple,
tal como puedes ver,
ya tenemos...
Hay un problema que necesita
ser monitoreado
es que hay un elemento
que no encaja en ese esquema,
y entonces ya puedes crear informes
de curación de entidades de esquema
basados en... y enviar eso
a los diferentes informes de curación.
Pero ShEx.js es una interfaz integrada,
y si puedo mostrar aquí, solo hago diez,
pero tenemos decenas de miles,
y eso nuevamente no pesa.
Entonces, ahora el integrador de Wikidata
también es compatible con ShEx,
y luego podemos enlazar
bucles de elementos
donde decimos sí-no, sí-no,
verdadero-falso, verdadero-falso.
Así que de nuevo,
aumentamos un poco la eficiencia
de lidiar con los informes.
Pero ahora, recientemente, se construye
en el servicio de consultas de Wikidata,
y bueno, recientemente
hemos ido acelerando
así que de nuevo, eso no pesa.
Aún es un proceso continuo,
el cómo lidiar con modelos en Wikidata.
Y de nuevo, ShEx no solo es intimidante
sino que también la escala es
demasiado grande para tratarla.
Así que empecé a trabajar, esta es
mi primera prueba de concepto o ejercicio
donde usé una herramienta llamada yED,
y empecé a dibujar
esas Shape Expressions porque...
y luego regenero este esquema
en este formato adyacente
de Shape Expressions,
así que eso ya se abriría a la audiencia
que está intimidada
por los lenguajes de Shape Expressions.
Pero en realidad, hay un problema
con esas descripciones visuales
porque también es un esquema
que fue dibujado en yEd por alguien.
Y aquí hay otro que es hermoso.
Me encantaría tenerlo en mi pared,
pero aún no es interoperable.
Así que quiero terminar mi charla con,
y la primera vez, me he estado robando
esta diapositiva, usando esta diapositiva.
Es un honor tenerlo en la audiencia
y realmente me gusta esto:
"La gente piensa que RDF es una molestia
porque es complicado.
La verdad es aún peor, es tan simple,
porque tienes que trabajar
con problemas de datos del mundo real
que son terriblemente complicados.
Si bien puedes evitar RDF,
es más difícil evitar datos complicados
y problemas informáticos complicados".
Esto es sobre RDF, pero creo
que también aplica al modelado.
Entonces, mi punto de discusión
es si realmente...
¿Cómo iniciamos el modelado?
¿Deberíamos discutir sobre ShEx,
o modelos visuales o...?
¿Cómo continuamos?
Muchas gracias por tu tiempo.
(aplausos)
(Lydia) Muchas gracias.
¿Vendrían aquí delante
para que podamos iniciar
con las preguntas de la audiencia?
¿Hay preguntas?
Sí.
Y creo que, para la cámara, necesitamos...
(Lydia riendo) Sí.
(persona 3) Una pregunta
para Cristina, creo.
Mencionaste el término
"ganancia de información"
y vincularse con otros sistemas.
Hay una medida teórica de la información
que usa estadística y probabilidad
llamada ganancia de información.
¿Tienes el mismo...
Quiero decir, ¿querías decir
exactamente esa medida,
la ganancia de información
de la teoría de la probabilidad
de la teoría de la información
o simplemente usar esta cosa conceptual
para medir la ganancia de información?
No, definimos e implementamos medidas
que usan la entropía de Shannon,
así que se entiende así.
No quise entrar en detalles
de las fórmulas concretas...
(persona 3) No, no, por supuesto,
por eso hice la pregunta.
- (Cristina) Pero, sí...
- (persona 3) Gracias.
(persona 4) Más un comentario
que una pregunta.
(Lydia) Dilo.
(persona 4) Ha habido
mucho enfoque a nivel de elemento
sobre calidad e integridad,
una de las cosas que me preocupa es
que no aplicamos lo mismo a las jerarquías
y creo que tenemos un problema, es que,
nuestra jerarquía a veces no es buena.
Vemos que va a ser un problema real
con la búsqueda de Commons y otras cosas.
Una de las habilidades que podemos
hacer es importar externos...
La forma en que los tesauros externos
estructuran sus jerarquías,
utilizando el calificador P4900
de concepto más amplio.
Pero lo que creo sería muy útil,
serían mejores herramientas que hagan eso
que puedan importar una jerarquía
de tesauros externos
y que la mapee en nuestros
elementos de Wikidata.
Una vez que esté en su lugar
con esos calificadores P4900,
puedes hacer buenas consultas
a través de SPARQL
para ver dónde nuestra jerarquía
diverge de esa jerarquía externa.
Por ejemplo, [Paula Morma],
usuario de PKM, tal vez sepas,
ella trabaja mucho en la moda.
Así que lo usamos para atraer la jerarquía
de tesauros de la moda europea
y la jerarquía Getty AAT
de tesauros de la moda,
y luego ver dónde estaban los huecos
en nuestros elementos de nivel superior,
lo cual es un problema real
para nosotros porque a menudo,
estas son cosas que solo existen
en páginas de desambiguación en Wikipedia,
así que nos faltan muchos elementos
de nivel superior en nuestras jerarquías
y es algo que debemos abordar
en términos de calidad e integridad,
pero lo que realmente ayudaría
serían mejores herramientas que la jungla
de guiones de extracción que escribí...
Si alguien pudiera poner eso
en una libreta PAWS de Python
para poder tomar un tesauro externo,
tomar su jerarquía,
que bien puede estar disponible
como datos vinculados o no,
y luego ponerlos en QuickStatements
para ponerlos en valores P4900.
Y luego,
cuando nuestra representación
se vuelva más completa,
se actualicen esos P4900 porque a medida
que a nuestra representación
se le pone fecha, se vuelve más densa,
los valores de estos calificadores
necesitan cambiar
para representar que tenemos más
de su jerarquía en nuestro sistema.
Si alguien pudiera hacer eso,
creo que sería muy útil,
y necesitamos también mirar otros enfoques
para mejorar la calidad
y la integridad a nivel jerárquico
no solo a nivel de elemento.
(Andra) ¿Puedo agregar a eso?
Sí, y de hecho hacemos eso,
y puedo recomendar mirar
la Shape Expression que hizo Finn
con los datos léxicos
donde crea Shape Expressions
y luego construye
en otras Shape Expressions
entonces tienes este concepto de Shape
Expressions vinculados en Wikidata,
y específicamente, el caso de uso,
si entiendo correctamente,
es exactamente lo que estamos
haciendo en Gene Wiki.
Tienes la ontología de la enfermedad
que se pone en Wikidata
y luego entran los datos de la enfermedad
y aplicamos las Shape Expressions
para ver si encaja con este tesauro.
Y hay otros tesauros u otras
ontologías de vocabularios controlados
que aún necesitan entrar en Wikidata,
y eso es exactamente por qué
Shape Expression es tan interesante
porque puedes tener una Shape Expression
para la ontología de la enfermedad,
puedes tener una Shape
Expression para MeSH,
puedes decir: bien, ahora
quiero verificar la calidad.
Porque también tienes
en Wikidata el contexto
de cuando tienes un vocabulario controlado
dices que la calidad está acorde a esto,
pero podrías tener
una comunidad en desacuerdo.
Las herramientas están en su lugar,
pero ahora toca crear esos modelos
y aplicarlos en los diferentes
casos de uso.
(persona 4) La Shape Expression
es muy útil
una vez que tengas la ontología externa
mapeada en Wikidata,
pero mi problema es que está
llegando a esa etapa,
funciona para ver cuánto de la ontología
externa aún no está en Wikidata
y dónde están los huecos,
y ahí es donde creo que al tener
herramientas mucho más robustas
para ver lo que falta
de ontologías externas
sería muy útil.
El mayor problema allí
no es tanto las herramientas
sino que faltan más licencias.
Entonces, meter las ontologías
en Wikidata es en realidad muy fácil
pero la mayoría de las ontologías tienen,
¿cómo puedo decirlo cortésmente?
licencia restrictiva,
y no son compatibles con Wikidata.
(persona 4) Hay un gran número
de tesauros del sector público
en los campos culturales.
- (Andra) Entonces tenemos que hablar.
- (persona 4) No hay problema.
(Andra) Entonces tenemos que hablar.
(persona 5) El comentario que quiero hacer
en realidad es una respuesta a James,
entonces, la cosa es que,
las jerarquías hacen gráficos,
y cuando lo quieras...
Básicamente quiero hablar sobre...
un problema común en las jerarquías
es las jerarquías circulares,
ellas vuelven la una a la otra
cuando hay un problema,
lo cual, no deberías tener
eso en las jerarquías.
Esto, curiosamente, sucede mucho
en las categorías de Wikipedia
tenemos muchos círculos en las categorías,
pero la buena noticia es que esto es...
Técnicamente, es un problema completo
de P... NP, así que no puedes hallar esto,
y fácilmente si construiste
un gráfico de eso,
pero hay muchas maneras
que se han desarrollado
para encontrar problemas
en estos gráficos de jerarquía.
Hay un artículo llamado Buscando Ciclos...
Rompiendo Ciclos en Jerarquías Ruidosas,
y se ha usado para ayudar a categorizar
la Wikipedia en inglés.
Puedes tomar esto y aplicar
estas jerarquías en Wikidata,
y luego puedes encontrar
cosas que son problemáticas
y solo quitar las que están
causando problemas
y encontrar los problemas, en realidad.
Esto es solo una idea, solo para que tú...
(persona 4) Eso está muy bien,
pero creo que estás subestimando
el número de malas relaciones de subclase
que tenemos.
Es como tener una ciudad
en un país totalmente equivocado,
y hay herramientas de geografía
para identificar eso,
y necesitamos tener mejores
herramientas en las jerarquías
para identificar dónde está
el equivalente del elemento para el país
que falta, o donde realmente
ha sido subclasificado
a algo que no significa
algo completamente distinto.
(Lydia) Sí, creo que estás llegando a algo
que mi equipo y yo seguimos escuchando
de personas que reutilizan nuestros datos
bastante bien, cierto,
el punto de datos individuales
podría ser excelente,
pero si tienes que mirar
en la ontología y demás,
entonces se pone muy...
Y creo que uno de los grandes problemas
del por qué ocurre
es que mucha edición en Wikidata
sucede sobre la base
de un elemento individual, correcto,
haces una edición de ese elemento,
sin darte cuenta de que esto
podría tener consecuencias muy globales
en el resto del gráfico, por ejemplo.
Y si la gente tiene ideas de cómo
hacer esto más visible,
las consecuencias
de una edición local individual,
creo que valdría la pena explorar,
para mostrarles mejor a la gente
cuál es la consecuencia de su edición
para que lo hagan de muy buena fe,
qué es eso.
¡Guao! Bien, comencemos con, sí, tú,
luego tú, luego tú, y luego tú.
(persona 5) Bueno,
después de la discusión,
solo deseo expresar mi acuerdo
con lo que James estaba diciendo.
Entonces, esencialmente, parece
que lo más peligroso es la jerarquía,
no la jerarquía, sino en general
la semántica de las relaciones de subclase
vistas en Wikidata, cierto.
Hace poco he estado estudiando lenguajes,
solo para los fines de esta conferencia,
y por ejemplo, encuentras muchos casos
donde un lenguaje es parte
de una subclase de la misma cosa, bien.
Entonces, sabes, puedes decir
que tenemos una ontología flexible.
Wikidata a veces te da
la libertad de expresar eso.
Porque, por ejemplo,
esa ontología de lenguajes también es
políticamente complicada, ¿verdad?
Incluso es bueno estar en una posición
para expresar un nivel de incertidumbre.
Pero imagina a cualquiera que quiera
hacer una lectura automática de eso.
Eso es realmente problemático.
Y luego de nuevo,
no creo que esa ontología
fuera importada de alguna parte,
es algo que es originalmente nuestro.
Se cosecha desde Wikipedia,
al principio lo diré.
Entonces, me pregunto...
esta cosa de Shape Expressions es genial,
y también validar y arreglar,
si quieres, la ontología de Wikidata
por recursos externos, hermosa idea.
En fin,
¿terminaremos reflexionando sobre
las ontologías externas en Wikidata?
Y además, ¿qué hacemos con la parte
central de nuestra ontología
que nunca se cosecha de recursos externos,
cómo vamos a arreglar eso?
Y realmente pienso que eso será
un problema por sí solo.
Tendremos que centrarnos en eso
independientemente de la idea
de validar la ontología con algo externo.
(persona 6) Bien, y las limitantes
y las formas son muy impresionantes
lo que podemos hacer con eso,
pero el punto principal no está
siendo realmente aclarado...
es porque ahora se puede hacer más
explícito lo que esperamos de los datos.
Antes, cada uno tenía que escribir
sus propias herramientas y guiones
y así es más visible
y podemos discutir sobre eso.
Pero no se trata
de lo que está mal o bien,
se trata de una expectativa,
y tendrás diferentes
expectativas y discusiones
acerca de cómo queremos
modelar las cosas en Wikidata,
y esto...
El estado actual es solo
un paso en la dirección
porque ahora necesitas
mucha experiencia técnica
para entrar en esto,
y necesitamos mejores formas
para visualizar esta restricción,
para transformarlo tal vez en un lenguaje
natural y la gente lo pueda entender mejor
pero se trata menos de lo que está
mal o lo que está bien.
(Lydia) Sí.
(persona 7) Por cuestiones de calidad,
solo lo quiero repetir como...
Me he encontrado que muchos
de los problemas han sido
diferencias de opinión
entre instancia de y subclase.
Yo diría que los errores
en esas situaciones
que he tratado de encontrar
han sido un proceso muy lento.
Lo que he encontrado es algo así: "si
encuentro elementos de muy alta impresión
que son algo... y luego uso todas
las instancias de subclase y encuentro
las declaraciones derivadas de esto",
esta es una forma muy útil
de buscar estos errores.
Pero tenía curiosidad
si Shape Expressions,
si hay...
Si se puede usar como una herramienta que
ayude a resolver esos problemas, y sí...
(persona 8) Si tiene
una huella estructural...
Si tiene una huella estructural
donde puedas... eso es algo falsificable,
puedes ver eso
y decir, bueno, eso está mal,
entonces sí, puedes hacer eso.
Pero si solo se trata de mapear
con objetos del mundo real,
entonces solo vas a necesitar
montones y montones de cerebros.
(persona 9) Hola, Pablo Mendes
de Apple Siri Knowledge.
Estamos aquí para descubrir cómo ayudar
al proyecto y a la comunidad
pero Cristina cometió el error
de preguntar qué queremos.
(risas) Entonces, creo que
una cosa que me gustaría ver,
se trata mucho de verificabilidad,
que es uno de los principios básicos
del proyecto en la comunidad,
y confiabilidad.
No todas las declaraciones son iguales,
algunas de ellas están muy disputadas,
algunas de ellas son fáciles de adivinar,
como la fecha de nacimiento
de alguien puede ser verificada,
como viste hoy en la Keynote, los asuntos
de género son mucho más complicados.
¿Puedes hablar un poco de lo que sabes
en esta área de calidad de datos
acerca de confiabilidad y verificabilidad?
Si no tienes mucho,
me encantaría ver mucho más. (risas)
(Lydia) Sí.
Aparentemente, no tenemos
mucho que decir sobre eso. (risas)
(Andra) Creo que podemos hacer mucho,
pero ayer tuve una discusión contigo.
Mi ejemplo favorito que aprendí ayer,
que ya está en desuso,
es que si vas a la Q2, que es la tierra,
hay una declaración
que afirma que la tierra es plana.
Y me encanta ese ejemplo
porque hay una comunidad
por ahí que lo afirma
y tienen recursos verificables.
Entonces, creo que es un caso genuino,
no debería estar en desuso,
debería estar en Wikidata.
Y creo que Shape Expressions
puede ser realmente instrumental allí,
debido a lo que puedes decir,
bien, estoy realmente interesado
en este caso de uso,
o este es un caso de uso
en el que no estás de acuerdo,
pero también puede haber un caso de uso
donde dices, bien, estoy interesado.
Entonces, hay un ejemplo,
que dices, tengo glucosa.
Y la glucosa, cuando eres biólogo,
no te importan las limitantes químicas
de la molécula de la glucosa,
tú simplemente...
Todo lo de glucosa es lo mismo.
Pero si eres químico,
te estremeces cuando escuchas eso,
tienes 200 algo...
Entonces, puedes tener
múltiples Shape Expressions,
bien, voy a poner que...
Estoy en un punto de vista químico,
estoy aplicando eso.
Y luego dices, estoy en un caso
de uso biológico,
Estoy aplicando esa Shape Expression.
Y luego, cuando quieres colaborar,
sí, bueno, deberías hablarle
a Eric sobre los mapas ShEx.
Y así... pero este viaje apenas comienza.
Pero yo personalmente creo
que es muy instrumental en esa área.
(Lydia) Bien. Por ahí.
(risas)
(persona 2) Tuve varias ideas
de algunos puntos en las discusiones,
así que intentaré no perderlas...
Tuve tres ideas, así que...
Según lo que dijo James hace un tiempo,
tenemos un problema muy, muy grande
en Wikidata desde el principio
para la ontología superior.
Lo hablamos hace dos años en WikidataCon,
y hablamos de eso en Wikimania.
Bueno, siempre que tenemos
una reunión de Wikidata
hablamos de eso,
porque es un gran problema
a un nivel muy, muy visual
qué entidad es, con qué trabajo es,
qué género es, arte,
son realmente el concepto más grande.
Y eso es realmente un punto
muy débil en la ontología global
porque la gente trata
de limpiar regularmente
y lo descompone todo,
porque sí, creo que algunos de ustedes
recuerdan al tipo que de buena fe
rompió absolutamente
todas las ciudades del mundo.
Ya no eran elementos geográficos, habían
restricciones de violación en todas partes
Y fue de buena fe,
porque realmente estaba
corrigiendo un error en un elemento,
pero todo se vino abajo.
Y no estoy segura de cómo
podemos resolver eso
porque en realidad no hay ninguna
institución externa a la que copiar
porque todos trabajan...
Bueno, si estoy realizando
una base de datos de arte,
solo iré al nivel de arte escénico,
pero no voy al concepto filosófico
de lo que es una entidad,
y eso es en realidad...
No conozco ninguna base de datos
que esté trabajando a este nivel,
pero ese es el punto
más débil de Wikidata.
Y probablemente, cuando hablamos
de calidad de datos,
tiene en realidad
una gran parte, así que...
Y creo que es lo mismo
que hemos expresado...
Lo siento, estoy cambiando de tema,
pero hemos expresado
en diferentes sesiones sobre cualidades,
que en realidad algunos de nosotros
hacemos un buen trabajo de modelado,
hacemos ShEx, hacemos cosas así.
La gente no lo ve en Wikidata,
no ven el ShEx,
no ven el WikiProject
en la página de discusión,
y a veces,
ni siquiera ven las páginas
de discusión de propiedades,
que declara explícitamente
a), esta propiedad se utiliza para eso.
La semana pasada, agregué
restricciones a una propiedad.
La restricción fue escrita explícitamente
en la discusión de la creación
de la propiedad.
Acabo de crear la parte técnica
de agregar la restricción, y alguien:
"¡Qué! ¡Estropeaste todas mis ediciones!"
Y él estaba usando incorrectamente
la propiedad durante los últimos dos años.
Y la propiedad era realmente muy clara,
pero no hubo advertencias,
y entonces, es lo mismo en el Pink Pony,
que dijimos en Wikimania
para hacer que WikiProject sea más visible
o para que ShEx sea más visible, pero...
Y eso es lo que dijo Cristina.
Tenemos un problema de visibilidad
de cuáles son las soluciones existentes.
Y en esta sesión,
todos estamos hablando
de cómo crear más ShEx,
o de facilitar los trabajos
para las personas que hacen la limpieza.
Pero estamos limpiando
desde el primer día de Wikidata,
y globalmente, estamos perdiendo,
y estamos perdiendo porque, bueno,
si supiera, los nombres son complicados,
pero yo soy el único
que hace el trabajo de limpieza,
el chico que agregó
el nombre de la escritura latina
a todos los investigadores chinos,
me llevará meses limpiar eso
y no puedo hacerlo solo,
y él hizo un lote masivo.
Entonces, realmente necesitamos...
Tenemos un problema de visibilidad
más que un problema de herramienta, creo,
porque tenemos muchas herramientas.
(Lydia) Correcto, desafortunadamente,
me han mostrado una señal (risas)
así que, tenemos que terminar esto.
Muchas gracias por sus comentarios,
espero que sigan discutiendo
durante el resto del día,
y gracias por su aporte.
(aplausos)