-
Hola a todos los del panel
de Calidad de Datos.
-
La calidad de los datos importa
porque cada vez más personas
-
confían en que nuestros datos están bien,
así que hablaremos de su calidad,
-
y habrán cuatro oradores
quienes darán breves presentaciones
-
sobre temas de la calidad de los datos
y luego tendremos preguntas y respuestas.
-
Y el primero es Lucas.
-
Gracias.
-
(Lucas) Hola, soy Lucas y voy a comenzar
con una descripción general
-
de las herramientas de calidad de datos
que ya tenemos en Wikidata
-
y también algunas cosas
que vendrán pronto.
-
Y los he agrupado
en algunos temas generales
-
sobre hacer los errores más visibles,
hacer que los problemas sean procesables,
-
ver mejor los datos para que la gente
note los problemas,
-
arreglar fuentes comunes de errores,
mantener calidad de los datos existentes
-
y también la curación humana.
-
Y los que están disponibles actualmente
comienzan con restricciones de propiedad.
-
Así que tal vez ya has visto esto
si estás en Wikidata.
-
A veces puedes obtener estos íconos
-
revisando la consistencia interna
de los datos.
-
Por ejemplo, si un evento sigue al otro,
-
entonces el otro evento debería
también ser seguido por este,
-
que en el artículo de WikidataCon
al parecer faltaba.
-
No estoy seguro,
esta característica es de unos días.
-
Y también, si esto es demasiado limitado
o simple para usted,
-
puedes escribir cualquier chequeo
que quieras usando el servicio de consulta
-
que es útil para muchas cosas
por supuesto,
-
pero también puedes usarlo
para encontrar errores.
-
Si te diste cuenta
de la ocurrencia de un error,
-
entonces puedes verificar
si hay otros lugares
-
donde la gente ha hecho
un error muy similar
-
y encontrarlo con el Servicio
de Consultas.
-
También puedes combinar los dos
-
y buscar violaciones de restricciones
en el Servicio de Consulta,
-
por ejemplo,
las violaciones en alguna área
-
o WikiProject que sea
relevante para usted,
-
aunque los resultados no están
completos actualmente, lamentablemente.
-
Hay puntuación de revisión.
-
Eso es... creo que esto
es de los cambios recientes
-
también puedes incluir en tu lista
una evaluación automática
-
de si es probable que esta edición sea
de buena fe o de mala fe
-
y si es probable que sea
dañino o no dañino,
-
creo que esas son las dos dimensiones.
-
Entonces puedes, si quieres,
-
centrarte en solo mirar las ediciones
perjudiciales pero de buena fe.
-
Si te sientes particularmente
amable y acogedor
-
puedes decirle a estos editores,
"Gracias por tu contribución,
-
así es como deberías haberlo hecho,
pero igualmente gracias".
-
Y si no te sientes así,
-
puedes irte por la mala fe,
las ediciones perjudiciales,
-
y revertir los vándalos.
-
También hay, similar a eso,
puntuación de la entidad.
-
Entonces, en lugar de anotar una edición,
el cambio que hizo,
-
puedes puntuar toda la revisión,
-
y creo que es la misma medida de calidad
-
que Lydia menciona
al comienzo de la conferencia.
-
Eso da un guión de usuario aquí arriba
y te da una puntuación de uno a cinco,
-
Creo que trata, de qué calidad
es el artículo actual.
-
La herramienta de fuentes primarias es
para cualquier base de datos
-
que quieras importar pero no es de calidad
suficiente para agregar a Wikidata,
-
entonces a su vez lo agregas
a la herramienta de fuentes primarias,
-
y luego las personas pueden decidir
-
si deben agregar estas declaraciones
individuales o no.
-
Mostrar coordenadas como mapas
principalmente es una característica
-
de conveniencia, pero también es
útil para el control de calidad.
-
Supón que esta es
la oficina de Wikimedia en Alemania
-
y si las coordenadas están
en algún lugar del Océano Índico,
-
entonces sabes que algo no está bien
-
y puedes verlo mucho más fácil
que si solo tuvieras los números.
-
Este es un dispositivo llamado
el indicador de integridad relativa
-
que te muestra este pequeño icono aquí
-
diciéndote cuán completo
cree que es este artículo
-
y también qué propiedades
es muy probable que falten,
-
lo cual es realmente útil
si estás editando un elemento
-
y estás en un área
con la que no estás muy familiarizado
-
y no sabes qué propiedades correctas usar,
-
entonces se tiene un dispositivo muy útil.
-
Y tenemos Shape Expressions.
-
Creo que Andra o José
van a hablar más sobre esto
-
pero básicamente, es una forma
muy poderosa de comparar los datos
-
que tienes versus el esquema,
-
como qué declaración deberían
ciertas entidades tener,
-
a qué otras entidades deberían vincularse
y cómo deberían ser,
-
y así puedes encontrar
problemas de esa manera.
-
Creo que... No, todavía hay más.
-
Panel de integralidad o propiedad.
-
Te da una visión general rápida
de los datos que ya tienes.
-
Por ejemplo, esto es de
los pandas rojos de WikiProject,
-
y puedes ver que tenemos el sexo
-
para casi todos los pandas rojos,
-
la fecha de nacimiento varía mucho
debido al zoológico del que provienen
-
y no tenemos casi ningún panda muerto,
lo cual es maravilloso,
-
porque son muy lindos.
-
Entonces esto también es útil.
-
Aquí vamos, bien,
con lo que vamos a seguir.
-
Puente de Wikidata, o también conocido,
antes conocido como edición del cliente,
-
así que editar Wikidata desde las cajas
de información de Wikipedia
-
lo que por un lado se obtendrá
más enfoque en los datos
-
porque más personas pueden
ver los datos allí
-
y con suerte alentará más el uso
de Wikidata en las Wikipedias
-
y eso significa que más personas
pueden notar
-
si, por ejemplo, algunos datos están
desactualizados y necesitan actualizarse
-
en lugar de solo verlos en Wikidata.
-
También hay referencias corrompidas.
-
La idea aquí es que si editas
un valor de declaración,
-
es posible que también desees
actualizar las referencias,
-
a menos que solo fuera
un error tipográfico o algo así.
-
Y estas referencias corrompidas
le dicen eso a los editores
-
y también que otros editores
ven qué otras modificaciones se hicieron
-
que editaron un valor de declaración
y no actualizaron una referencia
-
entonces puedes limpiar después de eso
y decidir si eso es...
-
¿Necesitas hacer algo más que eso
-
o está realmente bien y no necesitas
actualizar la referencia.
-
Se relaciona con declaraciones firmadas
que vienen de una preocupación, creo,
-
que algunos proveedores
de datos tienen como...
-
Hay una declaración a la que se hace
referencia a través de la UNESCO o algo
-
y de repente, alguien destroza
la declaración
-
y se preocupan de que se verá como
-
esta organización, como la UNESCO,
que aún establece este valor de vandalismo
-
y así, con las declaraciones firmadas,
-
pueden criptográficamente
firmar esta referencia
-
y eso no evita ninguna edición,
-
pero al menos, si alguien
destroza la declaración
-
o la edita de cualquier manera,
entonces la firma ya no es válida,
-
y puedes decir que eso no es exactamente
lo que dijo la organización,
-
y quizás sea una buena edición y deban
volver a firmar la nueva declaración,
-
pero también quizás deba revertirse.
-
Y también, esto va a ser
muy emocionante, creo,
-
Citoid es este asombroso sistema
que tienen en Wikipedia
-
donde puedes pegar una URL,
o un identificador, o un ISBN
-
o un ID de Wikidata o básicamente
cualquier cosa en el editor visual,
-
y lanza una referencia
que está bien formateada
-
y tiene todos los datos que quieres
y es maravilloso de usar.
-
Y en comparación, en Wikidata,
si quiero agregar una referencia
-
debo agregar una URL de referencia,
título, cadena del nombre del autor,
-
lugar de publicación,
fecha de publicación,
-
fechas de recuperación,
al menos esos, y eso es molesto,
-
e integrando Citoid en Wikibase
se espera a que ayude con eso.
-
Y creo que eso es todo lo que tengo, sí.
-
Así que, ahora voy a pasarles a Cristina.
-
(aplausos)
-
(Cristina) Hola, soy Cristina.
-
Soy una investigadora científica
de la Universidad de Zürich,
-
y también soy una miembro activa
de la Comunidad Suiza.
-
Cuando Claudia Müller-Birn
y yo le enviamos esto a WikidataCon,
-
lo que queríamos hacer
es continuar nuestra discusión
-
que empezamos a principios de año
-
con un taller sobre calidad de datos
y también algunas sesiones en Wikimania.
-
Entonces el objetivo de esta charla
es básicamente traer algunos pensamientos
-
que hemos estado recolectando
de la comunidad y de nosotros mismos
-
y continuar la discusión.
-
Entonces, lo que nos gustaría es continuar
interactuando bastante con ustedes.
-
Entonces, lo que pensamos
es muy importante
-
es que le preguntamos continuamente
a todo tipo de usuarios en la comunidad
-
sobre lo que realmente necesitan,
qué problemas tienen con la calidad
-
de los datos; no solo a editores,
sino además a las personas que codifican,
-
o consumen los datos,
-
y también a investigadores que usan
todo el historial de edición
-
para analizar lo que está pasando.
-
Así que revisamos alrededor de 80
herramientas que existen en Wikidata
-
y las alineamos a las diferentes
dimensiones de calidad de datos.
-
Y lo que vimos fue que en realidad,
-
muchas de ellas se enfocan en,
monitoreo de integridad,
-
pero en realidad... algunas de ellas
también habilitan la interconexión.
-
Pero hay una gran necesidad
de herramientas que busquen la diversidad,
-
lo cual es una de las cosas
que realmente podemos tener en Wikidata,
-
especialmente este principio
de diseño de Wikidata
-
donde podemos tener pluralidad
-
y diferentes declaraciones
con diferentes valores
-
procedentes de diferentes fuentes.
-
Debido a que es una fuente secundaria,
realmente no tenemos herramientas
-
que nos digan cuántas
declaraciones plurales hay,
-
y cuántas podemos mejorar y cómo,
-
y tampoco sabemos realmente
-
cuáles son todas las razones
de pluralidad que podemos tener.
-
Entonces, de estas reuniones comunitarias,
-
lo que discutimos fueron los desafíos
que aún necesitan atención.
-
Por ejemplo, que tener
todas estas comunidades de crowdsourcing
-
es muy bueno porque diversas personas
atacan diferentes partes
-
de los datos o el gráfico,
-
y también tenemos
conocimiento de fondo diferente
-
pero en realidad, es muy difícil alinear
todo en algo homogéneo
-
porque diversas personas están usando
diferentes propiedades de distintas formas
-
y también esperan cosas diferentes
de las descripciones de entidades.
-
La gente también dijo que también
necesitan más herramientas
-
que den una mejor visión general
del estado global de las cosas.
-
Entonces, qué entidades faltan
en términos de integridad,
-
pero además en qué las personas
trabajan la mayor parte del tiempo,
-
y también mencionan muchas veces
una colaboración más estrecha
-
a través de, no solo idiomas,
sino los WikiProjects
-
y las diferentes plataformas de Wikimedia.
-
Y publicamos todos
los comentarios transcritos
-
de todas estas discusiones
en esos enlaces aquí en los Etherpads
-
y también en la página wiki de Wikimania.
-
Algunas soluciones que aparecieron
-
iban encaminados en compartir
más las mejores prácticas
-
que se están desarrollando
en diferentes WikiProjects,
-
pero también la gente quiere herramientas
que ayuden a ordenar el trabajo en equipos
-
o al menos entender
quién está trabajando en eso,
-
y también mencionaron
que quieren más vitrinas
-
y más plantillas que los ayuden
a crear cosas de una mejor manera.
-
Y del contacto que tenemos
-
con organizaciones de datos
gubernamentales abiertos,
-
y en particular,
-
estoy en contacto con el cantón
y la ciudad de Zürich,
-
están muy interesados
en trabajar con Wikidata
-
porque quieren que sus datos
sean accesibles para todos
-
en el lugar donde va la gente
y consulta o accede a los datos.
-
Entonces para ellos, algo
que sería realmente interesante
-
es tener algún tipo
de indicadores de calidad
-
ambos en wiki, algo que ya sucede,
-
y también en los resultados SPARQL,
-
para saber si pueden confiar
o no en esos datos de la comunidad.
-
Y luego, también quieren saber
-
qué partes de sus propios conjuntos
de datos son útiles para Wikidata
-
y les encantaría tener una herramienta
que los ayude a evaluarlo automáticamente.
-
También necesitan algún tipo
de metodología o herramienta
-
que les ayude a decidir si deberían
importar o vincular sus datos
-
porque en algunos casos,
-
también tienen sus propios
conjuntos de datos abiertos vinculados,
-
así que no saben si
simplemente ingerir los datos
-
o seguir creando enlaces
de los conjuntos de datos a Wikidata
-
y a la inversa.
-
Y también quieren saber a dónde
se refieren sus sitios web en Wikidata.
-
Y cuando ejecutan tal consulta
en el servicio de consulta,
-
a menudo obtienen tiempos de espera,
-
entonces tal vez deberíamos
realmente crear más herramientas
-
que les ayude a responder sus preguntas.
-
Y además de eso,
-
a nosotros, los investigadores de wiki,
también a veces
-
nos falta algo de información
en la edición de resúmenes.
-
Entonces me acuerdo de eso cuando
estábamos haciendo algo de trabajo
-
para comprender el comportamiento
diferente de los editores
-
con herramientas o robots
o usuarios anónimos, etc.
-
realmente nos faltaba, por ejemplo,
-
una forma estándar para rastrear
que las herramientas se usaban.
-
Y hay algunas herramientas
que ya están haciendo eso
-
como PetScan y muchas otras,
-
pero tal vez deberíamos en la comunidad
-
discutir más sobre cómo grabarlas
para una procedencia detallada.
-
Y más adelante,
-
creemos que necesitamos pensar sobre
dimensiones de calidad de datos
-
más concretas que se relacionen
con los datos del enlace
-
pero no todos los tipos de datos,
así que trabajamos en algunas medidas
-
para acceder a la ganancia de información
habilitada por los enlaces,
-
y lo que queremos decir es que cuando
enlazamos Wikidata a otros conjuntos
-
de datos, también deberíamos pensar
-
cuánto en realidad están ganando
las entidades en la clasificación,
-
también en la descripción,
pero también en los vocabularios que usan.
-
Solo para dar un ejemplo muy simple
de lo que quiero decir con esto
-
es que podemos pensar en...
en este caso, que sería Wikidata
-
o el conjunto de datos externos
que se vincula a Wikidata,
-
tenemos la entidad para una persona
que se llama Natasha Noy,
-
tenemos la afiliación y otras cosas,
-
y luego decimos que sí,
nos vinculamos a un lugar externo,
-
y esa entidad también tiene ese nombre,
pero en realidad tenemos el mismo valor.
-
Lo que sería mejor es que lo vinculemos
a algo que tenga un nombre distinto,
-
eso aún es válido, porque esta persona
tiene dos formas de escribir el nombre,
-
y también otra información
que no tenemos en Wikidata
-
o que no tenemos
en el otro conjunto de datos.
-
Pero además, lo que es aún mejor
-
es que en realidad estamos mirando
en el conjunto de datos de destino
-
que también tienen nuevas formas
de clasificar la información.
-
Entonces no solo es una persona,
sino que en el otro conjunto de datos,
-
también dicen que es una mujer o cualquier
otra cosa con que la clasifiquen.
-
Y si en el otro conjunto de datos,
están usando muchos otros vocabularios
-
que también ayuda en todo el asunto
de recuperación de información.
-
Entonces con eso,
también me gustaría decir
-
que creemos que podemos
mostrar mejor las consultas federadas
-
porque cuando miramos el registro
de consultas brindado por Malyshev et al.,
-
vemos en realidad
que de las consultas orgánicas,
-
solo tenemos muy pocas
consultas federadas.
-
Y en realidad, la federación es una
de las ventajas clave de tener datos
-
de enlace, entonces quizás la comunidad
o las personas que usan Wikidata
-
también necesitan más ejemplos de esto.
-
Y si miramos la lista de puntos finales
que se están usando,
-
no es una lista completa
y tenemos muchos más.
-
Desde luego, estos datos fueron analizados
de consultas hasta marzo de 2018,
-
pero deberíamos mirar en la lista
de puntos finales federados que tenemos
-
y ver si realmente
los estamos usando o no.
-
Dos preguntas que tengo para la audiencia
-
que tal vez podamos usar
luego para la discusión son:
-
qué problemas de calidad de datos
debemos abordar en su opinión,
-
de acuerdo a las necesidades que tengan,
-
pero además, dónde necesitan
más automatización
-
que los ayude
con la edición o la vigilancia.
-
Eso es todo, muchas gracias.
-
(aplausos)
-
(Jose Emilio Labra) Bien,
entonces de lo que voy a hablar
-
es de algunas herramientas que estábamos
desarrollando sobre Shape Expressions.
-
Entonces de esto es de lo que quiero
hablar... Soy Jose Emilio Labra,
-
pero esto... todas estas herramientas
han sido hechas por diferentes personas,
-
relacionadas principalmente con W3C ShEx,
Grupo de Comunidad de Shape Expressions.
-
Grupo de Comunidad ShEx.
-
La primera herramienta que deseo mencionar
es RDFShape, es una herramienta general,
-
porque Shape Expressions
no es solo para Wikidata,
-
las expresiones de forma es un lenguaje
para validar RDF en general.
-
Entonces, esta herramienta fue
desarrollada principalmente por mí
-
y es una herramienta
para validar RDF en general.
-
Entonces, si quieres aprender sobre RDF
o quieres validar RDF
-
o puntos finales SPARQL
no solo en Wikidata,
-
mi consejo es que puedes
usar esta herramienta.
-
También para enseñar.
-
Soy profesor en la universidad
-
y la uso en mi curso semántico web
para enseñar RDF.
-
Entonces, si quieres aprender RDF,
creo que es una buena herramienta.
-
Por ejemplo, esta es una visualización
de un gráfico RDF con la herramienta.
-
Pero antes de venir aquí,
en el último mes,
-
empecé una bifurcación de rdfshape
específicamente para Wikidata,
-
porque pensé... se llama WikiShape y ayer
lo presenté como un regalo para Wikidata.
-
Entonces lo que tomé es...
-
lo que hice fue eliminar todas las cosas
que no estaban relacionadas con Wikidata
-
y poner varias cosas, codificadas,
por ejemplo, el punto final de Wikidata
-
SPARQL, pero ahora, alguien me preguntó
si pudiera hacerlo también para Wikibase.
-
Y también es muy fácil
hacerlo para Wikibase.
-
Entonces, esta herramienta,
WikiShape, es bastante nueva.
-
Creo que funciona,
la mayoría de las características,
-
pero hay algunas características
que tal vez no funcionen,
-
y si lo intentas y quieres
mejorarla, por favor dímelo.
-
Estas son capturas [inaudible],
pero creo que puedo intentar, veámos.
-
Entonces, veamos si funciona.
-
Primero, tengo que salir de...
-
Aquí.
-
De acuerdo, sí. Esta es la herramienta.
-
Cosas que puedes hacer con la herramienta,
-
por ejemplo, es que puedes
comprobar esquemas, esquemas de entidad.
-
Sabes que hay un nuevo espacio
de nombres que es "E lo que sea",
-
así que si comienzas, por ejemplo,
escribe por ejemplo "humano"...
-
Mientras escribes, su autocompletado
te permite verificar,
-
por ejemplo, estas son
las Shape Expressions de un humano,
-
y estas son las Shape Expressions aquí.
-
Y como puedes ver,
este editor tiene resaltado de sintaxis,
-
esto es... bueno,
tal vez es muy pequeña, la pantalla.
-
Puedo intentar hacerla más grande.
-
Quizás lo veas mejor ahora.
-
Y este es el editor con resaltado
de sintaxis y también tiene...
-
Quiero decir, este editor
proviene del mismo código fuente
-
del servicio de consulta de Wikidata.
-
Así que por ejemplo,
si pasas el ratón por aquí,
-
te muestra las etiquetas
de las diferentes propiedades.
-
Entonces creo que es muy útil
porque ahora los esquemas de entidad
-
que están en Wikidata
son solo una idea de texto plano,
-
y creo que este editor es mucho mejor
porque tiene autocompletado
-
y también tiene...
-
Quiero decir, si tú, por ejemplo,
querías agregar una restricción,
-
dices "wdt:"
-
Empiezas a escribir "autor"
y luego haces clic en Ctrl + Espacio
-
y te sugiere las diferentes cosas.
-
Entonces esto es similar
al servicio de consulta de Wikidata
-
pero específicamente
para Shape Expressions
-
porque lo que siento es que crear
Shape Expressions
-
no es más difícil
que escribir consultas SPARQL.
-
Entonces algunas personas piensan
que está al mismo nivel,
-
Probablemente sea más fácil, creo,
porque Shape Expressions era,
-
cuando lo diseñamos, lo hicimos
para que fuera más fácil de trabajar.
-
Bien, esta es una de las primeras cosas,
que tienes este editor
-
para Shape Expressions.
-
Y luego también tienes la posibilidad,
por ejemplo, de visualizar.
-
Si tienes un Shape Expression,
usar por ejemplo...
-
Creo, "trabajo escrito" es
un buen Shape Expression
-
porque tiene algunas relaciones
entre diferentes cosas.
-
Y esta es la visualización UML
del trabajo escrito.
-
En un UML, es fácil ver
las diferentes propiedades.
-
Cuando haces esto, me di cuenta
cuando intenté con varias personas,
-
que encuentran algunos errores
en sus Shape Expressions
-
porque es fácil detectar cuáles son
las propiedades faltantes o lo que sea.
-
Entonces hay otra posibilidad aquí
-
es que también puedes validar,
creo que lo tengo aquí, la validación.
-
Creo que lo tenía en alguna etiqueta,
tal vez lo cerré.
-
Bien, pero puedes, por ejemplo,
puedes hacer clic aquí, Validar entidades.
-
Tú, por ejemplo,
-
"q42" con "e42", que es el autor.
-
Con "humano", creo que podemos
hacerlo con "humanos".
-
Y luego es...
-
Y está tomando un poco de tiempo hacerlo
porque está haciendo las consultas SPARQL
-
y ahora, por ejemplo,
está fallando por la red pero...
-
Puedes probarlo.
-
Bien, continuemos con la presentación,
con otras herramientas.
-
Así que que si quieres probarlo
y quieres algún comentario, házmelo saber.
-
Entonces para continuar
con la presentación...
-
Entonces esto es WikiShape.
-
Bien, ya dije esto,
-
el editor de Shape Expressions
es un proyecto independiente en GitHub.
-
Puedes usarlo en tu propio proyecto.
-
Si quieres hacer una herramienta
de Shape Expressions,
-
puedes incrustarlo
en cualquier otro proyecto,
-
está en GitHub y puedes usarlo.
-
El mismo autor, es uno de mis alumnos,
-
él también creó
un editor para Shape Expressions,
-
también inspirado por el servicio
de consulta de Wikidata
-
donde, en una columna,
-
tienes este editor más visual
de consultas SPARQL
-
donde puedes poner este tipo de cosas.
-
Esta es una captura de pantalla.
-
Puedes ver que esas son
las Shape Expressions en el texto
-
pero es una forma de Shape Expressions
donde tal vez tome un poco más de tiempo
-
donde puedes poner las diferentes filas
en los diferentes campos.
-
Luego está ShExEr.
-
Tenemos que... Lo hizo un estudiante
de doctorado de la universidad de Oviedo
-
y él está aquí,
así que puedes presentar ShExEr.
-
(Danny) Hola, soy Danny Fernández,
-
Soy un estudiante de doctorado
de la Universidad de Oviedo
-
y trabajo con Labra.
-
Ya que hay poco tiempo,
hagamos esto rápido,
-
no tomemos ninguna demostración real,
solo con algunas capturas de pantalla.
-
La forma habitual de trabajar
con Shape Expressions o cualquier lenguaje
-
es que tienes un experto en dominios
-
que define a priori
cómo debería verse el gráfico,
-
define algunas estructuras,
-
y luego usas estas estructuras
para validar los datos reales con él.
-
Esta herramienta, que es tan buena como
la que Labra ha estado presentando,
-
es una herramienta de uso general
para cualquier fuente RDF,
-
está diseñada para hacer lo contrario.
-
Ya tienes algunos datos,
-
selecciona de qué nodos
quieres tener la forma
-
y luego automáticamente
extrae o infiere la forma.
-
Aunque esta es una herramienta
de propósito general,
-
lo que hicimos para esta WikidataCon
es este botón elegante
-
que si haces clic en él,
esencialmente lo que pasa
-
es que hay tantos
parámetros de configuraciones
-
y lo configura para funcionar
con el punto final de Wikidata
-
y terminará pronto, lo siento.
-
Una vez que presionas este botón
lo que obtienes es esencialmente esto.
-
Después de haber seleccionado
qué tipo de nodos,
-
qué tipo de instancias de nuestra clase,
lo que sea que estés buscando,
-
obtienes un esquema automático.
-
Todas las restricciones están ordenadas
por cuántos nodos se ajusten a él,
-
puedes filtrar los menos comunes, etc.
-
Hay un cartel abajo de estas cosas
-
y bueno, estaré abajo y arriba
-
y por todo el lugar todo el día,
-
así que si tienes más interés
en esta herramienta,
-
solo háblame durante este viaje.
-
Y ahora, le devolveré
el micrófono a Labra, gracias.
-
(aplausos)
-
(Jose) Bien, continuemos
con las otras herramientas.
-
La otra herramienta es ShapeDesigner.
-
Andra, ¿quieres hacer
el ShapeDesigner ahora
-
o tal vez más tarde o en el taller?
-
Hay un taller...
-
Esta tarde hay un taller específicamente
para Shape Expressions, y...
-
La idea es que iba a practicarse más,
-
y si quieres practicar
un poco de ShEx, puedes hacerlo allí.
-
Esta herramienta es ShEx...
y ahí está Eric,
-
así que puedes presentarla.
-
(Eric) Así que rápidamente,
lo que quiero decir
-
es que probablemente
ya has visto la interfaz de ShEx
-
está hecho para Wikidata.
-
Está efectivamente despojado
y diseñado específicamente para Wikidata,
-
el genérico tiene más características
pero pensé que ya lo había mencionado
-
porque una de esas características
es particularmente útil
-
para depurar esquemas de Wikidata,
-
la cual es que si vas
y seleccionas el modo de sorber,
-
lo que hace es decir
mientras estoy validando,
-
quiero derribar todos los triples
y eso significa
-
que si tengo un montón de fallas,
-
puedo pasar y empezar a buscar
esas fallas y decir,
-
cuáles son los triples que están aquí,
-
lo siento, los triples están aquí abajo,
-
esto es solo un registro de lo que pasó.
-
Luego puedes sentarte allí
y jugar con él en tiempo real
-
como si jugaras con algo que cambia.
-
Es una versión más rápida
para hacer todo eso.
-
Este es un formulario de ShExC,
-
esto es algo que [Joachim] había sugerido
-
podría ser útil para poblar
documentos de Wikidata
-
basados en una Shape Expression
para ese documento.
-
Esto no está diseñado para Wikidata,
-
pero es solo para decir
que puedes tener un esquema
-
y puedes tener algunas anotaciones
-
y decir específicamente cómo quiero
hacer ese esquema
-
y luego se construye un formulario,
-
y si tienes datos,
se puede llenar el formulario.
-
PyShEx [inaudible].
-
(Jose) Creo que este es el último.
-
Sí, el último es PyShEx.
-
PyShEx es una implementación Python
de Shape Expressions,
-
puedes jugar también con Jupyter Notebooks
si quieres ese tipo de cosas.
-
Bien, eso es todo de esto.
-
(aplausos)
-
(Andra) Voy a hablar sobre un proyecto
específico en el que estoy involucrado
-
llamado Gene Wiki,
-
y donde también estamos
lidiando con problemas de calidad.
-
Pero antes de entrar en la calidad,
-
una introducción rápida
sobre qué es Gene Wiki,
-
y recientemente lanzamos una preimpresión
de un artículo que acabamos de escribir
-
que explica los detalles del proyecto.
-
Veo gente tomando fotos,
pero básicamente, lo que hace Gene Wiki,
-
es tratar de obtener datos biomédicos,
datos públicos en Wikidata,
-
y seguimos un patrón específico
para obtener esos datos en Wikidata.
-
Y cuando tenemos un nuevo repositorio
o un nuevo conjunto de datos
-
que puede ser incluido en Wikidata,
-
el primer paso es la participación
de la comunidad.
-
No es necesario dirigirse
a una comunidad de Wikidata
-
sino a una comunidad
de investigación local,
-
y nos encontramos en persona
o en línea o en cualquier plataforma
-
e intentar crear un modelo de datos
-
que unan sus datos
con el modelo de Wikidata.
-
Aquí tengo una foto de un taller
que se hizo aquí el año pasado
-
donde se trataba de ver
un conjunto de datos específico
-
y, bueno, ves muchas discusiones,
-
luego alineándolo con schema.org
y otras ontologías que hay por ahí.
-
Luego, al final del primer paso, tenemos
un dibujo en pizarra del esquema
-
que queremos implementar en Wikidata.
-
Lo que ves allí, es claro,
-
lo tenemos al fondo,
-
incluso hoy podemos hacer
algunos esquemas dentro de este panel.
-
Una vez que tengamos
el esquema en su lugar,
-
lo siguiente es intentar hacer
ese esquema legible por la máquina
-
porque quieres tener modelos accionables
para unir los datos que traes
-
de cualquier base de datos
biomédica en Wikidata.
-
Y aquí estamos aplicando
Shape Expressions.
-
Y usamos eso porque Shape Expressions
te permite probar
-
si el conjunto de datos en realidad...
no, para ver primero
-
si los datos ya existentes en Wikidata
siguen el mismo modelo de datos
-
que se logró en el proceso anterior.
-
Entonces, con Shape Expression
podemos verificar:
-
los datos que están en este tema
en Wikidata, ¿necesitan algo de limpieza
-
o necesitamos adaptar nuestro modelo
al modelo de Wikidata o viceversa?
-
Una vez que esté en su lugar
y comenzamos a escribir robots,
-
y los robots están sembrando
la información
-
que está en las fuentes primarias
de Wikidata.
-
Y cuando los robots estén listos,
-
escribimos estos robots
con una plataforma llamada...
-
con una biblioteca de Python
llamada integrador de Wikidata
-
que salió de nuestro proyecto.
-
Una vez que tengamos nuestros robots,
usamos una plataforma llamada Jenkins
-
para una integración continua.
-
Y con Jenkins,
-
actualizamos continuamente
las fuentes primarias con Wikidata.
-
Este es un diagrama para el artículo
que mencioné previamente.
-
Este es nuestro panorama actual.
-
Cada caja naranja de ahí
es una fuente primaria de drogas,
-
proteínas, genes, enfermedades,
compuestos químicos con interacción,
-
y este modelo es
demasiado pequeño para leer
-
pero esta es la base de datos,
las fuentes que gestionamos en Wikidata
-
y se unen con las fuentes primarias.
-
Este es el flujo de trabajo.
-
Uno de nuestros socios
es la ontología de la enfermedad
-
la ontología de la enfermedad
es una ontología CC0,
-
y la ontología CC0
tiene un ciclo propio de curación,
-
ellos continuamente actualizan
la ontología de la enfermedad
-
para reflejar el espacio de la enfermedad
o la interpretación de enfermedades.
-
Ahí está también el ciclo de curación
de Wikidata en enfermedades
-
donde la comunidad de Wikidata
monitorea lo que ocurre en Wikidata.
-
Y luego tenemos dos roles,
-
los llamamos coloquialmente
el portero guardián,
-
este éramos un colega y yo hace cinco años
-
y nos sentábamos en nuestras computadoras
a monitorear Wikipedia y Wikidata,
-
si había un problema que fuera
reportado a la comunidad primaria,
-
las fuentes primarias, miraban
la implementación y decidían:
-
¿confiamos en la entrada de Wikidata?
-
Sí... entonces se considera,
y entra en el ciclo,
-
y la próxima iteración es parte
de la ontología de la enfermedad
-
y se retroalimentaba a Wikidata.
-
Estamos haciendo lo mismo en WikiPathways.
-
WikiPathways es una ruta inspirada
en MediaWiki y un repositorio de la ruta.
-
La misma historia, ya hay diferentes
recursos de ruta en Wikidata.
-
Puede haber conflictos
entre esos recursos de ruta
-
y estos conflictos se reportan de nuevo
-
por los porteros guardianes
a esa comunidad,
-
y tú mantienes
los ciclos de curación individual.
-
Pero si recuerdas el ciclo anterior,
-
aquí solo mencioné dos ciclos,
dos recursos,
-
tenemos que hacer eso
para cada recurso que tenemos
-
y tenemos que gestionar lo que ocurre
-
porque cuando digo curación,
-
Realmente me refiero a ir
a las páginas principales de Wikipedia,
-
entrar en las páginas principales
de Wikidata y tratar de hacer eso.
-
Eso no pesa para los dos porteros
guardianes que tuvimos.
-
Cuando estaba en una conferencia en 2016
-
donde Eric hizo una presentación
de Shape Expressions,
-
salté al carro y dije bien,
-
Shape Expressions puede ayudarnos
a detectar qué diferencias hay en Wikidata
-
y eso permite que los porteros guardianes
tengan informes más eficazes que reportar.
-
Entonces este año, estaba encantado
con la entidad del esquema
-
porque ahora, podemos almacenar
esos esquemas de entidad en Wikidata,
-
en el mismo Wikidata,
mientras que antes estaban en GitHub,
-
y esto se alinea
con la interfaz de Wikidata,
-
entonces tienes cosas
como discusiones de documentos
-
pero también tienes revisiones.
-
Puedes aprovechar las páginas principales
y las revisiones en Wikidata
-
y usar eso para discutir
sobre lo que hay en Wikidata
-
y qué hay en las fuentes primarias.
-
Entonces, lo que Eric acaba de presentar,
ya es un gran beneficio.
-
Así que aquí, creamos una Shape Expression
para el gen humano,
-
y luego lo ejecutamos en ShEx simple,
tal como puedes ver,
-
ya tenemos...
-
Hay un problema que necesita
ser monitoreado
-
es que hay un elemento
que no encaja en ese esquema,
-
y entonces ya puedes crear informes
de curación de entidades de esquema
-
basados en... y enviar eso
a los diferentes informes de curación.
-
Pero ShEx.js es una interfaz integrada,
-
y si puedo mostrar aquí, solo hago diez,
-
pero tenemos decenas de miles,
y eso nuevamente no pesa.
-
Entonces, ahora el integrador de Wikidata
también es compatible con ShEx,
-
y luego podemos enlazar
bucles de elementos
-
donde decimos sí-no, sí-no,
verdadero-falso, verdadero-falso.
-
Así que de nuevo,
-
aumentamos un poco la eficiencia
de lidiar con los informes.
-
Pero ahora, recientemente, se construye
en el servicio de consultas de Wikidata,
-
y bueno, recientemente
hemos ido acelerando
-
así que de nuevo, eso no pesa.
-
Aún es un proceso continuo,
el cómo lidiar con modelos en Wikidata.
-
Y de nuevo, ShEx no solo es intimidante
-
sino que también la escala es
demasiado grande para tratarla.
-
Así que empecé a trabajar, esta es
mi primera prueba de concepto o ejercicio
-
donde usé una herramienta llamada yED,
-
y empecé a dibujar
esas Shape Expressions porque...
-
y luego regenero este esquema
-
en este formato adyacente
de Shape Expressions,
-
así que eso ya se abriría a la audiencia
-
que está intimidada
por los lenguajes de Shape Expressions.
-
Pero en realidad, hay un problema
con esas descripciones visuales
-
porque también es un esquema
que fue dibujado en yEd por alguien.
-
Y aquí hay otro que es hermoso.
-
Me encantaría tenerlo en mi pared,
pero aún no es interoperable.
-
Así que quiero terminar mi charla con,
-
y la primera vez, me he estado robando
esta diapositiva, usando esta diapositiva.
-
Es un honor tenerlo en la audiencia
-
y realmente me gusta esto:
-
"La gente piensa que RDF es una molestia
porque es complicado.
-
La verdad es aún peor, es tan simple,
-
porque tienes que trabajar
con problemas de datos del mundo real
-
que son terriblemente complicados.
-
Si bien puedes evitar RDF,
-
es más difícil evitar datos complicados
y problemas informáticos complicados".
-
Esto es sobre RDF, pero creo
que también aplica al modelado.
-
Entonces, mi punto de discusión
es si realmente...
-
¿Cómo iniciamos el modelado?
-
¿Deberíamos discutir sobre ShEx,
o modelos visuales o...?
-
¿Cómo continuamos?
-
Muchas gracias por tu tiempo.
-
(aplausos)
-
(Lydia) Muchas gracias.
-
¿Vendrían aquí delante
-
para que podamos iniciar
con las preguntas de la audiencia?
-
¿Hay preguntas?
-
Sí.
-
Y creo que, para la cámara, necesitamos...
-
(Lydia riendo) Sí.
-
(persona 3) Una pregunta
para Cristina, creo.
-
Mencionaste el término
"ganancia de información"
-
y vincularse con otros sistemas.
-
Hay una medida teórica de la información
-
que usa estadística y probabilidad
llamada ganancia de información.
-
¿Tienes el mismo...
-
Quiero decir, ¿querías decir
exactamente esa medida,
-
la ganancia de información
de la teoría de la probabilidad
-
de la teoría de la información
-
o simplemente usar esta cosa conceptual
para medir la ganancia de información?
-
No, definimos e implementamos medidas
-
que usan la entropía de Shannon,
así que se entiende así.
-
No quise entrar en detalles
de las fórmulas concretas...
-
(persona 3) No, no, por supuesto,
por eso hice la pregunta.
-
- (Cristina) Pero, sí...
- (persona 3) Gracias.
-
(persona 4) Más un comentario
que una pregunta.
-
(Lydia) Dilo.
-
(persona 4) Ha habido
mucho enfoque a nivel de elemento
-
sobre calidad e integridad,
-
una de las cosas que me preocupa es
que no aplicamos lo mismo a las jerarquías
-
y creo que tenemos un problema, es que,
nuestra jerarquía a veces no es buena.
-
Vemos que va a ser un problema real
-
con la búsqueda de Commons y otras cosas.
-
Una de las habilidades que podemos
hacer es importar externos...
-
La forma en que los tesauros externos
estructuran sus jerarquías,
-
utilizando el calificador P4900
de concepto más amplio.
-
Pero lo que creo sería muy útil,
serían mejores herramientas que hagan eso
-
que puedan importar una jerarquía
de tesauros externos
-
y que la mapee en nuestros
elementos de Wikidata.
-
Una vez que esté en su lugar
con esos calificadores P4900,
-
puedes hacer buenas consultas
a través de SPARQL
-
para ver dónde nuestra jerarquía
diverge de esa jerarquía externa.
-
Por ejemplo, [Paula Morma],
usuario de PKM, tal vez sepas,
-
ella trabaja mucho en la moda.
-
Así que lo usamos para atraer la jerarquía
de tesauros de la moda europea
-
y la jerarquía Getty AAT
de tesauros de la moda,
-
y luego ver dónde estaban los huecos
en nuestros elementos de nivel superior,
-
lo cual es un problema real
para nosotros porque a menudo,
-
estas son cosas que solo existen
en páginas de desambiguación en Wikipedia,
-
así que nos faltan muchos elementos
de nivel superior en nuestras jerarquías
-
y es algo que debemos abordar
en términos de calidad e integridad,
-
pero lo que realmente ayudaría
-
serían mejores herramientas que la jungla
de guiones de extracción que escribí...
-
Si alguien pudiera poner eso
en una libreta PAWS de Python
-
para poder tomar un tesauro externo,
tomar su jerarquía,
-
que bien puede estar disponible
como datos vinculados o no,
-
y luego ponerlos en QuickStatements
para ponerlos en valores P4900.
-
Y luego,
-
cuando nuestra representación
se vuelva más completa,
-
se actualicen esos P4900 porque a medida
que a nuestra representación
-
se le pone fecha, se vuelve más densa,
-
los valores de estos calificadores
necesitan cambiar
-
para representar que tenemos más
de su jerarquía en nuestro sistema.
-
Si alguien pudiera hacer eso,
creo que sería muy útil,
-
y necesitamos también mirar otros enfoques
-
para mejorar la calidad
y la integridad a nivel jerárquico
-
no solo a nivel de elemento.
-
(Andra) ¿Puedo agregar a eso?
-
Sí, y de hecho hacemos eso,
-
y puedo recomendar mirar
la Shape Expression que hizo Finn
-
con los datos léxicos
donde crea Shape Expressions
-
y luego construye
en otras Shape Expressions
-
entonces tienes este concepto de Shape
Expressions vinculados en Wikidata,
-
y específicamente, el caso de uso,
si entiendo correctamente,
-
es exactamente lo que estamos
haciendo en Gene Wiki.
-
Tienes la ontología de la enfermedad
que se pone en Wikidata
-
y luego entran los datos de la enfermedad
y aplicamos las Shape Expressions
-
para ver si encaja con este tesauro.
-
Y hay otros tesauros u otras
ontologías de vocabularios controlados
-
que aún necesitan entrar en Wikidata,
-
y eso es exactamente por qué
Shape Expression es tan interesante
-
porque puedes tener una Shape Expression
para la ontología de la enfermedad,
-
puedes tener una Shape
Expression para MeSH,
-
puedes decir: bien, ahora
quiero verificar la calidad.
-
Porque también tienes
en Wikidata el contexto
-
de cuando tienes un vocabulario controlado
dices que la calidad está acorde a esto,
-
pero podrías tener
una comunidad en desacuerdo.
-
Las herramientas están en su lugar,
pero ahora toca crear esos modelos
-
y aplicarlos en los diferentes
casos de uso.
-
(persona 4) La Shape Expression
es muy útil
-
una vez que tengas la ontología externa
mapeada en Wikidata,
-
pero mi problema es que está
llegando a esa etapa,
-
funciona para ver cuánto de la ontología
externa aún no está en Wikidata
-
y dónde están los huecos,
-
y ahí es donde creo que al tener
herramientas mucho más robustas
-
para ver lo que falta
de ontologías externas
-
sería muy útil.
-
El mayor problema allí
-
no es tanto las herramientas
sino que faltan más licencias.
-
Entonces, meter las ontologías
en Wikidata es en realidad muy fácil
-
pero la mayoría de las ontologías tienen,
¿cómo puedo decirlo cortésmente?
-
licencia restrictiva,
y no son compatibles con Wikidata.
-
(persona 4) Hay un gran número
de tesauros del sector público
-
en los campos culturales.
-
- (Andra) Entonces tenemos que hablar.
- (persona 4) No hay problema.
-
(Andra) Entonces tenemos que hablar.
-
(persona 5) El comentario que quiero hacer
en realidad es una respuesta a James,
-
entonces, la cosa es que,
las jerarquías hacen gráficos,
-
y cuando lo quieras...
-
Básicamente quiero hablar sobre...
un problema común en las jerarquías
-
es las jerarquías circulares,
-
ellas vuelven la una a la otra
cuando hay un problema,
-
lo cual, no deberías tener
eso en las jerarquías.
-
Esto, curiosamente, sucede mucho
en las categorías de Wikipedia
-
tenemos muchos círculos en las categorías,
-
pero la buena noticia es que esto es...
-
Técnicamente, es un problema completo
de P... NP, así que no puedes hallar esto,
-
y fácilmente si construiste
un gráfico de eso,
-
pero hay muchas maneras
que se han desarrollado
-
para encontrar problemas
en estos gráficos de jerarquía.
-
Hay un artículo llamado Buscando Ciclos...
-
Rompiendo Ciclos en Jerarquías Ruidosas,
-
y se ha usado para ayudar a categorizar
la Wikipedia en inglés.
-
Puedes tomar esto y aplicar
estas jerarquías en Wikidata,
-
y luego puedes encontrar
cosas que son problemáticas
-
y solo quitar las que están
causando problemas
-
y encontrar los problemas, en realidad.
-
Esto es solo una idea, solo para que tú...
-
(persona 4) Eso está muy bien,
-
pero creo que estás subestimando
el número de malas relaciones de subclase
-
que tenemos.
-
Es como tener una ciudad
en un país totalmente equivocado,
-
y hay herramientas de geografía
para identificar eso,
-
y necesitamos tener mejores
herramientas en las jerarquías
-
para identificar dónde está
el equivalente del elemento para el país
-
que falta, o donde realmente
ha sido subclasificado
-
a algo que no significa
algo completamente distinto.
-
(Lydia) Sí, creo que estás llegando a algo
-
que mi equipo y yo seguimos escuchando
de personas que reutilizan nuestros datos
-
bastante bien, cierto,
-
el punto de datos individuales
podría ser excelente,
-
pero si tienes que mirar
en la ontología y demás,
-
entonces se pone muy...
-
Y creo que uno de los grandes problemas
del por qué ocurre
-
es que mucha edición en Wikidata
-
sucede sobre la base
de un elemento individual, correcto,
-
haces una edición de ese elemento,
-
sin darte cuenta de que esto
podría tener consecuencias muy globales
-
en el resto del gráfico, por ejemplo.
-
Y si la gente tiene ideas de cómo
hacer esto más visible,
-
las consecuencias
de una edición local individual,
-
creo que valdría la pena explorar,
-
para mostrarles mejor a la gente
cuál es la consecuencia de su edición
-
para que lo hagan de muy buena fe,
-
qué es eso.
-
¡Guao! Bien, comencemos con, sí, tú,
luego tú, luego tú, y luego tú.
-
(persona 5) Bueno,
después de la discusión,
-
solo deseo expresar mi acuerdo
con lo que James estaba diciendo.
-
Entonces, esencialmente, parece
que lo más peligroso es la jerarquía,
-
no la jerarquía, sino en general
-
la semántica de las relaciones de subclase
vistas en Wikidata, cierto.
-
Hace poco he estado estudiando lenguajes,
solo para los fines de esta conferencia,
-
y por ejemplo, encuentras muchos casos
-
donde un lenguaje es parte
de una subclase de la misma cosa, bien.
-
Entonces, sabes, puedes decir
que tenemos una ontología flexible.
-
Wikidata a veces te da
la libertad de expresar eso.
-
Porque, por ejemplo,
-
esa ontología de lenguajes también es
políticamente complicada, ¿verdad?
-
Incluso es bueno estar en una posición
para expresar un nivel de incertidumbre.
-
Pero imagina a cualquiera que quiera
hacer una lectura automática de eso.
-
Eso es realmente problemático.
-
Y luego de nuevo,
-
no creo que esa ontología
fuera importada de alguna parte,
-
es algo que es originalmente nuestro.
-
Se cosecha desde Wikipedia,
al principio lo diré.
-
Entonces, me pregunto...
esta cosa de Shape Expressions es genial,
-
y también validar y arreglar,
si quieres, la ontología de Wikidata
-
por recursos externos, hermosa idea.
-
En fin,
-
¿terminaremos reflexionando sobre
las ontologías externas en Wikidata?
-
Y además, ¿qué hacemos con la parte
central de nuestra ontología
-
que nunca se cosecha de recursos externos,
-
cómo vamos a arreglar eso?
-
Y realmente pienso que eso será
un problema por sí solo.
-
Tendremos que centrarnos en eso
independientemente de la idea
-
de validar la ontología con algo externo.
-
(persona 6) Bien, y las limitantes
y las formas son muy impresionantes
-
lo que podemos hacer con eso,
-
pero el punto principal no está
siendo realmente aclarado...
-
es porque ahora se puede hacer más
explícito lo que esperamos de los datos.
-
Antes, cada uno tenía que escribir
sus propias herramientas y guiones
-
y así es más visible
y podemos discutir sobre eso.
-
Pero no se trata
de lo que está mal o bien,
-
se trata de una expectativa,
-
y tendrás diferentes
expectativas y discusiones
-
acerca de cómo queremos
modelar las cosas en Wikidata,
-
y esto...
-
El estado actual es solo
un paso en la dirección
-
porque ahora necesitas
-
mucha experiencia técnica
para entrar en esto,
-
y necesitamos mejores formas
para visualizar esta restricción,
-
para transformarlo tal vez en un lenguaje
natural y la gente lo pueda entender mejor
-
pero se trata menos de lo que está
mal o lo que está bien.
-
(Lydia) Sí.
-
(persona 7) Por cuestiones de calidad,
solo lo quiero repetir como...
-
Me he encontrado que muchos
de los problemas han sido
-
diferencias de opinión
entre instancia de y subclase.
-
Yo diría que los errores
en esas situaciones
-
que he tratado de encontrar
han sido un proceso muy lento.
-
Lo que he encontrado es algo así: "si
encuentro elementos de muy alta impresión
-
que son algo... y luego uso todas
-
las instancias de subclase y encuentro
las declaraciones derivadas de esto",
-
esta es una forma muy útil
de buscar estos errores.
-
Pero tenía curiosidad
si Shape Expressions,
-
si hay...
-
Si se puede usar como una herramienta que
ayude a resolver esos problemas, y sí...
-
(persona 8) Si tiene
una huella estructural...
-
Si tiene una huella estructural
donde puedas... eso es algo falsificable,
-
puedes ver eso
y decir, bueno, eso está mal,
-
entonces sí, puedes hacer eso.
-
Pero si solo se trata de mapear
con objetos del mundo real,
-
entonces solo vas a necesitar
montones y montones de cerebros.
-
(persona 9) Hola, Pablo Mendes
de Apple Siri Knowledge.
-
Estamos aquí para descubrir cómo ayudar
al proyecto y a la comunidad
-
pero Cristina cometió el error
de preguntar qué queremos.
-
(risas) Entonces, creo que
una cosa que me gustaría ver,
-
se trata mucho de verificabilidad,
-
que es uno de los principios básicos
del proyecto en la comunidad,
-
y confiabilidad.
-
No todas las declaraciones son iguales,
algunas de ellas están muy disputadas,
-
algunas de ellas son fáciles de adivinar,
-
como la fecha de nacimiento
de alguien puede ser verificada,
-
como viste hoy en la Keynote, los asuntos
de género son mucho más complicados.
-
¿Puedes hablar un poco de lo que sabes
-
en esta área de calidad de datos
acerca de confiabilidad y verificabilidad?
-
Si no tienes mucho,
me encantaría ver mucho más. (risas)
-
(Lydia) Sí.
-
Aparentemente, no tenemos
mucho que decir sobre eso. (risas)
-
(Andra) Creo que podemos hacer mucho,
pero ayer tuve una discusión contigo.
-
Mi ejemplo favorito que aprendí ayer,
que ya está en desuso,
-
es que si vas a la Q2, que es la tierra,
-
hay una declaración
que afirma que la tierra es plana.
-
Y me encanta ese ejemplo
-
porque hay una comunidad
por ahí que lo afirma
-
y tienen recursos verificables.
-
Entonces, creo que es un caso genuino,
-
no debería estar en desuso,
debería estar en Wikidata.
-
Y creo que Shape Expressions
puede ser realmente instrumental allí,
-
debido a lo que puedes decir,
-
bien, estoy realmente interesado
en este caso de uso,
-
o este es un caso de uso
en el que no estás de acuerdo,
-
pero también puede haber un caso de uso
donde dices, bien, estoy interesado.
-
Entonces, hay un ejemplo,
que dices, tengo glucosa.
-
Y la glucosa, cuando eres biólogo,
-
no te importan las limitantes químicas
de la molécula de la glucosa,
-
tú simplemente...
Todo lo de glucosa es lo mismo.
-
Pero si eres químico,
te estremeces cuando escuchas eso,
-
tienes 200 algo...
-
Entonces, puedes tener
múltiples Shape Expressions,
-
bien, voy a poner que...
Estoy en un punto de vista químico,
-
estoy aplicando eso.
-
Y luego dices, estoy en un caso
de uso biológico,
-
Estoy aplicando esa Shape Expression.
-
Y luego, cuando quieres colaborar,
-
sí, bueno, deberías hablarle
a Eric sobre los mapas ShEx.
-
Y así... pero este viaje apenas comienza.
-
Pero yo personalmente creo
que es muy instrumental en esa área.
-
(Lydia) Bien. Por ahí.
-
(risas)
-
(persona 2) Tuve varias ideas
de algunos puntos en las discusiones,
-
así que intentaré no perderlas...
Tuve tres ideas, así que...
-
Según lo que dijo James hace un tiempo,
-
tenemos un problema muy, muy grande
en Wikidata desde el principio
-
para la ontología superior.
-
Lo hablamos hace dos años en WikidataCon,
-
y hablamos de eso en Wikimania.
-
Bueno, siempre que tenemos
una reunión de Wikidata
-
hablamos de eso,
-
porque es un gran problema
a un nivel muy, muy visual
-
qué entidad es, con qué trabajo es,
qué género es, arte,
-
son realmente el concepto más grande.
-
Y eso es realmente un punto
muy débil en la ontología global
-
porque la gente trata
de limpiar regularmente
-
y lo descompone todo,
-
porque sí, creo que algunos de ustedes
recuerdan al tipo que de buena fe
-
rompió absolutamente
todas las ciudades del mundo.
-
Ya no eran elementos geográficos, habían
restricciones de violación en todas partes
-
Y fue de buena fe,
-
porque realmente estaba
corrigiendo un error en un elemento,
-
pero todo se vino abajo.
-
Y no estoy segura de cómo
podemos resolver eso
-
porque en realidad no hay ninguna
institución externa a la que copiar
-
porque todos trabajan...
-
Bueno, si estoy realizando
una base de datos de arte,
-
solo iré al nivel de arte escénico,
-
pero no voy al concepto filosófico
de lo que es una entidad,
-
y eso es en realidad...
-
No conozco ninguna base de datos
que esté trabajando a este nivel,
-
pero ese es el punto
más débil de Wikidata.
-
Y probablemente, cuando hablamos
de calidad de datos,
-
tiene en realidad
una gran parte, así que...
-
Y creo que es lo mismo
que hemos expresado...
-
Lo siento, estoy cambiando de tema,
-
pero hemos expresado
en diferentes sesiones sobre cualidades,
-
que en realidad algunos de nosotros
hacemos un buen trabajo de modelado,
-
hacemos ShEx, hacemos cosas así.
-
La gente no lo ve en Wikidata,
no ven el ShEx,
-
no ven el WikiProject
en la página de discusión,
-
y a veces,
-
ni siquiera ven las páginas
de discusión de propiedades,
-
que declara explícitamente
a), esta propiedad se utiliza para eso.
-
La semana pasada, agregué
restricciones a una propiedad.
-
La restricción fue escrita explícitamente
-
en la discusión de la creación
de la propiedad.
-
Acabo de crear la parte técnica
de agregar la restricción, y alguien:
-
"¡Qué! ¡Estropeaste todas mis ediciones!"
-
Y él estaba usando incorrectamente
la propiedad durante los últimos dos años.
-
Y la propiedad era realmente muy clara,
pero no hubo advertencias,
-
y entonces, es lo mismo en el Pink Pony,
que dijimos en Wikimania
-
para hacer que WikiProject sea más visible
o para que ShEx sea más visible, pero...
-
Y eso es lo que dijo Cristina.
-
Tenemos un problema de visibilidad
de cuáles son las soluciones existentes.
-
Y en esta sesión,
-
todos estamos hablando
de cómo crear más ShEx,
-
o de facilitar los trabajos
para las personas que hacen la limpieza.
-
Pero estamos limpiando
desde el primer día de Wikidata,
-
y globalmente, estamos perdiendo,
y estamos perdiendo porque, bueno,
-
si supiera, los nombres son complicados,
-
pero yo soy el único
que hace el trabajo de limpieza,
-
el chico que agregó
el nombre de la escritura latina
-
a todos los investigadores chinos,
-
me llevará meses limpiar eso
y no puedo hacerlo solo,
-
y él hizo un lote masivo.
-
Entonces, realmente necesitamos...
-
Tenemos un problema de visibilidad
más que un problema de herramienta, creo,
-
porque tenemos muchas herramientas.
-
(Lydia) Correcto, desafortunadamente,
me han mostrado una señal (risas)
-
así que, tenemos que terminar esto.
-
Muchas gracias por sus comentarios,
-
espero que sigan discutiendo
durante el resto del día,
-
y gracias por su aporte.
-
(aplausos)