WEBVTT
00:00:05.945 --> 00:00:09.476
Hola a todos los del panel
de Calidad de Datos.
00:00:10.288 --> 00:00:13.671
La calidad de los datos importa
porque cada vez más personas
00:00:13.672 --> 00:00:19.289
confían en que nuestros datos están bien,
así que hablaremos de su calidad,
00:00:20.029 --> 00:00:26.000
y habrán cuatro oradores
quienes darán breves presentaciones
00:00:26.000 --> 00:00:29.539
sobre temas de la calidad de los datos
y luego tendremos preguntas y respuestas.
00:00:30.130 --> 00:00:32.234
Y el primero es Lucas.
00:00:34.385 --> 00:00:35.385
Gracias.
00:00:35.901 --> 00:00:39.899
(Lucas) Hola, soy Lucas y voy a comenzar
con una descripción general
00:00:39.899 --> 00:00:43.806
de las herramientas de calidad de datos
que ya tenemos en Wikidata
00:00:43.807 --> 00:00:46.109
y también algunas cosas
que vendrán pronto.
00:00:46.932 --> 00:00:50.623
Y los he agrupado
en algunos temas generales
00:00:50.623 --> 00:00:53.761
sobre hacer los errores más visibles,
hacer que los problemas sean procesables,
00:00:53.762 --> 00:00:56.322
ver mejor los datos para que la gente
note los problemas,
00:00:56.945 --> 00:01:02.616
arreglar fuentes comunes de errores,
mantener calidad de los datos existentes
00:01:02.616 --> 00:01:03.966
y también la curación humana.
00:01:05.063 --> 00:01:09.874
Y los que están disponibles actualmente
comienzan con restricciones de propiedad.
00:01:10.228 --> 00:01:12.421
Así que tal vez ya has visto esto
si estás en Wikidata.
00:01:12.422 --> 00:01:14.029
A veces puedes obtener estos íconos
00:01:14.530 --> 00:01:17.241
revisando la consistencia interna
de los datos.
00:01:17.242 --> 00:01:20.800
Por ejemplo, si un evento sigue al otro,
00:01:20.801 --> 00:01:23.760
entonces el otro evento debería
también ser seguido por este,
00:01:23.761 --> 00:01:27.161
que en el artículo de WikidataCon
al parecer faltaba.
00:01:27.162 --> 00:01:29.360
No estoy seguro,
esta característica es de unos días.
00:01:30.040 --> 00:01:34.681
Y también, si esto es demasiado limitado
o simple para usted,
00:01:34.682 --> 00:01:38.080
puedes escribir cualquier chequeo
que quieras usando el servicio de consulta
00:01:38.081 --> 00:01:39.842
que es útil para muchas cosas
por supuesto,
00:01:39.843 --> 00:01:44.543
pero también puedes usarlo
para encontrar errores.
00:01:44.544 --> 00:01:46.974
Si te diste cuenta
de la ocurrencia de un error,
00:01:46.975 --> 00:01:49.709
entonces puedes verificar
si hay otros lugares
00:01:49.710 --> 00:01:51.738
donde la gente ha hecho
un error muy similar
00:01:51.738 --> 00:01:53.438
y encontrarlo con el Servicio
de Consultas.
00:01:53.439 --> 00:01:54.720
También puedes combinar los dos
00:01:54.720 --> 00:01:57.874
y buscar violaciones de restricciones
en el Servicio de Consulta,
00:01:57.875 --> 00:02:01.240
por ejemplo,
las violaciones en alguna área
00:02:01.241 --> 00:02:03.762
o WikiProject que sea
relevante para usted,
00:02:03.762 --> 00:02:06.828
aunque los resultados no están
completos actualmente, lamentablemente.
00:02:08.422 --> 00:02:09.877
Hay puntuación de revisión.
00:02:10.540 --> 00:02:12.666
Eso es... creo que esto
es de los cambios recientes
00:02:12.667 --> 00:02:16.217
también puedes incluir en tu lista
una evaluación automática
00:02:16.217 --> 00:02:20.249
de si es probable que esta edición sea
de buena fe o de mala fe
00:02:20.250 --> 00:02:22.312
y si es probable que sea
dañino o no dañino,
00:02:22.313 --> 00:02:24.205
creo que esas son las dos dimensiones.
00:02:24.206 --> 00:02:25.686
Entonces puedes, si quieres,
00:02:25.687 --> 00:02:29.898
centrarte en solo mirar las ediciones
perjudiciales pero de buena fe.
00:02:29.899 --> 00:02:32.523
Si te sientes particularmente
amable y acogedor
00:02:32.524 --> 00:02:37.121
puedes decirle a estos editores,
"Gracias por tu contribución,
00:02:37.122 --> 00:02:40.560
así es como deberías haberlo hecho,
pero igualmente gracias".
00:02:40.561 --> 00:02:42.186
Y si no te sientes así,
00:02:42.187 --> 00:02:44.452
puedes irte por la mala fe,
las ediciones perjudiciales,
00:02:44.453 --> 00:02:45.573
y revertir los vándalos.
00:02:47.544 --> 00:02:49.761
También hay, similar a eso,
puntuación de la entidad.
00:02:49.762 --> 00:02:52.590
Entonces, en lugar de anotar una edición,
el cambio que hizo,
00:02:52.591 --> 00:02:53.904
puedes puntuar toda la revisión,
00:02:53.904 --> 00:02:56.483
y creo que es la misma medida de calidad
00:02:56.483 --> 00:02:59.863
que Lydia menciona
al comienzo de la conferencia.
00:03:00.372 --> 00:03:04.569
Eso da un guión de usuario aquí arriba
y te da una puntuación de uno a cinco,
00:03:04.570 --> 00:03:08.176
Creo que trata, de qué calidad
es el artículo actual.
00:03:10.043 --> 00:03:14.888
La herramienta de fuentes primarias es
para cualquier base de datos
00:03:14.888 --> 00:03:18.064
que quieras importar pero no es de calidad
suficiente para agregar a Wikidata,
00:03:18.064 --> 00:03:20.775
entonces a su vez lo agregas
a la herramienta de fuentes primarias,
00:03:20.775 --> 00:03:22.956
y luego las personas pueden decidir
00:03:22.956 --> 00:03:26.024
si deben agregar estas declaraciones
individuales o no.
00:03:28.595 --> 00:03:31.451
Mostrar coordenadas como mapas
principalmente es una característica
00:03:31.451 --> 00:03:34.038
de conveniencia, pero también es
útil para el control de calidad.
00:03:34.038 --> 00:03:36.937
Supón que esta es
la oficina de Wikimedia en Alemania
00:03:36.938 --> 00:03:39.400
y si las coordenadas están
en algún lugar del Océano Índico,
00:03:39.401 --> 00:03:41.529
entonces sabes que algo no está bien
00:03:41.530 --> 00:03:44.790
y puedes verlo mucho más fácil
que si solo tuvieras los números.
00:03:46.382 --> 00:03:49.576
Este es un dispositivo llamado
el indicador de integridad relativa
00:03:49.577 --> 00:03:52.480
que te muestra este pequeño icono aquí
00:03:53.007 --> 00:03:55.482
diciéndote cuán completo
cree que es este artículo
00:03:55.482 --> 00:03:57.613
y también qué propiedades
es muy probable que falten,
00:03:57.614 --> 00:03:59.889
lo cual es realmente útil
si estás editando un elemento
00:03:59.889 --> 00:04:03.172
y estás en un área
con la que no estás muy familiarizado
00:04:03.172 --> 00:04:05.661
y no sabes qué propiedades correctas usar,
00:04:05.662 --> 00:04:08.230
entonces se tiene un dispositivo muy útil.
00:04:09.604 --> 00:04:11.401
Y tenemos Shape Expressions.
00:04:11.402 --> 00:04:15.624
Creo que Andra o José
van a hablar más sobre esto
00:04:15.624 --> 00:04:19.547
pero básicamente, es una forma
muy poderosa de comparar los datos
00:04:19.547 --> 00:04:20.758
que tienes versus el esquema,
00:04:20.759 --> 00:04:22.910
como qué declaración deberían
ciertas entidades tener,
00:04:22.910 --> 00:04:25.677
a qué otras entidades deberían vincularse
y cómo deberían ser,
00:04:26.229 --> 00:04:29.374
y así puedes encontrar
problemas de esa manera.
00:04:30.366 --> 00:04:32.361
Creo que... No, todavía hay más.
00:04:32.362 --> 00:04:34.321
Panel de integralidad o propiedad.
00:04:34.322 --> 00:04:36.773
Te da una visión general rápida
de los datos que ya tienes.
00:04:36.774 --> 00:04:39.147
Por ejemplo, esto es de
los pandas rojos de WikiProject,
00:04:39.657 --> 00:04:41.681
y puedes ver que tenemos el sexo
00:04:41.682 --> 00:04:43.561
para casi todos los pandas rojos,
00:04:43.561 --> 00:04:46.854
la fecha de nacimiento varía mucho
debido al zoológico del que provienen
00:04:46.854 --> 00:04:50.255
y no tenemos casi ningún panda muerto,
lo cual es maravilloso,
00:04:51.437 --> 00:04:52.600
porque son muy lindos.
00:04:53.699 --> 00:04:55.654
Entonces esto también es útil.
00:04:56.377 --> 00:04:59.185
Aquí vamos, bien,
con lo que vamos a seguir.
00:04:59.889 --> 00:05:03.784
Puente de Wikidata, o también conocido,
antes conocido como edición del cliente,
00:05:03.785 --> 00:05:07.076
así que editar Wikidata desde las cajas
de información de Wikipedia
00:05:07.675 --> 00:05:11.635
lo que por un lado se obtendrá
más enfoque en los datos
00:05:11.635 --> 00:05:13.441
porque más personas pueden
ver los datos allí
00:05:13.441 --> 00:05:18.721
y con suerte alentará más el uso
de Wikidata en las Wikipedias
00:05:18.721 --> 00:05:20.620
y eso significa que más personas
pueden notar
00:05:20.620 --> 00:05:23.689
si, por ejemplo, algunos datos están
desactualizados y necesitan actualizarse
00:05:23.857 --> 00:05:27.000
en lugar de solo verlos en Wikidata.
00:05:28.630 --> 00:05:30.656
También hay referencias corrompidas.
00:05:30.657 --> 00:05:33.959
La idea aquí es que si editas
un valor de declaración,
00:05:34.683 --> 00:05:37.169
es posible que también desees
actualizar las referencias,
00:05:37.169 --> 00:05:39.373
a menos que solo fuera
un error tipográfico o algo así.
00:05:39.897 --> 00:05:43.662
Y estas referencias corrompidas
le dicen eso a los editores
00:05:43.663 --> 00:05:49.756
y también que otros editores
ven qué otras modificaciones se hicieron
00:05:49.756 --> 00:05:52.471
que editaron un valor de declaración
y no actualizaron una referencia
00:05:52.472 --> 00:05:56.766
entonces puedes limpiar después de eso
y decidir si eso es...
00:05:57.737 --> 00:05:59.566
¿Necesitas hacer algo más que eso
00:05:59.566 --> 00:06:02.796
o está realmente bien y no necesitas
actualizar la referencia.
00:06:03.543 --> 00:06:09.336
Se relaciona con declaraciones firmadas
que vienen de una preocupación, creo,
00:06:09.336 --> 00:06:12.355
que algunos proveedores
de datos tienen como...
00:06:14.131 --> 00:06:17.231
Hay una declaración a la que se hace
referencia a través de la UNESCO o algo
00:06:17.232 --> 00:06:19.872
y de repente, alguien destroza
la declaración
00:06:19.873 --> 00:06:21.836
y se preocupan de que se verá como
00:06:22.827 --> 00:06:26.992
esta organización, como la UNESCO,
que aún establece este valor de vandalismo
00:06:26.993 --> 00:06:28.706
y así, con las declaraciones firmadas,
00:06:28.706 --> 00:06:31.488
pueden criptográficamente
firmar esta referencia
00:06:31.488 --> 00:06:33.562
y eso no evita ninguna edición,
00:06:34.169 --> 00:06:37.644
pero al menos, si alguien
destroza la declaración
00:06:37.644 --> 00:06:40.255
o la edita de cualquier manera,
entonces la firma ya no es válida,
00:06:40.255 --> 00:06:43.401
y puedes decir que eso no es exactamente
lo que dijo la organización,
00:06:43.402 --> 00:06:47.064
y quizás sea una buena edición y deban
volver a firmar la nueva declaración,
00:06:47.065 --> 00:06:49.851
pero también quizás deba revertirse.
00:06:51.203 --> 00:06:54.166
Y también, esto va a ser
muy emocionante, creo,
00:06:54.166 --> 00:06:56.846
Citoid es este asombroso sistema
que tienen en Wikipedia
00:06:57.379 --> 00:07:01.340
donde puedes pegar una URL,
o un identificador, o un ISBN
00:07:01.340 --> 00:07:04.759
o un ID de Wikidata o básicamente
cualquier cosa en el editor visual,
00:07:05.260 --> 00:07:08.241
y lanza una referencia
que está bien formateada
00:07:08.242 --> 00:07:11.049
y tiene todos los datos que quieres
y es maravilloso de usar.
00:07:11.049 --> 00:07:14.337
Y en comparación, en Wikidata,
si quiero agregar una referencia
00:07:14.338 --> 00:07:18.711
debo agregar una URL de referencia,
título, cadena del nombre del autor,
00:07:18.711 --> 00:07:20.449
lugar de publicación,
fecha de publicación,
00:07:20.450 --> 00:07:25.141
fechas de recuperación,
al menos esos, y eso es molesto,
00:07:25.141 --> 00:07:29.261
e integrando Citoid en Wikibase
se espera a que ayude con eso.
00:07:30.245 --> 00:07:33.604
Y creo que eso es todo lo que tengo, sí.
00:07:33.604 --> 00:07:36.400
Así que, ahora voy a pasarles a Cristina.
00:07:37.788 --> 00:07:42.339
(aplausos)
00:07:43.780 --> 00:07:45.331
(Cristina) Hola, soy Cristina.
00:07:45.331 --> 00:07:47.812
Soy una investigadora científica
de la Universidad de Zürich,
00:07:47.812 --> 00:07:51.417
y también soy una miembro activa
de la Comunidad Suiza.
00:07:52.698 --> 00:07:57.901
Cuando Claudia Müller-Birn
y yo le enviamos esto a WikidataCon,
00:07:57.902 --> 00:08:00.410
lo que queríamos hacer
es continuar nuestra discusión
00:08:00.411 --> 00:08:02.424
que empezamos a principios de año
00:08:02.424 --> 00:08:07.442
con un taller sobre calidad de datos
y también algunas sesiones en Wikimania.
00:08:07.442 --> 00:08:10.535
Entonces el objetivo de esta charla
es básicamente traer algunos pensamientos
00:08:10.536 --> 00:08:14.432
que hemos estado recolectando
de la comunidad y de nosotros mismos
00:08:14.432 --> 00:08:16.560
y continuar la discusión.
00:08:16.561 --> 00:08:20.065
Entonces, lo que nos gustaría es continuar
interactuando bastante con ustedes.
00:08:21.557 --> 00:08:23.371
Entonces, lo que pensamos
es muy importante
00:08:23.372 --> 00:08:27.580
es que le preguntamos continuamente
a todo tipo de usuarios en la comunidad
00:08:27.581 --> 00:08:32.020
sobre lo que realmente necesitan,
qué problemas tienen con la calidad
00:08:32.020 --> 00:08:35.000
de los datos; no solo a editores,
sino además a las personas que codifican,
00:08:35.000 --> 00:08:36.241
o consumen los datos,
00:08:36.242 --> 00:08:39.494
y también a investigadores que usan
todo el historial de edición
00:08:39.494 --> 00:08:40.970
para analizar lo que está pasando.
00:08:42.367 --> 00:08:48.431
Así que revisamos alrededor de 80
herramientas que existen en Wikidata
00:08:48.431 --> 00:08:52.380
y las alineamos a las diferentes
dimensiones de calidad de datos.
00:08:52.380 --> 00:08:54.360
Y lo que vimos fue que en realidad,
00:08:54.361 --> 00:08:57.681
muchas de ellas se enfocan en,
monitoreo de integridad,
00:08:57.682 --> 00:09:02.820
pero en realidad... algunas de ellas
también habilitan la interconexión.
00:09:02.820 --> 00:09:08.442
Pero hay una gran necesidad
de herramientas que busquen la diversidad,
00:09:08.443 --> 00:09:12.824
lo cual es una de las cosas
que realmente podemos tener en Wikidata,
00:09:12.824 --> 00:09:15.958
especialmente este principio
de diseño de Wikidata
00:09:15.959 --> 00:09:17.901
donde podemos tener pluralidad
00:09:17.902 --> 00:09:20.308
y diferentes declaraciones
con diferentes valores
00:09:20.834 --> 00:09:22.236
procedentes de diferentes fuentes.
00:09:22.236 --> 00:09:25.081
Debido a que es una fuente secundaria,
realmente no tenemos herramientas
00:09:25.081 --> 00:09:27.750
que nos digan cuántas
declaraciones plurales hay,
00:09:27.751 --> 00:09:30.889
y cuántas podemos mejorar y cómo,
00:09:30.890 --> 00:09:32.833
y tampoco sabemos realmente
00:09:32.833 --> 00:09:35.538
cuáles son todas las razones
de pluralidad que podemos tener.
00:09:36.491 --> 00:09:39.201
Entonces, de estas reuniones comunitarias,
00:09:39.201 --> 00:09:43.084
lo que discutimos fueron los desafíos
que aún necesitan atención.
00:09:43.084 --> 00:09:47.149
Por ejemplo, que tener
todas estas comunidades de crowdsourcing
00:09:47.149 --> 00:09:49.613
es muy bueno porque diversas personas
atacan diferentes partes
00:09:49.613 --> 00:09:51.833
de los datos o el gráfico,
00:09:51.834 --> 00:09:54.615
y también tenemos
conocimiento de fondo diferente
00:09:54.616 --> 00:09:59.161
pero en realidad, es muy difícil alinear
todo en algo homogéneo
00:09:59.162 --> 00:10:04.920
porque diversas personas están usando
diferentes propiedades de distintas formas
00:10:04.920 --> 00:10:08.401
y también esperan cosas diferentes
de las descripciones de entidades.
00:10:09.003 --> 00:10:12.721
La gente también dijo que también
necesitan más herramientas
00:10:12.722 --> 00:10:16.000
que den una mejor visión general
del estado global de las cosas.
00:10:16.000 --> 00:10:20.733
Entonces, qué entidades faltan
en términos de integridad,
00:10:20.733 --> 00:10:26.121
pero además en qué las personas
trabajan la mayor parte del tiempo,
00:10:26.121 --> 00:10:30.516
y también mencionan muchas veces
una colaboración más estrecha
00:10:30.517 --> 00:10:33.311
a través de, no solo idiomas,
sino los WikiProjects
00:10:33.311 --> 00:10:35.571
y las diferentes plataformas de Wikimedia.
00:10:35.571 --> 00:10:38.859
Y publicamos todos
los comentarios transcritos
00:10:38.860 --> 00:10:42.959
de todas estas discusiones
en esos enlaces aquí en los Etherpads
00:10:42.959 --> 00:10:46.162
y también en la página wiki de Wikimania.
00:10:46.162 --> 00:10:48.481
Algunas soluciones que aparecieron
00:10:48.481 --> 00:10:53.001
iban encaminados en compartir
más las mejores prácticas
00:10:53.001 --> 00:10:55.762
que se están desarrollando
en diferentes WikiProjects,
00:10:55.762 --> 00:11:01.238
pero también la gente quiere herramientas
que ayuden a ordenar el trabajo en equipos
00:11:01.239 --> 00:11:03.845
o al menos entender
quién está trabajando en eso,
00:11:03.845 --> 00:11:07.815
y también mencionaron
que quieren más vitrinas
00:11:07.816 --> 00:11:12.019
y más plantillas que los ayuden
a crear cosas de una mejor manera.
00:11:12.946 --> 00:11:15.161
Y del contacto que tenemos
00:11:15.162 --> 00:11:18.721
con organizaciones de datos
gubernamentales abiertos,
00:11:18.722 --> 00:11:20.068
y en particular,
00:11:20.068 --> 00:11:23.102
estoy en contacto con el cantón
y la ciudad de Zürich,
00:11:23.102 --> 00:11:26.207
están muy interesados
en trabajar con Wikidata
00:11:26.207 --> 00:11:29.896
porque quieren que sus datos
sean accesibles para todos
00:11:29.897 --> 00:11:33.681
en el lugar donde va la gente
y consulta o accede a los datos.
00:11:33.682 --> 00:11:36.550
Entonces para ellos, algo
que sería realmente interesante
00:11:36.551 --> 00:11:38.600
es tener algún tipo
de indicadores de calidad
00:11:38.600 --> 00:11:41.082
ambos en wiki, algo que ya sucede,
00:11:41.082 --> 00:11:42.801
y también en los resultados SPARQL,
00:11:42.802 --> 00:11:46.066
para saber si pueden confiar
o no en esos datos de la comunidad.
00:11:46.067 --> 00:11:48.230
Y luego, también quieren saber
00:11:48.230 --> 00:11:51.417
qué partes de sus propios conjuntos
de datos son útiles para Wikidata
00:11:51.418 --> 00:11:56.040
y les encantaría tener una herramienta
que los ayude a evaluarlo automáticamente.
00:11:56.041 --> 00:11:59.066
También necesitan algún tipo
de metodología o herramienta
00:11:59.067 --> 00:12:03.894
que les ayude a decidir si deberían
importar o vincular sus datos
00:12:03.894 --> 00:12:04.894
porque en algunos casos,
00:12:04.895 --> 00:12:07.567
también tienen sus propios
conjuntos de datos abiertos vinculados,
00:12:07.567 --> 00:12:09.746
así que no saben si
simplemente ingerir los datos
00:12:09.747 --> 00:12:13.424
o seguir creando enlaces
de los conjuntos de datos a Wikidata
00:12:13.425 --> 00:12:14.425
y a la inversa.
00:12:14.950 --> 00:12:20.043
Y también quieren saber a dónde
se refieren sus sitios web en Wikidata.
00:12:20.044 --> 00:12:23.361
Y cuando ejecutan tal consulta
en el servicio de consulta,
00:12:23.362 --> 00:12:24.848
a menudo obtienen tiempos de espera,
00:12:24.849 --> 00:12:28.181
entonces tal vez deberíamos
realmente crear más herramientas
00:12:28.181 --> 00:12:32.240
que les ayude a responder sus preguntas.
00:12:33.148 --> 00:12:36.208
Y además de eso,
00:12:36.208 --> 00:12:39.361
a nosotros, los investigadores de wiki,
también a veces
00:12:39.362 --> 00:12:42.023
nos falta algo de información
en la edición de resúmenes.
00:12:42.024 --> 00:12:44.953
Entonces me acuerdo de eso cuando
estábamos haciendo algo de trabajo
00:12:44.954 --> 00:12:48.919
para comprender el comportamiento
diferente de los editores
00:12:48.919 --> 00:12:53.403
con herramientas o robots
o usuarios anónimos, etc.
00:12:53.403 --> 00:12:56.154
realmente nos faltaba, por ejemplo,
00:12:56.154 --> 00:13:01.112
una forma estándar para rastrear
que las herramientas se usaban.
00:13:01.113 --> 00:13:03.154
Y hay algunas herramientas
que ya están haciendo eso
00:13:03.155 --> 00:13:05.230
como PetScan y muchas otras,
00:13:05.230 --> 00:13:07.720
pero tal vez deberíamos en la comunidad
00:13:07.721 --> 00:13:13.531
discutir más sobre cómo grabarlas
para una procedencia detallada.
00:13:14.169 --> 00:13:15.321
Y más adelante,
00:13:15.322 --> 00:13:20.801
creemos que necesitamos pensar sobre
dimensiones de calidad de datos
00:13:20.802 --> 00:13:24.961
más concretas que se relacionen
con los datos del enlace
00:13:24.962 --> 00:13:30.721
pero no todos los tipos de datos,
así que trabajamos en algunas medidas
00:13:30.722 --> 00:13:33.751
para acceder a la ganancia de información
habilitada por los enlaces,
00:13:33.751 --> 00:13:36.681
y lo que queremos decir es que cuando
enlazamos Wikidata a otros conjuntos
00:13:36.682 --> 00:13:38.201
de datos, también deberíamos pensar
00:13:38.202 --> 00:13:41.921
cuánto en realidad están ganando
las entidades en la clasificación,
00:13:41.922 --> 00:13:45.601
también en la descripción,
pero también en los vocabularios que usan.
00:13:45.602 --> 00:13:51.041
Solo para dar un ejemplo muy simple
de lo que quiero decir con esto
00:13:51.042 --> 00:13:54.269
es que podemos pensar en...
en este caso, que sería Wikidata
00:13:54.270 --> 00:13:57.771
o el conjunto de datos externos
que se vincula a Wikidata,
00:13:57.772 --> 00:14:00.487
tenemos la entidad para una persona
que se llama Natasha Noy,
00:14:00.487 --> 00:14:02.601
tenemos la afiliación y otras cosas,
00:14:02.602 --> 00:14:05.239
y luego decimos que sí,
nos vinculamos a un lugar externo,
00:14:05.240 --> 00:14:08.919
y esa entidad también tiene ese nombre,
pero en realidad tenemos el mismo valor.
00:14:08.920 --> 00:14:12.889
Lo que sería mejor es que lo vinculemos
a algo que tenga un nombre distinto,
00:14:12.889 --> 00:14:16.881
eso aún es válido, porque esta persona
tiene dos formas de escribir el nombre,
00:14:16.882 --> 00:14:19.714
y también otra información
que no tenemos en Wikidata
00:14:19.715 --> 00:14:21.760
o que no tenemos
en el otro conjunto de datos.
00:14:22.390 --> 00:14:24.652
Pero además, lo que es aún mejor
00:14:24.653 --> 00:14:27.770
es que en realidad estamos mirando
en el conjunto de datos de destino
00:14:27.770 --> 00:14:31.392
que también tienen nuevas formas
de clasificar la información.
00:14:31.393 --> 00:14:35.354
Entonces no solo es una persona,
sino que en el otro conjunto de datos,
00:14:35.355 --> 00:14:39.525
también dicen que es una mujer o cualquier
otra cosa con que la clasifiquen.
00:14:39.526 --> 00:14:43.401
Y si en el otro conjunto de datos,
están usando muchos otros vocabularios
00:14:43.402 --> 00:14:46.588
que también ayuda en todo el asunto
de recuperación de información.
00:14:47.371 --> 00:14:51.233
Entonces con eso,
también me gustaría decir
00:14:51.234 --> 00:14:55.809
que creemos que podemos
mostrar mejor las consultas federadas
00:14:55.810 --> 00:15:00.448
porque cuando miramos el registro
de consultas brindado por Malyshev et al.,
00:15:01.285 --> 00:15:04.301
vemos en realidad
que de las consultas orgánicas,
00:15:04.302 --> 00:15:06.921
solo tenemos muy pocas
consultas federadas.
00:15:06.922 --> 00:15:12.801
Y en realidad, la federación es una
de las ventajas clave de tener datos
00:15:12.802 --> 00:15:16.903
de enlace, entonces quizás la comunidad
o las personas que usan Wikidata
00:15:16.903 --> 00:15:18.898
también necesitan más ejemplos de esto.
00:15:18.898 --> 00:15:22.666
Y si miramos la lista de puntos finales
que se están usando,
00:15:22.667 --> 00:15:25.401
no es una lista completa
y tenemos muchos más.
00:15:25.402 --> 00:15:30.479
Desde luego, estos datos fueron analizados
de consultas hasta marzo de 2018,
00:15:30.480 --> 00:15:34.807
pero deberíamos mirar en la lista
de puntos finales federados que tenemos
00:15:34.808 --> 00:15:37.048
y ver si realmente
los estamos usando o no.
00:15:37.813 --> 00:15:40.441
Dos preguntas que tengo para la audiencia
00:15:40.442 --> 00:15:43.001
que tal vez podamos usar
luego para la discusión son:
00:15:43.001 --> 00:15:45.791
qué problemas de calidad de datos
debemos abordar en su opinión,
00:15:45.791 --> 00:15:47.412
de acuerdo a las necesidades que tengan,
00:15:47.412 --> 00:15:50.401
pero además, dónde necesitan
más automatización
00:15:50.402 --> 00:15:52.943
que los ayude
con la edición o la vigilancia.
00:15:53.866 --> 00:15:55.146
Eso es todo, muchas gracias.
00:15:55.779 --> 00:15:57.527
(aplausos)
00:16:06.030 --> 00:16:08.595
(Jose Emilio Labra) Bien,
entonces de lo que voy a hablar
00:16:08.595 --> 00:16:14.715
es de algunas herramientas que estábamos
desarrollando sobre Shape Expressions.
00:16:15.536 --> 00:16:19.371
Entonces de esto es de lo que quiero
hablar... Soy Jose Emilio Labra,
00:16:19.371 --> 00:16:23.215
pero esto... todas estas herramientas
han sido hechas por diferentes personas,
00:16:23.920 --> 00:16:28.480
relacionadas principalmente con W3C ShEx,
Grupo de Comunidad de Shape Expressions.
00:16:28.481 --> 00:16:29.481
Grupo de Comunidad ShEx.
00:16:30.144 --> 00:16:36.081
La primera herramienta que deseo mencionar
es RDFShape, es una herramienta general,
00:16:36.082 --> 00:16:40.681
porque Shape Expressions
no es solo para Wikidata,
00:16:40.682 --> 00:16:44.168
las expresiones de forma es un lenguaje
para validar RDF en general.
00:16:44.168 --> 00:16:47.568
Entonces, esta herramienta fue
desarrollada principalmente por mí
00:16:47.568 --> 00:16:50.880
y es una herramienta
para validar RDF en general.
00:16:50.881 --> 00:16:55.139
Entonces, si quieres aprender sobre RDF
o quieres validar RDF
00:16:55.140 --> 00:16:58.621
o puntos finales SPARQL
no solo en Wikidata,
00:16:58.622 --> 00:17:00.891
mi consejo es que puedes
usar esta herramienta.
00:17:00.891 --> 00:17:03.255
También para enseñar.
00:17:03.255 --> 00:17:05.640
Soy profesor en la universidad
00:17:05.641 --> 00:17:09.151
y la uso en mi curso semántico web
para enseñar RDF.
00:17:09.161 --> 00:17:12.121
Entonces, si quieres aprender RDF,
creo que es una buena herramienta.
00:17:13.033 --> 00:17:17.598
Por ejemplo, esta es una visualización
de un gráfico RDF con la herramienta.
00:17:18.587 --> 00:17:22.643
Pero antes de venir aquí,
en el último mes,
00:17:22.643 --> 00:17:28.441
empecé una bifurcación de rdfshape
específicamente para Wikidata,
00:17:28.443 --> 00:17:33.082
porque pensé... se llama WikiShape y ayer
lo presenté como un regalo para Wikidata.
00:17:33.082 --> 00:17:34.441
Entonces lo que tomé es...
00:17:34.442 --> 00:17:39.898
lo que hice fue eliminar todas las cosas
que no estaban relacionadas con Wikidata
00:17:39.898 --> 00:17:44.801
y poner varias cosas, codificadas,
por ejemplo, el punto final de Wikidata
00:17:44.802 --> 00:17:49.041
SPARQL, pero ahora, alguien me preguntó
si pudiera hacerlo también para Wikibase.
00:17:49.042 --> 00:17:52.000
Y también es muy fácil
hacerlo para Wikibase.
00:17:52.760 --> 00:17:56.280
Entonces, esta herramienta,
WikiShape, es bastante nueva.
00:17:57.015 --> 00:17:59.843
Creo que funciona,
la mayoría de las características,
00:17:59.844 --> 00:18:02.468
pero hay algunas características
que tal vez no funcionen,
00:18:02.469 --> 00:18:06.281
y si lo intentas y quieres
mejorarla, por favor dímelo.
00:18:06.281 --> 00:18:12.680
Estas son capturas [inaudible],
pero creo que puedo intentar, veámos.
00:18:15.385 --> 00:18:16.945
Entonces, veamos si funciona.
00:18:16.953 --> 00:18:20.070
Primero, tengo que salir de...
00:18:22.453 --> 00:18:23.453
Aquí.
00:18:24.226 --> 00:18:28.124
De acuerdo, sí. Esta es la herramienta.
00:18:28.124 --> 00:18:29.844
Cosas que puedes hacer con la herramienta,
00:18:29.845 --> 00:18:35.275
por ejemplo, es que puedes
comprobar esquemas, esquemas de entidad.
00:18:35.276 --> 00:18:38.611
Sabes que hay un nuevo espacio
de nombres que es "E lo que sea",
00:18:38.612 --> 00:18:44.805
así que si comienzas, por ejemplo,
escribe por ejemplo "humano"...
00:18:44.806 --> 00:18:48.812
Mientras escribes, su autocompletado
te permite verificar,
00:18:48.812 --> 00:18:52.001
por ejemplo, estas son
las Shape Expressions de un humano,
00:18:52.790 --> 00:18:55.937
y estas son las Shape Expressions aquí.
00:18:55.938 --> 00:18:59.841
Y como puedes ver,
este editor tiene resaltado de sintaxis,
00:18:59.842 --> 00:19:04.559
esto es... bueno,
tal vez es muy pequeña, la pantalla.
00:19:05.676 --> 00:19:07.590
Puedo intentar hacerla más grande.
00:19:09.194 --> 00:19:10.973
Quizás lo veas mejor ahora.
00:19:10.973 --> 00:19:14.241
Y este es el editor con resaltado
de sintaxis y también tiene...
00:19:14.241 --> 00:19:17.851
Quiero decir, este editor
proviene del mismo código fuente
00:19:17.851 --> 00:19:19.641
del servicio de consulta de Wikidata.
00:19:19.642 --> 00:19:23.960
Así que por ejemplo,
si pasas el ratón por aquí,
00:19:23.961 --> 00:19:27.961
te muestra las etiquetas
de las diferentes propiedades.
00:19:27.962 --> 00:19:31.298
Entonces creo que es muy útil
porque ahora los esquemas de entidad
00:19:32.588 --> 00:19:38.601
que están en Wikidata
son solo una idea de texto plano,
00:19:38.602 --> 00:19:42.493
y creo que este editor es mucho mejor
porque tiene autocompletado
00:19:42.494 --> 00:19:43.743
y también tiene...
00:19:43.744 --> 00:19:48.241
Quiero decir, si tú, por ejemplo,
querías agregar una restricción,
00:19:48.241 --> 00:19:51.570
dices "wdt:"
00:19:51.570 --> 00:19:56.884
Empiezas a escribir "autor"
y luego haces clic en Ctrl + Espacio
00:19:56.884 --> 00:19:58.922
y te sugiere las diferentes cosas.
00:19:58.922 --> 00:20:02.388
Entonces esto es similar
al servicio de consulta de Wikidata
00:20:02.389 --> 00:20:06.445
pero específicamente
para Shape Expressions
00:20:06.445 --> 00:20:11.975
porque lo que siento es que crear
Shape Expressions
00:20:11.976 --> 00:20:15.841
no es más difícil
que escribir consultas SPARQL.
00:20:15.842 --> 00:20:21.255
Entonces algunas personas piensan
que está al mismo nivel,
00:20:22.278 --> 00:20:26.296
Probablemente sea más fácil, creo,
porque Shape Expressions era,
00:20:26.296 --> 00:20:31.241
cuando lo diseñamos, lo hicimos
para que fuera más fácil de trabajar.
00:20:31.242 --> 00:20:35.001
Bien, esta es una de las primeras cosas,
que tienes este editor
00:20:35.001 --> 00:20:36.620
para Shape Expressions.
00:20:37.371 --> 00:20:41.467
Y luego también tienes la posibilidad,
por ejemplo, de visualizar.
00:20:41.468 --> 00:20:44.801
Si tienes un Shape Expression,
usar por ejemplo...
00:20:44.802 --> 00:20:49.386
Creo, "trabajo escrito" es
un buen Shape Expression
00:20:49.386 --> 00:20:53.300
porque tiene algunas relaciones
entre diferentes cosas.
00:20:54.823 --> 00:20:58.160
Y esta es la visualización UML
del trabajo escrito.
00:20:58.161 --> 00:21:02.090
En un UML, es fácil ver
las diferentes propiedades.
00:21:02.790 --> 00:21:06.794
Cuando haces esto, me di cuenta
cuando intenté con varias personas,
00:21:06.795 --> 00:21:09.216
que encuentran algunos errores
en sus Shape Expressions
00:21:09.217 --> 00:21:12.988
porque es fácil detectar cuáles son
las propiedades faltantes o lo que sea.
00:21:13.588 --> 00:21:15.771
Entonces hay otra posibilidad aquí
00:21:15.772 --> 00:21:19.520
es que también puedes validar,
creo que lo tengo aquí, la validación.
00:21:20.496 --> 00:21:25.285
Creo que lo tenía en alguna etiqueta,
tal vez lo cerré.
00:21:26.267 --> 00:21:30.988
Bien, pero puedes, por ejemplo,
puedes hacer clic aquí, Validar entidades.
00:21:32.308 --> 00:21:34.232
Tú, por ejemplo,
00:21:35.404 --> 00:21:41.921
"q42" con "e42", que es el autor.
00:21:42.818 --> 00:21:46.180
Con "humano", creo que podemos
hacerlo con "humanos".
00:21:49.050 --> 00:21:50.050
Y luego es...
00:21:50.688 --> 00:21:56.365
Y está tomando un poco de tiempo hacerlo
porque está haciendo las consultas SPARQL
00:21:56.365 --> 00:21:59.134
y ahora, por ejemplo,
está fallando por la red pero...
00:21:59.657 --> 00:22:01.580
Puedes probarlo.
00:22:02.759 --> 00:22:07.026
Bien, continuemos con la presentación,
con otras herramientas.
00:22:07.026 --> 00:22:12.353
Así que que si quieres probarlo
y quieres algún comentario, házmelo saber.
00:22:13.133 --> 00:22:15.540
Entonces para continuar
con la presentación...
00:22:18.923 --> 00:22:20.233
Entonces esto es WikiShape.
00:22:23.800 --> 00:22:26.509
Bien, ya dije esto,
00:22:27.681 --> 00:22:34.157
el editor de Shape Expressions
es un proyecto independiente en GitHub.
00:22:35.605 --> 00:22:37.472
Puedes usarlo en tu propio proyecto.
00:22:37.472 --> 00:22:41.036
Si quieres hacer una herramienta
de Shape Expressions,
00:22:41.036 --> 00:22:45.635
puedes incrustarlo
en cualquier otro proyecto,
00:22:45.636 --> 00:22:48.235
está en GitHub y puedes usarlo.
00:22:48.868 --> 00:22:51.970
El mismo autor, es uno de mis alumnos,
00:22:52.684 --> 00:22:55.534
él también creó
un editor para Shape Expressions,
00:22:55.534 --> 00:22:57.799
también inspirado por el servicio
de consulta de Wikidata
00:22:57.800 --> 00:23:00.681
donde, en una columna,
00:23:00.682 --> 00:23:05.103
tienes este editor más visual
de consultas SPARQL
00:23:05.104 --> 00:23:07.135
donde puedes poner este tipo de cosas.
00:23:07.136 --> 00:23:09.123
Esta es una captura de pantalla.
00:23:09.123 --> 00:23:12.662
Puedes ver que esas son
las Shape Expressions en el texto
00:23:12.662 --> 00:23:17.822
pero es una forma de Shape Expressions
donde tal vez tome un poco más de tiempo
00:23:18.595 --> 00:23:23.400
donde puedes poner las diferentes filas
en los diferentes campos.
00:23:23.401 --> 00:23:25.800
Luego está ShExEr.
00:23:26.879 --> 00:23:31.882
Tenemos que... Lo hizo un estudiante
de doctorado de la universidad de Oviedo
00:23:31.883 --> 00:23:34.080
y él está aquí,
así que puedes presentar ShExEr.
00:23:38.147 --> 00:23:40.024
(Danny) Hola, soy Danny Fernández,
00:23:40.025 --> 00:23:43.340
Soy un estudiante de doctorado
de la Universidad de Oviedo
00:23:43.340 --> 00:23:44.710
y trabajo con Labra.
00:23:44.710 --> 00:23:47.725
Ya que hay poco tiempo,
hagamos esto rápido,
00:23:47.726 --> 00:23:52.641
no tomemos ninguna demostración real,
solo con algunas capturas de pantalla.
00:23:52.642 --> 00:23:57.897
La forma habitual de trabajar
con Shape Expressions o cualquier lenguaje
00:23:57.897 --> 00:23:59.521
es que tienes un experto en dominios
00:23:59.522 --> 00:24:02.313
que define a priori
cómo debería verse el gráfico,
00:24:02.314 --> 00:24:03.555
define algunas estructuras,
00:24:03.556 --> 00:24:06.983
y luego usas estas estructuras
para validar los datos reales con él.
00:24:08.124 --> 00:24:11.641
Esta herramienta, que es tan buena como
la que Labra ha estado presentando,
00:24:11.642 --> 00:24:14.441
es una herramienta de uso general
para cualquier fuente RDF,
00:24:14.442 --> 00:24:17.375
está diseñada para hacer lo contrario.
00:24:17.376 --> 00:24:18.758
Ya tienes algunos datos,
00:24:18.759 --> 00:24:23.165
selecciona de qué nodos
quieres tener la forma
00:24:23.165 --> 00:24:26.718
y luego automáticamente
extrae o infiere la forma.
00:24:26.719 --> 00:24:29.791
Aunque esta es una herramienta
de propósito general,
00:24:29.791 --> 00:24:34.063
lo que hicimos para esta WikidataCon
es este botón elegante
00:24:34.884 --> 00:24:37.081
que si haces clic en él,
esencialmente lo que pasa
00:24:37.081 --> 00:24:42.079
es que hay tantos
parámetros de configuraciones
00:24:42.080 --> 00:24:46.251
y lo configura para funcionar
con el punto final de Wikidata
00:24:46.251 --> 00:24:47.971
y terminará pronto, lo siento.
00:24:48.733 --> 00:24:52.883
Una vez que presionas este botón
lo que obtienes es esencialmente esto.
00:24:52.884 --> 00:24:55.126
Después de haber seleccionado
qué tipo de nodos,
00:24:55.127 --> 00:24:59.360
qué tipo de instancias de nuestra clase,
lo que sea que estés buscando,
00:24:59.361 --> 00:25:01.321
obtienes un esquema automático.
00:25:02.319 --> 00:25:07.111
Todas las restricciones están ordenadas
por cuántos nodos se ajusten a él,
00:25:07.112 --> 00:25:09.772
puedes filtrar los menos comunes, etc.
00:25:09.772 --> 00:25:12.126
Hay un cartel abajo de estas cosas
00:25:12.127 --> 00:25:14.595
y bueno, estaré abajo y arriba
00:25:14.596 --> 00:25:16.454
y por todo el lugar todo el día,
00:25:16.455 --> 00:25:19.081
así que si tienes más interés
en esta herramienta,
00:25:19.082 --> 00:25:21.476
solo háblame durante este viaje.
00:25:21.477 --> 00:25:24.624
Y ahora, le devolveré
el micrófono a Labra, gracias.
00:25:24.625 --> 00:25:29.265
(aplausos)
00:25:29.812 --> 00:25:32.578
(Jose) Bien, continuemos
con las otras herramientas.
00:25:32.579 --> 00:25:34.984
La otra herramienta es ShapeDesigner.
00:25:34.984 --> 00:25:37.241
Andra, ¿quieres hacer
el ShapeDesigner ahora
00:25:37.242 --> 00:25:39.287
o tal vez más tarde o en el taller?
00:25:39.287 --> 00:25:40.603
Hay un taller...
00:25:40.603 --> 00:25:44.437
Esta tarde hay un taller específicamente
para Shape Expressions, y...
00:25:45.265 --> 00:25:47.939
La idea es que iba a practicarse más,
00:25:47.940 --> 00:25:52.324
y si quieres practicar
un poco de ShEx, puedes hacerlo allí.
00:25:52.875 --> 00:25:55.720
Esta herramienta es ShEx...
y ahí está Eric,
00:25:55.721 --> 00:25:56.890
así que puedes presentarla.
00:25:57.969 --> 00:26:00.687
(Eric) Así que rápidamente,
lo que quiero decir
00:26:00.687 --> 00:26:05.711
es que probablemente
ya has visto la interfaz de ShEx
00:26:05.711 --> 00:26:07.601
está hecho para Wikidata.
00:26:07.602 --> 00:26:12.930
Está efectivamente despojado
y diseñado específicamente para Wikidata,
00:26:12.930 --> 00:26:17.667
el genérico tiene más características
pero pensé que ya lo había mencionado
00:26:17.667 --> 00:26:19.977
porque una de esas características
es particularmente útil
00:26:19.978 --> 00:26:23.201
para depurar esquemas de Wikidata,
00:26:23.201 --> 00:26:29.224
la cual es que si vas
y seleccionas el modo de sorber,
00:26:29.225 --> 00:26:31.444
lo que hace es decir
mientras estoy validando,
00:26:31.445 --> 00:26:34.694
quiero derribar todos los triples
y eso significa
00:26:34.695 --> 00:26:36.274
que si tengo un montón de fallas,
00:26:36.275 --> 00:26:39.586
puedo pasar y empezar a buscar
esas fallas y decir,
00:26:39.587 --> 00:26:41.800
cuáles son los triples que están aquí,
00:26:41.801 --> 00:26:44.120
lo siento, los triples están aquí abajo,
00:26:44.121 --> 00:26:45.757
esto es solo un registro de lo que pasó.
00:26:46.327 --> 00:26:49.180
Luego puedes sentarte allí
y jugar con él en tiempo real
00:26:49.181 --> 00:26:51.033
como si jugaras con algo que cambia.
00:26:51.033 --> 00:26:54.160
Es una versión más rápida
para hacer todo eso.
00:26:55.201 --> 00:26:56.481
Este es un formulario de ShExC,
00:26:56.482 --> 00:26:59.455
esto es algo que [Joachim] había sugerido
00:27:00.035 --> 00:27:04.631
podría ser útil para poblar
documentos de Wikidata
00:27:04.631 --> 00:27:07.338
basados en una Shape Expression
para ese documento.
00:27:08.095 --> 00:27:11.681
Esto no está diseñado para Wikidata,
00:27:11.682 --> 00:27:13.981
pero es solo para decir
que puedes tener un esquema
00:27:13.981 --> 00:27:15.402
y puedes tener algunas anotaciones
00:27:15.403 --> 00:27:17.518
y decir específicamente cómo quiero
hacer ese esquema
00:27:17.519 --> 00:27:19.031
y luego se construye un formulario,
00:27:19.031 --> 00:27:21.191
y si tienes datos,
se puede llenar el formulario.
00:27:24.517 --> 00:27:26.164
PyShEx [inaudible].
00:27:28.025 --> 00:27:31.080
(Jose) Creo que este es el último.
00:27:31.821 --> 00:27:34.080
Sí, el último es PyShEx.
00:27:34.675 --> 00:27:38.151
PyShEx es una implementación Python
de Shape Expressions,
00:27:39.193 --> 00:27:42.680
puedes jugar también con Jupyter Notebooks
si quieres ese tipo de cosas.
00:27:42.680 --> 00:27:44.432
Bien, eso es todo de esto.
00:27:44.433 --> 00:27:47.170
(aplausos)
00:27:52.916 --> 00:27:57.073
(Andra) Voy a hablar sobre un proyecto
específico en el que estoy involucrado
00:27:57.074 --> 00:27:58.074
llamado Gene Wiki,
00:27:58.075 --> 00:28:04.596
y donde también estamos
lidiando con problemas de calidad.
00:28:04.597 --> 00:28:06.684
Pero antes de entrar en la calidad,
00:28:06.685 --> 00:28:09.229
una introducción rápida
sobre qué es Gene Wiki,
00:28:09.855 --> 00:28:15.175
y recientemente lanzamos una preimpresión
de un artículo que acabamos de escribir
00:28:15.175 --> 00:28:18.160
que explica los detalles del proyecto.
00:28:19.821 --> 00:28:23.839
Veo gente tomando fotos,
pero básicamente, lo que hace Gene Wiki,
00:28:23.846 --> 00:28:28.027
es tratar de obtener datos biomédicos,
datos públicos en Wikidata,
00:28:28.028 --> 00:28:32.200
y seguimos un patrón específico
para obtener esos datos en Wikidata.
00:28:33.130 --> 00:28:36.809
Y cuando tenemos un nuevo repositorio
o un nuevo conjunto de datos
00:28:36.810 --> 00:28:39.390
que puede ser incluido en Wikidata,
00:28:39.390 --> 00:28:41.403
el primer paso es la participación
de la comunidad.
00:28:41.403 --> 00:28:43.784
No es necesario dirigirse
a una comunidad de Wikidata
00:28:43.785 --> 00:28:46.120
sino a una comunidad
de investigación local,
00:28:46.121 --> 00:28:50.286
y nos encontramos en persona
o en línea o en cualquier plataforma
00:28:50.286 --> 00:28:52.881
e intentar crear un modelo de datos
00:28:52.882 --> 00:28:56.197
que unan sus datos
con el modelo de Wikidata.
00:28:56.197 --> 00:28:59.944
Aquí tengo una foto de un taller
que se hizo aquí el año pasado
00:28:59.945 --> 00:29:02.663
donde se trataba de ver
un conjunto de datos específico
00:29:02.663 --> 00:29:05.280
y, bueno, ves muchas discusiones,
00:29:05.281 --> 00:29:09.780
luego alineándolo con schema.org
y otras ontologías que hay por ahí.
00:29:10.320 --> 00:29:15.508
Luego, al final del primer paso, tenemos
un dibujo en pizarra del esquema
00:29:15.509 --> 00:29:17.336
que queremos implementar en Wikidata.
00:29:17.337 --> 00:29:20.440
Lo que ves allí, es claro,
00:29:20.441 --> 00:29:21.766
lo tenemos al fondo,
00:29:21.767 --> 00:29:25.240
incluso hoy podemos hacer
algunos esquemas dentro de este panel.
00:29:26.560 --> 00:29:28.399
Una vez que tengamos
el esquema en su lugar,
00:29:28.400 --> 00:29:31.320
lo siguiente es intentar hacer
ese esquema legible por la máquina
00:29:32.358 --> 00:29:36.841
porque quieres tener modelos accionables
para unir los datos que traes
00:29:36.842 --> 00:29:39.690
de cualquier base de datos
biomédica en Wikidata.
00:29:40.393 --> 00:29:45.182
Y aquí estamos aplicando
Shape Expressions.
00:29:46.471 --> 00:29:52.518
Y usamos eso porque Shape Expressions
te permite probar
00:29:52.518 --> 00:29:57.040
si el conjunto de datos en realidad...
no, para ver primero
00:29:57.041 --> 00:30:01.782
si los datos ya existentes en Wikidata
siguen el mismo modelo de datos
00:30:01.783 --> 00:30:04.718
que se logró en el proceso anterior.
00:30:04.719 --> 00:30:06.641
Entonces, con Shape Expression
podemos verificar:
00:30:06.642 --> 00:30:10.926
los datos que están en este tema
en Wikidata, ¿necesitan algo de limpieza
00:30:10.926 --> 00:30:15.013
o necesitamos adaptar nuestro modelo
al modelo de Wikidata o viceversa?
00:30:15.937 --> 00:30:19.867
Una vez que esté en su lugar
y comenzamos a escribir robots,
00:30:20.670 --> 00:30:23.801
y los robots están sembrando
la información
00:30:23.802 --> 00:30:27.308
que está en las fuentes primarias
de Wikidata.
00:30:27.846 --> 00:30:29.303
Y cuando los robots estén listos,
00:30:29.304 --> 00:30:33.001
escribimos estos robots
con una plataforma llamada...
00:30:33.002 --> 00:30:36.201
con una biblioteca de Python
llamada integrador de Wikidata
00:30:36.202 --> 00:30:38.167
que salió de nuestro proyecto.
00:30:38.698 --> 00:30:42.921
Una vez que tengamos nuestros robots,
usamos una plataforma llamada Jenkins
00:30:42.921 --> 00:30:44.540
para una integración continua.
00:30:44.540 --> 00:30:45.762
Y con Jenkins,
00:30:45.762 --> 00:30:51.160
actualizamos continuamente
las fuentes primarias con Wikidata.
00:30:52.178 --> 00:30:55.889
Este es un diagrama para el artículo
que mencioné previamente.
00:30:55.890 --> 00:30:57.241
Este es nuestro panorama actual.
00:30:57.242 --> 00:31:02.059
Cada caja naranja de ahí
es una fuente primaria de drogas,
00:31:02.060 --> 00:31:07.827
proteínas, genes, enfermedades,
compuestos químicos con interacción,
00:31:07.827 --> 00:31:10.870
y este modelo es
demasiado pequeño para leer
00:31:10.870 --> 00:31:17.472
pero esta es la base de datos,
las fuentes que gestionamos en Wikidata
00:31:17.473 --> 00:31:20.560
y se unen con las fuentes primarias.
00:31:20.561 --> 00:31:22.355
Este es el flujo de trabajo.
00:31:22.870 --> 00:31:25.312
Uno de nuestros socios
es la ontología de la enfermedad
00:31:25.312 --> 00:31:27.672
la ontología de la enfermedad
es una ontología CC0,
00:31:28.179 --> 00:31:31.990
y la ontología CC0
tiene un ciclo propio de curación,
00:31:32.756 --> 00:31:35.736
ellos continuamente actualizan
la ontología de la enfermedad
00:31:35.737 --> 00:31:39.687
para reflejar el espacio de la enfermedad
o la interpretación de enfermedades.
00:31:40.336 --> 00:31:44.361
Ahí está también el ciclo de curación
de Wikidata en enfermedades
00:31:44.362 --> 00:31:49.844
donde la comunidad de Wikidata
monitorea lo que ocurre en Wikidata.
00:31:50.406 --> 00:31:51.601
Y luego tenemos dos roles,
00:31:51.602 --> 00:31:55.477
los llamamos coloquialmente
el portero guardián,
00:31:56.009 --> 00:31:59.561
este éramos un colega y yo hace cinco años
00:31:59.562 --> 00:32:03.414
y nos sentábamos en nuestras computadoras
a monitorear Wikipedia y Wikidata,
00:32:03.415 --> 00:32:08.601
si había un problema que fuera
reportado a la comunidad primaria,
00:32:08.602 --> 00:32:11.765
las fuentes primarias, miraban
la implementación y decidían:
00:32:11.765 --> 00:32:14.240
¿confiamos en la entrada de Wikidata?
00:32:14.850 --> 00:32:18.555
Sí... entonces se considera,
y entra en el ciclo,
00:32:18.555 --> 00:32:22.686
y la próxima iteración es parte
de la ontología de la enfermedad
00:32:22.687 --> 00:32:25.411
y se retroalimentaba a Wikidata.
00:32:27.419 --> 00:32:31.480
Estamos haciendo lo mismo en WikiPathways.
00:32:31.481 --> 00:32:36.601
WikiPathways es una ruta inspirada
en MediaWiki y un repositorio de la ruta.
00:32:36.602 --> 00:32:40.901
La misma historia, ya hay diferentes
recursos de ruta en Wikidata.
00:32:41.463 --> 00:32:44.713
Puede haber conflictos
entre esos recursos de ruta
00:32:44.722 --> 00:32:46.701
y estos conflictos se reportan de nuevo
00:32:46.702 --> 00:32:49.521
por los porteros guardianes
a esa comunidad,
00:32:49.522 --> 00:32:53.715
y tú mantienes
los ciclos de curación individual.
00:32:53.715 --> 00:32:57.068
Pero si recuerdas el ciclo anterior,
00:32:57.069 --> 00:33:03.041
aquí solo mencioné dos ciclos,
dos recursos,
00:33:03.566 --> 00:33:06.300
tenemos que hacer eso
para cada recurso que tenemos
00:33:06.300 --> 00:33:08.061
y tenemos que gestionar lo que ocurre
00:33:08.062 --> 00:33:09.185
porque cuando digo curación,
00:33:09.185 --> 00:33:11.787
Realmente me refiero a ir
a las páginas principales de Wikipedia,
00:33:11.787 --> 00:33:14.544
entrar en las páginas principales
de Wikidata y tratar de hacer eso.
00:33:14.545 --> 00:33:19.316
Eso no pesa para los dos porteros
guardianes que tuvimos.
00:33:19.860 --> 00:33:22.777
Cuando estaba en una conferencia en 2016
00:33:22.778 --> 00:33:26.933
donde Eric hizo una presentación
de Shape Expressions,
00:33:26.934 --> 00:33:29.277
salté al carro y dije bien,
00:33:29.278 --> 00:33:34.240
Shape Expressions puede ayudarnos
a detectar qué diferencias hay en Wikidata
00:33:34.240 --> 00:33:41.159
y eso permite que los porteros guardianes
tengan informes más eficazes que reportar.
00:33:42.275 --> 00:33:46.019
Entonces este año, estaba encantado
con la entidad del esquema
00:33:46.020 --> 00:33:50.765
porque ahora, podemos almacenar
esos esquemas de entidad en Wikidata,
00:33:50.765 --> 00:33:53.183
en el mismo Wikidata,
mientras que antes estaban en GitHub,
00:33:53.860 --> 00:33:56.815
y esto se alinea
con la interfaz de Wikidata,
00:33:56.816 --> 00:33:59.350
entonces tienes cosas
como discusiones de documentos
00:33:59.350 --> 00:34:00.762
pero también tienes revisiones.
00:34:00.763 --> 00:34:05.261
Puedes aprovechar las páginas principales
y las revisiones en Wikidata
00:34:05.262 --> 00:34:12.255
y usar eso para discutir
sobre lo que hay en Wikidata
00:34:12.255 --> 00:34:14.060
y qué hay en las fuentes primarias.
00:34:14.966 --> 00:34:19.686
Entonces, lo que Eric acaba de presentar,
ya es un gran beneficio.
00:34:19.686 --> 00:34:24.335
Así que aquí, creamos una Shape Expression
para el gen humano,
00:34:24.336 --> 00:34:30.225
y luego lo ejecutamos en ShEx simple,
tal como puedes ver,
00:34:30.225 --> 00:34:32.428
ya tenemos...
00:34:32.429 --> 00:34:34.641
Hay un problema que necesita
ser monitoreado
00:34:34.642 --> 00:34:37.316
es que hay un elemento
que no encaja en ese esquema,
00:34:37.316 --> 00:34:43.139
y entonces ya puedes crear informes
de curación de entidades de esquema
00:34:43.140 --> 00:34:46.240
basados en... y enviar eso
a los diferentes informes de curación.
00:34:48.058 --> 00:34:52.788
Pero ShEx.js es una interfaz integrada,
00:34:52.788 --> 00:34:55.860
y si puedo mostrar aquí, solo hago diez,
00:34:55.860 --> 00:35:00.362
pero tenemos decenas de miles,
y eso nuevamente no pesa.
00:35:00.362 --> 00:35:04.654
Entonces, ahora el integrador de Wikidata
también es compatible con ShEx,
00:35:05.168 --> 00:35:07.431
y luego podemos enlazar
bucles de elementos
00:35:07.431 --> 00:35:11.494
donde decimos sí-no, sí-no,
verdadero-falso, verdadero-falso.
00:35:11.495 --> 00:35:12.495
Así que de nuevo,
00:35:13.065 --> 00:35:16.514
aumentamos un poco la eficiencia
de lidiar con los informes.
00:35:17.256 --> 00:35:22.662
Pero ahora, recientemente, se construye
en el servicio de consultas de Wikidata,
00:35:23.181 --> 00:35:24.998
y bueno, recientemente
hemos ido acelerando
00:35:24.999 --> 00:35:26.560
así que de nuevo, eso no pesa.
00:35:26.561 --> 00:35:31.391
Aún es un proceso continuo,
el cómo lidiar con modelos en Wikidata.
00:35:32.202 --> 00:35:36.682
Y de nuevo, ShEx no solo es intimidante
00:35:36.683 --> 00:35:40.356
sino que también la escala es
demasiado grande para tratarla.
00:35:41.068 --> 00:35:46.081
Así que empecé a trabajar, esta es
mi primera prueba de concepto o ejercicio
00:35:46.082 --> 00:35:47.680
donde usé una herramienta llamada yED,
00:35:48.184 --> 00:35:52.590
y empecé a dibujar
esas Shape Expressions porque...
00:35:52.591 --> 00:35:58.098
y luego regenero este esquema
00:35:58.099 --> 00:36:01.279
en este formato adyacente
de Shape Expressions,
00:36:01.280 --> 00:36:04.520
así que eso ya se abriría a la audiencia
00:36:04.521 --> 00:36:07.432
que está intimidada
por los lenguajes de Shape Expressions.
00:36:07.961 --> 00:36:12.308
Pero en realidad, hay un problema
con esas descripciones visuales
00:36:12.309 --> 00:36:18.229
porque también es un esquema
que fue dibujado en yEd por alguien.
00:36:18.230 --> 00:36:23.838
Y aquí hay otro que es hermoso.
00:36:23.838 --> 00:36:29.414
Me encantaría tenerlo en mi pared,
pero aún no es interoperable.
00:36:30.281 --> 00:36:32.131
Así que quiero terminar mi charla con,
00:36:32.131 --> 00:36:35.732
y la primera vez, me he estado robando
esta diapositiva, usando esta diapositiva.
00:36:35.732 --> 00:36:37.594
Es un honor tenerlo en la audiencia
00:36:37.595 --> 00:36:39.423
y realmente me gusta esto:
00:36:39.424 --> 00:36:42.362
"La gente piensa que RDF es una molestia
porque es complicado.
00:36:42.362 --> 00:36:43.985
La verdad es aún peor, es tan simple,
00:36:45.581 --> 00:36:48.133
porque tienes que trabajar
con problemas de datos del mundo real
00:36:48.134 --> 00:36:50.031
que son terriblemente complicados.
00:36:50.031 --> 00:36:51.451
Si bien puedes evitar RDF,
00:36:51.451 --> 00:36:55.760
es más difícil evitar datos complicados
y problemas informáticos complicados".
00:36:55.761 --> 00:36:59.535
Esto es sobre RDF, pero creo
que también aplica al modelado.
00:37:00.112 --> 00:37:02.769
Entonces, mi punto de discusión
es si realmente...
00:37:03.387 --> 00:37:05.882
¿Cómo iniciamos el modelado?
00:37:05.882 --> 00:37:10.826
¿Deberíamos discutir sobre ShEx,
o modelos visuales o...?
00:37:11.426 --> 00:37:13.271
¿Cómo continuamos?
00:37:13.474 --> 00:37:14.840
Muchas gracias por tu tiempo.
00:37:15.102 --> 00:37:17.787
(aplausos)
00:37:20.001 --> 00:37:21.188
(Lydia) Muchas gracias.
00:37:21.692 --> 00:37:24.001
¿Vendrían aquí delante
00:37:24.002 --> 00:37:27.741
para que podamos iniciar
con las preguntas de la audiencia?
00:37:28.610 --> 00:37:30.203
¿Hay preguntas?
00:37:31.507 --> 00:37:32.507
Sí.
00:37:34.253 --> 00:37:36.890
Y creo que, para la cámara, necesitamos...
00:37:38.835 --> 00:37:40.968
(Lydia riendo) Sí.
00:37:43.094 --> 00:37:46.273
(persona 3) Una pregunta
para Cristina, creo.
00:37:47.366 --> 00:37:51.641
Mencionaste el término
"ganancia de información"
00:37:51.642 --> 00:37:53.689
y vincularse con otros sistemas.
00:37:53.690 --> 00:37:55.460
Hay una medida teórica de la información
00:37:55.460 --> 00:37:58.101
que usa estadística y probabilidad
llamada ganancia de información.
00:37:58.101 --> 00:37:59.541
¿Tienes el mismo...
00:37:59.542 --> 00:38:01.736
Quiero decir, ¿querías decir
exactamente esa medida,
00:38:01.736 --> 00:38:04.173
la ganancia de información
de la teoría de la probabilidad
00:38:04.174 --> 00:38:05.420
de la teoría de la información
00:38:05.420 --> 00:38:09.024
o simplemente usar esta cosa conceptual
para medir la ganancia de información?
00:38:09.025 --> 00:38:13.016
No, definimos e implementamos medidas
00:38:13.695 --> 00:38:20.161
que usan la entropía de Shannon,
así que se entiende así.
00:38:20.162 --> 00:38:22.596
No quise entrar en detalles
de las fórmulas concretas...
00:38:22.596 --> 00:38:24.977
(persona 3) No, no, por supuesto,
por eso hice la pregunta.
00:38:24.978 --> 00:38:26.818
- (Cristina) Pero, sí...
- (persona 3) Gracias.
00:38:33.091 --> 00:38:35.047
(persona 4) Más un comentario
que una pregunta.
00:38:35.048 --> 00:38:36.241
(Lydia) Dilo.
00:38:36.242 --> 00:38:39.840
(persona 4) Ha habido
mucho enfoque a nivel de elemento
00:38:39.840 --> 00:38:42.547
sobre calidad e integridad,
00:38:42.547 --> 00:38:47.374
una de las cosas que me preocupa es
que no aplicamos lo mismo a las jerarquías
00:38:47.374 --> 00:38:51.480
y creo que tenemos un problema, es que,
nuestra jerarquía a veces no es buena.
00:38:51.481 --> 00:38:53.463
Vemos que va a ser un problema real
00:38:53.464 --> 00:38:55.774
con la búsqueda de Commons y otras cosas.
00:38:56.771 --> 00:39:00.601
Una de las habilidades que podemos
hacer es importar externos...
00:39:00.602 --> 00:39:04.842
La forma en que los tesauros externos
estructuran sus jerarquías,
00:39:04.842 --> 00:39:10.291
utilizando el calificador P4900
de concepto más amplio.
00:39:11.037 --> 00:39:16.167
Pero lo que creo sería muy útil,
serían mejores herramientas que hagan eso
00:39:16.168 --> 00:39:21.212
que puedan importar una jerarquía
de tesauros externos
00:39:21.212 --> 00:39:24.111
y que la mapee en nuestros
elementos de Wikidata.
00:39:24.111 --> 00:39:28.199
Una vez que esté en su lugar
con esos calificadores P4900,
00:39:28.200 --> 00:39:31.494
puedes hacer buenas consultas
a través de SPARQL
00:39:32.490 --> 00:39:37.534
para ver dónde nuestra jerarquía
diverge de esa jerarquía externa.
00:39:37.534 --> 00:39:41.346
Por ejemplo, [Paula Morma],
usuario de PKM, tal vez sepas,
00:39:41.346 --> 00:39:43.533
ella trabaja mucho en la moda.
00:39:43.533 --> 00:39:50.524
Así que lo usamos para atraer la jerarquía
de tesauros de la moda europea
00:39:50.524 --> 00:39:53.812
y la jerarquía Getty AAT
de tesauros de la moda,
00:39:53.812 --> 00:39:57.957
y luego ver dónde estaban los huecos
en nuestros elementos de nivel superior,
00:39:57.957 --> 00:40:00.511
lo cual es un problema real
para nosotros porque a menudo,
00:40:00.511 --> 00:40:04.355
estas son cosas que solo existen
en páginas de desambiguación en Wikipedia,
00:40:04.356 --> 00:40:09.270
así que nos faltan muchos elementos
de nivel superior en nuestras jerarquías
00:40:09.271 --> 00:40:14.480
y es algo que debemos abordar
en términos de calidad e integridad,
00:40:14.480 --> 00:40:15.971
pero lo que realmente ayudaría
00:40:16.643 --> 00:40:20.871
serían mejores herramientas que la jungla
de guiones de extracción que escribí...
00:40:20.872 --> 00:40:26.010
Si alguien pudiera poner eso
en una libreta PAWS de Python
00:40:26.561 --> 00:40:31.972
para poder tomar un tesauro externo,
tomar su jerarquía,
00:40:31.973 --> 00:40:34.595
que bien puede estar disponible
como datos vinculados o no,
00:40:35.379 --> 00:40:40.580
y luego ponerlos en QuickStatements
para ponerlos en valores P4900.
00:40:41.165 --> 00:40:42.165
Y luego,
00:40:42.166 --> 00:40:44.527
cuando nuestra representación
se vuelva más completa,
00:40:44.528 --> 00:40:49.691
se actualicen esos P4900 porque a medida
que a nuestra representación
00:40:49.691 --> 00:40:51.590
se le pone fecha, se vuelve más densa,
00:40:51.590 --> 00:40:55.377
los valores de estos calificadores
necesitan cambiar
00:40:56.230 --> 00:40:59.526
para representar que tenemos más
de su jerarquía en nuestro sistema.
00:40:59.526 --> 00:41:03.728
Si alguien pudiera hacer eso,
creo que sería muy útil,
00:41:03.728 --> 00:41:07.121
y necesitamos también mirar otros enfoques
00:41:07.122 --> 00:41:10.762
para mejorar la calidad
y la integridad a nivel jerárquico
00:41:10.763 --> 00:41:12.378
no solo a nivel de elemento.
00:41:13.308 --> 00:41:14.840
(Andra) ¿Puedo agregar a eso?
00:41:16.362 --> 00:41:19.901
Sí, y de hecho hacemos eso,
00:41:19.911 --> 00:41:23.551
y puedo recomendar mirar
la Shape Expression que hizo Finn
00:41:23.552 --> 00:41:27.330
con los datos léxicos
donde crea Shape Expressions
00:41:27.330 --> 00:41:29.640
y luego construye
en otras Shape Expressions
00:41:29.641 --> 00:41:32.608
entonces tienes este concepto de Shape
Expressions vinculados en Wikidata,
00:41:32.608 --> 00:41:35.005
y específicamente, el caso de uso,
si entiendo correctamente,
00:41:35.006 --> 00:41:37.183
es exactamente lo que estamos
haciendo en Gene Wiki.
00:41:37.184 --> 00:41:40.841
Tienes la ontología de la enfermedad
que se pone en Wikidata
00:41:40.842 --> 00:41:44.681
y luego entran los datos de la enfermedad
y aplicamos las Shape Expressions
00:41:44.682 --> 00:41:47.247
para ver si encaja con este tesauro.
00:41:47.248 --> 00:41:50.919
Y hay otros tesauros u otras
ontologías de vocabularios controlados
00:41:50.920 --> 00:41:52.409
que aún necesitan entrar en Wikidata,
00:41:52.409 --> 00:41:54.961
y eso es exactamente por qué
Shape Expression es tan interesante
00:41:54.961 --> 00:41:57.963
porque puedes tener una Shape Expression
para la ontología de la enfermedad,
00:41:57.964 --> 00:41:59.734
puedes tener una Shape
Expression para MeSH,
00:41:59.734 --> 00:42:01.881
puedes decir: bien, ahora
quiero verificar la calidad.
00:42:01.881 --> 00:42:04.059
Porque también tienes
en Wikidata el contexto
00:42:04.060 --> 00:42:09.567
de cuando tienes un vocabulario controlado
dices que la calidad está acorde a esto,
00:42:09.568 --> 00:42:11.636
pero podrías tener
una comunidad en desacuerdo.
00:42:11.636 --> 00:42:16.081
Las herramientas están en su lugar,
pero ahora toca crear esos modelos
00:42:16.082 --> 00:42:18.144
y aplicarlos en los diferentes
casos de uso.
00:42:18.811 --> 00:42:20.921
(persona 4) La Shape Expression
es muy útil
00:42:20.922 --> 00:42:25.928
una vez que tengas la ontología externa
mapeada en Wikidata,
00:42:25.929 --> 00:42:29.474
pero mi problema es que está
llegando a esa etapa,
00:42:29.475 --> 00:42:34.881
funciona para ver cuánto de la ontología
externa aún no está en Wikidata
00:42:34.882 --> 00:42:36.256
y dónde están los huecos,
00:42:36.257 --> 00:42:40.660
y ahí es donde creo que al tener
herramientas mucho más robustas
00:42:40.660 --> 00:42:44.286
para ver lo que falta
de ontologías externas
00:42:44.286 --> 00:42:45.537
sería muy útil.
00:42:47.518 --> 00:42:48.952
El mayor problema allí
00:42:48.952 --> 00:42:51.351
no es tanto las herramientas
sino que faltan más licencias.
00:42:51.803 --> 00:42:55.249
Entonces, meter las ontologías
en Wikidata es en realidad muy fácil
00:42:55.250 --> 00:42:59.295
pero la mayoría de las ontologías tienen,
¿cómo puedo decirlo cortésmente?
00:42:59.965 --> 00:43:03.256
licencia restrictiva,
y no son compatibles con Wikidata.
00:43:04.068 --> 00:43:06.678
(persona 4) Hay un gran número
de tesauros del sector público
00:43:06.678 --> 00:43:08.099
en los campos culturales.
00:43:08.099 --> 00:43:10.851
- (Andra) Entonces tenemos que hablar.
- (persona 4) No hay problema.
00:43:10.852 --> 00:43:12.384
(Andra) Entonces tenemos que hablar.
00:43:13.624 --> 00:43:19.192
(persona 5) El comentario que quiero hacer
en realidad es una respuesta a James,
00:43:19.192 --> 00:43:22.401
entonces, la cosa es que,
las jerarquías hacen gráficos,
00:43:22.374 --> 00:43:24.041
y cuando lo quieras...
00:43:24.579 --> 00:43:28.888
Básicamente quiero hablar sobre...
un problema común en las jerarquías
00:43:28.889 --> 00:43:30.820
es las jerarquías circulares,
00:43:30.821 --> 00:43:33.796
ellas vuelven la una a la otra
cuando hay un problema,
00:43:33.796 --> 00:43:35.920
lo cual, no deberías tener
eso en las jerarquías.
00:43:37.022 --> 00:43:41.295
Esto, curiosamente, sucede mucho
en las categorías de Wikipedia
00:43:41.295 --> 00:43:42.990
tenemos muchos círculos en las categorías,
00:43:43.898 --> 00:43:46.612
pero la buena noticia es que esto es...
00:43:47.713 --> 00:43:51.582
Técnicamente, es un problema completo
de P... NP, así que no puedes hallar esto,
00:43:51.583 --> 00:43:53.414
y fácilmente si construiste
un gráfico de eso,
00:43:54.473 --> 00:43:57.046
pero hay muchas maneras
que se han desarrollado
00:43:57.047 --> 00:44:00.624
para encontrar problemas
en estos gráficos de jerarquía.
00:44:00.625 --> 00:44:04.860
Hay un artículo llamado Buscando Ciclos...
00:44:04.861 --> 00:44:07.955
Rompiendo Ciclos en Jerarquías Ruidosas,
00:44:07.956 --> 00:44:12.671
y se ha usado para ayudar a categorizar
la Wikipedia en inglés.
00:44:12.672 --> 00:44:17.141
Puedes tomar esto y aplicar
estas jerarquías en Wikidata,
00:44:17.142 --> 00:44:19.540
y luego puedes encontrar
cosas que son problemáticas
00:44:19.541 --> 00:44:22.481
y solo quitar las que están
causando problemas
00:44:22.482 --> 00:44:24.593
y encontrar los problemas, en realidad.
00:44:24.594 --> 00:44:26.960
Esto es solo una idea, solo para que tú...
00:44:28.690 --> 00:44:29.930
(persona 4) Eso está muy bien,
00:44:29.931 --> 00:44:34.402
pero creo que estás subestimando
el número de malas relaciones de subclase
00:44:34.402 --> 00:44:35.402
que tenemos.
00:44:35.403 --> 00:44:39.680
Es como tener una ciudad
en un país totalmente equivocado,
00:44:40.250 --> 00:44:44.874
y hay herramientas de geografía
para identificar eso,
00:44:44.875 --> 00:44:49.201
y necesitamos tener mejores
herramientas en las jerarquías
00:44:49.202 --> 00:44:53.477
para identificar dónde está
el equivalente del elemento para el país
00:44:53.478 --> 00:44:57.673
que falta, o donde realmente
ha sido subclasificado
00:44:57.674 --> 00:45:01.804
a algo que no significa
algo completamente distinto.
00:45:02.804 --> 00:45:07.165
(Lydia) Sí, creo que estás llegando a algo
00:45:07.166 --> 00:45:12.024
que mi equipo y yo seguimos escuchando
de personas que reutilizan nuestros datos
00:45:12.025 --> 00:45:13.991
bastante bien, cierto,
00:45:14.782 --> 00:45:16.858
el punto de datos individuales
podría ser excelente,
00:45:16.858 --> 00:45:20.163
pero si tienes que mirar
en la ontología y demás,
00:45:20.164 --> 00:45:21.857
entonces se pone muy...
00:45:22.388 --> 00:45:26.437
Y creo que uno de los grandes problemas
del por qué ocurre
00:45:26.437 --> 00:45:30.736
es que mucha edición en Wikidata
00:45:30.736 --> 00:45:34.544
sucede sobre la base
de un elemento individual, correcto,
00:45:34.545 --> 00:45:36.201
haces una edición de ese elemento,
00:45:37.653 --> 00:45:42.075
sin darte cuenta de que esto
podría tener consecuencias muy globales
00:45:42.075 --> 00:45:44.245
en el resto del gráfico, por ejemplo.
00:45:44.245 --> 00:45:50.040
Y si la gente tiene ideas de cómo
hacer esto más visible,
00:45:50.041 --> 00:45:53.185
las consecuencias
de una edición local individual,
00:45:54.005 --> 00:45:56.537
creo que valdría la pena explorar,
00:45:57.550 --> 00:46:01.583
para mostrarles mejor a la gente
cuál es la consecuencia de su edición
00:46:01.584 --> 00:46:03.434
para que lo hagan de muy buena fe,
00:46:04.481 --> 00:46:05.481
qué es eso.
00:46:06.939 --> 00:46:12.237
¡Guao! Bien, comencemos con, sí, tú,
luego tú, luego tú, y luego tú.
00:46:12.237 --> 00:46:13.921
(persona 5) Bueno,
después de la discusión,
00:46:13.922 --> 00:46:18.262
solo deseo expresar mi acuerdo
con lo que James estaba diciendo.
00:46:18.263 --> 00:46:22.467
Entonces, esencialmente, parece
que lo más peligroso es la jerarquía,
00:46:22.468 --> 00:46:23.910
no la jerarquía, sino en general
00:46:23.911 --> 00:46:28.022
la semántica de las relaciones de subclase
vistas en Wikidata, cierto.
00:46:28.022 --> 00:46:32.561
Hace poco he estado estudiando lenguajes,
solo para los fines de esta conferencia,
00:46:32.562 --> 00:46:35.257
y por ejemplo, encuentras muchos casos
00:46:35.257 --> 00:46:39.463
donde un lenguaje es parte
de una subclase de la misma cosa, bien.
00:46:39.463 --> 00:46:43.577
Entonces, sabes, puedes decir
que tenemos una ontología flexible.
00:46:43.577 --> 00:46:46.256
Wikidata a veces te da
la libertad de expresar eso.
00:46:46.256 --> 00:46:47.257
Porque, por ejemplo,
00:46:47.258 --> 00:46:50.721
esa ontología de lenguajes también es
políticamente complicada, ¿verdad?
00:46:50.722 --> 00:46:55.038
Incluso es bueno estar en una posición
para expresar un nivel de incertidumbre.
00:46:55.038 --> 00:46:57.983
Pero imagina a cualquiera que quiera
hacer una lectura automática de eso.
00:46:57.984 --> 00:46:59.468
Eso es realmente problemático.
00:46:59.468 --> 00:47:00.468
Y luego de nuevo,
00:47:00.469 --> 00:47:03.686
no creo que esa ontología
fuera importada de alguna parte,
00:47:03.687 --> 00:47:05.490
es algo que es originalmente nuestro.
00:47:05.491 --> 00:47:08.321
Se cosecha desde Wikipedia,
al principio lo diré.
00:47:08.322 --> 00:47:11.324
Entonces, me pregunto...
esta cosa de Shape Expressions es genial,
00:47:11.325 --> 00:47:15.575
y también validar y arreglar,
si quieres, la ontología de Wikidata
00:47:15.576 --> 00:47:18.191
por recursos externos, hermosa idea.
00:47:19.026 --> 00:47:20.026
En fin,
00:47:20.027 --> 00:47:25.440
¿terminaremos reflexionando sobre
las ontologías externas en Wikidata?
00:47:25.441 --> 00:47:28.651
Y además, ¿qué hacemos con la parte
central de nuestra ontología
00:47:28.652 --> 00:47:30.642
que nunca se cosecha de recursos externos,
00:47:30.643 --> 00:47:31.978
cómo vamos a arreglar eso?
00:47:31.979 --> 00:47:35.276
Y realmente pienso que eso será
un problema por sí solo.
00:47:35.277 --> 00:47:39.010
Tendremos que centrarnos en eso
independientemente de la idea
00:47:39.010 --> 00:47:41.046
de validar la ontología con algo externo.
00:47:49.353 --> 00:47:53.379
(persona 6) Bien, y las limitantes
y las formas son muy impresionantes
00:47:53.380 --> 00:47:54.605
lo que podemos hacer con eso,
00:47:55.205 --> 00:47:58.481
pero el punto principal no está
siendo realmente aclarado...
00:47:58.482 --> 00:48:03.229
es porque ahora se puede hacer más
explícito lo que esperamos de los datos.
00:48:03.229 --> 00:48:06.893
Antes, cada uno tenía que escribir
sus propias herramientas y guiones
00:48:06.894 --> 00:48:10.601
y así es más visible
y podemos discutir sobre eso.
00:48:10.602 --> 00:48:13.641
Pero no se trata
de lo que está mal o bien,
00:48:13.642 --> 00:48:15.870
se trata de una expectativa,
00:48:15.870 --> 00:48:18.105
y tendrás diferentes
expectativas y discusiones
00:48:18.106 --> 00:48:20.737
acerca de cómo queremos
modelar las cosas en Wikidata,
00:48:21.246 --> 00:48:23.095
y esto...
00:48:23.096 --> 00:48:26.280
El estado actual es solo
un paso en la dirección
00:48:26.281 --> 00:48:28.041
porque ahora necesitas
00:48:28.042 --> 00:48:31.041
mucha experiencia técnica
para entrar en esto,
00:48:31.042 --> 00:48:35.721
y necesitamos mejores formas
para visualizar esta restricción,
00:48:35.722 --> 00:48:39.995
para transformarlo tal vez en un lenguaje
natural y la gente lo pueda entender mejor
00:48:40.939 --> 00:48:43.768
pero se trata menos de lo que está
mal o lo que está bien.
00:48:44.925 --> 00:48:45.925
(Lydia) Sí.
00:48:50.986 --> 00:48:53.893
(persona 7) Por cuestiones de calidad,
solo lo quiero repetir como...
00:48:53.894 --> 00:48:57.010
Me he encontrado que muchos
de los problemas han sido
00:48:58.838 --> 00:49:02.330
diferencias de opinión
entre instancia de y subclase.
00:49:02.331 --> 00:49:05.963
Yo diría que los errores
en esas situaciones
00:49:05.963 --> 00:49:11.521
que he tratado de encontrar
han sido un proceso muy lento.
00:49:11.522 --> 00:49:14.840
Lo que he encontrado es algo así: "si
encuentro elementos de muy alta impresión
00:49:14.840 --> 00:49:16.171
que son algo... y luego uso todas
00:49:16.171 --> 00:49:21.628
las instancias de subclase y encuentro
las declaraciones derivadas de esto",
00:49:21.628 --> 00:49:26.215
esta es una forma muy útil
de buscar estos errores.
00:49:26.215 --> 00:49:28.067
Pero tenía curiosidad
si Shape Expressions,
00:49:29.841 --> 00:49:31.582
si hay...
00:49:31.583 --> 00:49:36.934
Si se puede usar como una herramienta que
ayude a resolver esos problemas, y sí...
00:49:40.514 --> 00:49:42.555
(persona 8) Si tiene
una huella estructural...
00:49:45.910 --> 00:49:49.310
Si tiene una huella estructural
donde puedas... eso es algo falsificable,
00:49:49.310 --> 00:49:51.191
puedes ver eso
y decir, bueno, eso está mal,
00:49:51.192 --> 00:49:52.670
entonces sí, puedes hacer eso.
00:49:52.671 --> 00:49:56.791
Pero si solo se trata de mapear
con objetos del mundo real,
00:49:56.791 --> 00:49:59.272
entonces solo vas a necesitar
montones y montones de cerebros.
00:50:05.768 --> 00:50:08.631
(persona 9) Hola, Pablo Mendes
de Apple Siri Knowledge.
00:50:09.154 --> 00:50:12.770
Estamos aquí para descubrir cómo ayudar
al proyecto y a la comunidad
00:50:12.770 --> 00:50:15.645
pero Cristina cometió el error
de preguntar qué queremos.
00:50:16.471 --> 00:50:20.052
(risas) Entonces, creo que
una cosa que me gustaría ver,
00:50:20.958 --> 00:50:23.521
se trata mucho de verificabilidad,
00:50:23.522 --> 00:50:26.372
que es uno de los principios básicos
del proyecto en la comunidad,
00:50:27.062 --> 00:50:28.590
y confiabilidad.
00:50:28.590 --> 00:50:31.992
No todas las declaraciones son iguales,
algunas de ellas están muy disputadas,
00:50:31.992 --> 00:50:33.653
algunas de ellas son fáciles de adivinar,
00:50:33.654 --> 00:50:36.021
como la fecha de nacimiento
de alguien puede ser verificada,
00:50:36.071 --> 00:50:39.212
como viste hoy en la Keynote, los asuntos
de género son mucho más complicados.
00:50:40.205 --> 00:50:42.130
¿Puedes hablar un poco de lo que sabes
00:50:42.131 --> 00:50:47.271
en esta área de calidad de datos
acerca de confiabilidad y verificabilidad?
00:50:55.442 --> 00:50:58.138
Si no tienes mucho,
me encantaría ver mucho más. (risas)
00:51:00.646 --> 00:51:01.646
(Lydia) Sí.
00:51:03.314 --> 00:51:06.548
Aparentemente, no tenemos
mucho que decir sobre eso. (risas)
00:51:08.024 --> 00:51:12.299
(Andra) Creo que podemos hacer mucho,
pero ayer tuve una discusión contigo.
00:51:12.300 --> 00:51:15.774
Mi ejemplo favorito que aprendí ayer,
que ya está en desuso,
00:51:15.774 --> 00:51:20.281
es que si vas a la Q2, que es la tierra,
00:51:20.282 --> 00:51:23.343
hay una declaración
que afirma que la tierra es plana.
00:51:24.183 --> 00:51:26.055
Y me encanta ese ejemplo
00:51:26.056 --> 00:51:28.391
porque hay una comunidad
por ahí que lo afirma
00:51:28.392 --> 00:51:30.417
y tienen recursos verificables.
00:51:30.418 --> 00:51:32.254
Entonces, creo que es un caso genuino,
00:51:32.255 --> 00:51:34.641
no debería estar en desuso,
debería estar en Wikidata.
00:51:34.642 --> 00:51:40.385
Y creo que Shape Expressions
puede ser realmente instrumental allí,
00:51:40.386 --> 00:51:41.832
debido a lo que puedes decir,
00:51:41.833 --> 00:51:44.856
bien, estoy realmente interesado
en este caso de uso,
00:51:44.857 --> 00:51:47.129
o este es un caso de uso
en el que no estás de acuerdo,
00:51:47.130 --> 00:51:51.059
pero también puede haber un caso de uso
donde dices, bien, estoy interesado.
00:51:51.059 --> 00:51:53.449
Entonces, hay un ejemplo,
que dices, tengo glucosa.
00:51:53.449 --> 00:51:55.841
Y la glucosa, cuando eres biólogo,
00:51:55.842 --> 00:52:00.176
no te importan las limitantes químicas
de la molécula de la glucosa,
00:52:00.177 --> 00:52:03.201
tú simplemente...
Todo lo de glucosa es lo mismo.
00:52:03.202 --> 00:52:05.973
Pero si eres químico,
te estremeces cuando escuchas eso,
00:52:05.973 --> 00:52:08.191
tienes 200 algo...
00:52:08.191 --> 00:52:10.343
Entonces, puedes tener
múltiples Shape Expressions,
00:52:10.343 --> 00:52:12.721
bien, voy a poner que...
Estoy en un punto de vista químico,
00:52:12.722 --> 00:52:13.887
estoy aplicando eso.
00:52:13.887 --> 00:52:16.691
Y luego dices, estoy en un caso
de uso biológico,
00:52:16.691 --> 00:52:18.524
Estoy aplicando esa Shape Expression.
00:52:18.524 --> 00:52:20.358
Y luego, cuando quieres colaborar,
00:52:20.358 --> 00:52:22.784
sí, bueno, deberías hablarle
a Eric sobre los mapas ShEx.
00:52:23.910 --> 00:52:28.873
Y así... pero este viaje apenas comienza.
00:52:28.873 --> 00:52:32.238
Pero yo personalmente creo
que es muy instrumental en esa área.
00:52:34.292 --> 00:52:35.535
(Lydia) Bien. Por ahí.
00:52:37.949 --> 00:52:39.168
(risas)
00:52:40.597 --> 00:52:46.035
(persona 2) Tuve varias ideas
de algunos puntos en las discusiones,
00:52:46.035 --> 00:52:50.902
así que intentaré no perderlas...
Tuve tres ideas, así que...
00:52:52.394 --> 00:52:55.201
Según lo que dijo James hace un tiempo,
00:52:55.202 --> 00:52:59.001
tenemos un problema muy, muy grande
en Wikidata desde el principio
00:52:59.002 --> 00:53:01.574
para la ontología superior.
00:53:02.363 --> 00:53:05.339
Lo hablamos hace dos años en WikidataCon,
00:53:05.340 --> 00:53:07.432
y hablamos de eso en Wikimania.
00:53:07.432 --> 00:53:09.818
Bueno, siempre que tenemos
una reunión de Wikidata
00:53:09.818 --> 00:53:11.656
hablamos de eso,
00:53:11.656 --> 00:53:15.782
porque es un gran problema
a un nivel muy, muy visual
00:53:15.783 --> 00:53:23.118
qué entidad es, con qué trabajo es,
qué género es, arte,
00:53:23.118 --> 00:53:25.461
son realmente el concepto más grande.
00:53:26.195 --> 00:53:33.117
Y eso es realmente un punto
muy débil en la ontología global
00:53:33.118 --> 00:53:37.453
porque la gente trata
de limpiar regularmente
00:53:38.017 --> 00:53:41.047
y lo descompone todo,
00:53:42.516 --> 00:53:48.649
porque sí, creo que algunos de ustedes
recuerdan al tipo que de buena fe
00:53:48.649 --> 00:53:51.785
rompió absolutamente
todas las ciudades del mundo.
00:53:51.785 --> 00:53:57.537
Ya no eran elementos geográficos, habían
restricciones de violación en todas partes
00:53:58.720 --> 00:54:00.278
Y fue de buena fe,
00:54:00.278 --> 00:54:03.623
porque realmente estaba
corrigiendo un error en un elemento,
00:54:04.170 --> 00:54:05.732
pero todo se vino abajo.
00:54:06.349 --> 00:54:09.373
Y no estoy segura de cómo
podemos resolver eso
00:54:10.216 --> 00:54:15.709
porque en realidad no hay ninguna
institución externa a la que copiar
00:54:15.710 --> 00:54:18.490
porque todos trabajan...
00:54:19.154 --> 00:54:22.041
Bueno, si estoy realizando
una base de datos de arte,
00:54:22.042 --> 00:54:24.601
solo iré al nivel de arte escénico,
00:54:24.601 --> 00:54:29.361
pero no voy al concepto filosófico
de lo que es una entidad,
00:54:29.362 --> 00:54:31.201
y eso es en realidad...
00:54:31.202 --> 00:54:34.561
No conozco ninguna base de datos
que esté trabajando a este nivel,
00:54:34.562 --> 00:54:36.827
pero ese es el punto
más débil de Wikidata.
00:54:37.936 --> 00:54:40.812
Y probablemente, cuando hablamos
de calidad de datos,
00:54:40.812 --> 00:54:44.034
tiene en realidad
una gran parte, así que...
00:54:44.034 --> 00:54:48.569
Y creo que es lo mismo
que hemos expresado...
00:54:48.569 --> 00:54:50.452
Lo siento, estoy cambiando de tema,
00:54:51.401 --> 00:54:55.774
pero hemos expresado
en diferentes sesiones sobre cualidades,
00:54:55.774 --> 00:54:59.398
que en realidad algunos de nosotros
hacemos un buen trabajo de modelado,
00:54:59.399 --> 00:55:01.240
hacemos ShEx, hacemos cosas así.
00:55:01.967 --> 00:55:07.655
La gente no lo ve en Wikidata,
no ven el ShEx,
00:55:07.655 --> 00:55:10.392
no ven el WikiProject
en la página de discusión,
00:55:10.393 --> 00:55:11.393
y a veces,
00:55:11.394 --> 00:55:14.958
ni siquiera ven las páginas
de discusión de propiedades,
00:55:14.958 --> 00:55:19.628
que declara explícitamente
a), esta propiedad se utiliza para eso.
00:55:19.628 --> 00:55:23.887
La semana pasada, agregué
restricciones a una propiedad.
00:55:23.888 --> 00:55:26.324
La restricción fue escrita explícitamente
00:55:26.325 --> 00:55:28.690
en la discusión de la creación
de la propiedad.
00:55:28.690 --> 00:55:34.548
Acabo de crear la parte técnica
de agregar la restricción, y alguien:
00:55:34.548 --> 00:55:37.182
"¡Qué! ¡Estropeaste todas mis ediciones!"
00:55:37.183 --> 00:55:41.542
Y él estaba usando incorrectamente
la propiedad durante los últimos dos años.
00:55:41.542 --> 00:55:46.868
Y la propiedad era realmente muy clara,
pero no hubo advertencias,
00:55:46.869 --> 00:55:49.922
y entonces, es lo mismo en el Pink Pony,
que dijimos en Wikimania
00:55:49.922 --> 00:55:54.719
para hacer que WikiProject sea más visible
o para que ShEx sea más visible, pero...
00:55:54.719 --> 00:55:56.917
Y eso es lo que dijo Cristina.
00:55:56.917 --> 00:56:02.368
Tenemos un problema de visibilidad
de cuáles son las soluciones existentes.
00:56:02.368 --> 00:56:04.242
Y en esta sesión,
00:56:04.242 --> 00:56:06.862
todos estamos hablando
de cómo crear más ShEx,
00:56:06.863 --> 00:56:10.727
o de facilitar los trabajos
para las personas que hacen la limpieza.
00:56:11.605 --> 00:56:15.835
Pero estamos limpiando
desde el primer día de Wikidata,
00:56:15.836 --> 00:56:20.921
y globalmente, estamos perdiendo,
y estamos perdiendo porque, bueno,
00:56:20.922 --> 00:56:22.960
si supiera, los nombres son complicados,
00:56:22.961 --> 00:56:26.162
pero yo soy el único
que hace el trabajo de limpieza,
00:56:26.662 --> 00:56:29.671
el chico que agregó
el nombre de la escritura latina
00:56:29.672 --> 00:56:31.584
a todos los investigadores chinos,
00:56:32.088 --> 00:56:35.616
me llevará meses limpiar eso
y no puedo hacerlo solo,
00:56:35.616 --> 00:56:38.777
y él hizo un lote masivo.
00:56:38.777 --> 00:56:40.241
Entonces, realmente necesitamos...
00:56:40.242 --> 00:56:44.158
Tenemos un problema de visibilidad
más que un problema de herramienta, creo,
00:56:44.158 --> 00:56:45.733
porque tenemos muchas herramientas.
00:56:45.733 --> 00:56:50.255
(Lydia) Correcto, desafortunadamente,
me han mostrado una señal (risas)
00:56:50.256 --> 00:56:52.121
así que, tenemos que terminar esto.
00:56:52.122 --> 00:56:53.563
Muchas gracias por sus comentarios,
00:56:53.563 --> 00:56:56.611
espero que sigan discutiendo
durante el resto del día,
00:56:56.611 --> 00:56:57.840
y gracias por su aporte.
00:56:58.359 --> 00:56:59.944
(aplausos)