WEBVTT 00:00:05.945 --> 00:00:09.476 Hola a todos los del panel de Calidad de Datos. 00:00:10.288 --> 00:00:13.671 La calidad de los datos importa porque cada vez más personas 00:00:13.672 --> 00:00:19.289 confían en que nuestros datos están bien, así que hablaremos de su calidad, 00:00:20.029 --> 00:00:26.000 y habrán cuatro oradores quienes darán breves presentaciones 00:00:26.000 --> 00:00:29.539 sobre temas de la calidad de los datos y luego tendremos preguntas y respuestas. 00:00:30.130 --> 00:00:32.234 Y el primero es Lucas. 00:00:34.385 --> 00:00:35.385 Gracias. 00:00:35.901 --> 00:00:39.899 (Lucas) Hola, soy Lucas y voy a comenzar con una descripción general 00:00:39.899 --> 00:00:43.806 de las herramientas de calidad de datos que ya tenemos en Wikidata 00:00:43.807 --> 00:00:46.109 y también algunas cosas que vendrán pronto. 00:00:46.932 --> 00:00:50.623 Y los he agrupado en algunos temas generales 00:00:50.623 --> 00:00:53.761 sobre hacer los errores más visibles, hacer que los problemas sean procesables, 00:00:53.762 --> 00:00:56.322 ver mejor los datos para que la gente note los problemas, 00:00:56.945 --> 00:01:02.616 arreglar fuentes comunes de errores, mantener calidad de los datos existentes 00:01:02.616 --> 00:01:03.966 y también la curación humana. 00:01:05.063 --> 00:01:09.874 Y los que están disponibles actualmente comienzan con restricciones de propiedad. 00:01:10.228 --> 00:01:12.421 Así que tal vez ya has visto esto si estás en Wikidata. 00:01:12.422 --> 00:01:14.029 A veces puedes obtener estos íconos 00:01:14.530 --> 00:01:17.241 revisando la consistencia interna de los datos. 00:01:17.242 --> 00:01:20.800 Por ejemplo, si un evento sigue al otro, 00:01:20.801 --> 00:01:23.760 entonces el otro evento debería también ser seguido por este, 00:01:23.761 --> 00:01:27.161 que en el artículo de WikidataCon al parecer faltaba. 00:01:27.162 --> 00:01:29.360 No estoy seguro, esta característica es de unos días. 00:01:30.040 --> 00:01:34.681 Y también, si esto es demasiado limitado o simple para usted, 00:01:34.682 --> 00:01:38.080 puedes escribir cualquier chequeo que quieras usando el servicio de consulta 00:01:38.081 --> 00:01:39.842 que es útil para muchas cosas por supuesto, 00:01:39.843 --> 00:01:44.543 pero también puedes usarlo para encontrar errores. 00:01:44.544 --> 00:01:46.974 Si te diste cuenta de la ocurrencia de un error, 00:01:46.975 --> 00:01:49.709 entonces puedes verificar si hay otros lugares 00:01:49.710 --> 00:01:51.738 donde la gente ha hecho un error muy similar 00:01:51.738 --> 00:01:53.438 y encontrarlo con el Servicio de Consultas. 00:01:53.439 --> 00:01:54.720 También puedes combinar los dos 00:01:54.720 --> 00:01:57.874 y buscar violaciones de restricciones en el Servicio de Consulta, 00:01:57.875 --> 00:02:01.240 por ejemplo, las violaciones en alguna área 00:02:01.241 --> 00:02:03.762 o WikiProject que sea relevante para usted, 00:02:03.762 --> 00:02:06.828 aunque los resultados no están completos actualmente, lamentablemente. 00:02:08.422 --> 00:02:09.877 Hay puntuación de revisión. 00:02:10.540 --> 00:02:12.666 Eso es... creo que esto es de los cambios recientes 00:02:12.667 --> 00:02:16.217 también puedes incluir en tu lista una evaluación automática 00:02:16.217 --> 00:02:20.249 de si es probable que esta edición sea de buena fe o de mala fe 00:02:20.250 --> 00:02:22.312 y si es probable que sea dañino o no dañino, 00:02:22.313 --> 00:02:24.205 creo que esas son las dos dimensiones. 00:02:24.206 --> 00:02:25.686 Entonces puedes, si quieres, 00:02:25.687 --> 00:02:29.898 centrarte en solo mirar las ediciones perjudiciales pero de buena fe. 00:02:29.899 --> 00:02:32.523 Si te sientes particularmente amable y acogedor 00:02:32.524 --> 00:02:37.121 puedes decirle a estos editores, "Gracias por tu contribución, 00:02:37.122 --> 00:02:40.560 así es como deberías haberlo hecho, pero igualmente gracias". 00:02:40.561 --> 00:02:42.186 Y si no te sientes así, 00:02:42.187 --> 00:02:44.452 puedes irte por la mala fe, las ediciones perjudiciales, 00:02:44.453 --> 00:02:45.573 y revertir los vándalos. 00:02:47.544 --> 00:02:49.761 También hay, similar a eso, puntuación de la entidad. 00:02:49.762 --> 00:02:52.590 Entonces, en lugar de anotar una edición, el cambio que hizo, 00:02:52.591 --> 00:02:53.904 puedes puntuar toda la revisión, 00:02:53.904 --> 00:02:56.483 y creo que es la misma medida de calidad 00:02:56.483 --> 00:02:59.863 que Lydia menciona al comienzo de la conferencia. 00:03:00.372 --> 00:03:04.569 Eso da un guión de usuario aquí arriba y te da una puntuación de uno a cinco, 00:03:04.570 --> 00:03:08.176 Creo que trata, de qué calidad es el artículo actual. 00:03:10.043 --> 00:03:14.888 La herramienta de fuentes primarias es para cualquier base de datos 00:03:14.888 --> 00:03:18.064 que quieras importar pero no es de calidad suficiente para agregar a Wikidata, 00:03:18.064 --> 00:03:20.775 entonces a su vez lo agregas a la herramienta de fuentes primarias, 00:03:20.775 --> 00:03:22.956 y luego las personas pueden decidir 00:03:22.956 --> 00:03:26.024 si deben agregar estas declaraciones individuales o no. 00:03:28.595 --> 00:03:31.451 Mostrar coordenadas como mapas principalmente es una característica 00:03:31.451 --> 00:03:34.038 de conveniencia, pero también es útil para el control de calidad. 00:03:34.038 --> 00:03:36.937 Supón que esta es la oficina de Wikimedia en Alemania 00:03:36.938 --> 00:03:39.400 y si las coordenadas están en algún lugar del Océano Índico, 00:03:39.401 --> 00:03:41.529 entonces sabes que algo no está bien 00:03:41.530 --> 00:03:44.790 y puedes verlo mucho más fácil que si solo tuvieras los números. 00:03:46.382 --> 00:03:49.576 Este es un dispositivo llamado el indicador de integridad relativa 00:03:49.577 --> 00:03:52.480 que te muestra este pequeño icono aquí 00:03:53.007 --> 00:03:55.482 diciéndote cuán completo cree que es este artículo 00:03:55.482 --> 00:03:57.613 y también qué propiedades es muy probable que falten, 00:03:57.614 --> 00:03:59.889 lo cual es realmente útil si estás editando un elemento 00:03:59.889 --> 00:04:03.172 y estás en un área con la que no estás muy familiarizado 00:04:03.172 --> 00:04:05.661 y no sabes qué propiedades correctas usar, 00:04:05.662 --> 00:04:08.230 entonces se tiene un dispositivo muy útil. 00:04:09.604 --> 00:04:11.401 Y tenemos Shape Expressions. 00:04:11.402 --> 00:04:15.624 Creo que Andra o José van a hablar más sobre esto 00:04:15.624 --> 00:04:19.547 pero básicamente, es una forma muy poderosa de comparar los datos 00:04:19.547 --> 00:04:20.758 que tienes versus el esquema, 00:04:20.759 --> 00:04:22.910 como qué declaración deberían ciertas entidades tener, 00:04:22.910 --> 00:04:25.677 a qué otras entidades deberían vincularse y cómo deberían ser, 00:04:26.229 --> 00:04:29.374 y así puedes encontrar problemas de esa manera. 00:04:30.366 --> 00:04:32.361 Creo que... No, todavía hay más. 00:04:32.362 --> 00:04:34.321 Panel de integralidad o propiedad. 00:04:34.322 --> 00:04:36.773 Te da una visión general rápida de los datos que ya tienes. 00:04:36.774 --> 00:04:39.147 Por ejemplo, esto es de los pandas rojos de WikiProject, 00:04:39.657 --> 00:04:41.681 y puedes ver que tenemos el sexo 00:04:41.682 --> 00:04:43.561 para casi todos los pandas rojos, 00:04:43.561 --> 00:04:46.854 la fecha de nacimiento varía mucho debido al zoológico del que provienen 00:04:46.854 --> 00:04:50.255 y no tenemos casi ningún panda muerto, lo cual es maravilloso, 00:04:51.437 --> 00:04:52.600 porque son muy lindos. 00:04:53.699 --> 00:04:55.654 Entonces esto también es útil. 00:04:56.377 --> 00:04:59.185 Aquí vamos, bien, con lo que vamos a seguir. 00:04:59.889 --> 00:05:03.784 Puente de Wikidata, o también conocido, antes conocido como edición del cliente, 00:05:03.785 --> 00:05:07.076 así que editar Wikidata desde las cajas de información de Wikipedia 00:05:07.675 --> 00:05:11.635 lo que por un lado se obtendrá más enfoque en los datos 00:05:11.635 --> 00:05:13.441 porque más personas pueden ver los datos allí 00:05:13.441 --> 00:05:18.721 y con suerte alentará más el uso de Wikidata en las Wikipedias 00:05:18.721 --> 00:05:20.620 y eso significa que más personas pueden notar 00:05:20.620 --> 00:05:23.689 si, por ejemplo, algunos datos están desactualizados y necesitan actualizarse 00:05:23.857 --> 00:05:27.000 en lugar de solo verlos en Wikidata. 00:05:28.630 --> 00:05:30.656 También hay referencias corrompidas. 00:05:30.657 --> 00:05:33.959 La idea aquí es que si editas un valor de declaración, 00:05:34.683 --> 00:05:37.169 es posible que también desees actualizar las referencias, 00:05:37.169 --> 00:05:39.373 a menos que solo fuera un error tipográfico o algo así. 00:05:39.897 --> 00:05:43.662 Y estas referencias corrompidas le dicen eso a los editores 00:05:43.663 --> 00:05:49.756 y también que otros editores ven qué otras modificaciones se hicieron 00:05:49.756 --> 00:05:52.471 que editaron un valor de declaración y no actualizaron una referencia 00:05:52.472 --> 00:05:56.766 entonces puedes limpiar después de eso y decidir si eso es... 00:05:57.737 --> 00:05:59.566 ¿Necesitas hacer algo más que eso 00:05:59.566 --> 00:06:02.796 o está realmente bien y no necesitas actualizar la referencia. 00:06:03.543 --> 00:06:09.336 Se relaciona con declaraciones firmadas que vienen de una preocupación, creo, 00:06:09.336 --> 00:06:12.355 que algunos proveedores de datos tienen como... 00:06:14.131 --> 00:06:17.231 Hay una declaración a la que se hace referencia a través de la UNESCO o algo 00:06:17.232 --> 00:06:19.872 y de repente, alguien destroza la declaración 00:06:19.873 --> 00:06:21.836 y se preocupan de que se verá como 00:06:22.827 --> 00:06:26.992 esta organización, como la UNESCO, que aún establece este valor de vandalismo 00:06:26.993 --> 00:06:28.706 y así, con las declaraciones firmadas, 00:06:28.706 --> 00:06:31.488 pueden criptográficamente firmar esta referencia 00:06:31.488 --> 00:06:33.562 y eso no evita ninguna edición, 00:06:34.169 --> 00:06:37.644 pero al menos, si alguien destroza la declaración 00:06:37.644 --> 00:06:40.255 o la edita de cualquier manera, entonces la firma ya no es válida, 00:06:40.255 --> 00:06:43.401 y puedes decir que eso no es exactamente lo que dijo la organización, 00:06:43.402 --> 00:06:47.064 y quizás sea una buena edición y deban volver a firmar la nueva declaración, 00:06:47.065 --> 00:06:49.851 pero también quizás deba revertirse. 00:06:51.203 --> 00:06:54.166 Y también, esto va a ser muy emocionante, creo, 00:06:54.166 --> 00:06:56.846 Citoid es este asombroso sistema que tienen en Wikipedia 00:06:57.379 --> 00:07:01.340 donde puedes pegar una URL, o un identificador, o un ISBN 00:07:01.340 --> 00:07:04.759 o un ID de Wikidata o básicamente cualquier cosa en el editor visual, 00:07:05.260 --> 00:07:08.241 y lanza una referencia que está bien formateada 00:07:08.242 --> 00:07:11.049 y tiene todos los datos que quieres y es maravilloso de usar. 00:07:11.049 --> 00:07:14.337 Y en comparación, en Wikidata, si quiero agregar una referencia 00:07:14.338 --> 00:07:18.711 debo agregar una URL de referencia, título, cadena del nombre del autor, 00:07:18.711 --> 00:07:20.449 lugar de publicación, fecha de publicación, 00:07:20.450 --> 00:07:25.141 fechas de recuperación, al menos esos, y eso es molesto, 00:07:25.141 --> 00:07:29.261 e integrando Citoid en Wikibase se espera a que ayude con eso. 00:07:30.245 --> 00:07:33.604 Y creo que eso es todo lo que tengo, sí. 00:07:33.604 --> 00:07:36.400 Así que, ahora voy a pasarles a Cristina. 00:07:37.788 --> 00:07:42.339 (aplausos) 00:07:43.780 --> 00:07:45.331 (Cristina) Hola, soy Cristina. 00:07:45.331 --> 00:07:47.812 Soy una investigadora científica de la Universidad de Zürich, 00:07:47.812 --> 00:07:51.417 y también soy una miembro activa de la Comunidad Suiza. 00:07:52.698 --> 00:07:57.901 Cuando Claudia Müller-Birn y yo le enviamos esto a WikidataCon, 00:07:57.902 --> 00:08:00.410 lo que queríamos hacer es continuar nuestra discusión 00:08:00.411 --> 00:08:02.424 que empezamos a principios de año 00:08:02.424 --> 00:08:07.442 con un taller sobre calidad de datos y también algunas sesiones en Wikimania. 00:08:07.442 --> 00:08:10.535 Entonces el objetivo de esta charla es básicamente traer algunos pensamientos 00:08:10.536 --> 00:08:14.432 que hemos estado recolectando de la comunidad y de nosotros mismos 00:08:14.432 --> 00:08:16.560 y continuar la discusión. 00:08:16.561 --> 00:08:20.065 Entonces, lo que nos gustaría es continuar interactuando bastante con ustedes. 00:08:21.557 --> 00:08:23.371 Entonces, lo que pensamos es muy importante 00:08:23.372 --> 00:08:27.580 es que le preguntamos continuamente a todo tipo de usuarios en la comunidad 00:08:27.581 --> 00:08:32.020 sobre lo que realmente necesitan, qué problemas tienen con la calidad 00:08:32.020 --> 00:08:35.000 de los datos; no solo a editores, sino además a las personas que codifican, 00:08:35.000 --> 00:08:36.241 o consumen los datos, 00:08:36.242 --> 00:08:39.494 y también a investigadores que usan todo el historial de edición 00:08:39.494 --> 00:08:40.970 para analizar lo que está pasando. 00:08:42.367 --> 00:08:48.431 Así que revisamos alrededor de 80 herramientas que existen en Wikidata 00:08:48.431 --> 00:08:52.380 y las alineamos a las diferentes dimensiones de calidad de datos. 00:08:52.380 --> 00:08:54.360 Y lo que vimos fue que en realidad, 00:08:54.361 --> 00:08:57.681 muchas de ellas se enfocan en, monitoreo de integridad, 00:08:57.682 --> 00:09:02.820 pero en realidad... algunas de ellas también habilitan la interconexión. 00:09:02.820 --> 00:09:08.442 Pero hay una gran necesidad de herramientas que busquen la diversidad, 00:09:08.443 --> 00:09:12.824 lo cual es una de las cosas que realmente podemos tener en Wikidata, 00:09:12.824 --> 00:09:15.958 especialmente este principio de diseño de Wikidata 00:09:15.959 --> 00:09:17.901 donde podemos tener pluralidad 00:09:17.902 --> 00:09:20.308 y diferentes declaraciones con diferentes valores 00:09:20.834 --> 00:09:22.236 procedentes de diferentes fuentes. 00:09:22.236 --> 00:09:25.081 Debido a que es una fuente secundaria, realmente no tenemos herramientas 00:09:25.081 --> 00:09:27.750 que nos digan cuántas declaraciones plurales hay, 00:09:27.751 --> 00:09:30.889 y cuántas podemos mejorar y cómo, 00:09:30.890 --> 00:09:32.833 y tampoco sabemos realmente 00:09:32.833 --> 00:09:35.538 cuáles son todas las razones de pluralidad que podemos tener. 00:09:36.491 --> 00:09:39.201 Entonces, de estas reuniones comunitarias, 00:09:39.201 --> 00:09:43.084 lo que discutimos fueron los desafíos que aún necesitan atención. 00:09:43.084 --> 00:09:47.149 Por ejemplo, que tener todas estas comunidades de crowdsourcing 00:09:47.149 --> 00:09:49.613 es muy bueno porque diversas personas atacan diferentes partes 00:09:49.613 --> 00:09:51.833 de los datos o el gráfico, 00:09:51.834 --> 00:09:54.615 y también tenemos conocimiento de fondo diferente 00:09:54.616 --> 00:09:59.161 pero en realidad, es muy difícil alinear todo en algo homogéneo 00:09:59.162 --> 00:10:04.920 porque diversas personas están usando diferentes propiedades de distintas formas 00:10:04.920 --> 00:10:08.401 y también esperan cosas diferentes de las descripciones de entidades. 00:10:09.003 --> 00:10:12.721 La gente también dijo que también necesitan más herramientas 00:10:12.722 --> 00:10:16.000 que den una mejor visión general del estado global de las cosas. 00:10:16.000 --> 00:10:20.733 Entonces, qué entidades faltan en términos de integridad, 00:10:20.733 --> 00:10:26.121 pero además en qué las personas trabajan la mayor parte del tiempo, 00:10:26.121 --> 00:10:30.516 y también mencionan muchas veces una colaboración más estrecha 00:10:30.517 --> 00:10:33.311 a través de, no solo idiomas, sino los WikiProjects 00:10:33.311 --> 00:10:35.571 y las diferentes plataformas de Wikimedia. 00:10:35.571 --> 00:10:38.859 Y publicamos todos los comentarios transcritos 00:10:38.860 --> 00:10:42.959 de todas estas discusiones en esos enlaces aquí en los Etherpads 00:10:42.959 --> 00:10:46.162 y también en la página wiki de Wikimania. 00:10:46.162 --> 00:10:48.481 Algunas soluciones que aparecieron 00:10:48.481 --> 00:10:53.001 iban encaminados en compartir más las mejores prácticas 00:10:53.001 --> 00:10:55.762 que se están desarrollando en diferentes WikiProjects, 00:10:55.762 --> 00:11:01.238 pero también la gente quiere herramientas que ayuden a ordenar el trabajo en equipos 00:11:01.239 --> 00:11:03.845 o al menos entender quién está trabajando en eso, 00:11:03.845 --> 00:11:07.815 y también mencionaron que quieren más vitrinas 00:11:07.816 --> 00:11:12.019 y más plantillas que los ayuden a crear cosas de una mejor manera. 00:11:12.946 --> 00:11:15.161 Y del contacto que tenemos 00:11:15.162 --> 00:11:18.721 con organizaciones de datos gubernamentales abiertos, 00:11:18.722 --> 00:11:20.068 y en particular, 00:11:20.068 --> 00:11:23.102 estoy en contacto con el cantón y la ciudad de Zürich, 00:11:23.102 --> 00:11:26.207 están muy interesados en trabajar con Wikidata 00:11:26.207 --> 00:11:29.896 porque quieren que sus datos sean accesibles para todos 00:11:29.897 --> 00:11:33.681 en el lugar donde va la gente y consulta o accede a los datos. 00:11:33.682 --> 00:11:36.550 Entonces para ellos, algo que sería realmente interesante 00:11:36.551 --> 00:11:38.600 es tener algún tipo de indicadores de calidad 00:11:38.600 --> 00:11:41.082 ambos en wiki, algo que ya sucede, 00:11:41.082 --> 00:11:42.801 y también en los resultados SPARQL, 00:11:42.802 --> 00:11:46.066 para saber si pueden confiar o no en esos datos de la comunidad. 00:11:46.067 --> 00:11:48.230 Y luego, también quieren saber 00:11:48.230 --> 00:11:51.417 qué partes de sus propios conjuntos de datos son útiles para Wikidata 00:11:51.418 --> 00:11:56.040 y les encantaría tener una herramienta que los ayude a evaluarlo automáticamente. 00:11:56.041 --> 00:11:59.066 También necesitan algún tipo de metodología o herramienta 00:11:59.067 --> 00:12:03.894 que les ayude a decidir si deberían importar o vincular sus datos 00:12:03.894 --> 00:12:04.894 porque en algunos casos, 00:12:04.895 --> 00:12:07.567 también tienen sus propios conjuntos de datos abiertos vinculados, 00:12:07.567 --> 00:12:09.746 así que no saben si simplemente ingerir los datos 00:12:09.747 --> 00:12:13.424 o seguir creando enlaces de los conjuntos de datos a Wikidata 00:12:13.425 --> 00:12:14.425 y a la inversa. 00:12:14.950 --> 00:12:20.043 Y también quieren saber a dónde se refieren sus sitios web en Wikidata. 00:12:20.044 --> 00:12:23.361 Y cuando ejecutan tal consulta en el servicio de consulta, 00:12:23.362 --> 00:12:24.848 a menudo obtienen tiempos de espera, 00:12:24.849 --> 00:12:28.181 entonces tal vez deberíamos realmente crear más herramientas 00:12:28.181 --> 00:12:32.240 que les ayude a responder sus preguntas. 00:12:33.148 --> 00:12:36.208 Y además de eso, 00:12:36.208 --> 00:12:39.361 a nosotros, los investigadores de wiki, también a veces 00:12:39.362 --> 00:12:42.023 nos falta algo de información en la edición de resúmenes. 00:12:42.024 --> 00:12:44.953 Entonces me acuerdo de eso cuando estábamos haciendo algo de trabajo 00:12:44.954 --> 00:12:48.919 para comprender el comportamiento diferente de los editores 00:12:48.919 --> 00:12:53.403 con herramientas o robots o usuarios anónimos, etc. 00:12:53.403 --> 00:12:56.154 realmente nos faltaba, por ejemplo, 00:12:56.154 --> 00:13:01.112 una forma estándar para rastrear que las herramientas se usaban. 00:13:01.113 --> 00:13:03.154 Y hay algunas herramientas que ya están haciendo eso 00:13:03.155 --> 00:13:05.230 como PetScan y muchas otras, 00:13:05.230 --> 00:13:07.720 pero tal vez deberíamos en la comunidad 00:13:07.721 --> 00:13:13.531 discutir más sobre cómo grabarlas para una procedencia detallada. 00:13:14.169 --> 00:13:15.321 Y más adelante, 00:13:15.322 --> 00:13:20.801 creemos que necesitamos pensar sobre dimensiones de calidad de datos 00:13:20.802 --> 00:13:24.961 más concretas que se relacionen con los datos del enlace 00:13:24.962 --> 00:13:30.721 pero no todos los tipos de datos, así que trabajamos en algunas medidas 00:13:30.722 --> 00:13:33.751 para acceder a la ganancia de información habilitada por los enlaces, 00:13:33.751 --> 00:13:36.681 y lo que queremos decir es que cuando enlazamos Wikidata a otros conjuntos 00:13:36.682 --> 00:13:38.201 de datos, también deberíamos pensar 00:13:38.202 --> 00:13:41.921 cuánto en realidad están ganando las entidades en la clasificación, 00:13:41.922 --> 00:13:45.601 también en la descripción, pero también en los vocabularios que usan. 00:13:45.602 --> 00:13:51.041 Solo para dar un ejemplo muy simple de lo que quiero decir con esto 00:13:51.042 --> 00:13:54.269 es que podemos pensar en... en este caso, que sería Wikidata 00:13:54.270 --> 00:13:57.771 o el conjunto de datos externos que se vincula a Wikidata, 00:13:57.772 --> 00:14:00.487 tenemos la entidad para una persona que se llama Natasha Noy, 00:14:00.487 --> 00:14:02.601 tenemos la afiliación y otras cosas, 00:14:02.602 --> 00:14:05.239 y luego decimos que sí, nos vinculamos a un lugar externo, 00:14:05.240 --> 00:14:08.919 y esa entidad también tiene ese nombre, pero en realidad tenemos el mismo valor. 00:14:08.920 --> 00:14:12.889 Lo que sería mejor es que lo vinculemos a algo que tenga un nombre distinto, 00:14:12.889 --> 00:14:16.881 eso aún es válido, porque esta persona tiene dos formas de escribir el nombre, 00:14:16.882 --> 00:14:19.714 y también otra información que no tenemos en Wikidata 00:14:19.715 --> 00:14:21.760 o que no tenemos en el otro conjunto de datos. 00:14:22.390 --> 00:14:24.652 Pero además, lo que es aún mejor 00:14:24.653 --> 00:14:27.770 es que en realidad estamos mirando en el conjunto de datos de destino 00:14:27.770 --> 00:14:31.392 que también tienen nuevas formas de clasificar la información. 00:14:31.393 --> 00:14:35.354 Entonces no solo es una persona, sino que en el otro conjunto de datos, 00:14:35.355 --> 00:14:39.525 también dicen que es una mujer o cualquier otra cosa con que la clasifiquen. 00:14:39.526 --> 00:14:43.401 Y si en el otro conjunto de datos, están usando muchos otros vocabularios 00:14:43.402 --> 00:14:46.588 que también ayuda en todo el asunto de recuperación de información. 00:14:47.371 --> 00:14:51.233 Entonces con eso, también me gustaría decir 00:14:51.234 --> 00:14:55.809 que creemos que podemos mostrar mejor las consultas federadas 00:14:55.810 --> 00:15:00.448 porque cuando miramos el registro de consultas brindado por Malyshev et al., 00:15:01.285 --> 00:15:04.301 vemos en realidad que de las consultas orgánicas, 00:15:04.302 --> 00:15:06.921 solo tenemos muy pocas consultas federadas. 00:15:06.922 --> 00:15:12.801 Y en realidad, la federación es una de las ventajas clave de tener datos 00:15:12.802 --> 00:15:16.903 de enlace, entonces quizás la comunidad o las personas que usan Wikidata 00:15:16.903 --> 00:15:18.898 también necesitan más ejemplos de esto. 00:15:18.898 --> 00:15:22.666 Y si miramos la lista de puntos finales que se están usando, 00:15:22.667 --> 00:15:25.401 no es una lista completa y tenemos muchos más. 00:15:25.402 --> 00:15:30.479 Desde luego, estos datos fueron analizados de consultas hasta marzo de 2018, 00:15:30.480 --> 00:15:34.807 pero deberíamos mirar en la lista de puntos finales federados que tenemos 00:15:34.808 --> 00:15:37.048 y ver si realmente los estamos usando o no. 00:15:37.813 --> 00:15:40.441 Dos preguntas que tengo para la audiencia 00:15:40.442 --> 00:15:43.001 que tal vez podamos usar luego para la discusión son: 00:15:43.001 --> 00:15:45.791 qué problemas de calidad de datos debemos abordar en su opinión, 00:15:45.791 --> 00:15:47.412 de acuerdo a las necesidades que tengan, 00:15:47.412 --> 00:15:50.401 pero además, dónde necesitan más automatización 00:15:50.402 --> 00:15:52.943 que los ayude con la edición o la vigilancia. 00:15:53.866 --> 00:15:55.146 Eso es todo, muchas gracias. 00:15:55.779 --> 00:15:57.527 (aplausos) 00:16:06.030 --> 00:16:08.595 (Jose Emilio Labra) Bien, entonces de lo que voy a hablar 00:16:08.595 --> 00:16:14.715 es de algunas herramientas que estábamos desarrollando sobre Shape Expressions. 00:16:15.536 --> 00:16:19.371 Entonces de esto es de lo que quiero hablar... Soy Jose Emilio Labra, 00:16:19.371 --> 00:16:23.215 pero esto... todas estas herramientas han sido hechas por diferentes personas, 00:16:23.920 --> 00:16:28.480 relacionadas principalmente con W3C ShEx, Grupo de Comunidad de Shape Expressions. 00:16:28.481 --> 00:16:29.481 Grupo de Comunidad ShEx. 00:16:30.144 --> 00:16:36.081 La primera herramienta que deseo mencionar es RDFShape, es una herramienta general, 00:16:36.082 --> 00:16:40.681 porque Shape Expressions no es solo para Wikidata, 00:16:40.682 --> 00:16:44.168 las expresiones de forma es un lenguaje para validar RDF en general. 00:16:44.168 --> 00:16:47.568 Entonces, esta herramienta fue desarrollada principalmente por mí 00:16:47.568 --> 00:16:50.880 y es una herramienta para validar RDF en general. 00:16:50.881 --> 00:16:55.139 Entonces, si quieres aprender sobre RDF o quieres validar RDF 00:16:55.140 --> 00:16:58.621 o puntos finales SPARQL no solo en Wikidata, 00:16:58.622 --> 00:17:00.891 mi consejo es que puedes usar esta herramienta. 00:17:00.891 --> 00:17:03.255 También para enseñar. 00:17:03.255 --> 00:17:05.640 Soy profesor en la universidad 00:17:05.641 --> 00:17:09.151 y la uso en mi curso semántico web para enseñar RDF. 00:17:09.161 --> 00:17:12.121 Entonces, si quieres aprender RDF, creo que es una buena herramienta. 00:17:13.033 --> 00:17:17.598 Por ejemplo, esta es una visualización de un gráfico RDF con la herramienta. 00:17:18.587 --> 00:17:22.643 Pero antes de venir aquí, en el último mes, 00:17:22.643 --> 00:17:28.441 empecé una bifurcación de rdfshape específicamente para Wikidata, 00:17:28.443 --> 00:17:33.082 porque pensé... se llama WikiShape y ayer lo presenté como un regalo para Wikidata. 00:17:33.082 --> 00:17:34.441 Entonces lo que tomé es... 00:17:34.442 --> 00:17:39.898 lo que hice fue eliminar todas las cosas que no estaban relacionadas con Wikidata 00:17:39.898 --> 00:17:44.801 y poner varias cosas, codificadas, por ejemplo, el punto final de Wikidata 00:17:44.802 --> 00:17:49.041 SPARQL, pero ahora, alguien me preguntó si pudiera hacerlo también para Wikibase. 00:17:49.042 --> 00:17:52.000 Y también es muy fácil hacerlo para Wikibase. 00:17:52.760 --> 00:17:56.280 Entonces, esta herramienta, WikiShape, es bastante nueva. 00:17:57.015 --> 00:17:59.843 Creo que funciona, la mayoría de las características, 00:17:59.844 --> 00:18:02.468 pero hay algunas características que tal vez no funcionen, 00:18:02.469 --> 00:18:06.281 y si lo intentas y quieres mejorarla, por favor dímelo. 00:18:06.281 --> 00:18:12.680 Estas son capturas [inaudible], pero creo que puedo intentar, veámos. 00:18:15.385 --> 00:18:16.945 Entonces, veamos si funciona. 00:18:16.953 --> 00:18:20.070 Primero, tengo que salir de... 00:18:22.453 --> 00:18:23.453 Aquí. 00:18:24.226 --> 00:18:28.124 De acuerdo, sí. Esta es la herramienta. 00:18:28.124 --> 00:18:29.844 Cosas que puedes hacer con la herramienta, 00:18:29.845 --> 00:18:35.275 por ejemplo, es que puedes comprobar esquemas, esquemas de entidad. 00:18:35.276 --> 00:18:38.611 Sabes que hay un nuevo espacio de nombres que es "E lo que sea", 00:18:38.612 --> 00:18:44.805 así que si comienzas, por ejemplo, escribe por ejemplo "humano"... 00:18:44.806 --> 00:18:48.812 Mientras escribes, su autocompletado te permite verificar, 00:18:48.812 --> 00:18:52.001 por ejemplo, estas son las Shape Expressions de un humano, 00:18:52.790 --> 00:18:55.937 y estas son las Shape Expressions aquí. 00:18:55.938 --> 00:18:59.841 Y como puedes ver, este editor tiene resaltado de sintaxis, 00:18:59.842 --> 00:19:04.559 esto es... bueno, tal vez es muy pequeña, la pantalla. 00:19:05.676 --> 00:19:07.590 Puedo intentar hacerla más grande. 00:19:09.194 --> 00:19:10.973 Quizás lo veas mejor ahora. 00:19:10.973 --> 00:19:14.241 Y este es el editor con resaltado de sintaxis y también tiene... 00:19:14.241 --> 00:19:17.851 Quiero decir, este editor proviene del mismo código fuente 00:19:17.851 --> 00:19:19.641 del servicio de consulta de Wikidata. 00:19:19.642 --> 00:19:23.960 Así que por ejemplo, si pasas el ratón por aquí, 00:19:23.961 --> 00:19:27.961 te muestra las etiquetas de las diferentes propiedades. 00:19:27.962 --> 00:19:31.298 Entonces creo que es muy útil porque ahora los esquemas de entidad 00:19:32.588 --> 00:19:38.601 que están en Wikidata son solo una idea de texto plano, 00:19:38.602 --> 00:19:42.493 y creo que este editor es mucho mejor porque tiene autocompletado 00:19:42.494 --> 00:19:43.743 y también tiene... 00:19:43.744 --> 00:19:48.241 Quiero decir, si tú, por ejemplo, querías agregar una restricción, 00:19:48.241 --> 00:19:51.570 dices "wdt:" 00:19:51.570 --> 00:19:56.884 Empiezas a escribir "autor" y luego haces clic en Ctrl + Espacio 00:19:56.884 --> 00:19:58.922 y te sugiere las diferentes cosas. 00:19:58.922 --> 00:20:02.388 Entonces esto es similar al servicio de consulta de Wikidata 00:20:02.389 --> 00:20:06.445 pero específicamente para Shape Expressions 00:20:06.445 --> 00:20:11.975 porque lo que siento es que crear Shape Expressions 00:20:11.976 --> 00:20:15.841 no es más difícil que escribir consultas SPARQL. 00:20:15.842 --> 00:20:21.255 Entonces algunas personas piensan que está al mismo nivel, 00:20:22.278 --> 00:20:26.296 Probablemente sea más fácil, creo, porque Shape Expressions era, 00:20:26.296 --> 00:20:31.241 cuando lo diseñamos, lo hicimos para que fuera más fácil de trabajar. 00:20:31.242 --> 00:20:35.001 Bien, esta es una de las primeras cosas, que tienes este editor 00:20:35.001 --> 00:20:36.620 para Shape Expressions. 00:20:37.371 --> 00:20:41.467 Y luego también tienes la posibilidad, por ejemplo, de visualizar. 00:20:41.468 --> 00:20:44.801 Si tienes un Shape Expression, usar por ejemplo... 00:20:44.802 --> 00:20:49.386 Creo, "trabajo escrito" es un buen Shape Expression 00:20:49.386 --> 00:20:53.300 porque tiene algunas relaciones entre diferentes cosas. 00:20:54.823 --> 00:20:58.160 Y esta es la visualización UML del trabajo escrito. 00:20:58.161 --> 00:21:02.090 En un UML, es fácil ver las diferentes propiedades. 00:21:02.790 --> 00:21:06.794 Cuando haces esto, me di cuenta cuando intenté con varias personas, 00:21:06.795 --> 00:21:09.216 que encuentran algunos errores en sus Shape Expressions 00:21:09.217 --> 00:21:12.988 porque es fácil detectar cuáles son las propiedades faltantes o lo que sea. 00:21:13.588 --> 00:21:15.771 Entonces hay otra posibilidad aquí 00:21:15.772 --> 00:21:19.520 es que también puedes validar, creo que lo tengo aquí, la validación. 00:21:20.496 --> 00:21:25.285 Creo que lo tenía en alguna etiqueta, tal vez lo cerré. 00:21:26.267 --> 00:21:30.988 Bien, pero puedes, por ejemplo, puedes hacer clic aquí, Validar entidades. 00:21:32.308 --> 00:21:34.232 Tú, por ejemplo, 00:21:35.404 --> 00:21:41.921 "q42" con "e42", que es el autor. 00:21:42.818 --> 00:21:46.180 Con "humano", creo que podemos hacerlo con "humanos". 00:21:49.050 --> 00:21:50.050 Y luego es... 00:21:50.688 --> 00:21:56.365 Y está tomando un poco de tiempo hacerlo porque está haciendo las consultas SPARQL 00:21:56.365 --> 00:21:59.134 y ahora, por ejemplo, está fallando por la red pero... 00:21:59.657 --> 00:22:01.580 Puedes probarlo. 00:22:02.759 --> 00:22:07.026 Bien, continuemos con la presentación, con otras herramientas. 00:22:07.026 --> 00:22:12.353 Así que que si quieres probarlo y quieres algún comentario, házmelo saber. 00:22:13.133 --> 00:22:15.540 Entonces para continuar con la presentación... 00:22:18.923 --> 00:22:20.233 Entonces esto es WikiShape. 00:22:23.800 --> 00:22:26.509 Bien, ya dije esto, 00:22:27.681 --> 00:22:34.157 el editor de Shape Expressions es un proyecto independiente en GitHub. 00:22:35.605 --> 00:22:37.472 Puedes usarlo en tu propio proyecto. 00:22:37.472 --> 00:22:41.036 Si quieres hacer una herramienta de Shape Expressions, 00:22:41.036 --> 00:22:45.635 puedes incrustarlo en cualquier otro proyecto, 00:22:45.636 --> 00:22:48.235 está en GitHub y puedes usarlo. 00:22:48.868 --> 00:22:51.970 El mismo autor, es uno de mis alumnos, 00:22:52.684 --> 00:22:55.534 él también creó un editor para Shape Expressions, 00:22:55.534 --> 00:22:57.799 también inspirado por el servicio de consulta de Wikidata 00:22:57.800 --> 00:23:00.681 donde, en una columna, 00:23:00.682 --> 00:23:05.103 tienes este editor más visual de consultas SPARQL 00:23:05.104 --> 00:23:07.135 donde puedes poner este tipo de cosas. 00:23:07.136 --> 00:23:09.123 Esta es una captura de pantalla. 00:23:09.123 --> 00:23:12.662 Puedes ver que esas son las Shape Expressions en el texto 00:23:12.662 --> 00:23:17.822 pero es una forma de Shape Expressions donde tal vez tome un poco más de tiempo 00:23:18.595 --> 00:23:23.400 donde puedes poner las diferentes filas en los diferentes campos. 00:23:23.401 --> 00:23:25.800 Luego está ShExEr. 00:23:26.879 --> 00:23:31.882 Tenemos que... Lo hizo un estudiante de doctorado de la universidad de Oviedo 00:23:31.883 --> 00:23:34.080 y él está aquí, así que puedes presentar ShExEr. 00:23:38.147 --> 00:23:40.024 (Danny) Hola, soy Danny Fernández, 00:23:40.025 --> 00:23:43.340 Soy un estudiante de doctorado de la Universidad de Oviedo 00:23:43.340 --> 00:23:44.710 y trabajo con Labra. 00:23:44.710 --> 00:23:47.725 Ya que hay poco tiempo, hagamos esto rápido, 00:23:47.726 --> 00:23:52.641 no tomemos ninguna demostración real, solo con algunas capturas de pantalla. 00:23:52.642 --> 00:23:57.897 La forma habitual de trabajar con Shape Expressions o cualquier lenguaje 00:23:57.897 --> 00:23:59.521 es que tienes un experto en dominios 00:23:59.522 --> 00:24:02.313 que define a priori cómo debería verse el gráfico, 00:24:02.314 --> 00:24:03.555 define algunas estructuras, 00:24:03.556 --> 00:24:06.983 y luego usas estas estructuras para validar los datos reales con él. 00:24:08.124 --> 00:24:11.641 Esta herramienta, que es tan buena como la que Labra ha estado presentando, 00:24:11.642 --> 00:24:14.441 es una herramienta de uso general para cualquier fuente RDF, 00:24:14.442 --> 00:24:17.375 está diseñada para hacer lo contrario. 00:24:17.376 --> 00:24:18.758 Ya tienes algunos datos, 00:24:18.759 --> 00:24:23.165 selecciona de qué nodos quieres tener la forma 00:24:23.165 --> 00:24:26.718 y luego automáticamente extrae o infiere la forma. 00:24:26.719 --> 00:24:29.791 Aunque esta es una herramienta de propósito general, 00:24:29.791 --> 00:24:34.063 lo que hicimos para esta WikidataCon es este botón elegante 00:24:34.884 --> 00:24:37.081 que si haces clic en él, esencialmente lo que pasa 00:24:37.081 --> 00:24:42.079 es que hay tantos parámetros de configuraciones 00:24:42.080 --> 00:24:46.251 y lo configura para funcionar con el punto final de Wikidata 00:24:46.251 --> 00:24:47.971 y terminará pronto, lo siento. 00:24:48.733 --> 00:24:52.883 Una vez que presionas este botón lo que obtienes es esencialmente esto. 00:24:52.884 --> 00:24:55.126 Después de haber seleccionado qué tipo de nodos, 00:24:55.127 --> 00:24:59.360 qué tipo de instancias de nuestra clase, lo que sea que estés buscando, 00:24:59.361 --> 00:25:01.321 obtienes un esquema automático. 00:25:02.319 --> 00:25:07.111 Todas las restricciones están ordenadas por cuántos nodos se ajusten a él, 00:25:07.112 --> 00:25:09.772 puedes filtrar los menos comunes, etc. 00:25:09.772 --> 00:25:12.126 Hay un cartel abajo de estas cosas 00:25:12.127 --> 00:25:14.595 y bueno, estaré abajo y arriba 00:25:14.596 --> 00:25:16.454 y por todo el lugar todo el día, 00:25:16.455 --> 00:25:19.081 así que si tienes más interés en esta herramienta, 00:25:19.082 --> 00:25:21.476 solo háblame durante este viaje. 00:25:21.477 --> 00:25:24.624 Y ahora, le devolveré el micrófono a Labra, gracias. 00:25:24.625 --> 00:25:29.265 (aplausos) 00:25:29.812 --> 00:25:32.578 (Jose) Bien, continuemos con las otras herramientas. 00:25:32.579 --> 00:25:34.984 La otra herramienta es ShapeDesigner. 00:25:34.984 --> 00:25:37.241 Andra, ¿quieres hacer el ShapeDesigner ahora 00:25:37.242 --> 00:25:39.287 o tal vez más tarde o en el taller? 00:25:39.287 --> 00:25:40.603 Hay un taller... 00:25:40.603 --> 00:25:44.437 Esta tarde hay un taller específicamente para Shape Expressions, y... 00:25:45.265 --> 00:25:47.939 La idea es que iba a practicarse más, 00:25:47.940 --> 00:25:52.324 y si quieres practicar un poco de ShEx, puedes hacerlo allí. 00:25:52.875 --> 00:25:55.720 Esta herramienta es ShEx... y ahí está Eric, 00:25:55.721 --> 00:25:56.890 así que puedes presentarla. 00:25:57.969 --> 00:26:00.687 (Eric) Así que rápidamente, lo que quiero decir 00:26:00.687 --> 00:26:05.711 es que probablemente ya has visto la interfaz de ShEx 00:26:05.711 --> 00:26:07.601 está hecho para Wikidata. 00:26:07.602 --> 00:26:12.930 Está efectivamente despojado y diseñado específicamente para Wikidata, 00:26:12.930 --> 00:26:17.667 el genérico tiene más características pero pensé que ya lo había mencionado 00:26:17.667 --> 00:26:19.977 porque una de esas características es particularmente útil 00:26:19.978 --> 00:26:23.201 para depurar esquemas de Wikidata, 00:26:23.201 --> 00:26:29.224 la cual es que si vas y seleccionas el modo de sorber, 00:26:29.225 --> 00:26:31.444 lo que hace es decir mientras estoy validando, 00:26:31.445 --> 00:26:34.694 quiero derribar todos los triples y eso significa 00:26:34.695 --> 00:26:36.274 que si tengo un montón de fallas, 00:26:36.275 --> 00:26:39.586 puedo pasar y empezar a buscar esas fallas y decir, 00:26:39.587 --> 00:26:41.800 cuáles son los triples que están aquí, 00:26:41.801 --> 00:26:44.120 lo siento, los triples están aquí abajo, 00:26:44.121 --> 00:26:45.757 esto es solo un registro de lo que pasó. 00:26:46.327 --> 00:26:49.180 Luego puedes sentarte allí y jugar con él en tiempo real 00:26:49.181 --> 00:26:51.033 como si jugaras con algo que cambia. 00:26:51.033 --> 00:26:54.160 Es una versión más rápida para hacer todo eso. 00:26:55.201 --> 00:26:56.481 Este es un formulario de ShExC, 00:26:56.482 --> 00:26:59.455 esto es algo que [Joachim] había sugerido 00:27:00.035 --> 00:27:04.631 podría ser útil para poblar documentos de Wikidata 00:27:04.631 --> 00:27:07.338 basados en una Shape Expression para ese documento. 00:27:08.095 --> 00:27:11.681 Esto no está diseñado para Wikidata, 00:27:11.682 --> 00:27:13.981 pero es solo para decir que puedes tener un esquema 00:27:13.981 --> 00:27:15.402 y puedes tener algunas anotaciones 00:27:15.403 --> 00:27:17.518 y decir específicamente cómo quiero hacer ese esquema 00:27:17.519 --> 00:27:19.031 y luego se construye un formulario, 00:27:19.031 --> 00:27:21.191 y si tienes datos, se puede llenar el formulario. 00:27:24.517 --> 00:27:26.164 PyShEx [inaudible]. 00:27:28.025 --> 00:27:31.080 (Jose) Creo que este es el último. 00:27:31.821 --> 00:27:34.080 Sí, el último es PyShEx. 00:27:34.675 --> 00:27:38.151 PyShEx es una implementación Python de Shape Expressions, 00:27:39.193 --> 00:27:42.680 puedes jugar también con Jupyter Notebooks si quieres ese tipo de cosas. 00:27:42.680 --> 00:27:44.432 Bien, eso es todo de esto. 00:27:44.433 --> 00:27:47.170 (aplausos) 00:27:52.916 --> 00:27:57.073 (Andra) Voy a hablar sobre un proyecto específico en el que estoy involucrado 00:27:57.074 --> 00:27:58.074 llamado Gene Wiki, 00:27:58.075 --> 00:28:04.596 y donde también estamos lidiando con problemas de calidad. 00:28:04.597 --> 00:28:06.684 Pero antes de entrar en la calidad, 00:28:06.685 --> 00:28:09.229 una introducción rápida sobre qué es Gene Wiki, 00:28:09.855 --> 00:28:15.175 y recientemente lanzamos una preimpresión de un artículo que acabamos de escribir 00:28:15.175 --> 00:28:18.160 que explica los detalles del proyecto. 00:28:19.821 --> 00:28:23.839 Veo gente tomando fotos, pero básicamente, lo que hace Gene Wiki, 00:28:23.846 --> 00:28:28.027 es tratar de obtener datos biomédicos, datos públicos en Wikidata, 00:28:28.028 --> 00:28:32.200 y seguimos un patrón específico para obtener esos datos en Wikidata. 00:28:33.130 --> 00:28:36.809 Y cuando tenemos un nuevo repositorio o un nuevo conjunto de datos 00:28:36.810 --> 00:28:39.390 que puede ser incluido en Wikidata, 00:28:39.390 --> 00:28:41.403 el primer paso es la participación de la comunidad. 00:28:41.403 --> 00:28:43.784 No es necesario dirigirse a una comunidad de Wikidata 00:28:43.785 --> 00:28:46.120 sino a una comunidad de investigación local, 00:28:46.121 --> 00:28:50.286 y nos encontramos en persona o en línea o en cualquier plataforma 00:28:50.286 --> 00:28:52.881 e intentar crear un modelo de datos 00:28:52.882 --> 00:28:56.197 que unan sus datos con el modelo de Wikidata. 00:28:56.197 --> 00:28:59.944 Aquí tengo una foto de un taller que se hizo aquí el año pasado 00:28:59.945 --> 00:29:02.663 donde se trataba de ver un conjunto de datos específico 00:29:02.663 --> 00:29:05.280 y, bueno, ves muchas discusiones, 00:29:05.281 --> 00:29:09.780 luego alineándolo con schema.org y otras ontologías que hay por ahí. 00:29:10.320 --> 00:29:15.508 Luego, al final del primer paso, tenemos un dibujo en pizarra del esquema 00:29:15.509 --> 00:29:17.336 que queremos implementar en Wikidata. 00:29:17.337 --> 00:29:20.440 Lo que ves allí, es claro, 00:29:20.441 --> 00:29:21.766 lo tenemos al fondo, 00:29:21.767 --> 00:29:25.240 incluso hoy podemos hacer algunos esquemas dentro de este panel. 00:29:26.560 --> 00:29:28.399 Una vez que tengamos el esquema en su lugar, 00:29:28.400 --> 00:29:31.320 lo siguiente es intentar hacer ese esquema legible por la máquina 00:29:32.358 --> 00:29:36.841 porque quieres tener modelos accionables para unir los datos que traes 00:29:36.842 --> 00:29:39.690 de cualquier base de datos biomédica en Wikidata. 00:29:40.393 --> 00:29:45.182 Y aquí estamos aplicando Shape Expressions. 00:29:46.471 --> 00:29:52.518 Y usamos eso porque Shape Expressions te permite probar 00:29:52.518 --> 00:29:57.040 si el conjunto de datos en realidad... no, para ver primero 00:29:57.041 --> 00:30:01.782 si los datos ya existentes en Wikidata siguen el mismo modelo de datos 00:30:01.783 --> 00:30:04.718 que se logró en el proceso anterior. 00:30:04.719 --> 00:30:06.641 Entonces, con Shape Expression podemos verificar: 00:30:06.642 --> 00:30:10.926 los datos que están en este tema en Wikidata, ¿necesitan algo de limpieza 00:30:10.926 --> 00:30:15.013 o necesitamos adaptar nuestro modelo al modelo de Wikidata o viceversa? 00:30:15.937 --> 00:30:19.867 Una vez que esté en su lugar y comenzamos a escribir robots, 00:30:20.670 --> 00:30:23.801 y los robots están sembrando la información 00:30:23.802 --> 00:30:27.308 que está en las fuentes primarias de Wikidata. 00:30:27.846 --> 00:30:29.303 Y cuando los robots estén listos, 00:30:29.304 --> 00:30:33.001 escribimos estos robots con una plataforma llamada... 00:30:33.002 --> 00:30:36.201 con una biblioteca de Python llamada integrador de Wikidata 00:30:36.202 --> 00:30:38.167 que salió de nuestro proyecto. 00:30:38.698 --> 00:30:42.921 Una vez que tengamos nuestros robots, usamos una plataforma llamada Jenkins 00:30:42.921 --> 00:30:44.540 para una integración continua. 00:30:44.540 --> 00:30:45.762 Y con Jenkins, 00:30:45.762 --> 00:30:51.160 actualizamos continuamente las fuentes primarias con Wikidata. 00:30:52.178 --> 00:30:55.889 Este es un diagrama para el artículo que mencioné previamente. 00:30:55.890 --> 00:30:57.241 Este es nuestro panorama actual. 00:30:57.242 --> 00:31:02.059 Cada caja naranja de ahí es una fuente primaria de drogas, 00:31:02.060 --> 00:31:07.827 proteínas, genes, enfermedades, compuestos químicos con interacción, 00:31:07.827 --> 00:31:10.870 y este modelo es demasiado pequeño para leer 00:31:10.870 --> 00:31:17.472 pero esta es la base de datos, las fuentes que gestionamos en Wikidata 00:31:17.473 --> 00:31:20.560 y se unen con las fuentes primarias. 00:31:20.561 --> 00:31:22.355 Este es el flujo de trabajo. 00:31:22.870 --> 00:31:25.312 Uno de nuestros socios es la ontología de la enfermedad 00:31:25.312 --> 00:31:27.672 la ontología de la enfermedad es una ontología CC0, 00:31:28.179 --> 00:31:31.990 y la ontología CC0 tiene un ciclo propio de curación, 00:31:32.756 --> 00:31:35.736 ellos continuamente actualizan la ontología de la enfermedad 00:31:35.737 --> 00:31:39.687 para reflejar el espacio de la enfermedad o la interpretación de enfermedades. 00:31:40.336 --> 00:31:44.361 Ahí está también el ciclo de curación de Wikidata en enfermedades 00:31:44.362 --> 00:31:49.844 donde la comunidad de Wikidata monitorea lo que ocurre en Wikidata. 00:31:50.406 --> 00:31:51.601 Y luego tenemos dos roles, 00:31:51.602 --> 00:31:55.477 los llamamos coloquialmente el portero guardián, 00:31:56.009 --> 00:31:59.561 este éramos un colega y yo hace cinco años 00:31:59.562 --> 00:32:03.414 y nos sentábamos en nuestras computadoras a monitorear Wikipedia y Wikidata, 00:32:03.415 --> 00:32:08.601 si había un problema que fuera reportado a la comunidad primaria, 00:32:08.602 --> 00:32:11.765 las fuentes primarias, miraban la implementación y decidían: 00:32:11.765 --> 00:32:14.240 ¿confiamos en la entrada de Wikidata? 00:32:14.850 --> 00:32:18.555 Sí... entonces se considera, y entra en el ciclo, 00:32:18.555 --> 00:32:22.686 y la próxima iteración es parte de la ontología de la enfermedad 00:32:22.687 --> 00:32:25.411 y se retroalimentaba a Wikidata. 00:32:27.419 --> 00:32:31.480 Estamos haciendo lo mismo en WikiPathways. 00:32:31.481 --> 00:32:36.601 WikiPathways es una ruta inspirada en MediaWiki y un repositorio de la ruta. 00:32:36.602 --> 00:32:40.901 La misma historia, ya hay diferentes recursos de ruta en Wikidata. 00:32:41.463 --> 00:32:44.713 Puede haber conflictos entre esos recursos de ruta 00:32:44.722 --> 00:32:46.701 y estos conflictos se reportan de nuevo 00:32:46.702 --> 00:32:49.521 por los porteros guardianes a esa comunidad, 00:32:49.522 --> 00:32:53.715 y tú mantienes los ciclos de curación individual. 00:32:53.715 --> 00:32:57.068 Pero si recuerdas el ciclo anterior, 00:32:57.069 --> 00:33:03.041 aquí solo mencioné dos ciclos, dos recursos, 00:33:03.566 --> 00:33:06.300 tenemos que hacer eso para cada recurso que tenemos 00:33:06.300 --> 00:33:08.061 y tenemos que gestionar lo que ocurre 00:33:08.062 --> 00:33:09.185 porque cuando digo curación, 00:33:09.185 --> 00:33:11.787 Realmente me refiero a ir a las páginas principales de Wikipedia, 00:33:11.787 --> 00:33:14.544 entrar en las páginas principales de Wikidata y tratar de hacer eso. 00:33:14.545 --> 00:33:19.316 Eso no pesa para los dos porteros guardianes que tuvimos. 00:33:19.860 --> 00:33:22.777 Cuando estaba en una conferencia en 2016 00:33:22.778 --> 00:33:26.933 donde Eric hizo una presentación de Shape Expressions, 00:33:26.934 --> 00:33:29.277 salté al carro y dije bien, 00:33:29.278 --> 00:33:34.240 Shape Expressions puede ayudarnos a detectar qué diferencias hay en Wikidata 00:33:34.240 --> 00:33:41.159 y eso permite que los porteros guardianes tengan informes más eficazes que reportar. 00:33:42.275 --> 00:33:46.019 Entonces este año, estaba encantado con la entidad del esquema 00:33:46.020 --> 00:33:50.765 porque ahora, podemos almacenar esos esquemas de entidad en Wikidata, 00:33:50.765 --> 00:33:53.183 en el mismo Wikidata, mientras que antes estaban en GitHub, 00:33:53.860 --> 00:33:56.815 y esto se alinea con la interfaz de Wikidata, 00:33:56.816 --> 00:33:59.350 entonces tienes cosas como discusiones de documentos 00:33:59.350 --> 00:34:00.762 pero también tienes revisiones. 00:34:00.763 --> 00:34:05.261 Puedes aprovechar las páginas principales y las revisiones en Wikidata 00:34:05.262 --> 00:34:12.255 y usar eso para discutir sobre lo que hay en Wikidata 00:34:12.255 --> 00:34:14.060 y qué hay en las fuentes primarias. 00:34:14.966 --> 00:34:19.686 Entonces, lo que Eric acaba de presentar, ya es un gran beneficio. 00:34:19.686 --> 00:34:24.335 Así que aquí, creamos una Shape Expression para el gen humano, 00:34:24.336 --> 00:34:30.225 y luego lo ejecutamos en ShEx simple, tal como puedes ver, 00:34:30.225 --> 00:34:32.428 ya tenemos... 00:34:32.429 --> 00:34:34.641 Hay un problema que necesita ser monitoreado 00:34:34.642 --> 00:34:37.316 es que hay un elemento que no encaja en ese esquema, 00:34:37.316 --> 00:34:43.139 y entonces ya puedes crear informes de curación de entidades de esquema 00:34:43.140 --> 00:34:46.240 basados en... y enviar eso a los diferentes informes de curación. 00:34:48.058 --> 00:34:52.788 Pero ShEx.js es una interfaz integrada, 00:34:52.788 --> 00:34:55.860 y si puedo mostrar aquí, solo hago diez, 00:34:55.860 --> 00:35:00.362 pero tenemos decenas de miles, y eso nuevamente no pesa. 00:35:00.362 --> 00:35:04.654 Entonces, ahora el integrador de Wikidata también es compatible con ShEx, 00:35:05.168 --> 00:35:07.431 y luego podemos enlazar bucles de elementos 00:35:07.431 --> 00:35:11.494 donde decimos sí-no, sí-no, verdadero-falso, verdadero-falso. 00:35:11.495 --> 00:35:12.495 Así que de nuevo, 00:35:13.065 --> 00:35:16.514 aumentamos un poco la eficiencia de lidiar con los informes. 00:35:17.256 --> 00:35:22.662 Pero ahora, recientemente, se construye en el servicio de consultas de Wikidata, 00:35:23.181 --> 00:35:24.998 y bueno, recientemente hemos ido acelerando 00:35:24.999 --> 00:35:26.560 así que de nuevo, eso no pesa. 00:35:26.561 --> 00:35:31.391 Aún es un proceso continuo, el cómo lidiar con modelos en Wikidata. 00:35:32.202 --> 00:35:36.682 Y de nuevo, ShEx no solo es intimidante 00:35:36.683 --> 00:35:40.356 sino que también la escala es demasiado grande para tratarla. 00:35:41.068 --> 00:35:46.081 Así que empecé a trabajar, esta es mi primera prueba de concepto o ejercicio 00:35:46.082 --> 00:35:47.680 donde usé una herramienta llamada yED, 00:35:48.184 --> 00:35:52.590 y empecé a dibujar esas Shape Expressions porque... 00:35:52.591 --> 00:35:58.098 y luego regenero este esquema 00:35:58.099 --> 00:36:01.279 en este formato adyacente de Shape Expressions, 00:36:01.280 --> 00:36:04.520 así que eso ya se abriría a la audiencia 00:36:04.521 --> 00:36:07.432 que está intimidada por los lenguajes de Shape Expressions. 00:36:07.961 --> 00:36:12.308 Pero en realidad, hay un problema con esas descripciones visuales 00:36:12.309 --> 00:36:18.229 porque también es un esquema que fue dibujado en yEd por alguien. 00:36:18.230 --> 00:36:23.838 Y aquí hay otro que es hermoso. 00:36:23.838 --> 00:36:29.414 Me encantaría tenerlo en mi pared, pero aún no es interoperable. 00:36:30.281 --> 00:36:32.131 Así que quiero terminar mi charla con, 00:36:32.131 --> 00:36:35.732 y la primera vez, me he estado robando esta diapositiva, usando esta diapositiva. 00:36:35.732 --> 00:36:37.594 Es un honor tenerlo en la audiencia 00:36:37.595 --> 00:36:39.423 y realmente me gusta esto: 00:36:39.424 --> 00:36:42.362 "La gente piensa que RDF es una molestia porque es complicado. 00:36:42.362 --> 00:36:43.985 La verdad es aún peor, es tan simple, 00:36:45.581 --> 00:36:48.133 porque tienes que trabajar con problemas de datos del mundo real 00:36:48.134 --> 00:36:50.031 que son terriblemente complicados. 00:36:50.031 --> 00:36:51.451 Si bien puedes evitar RDF, 00:36:51.451 --> 00:36:55.760 es más difícil evitar datos complicados y problemas informáticos complicados". 00:36:55.761 --> 00:36:59.535 Esto es sobre RDF, pero creo que también aplica al modelado. 00:37:00.112 --> 00:37:02.769 Entonces, mi punto de discusión es si realmente... 00:37:03.387 --> 00:37:05.882 ¿Cómo iniciamos el modelado? 00:37:05.882 --> 00:37:10.826 ¿Deberíamos discutir sobre ShEx, o modelos visuales o...? 00:37:11.426 --> 00:37:13.271 ¿Cómo continuamos? 00:37:13.474 --> 00:37:14.840 Muchas gracias por tu tiempo. 00:37:15.102 --> 00:37:17.787 (aplausos) 00:37:20.001 --> 00:37:21.188 (Lydia) Muchas gracias. 00:37:21.692 --> 00:37:24.001 ¿Vendrían aquí delante 00:37:24.002 --> 00:37:27.741 para que podamos iniciar con las preguntas de la audiencia? 00:37:28.610 --> 00:37:30.203 ¿Hay preguntas? 00:37:31.507 --> 00:37:32.507 Sí. 00:37:34.253 --> 00:37:36.890 Y creo que, para la cámara, necesitamos... 00:37:38.835 --> 00:37:40.968 (Lydia riendo) Sí. 00:37:43.094 --> 00:37:46.273 (persona 3) Una pregunta para Cristina, creo. 00:37:47.366 --> 00:37:51.641 Mencionaste el término "ganancia de información" 00:37:51.642 --> 00:37:53.689 y vincularse con otros sistemas. 00:37:53.690 --> 00:37:55.460 Hay una medida teórica de la información 00:37:55.460 --> 00:37:58.101 que usa estadística y probabilidad llamada ganancia de información. 00:37:58.101 --> 00:37:59.541 ¿Tienes el mismo... 00:37:59.542 --> 00:38:01.736 Quiero decir, ¿querías decir exactamente esa medida, 00:38:01.736 --> 00:38:04.173 la ganancia de información de la teoría de la probabilidad 00:38:04.174 --> 00:38:05.420 de la teoría de la información 00:38:05.420 --> 00:38:09.024 o simplemente usar esta cosa conceptual para medir la ganancia de información? 00:38:09.025 --> 00:38:13.016 No, definimos e implementamos medidas 00:38:13.695 --> 00:38:20.161 que usan la entropía de Shannon, así que se entiende así. 00:38:20.162 --> 00:38:22.596 No quise entrar en detalles de las fórmulas concretas... 00:38:22.596 --> 00:38:24.977 (persona 3) No, no, por supuesto, por eso hice la pregunta. 00:38:24.978 --> 00:38:26.818 - (Cristina) Pero, sí... - (persona 3) Gracias. 00:38:33.091 --> 00:38:35.047 (persona 4) Más un comentario que una pregunta. 00:38:35.048 --> 00:38:36.241 (Lydia) Dilo. 00:38:36.242 --> 00:38:39.840 (persona 4) Ha habido mucho enfoque a nivel de elemento 00:38:39.840 --> 00:38:42.547 sobre calidad e integridad, 00:38:42.547 --> 00:38:47.374 una de las cosas que me preocupa es que no aplicamos lo mismo a las jerarquías 00:38:47.374 --> 00:38:51.480 y creo que tenemos un problema, es que, nuestra jerarquía a veces no es buena. 00:38:51.481 --> 00:38:53.463 Vemos que va a ser un problema real 00:38:53.464 --> 00:38:55.774 con la búsqueda de Commons y otras cosas. 00:38:56.771 --> 00:39:00.601 Una de las habilidades que podemos hacer es importar externos... 00:39:00.602 --> 00:39:04.842 La forma en que los tesauros externos estructuran sus jerarquías, 00:39:04.842 --> 00:39:10.291 utilizando el calificador P4900 de concepto más amplio. 00:39:11.037 --> 00:39:16.167 Pero lo que creo sería muy útil, serían mejores herramientas que hagan eso 00:39:16.168 --> 00:39:21.212 que puedan importar una jerarquía de tesauros externos 00:39:21.212 --> 00:39:24.111 y que la mapee en nuestros elementos de Wikidata. 00:39:24.111 --> 00:39:28.199 Una vez que esté en su lugar con esos calificadores P4900, 00:39:28.200 --> 00:39:31.494 puedes hacer buenas consultas a través de SPARQL 00:39:32.490 --> 00:39:37.534 para ver dónde nuestra jerarquía diverge de esa jerarquía externa. 00:39:37.534 --> 00:39:41.346 Por ejemplo, [Paula Morma], usuario de PKM, tal vez sepas, 00:39:41.346 --> 00:39:43.533 ella trabaja mucho en la moda. 00:39:43.533 --> 00:39:50.524 Así que lo usamos para atraer la jerarquía de tesauros de la moda europea 00:39:50.524 --> 00:39:53.812 y la jerarquía Getty AAT de tesauros de la moda, 00:39:53.812 --> 00:39:57.957 y luego ver dónde estaban los huecos en nuestros elementos de nivel superior, 00:39:57.957 --> 00:40:00.511 lo cual es un problema real para nosotros porque a menudo, 00:40:00.511 --> 00:40:04.355 estas son cosas que solo existen en páginas de desambiguación en Wikipedia, 00:40:04.356 --> 00:40:09.270 así que nos faltan muchos elementos de nivel superior en nuestras jerarquías 00:40:09.271 --> 00:40:14.480 y es algo que debemos abordar en términos de calidad e integridad, 00:40:14.480 --> 00:40:15.971 pero lo que realmente ayudaría 00:40:16.643 --> 00:40:20.871 serían mejores herramientas que la jungla de guiones de extracción que escribí... 00:40:20.872 --> 00:40:26.010 Si alguien pudiera poner eso en una libreta PAWS de Python 00:40:26.561 --> 00:40:31.972 para poder tomar un tesauro externo, tomar su jerarquía, 00:40:31.973 --> 00:40:34.595 que bien puede estar disponible como datos vinculados o no, 00:40:35.379 --> 00:40:40.580 y luego ponerlos en QuickStatements para ponerlos en valores P4900. 00:40:41.165 --> 00:40:42.165 Y luego, 00:40:42.166 --> 00:40:44.527 cuando nuestra representación se vuelva más completa, 00:40:44.528 --> 00:40:49.691 se actualicen esos P4900 porque a medida que a nuestra representación 00:40:49.691 --> 00:40:51.590 se le pone fecha, se vuelve más densa, 00:40:51.590 --> 00:40:55.377 los valores de estos calificadores necesitan cambiar 00:40:56.230 --> 00:40:59.526 para representar que tenemos más de su jerarquía en nuestro sistema. 00:40:59.526 --> 00:41:03.728 Si alguien pudiera hacer eso, creo que sería muy útil, 00:41:03.728 --> 00:41:07.121 y necesitamos también mirar otros enfoques 00:41:07.122 --> 00:41:10.762 para mejorar la calidad y la integridad a nivel jerárquico 00:41:10.763 --> 00:41:12.378 no solo a nivel de elemento. 00:41:13.308 --> 00:41:14.840 (Andra) ¿Puedo agregar a eso? 00:41:16.362 --> 00:41:19.901 Sí, y de hecho hacemos eso, 00:41:19.911 --> 00:41:23.551 y puedo recomendar mirar la Shape Expression que hizo Finn 00:41:23.552 --> 00:41:27.330 con los datos léxicos donde crea Shape Expressions 00:41:27.330 --> 00:41:29.640 y luego construye en otras Shape Expressions 00:41:29.641 --> 00:41:32.608 entonces tienes este concepto de Shape Expressions vinculados en Wikidata, 00:41:32.608 --> 00:41:35.005 y específicamente, el caso de uso, si entiendo correctamente, 00:41:35.006 --> 00:41:37.183 es exactamente lo que estamos haciendo en Gene Wiki. 00:41:37.184 --> 00:41:40.841 Tienes la ontología de la enfermedad que se pone en Wikidata 00:41:40.842 --> 00:41:44.681 y luego entran los datos de la enfermedad y aplicamos las Shape Expressions 00:41:44.682 --> 00:41:47.247 para ver si encaja con este tesauro. 00:41:47.248 --> 00:41:50.919 Y hay otros tesauros u otras ontologías de vocabularios controlados 00:41:50.920 --> 00:41:52.409 que aún necesitan entrar en Wikidata, 00:41:52.409 --> 00:41:54.961 y eso es exactamente por qué Shape Expression es tan interesante 00:41:54.961 --> 00:41:57.963 porque puedes tener una Shape Expression para la ontología de la enfermedad, 00:41:57.964 --> 00:41:59.734 puedes tener una Shape Expression para MeSH, 00:41:59.734 --> 00:42:01.881 puedes decir: bien, ahora quiero verificar la calidad. 00:42:01.881 --> 00:42:04.059 Porque también tienes en Wikidata el contexto 00:42:04.060 --> 00:42:09.567 de cuando tienes un vocabulario controlado dices que la calidad está acorde a esto, 00:42:09.568 --> 00:42:11.636 pero podrías tener una comunidad en desacuerdo. 00:42:11.636 --> 00:42:16.081 Las herramientas están en su lugar, pero ahora toca crear esos modelos 00:42:16.082 --> 00:42:18.144 y aplicarlos en los diferentes casos de uso. 00:42:18.811 --> 00:42:20.921 (persona 4) La Shape Expression es muy útil 00:42:20.922 --> 00:42:25.928 una vez que tengas la ontología externa mapeada en Wikidata, 00:42:25.929 --> 00:42:29.474 pero mi problema es que está llegando a esa etapa, 00:42:29.475 --> 00:42:34.881 funciona para ver cuánto de la ontología externa aún no está en Wikidata 00:42:34.882 --> 00:42:36.256 y dónde están los huecos, 00:42:36.257 --> 00:42:40.660 y ahí es donde creo que al tener herramientas mucho más robustas 00:42:40.660 --> 00:42:44.286 para ver lo que falta de ontologías externas 00:42:44.286 --> 00:42:45.537 sería muy útil. 00:42:47.518 --> 00:42:48.952 El mayor problema allí 00:42:48.952 --> 00:42:51.351 no es tanto las herramientas sino que faltan más licencias. 00:42:51.803 --> 00:42:55.249 Entonces, meter las ontologías en Wikidata es en realidad muy fácil 00:42:55.250 --> 00:42:59.295 pero la mayoría de las ontologías tienen, ¿cómo puedo decirlo cortésmente? 00:42:59.965 --> 00:43:03.256 licencia restrictiva, y no son compatibles con Wikidata. 00:43:04.068 --> 00:43:06.678 (persona 4) Hay un gran número de tesauros del sector público 00:43:06.678 --> 00:43:08.099 en los campos culturales. 00:43:08.099 --> 00:43:10.851 - (Andra) Entonces tenemos que hablar. - (persona 4) No hay problema. 00:43:10.852 --> 00:43:12.384 (Andra) Entonces tenemos que hablar. 00:43:13.624 --> 00:43:19.192 (persona 5) El comentario que quiero hacer en realidad es una respuesta a James, 00:43:19.192 --> 00:43:22.401 entonces, la cosa es que, las jerarquías hacen gráficos, 00:43:22.374 --> 00:43:24.041 y cuando lo quieras... 00:43:24.579 --> 00:43:28.888 Básicamente quiero hablar sobre... un problema común en las jerarquías 00:43:28.889 --> 00:43:30.820 es las jerarquías circulares, 00:43:30.821 --> 00:43:33.796 ellas vuelven la una a la otra cuando hay un problema, 00:43:33.796 --> 00:43:35.920 lo cual, no deberías tener eso en las jerarquías. 00:43:37.022 --> 00:43:41.295 Esto, curiosamente, sucede mucho en las categorías de Wikipedia 00:43:41.295 --> 00:43:42.990 tenemos muchos círculos en las categorías, 00:43:43.898 --> 00:43:46.612 pero la buena noticia es que esto es... 00:43:47.713 --> 00:43:51.582 Técnicamente, es un problema completo de P... NP, así que no puedes hallar esto, 00:43:51.583 --> 00:43:53.414 y fácilmente si construiste un gráfico de eso, 00:43:54.473 --> 00:43:57.046 pero hay muchas maneras que se han desarrollado 00:43:57.047 --> 00:44:00.624 para encontrar problemas en estos gráficos de jerarquía. 00:44:00.625 --> 00:44:04.860 Hay un artículo llamado Buscando Ciclos... 00:44:04.861 --> 00:44:07.955 Rompiendo Ciclos en Jerarquías Ruidosas, 00:44:07.956 --> 00:44:12.671 y se ha usado para ayudar a categorizar la Wikipedia en inglés. 00:44:12.672 --> 00:44:17.141 Puedes tomar esto y aplicar estas jerarquías en Wikidata, 00:44:17.142 --> 00:44:19.540 y luego puedes encontrar cosas que son problemáticas 00:44:19.541 --> 00:44:22.481 y solo quitar las que están causando problemas 00:44:22.482 --> 00:44:24.593 y encontrar los problemas, en realidad. 00:44:24.594 --> 00:44:26.960 Esto es solo una idea, solo para que tú... 00:44:28.690 --> 00:44:29.930 (persona 4) Eso está muy bien, 00:44:29.931 --> 00:44:34.402 pero creo que estás subestimando el número de malas relaciones de subclase 00:44:34.402 --> 00:44:35.402 que tenemos. 00:44:35.403 --> 00:44:39.680 Es como tener una ciudad en un país totalmente equivocado, 00:44:40.250 --> 00:44:44.874 y hay herramientas de geografía para identificar eso, 00:44:44.875 --> 00:44:49.201 y necesitamos tener mejores herramientas en las jerarquías 00:44:49.202 --> 00:44:53.477 para identificar dónde está el equivalente del elemento para el país 00:44:53.478 --> 00:44:57.673 que falta, o donde realmente ha sido subclasificado 00:44:57.674 --> 00:45:01.804 a algo que no significa algo completamente distinto. 00:45:02.804 --> 00:45:07.165 (Lydia) Sí, creo que estás llegando a algo 00:45:07.166 --> 00:45:12.024 que mi equipo y yo seguimos escuchando de personas que reutilizan nuestros datos 00:45:12.025 --> 00:45:13.991 bastante bien, cierto, 00:45:14.782 --> 00:45:16.858 el punto de datos individuales podría ser excelente, 00:45:16.858 --> 00:45:20.163 pero si tienes que mirar en la ontología y demás, 00:45:20.164 --> 00:45:21.857 entonces se pone muy... 00:45:22.388 --> 00:45:26.437 Y creo que uno de los grandes problemas del por qué ocurre 00:45:26.437 --> 00:45:30.736 es que mucha edición en Wikidata 00:45:30.736 --> 00:45:34.544 sucede sobre la base de un elemento individual, correcto, 00:45:34.545 --> 00:45:36.201 haces una edición de ese elemento, 00:45:37.653 --> 00:45:42.075 sin darte cuenta de que esto podría tener consecuencias muy globales 00:45:42.075 --> 00:45:44.245 en el resto del gráfico, por ejemplo. 00:45:44.245 --> 00:45:50.040 Y si la gente tiene ideas de cómo hacer esto más visible, 00:45:50.041 --> 00:45:53.185 las consecuencias de una edición local individual, 00:45:54.005 --> 00:45:56.537 creo que valdría la pena explorar, 00:45:57.550 --> 00:46:01.583 para mostrarles mejor a la gente cuál es la consecuencia de su edición 00:46:01.584 --> 00:46:03.434 para que lo hagan de muy buena fe, 00:46:04.481 --> 00:46:05.481 qué es eso. 00:46:06.939 --> 00:46:12.237 ¡Guao! Bien, comencemos con, sí, tú, luego tú, luego tú, y luego tú. 00:46:12.237 --> 00:46:13.921 (persona 5) Bueno, después de la discusión, 00:46:13.922 --> 00:46:18.262 solo deseo expresar mi acuerdo con lo que James estaba diciendo. 00:46:18.263 --> 00:46:22.467 Entonces, esencialmente, parece que lo más peligroso es la jerarquía, 00:46:22.468 --> 00:46:23.910 no la jerarquía, sino en general 00:46:23.911 --> 00:46:28.022 la semántica de las relaciones de subclase vistas en Wikidata, cierto. 00:46:28.022 --> 00:46:32.561 Hace poco he estado estudiando lenguajes, solo para los fines de esta conferencia, 00:46:32.562 --> 00:46:35.257 y por ejemplo, encuentras muchos casos 00:46:35.257 --> 00:46:39.463 donde un lenguaje es parte de una subclase de la misma cosa, bien. 00:46:39.463 --> 00:46:43.577 Entonces, sabes, puedes decir que tenemos una ontología flexible. 00:46:43.577 --> 00:46:46.256 Wikidata a veces te da la libertad de expresar eso. 00:46:46.256 --> 00:46:47.257 Porque, por ejemplo, 00:46:47.258 --> 00:46:50.721 esa ontología de lenguajes también es políticamente complicada, ¿verdad? 00:46:50.722 --> 00:46:55.038 Incluso es bueno estar en una posición para expresar un nivel de incertidumbre. 00:46:55.038 --> 00:46:57.983 Pero imagina a cualquiera que quiera hacer una lectura automática de eso. 00:46:57.984 --> 00:46:59.468 Eso es realmente problemático. 00:46:59.468 --> 00:47:00.468 Y luego de nuevo, 00:47:00.469 --> 00:47:03.686 no creo que esa ontología fuera importada de alguna parte, 00:47:03.687 --> 00:47:05.490 es algo que es originalmente nuestro. 00:47:05.491 --> 00:47:08.321 Se cosecha desde Wikipedia, al principio lo diré. 00:47:08.322 --> 00:47:11.324 Entonces, me pregunto... esta cosa de Shape Expressions es genial, 00:47:11.325 --> 00:47:15.575 y también validar y arreglar, si quieres, la ontología de Wikidata 00:47:15.576 --> 00:47:18.191 por recursos externos, hermosa idea. 00:47:19.026 --> 00:47:20.026 En fin, 00:47:20.027 --> 00:47:25.440 ¿terminaremos reflexionando sobre las ontologías externas en Wikidata? 00:47:25.441 --> 00:47:28.651 Y además, ¿qué hacemos con la parte central de nuestra ontología 00:47:28.652 --> 00:47:30.642 que nunca se cosecha de recursos externos, 00:47:30.643 --> 00:47:31.978 cómo vamos a arreglar eso? 00:47:31.979 --> 00:47:35.276 Y realmente pienso que eso será un problema por sí solo. 00:47:35.277 --> 00:47:39.010 Tendremos que centrarnos en eso independientemente de la idea 00:47:39.010 --> 00:47:41.046 de validar la ontología con algo externo. 00:47:49.353 --> 00:47:53.379 (persona 6) Bien, y las limitantes y las formas son muy impresionantes 00:47:53.380 --> 00:47:54.605 lo que podemos hacer con eso, 00:47:55.205 --> 00:47:58.481 pero el punto principal no está siendo realmente aclarado... 00:47:58.482 --> 00:48:03.229 es porque ahora se puede hacer más explícito lo que esperamos de los datos. 00:48:03.229 --> 00:48:06.893 Antes, cada uno tenía que escribir sus propias herramientas y guiones 00:48:06.894 --> 00:48:10.601 y así es más visible y podemos discutir sobre eso. 00:48:10.602 --> 00:48:13.641 Pero no se trata de lo que está mal o bien, 00:48:13.642 --> 00:48:15.870 se trata de una expectativa, 00:48:15.870 --> 00:48:18.105 y tendrás diferentes expectativas y discusiones 00:48:18.106 --> 00:48:20.737 acerca de cómo queremos modelar las cosas en Wikidata, 00:48:21.246 --> 00:48:23.095 y esto... 00:48:23.096 --> 00:48:26.280 El estado actual es solo un paso en la dirección 00:48:26.281 --> 00:48:28.041 porque ahora necesitas 00:48:28.042 --> 00:48:31.041 mucha experiencia técnica para entrar en esto, 00:48:31.042 --> 00:48:35.721 y necesitamos mejores formas para visualizar esta restricción, 00:48:35.722 --> 00:48:39.995 para transformarlo tal vez en un lenguaje natural y la gente lo pueda entender mejor 00:48:40.939 --> 00:48:43.768 pero se trata menos de lo que está mal o lo que está bien. 00:48:44.925 --> 00:48:45.925 (Lydia) Sí. 00:48:50.986 --> 00:48:53.893 (persona 7) Por cuestiones de calidad, solo lo quiero repetir como... 00:48:53.894 --> 00:48:57.010 Me he encontrado que muchos de los problemas han sido 00:48:58.838 --> 00:49:02.330 diferencias de opinión entre instancia de y subclase. 00:49:02.331 --> 00:49:05.963 Yo diría que los errores en esas situaciones 00:49:05.963 --> 00:49:11.521 que he tratado de encontrar han sido un proceso muy lento. 00:49:11.522 --> 00:49:14.840 Lo que he encontrado es algo así: "si encuentro elementos de muy alta impresión 00:49:14.840 --> 00:49:16.171 que son algo... y luego uso todas 00:49:16.171 --> 00:49:21.628 las instancias de subclase y encuentro las declaraciones derivadas de esto", 00:49:21.628 --> 00:49:26.215 esta es una forma muy útil de buscar estos errores. 00:49:26.215 --> 00:49:28.067 Pero tenía curiosidad si Shape Expressions, 00:49:29.841 --> 00:49:31.582 si hay... 00:49:31.583 --> 00:49:36.934 Si se puede usar como una herramienta que ayude a resolver esos problemas, y sí... 00:49:40.514 --> 00:49:42.555 (persona 8) Si tiene una huella estructural... 00:49:45.910 --> 00:49:49.310 Si tiene una huella estructural donde puedas... eso es algo falsificable, 00:49:49.310 --> 00:49:51.191 puedes ver eso y decir, bueno, eso está mal, 00:49:51.192 --> 00:49:52.670 entonces sí, puedes hacer eso. 00:49:52.671 --> 00:49:56.791 Pero si solo se trata de mapear con objetos del mundo real, 00:49:56.791 --> 00:49:59.272 entonces solo vas a necesitar montones y montones de cerebros. 00:50:05.768 --> 00:50:08.631 (persona 9) Hola, Pablo Mendes de Apple Siri Knowledge. 00:50:09.154 --> 00:50:12.770 Estamos aquí para descubrir cómo ayudar al proyecto y a la comunidad 00:50:12.770 --> 00:50:15.645 pero Cristina cometió el error de preguntar qué queremos. 00:50:16.471 --> 00:50:20.052 (risas) Entonces, creo que una cosa que me gustaría ver, 00:50:20.958 --> 00:50:23.521 se trata mucho de verificabilidad, 00:50:23.522 --> 00:50:26.372 que es uno de los principios básicos del proyecto en la comunidad, 00:50:27.062 --> 00:50:28.590 y confiabilidad. 00:50:28.590 --> 00:50:31.992 No todas las declaraciones son iguales, algunas de ellas están muy disputadas, 00:50:31.992 --> 00:50:33.653 algunas de ellas son fáciles de adivinar, 00:50:33.654 --> 00:50:36.021 como la fecha de nacimiento de alguien puede ser verificada, 00:50:36.071 --> 00:50:39.212 como viste hoy en la Keynote, los asuntos de género son mucho más complicados. 00:50:40.205 --> 00:50:42.130 ¿Puedes hablar un poco de lo que sabes 00:50:42.131 --> 00:50:47.271 en esta área de calidad de datos acerca de confiabilidad y verificabilidad? 00:50:55.442 --> 00:50:58.138 Si no tienes mucho, me encantaría ver mucho más. (risas) 00:51:00.646 --> 00:51:01.646 (Lydia) Sí. 00:51:03.314 --> 00:51:06.548 Aparentemente, no tenemos mucho que decir sobre eso. (risas) 00:51:08.024 --> 00:51:12.299 (Andra) Creo que podemos hacer mucho, pero ayer tuve una discusión contigo. 00:51:12.300 --> 00:51:15.774 Mi ejemplo favorito que aprendí ayer, que ya está en desuso, 00:51:15.774 --> 00:51:20.281 es que si vas a la Q2, que es la tierra, 00:51:20.282 --> 00:51:23.343 hay una declaración que afirma que la tierra es plana. 00:51:24.183 --> 00:51:26.055 Y me encanta ese ejemplo 00:51:26.056 --> 00:51:28.391 porque hay una comunidad por ahí que lo afirma 00:51:28.392 --> 00:51:30.417 y tienen recursos verificables. 00:51:30.418 --> 00:51:32.254 Entonces, creo que es un caso genuino, 00:51:32.255 --> 00:51:34.641 no debería estar en desuso, debería estar en Wikidata. 00:51:34.642 --> 00:51:40.385 Y creo que Shape Expressions puede ser realmente instrumental allí, 00:51:40.386 --> 00:51:41.832 debido a lo que puedes decir, 00:51:41.833 --> 00:51:44.856 bien, estoy realmente interesado en este caso de uso, 00:51:44.857 --> 00:51:47.129 o este es un caso de uso en el que no estás de acuerdo, 00:51:47.130 --> 00:51:51.059 pero también puede haber un caso de uso donde dices, bien, estoy interesado. 00:51:51.059 --> 00:51:53.449 Entonces, hay un ejemplo, que dices, tengo glucosa. 00:51:53.449 --> 00:51:55.841 Y la glucosa, cuando eres biólogo, 00:51:55.842 --> 00:52:00.176 no te importan las limitantes químicas de la molécula de la glucosa, 00:52:00.177 --> 00:52:03.201 tú simplemente... Todo lo de glucosa es lo mismo. 00:52:03.202 --> 00:52:05.973 Pero si eres químico, te estremeces cuando escuchas eso, 00:52:05.973 --> 00:52:08.191 tienes 200 algo... 00:52:08.191 --> 00:52:10.343 Entonces, puedes tener múltiples Shape Expressions, 00:52:10.343 --> 00:52:12.721 bien, voy a poner que... Estoy en un punto de vista químico, 00:52:12.722 --> 00:52:13.887 estoy aplicando eso. 00:52:13.887 --> 00:52:16.691 Y luego dices, estoy en un caso de uso biológico, 00:52:16.691 --> 00:52:18.524 Estoy aplicando esa Shape Expression. 00:52:18.524 --> 00:52:20.358 Y luego, cuando quieres colaborar, 00:52:20.358 --> 00:52:22.784 sí, bueno, deberías hablarle a Eric sobre los mapas ShEx. 00:52:23.910 --> 00:52:28.873 Y así... pero este viaje apenas comienza. 00:52:28.873 --> 00:52:32.238 Pero yo personalmente creo que es muy instrumental en esa área. 00:52:34.292 --> 00:52:35.535 (Lydia) Bien. Por ahí. 00:52:37.949 --> 00:52:39.168 (risas) 00:52:40.597 --> 00:52:46.035 (persona 2) Tuve varias ideas de algunos puntos en las discusiones, 00:52:46.035 --> 00:52:50.902 así que intentaré no perderlas... Tuve tres ideas, así que... 00:52:52.394 --> 00:52:55.201 Según lo que dijo James hace un tiempo, 00:52:55.202 --> 00:52:59.001 tenemos un problema muy, muy grande en Wikidata desde el principio 00:52:59.002 --> 00:53:01.574 para la ontología superior. 00:53:02.363 --> 00:53:05.339 Lo hablamos hace dos años en WikidataCon, 00:53:05.340 --> 00:53:07.432 y hablamos de eso en Wikimania. 00:53:07.432 --> 00:53:09.818 Bueno, siempre que tenemos una reunión de Wikidata 00:53:09.818 --> 00:53:11.656 hablamos de eso, 00:53:11.656 --> 00:53:15.782 porque es un gran problema a un nivel muy, muy visual 00:53:15.783 --> 00:53:23.118 qué entidad es, con qué trabajo es, qué género es, arte, 00:53:23.118 --> 00:53:25.461 son realmente el concepto más grande. 00:53:26.195 --> 00:53:33.117 Y eso es realmente un punto muy débil en la ontología global 00:53:33.118 --> 00:53:37.453 porque la gente trata de limpiar regularmente 00:53:38.017 --> 00:53:41.047 y lo descompone todo, 00:53:42.516 --> 00:53:48.649 porque sí, creo que algunos de ustedes recuerdan al tipo que de buena fe 00:53:48.649 --> 00:53:51.785 rompió absolutamente todas las ciudades del mundo. 00:53:51.785 --> 00:53:57.537 Ya no eran elementos geográficos, habían restricciones de violación en todas partes 00:53:58.720 --> 00:54:00.278 Y fue de buena fe, 00:54:00.278 --> 00:54:03.623 porque realmente estaba corrigiendo un error en un elemento, 00:54:04.170 --> 00:54:05.732 pero todo se vino abajo. 00:54:06.349 --> 00:54:09.373 Y no estoy segura de cómo podemos resolver eso 00:54:10.216 --> 00:54:15.709 porque en realidad no hay ninguna institución externa a la que copiar 00:54:15.710 --> 00:54:18.490 porque todos trabajan... 00:54:19.154 --> 00:54:22.041 Bueno, si estoy realizando una base de datos de arte, 00:54:22.042 --> 00:54:24.601 solo iré al nivel de arte escénico, 00:54:24.601 --> 00:54:29.361 pero no voy al concepto filosófico de lo que es una entidad, 00:54:29.362 --> 00:54:31.201 y eso es en realidad... 00:54:31.202 --> 00:54:34.561 No conozco ninguna base de datos que esté trabajando a este nivel, 00:54:34.562 --> 00:54:36.827 pero ese es el punto más débil de Wikidata. 00:54:37.936 --> 00:54:40.812 Y probablemente, cuando hablamos de calidad de datos, 00:54:40.812 --> 00:54:44.034 tiene en realidad una gran parte, así que... 00:54:44.034 --> 00:54:48.569 Y creo que es lo mismo que hemos expresado... 00:54:48.569 --> 00:54:50.452 Lo siento, estoy cambiando de tema, 00:54:51.401 --> 00:54:55.774 pero hemos expresado en diferentes sesiones sobre cualidades, 00:54:55.774 --> 00:54:59.398 que en realidad algunos de nosotros hacemos un buen trabajo de modelado, 00:54:59.399 --> 00:55:01.240 hacemos ShEx, hacemos cosas así. 00:55:01.967 --> 00:55:07.655 La gente no lo ve en Wikidata, no ven el ShEx, 00:55:07.655 --> 00:55:10.392 no ven el WikiProject en la página de discusión, 00:55:10.393 --> 00:55:11.393 y a veces, 00:55:11.394 --> 00:55:14.958 ni siquiera ven las páginas de discusión de propiedades, 00:55:14.958 --> 00:55:19.628 que declara explícitamente a), esta propiedad se utiliza para eso. 00:55:19.628 --> 00:55:23.887 La semana pasada, agregué restricciones a una propiedad. 00:55:23.888 --> 00:55:26.324 La restricción fue escrita explícitamente 00:55:26.325 --> 00:55:28.690 en la discusión de la creación de la propiedad. 00:55:28.690 --> 00:55:34.548 Acabo de crear la parte técnica de agregar la restricción, y alguien: 00:55:34.548 --> 00:55:37.182 "¡Qué! ¡Estropeaste todas mis ediciones!" 00:55:37.183 --> 00:55:41.542 Y él estaba usando incorrectamente la propiedad durante los últimos dos años. 00:55:41.542 --> 00:55:46.868 Y la propiedad era realmente muy clara, pero no hubo advertencias, 00:55:46.869 --> 00:55:49.922 y entonces, es lo mismo en el Pink Pony, que dijimos en Wikimania 00:55:49.922 --> 00:55:54.719 para hacer que WikiProject sea más visible o para que ShEx sea más visible, pero... 00:55:54.719 --> 00:55:56.917 Y eso es lo que dijo Cristina. 00:55:56.917 --> 00:56:02.368 Tenemos un problema de visibilidad de cuáles son las soluciones existentes. 00:56:02.368 --> 00:56:04.242 Y en esta sesión, 00:56:04.242 --> 00:56:06.862 todos estamos hablando de cómo crear más ShEx, 00:56:06.863 --> 00:56:10.727 o de facilitar los trabajos para las personas que hacen la limpieza. 00:56:11.605 --> 00:56:15.835 Pero estamos limpiando desde el primer día de Wikidata, 00:56:15.836 --> 00:56:20.921 y globalmente, estamos perdiendo, y estamos perdiendo porque, bueno, 00:56:20.922 --> 00:56:22.960 si supiera, los nombres son complicados, 00:56:22.961 --> 00:56:26.162 pero yo soy el único que hace el trabajo de limpieza, 00:56:26.662 --> 00:56:29.671 el chico que agregó el nombre de la escritura latina 00:56:29.672 --> 00:56:31.584 a todos los investigadores chinos, 00:56:32.088 --> 00:56:35.616 me llevará meses limpiar eso y no puedo hacerlo solo, 00:56:35.616 --> 00:56:38.777 y él hizo un lote masivo. 00:56:38.777 --> 00:56:40.241 Entonces, realmente necesitamos... 00:56:40.242 --> 00:56:44.158 Tenemos un problema de visibilidad más que un problema de herramienta, creo, 00:56:44.158 --> 00:56:45.733 porque tenemos muchas herramientas. 00:56:45.733 --> 00:56:50.255 (Lydia) Correcto, desafortunadamente, me han mostrado una señal (risas) 00:56:50.256 --> 00:56:52.121 así que, tenemos que terminar esto. 00:56:52.122 --> 00:56:53.563 Muchas gracias por sus comentarios, 00:56:53.563 --> 00:56:56.611 espero que sigan discutiendo durante el resto del día, 00:56:56.611 --> 00:56:57.840 y gracias por su aporte. 00:56:58.359 --> 00:56:59.944 (aplausos)