Return to Video

cdn.media.ccc.de/.../wikidatacon2019-9-eng-Data_quality_panel_hd.mp4

  • 0:06 - 0:09
    Hola a todos los del panel
    de Calidad de Datos.
  • 0:10 - 0:14
    La calidad de los datos importa
    porque cada vez más personas
  • 0:14 - 0:19
    confían en que nuestros datos están bien,
    así que hablaremos de su calidad,
  • 0:20 - 0:26
    y habrán cuatro oradores
    quienes darán breves presentaciones
  • 0:26 - 0:30
    sobre temas de la calidad de los datos
    y luego tendremos preguntas y respuestas.
  • 0:30 - 0:32
    Y el primero es Lucas.
  • 0:34 - 0:35
    Gracias.
  • 0:36 - 0:40
    (Lucas) Hola, soy Lucas y voy a comenzar
    con una descripción general
  • 0:40 - 0:44
    de las herramientas de calidad de datos
    que ya tenemos en Wikidata
  • 0:44 - 0:46
    y también algunas cosas
    que vendrán pronto.
  • 0:47 - 0:51
    Y los he agrupado
    en algunos temas generales
  • 0:51 - 0:54
    sobre hacer los errores más visibles,
    hacer que los problemas sean procesables,
  • 0:54 - 0:56
    ver mejor los datos para que la gente
    note los problemas,
  • 0:57 - 1:03
    arreglar fuentes comunes de errores,
    mantener calidad de los datos existentes
  • 1:03 - 1:04
    y también la curación humana.
  • 1:05 - 1:10
    Y los que están disponibles actualmente
    comienzan con restricciones de propiedad.
  • 1:10 - 1:12
    Así que tal vez ya has visto esto
    si estás en Wikidata.
  • 1:12 - 1:14
    A veces puedes obtener estos íconos
  • 1:15 - 1:17
    revisando la consistencia interna
    de los datos.
  • 1:17 - 1:21
    Por ejemplo, si un evento sigue al otro,
  • 1:21 - 1:24
    entonces el otro evento debería
    también ser seguido por este,
  • 1:24 - 1:27
    que en el artículo de WikidataCon
    al parecer faltaba.
  • 1:27 - 1:29
    No estoy seguro,
    esta característica es de unos días.
  • 1:30 - 1:35
    Y también, si esto es demasiado limitado
    o simple para usted,
  • 1:35 - 1:38
    puedes escribir cualquier chequeo
    que quieras usando el servicio de consulta
  • 1:38 - 1:40
    que es útil para muchas cosas
    por supuesto,
  • 1:40 - 1:45
    pero también puedes usarlo
    para encontrar errores.
  • 1:45 - 1:47
    Si te diste cuenta
    de la ocurrencia de un error,
  • 1:47 - 1:50
    entonces puedes verificar
    si hay otros lugares
  • 1:50 - 1:52
    donde la gente ha hecho
    un error muy similar
  • 1:52 - 1:53
    y encontrarlo con el Servicio
    de Consultas.
  • 1:53 - 1:55
    También puedes combinar los dos
  • 1:55 - 1:58
    y buscar violaciones de restricciones
    en el Servicio de Consulta,
  • 1:58 - 2:01
    por ejemplo,
    las violaciones en alguna área
  • 2:01 - 2:04
    o WikiProject que sea
    relevante para usted,
  • 2:04 - 2:07
    aunque los resultados no están
    completos actualmente, lamentablemente.
  • 2:08 - 2:10
    Hay puntuación de revisión.
  • 2:11 - 2:13
    Eso es... creo que esto
    es de los cambios recientes
  • 2:13 - 2:16
    también puedes incluir en tu lista
    una evaluación automática
  • 2:16 - 2:20
    de si es probable que esta edición sea
    de buena fe o de mala fe
  • 2:20 - 2:22
    y si es probable que sea
    dañino o no dañino,
  • 2:22 - 2:24
    creo que esas son las dos dimensiones.
  • 2:24 - 2:26
    Entonces puedes, si quieres,
  • 2:26 - 2:30
    centrarte en solo mirar las ediciones
    perjudiciales pero de buena fe.
  • 2:30 - 2:33
    Si te sientes particularmente
    amable y acogedor
  • 2:33 - 2:37
    puedes decirle a estos editores,
    "Gracias por tu contribución,
  • 2:37 - 2:41
    así es como deberías haberlo hecho,
    pero igualmente gracias".
  • 2:41 - 2:42
    Y si no te sientes así,
  • 2:42 - 2:44
    puedes irte por la mala fe,
    las ediciones perjudiciales,
  • 2:44 - 2:46
    y revertir los vándalos.
  • 2:48 - 2:50
    También hay, similar a eso,
    puntuación de la entidad.
  • 2:50 - 2:53
    Entonces, en lugar de anotar una edición,
    el cambio que hizo,
  • 2:53 - 2:54
    puedes puntuar toda la revisión,
  • 2:54 - 2:56
    y creo que es la misma medida de calidad
  • 2:56 - 3:00
    que Lydia menciona
    al comienzo de la conferencia.
  • 3:00 - 3:05
    Eso da un guión de usuario aquí arriba
    y te da una puntuación de uno a cinco,
  • 3:05 - 3:08
    Creo que trata, de qué calidad
    es el artículo actual.
  • 3:10 - 3:15
    La herramienta de fuentes primarias es
    para cualquier base de datos
  • 3:15 - 3:18
    que quieras importar pero no es de calidad
    suficiente para agregar a Wikidata,
  • 3:18 - 3:21
    entonces a su vez lo agregas
    a la herramienta de fuentes primarias,
  • 3:21 - 3:23
    y luego las personas pueden decidir
  • 3:23 - 3:26
    si deben agregar estas declaraciones
    individuales o no.
  • 3:29 - 3:31
    Mostrar coordenadas como mapas
    principalmente es una característica
  • 3:31 - 3:34
    de conveniencia, pero también es
    útil para el control de calidad.
  • 3:34 - 3:37
    Supón que esta es
    la oficina de Wikimedia en Alemania
  • 3:37 - 3:39
    y si las coordenadas están
    en algún lugar del Océano Índico,
  • 3:39 - 3:42
    entonces sabes que algo no está bien
  • 3:42 - 3:45
    y puedes verlo mucho más fácil
    que si solo tuvieras los números.
  • 3:46 - 3:50
    Este es un dispositivo llamado
    el indicador de integridad relativa
  • 3:50 - 3:52
    que te muestra este pequeño icono aquí
  • 3:53 - 3:55
    diciéndote cuán completo
    cree que es este artículo
  • 3:55 - 3:58
    y también qué propiedades
    es muy probable que falten,
  • 3:58 - 4:00
    lo cual es realmente útil
    si estás editando un elemento
  • 4:00 - 4:03
    y estás en un área
    con la que no estás muy familiarizado
  • 4:03 - 4:06
    y no sabes qué propiedades correctas usar,
  • 4:06 - 4:08
    entonces se tiene un dispositivo muy útil.
  • 4:10 - 4:11
    Y tenemos Shape Expressions.
  • 4:11 - 4:16
    Creo que Andra o José
    van a hablar más sobre esto
  • 4:16 - 4:20
    pero básicamente, es una forma
    muy poderosa de comparar los datos
  • 4:20 - 4:21
    que tienes versus el esquema,
  • 4:21 - 4:23
    como qué declaración deberían
    ciertas entidades tener,
  • 4:23 - 4:26
    a qué otras entidades deberían vincularse
    y cómo deberían ser,
  • 4:26 - 4:29
    y así puedes encontrar
    problemas de esa manera.
  • 4:30 - 4:32
    Creo que... No, todavía hay más.
  • 4:32 - 4:34
    Panel de integralidad o propiedad.
  • 4:34 - 4:37
    Te da una visión general rápida
    de los datos que ya tienes.
  • 4:37 - 4:39
    Por ejemplo, esto es de
    los pandas rojos de WikiProject,
  • 4:40 - 4:42
    y puedes ver que tenemos el sexo
  • 4:42 - 4:44
    para casi todos los pandas rojos,
  • 4:44 - 4:47
    la fecha de nacimiento varía mucho
    debido al zoológico del que provienen
  • 4:47 - 4:50
    y no tenemos casi ningún panda muerto,
    lo cual es maravilloso,
  • 4:51 - 4:53
    porque son muy lindos.
  • 4:54 - 4:56
    Entonces esto también es útil.
  • 4:56 - 4:59
    Aquí vamos, bien,
    con lo que vamos a seguir.
  • 5:00 - 5:04
    Puente de Wikidata, o también conocido,
    antes conocido como edición del cliente,
  • 5:04 - 5:07
    así que editar Wikidata desde las cajas
    de información de Wikipedia
  • 5:08 - 5:12
    lo que por un lado se obtendrá
    más enfoque en los datos
  • 5:12 - 5:13
    porque más personas pueden
    ver los datos allí
  • 5:13 - 5:19
    y con suerte alentará más el uso
    de Wikidata en las Wikipedias
  • 5:19 - 5:21
    y eso significa que más personas
    pueden notar
  • 5:21 - 5:24
    si, por ejemplo, algunos datos están
    desactualizados y necesitan actualizarse
  • 5:24 - 5:27
    en lugar de solo verlos en Wikidata.
  • 5:29 - 5:31
    También hay referencias corrompidas.
  • 5:31 - 5:34
    La idea aquí es que si editas
    un valor de declaración,
  • 5:35 - 5:37
    es posible que también desees
    actualizar las referencias,
  • 5:37 - 5:39
    a menos que solo fuera
    un error tipográfico o algo así.
  • 5:40 - 5:44
    Y estas referencias corrompidas
    le dicen eso a los editores
  • 5:44 - 5:50
    y también que otros editores
    ven qué otras modificaciones se hicieron
  • 5:50 - 5:52
    que editaron un valor de declaración
    y no actualizaron una referencia
  • 5:52 - 5:57
    entonces puedes limpiar después de eso
    y decidir si eso es...
  • 5:58 - 6:00
    ¿Necesitas hacer algo más que eso
  • 6:00 - 6:03
    o está realmente bien y no necesitas
    actualizar la referencia.
  • 6:04 - 6:09
    Se relaciona con declaraciones firmadas
    que vienen de una preocupación, creo,
  • 6:09 - 6:12
    que algunos proveedores
    de datos tienen como...
  • 6:14 - 6:17
    Hay una declaración a la que se hace
    referencia a través de la UNESCO o algo
  • 6:17 - 6:20
    y de repente, alguien destroza
    la declaración
  • 6:20 - 6:22
    y se preocupan de que se verá como
  • 6:23 - 6:27
    esta organización, como la UNESCO,
    que aún establece este valor de vandalismo
  • 6:27 - 6:29
    y así, con las declaraciones firmadas,
  • 6:29 - 6:31
    pueden criptográficamente
    firmar esta referencia
  • 6:31 - 6:34
    y eso no evita ninguna edición,
  • 6:34 - 6:38
    pero al menos, si alguien
    destroza la declaración
  • 6:38 - 6:40
    o la edita de cualquier manera,
    entonces la firma ya no es válida,
  • 6:40 - 6:43
    y puedes decir que eso no es exactamente
    lo que dijo la organización,
  • 6:43 - 6:47
    y quizás sea una buena edición y deban
    volver a firmar la nueva declaración,
  • 6:47 - 6:50
    pero también quizás deba revertirse.
  • 6:51 - 6:54
    Y también, esto va a ser
    muy emocionante, creo,
  • 6:54 - 6:57
    Citoid es este asombroso sistema
    que tienen en Wikipedia
  • 6:57 - 7:01
    donde puedes pegar una URL,
    o un identificador, o un ISBN
  • 7:01 - 7:05
    o un ID de Wikidata o básicamente
    cualquier cosa en el editor visual,
  • 7:05 - 7:08
    y lanza una referencia
    que está bien formateada
  • 7:08 - 7:11
    y tiene todos los datos que quieres
    y es maravilloso de usar.
  • 7:11 - 7:14
    Y en comparación, en Wikidata,
    si quiero agregar una referencia
  • 7:14 - 7:19
    debo agregar una URL de referencia,
    título, cadena del nombre del autor,
  • 7:19 - 7:20
    lugar de publicación,
    fecha de publicación,
  • 7:20 - 7:25
    fechas de recuperación,
    al menos esos, y eso es molesto,
  • 7:25 - 7:29
    e integrando Citoid en Wikibase
    se espera a que ayude con eso.
  • 7:30 - 7:34
    Y creo que eso es todo lo que tengo, sí.
  • 7:34 - 7:36
    Así que, ahora voy a pasarles a Cristina.
  • 7:38 - 7:42
    (aplausos)
  • 7:44 - 7:45
    (Cristina) Hola, soy Cristina.
  • 7:45 - 7:48
    Soy una investigadora científica
    de la Universidad de Zürich,
  • 7:48 - 7:51
    y también soy una miembro activa
    de la Comunidad Suiza.
  • 7:53 - 7:58
    Cuando Claudia Müller-Birn
    y yo le enviamos esto a WikidataCon,
  • 7:58 - 8:00
    lo que queríamos hacer
    es continuar nuestra discusión
  • 8:00 - 8:02
    que empezamos a principios de año
  • 8:02 - 8:07
    con un taller sobre calidad de datos
    y también algunas sesiones en Wikimania.
  • 8:07 - 8:11
    Entonces el objetivo de esta charla
    es básicamente traer algunos pensamientos
  • 8:11 - 8:14
    que hemos estado recolectando
    de la comunidad y de nosotros mismos
  • 8:14 - 8:17
    y continuar la discusión.
  • 8:17 - 8:20
    Entonces, lo que nos gustaría es continuar
    interactuando bastante con ustedes.
  • 8:22 - 8:23
    Entonces, lo que pensamos
    es muy importante
  • 8:23 - 8:28
    es que le preguntamos continuamente
    a todo tipo de usuarios en la comunidad
  • 8:28 - 8:32
    sobre lo que realmente necesitan,
    qué problemas tienen con la calidad
  • 8:32 - 8:35
    de los datos; no solo a editores,
    sino además a las personas que codifican,
  • 8:35 - 8:36
    o consumen los datos,
  • 8:36 - 8:39
    y también a investigadores que usan
    todo el historial de edición
  • 8:39 - 8:41
    para analizar lo que está pasando.
  • 8:42 - 8:48
    Así que revisamos alrededor de 80
    herramientas que existen en Wikidata
  • 8:48 - 8:52
    y las alineamos a las diferentes
    dimensiones de calidad de datos.
  • 8:52 - 8:54
    Y lo que vimos fue que en realidad,
  • 8:54 - 8:58
    muchas de ellas se enfocan en,
    monitoreo de integridad,
  • 8:58 - 9:03
    pero en realidad... algunas de ellas
    también habilitan la interconexión.
  • 9:03 - 9:08
    Pero hay una gran necesidad
    de herramientas que busquen la diversidad,
  • 9:08 - 9:13
    lo cual es una de las cosas
    que realmente podemos tener en Wikidata,
  • 9:13 - 9:16
    especialmente este principio
    de diseño de Wikidata
  • 9:16 - 9:18
    donde podemos tener pluralidad
  • 9:18 - 9:20
    y diferentes declaraciones
    con diferentes valores
  • 9:21 - 9:22
    procedentes de diferentes fuentes.
  • 9:22 - 9:25
    Debido a que es una fuente secundaria,
    realmente no tenemos herramientas
  • 9:25 - 9:28
    que nos digan cuántas
    declaraciones plurales hay,
  • 9:28 - 9:31
    y cuántas podemos mejorar y cómo,
  • 9:31 - 9:33
    y tampoco sabemos realmente
  • 9:33 - 9:36
    cuáles son todas las razones
    de pluralidad que podemos tener.
  • 9:36 - 9:39
    Entonces, de estas reuniones comunitarias,
  • 9:39 - 9:43
    lo que discutimos fueron los desafíos
    que aún necesitan atención.
  • 9:43 - 9:47
    Por ejemplo, que tener
    todas estas comunidades de crowdsourcing
  • 9:47 - 9:50
    es muy bueno porque diversas personas
    atacan diferentes partes
  • 9:50 - 9:52
    de los datos o el gráfico,
  • 9:52 - 9:55
    y también tenemos
    conocimiento de fondo diferente
  • 9:55 - 9:59
    pero en realidad, es muy difícil alinear
    todo en algo homogéneo
  • 9:59 - 10:05
    porque diversas personas están usando
    diferentes propiedades de distintas formas
  • 10:05 - 10:08
    y también esperan cosas diferentes
    de las descripciones de entidades.
  • 10:09 - 10:13
    La gente también dijo que también
    necesitan más herramientas
  • 10:13 - 10:16
    que den una mejor visión general
    del estado global de las cosas.
  • 10:16 - 10:21
    Entonces, qué entidades faltan
    en términos de integridad,
  • 10:21 - 10:26
    pero además en qué las personas
    trabajan la mayor parte del tiempo,
  • 10:26 - 10:31
    y también mencionan muchas veces
    una colaboración más estrecha
  • 10:31 - 10:33
    a través de, no solo idiomas,
    sino los WikiProjects
  • 10:33 - 10:36
    y las diferentes plataformas de Wikimedia.
  • 10:36 - 10:39
    Y publicamos todos
    los comentarios transcritos
  • 10:39 - 10:43
    de todas estas discusiones
    en esos enlaces aquí en los Etherpads
  • 10:43 - 10:46
    y también en la página wiki de Wikimania.
  • 10:46 - 10:48
    Algunas soluciones que aparecieron
  • 10:48 - 10:53
    iban encaminados en compartir
    más las mejores prácticas
  • 10:53 - 10:56
    que se están desarrollando
    en diferentes WikiProjects,
  • 10:56 - 11:01
    pero también la gente quiere herramientas
    que ayuden a ordenar el trabajo en equipos
  • 11:01 - 11:04
    o al menos entender
    quién está trabajando en eso,
  • 11:04 - 11:08
    y también mencionaron
    que quieren más vitrinas
  • 11:08 - 11:12
    y más plantillas que los ayuden
    a crear cosas de una mejor manera.
  • 11:13 - 11:15
    Y del contacto que tenemos
  • 11:15 - 11:19
    con organizaciones de datos
    gubernamentales abiertos,
  • 11:19 - 11:20
    y en particular,
  • 11:20 - 11:23
    estoy en contacto con el cantón
    y la ciudad de Zürich,
  • 11:23 - 11:26
    están muy interesados
    en trabajar con Wikidata
  • 11:26 - 11:30
    porque quieren que sus datos
    sean accesibles para todos
  • 11:30 - 11:34
    en el lugar donde va la gente
    y consulta o accede a los datos.
  • 11:34 - 11:37
    Entonces para ellos, algo
    que sería realmente interesante
  • 11:37 - 11:39
    es tener algún tipo
    de indicadores de calidad
  • 11:39 - 11:41
    ambos en wiki, algo que ya sucede,
  • 11:41 - 11:43
    y también en los resultados SPARQL,
  • 11:43 - 11:46
    para saber si pueden confiar
    o no en esos datos de la comunidad.
  • 11:46 - 11:48
    Y luego, también quieren saber
  • 11:48 - 11:51
    qué partes de sus propios conjuntos
    de datos son útiles para Wikidata
  • 11:51 - 11:56
    y les encantaría tener una herramienta
    que los ayude a evaluarlo automáticamente.
  • 11:56 - 11:59
    También necesitan algún tipo
    de metodología o herramienta
  • 11:59 - 12:04
    que les ayude a decidir si deberían
    importar o vincular sus datos
  • 12:04 - 12:05
    porque en algunos casos,
  • 12:05 - 12:08
    también tienen sus propios
    conjuntos de datos abiertos vinculados,
  • 12:08 - 12:10
    así que no saben si
    simplemente ingerir los datos
  • 12:10 - 12:13
    o seguir creando enlaces
    de los conjuntos de datos a Wikidata
  • 12:13 - 12:14
    y a la inversa.
  • 12:15 - 12:20
    Y también quieren saber a dónde
    se refieren sus sitios web en Wikidata.
  • 12:20 - 12:23
    Y cuando ejecutan tal consulta
    en el servicio de consulta,
  • 12:23 - 12:25
    a menudo obtienen tiempos de espera,
  • 12:25 - 12:28
    entonces tal vez deberíamos
    realmente crear más herramientas
  • 12:28 - 12:32
    que les ayude a responder sus preguntas.
  • 12:33 - 12:36
    Y además de eso,
  • 12:36 - 12:39
    a nosotros, los investigadores de wiki,
    también a veces
  • 12:39 - 12:42
    nos falta algo de información
    en la edición de resúmenes.
  • 12:42 - 12:45
    Entonces me acuerdo de eso cuando
    estábamos haciendo algo de trabajo
  • 12:45 - 12:49
    para comprender el comportamiento
    diferente de los editores
  • 12:49 - 12:53
    con herramientas o robots
    o usuarios anónimos, etc.
  • 12:53 - 12:56
    realmente nos faltaba, por ejemplo,
  • 12:56 - 13:01
    una forma estándar para rastrear
    que las herramientas se usaban.
  • 13:01 - 13:03
    Y hay algunas herramientas
    que ya están haciendo eso
  • 13:03 - 13:05
    como PetScan y muchas otras,
  • 13:05 - 13:08
    pero tal vez deberíamos en la comunidad
  • 13:08 - 13:14
    discutir más sobre cómo grabarlas
    para una procedencia detallada.
  • 13:14 - 13:15
    Y más adelante,
  • 13:15 - 13:21
    creemos que necesitamos pensar sobre
    dimensiones de calidad de datos
  • 13:21 - 13:25
    más concretas que se relacionen
    con los datos del enlace
  • 13:25 - 13:31
    pero no todos los tipos de datos,
    así que trabajamos en algunas medidas
  • 13:31 - 13:34
    para acceder a la ganancia de información
    habilitada por los enlaces,
  • 13:34 - 13:37
    y lo que queremos decir es que cuando
    enlazamos Wikidata a otros conjuntos
  • 13:37 - 13:38
    de datos, también deberíamos pensar
  • 13:38 - 13:42
    cuánto en realidad están ganando
    las entidades en la clasificación,
  • 13:42 - 13:46
    también en la descripción,
    pero también en los vocabularios que usan.
  • 13:46 - 13:51
    Solo para dar un ejemplo muy simple
    de lo que quiero decir con esto
  • 13:51 - 13:54
    es que podemos pensar en...
    en este caso, que sería Wikidata
  • 13:54 - 13:58
    o el conjunto de datos externos
    que se vincula a Wikidata,
  • 13:58 - 14:00
    tenemos la entidad para una persona
    que se llama Natasha Noy,
  • 14:00 - 14:03
    tenemos la afiliación y otras cosas,
  • 14:03 - 14:05
    y luego decimos que sí,
    nos vinculamos a un lugar externo,
  • 14:05 - 14:09
    y esa entidad también tiene ese nombre,
    pero en realidad tenemos el mismo valor.
  • 14:09 - 14:13
    Lo que sería mejor es que lo vinculemos
    a algo que tenga un nombre distinto,
  • 14:13 - 14:17
    eso aún es válido, porque esta persona
    tiene dos formas de escribir el nombre,
  • 14:17 - 14:20
    y también otra información
    que no tenemos en Wikidata
  • 14:20 - 14:22
    o que no tenemos
    en el otro conjunto de datos.
  • 14:22 - 14:25
    Pero además, lo que es aún mejor
  • 14:25 - 14:28
    es que en realidad estamos mirando
    en el conjunto de datos de destino
  • 14:28 - 14:31
    que también tienen nuevas formas
    de clasificar la información.
  • 14:31 - 14:35
    Entonces no solo es una persona,
    sino que en el otro conjunto de datos,
  • 14:35 - 14:40
    también dicen que es una mujer o cualquier
    otra cosa con que la clasifiquen.
  • 14:40 - 14:43
    Y si en el otro conjunto de datos,
    están usando muchos otros vocabularios
  • 14:43 - 14:47
    que también ayuda en todo el asunto
    de recuperación de información.
  • 14:47 - 14:51
    Entonces con eso,
    también me gustaría decir
  • 14:51 - 14:56
    que creemos que podemos
    mostrar mejor las consultas federadas
  • 14:56 - 15:00
    porque cuando miramos el registro
    de consultas brindado por Malyshev et al.,
  • 15:01 - 15:04
    vemos en realidad
    que de las consultas orgánicas,
  • 15:04 - 15:07
    solo tenemos muy pocas
    consultas federadas.
  • 15:07 - 15:13
    Y en realidad, la federación es una
    de las ventajas clave de tener datos
  • 15:13 - 15:17
    de enlace, entonces quizás la comunidad
    o las personas que usan Wikidata
  • 15:17 - 15:19
    también necesitan más ejemplos de esto.
  • 15:19 - 15:23
    Y si miramos la lista de puntos finales
    que se están usando,
  • 15:23 - 15:25
    no es una lista completa
    y tenemos muchos más.
  • 15:25 - 15:30
    Desde luego, estos datos fueron analizados
    de consultas hasta marzo de 2018,
  • 15:30 - 15:35
    pero deberíamos mirar en la lista
    de puntos finales federados que tenemos
  • 15:35 - 15:37
    y ver si realmente
    los estamos usando o no.
  • 15:38 - 15:40
    Dos preguntas que tengo para la audiencia
  • 15:40 - 15:43
    que tal vez podamos usar
    luego para la discusión son:
  • 15:43 - 15:46
    qué problemas de calidad de datos
    debemos abordar en su opinión,
  • 15:46 - 15:47
    de acuerdo a las necesidades que tengan,
  • 15:47 - 15:50
    pero además, dónde necesitan
    más automatización
  • 15:50 - 15:53
    que los ayude
    con la edición o la vigilancia.
  • 15:54 - 15:55
    Eso es todo, muchas gracias.
  • 15:56 - 15:58
    (aplausos)
  • 16:06 - 16:09
    (Jose Emilio Labra) Bien,
    entonces de lo que voy a hablar
  • 16:09 - 16:15
    es de algunas herramientas que estábamos
    desarrollando sobre Shape Expressions.
  • 16:16 - 16:19
    Entonces de esto es de lo que quiero
    hablar... Soy Jose Emilio Labra,
  • 16:19 - 16:23
    pero esto... todas estas herramientas
    han sido hechas por diferentes personas,
  • 16:24 - 16:28
    relacionadas principalmente con W3C ShEx,
    Grupo de Comunidad de Shape Expressions.
  • 16:28 - 16:29
    Grupo de Comunidad ShEx.
  • 16:30 - 16:36
    La primera herramienta que deseo mencionar
    es RDFShape, es una herramienta general,
  • 16:36 - 16:41
    porque Shape Expressions
    no es solo para Wikidata,
  • 16:41 - 16:44
    las expresiones de forma es un lenguaje
    para validar RDF en general.
  • 16:44 - 16:48
    Entonces, esta herramienta fue
    desarrollada principalmente por mí
  • 16:48 - 16:51
    y es una herramienta
    para validar RDF en general.
  • 16:51 - 16:55
    Entonces, si quieres aprender sobre RDF
    o quieres validar RDF
  • 16:55 - 16:59
    o puntos finales SPARQL
    no solo en Wikidata,
  • 16:59 - 17:01
    mi consejo es que puedes
    usar esta herramienta.
  • 17:01 - 17:03
    También para enseñar.
  • 17:03 - 17:06
    Soy profesor en la universidad
  • 17:06 - 17:09
    y la uso en mi curso semántico web
    para enseñar RDF.
  • 17:09 - 17:12
    Entonces, si quieres aprender RDF,
    creo que es una buena herramienta.
  • 17:13 - 17:18
    Por ejemplo, esta es una visualización
    de un gráfico RDF con la herramienta.
  • 17:19 - 17:23
    Pero antes de venir aquí,
    en el último mes,
  • 17:23 - 17:28
    empecé una bifurcación de rdfshape
    específicamente para Wikidata,
  • 17:28 - 17:33
    porque pensé... se llama WikiShape y ayer
    lo presenté como un regalo para Wikidata.
  • 17:33 - 17:34
    Entonces lo que tomé es...
  • 17:34 - 17:40
    lo que hice fue eliminar todas las cosas
    que no estaban relacionadas con Wikidata
  • 17:40 - 17:45
    y poner varias cosas, codificadas,
    por ejemplo, el punto final de Wikidata
  • 17:45 - 17:49
    SPARQL, pero ahora, alguien me preguntó
    si pudiera hacerlo también para Wikibase.
  • 17:49 - 17:52
    Y también es muy fácil
    hacerlo para Wikibase.
  • 17:53 - 17:56
    Entonces, esta herramienta,
    WikiShape, es bastante nueva.
  • 17:57 - 18:00
    Creo que funciona,
    la mayoría de las características,
  • 18:00 - 18:02
    pero hay algunas características
    que tal vez no funcionen,
  • 18:02 - 18:06
    y si lo intentas y quieres
    mejorarla, por favor dímelo.
  • 18:06 - 18:13
    Estas son capturas [inaudible],
    pero creo que puedo intentar, veámos.
  • 18:15 - 18:17
    Entonces, veamos si funciona.
  • 18:17 - 18:20
    Primero, tengo que salir de...
  • 18:22 - 18:23
    Aquí.
  • 18:24 - 18:28
    De acuerdo, sí. Esta es la herramienta.
  • 18:28 - 18:30
    Cosas que puedes hacer con la herramienta,
  • 18:30 - 18:35
    por ejemplo, es que puedes
    comprobar esquemas, esquemas de entidad.
  • 18:35 - 18:39
    Sabes que hay un nuevo espacio
    de nombres que es "E lo que sea",
  • 18:39 - 18:45
    así que si comienzas, por ejemplo,
    escribe por ejemplo "humano"...
  • 18:45 - 18:49
    Mientras escribes, su autocompletado
    te permite verificar,
  • 18:49 - 18:52
    por ejemplo, estas son
    las Shape Expressions de un humano,
  • 18:53 - 18:56
    y estas son las Shape Expressions aquí.
  • 18:56 - 19:00
    Y como puedes ver,
    este editor tiene resaltado de sintaxis,
  • 19:00 - 19:05
    esto es... bueno,
    tal vez es muy pequeña, la pantalla.
  • 19:06 - 19:08
    Puedo intentar hacerla más grande.
  • 19:09 - 19:11
    Quizás lo veas mejor ahora.
  • 19:11 - 19:14
    Y este es el editor con resaltado
    de sintaxis y también tiene...
  • 19:14 - 19:18
    Quiero decir, este editor
    proviene del mismo código fuente
  • 19:18 - 19:20
    del servicio de consulta de Wikidata.
  • 19:20 - 19:24
    Así que por ejemplo,
    si pasas el ratón por aquí,
  • 19:24 - 19:28
    te muestra las etiquetas
    de las diferentes propiedades.
  • 19:28 - 19:31
    Entonces creo que es muy útil
    porque ahora los esquemas de entidad
  • 19:33 - 19:39
    que están en Wikidata
    son solo una idea de texto plano,
  • 19:39 - 19:42
    y creo que este editor es mucho mejor
    porque tiene autocompletado
  • 19:42 - 19:44
    y también tiene...
  • 19:44 - 19:48
    Quiero decir, si tú, por ejemplo,
    querías agregar una restricción,
  • 19:48 - 19:52
    dices "wdt:"
  • 19:52 - 19:57
    Empiezas a escribir "autor"
    y luego haces clic en Ctrl + Espacio
  • 19:57 - 19:59
    y te sugiere las diferentes cosas.
  • 19:59 - 20:02
    Entonces esto es similar
    al servicio de consulta de Wikidata
  • 20:02 - 20:06
    pero específicamente
    para Shape Expressions
  • 20:06 - 20:12
    porque lo que siento es que crear
    Shape Expressions
  • 20:12 - 20:16
    no es más difícil
    que escribir consultas SPARQL.
  • 20:16 - 20:21
    Entonces algunas personas piensan
    que está al mismo nivel,
  • 20:22 - 20:26
    Probablemente sea más fácil, creo,
    porque Shape Expressions era,
  • 20:26 - 20:31
    cuando lo diseñamos, lo hicimos
    para que fuera más fácil de trabajar.
  • 20:31 - 20:35
    Bien, esta es una de las primeras cosas,
    que tienes este editor
  • 20:35 - 20:37
    para Shape Expressions.
  • 20:37 - 20:41
    Y luego también tienes la posibilidad,
    por ejemplo, de visualizar.
  • 20:41 - 20:45
    Si tienes un Shape Expression,
    usar por ejemplo...
  • 20:45 - 20:49
    Creo, "trabajo escrito" es
    un buen Shape Expression
  • 20:49 - 20:53
    porque tiene algunas relaciones
    entre diferentes cosas.
  • 20:55 - 20:58
    Y esta es la visualización UML
    del trabajo escrito.
  • 20:58 - 21:02
    En un UML, es fácil ver
    las diferentes propiedades.
  • 21:03 - 21:07
    Cuando haces esto, me di cuenta
    cuando intenté con varias personas,
  • 21:07 - 21:09
    que encuentran algunos errores
    en sus Shape Expressions
  • 21:09 - 21:13
    porque es fácil detectar cuáles son
    las propiedades faltantes o lo que sea.
  • 21:14 - 21:16
    Entonces hay otra posibilidad aquí
  • 21:16 - 21:20
    es que también puedes validar,
    creo que lo tengo aquí, la validación.
  • 21:20 - 21:25
    Creo que lo tenía en alguna etiqueta,
    tal vez lo cerré.
  • 21:26 - 21:31
    Bien, pero puedes, por ejemplo,
    puedes hacer clic aquí, Validar entidades.
  • 21:32 - 21:34
    Tú, por ejemplo,
  • 21:35 - 21:42
    "q42" con "e42", que es el autor.
  • 21:43 - 21:46
    Con "humano", creo que podemos
    hacerlo con "humanos".
  • 21:49 - 21:50
    Y luego es...
  • 21:51 - 21:56
    Y está tomando un poco de tiempo hacerlo
    porque está haciendo las consultas SPARQL
  • 21:56 - 21:59
    y ahora, por ejemplo,
    está fallando por la red pero...
  • 22:00 - 22:02
    Puedes probarlo.
  • 22:03 - 22:07
    Bien, continuemos con la presentación,
    con otras herramientas.
  • 22:07 - 22:12
    Así que que si quieres probarlo
    y quieres algún comentario, házmelo saber.
  • 22:13 - 22:16
    Entonces para continuar
    con la presentación...
  • 22:19 - 22:20
    Entonces esto es WikiShape.
  • 22:24 - 22:27
    Bien, ya dije esto,
  • 22:28 - 22:34
    el editor de Shape Expressions
    es un proyecto independiente en GitHub.
  • 22:36 - 22:37
    Puedes usarlo en tu propio proyecto.
  • 22:37 - 22:41
    Si quieres hacer una herramienta
    de Shape Expressions,
  • 22:41 - 22:46
    puedes incrustarlo
    en cualquier otro proyecto,
  • 22:46 - 22:48
    está en GitHub y puedes usarlo.
  • 22:49 - 22:52
    El mismo autor, es uno de mis alumnos,
  • 22:53 - 22:56
    él también creó
    un editor para Shape Expressions,
  • 22:56 - 22:58
    también inspirado por el servicio
    de consulta de Wikidata
  • 22:58 - 23:01
    donde, en una columna,
  • 23:01 - 23:05
    tienes este editor más visual
    de consultas SPARQL
  • 23:05 - 23:07
    donde puedes poner este tipo de cosas.
  • 23:07 - 23:09
    Esta es una captura de pantalla.
  • 23:09 - 23:13
    Puedes ver que esas son
    las Shape Expressions en el texto
  • 23:13 - 23:18
    pero es una forma de Shape Expressions
    donde tal vez tome un poco más de tiempo
  • 23:19 - 23:23
    donde puedes poner las diferentes filas
    en los diferentes campos.
  • 23:23 - 23:26
    Luego está ShExEr.
  • 23:27 - 23:32
    Tenemos que... Lo hizo un estudiante
    de doctorado de la universidad de Oviedo
  • 23:32 - 23:34
    y él está aquí,
    así que puedes presentar ShExEr.
  • 23:38 - 23:40
    (Danny) Hola, soy Danny Fernández,
  • 23:40 - 23:43
    Soy un estudiante de doctorado
    de la Universidad de Oviedo
  • 23:43 - 23:45
    y trabajo con Labra.
  • 23:45 - 23:48
    Ya que hay poco tiempo,
    hagamos esto rápido,
  • 23:48 - 23:53
    no tomemos ninguna demostración real,
    solo con algunas capturas de pantalla.
  • 23:53 - 23:58
    La forma habitual de trabajar
    con Shape Expressions o cualquier lenguaje
  • 23:58 - 24:00
    es que tienes un experto en dominios
  • 24:00 - 24:02
    que define a priori
    cómo debería verse el gráfico,
  • 24:02 - 24:04
    define algunas estructuras,
  • 24:04 - 24:07
    y luego usas estas estructuras
    para validar los datos reales con él.
  • 24:08 - 24:12
    Esta herramienta, que es tan buena como
    la que Labra ha estado presentando,
  • 24:12 - 24:14
    es una herramienta de uso general
    para cualquier fuente RDF,
  • 24:14 - 24:17
    está diseñada para hacer lo contrario.
  • 24:17 - 24:19
    Ya tienes algunos datos,
  • 24:19 - 24:23
    selecciona de qué nodos
    quieres tener la forma
  • 24:23 - 24:27
    y luego automáticamente
    extrae o infiere la forma.
  • 24:27 - 24:30
    Aunque esta es una herramienta
    de propósito general,
  • 24:30 - 24:34
    lo que hicimos para esta WikidataCon
    es este botón elegante
  • 24:35 - 24:37
    que si haces clic en él,
    esencialmente lo que pasa
  • 24:37 - 24:42
    es que hay tantos
    parámetros de configuraciones
  • 24:42 - 24:46
    y lo configura para funcionar
    con el punto final de Wikidata
  • 24:46 - 24:48
    y terminará pronto, lo siento.
  • 24:49 - 24:53
    Una vez que presionas este botón
    lo que obtienes es esencialmente esto.
  • 24:53 - 24:55
    Después de haber seleccionado
    qué tipo de nodos,
  • 24:55 - 24:59
    qué tipo de instancias de nuestra clase,
    lo que sea que estés buscando,
  • 24:59 - 25:01
    obtienes un esquema automático.
  • 25:02 - 25:07
    Todas las restricciones están ordenadas
    por cuántos nodos se ajusten a él,
  • 25:07 - 25:10
    puedes filtrar los menos comunes, etc.
  • 25:10 - 25:12
    Hay un cartel abajo de estas cosas
  • 25:12 - 25:15
    y bueno, estaré abajo y arriba
  • 25:15 - 25:16
    y por todo el lugar todo el día,
  • 25:16 - 25:19
    así que si tienes más interés
    en esta herramienta,
  • 25:19 - 25:21
    solo háblame durante este viaje.
  • 25:21 - 25:25
    Y ahora, le devolveré
    el micrófono a Labra, gracias.
  • 25:25 - 25:29
    (aplausos)
  • 25:30 - 25:33
    (Jose) Bien, continuemos
    con las otras herramientas.
  • 25:33 - 25:35
    La otra herramienta es ShapeDesigner.
  • 25:35 - 25:37
    Andra, ¿quieres hacer
    el ShapeDesigner ahora
  • 25:37 - 25:39
    o tal vez más tarde o en el taller?
  • 25:39 - 25:41
    Hay un taller...
  • 25:41 - 25:44
    Esta tarde hay un taller específicamente
    para Shape Expressions, y...
  • 25:45 - 25:48
    La idea es que iba a practicarse más,
  • 25:48 - 25:52
    y si quieres practicar
    un poco de ShEx, puedes hacerlo allí.
  • 25:53 - 25:56
    Esta herramienta es ShEx...
    y ahí está Eric,
  • 25:56 - 25:57
    así que puedes presentarla.
  • 25:58 - 26:01
    (Eric) Así que rápidamente,
    lo que quiero decir
  • 26:01 - 26:06
    es que probablemente
    ya has visto la interfaz de ShEx
  • 26:06 - 26:08
    está hecho para Wikidata.
  • 26:08 - 26:13
    Está efectivamente despojado
    y diseñado específicamente para Wikidata,
  • 26:13 - 26:18
    el genérico tiene más características
    pero pensé que ya lo había mencionado
  • 26:18 - 26:20
    porque una de esas características
    es particularmente útil
  • 26:20 - 26:23
    para depurar esquemas de Wikidata,
  • 26:23 - 26:29
    la cual es que si vas
    y seleccionas el modo de sorber,
  • 26:29 - 26:31
    lo que hace es decir
    mientras estoy validando,
  • 26:31 - 26:35
    quiero derribar todos los triples
    y eso significa
  • 26:35 - 26:36
    que si tengo un montón de fallas,
  • 26:36 - 26:40
    puedo pasar y empezar a buscar
    esas fallas y decir,
  • 26:40 - 26:42
    cuáles son los triples que están aquí,
  • 26:42 - 26:44
    lo siento, los triples están aquí abajo,
  • 26:44 - 26:46
    esto es solo un registro de lo que pasó.
  • 26:46 - 26:49
    Luego puedes sentarte allí
    y jugar con él en tiempo real
  • 26:49 - 26:51
    como si jugaras con algo que cambia.
  • 26:51 - 26:54
    Es una versión más rápida
    para hacer todo eso.
  • 26:55 - 26:56
    Este es un formulario de ShExC,
  • 26:56 - 26:59
    esto es algo que [Joachim] había sugerido
  • 27:00 - 27:05
    podría ser útil para poblar
    documentos de Wikidata
  • 27:05 - 27:07
    basados en una Shape Expression
    para ese documento.
  • 27:08 - 27:12
    Esto no está diseñado para Wikidata,
  • 27:12 - 27:14
    pero es solo para decir
    que puedes tener un esquema
  • 27:14 - 27:15
    y puedes tener algunas anotaciones
  • 27:15 - 27:18
    y decir específicamente cómo quiero
    hacer ese esquema
  • 27:18 - 27:19
    y luego se construye un formulario,
  • 27:19 - 27:21
    y si tienes datos,
    se puede llenar el formulario.
  • 27:25 - 27:26
    PyShEx [inaudible].
  • 27:28 - 27:31
    (Jose) Creo que este es el último.
  • 27:32 - 27:34
    Sí, el último es PyShEx.
  • 27:35 - 27:38
    PyShEx es una implementación Python
    de Shape Expressions,
  • 27:39 - 27:43
    puedes jugar también con Jupyter Notebooks
    si quieres ese tipo de cosas.
  • 27:43 - 27:44
    Bien, eso es todo de esto.
  • 27:44 - 27:47
    (aplausos)
  • 27:53 - 27:57
    (Andra) Voy a hablar sobre un proyecto
    específico en el que estoy involucrado
  • 27:57 - 27:58
    llamado Gene Wiki,
  • 27:58 - 28:05
    y donde también estamos
    lidiando con problemas de calidad.
  • 28:05 - 28:07
    Pero antes de entrar en la calidad,
  • 28:07 - 28:09
    una introducción rápida
    sobre qué es Gene Wiki,
  • 28:10 - 28:15
    y recientemente lanzamos una preimpresión
    de un artículo que acabamos de escribir
  • 28:15 - 28:18
    que explica los detalles del proyecto.
  • 28:20 - 28:24
    Veo gente tomando fotos,
    pero básicamente, lo que hace Gene Wiki,
  • 28:24 - 28:28
    es tratar de obtener datos biomédicos,
    datos públicos en Wikidata,
  • 28:28 - 28:32
    y seguimos un patrón específico
    para obtener esos datos en Wikidata.
  • 28:33 - 28:37
    Y cuando tenemos un nuevo repositorio
    o un nuevo conjunto de datos
  • 28:37 - 28:39
    que puede ser incluido en Wikidata,
  • 28:39 - 28:41
    el primer paso es la participación
    de la comunidad.
  • 28:41 - 28:44
    No es necesario dirigirse
    a una comunidad de Wikidata
  • 28:44 - 28:46
    sino a una comunidad
    de investigación local,
  • 28:46 - 28:50
    y nos encontramos en persona
    o en línea o en cualquier plataforma
  • 28:50 - 28:53
    e intentar crear un modelo de datos
  • 28:53 - 28:56
    que unan sus datos
    con el modelo de Wikidata.
  • 28:56 - 29:00
    Aquí tengo una foto de un taller
    que se hizo aquí el año pasado
  • 29:00 - 29:03
    donde se trataba de ver
    un conjunto de datos específico
  • 29:03 - 29:05
    y, bueno, ves muchas discusiones,
  • 29:05 - 29:10
    luego alineándolo con schema.org
    y otras ontologías que hay por ahí.
  • 29:10 - 29:16
    Luego, al final del primer paso, tenemos
    un dibujo en pizarra del esquema
  • 29:16 - 29:17
    que queremos implementar en Wikidata.
  • 29:17 - 29:20
    Lo que ves allí, es claro,
  • 29:20 - 29:22
    lo tenemos al fondo,
  • 29:22 - 29:25
    incluso hoy podemos hacer
    algunos esquemas dentro de este panel.
  • 29:27 - 29:28
    Una vez que tengamos
    el esquema en su lugar,
  • 29:28 - 29:31
    lo siguiente es intentar hacer
    ese esquema legible por la máquina
  • 29:32 - 29:37
    porque quieres tener modelos accionables
    para unir los datos que traes
  • 29:37 - 29:40
    de cualquier base de datos
    biomédica en Wikidata.
  • 29:40 - 29:45
    Y aquí estamos aplicando
    Shape Expressions.
  • 29:46 - 29:53
    Y usamos eso porque Shape Expressions
    te permite probar
  • 29:53 - 29:57
    si el conjunto de datos en realidad...
    no, para ver primero
  • 29:57 - 30:02
    si los datos ya existentes en Wikidata
    siguen el mismo modelo de datos
  • 30:02 - 30:05
    que se logró en el proceso anterior.
  • 30:05 - 30:07
    Entonces, con Shape Expression
    podemos verificar:
  • 30:07 - 30:11
    los datos que están en este tema
    en Wikidata, ¿necesitan algo de limpieza
  • 30:11 - 30:15
    o necesitamos adaptar nuestro modelo
    al modelo de Wikidata o viceversa?
  • 30:16 - 30:20
    Una vez que esté en su lugar
    y comenzamos a escribir robots,
  • 30:21 - 30:24
    y los robots están sembrando
    la información
  • 30:24 - 30:27
    que está en las fuentes primarias
    de Wikidata.
  • 30:28 - 30:29
    Y cuando los robots estén listos,
  • 30:29 - 30:33
    escribimos estos robots
    con una plataforma llamada...
  • 30:33 - 30:36
    con una biblioteca de Python
    llamada integrador de Wikidata
  • 30:36 - 30:38
    que salió de nuestro proyecto.
  • 30:39 - 30:43
    Una vez que tengamos nuestros robots,
    usamos una plataforma llamada Jenkins
  • 30:43 - 30:45
    para una integración continua.
  • 30:45 - 30:46
    Y con Jenkins,
  • 30:46 - 30:51
    actualizamos continuamente
    las fuentes primarias con Wikidata.
  • 30:52 - 30:56
    Este es un diagrama para el artículo
    que mencioné previamente.
  • 30:56 - 30:57
    Este es nuestro panorama actual.
  • 30:57 - 31:02
    Cada caja naranja de ahí
    es una fuente primaria de drogas,
  • 31:02 - 31:08
    proteínas, genes, enfermedades,
    compuestos químicos con interacción,
  • 31:08 - 31:11
    y este modelo es
    demasiado pequeño para leer
  • 31:11 - 31:17
    pero esta es la base de datos,
    las fuentes que gestionamos en Wikidata
  • 31:17 - 31:21
    y se unen con las fuentes primarias.
  • 31:21 - 31:22
    Este es el flujo de trabajo.
  • 31:23 - 31:25
    Uno de nuestros socios
    es la ontología de la enfermedad
  • 31:25 - 31:28
    la ontología de la enfermedad
    es una ontología CC0,
  • 31:28 - 31:32
    y la ontología CC0
    tiene un ciclo propio de curación,
  • 31:33 - 31:36
    ellos continuamente actualizan
    la ontología de la enfermedad
  • 31:36 - 31:40
    para reflejar el espacio de la enfermedad
    o la interpretación de enfermedades.
  • 31:40 - 31:44
    Ahí está también el ciclo de curación
    de Wikidata en enfermedades
  • 31:44 - 31:50
    donde la comunidad de Wikidata
    monitorea lo que ocurre en Wikidata.
  • 31:50 - 31:52
    Y luego tenemos dos roles,
  • 31:52 - 31:55
    los llamamos coloquialmente
    el portero guardián,
  • 31:56 - 32:00
    este éramos un colega y yo hace cinco años
  • 32:00 - 32:03
    y nos sentábamos en nuestras computadoras
    a monitorear Wikipedia y Wikidata,
  • 32:03 - 32:09
    si había un problema que fuera
    reportado a la comunidad primaria,
  • 32:09 - 32:12
    las fuentes primarias, miraban
    la implementación y decidían:
  • 32:12 - 32:14
    ¿confiamos en la entrada de Wikidata?
  • 32:15 - 32:19
    Sí... entonces se considera,
    y entra en el ciclo,
  • 32:19 - 32:23
    y la próxima iteración es parte
    de la ontología de la enfermedad
  • 32:23 - 32:25
    y se retroalimentaba a Wikidata.
  • 32:27 - 32:31
    Estamos haciendo lo mismo en WikiPathways.
  • 32:31 - 32:37
    WikiPathways es una ruta inspirada
    en MediaWiki y un repositorio de la ruta.
  • 32:37 - 32:41
    La misma historia, ya hay diferentes
    recursos de ruta en Wikidata.
  • 32:41 - 32:45
    Puede haber conflictos
    entre esos recursos de ruta
  • 32:45 - 32:47
    y estos conflictos se reportan de nuevo
  • 32:47 - 32:50
    por los porteros guardianes
    a esa comunidad,
  • 32:50 - 32:54
    y tú mantienes
    los ciclos de curación individual.
  • 32:54 - 32:57
    Pero si recuerdas el ciclo anterior,
  • 32:57 - 33:03
    aquí solo mencioné dos ciclos,
    dos recursos,
  • 33:04 - 33:06
    tenemos que hacer eso
    para cada recurso que tenemos
  • 33:06 - 33:08
    y tenemos que gestionar lo que ocurre
  • 33:08 - 33:09
    porque cuando digo curación,
  • 33:09 - 33:12
    Realmente me refiero a ir
    a las páginas principales de Wikipedia,
  • 33:12 - 33:15
    entrar en las páginas principales
    de Wikidata y tratar de hacer eso.
  • 33:15 - 33:19
    Eso no pesa para los dos porteros
    guardianes que tuvimos.
  • 33:20 - 33:23
    Cuando estaba en una conferencia en 2016
  • 33:23 - 33:27
    donde Eric hizo una presentación
    de Shape Expressions,
  • 33:27 - 33:29
    salté al carro y dije bien,
  • 33:29 - 33:34
    Shape Expressions puede ayudarnos
    a detectar qué diferencias hay en Wikidata
  • 33:34 - 33:41
    y eso permite que los porteros guardianes
    tengan informes más eficazes que reportar.
  • 33:42 - 33:46
    Entonces este año, estaba encantado
    con la entidad del esquema
  • 33:46 - 33:51
    porque ahora, podemos almacenar
    esos esquemas de entidad en Wikidata,
  • 33:51 - 33:53
    en el mismo Wikidata,
    mientras que antes estaban en GitHub,
  • 33:54 - 33:57
    y esto se alinea
    con la interfaz de Wikidata,
  • 33:57 - 33:59
    entonces tienes cosas
    como discusiones de documentos
  • 33:59 - 34:01
    pero también tienes revisiones.
  • 34:01 - 34:05
    Puedes aprovechar las páginas principales
    y las revisiones en Wikidata
  • 34:05 - 34:12
    y usar eso para discutir
    sobre lo que hay en Wikidata
  • 34:12 - 34:14
    y qué hay en las fuentes primarias.
  • 34:15 - 34:20
    Entonces, lo que Eric acaba de presentar,
    ya es un gran beneficio.
  • 34:20 - 34:24
    Así que aquí, creamos una Shape Expression
    para el gen humano,
  • 34:24 - 34:30
    y luego lo ejecutamos en ShEx simple,
    tal como puedes ver,
  • 34:30 - 34:32
    ya tenemos...
  • 34:32 - 34:35
    Hay un problema que necesita
    ser monitoreado
  • 34:35 - 34:37
    es que hay un elemento
    que no encaja en ese esquema,
  • 34:37 - 34:43
    y entonces ya puedes crear informes
    de curación de entidades de esquema
  • 34:43 - 34:46
    basados en... y enviar eso
    a los diferentes informes de curación.
  • 34:48 - 34:53
    Pero ShEx.js es una interfaz integrada,
  • 34:53 - 34:56
    y si puedo mostrar aquí, solo hago diez,
  • 34:56 - 35:00
    pero tenemos decenas de miles,
    y eso nuevamente no pesa.
  • 35:00 - 35:05
    Entonces, ahora el integrador de Wikidata
    también es compatible con ShEx,
  • 35:05 - 35:07
    y luego podemos enlazar
    bucles de elementos
  • 35:07 - 35:11
    donde decimos sí-no, sí-no,
    verdadero-falso, verdadero-falso.
  • 35:11 - 35:12
    Así que de nuevo,
  • 35:13 - 35:17
    aumentamos un poco la eficiencia
    de lidiar con los informes.
  • 35:17 - 35:23
    Pero ahora, recientemente, se construye
    en el servicio de consultas de Wikidata,
  • 35:23 - 35:25
    y bueno, recientemente
    hemos ido acelerando
  • 35:25 - 35:27
    así que de nuevo, eso no pesa.
  • 35:27 - 35:31
    Aún es un proceso continuo,
    el cómo lidiar con modelos en Wikidata.
  • 35:32 - 35:37
    Y de nuevo, ShEx no solo es intimidante
  • 35:37 - 35:40
    sino que también la escala es
    demasiado grande para tratarla.
  • 35:41 - 35:46
    Así que empecé a trabajar, esta es
    mi primera prueba de concepto o ejercicio
  • 35:46 - 35:48
    donde usé una herramienta llamada yED,
  • 35:48 - 35:53
    y empecé a dibujar
    esas Shape Expressions porque...
  • 35:53 - 35:58
    y luego regenero este esquema
  • 35:58 - 36:01
    en este formato adyacente
    de Shape Expressions,
  • 36:01 - 36:05
    así que eso ya se abriría a la audiencia
  • 36:05 - 36:07
    que está intimidada
    por los lenguajes de Shape Expressions.
  • 36:08 - 36:12
    Pero en realidad, hay un problema
    con esas descripciones visuales
  • 36:12 - 36:18
    porque también es un esquema
    que fue dibujado en yEd por alguien.
  • 36:18 - 36:24
    Y aquí hay otro que es hermoso.
  • 36:24 - 36:29
    Me encantaría tenerlo en mi pared,
    pero aún no es interoperable.
  • 36:30 - 36:32
    Así que quiero terminar mi charla con,
  • 36:32 - 36:36
    y la primera vez, me he estado robando
    esta diapositiva, usando esta diapositiva.
  • 36:36 - 36:38
    Es un honor tenerlo en la audiencia
  • 36:38 - 36:39
    y realmente me gusta esto:
  • 36:39 - 36:42
    "La gente piensa que RDF es una molestia
    porque es complicado.
  • 36:42 - 36:44
    La verdad es aún peor, es tan simple,
  • 36:46 - 36:48
    porque tienes que trabajar
    con problemas de datos del mundo real
  • 36:48 - 36:50
    que son terriblemente complicados.
  • 36:50 - 36:51
    Si bien puedes evitar RDF,
  • 36:51 - 36:56
    es más difícil evitar datos complicados
    y problemas informáticos complicados".
  • 36:56 - 37:00
    Esto es sobre RDF, pero creo
    que también aplica al modelado.
  • 37:00 - 37:03
    Entonces, mi punto de discusión
    es si realmente...
  • 37:03 - 37:06
    ¿Cómo iniciamos el modelado?
  • 37:06 - 37:11
    ¿Deberíamos discutir sobre ShEx,
    o modelos visuales o...?
  • 37:11 - 37:13
    ¿Cómo continuamos?
  • 37:13 - 37:15
    Muchas gracias por tu tiempo.
  • 37:15 - 37:18
    (aplausos)
  • 37:20 - 37:21
    (Lydia) Muchas gracias.
  • 37:22 - 37:24
    ¿Vendrían aquí delante
  • 37:24 - 37:28
    para que podamos iniciar
    con las preguntas de la audiencia?
  • 37:29 - 37:30
    ¿Hay preguntas?
  • 37:32 - 37:33
    Sí.
  • 37:34 - 37:37
    Y creo que, para la cámara, necesitamos...
  • 37:39 - 37:41
    (Lydia riendo) Sí.
  • 37:43 - 37:46
    (persona 3) Una pregunta
    para Cristina, creo.
  • 37:47 - 37:52
    Mencionaste el término
    "ganancia de información"
  • 37:52 - 37:54
    y vincularse con otros sistemas.
  • 37:54 - 37:55
    Hay una medida teórica de la información
  • 37:55 - 37:58
    que usa estadística y probabilidad
    llamada ganancia de información.
  • 37:58 - 38:00
    ¿Tienes el mismo...
  • 38:00 - 38:02
    Quiero decir, ¿querías decir
    exactamente esa medida,
  • 38:02 - 38:04
    la ganancia de información
    de la teoría de la probabilidad
  • 38:04 - 38:05
    de la teoría de la información
  • 38:05 - 38:09
    o simplemente usar esta cosa conceptual
    para medir la ganancia de información?
  • 38:09 - 38:13
    No, definimos e implementamos medidas
  • 38:14 - 38:20
    que usan la entropía de Shannon,
    así que se entiende así.
  • 38:20 - 38:23
    No quise entrar en detalles
    de las fórmulas concretas...
  • 38:23 - 38:25
    (persona 3) No, no, por supuesto,
    por eso hice la pregunta.
  • 38:25 - 38:27
    - (Cristina) Pero, sí...
    - (persona 3) Gracias.
  • 38:33 - 38:35
    (persona 4) Más un comentario
    que una pregunta.
  • 38:35 - 38:36
    (Lydia) Dilo.
  • 38:36 - 38:40
    (persona 4) Ha habido
    mucho enfoque a nivel de elemento
  • 38:40 - 38:43
    sobre calidad e integridad,
  • 38:43 - 38:47
    una de las cosas que me preocupa es
    que no aplicamos lo mismo a las jerarquías
  • 38:47 - 38:51
    y creo que tenemos un problema, es que,
    nuestra jerarquía a veces no es buena.
  • 38:51 - 38:53
    Vemos que va a ser un problema real
  • 38:53 - 38:56
    con la búsqueda de Commons y otras cosas.
  • 38:57 - 39:01
    Una de las habilidades que podemos
    hacer es importar externos...
  • 39:01 - 39:05
    La forma en que los tesauros externos
    estructuran sus jerarquías,
  • 39:05 - 39:10
    utilizando el calificador P4900
    de concepto más amplio.
  • 39:11 - 39:16
    Pero lo que creo sería muy útil,
    serían mejores herramientas que hagan eso
  • 39:16 - 39:21
    que puedan importar una jerarquía
    de tesauros externos
  • 39:21 - 39:24
    y que la mapee en nuestros
    elementos de Wikidata.
  • 39:24 - 39:28
    Una vez que esté en su lugar
    con esos calificadores P4900,
  • 39:28 - 39:31
    puedes hacer buenas consultas
    a través de SPARQL
  • 39:32 - 39:38
    para ver dónde nuestra jerarquía
    diverge de esa jerarquía externa.
  • 39:38 - 39:41
    Por ejemplo, [Paula Morma],
    usuario de PKM, tal vez sepas,
  • 39:41 - 39:44
    ella trabaja mucho en la moda.
  • 39:44 - 39:51
    Así que lo usamos para atraer la jerarquía
    de tesauros de la moda europea
  • 39:51 - 39:54
    y la jerarquía Getty AAT
    de tesauros de la moda,
  • 39:54 - 39:58
    y luego ver dónde estaban los huecos
    en nuestros elementos de nivel superior,
  • 39:58 - 40:01
    lo cual es un problema real
    para nosotros porque a menudo,
  • 40:01 - 40:04
    estas son cosas que solo existen
    en páginas de desambiguación en Wikipedia,
  • 40:04 - 40:09
    así que nos faltan muchos elementos
    de nivel superior en nuestras jerarquías
  • 40:09 - 40:14
    y es algo que debemos abordar
    en términos de calidad e integridad,
  • 40:14 - 40:16
    pero lo que realmente ayudaría
  • 40:17 - 40:21
    serían mejores herramientas que la jungla
    de guiones de extracción que escribí...
  • 40:21 - 40:26
    Si alguien pudiera poner eso
    en una libreta PAWS de Python
  • 40:27 - 40:32
    para poder tomar un tesauro externo,
    tomar su jerarquía,
  • 40:32 - 40:35
    que bien puede estar disponible
    como datos vinculados o no,
  • 40:35 - 40:41
    y luego ponerlos en QuickStatements
    para ponerlos en valores P4900.
  • 40:41 - 40:42
    Y luego,
  • 40:42 - 40:45
    cuando nuestra representación
    se vuelva más completa,
  • 40:45 - 40:50
    se actualicen esos P4900 porque a medida
    que a nuestra representación
  • 40:50 - 40:52
    se le pone fecha, se vuelve más densa,
  • 40:52 - 40:55
    los valores de estos calificadores
    necesitan cambiar
  • 40:56 - 41:00
    para representar que tenemos más
    de su jerarquía en nuestro sistema.
  • 41:00 - 41:04
    Si alguien pudiera hacer eso,
    creo que sería muy útil,
  • 41:04 - 41:07
    y necesitamos también mirar otros enfoques
  • 41:07 - 41:11
    para mejorar la calidad
    y la integridad a nivel jerárquico
  • 41:11 - 41:12
    no solo a nivel de elemento.
  • 41:13 - 41:15
    (Andra) ¿Puedo agregar a eso?
  • 41:16 - 41:20
    Sí, y de hecho hacemos eso,
  • 41:20 - 41:24
    y puedo recomendar mirar
    la Shape Expression que hizo Finn
  • 41:24 - 41:27
    con los datos léxicos
    donde crea Shape Expressions
  • 41:27 - 41:30
    y luego construye
    en otras Shape Expressions
  • 41:30 - 41:33
    entonces tienes este concepto de Shape
    Expressions vinculados en Wikidata,
  • 41:33 - 41:35
    y específicamente, el caso de uso,
    si entiendo correctamente,
  • 41:35 - 41:37
    es exactamente lo que estamos
    haciendo en Gene Wiki.
  • 41:37 - 41:41
    Tienes la ontología de la enfermedad
    que se pone en Wikidata
  • 41:41 - 41:45
    y luego entran los datos de la enfermedad
    y aplicamos las Shape Expressions
  • 41:45 - 41:47
    para ver si encaja con este tesauro.
  • 41:47 - 41:51
    Y hay otros tesauros u otras
    ontologías de vocabularios controlados
  • 41:51 - 41:52
    que aún necesitan entrar en Wikidata,
  • 41:52 - 41:55
    y eso es exactamente por qué
    Shape Expression es tan interesante
  • 41:55 - 41:58
    porque puedes tener una Shape Expression
    para la ontología de la enfermedad,
  • 41:58 - 42:00
    puedes tener una Shape
    Expression para MeSH,
  • 42:00 - 42:02
    puedes decir: bien, ahora
    quiero verificar la calidad.
  • 42:02 - 42:04
    Porque también tienes
    en Wikidata el contexto
  • 42:04 - 42:10
    de cuando tienes un vocabulario controlado
    dices que la calidad está acorde a esto,
  • 42:10 - 42:12
    pero podrías tener
    una comunidad en desacuerdo.
  • 42:12 - 42:16
    Las herramientas están en su lugar,
    pero ahora toca crear esos modelos
  • 42:16 - 42:18
    y aplicarlos en los diferentes
    casos de uso.
  • 42:19 - 42:21
    (persona 4) La Shape Expression
    es muy útil
  • 42:21 - 42:26
    una vez que tengas la ontología externa
    mapeada en Wikidata,
  • 42:26 - 42:29
    pero mi problema es que está
    llegando a esa etapa,
  • 42:29 - 42:35
    funciona para ver cuánto de la ontología
    externa aún no está en Wikidata
  • 42:35 - 42:36
    y dónde están los huecos,
  • 42:36 - 42:41
    y ahí es donde creo que al tener
    herramientas mucho más robustas
  • 42:41 - 42:44
    para ver lo que falta
    de ontologías externas
  • 42:44 - 42:46
    sería muy útil.
  • 42:48 - 42:49
    El mayor problema allí
  • 42:49 - 42:51
    no es tanto las herramientas
    sino que faltan más licencias.
  • 42:52 - 42:55
    Entonces, meter las ontologías
    en Wikidata es en realidad muy fácil
  • 42:55 - 42:59
    pero la mayoría de las ontologías tienen,
    ¿cómo puedo decirlo cortésmente?
  • 43:00 - 43:03
    licencia restrictiva,
    y no son compatibles con Wikidata.
  • 43:04 - 43:07
    (persona 4) Hay un gran número
    de tesauros del sector público
  • 43:07 - 43:08
    en los campos culturales.
  • 43:08 - 43:11
    - (Andra) Entonces tenemos que hablar.
    - (persona 4) No hay problema.
  • 43:11 - 43:12
    (Andra) Entonces tenemos que hablar.
  • 43:14 - 43:19
    (persona 5) El comentario que quiero hacer
    en realidad es una respuesta a James,
  • 43:19 - 43:22
    entonces, la cosa es que,
    las jerarquías hacen gráficos,
  • 43:22 - 43:24
    y cuando lo quieras...
  • 43:25 - 43:29
    Básicamente quiero hablar sobre...
    un problema común en las jerarquías
  • 43:29 - 43:31
    es las jerarquías circulares,
  • 43:31 - 43:34
    ellas vuelven la una a la otra
    cuando hay un problema,
  • 43:34 - 43:36
    lo cual, no deberías tener
    eso en las jerarquías.
  • 43:37 - 43:41
    Esto, curiosamente, sucede mucho
    en las categorías de Wikipedia
  • 43:41 - 43:43
    tenemos muchos círculos en las categorías,
  • 43:44 - 43:47
    pero la buena noticia es que esto es...
  • 43:48 - 43:52
    Técnicamente, es un problema completo
    de P... NP, así que no puedes hallar esto,
  • 43:52 - 43:53
    y fácilmente si construiste
    un gráfico de eso,
  • 43:54 - 43:57
    pero hay muchas maneras
    que se han desarrollado
  • 43:57 - 44:01
    para encontrar problemas
    en estos gráficos de jerarquía.
  • 44:01 - 44:05
    Hay un artículo llamado Buscando Ciclos...
  • 44:05 - 44:08
    Rompiendo Ciclos en Jerarquías Ruidosas,
  • 44:08 - 44:13
    y se ha usado para ayudar a categorizar
    la Wikipedia en inglés.
  • 44:13 - 44:17
    Puedes tomar esto y aplicar
    estas jerarquías en Wikidata,
  • 44:17 - 44:20
    y luego puedes encontrar
    cosas que son problemáticas
  • 44:20 - 44:22
    y solo quitar las que están
    causando problemas
  • 44:22 - 44:25
    y encontrar los problemas, en realidad.
  • 44:25 - 44:27
    Esto es solo una idea, solo para que tú...
  • 44:29 - 44:30
    (persona 4) Eso está muy bien,
  • 44:30 - 44:34
    pero creo que estás subestimando
    el número de malas relaciones de subclase
  • 44:34 - 44:35
    que tenemos.
  • 44:35 - 44:40
    Es como tener una ciudad
    en un país totalmente equivocado,
  • 44:40 - 44:45
    y hay herramientas de geografía
    para identificar eso,
  • 44:45 - 44:49
    y necesitamos tener mejores
    herramientas en las jerarquías
  • 44:49 - 44:53
    para identificar dónde está
    el equivalente del elemento para el país
  • 44:53 - 44:58
    que falta, o donde realmente
    ha sido subclasificado
  • 44:58 - 45:02
    a algo que no significa
    algo completamente distinto.
  • 45:03 - 45:07
    (Lydia) Sí, creo que estás llegando a algo
  • 45:07 - 45:12
    que mi equipo y yo seguimos escuchando
    de personas que reutilizan nuestros datos
  • 45:12 - 45:14
    bastante bien, cierto,
  • 45:15 - 45:17
    el punto de datos individuales
    podría ser excelente,
  • 45:17 - 45:20
    pero si tienes que mirar
    en la ontología y demás,
  • 45:20 - 45:22
    entonces se pone muy...
  • 45:22 - 45:26
    Y creo que uno de los grandes problemas
    del por qué ocurre
  • 45:26 - 45:31
    es que mucha edición en Wikidata
  • 45:31 - 45:35
    sucede sobre la base
    de un elemento individual, correcto,
  • 45:35 - 45:36
    haces una edición de ese elemento,
  • 45:38 - 45:42
    sin darte cuenta de que esto
    podría tener consecuencias muy globales
  • 45:42 - 45:44
    en el resto del gráfico, por ejemplo.
  • 45:44 - 45:50
    Y si la gente tiene ideas de cómo
    hacer esto más visible,
  • 45:50 - 45:53
    las consecuencias
    de una edición local individual,
  • 45:54 - 45:57
    creo que valdría la pena explorar,
  • 45:58 - 46:02
    para mostrarles mejor a la gente
    cuál es la consecuencia de su edición
  • 46:02 - 46:03
    para que lo hagan de muy buena fe,
  • 46:04 - 46:05
    qué es eso.
  • 46:07 - 46:12
    ¡Guao! Bien, comencemos con, sí, tú,
    luego tú, luego tú, y luego tú.
  • 46:12 - 46:14
    (persona 5) Bueno,
    después de la discusión,
  • 46:14 - 46:18
    solo deseo expresar mi acuerdo
    con lo que James estaba diciendo.
  • 46:18 - 46:22
    Entonces, esencialmente, parece
    que lo más peligroso es la jerarquía,
  • 46:22 - 46:24
    no la jerarquía, sino en general
  • 46:24 - 46:28
    la semántica de las relaciones de subclase
    vistas en Wikidata, cierto.
  • 46:28 - 46:33
    Hace poco he estado estudiando lenguajes,
    solo para los fines de esta conferencia,
  • 46:33 - 46:35
    y por ejemplo, encuentras muchos casos
  • 46:35 - 46:39
    donde un lenguaje es parte
    de una subclase de la misma cosa, bien.
  • 46:39 - 46:44
    Entonces, sabes, puedes decir
    que tenemos una ontología flexible.
  • 46:44 - 46:46
    Wikidata a veces te da
    la libertad de expresar eso.
  • 46:46 - 46:47
    Porque, por ejemplo,
  • 46:47 - 46:51
    esa ontología de lenguajes también es
    políticamente complicada, ¿verdad?
  • 46:51 - 46:55
    Incluso es bueno estar en una posición
    para expresar un nivel de incertidumbre.
  • 46:55 - 46:58
    Pero imagina a cualquiera que quiera
    hacer una lectura automática de eso.
  • 46:58 - 46:59
    Eso es realmente problemático.
  • 46:59 - 47:00
    Y luego de nuevo,
  • 47:00 - 47:04
    no creo que esa ontología
    fuera importada de alguna parte,
  • 47:04 - 47:05
    es algo que es originalmente nuestro.
  • 47:05 - 47:08
    Se cosecha desde Wikipedia,
    al principio lo diré.
  • 47:08 - 47:11
    Entonces, me pregunto...
    esta cosa de Shape Expressions es genial,
  • 47:11 - 47:16
    y también validar y arreglar,
    si quieres, la ontología de Wikidata
  • 47:16 - 47:18
    por recursos externos, hermosa idea.
  • 47:19 - 47:20
    En fin,
  • 47:20 - 47:25
    ¿terminaremos reflexionando sobre
    las ontologías externas en Wikidata?
  • 47:25 - 47:29
    Y además, ¿qué hacemos con la parte
    central de nuestra ontología
  • 47:29 - 47:31
    que nunca se cosecha de recursos externos,
  • 47:31 - 47:32
    cómo vamos a arreglar eso?
  • 47:32 - 47:35
    Y realmente pienso que eso será
    un problema por sí solo.
  • 47:35 - 47:39
    Tendremos que centrarnos en eso
    independientemente de la idea
  • 47:39 - 47:41
    de validar la ontología con algo externo.
  • 47:49 - 47:53
    (persona 6) Bien, y las limitantes
    y las formas son muy impresionantes
  • 47:53 - 47:55
    lo que podemos hacer con eso,
  • 47:55 - 47:58
    pero el punto principal no está
    siendo realmente aclarado...
  • 47:58 - 48:03
    es porque ahora se puede hacer más
    explícito lo que esperamos de los datos.
  • 48:03 - 48:07
    Antes, cada uno tenía que escribir
    sus propias herramientas y guiones
  • 48:07 - 48:11
    y así es más visible
    y podemos discutir sobre eso.
  • 48:11 - 48:14
    Pero no se trata
    de lo que está mal o bien,
  • 48:14 - 48:16
    se trata de una expectativa,
  • 48:16 - 48:18
    y tendrás diferentes
    expectativas y discusiones
  • 48:18 - 48:21
    acerca de cómo queremos
    modelar las cosas en Wikidata,
  • 48:21 - 48:23
    y esto...
  • 48:23 - 48:26
    El estado actual es solo
    un paso en la dirección
  • 48:26 - 48:28
    porque ahora necesitas
  • 48:28 - 48:31
    mucha experiencia técnica
    para entrar en esto,
  • 48:31 - 48:36
    y necesitamos mejores formas
    para visualizar esta restricción,
  • 48:36 - 48:40
    para transformarlo tal vez en un lenguaje
    natural y la gente lo pueda entender mejor
  • 48:41 - 48:44
    pero se trata menos de lo que está
    mal o lo que está bien.
  • 48:45 - 48:46
    (Lydia) Sí.
  • 48:51 - 48:54
    (persona 7) Por cuestiones de calidad,
    solo lo quiero repetir como...
  • 48:54 - 48:57
    Me he encontrado que muchos
    de los problemas han sido
  • 48:59 - 49:02
    diferencias de opinión
    entre instancia de y subclase.
  • 49:02 - 49:06
    Yo diría que los errores
    en esas situaciones
  • 49:06 - 49:12
    que he tratado de encontrar
    han sido un proceso muy lento.
  • 49:12 - 49:15
    Lo que he encontrado es algo así: "si
    encuentro elementos de muy alta impresión
  • 49:15 - 49:16
    que son algo... y luego uso todas
  • 49:16 - 49:22
    las instancias de subclase y encuentro
    las declaraciones derivadas de esto",
  • 49:22 - 49:26
    esta es una forma muy útil
    de buscar estos errores.
  • 49:26 - 49:28
    Pero tenía curiosidad
    si Shape Expressions,
  • 49:30 - 49:32
    si hay...
  • 49:32 - 49:37
    Si se puede usar como una herramienta que
    ayude a resolver esos problemas, y sí...
  • 49:41 - 49:43
    (persona 8) Si tiene
    una huella estructural...
  • 49:46 - 49:49
    Si tiene una huella estructural
    donde puedas... eso es algo falsificable,
  • 49:49 - 49:51
    puedes ver eso
    y decir, bueno, eso está mal,
  • 49:51 - 49:53
    entonces sí, puedes hacer eso.
  • 49:53 - 49:57
    Pero si solo se trata de mapear
    con objetos del mundo real,
  • 49:57 - 49:59
    entonces solo vas a necesitar
    montones y montones de cerebros.
  • 50:06 - 50:09
    (persona 9) Hola, Pablo Mendes
    de Apple Siri Knowledge.
  • 50:09 - 50:13
    Estamos aquí para descubrir cómo ayudar
    al proyecto y a la comunidad
  • 50:13 - 50:16
    pero Cristina cometió el error
    de preguntar qué queremos.
  • 50:16 - 50:20
    (risas) Entonces, creo que
    una cosa que me gustaría ver,
  • 50:21 - 50:24
    se trata mucho de verificabilidad,
  • 50:24 - 50:26
    que es uno de los principios básicos
    del proyecto en la comunidad,
  • 50:27 - 50:29
    y confiabilidad.
  • 50:29 - 50:32
    No todas las declaraciones son iguales,
    algunas de ellas están muy disputadas,
  • 50:32 - 50:34
    algunas de ellas son fáciles de adivinar,
  • 50:34 - 50:36
    como la fecha de nacimiento
    de alguien puede ser verificada,
  • 50:36 - 50:39
    como viste hoy en la Keynote, los asuntos
    de género son mucho más complicados.
  • 50:40 - 50:42
    ¿Puedes hablar un poco de lo que sabes
  • 50:42 - 50:47
    en esta área de calidad de datos
    acerca de confiabilidad y verificabilidad?
  • 50:55 - 50:58
    Si no tienes mucho,
    me encantaría ver mucho más. (risas)
  • 51:01 - 51:02
    (Lydia) Sí.
  • 51:03 - 51:07
    Aparentemente, no tenemos
    mucho que decir sobre eso. (risas)
  • 51:08 - 51:12
    (Andra) Creo que podemos hacer mucho,
    pero ayer tuve una discusión contigo.
  • 51:12 - 51:16
    Mi ejemplo favorito que aprendí ayer,
    que ya está en desuso,
  • 51:16 - 51:20
    es que si vas a la Q2, que es la tierra,
  • 51:20 - 51:23
    hay una declaración
    que afirma que la tierra es plana.
  • 51:24 - 51:26
    Y me encanta ese ejemplo
  • 51:26 - 51:28
    porque hay una comunidad
    por ahí que lo afirma
  • 51:28 - 51:30
    y tienen recursos verificables.
  • 51:30 - 51:32
    Entonces, creo que es un caso genuino,
  • 51:32 - 51:35
    no debería estar en desuso,
    debería estar en Wikidata.
  • 51:35 - 51:40
    Y creo que Shape Expressions
    puede ser realmente instrumental allí,
  • 51:40 - 51:42
    debido a lo que puedes decir,
  • 51:42 - 51:45
    bien, estoy realmente interesado
    en este caso de uso,
  • 51:45 - 51:47
    o este es un caso de uso
    en el que no estás de acuerdo,
  • 51:47 - 51:51
    pero también puede haber un caso de uso
    donde dices, bien, estoy interesado.
  • 51:51 - 51:53
    Entonces, hay un ejemplo,
    que dices, tengo glucosa.
  • 51:53 - 51:56
    Y la glucosa, cuando eres biólogo,
  • 51:56 - 52:00
    no te importan las limitantes químicas
    de la molécula de la glucosa,
  • 52:00 - 52:03
    tú simplemente...
    Todo lo de glucosa es lo mismo.
  • 52:03 - 52:06
    Pero si eres químico,
    te estremeces cuando escuchas eso,
  • 52:06 - 52:08
    tienes 200 algo...
  • 52:08 - 52:10
    Entonces, puedes tener
    múltiples Shape Expressions,
  • 52:10 - 52:13
    bien, voy a poner que...
    Estoy en un punto de vista químico,
  • 52:13 - 52:14
    estoy aplicando eso.
  • 52:14 - 52:17
    Y luego dices, estoy en un caso
    de uso biológico,
  • 52:17 - 52:19
    Estoy aplicando esa Shape Expression.
  • 52:19 - 52:20
    Y luego, cuando quieres colaborar,
  • 52:20 - 52:23
    sí, bueno, deberías hablarle
    a Eric sobre los mapas ShEx.
  • 52:24 - 52:29
    Y así... pero este viaje apenas comienza.
  • 52:29 - 52:32
    Pero yo personalmente creo
    que es muy instrumental en esa área.
  • 52:34 - 52:36
    (Lydia) Bien. Por ahí.
  • 52:38 - 52:39
    (risas)
  • 52:41 - 52:46
    (persona 2) Tuve varias ideas
    de algunos puntos en las discusiones,
  • 52:46 - 52:51
    así que intentaré no perderlas...
    Tuve tres ideas, así que...
  • 52:52 - 52:55
    Según lo que dijo James hace un tiempo,
  • 52:55 - 52:59
    tenemos un problema muy, muy grande
    en Wikidata desde el principio
  • 52:59 - 53:02
    para la ontología superior.
  • 53:02 - 53:05
    Lo hablamos hace dos años en WikidataCon,
  • 53:05 - 53:07
    y hablamos de eso en Wikimania.
  • 53:07 - 53:10
    Bueno, siempre que tenemos
    una reunión de Wikidata
  • 53:10 - 53:12
    hablamos de eso,
  • 53:12 - 53:16
    porque es un gran problema
    a un nivel muy, muy visual
  • 53:16 - 53:23
    qué entidad es, con qué trabajo es,
    qué género es, arte,
  • 53:23 - 53:25
    son realmente el concepto más grande.
  • 53:26 - 53:33
    Y eso es realmente un punto
    muy débil en la ontología global
  • 53:33 - 53:37
    porque la gente trata
    de limpiar regularmente
  • 53:38 - 53:41
    y lo descompone todo,
  • 53:43 - 53:49
    porque sí, creo que algunos de ustedes
    recuerdan al tipo que de buena fe
  • 53:49 - 53:52
    rompió absolutamente
    todas las ciudades del mundo.
  • 53:52 - 53:58
    Ya no eran elementos geográficos, habían
    restricciones de violación en todas partes
  • 53:59 - 54:00
    Y fue de buena fe,
  • 54:00 - 54:04
    porque realmente estaba
    corrigiendo un error en un elemento,
  • 54:04 - 54:06
    pero todo se vino abajo.
  • 54:06 - 54:09
    Y no estoy segura de cómo
    podemos resolver eso
  • 54:10 - 54:16
    porque en realidad no hay ninguna
    institución externa a la que copiar
  • 54:16 - 54:18
    porque todos trabajan...
  • 54:19 - 54:22
    Bueno, si estoy realizando
    una base de datos de arte,
  • 54:22 - 54:25
    solo iré al nivel de arte escénico,
  • 54:25 - 54:29
    pero no voy al concepto filosófico
    de lo que es una entidad,
  • 54:29 - 54:31
    y eso es en realidad...
  • 54:31 - 54:35
    No conozco ninguna base de datos
    que esté trabajando a este nivel,
  • 54:35 - 54:37
    pero ese es el punto
    más débil de Wikidata.
  • 54:38 - 54:41
    Y probablemente, cuando hablamos
    de calidad de datos,
  • 54:41 - 54:44
    tiene en realidad
    una gran parte, así que...
  • 54:44 - 54:49
    Y creo que es lo mismo
    que hemos expresado...
  • 54:49 - 54:50
    Lo siento, estoy cambiando de tema,
  • 54:51 - 54:56
    pero hemos expresado
    en diferentes sesiones sobre cualidades,
  • 54:56 - 54:59
    que en realidad algunos de nosotros
    hacemos un buen trabajo de modelado,
  • 54:59 - 55:01
    hacemos ShEx, hacemos cosas así.
  • 55:02 - 55:08
    La gente no lo ve en Wikidata,
    no ven el ShEx,
  • 55:08 - 55:10
    no ven el WikiProject
    en la página de discusión,
  • 55:10 - 55:11
    y a veces,
  • 55:11 - 55:15
    ni siquiera ven las páginas
    de discusión de propiedades,
  • 55:15 - 55:20
    que declara explícitamente
    a), esta propiedad se utiliza para eso.
  • 55:20 - 55:24
    La semana pasada, agregué
    restricciones a una propiedad.
  • 55:24 - 55:26
    La restricción fue escrita explícitamente
  • 55:26 - 55:29
    en la discusión de la creación
    de la propiedad.
  • 55:29 - 55:35
    Acabo de crear la parte técnica
    de agregar la restricción, y alguien:
  • 55:35 - 55:37
    "¡Qué! ¡Estropeaste todas mis ediciones!"
  • 55:37 - 55:42
    Y él estaba usando incorrectamente
    la propiedad durante los últimos dos años.
  • 55:42 - 55:47
    Y la propiedad era realmente muy clara,
    pero no hubo advertencias,
  • 55:47 - 55:50
    y entonces, es lo mismo en el Pink Pony,
    que dijimos en Wikimania
  • 55:50 - 55:55
    para hacer que WikiProject sea más visible
    o para que ShEx sea más visible, pero...
  • 55:55 - 55:57
    Y eso es lo que dijo Cristina.
  • 55:57 - 56:02
    Tenemos un problema de visibilidad
    de cuáles son las soluciones existentes.
  • 56:02 - 56:04
    Y en esta sesión,
  • 56:04 - 56:07
    todos estamos hablando
    de cómo crear más ShEx,
  • 56:07 - 56:11
    o de facilitar los trabajos
    para las personas que hacen la limpieza.
  • 56:12 - 56:16
    Pero estamos limpiando
    desde el primer día de Wikidata,
  • 56:16 - 56:21
    y globalmente, estamos perdiendo,
    y estamos perdiendo porque, bueno,
  • 56:21 - 56:23
    si supiera, los nombres son complicados,
  • 56:23 - 56:26
    pero yo soy el único
    que hace el trabajo de limpieza,
  • 56:27 - 56:30
    el chico que agregó
    el nombre de la escritura latina
  • 56:30 - 56:32
    a todos los investigadores chinos,
  • 56:32 - 56:36
    me llevará meses limpiar eso
    y no puedo hacerlo solo,
  • 56:36 - 56:39
    y él hizo un lote masivo.
  • 56:39 - 56:40
    Entonces, realmente necesitamos...
  • 56:40 - 56:44
    Tenemos un problema de visibilidad
    más que un problema de herramienta, creo,
  • 56:44 - 56:46
    porque tenemos muchas herramientas.
  • 56:46 - 56:50
    (Lydia) Correcto, desafortunadamente,
    me han mostrado una señal (risas)
  • 56:50 - 56:52
    así que, tenemos que terminar esto.
  • 56:52 - 56:54
    Muchas gracias por sus comentarios,
  • 56:54 - 56:57
    espero que sigan discutiendo
    durante el resto del día,
  • 56:57 - 56:58
    y gracias por su aporte.
  • 56:58 - 57:00
    (aplausos)
Title:
cdn.media.ccc.de/.../wikidatacon2019-9-eng-Data_quality_panel_hd.mp4
Video Language:
English
Duration:
57:10

Spanish subtitles

Revisions