< Return to Video

cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

  • 0:06 - 0:07
    (Lydia) Muchas gracias.
  • 0:07 - 0:11
    En esta conferencia, uno de los grandes
    temas son los idiomas.
  • 0:14 - 0:18
    Quiero darles una visión general
    de dónde estamos actualmente
  • 0:18 - 0:20
    en lo que respecta a los idiomas
  • 0:20 - 0:22
    y hacia dónde podemos ir desde aquí.
  • 0:29 - 0:32
    Wikidata se trata de dar a más personas
    más acceso a más conocimiento,
  • 0:32 - 0:37
    y el lenguaje es una parte importante
    para hacer que esto sea una realidad,
  • 0:38 - 0:43
    porque cada vez más nuestras vidas
    dependen de la tecnología.
  • 0:44 - 0:49
    Y como nuestro orador principal decía hoy,
  • 0:49 - 0:51
    parte de la tecnología
    deja atrás a las personas
  • 0:51 - 0:55
    simplemente porque no pueden
    hablar un determinado idioma,
  • 0:55 - 0:57
    y ​​eso no está bien.
  • 0:58 - 1:02
    Entonces queremos hacer algo al respecto.
  • 1:03 - 1:06
    Y para cambiar eso,
    necesitan al menos dos cosas.
  • 1:06 - 1:11
    Una es que deben proporcionar contenido
    a las personas en su idioma,
  • 1:11 - 1:13
    y ​​la segunda cosa que necesitan
  • 1:13 - 1:16
    es proporcionarles
    interacción en su idioma
  • 1:16 - 1:19
    en esas aplicaciones
    o lo que sea que tenga.
  • 1:20 - 1:25
    Y Wikidata ayuda con ambas cosas.
  • 1:26 - 1:28
    Lo primero, contenido en su idioma,
  • 1:28 - 1:31
    eso es básicamente lo que tenemos
    en elementos y propiedades,
  • 1:31 - 1:33
    cómo describimos el mundo.
  • 1:33 - 1:35
    Ahora, esto ciertamente
    no es todo lo que necesitan,
  • 1:35 - 1:39
    pero eso ya es un gran avance.
  • 1:40 - 1:42
    La otra cosa
    es la interacción en su idioma,
  • 1:42 - 1:46
    y ​​ahí es donde
    entran en juego los lexemas.
  • 1:46 - 1:49
    Si desean hablar
    con su asistente personal digital
  • 1:49 - 1:55
    o si desean que su dispositivo
    traduzca un texto y cosas así.
  • 1:56 - 1:59
    Muy bien, veamos
    el Contenido en su idioma.
  • 1:59 - 2:03
    Entonces, lo que tenemos
    en elementos y propiedades.
  • 2:05 - 2:10
    Para esto, las etiquetas en esos
    elementos y propiedades son cruciales.
  • 2:10 - 2:15
    Necesitamos saber cómo se llama
    esta entidad de la que estamos hablando.
  • 2:15 - 2:20
    Y en lugar de hablar sobre Q5,
  • 2:20 - 2:22
    alguien que habla inglés
    sabe que es un "humano",
  • 2:22 - 2:25
    alguien que habla alemán
    sabe que es un "mensch"
  • 2:25 - 2:26
    y cosas similares.
  • 2:26 - 2:30
    Entonces, esas etiquetas
    en elementos y propiedades
  • 2:30 - 2:33
    están cerrando la brecha
    entre humanos y máquinas.
  • 2:33 - 2:35
    Y humanos y humanos
  • 2:35 - 2:40
    haciendo más conocimiento existente
    accesible para ellos.
  • 2:43 - 2:46
    Ahora, esa es una buena aspiración.
  • 2:46 - 2:48
    ¿Cómo se vería realmente?
  • 2:48 - 2:49
    Se vería como esto.
  • 2:51 - 2:52
    Lo que están viendo aquí
  • 2:52 - 2:58
    es que la mayoría de los elementos
    en Wikidata tienen dos etiquetas,
  • 2:58 - 3:01
    por lo que las etiquetas
    están en dos idiomas.
  • 3:02 - 3:06
    Y después de eso, es uno, y luego tres,
    y luego se pone muy triste.
  • 3:07 - 3:08
    (risa silenciosa)
  • 3:10 - 3:13
    Creo que debemos hacerlo mejor.
  • 3:14 - 3:15
    Pero, por otro lado,
  • 3:15 - 3:17
    en realidad esperaba
    que esto fuera aún peor.
  • 3:17 - 3:19
    Esperaba que el promedio fuera uno.
  • 3:19 - 3:22
    Así que estaba bastante feliz
    de ver dos. (risa)
  • 3:25 - 3:26
    Bien.
  • 3:27 - 3:29
    Pero no solo es interesante saber
  • 3:29 - 3:34
    cuántas etiquetas tienen nuestros
    elementos y propiedades.
  • 3:34 - 3:36
    También es interesante ver en qué idiomas.
  • 3:38 - 3:44
    Aquí pueden ver un gráfico de los idiomas
  • 3:44 - 3:47
    que tienen etiquetas en los elementos.
  • 3:47 - 3:51
    Entonces, la parte más grande es Otros.
  • 3:51 - 3:54
    Así que acabo de tomar
    los 100 idiomas principales
  • 3:54 - 3:59
    y todo lo demás es Otros
    para hacer que este gráfico sea legible.
  • 3:59 - 4:02
    Y luego está el inglés y el holandés,
  • 4:03 - 4:04
    el francés,
  • 4:06 - 4:09
    y, para no olvidar, el asturiano.
  • 4:09 - 4:12
    - (audiencia) ¡Hurra!
    - ¡Yuju! ¡Sí!
  • 4:14 - 4:17
    Entonces, lo que ven aquí
    es un gran desequilibrio
  • 4:17 - 4:20
    y todavía un gran enfoque en el inglés.
  • 4:21 - 4:24
    Otra cosa es que si buscan
    lo mismo en Propiedades,
  • 4:24 - 4:26
    en realidad se ve mejor.
  • 4:27 - 4:33
    Y creo que parte se debe
    a que son menos propiedades.
  • 4:33 - 4:37
    Incluso las comunidades más pequeñas
    podrán mantenerse al día con eso.
  • 4:37 - 4:39
    Pero también es una parte
    bastante importante de Wikidata
  • 4:39 - 4:41
    localizarlo en su idioma.
  • 4:41 - 4:42
    Eso es bueno.
  • 4:46 - 4:48
    Lo que quiero resaltar aquí con asturiano
  • 4:48 - 4:54
    es que una pequeña comunidad
    puede hacer una gran diferencia
  • 4:54 - 4:57
    con un poco de dedicación y trabajo,
  • 4:57 - 4:58
    y eso es realmente genial.
  • 5:02 - 5:03
    Un pequeño cuestionario para ustedes.
  • 5:03 - 5:07
    Si toman todas las propiedades en Wikidata
    que no son identificadores externos,
  • 5:07 - 5:10
    ¿cuál tiene más cantidad de etiquetas,
    como la mayoría de los idiomas?
  • 5:10 - 5:14
    (audiencia) [inaudible]
  • 5:14 - 5:17
    ¿Creen que es la instancia de?
  • 5:17 - 5:19
    De ser así están equivocados.
  • 5:20 - 5:22
    Es imagen. (risas)
  • 5:23 - 5:26
    Sí, eso les dice
    que si hablan uno de los idiomas
  • 5:26 - 5:28
    en los que instancia de
    aún no tiene una etiqueta,
  • 5:28 - 5:30
    quizás quieran agregarla.
  • 5:32 - 5:36
    Tiene 148 etiquetas actualmente.
  • 5:38 - 5:41
    Pero es otra diapositiva.
  • 5:42 - 5:46
    Este gráfico nos dice algo
    sobre la cantidad de contenido
  • 5:46 - 5:49
    que ponemos a disposición
    en un idioma determinado
  • 5:49 - 5:52
    y cuánto de ese contenido
    se usa realmente.
  • 5:52 - 5:55
    Entonces, lo que están viendo
    es básicamente una curva
  • 5:55 - 5:59
    con la mayoría del contenido
    que tiene etiquetas en inglés,
  • 5:59 - 6:04
    disponible en inglés y se usa mucho.
  • 6:04 - 6:06
    Y luego se cae un poco.
  • 6:06 - 6:09
    Pero, de nuevo, lo que pueden ver
    son valores atípicos
  • 6:09 - 6:15
    que tienen mucho más contenido
    del que necesariamente esperarían,
  • 6:17 - 6:19
    y eso es muy muy bueno.
  • 6:20 - 6:25
    El problema aún es que no se usa mucho.
  • 6:25 - 6:29
    Los asturianos y holandeses
    deberían ser más altos,
  • 6:29 - 6:32
    y creo que ayudar a esas comunidades
  • 6:33 - 6:35
    a aumentar el uso
    de los datos que recopilaron
  • 6:35 - 6:38
    es algo realmente útil.
  • 6:43 - 6:47
    Lo que este y otros análisis
    nos mostraron también es algo bueno,
  • 6:47 - 6:51
    estamos viendo
    que los elementos muy usados
  • 6:51 - 6:55
    ​​también tienden a tener más etiquetas
  • 6:55 - 6:58
    o al revés...
    No está del todo claro.
  • 7:02 - 7:04
    Y entonces la pregunta es
  • 7:05 - 7:07
    ¿estamos sirviendo
    solo a los idiomas poderosos?
  • 7:08 - 7:11
    ¿O estamos sirviendo a todos?
  • 7:13 - 7:18
    Y lo que ven aquí
    es una agrupación de idiomas.
  • 7:18 - 7:22
    Los idiomas que se agrupan
    tienden a tener etiquetas juntos.
  • 7:26 - 7:28
    Y los ven agruparse.
  • 7:28 - 7:34
    Ahora aquí hay una agrupación
    similar, coloreada,
  • 7:34 - 7:39
    basada en qué tan vivo, cómo se usa,
  • 7:40 - 7:43
    qué tan en peligro es el idioma.
  • 7:43 - 7:44
    Y lo bueno que están viendo aquí
  • 7:44 - 7:49
    es que los idiomas seguros
    y los idiomas en peligro de extinción
  • 7:49 - 7:54
    no forman dos grupos diferentes.
  • 7:54 - 7:59
    Pero todos están mezclados,
  • 8:00 - 8:04
    lo que es mucho mejor
    de lo que sería al revés
  • 8:04 - 8:09
    donde los idiomas seguros,
    los idiomas poderosos
  • 8:10 - 8:12
    solo se están ayudando mutuamente.
  • 8:13 - 8:14
    No, no es el caso.
  • 8:14 - 8:17
    Y es algo realmente bueno.
  • 8:17 - 8:20
    Cuando vi esto,
    pensé que era muy bueno.
  • 8:23 - 8:25
    Aquí hay algo similar
  • 8:26 - 8:29
    en el que miramos
  • 8:30 - 8:34
    el estado de los idiomas
  • 8:34 - 8:36
    y cuántas etiquetas tiene.
  • 8:39 - 8:43
    Lo que están viendo es una clara victoria
    para los idiomas seguros,
  • 8:43 - 8:44
    como se esperaba.
  • 8:45 - 8:47
    Pero lo que también ven es...
  • 8:49 - 8:54
    que los idiomas en las categorías
    2 y 3 y tal vez incluso 4
  • 8:54 - 8:59
    no son tan malos, en realidad,
  • 8:59 - 9:02
    en términos de su representación
    en Wikidata y otros.
  • 9:03 - 9:06
    Es algo realmente bueno de encontrar.
  • 9:07 - 9:09
    Ahora, si observan lo mismo
  • 9:09 - 9:12
    para saber cuánto
    de ese contenido de esas etiquetas
  • 9:12 - 9:15
    se usa realmente
    en Wikipedia, por ejemplo,
  • 9:17 - 9:22
    entonces vemos una imagen similar
    emergiendo nuevamente.
  • 9:23 - 9:30
    Y nos dice que esas comunidades
    están haciendo un buen uso de su tiempo
  • 9:30 - 9:34
    al completar etiquetas para artículos
    de mayor uso, por ejemplo.
  • 9:36 - 9:40
    Hay valores atípicos
    en los que creo que podemos ayudar
  • 9:42 - 9:48
    a esas comunidades a encontrar un lugar
    donde su trabajo sería más valioso.
  • 9:49 - 9:53
    Pero, en general,
    estoy contenta con esta imagen.
  • 9:55 - 10:00
    Ahora, esa era la parte de elementos
    y propiedades de Wikidata.
  • 10:01 - 10:03
    Ahora, veamos la interacción
    en sus idiomas,
  • 10:03 - 10:05
    la parte de lexema de Wikidata
  • 10:05 - 10:09
    donde describimos palabras
    y sus formas y sus significados.
  • 10:10 - 10:13
    Hemos estado haciendo esto
    desde mayo del año pasado,
  • 10:16 - 10:19
    y el contenido ha ido creciendo.
  • 10:20 - 10:22
    Pueden ver aquí en azul los lexemas,
  • 10:22 - 10:26
    y luego, en rojo,
    las formas en esos lexemas
  • 10:26 - 10:30
    y, amarillo, los sentidos en esos lexemas.
  • 10:31 - 10:34
    Por lo tanto, algunas comunidades,
    lo veremos más adelante,
  • 10:34 - 10:40
    han pasado mucho tiempo creando
    formas y sentidos para sus lexemas,
  • 10:40 - 10:43
    lo cual es realmente útil
  • 10:43 - 10:48
    porque construye el núcleo
    del conjunto de datos que necesitan.
  • 10:50 - 10:55
    Ahora, miramos todos los idiomas
  • 10:55 - 10:58
    que tienen lexemas en Wikidata.
  • 10:58 - 11:01
    Entonces, las palabras que tenemos
  • 11:02 - 11:04
    son ahora 310 idiomas.
  • 11:05 - 11:08
    Ahora, ¿cuál creen
    que es el idioma principal
  • 11:08 - 11:12
    cuando se trata de la cantidad
    de lexemas actualmente en Wikidata?
  • 11:13 - 11:15
    (persona 1) Ruso.
  • 11:19 - 11:22
    - ¿Ah?
    - (persona 2) El alemán.
  • 11:22 - 11:24
    Lo siento, lo había escuchado.
  • 11:24 - 11:25
    Es el ruso.
  • 11:28 - 11:30
    El ruso está bastante por delante.
  • 11:32 - 11:34
    Y solo para darles una perspectiva,
  • 11:35 - 11:37
    hay diferentes opiniones,
  • 11:37 - 11:42
    pero he leído, por ejemplo,
    que 1000 a 3000 palabras
  • 11:42 - 11:45
    te llevan al nivel de conversación,
    aproximadamente, en otro idioma,
  • 11:45 - 11:49
    y ​​4000 a 10 000 palabras
    a un nivel avanzado.
  • 11:51 - 11:55
    Entonces, todavía tenemos
    un poco para alcanzar.
  • 11:58 - 12:03
    Una cosa a la que quiero
    que presten atención es el vasco
  • 12:03 - 12:08
    con 10 000 lexemas, aproximadamente.
  • 12:09 - 12:13
    Ahora, si observa el número
    de formas para esos lexemas,
  • 12:14 - 12:16
    el vasco está muy arriba,
  • 12:18 - 12:20
    lo cual es realmente genial,
  • 12:20 - 12:25
    y deben ir a una charla que explica
    por qué ese es el caso.
  • 12:27 - 12:31
    Si nos fijamos en la cantidad de sentidos,
    en lo qué significan las palabras,
  • 12:32 - 12:35
    el vasco llega
    a la parte superior de la lista.
  • 12:35 - 12:37
    Creo que eso merece un aplauso.
  • 12:37 - 12:39
    (aplausos)
  • 12:46 - 12:47
    Otra pregunta rápida.
  • 12:47 - 12:50
    ¿Cuál es el lexema
    con más traducciones actualmente?
  • 12:50 - 12:55
    (audiencia) Gatos, gatos, [inaudible],
    Douglas Adams, [inaudible]
  • 12:57 - 13:00
    Todas buenas conjeturas, pero no.
  • 13:01 - 13:04
    Es esta, la palabra rusa para "agua".
  • 13:09 - 13:12
    Muy bien, ahora hablamos mucho
  • 13:12 - 13:16
    sobre cuántos lexemas,
    formas y sentidos tenemos,
  • 13:16 - 13:20
    pero eso es solo una cosa que necesitas.
  • 13:20 - 13:25
    La otra cosa que necesitan es describir
    esos lexemas, formas y sentidos
  • 13:25 - 13:27
    de manera legible para una máquina.
  • 13:27 - 13:30
    Y para eso tienen declaraciones,
    por ejemplo, en elementos.
  • 13:31 - 13:36
    Y una de las propiedades
    que utilizan es el Ejemplo de uso.
  • 13:36 - 13:38
    Entonces, quien esté usando esos datos
  • 13:38 - 13:42
    puede entender cómo usar
    esa palabra en contexto,
  • 13:42 - 13:44
    por lo que podría ser una cita,
    por ejemplo.
  • 13:45 - 13:47
    Y aquí, los polacos son geniales.
  • 13:48 - 13:50
    Buen trabajo, hablantes de polaco.
  • 13:54 - 13:58
    Otra propiedad realmente útil es el AFI,
  • 13:58 - 14:00
    ¿cómo se pronuncia esta palabra?
  • 14:01 - 14:07
    Aparentemente, Rusia necesita
    muchas declaraciones del AFI.
  • 14:10 - 14:13
    Pero, de nuevo, polaco, segundo.
  • 14:17 - 14:20
    Y por último, pero no menos importante,
    tenemos audio de pronunciación.
  • 14:20 - 14:23
    Es decir, enlaces a archivos en Commons
  • 14:23 - 14:26
    donde alguien habla la palabra,
  • 14:26 - 14:30
    para que puedan escuchar
    a un hablante nativo pronunciar la palabra
  • 14:30 - 14:33
    en caso de que no sepa leer AFI,
    por ejemplo.
  • 14:35 - 14:39
    Y hay un proyecto realmente
    agradable basado en Wiki
  • 14:39 - 14:40
    llamado Lingua Libre
  • 14:41 - 14:45
    donde pueden ir y ayudar
    a grabar palabras en su idioma
  • 14:45 - 14:48
    que luego se pueden agregar
    a lexemas en Wikidata,
  • 14:48 - 14:52
    para que otras personas puedan entender
    cómo pronunciar sus palabras.
  • 14:54 - 14:55
    (audiencia) [inaudible]
  • 14:55 - 14:57
    Si buscas "Lingua Libre"
  • 14:57 - 15:01
    y estoy segura de que alguien
    puede publicarlo en el canal de Telegram.
  • 15:03 - 15:04
    Esos tipos son geniales.
  • 15:04 - 15:07
    Hicieron cosas realmente
    geniales con Wikibase.
  • 15:09 - 15:10
    Bien.
  • 15:12 - 15:17
    Entonces, la pregunta es
    ¿a dónde vamos desde aquí?
  • 15:19 - 15:21
    Según los números que acabo de mostrar,
  • 15:23 - 15:25
    hemos recorrido un largo camino
  • 15:25 - 15:28
    para dar a más personas
    más acceso a más conocimiento
  • 15:28 - 15:31
    al mirar idiomas en Wikidata.
  • 15:32 - 15:36
    Pero también queda
    mucho trabajo por delante.
  • 15:39 - 15:42
    Algunas de las cosas que pueden hacer
    para ayudar, por ejemplo,
  • 15:42 - 15:45
    es organizar "etiquetatones",
  • 15:45 - 15:50
    reunir a las personas
    para etiquetar elementos en Wikidata
  • 15:51 - 15:55
    o hacer un "editatón"
    alrededor de lexemas en tu idioma
  • 15:55 - 15:59
    para llevar las palabras más utilizadas
    de tu idioma a Wikidata.
  • 16:01 - 16:03
    O pueden usar una herramienta
    como Terminator
  • 16:03 - 16:08
    que les ayuda a encontrar los elementos
    más importantes en su idioma
  • 16:08 - 16:11
    que aún no tienen una etiqueta.
  • 16:13 - 16:18
    Lo más importante se mide
    por la frecuencia con la que se usa
  • 16:18 - 16:22
    en otros elementos de Wikidata
    como enlaces en las declaraciones.
  • 16:26 - 16:30
    Y, por supuesto, para la parte de lexema,
  • 16:31 - 16:35
    ahora que tenemos
    una cobertura básica de esos lexemas,
  • 16:35 - 16:41
    también se trata de construirlos,
    agregarles más declaraciones
  • 16:41 - 16:44
    para que puedan construir la base
  • 16:44 - 16:47
    para aplicaciones significativas
    y construir encima de eso.
  • 16:48 - 16:51
    Debido a que nos estamos acercando
    a esa masa crítica,
  • 16:51 - 16:53
    pero aún estamos lejos de eso,
  • 16:53 - 16:56
    que puede construir
    aplicaciones serias sobre ella.
  • 16:58 - 17:02
    Y espero que todos ustedes
    se unan a nosotros para hacer eso.
  • 17:02 - 17:07
    Y eso me lleva a pedir
  • 17:07 - 17:10
    un poco de ayuda de nuestros amigos.
  • 17:10 - 17:12
    Bruno, ¿quieres venir
  • 17:14 - 17:17
    y hablarnos sobre máscaras léxicas?
  • 17:17 - 17:18
    (Bruno) Gracias, Lydia,
  • 17:18 - 17:21
    gracias por darme
    este breve período de tiempo
  • 17:21 - 17:24
    para presentar este trabajo
    que hacemos en Google con Denny,
  • 17:24 - 17:29
    que la mayoría probablemente
    ha escuchado o sabe.
  • 17:30 - 17:32
    Porque en Google, soy lingüista.
  • 17:32 - 17:36
    Así que estoy muy feliz de estar aquí
    entre otros entusiastas de los idiomas.
  • 17:36 - 17:39
    También estamos
    construyendo algunos léxicos,
  • 17:39 - 17:42
    y hemos construido esta tecnología
  • 17:42 - 17:45
    o este enfoque que creemos
    que puede ser útil para ustedes.
  • 17:46 - 17:48
    Solo para darles un poco de contexto,
  • 17:48 - 17:52
    este es mi contexto lexicográfico
    que habla aquí.
  • 17:52 - 17:54
    Cuando creamos
    una base de datos de léxicos,
  • 17:54 - 17:58
    es muy difícil mantenerlos,
    mantenerlos consistentes
  • 17:58 - 18:00
    e intercambiar datos,
  • 18:00 - 18:02
    como probablemente ya saben.
  • 18:02 - 18:06
    Hay varios intentos de unificar
    la característica y las propiedades
  • 18:06 - 18:09
    que describen esos lexemas y esas formas,
  • 18:09 - 18:11
    no es un problema resuelto,
  • 18:11 - 18:14
    pero hay algunos intentos
    de unificación de ese lado.
  • 18:14 - 18:15
    Pero lo que realmente falta,
  • 18:15 - 18:18
    y este es un problema que tuvimos
    al comienzo de nuestro proyecto en Google
  • 18:18 - 18:21
    es tratar de tener una estructura interna
  • 18:22 - 18:26
    que describa cómo debería ser
    una entrada léxica,
  • 18:26 - 18:28
    qué tipo de datos o qué tipo
    de información tenemos
  • 18:28 - 18:32
    y la especificación que se espera.
  • 18:32 - 18:38
    Entonces, esto es lo que se nos ocurrió
    con esta cosa llamada máscara léxica.
  • 18:39 - 18:45
    Una máscara léxica describe
    lo que se espera de una entrada,
  • 18:45 - 18:47
    para completar una entrada lexicográfica,
  • 18:47 - 18:51
    tanto en términos de la cantidad
    de formas que esperan para un lexema
  • 18:51 - 18:55
    y la cantidad de características
    que esperan para cada forma.
  • 18:56 - 18:58
    Aquí hay un ejemplo
    de adjetivos italianos.
  • 18:58 - 19:02
    En italiano, esperas tener
    cuatro formas para tus adjetivos,
  • 19:02 - 19:05
    y cada una de estas formas
    tiene una combinación específica
  • 19:05 - 19:08
    de características de género y número.
  • 19:08 - 19:13
    Esto es lo que esperamos
    para los adjetivos italianos.
  • 19:13 - 19:16
    Por supuesto, puede tener
    máscaras extremadamente complejas,
  • 19:16 - 19:21
    como la conjugación de verbos franceses,
    que es bastante extensa,
  • 19:21 - 19:25
    y no le muestro ninguna otra máscara rusa
    porque no se ajusta a la pantalla.
  • 19:26 - 19:29
    Y también tenemos algunas
    especificaciones detalladas
  • 19:29 - 19:33
    porque distinguimos
    lo que está al nivel de la forma.
  • 19:33 - 19:37
    Aquí tienes sustantivos rusos
    que tienen tres números
  • 19:37 - 19:40
    y una cantidad de casos
    con diferentes formas,
  • 19:40 - 19:43
    pero también tienen
    una especificación de nivel de entrada
  • 19:43 - 19:45
    que dice que un sustantivo
    particularmente tiene
  • 19:45 - 19:50
    un género inherente y una característica
    de animación inherente
  • 19:50 - 19:52
    que también se especifica en la máscara.
  • 19:54 - 19:59
    También distinguiremos que una máscara
    proporciona una especificación
  • 19:59 - 20:02
    para, en general,
    cómo debería ser una entrada.
  • 20:02 - 20:07
    Pero puede tener máscaras más pequeñas
    para aspectos defectuosos de la forma
  • 20:07 - 20:11
    o aspectos defectuosos del lexema
    que suceden en el idioma.
  • 20:11 - 20:14
    Así que aquí está la versión
    más simple de los verbos franceses
  • 20:14 - 20:20
    que usan solo la 3ra persona del singular
    para todos los verbos meteorológicos,
  • 20:20 - 20:24
    como "llueve" o "nieva", como en inglés.
  • 20:24 - 20:26
    Entonces distinguimos estos dos niveles.
  • 20:27 - 20:30
    Y cómo usamos esto en Google
  • 20:30 - 20:33
    es que, cuando tenemos un léxico
    que queremos usar,
  • 20:33 - 20:38
    usamos la máscara para lanzar
    literalmente los léxicos,
  • 20:38 - 20:40
    todas las entradas, a través de la máscara
  • 20:40 - 20:44
    y ver qué entrada tiene un problema
    en términos de estructura.
  • 20:44 - 20:46
    ¿Nos falta un formulario?
    ¿Nos falta una característica?
  • 20:46 - 20:51
    Y cuando hay un problema,
    hacemos una validación humana
  • 20:51 - 20:54
    o simplemente para ver si pasa la máscara.
  • 20:54 - 20:58
    Es una herramienta muy poderosa
    que verifica la calidad de la estructura.
  • 20:59 - 21:02
    Entonces, lo que nos complace anunciar hoy
  • 21:02 - 21:05
    es que tenemos luz verde
    para liberar el código de nuestra máscara.
  • 21:06 - 21:07
    Este es un esquema.
  • 21:07 - 21:09
    Si lo desean, podemos liberarlo
  • 21:09 - 21:13
    y se lo proporcionaremos a Wikidata
    como archivo ShEx.
  • 21:13 - 21:17
    Este es un archivo ShEx
    para sustantivos alemanes,
  • 21:17 - 21:20
    y Denny está trabajando en la conversión
    de nuestra especificación interna
  • 21:20 - 21:24
    a una especificación de código abierto.
  • 21:24 - 21:27
    Actualmente cubrimos más de 25 idiomas.
  • 21:27 - 21:29
    Así que, esperamos crecer de nuestro lado,
  • 21:29 - 21:34
    pero también buscamos esta oportunidad
    de colaborar para otros idiomas.
  • 21:34 - 21:41
    Y una de las colaboraciones en curso
    también que Denny tiene con Lukas.
  • 21:41 - 21:45
    Lukas tiene estas excelentes herramientas
    para tener una interfaz de usuario
  • 21:45 - 21:51
    que ayude al usuario
    o al contribuyente a agregar más formas.
  • 21:51 - 21:54
    Entonces, si desea agregar
    un adjetivo en francés,
  • 21:54 - 21:59
    la interfaz de usuario les indica
    cuántas formas se esperan
  • 21:59 - 22:01
    y qué tipo de características
    debe tener esta forma.
  • 22:01 - 22:06
    Por lo tanto, nuestra máscara ayudará
    a definir y expandir la herramienta.
  • 22:07 - 22:08
    Eso es todo.
  • 22:09 - 22:10
    (Lydia) Muchas gracias.
  • 22:10 - 22:12
    (aplausos)
  • 22:14 - 22:17
    Bien. ¿Hay preguntas?
  • 22:17 - 22:19
    ¿Quieren que hable más sobre lexemas?
  • 22:20 - 22:21
    - (persona 3) Sí.
    - Sí. (risas)
  • 22:33 - 22:35
    (persona 3) Mi pregunta viene
    porque estabas hablando
  • 22:35 - 22:39
    de dar más acceso
    a más personas en más idiomas.
  • 22:39 - 22:42
    Pero hay muchos idiomas
    que no se pueden usar en Wikidata.
  • 22:42 - 22:44
    Entonces, ¿qué solución tienes para eso?
  • 22:46 - 22:48
    Cuando dices
    que no se puede usar Wikidata,
  • 22:48 - 22:50
    ¿estás hablando de ingresar etiquetas?
  • 22:50 - 22:52
    - (persona 3) Etiquetas, descripciones.
    - Correcto.
  • 22:52 - 22:55
    Entonces, para lexemas,
    es un poco diferente
  • 22:55 - 22:58
    porque no tenemos esa restricción.
  • 22:59 - 23:03
    Para las etiquetas
    de elementos y propiedades,
  • 23:03 - 23:05
    hay algunas restricciones
  • 23:05 - 23:10
    porque queríamos asegurarnos
  • 23:10 - 23:14
    de que no todo el mundo haga de todo
  • 23:14 - 23:17
    y se vuelva inmanejable.
  • 23:19 - 23:23
    Incluso una pequeña comunidad
    que quiera un idioma y trabajar en él,
  • 23:24 - 23:26
    hablen con nosotros, lo haremos realidad.
  • 23:26 - 23:29
    (persona 3) Hicimos eso
    en el Hackathon de Praga en mayo,
  • 23:29 - 23:32
    y nos tomó hasta casi agosto
    para poder usar nuestro idioma.
  • 23:32 - 23:35
    - Sí.
    - (persona 3) Entonces, es muy lento.
  • 23:35 - 23:38
    Sí, desafortunadamente así es.
  • 23:38 - 23:40
    Actualmente trabajamos
    con el Comité de idiomas
  • 23:40 - 23:46
    para resolver algunos fundamentos...
  • 23:49 - 23:55
    como llegar a un acuerdo sobre qué tipo
    de idiomas están realmente "permitidos",
  • 23:56 - 23:59
    y eso ha llevado demasiado tiempo,
  • 24:00 - 24:04
    razón por la cual su solicitud
    tardó más de lo que debería.
  • 24:04 - 24:06
    (persona 3) Gracias.
  • 24:06 - 24:08
    (persona 4) Gracias a ti.
  • 24:08 - 24:11
    Lydia, ¿si recuerdas
    las estadísticas que mostraste,
  • 24:11 - 24:13
    - el número de lexemas por idioma?
    - Sí.
  • 24:13 - 24:17
    Entonces, ¿contaste todas las formas
    como un punto de datos
  • 24:17 - 24:20
    o solo lexemas?
  • 24:21 - 24:23
    (Lydia) ¿Te refieres a esto?
    ¿A cuál te refieres?
  • 24:23 - 24:25
    (persona 4) Sí, exactamente.
  • 24:26 - 24:28
    Si recuerdas, ¿este número [inaudible]
  • 24:28 - 24:32
    todas las formas para todos los lexemas
    o cuántos lexemas hay?
  • 24:32 - 24:35
    - No, solo es el número de lexemas.
    - (persona 4) Solo un número de lexemas.
  • 24:35 - 24:37
    Entonces, es una estadística justa
  • 24:37 - 24:39
    porque si se compilan las formas,
  • 24:39 - 24:40
    es por eso que pregunto,
  • 24:40 - 24:43
    entonces todos los idiomas
    con la morfología flexiva,
  • 24:43 - 24:45
    como el ruso, el serbio,
    el esloveno y otros,
  • 24:45 - 24:47
    tienen una ventaja natural
    porque tienen muchos.
  • 24:47 - 24:52
    Ya comienza por aquí,
    en este número de formas.
  • 24:52 - 24:54
    (persona 4) Sí, fue este. Gracias.
  • 24:56 - 25:00
    (persona 5) Tengo
    una pregunta rápida sobre...
  • 25:00 - 25:07
    Cuando hablamos de los elementos
    y propiedades reales.
  • 25:07 - 25:09
    Por lo que entiendo,
  • 25:09 - 25:12
    actualmente no hay forma
    de dar una fuente real
  • 25:12 - 25:15
    a ninguna de las etiquetas
    y descripciones que se dan.
  • 25:15 - 25:18
    Entonces, por ejemplo,
    porque cuando hablas
  • 25:18 - 25:21
    de la propiedad de un elemento,
  • 25:21 - 25:24
    por ejemplo, puedes tener
    etiquetas en conflicto.
  • 25:24 - 25:26
    Sí.
  • 25:26 - 25:28
    (persona 5) Esta persona es como...
  • 25:28 - 25:31
    Antes hablábamos
    de cosas indígenas, por ejemplo.
  • 25:31 - 25:36
    Esta persona es un artista noruego
    según esta fuente,
  • 25:36 - 25:39
    y un artista sami, según esta fuente.
  • 25:39 - 25:43
    O, por ejemplo, en estonio,
    tuvimos un problema
  • 25:43 - 25:48
    en el que cambiamos la terminología
    a la de uso oficial
  • 25:48 - 25:49
    en los léxicos oficiales,
  • 25:49 - 25:52
    pero no tenemos forma
    de indicar realmente por qué,
  • 25:52 - 25:53
    es decir, cuál fue la fuente
  • 25:53 - 25:55
    y por qué fue mejor y qué había allí antes
  • 25:55 - 25:57
    solo fui yo, una persona cualquiera,
  • 25:57 - 25:59
    simplemente cambiando la cosa
    para cualquiera que lo vea.
  • 25:59 - 26:02
    ¿Hay algún plan para hacer
    esto posible de alguna manera
  • 26:02 - 26:06
    para tener las fuentes adecuadas
    para los datos de un idioma?
  • 26:07 - 26:11
    Entonces, es parcialmente posible.
  • 26:11 - 26:16
    Por ejemplo, cuando tienes
    un elemento para una persona,
  • 26:17 - 26:23
    tienes una declaración,
    nombre, apellido, etc., de esa persona,
  • 26:23 - 26:26
    puedes proporcionar
    la referencia para eso allí.
  • 26:28 - 26:32
    Dudo bastante en agregar más complejidad
  • 26:32 - 26:35
    para las referencias
    en etiquetas y descripciones,
  • 26:35 - 26:38
    pero si la gente realmente piensa
  • 26:38 - 26:45
    que esto no está cubierto
    por ninguna referencia en la declaración,
  • 26:45 - 26:47
    entonces hablemos de ello.
  • 26:49 - 26:53
    Pero me temo que agregará
    mucha complejidad
  • 26:53 - 26:56
    para lo que espero sean pocos casos,
  • 26:57 - 27:00
    pero estoy dispuesta
    a convencerme de lo contrario
  • 27:00 - 27:04
    si la gente realmente se siente
    muy convencida al respecto.
  • 27:04 - 27:08
    (persona 5) Si se agrega, probablemente
    no debería ser la interfaz predeterminada
  • 27:08 - 27:12
    mostrada a los usuarios principiantes,
    en cualquier caso.
  • 27:12 - 27:16
    Más como "Haga clic aquí si necesita
    decir algo específico sobre esto".
  • 27:17 - 27:23
    ¿Tenemos una idea de cuántas veces
    eso realmente importaría?
  • 27:24 - 27:26
    (persona 5) En estonio, por ejemplo,
  • 27:26 - 27:29
    supongo que esto también es cierto
    para otros idiomas,
  • 27:29 - 27:34
    por ejemplo, hay un nombre oficial
    que es la traducción legítima actual,
  • 27:34 - 27:36
    por ejemplo, al inglés,
  • 27:36 - 27:40
    es decir, de un tipo de municipio.
  • 27:40 - 27:42
    Ese fue mi caso de uso, por ejemplo,
  • 27:42 - 27:44
    donde estábamos usando
    la palabra "parish",
  • 27:45 - 27:50
    que en estonio se refería a una especie
    de parroquia de la iglesia,
  • 27:50 - 27:51
    y ese fue el origen,
  • 27:51 - 27:54
    pero esa no es la traducción oficial
    que tiene Estonia en este momento.
  • 27:55 - 27:59
    En este caso, simplemente lo agregaría
    como declaraciones de nombre oficiales
  • 27:59 - 28:01
    y agregaría la referencia allí.
  • 28:02 - 28:03
    (persona 5) Bien.
  • 28:05 - 28:06
    ¿Preguntas? ¿Sí?
  • 28:08 - 28:10
    (Asaf) Tengo dos comentarios rápidos.
  • 28:10 - 28:14
    Llamaste específicamente al asturiano
    como un idioma que funciona bien,
  • 28:14 - 28:16
    y creo que es una observación equívoca.
  • 28:16 - 28:17
    Cuéntame sobre eso.
  • 28:17 - 28:20
    (Asaf) Creo que es solo un bot
  • 28:20 - 28:24
    que pegó nombres de personas,
    como nombres propios,
  • 28:24 - 28:27
    y dijo: "Bueno, esto es exactamente
    como en francés o español",
  • 28:27 - 28:28
    y solo lo copió masivamente.
  • 28:28 - 28:33
    Un punto de evidencia es que
    no se ve esa energía en asturiano
  • 28:33 - 28:37
    en cosas que requieren traducción,
    como nombres de propiedades
  • 28:37 - 28:39
    o nombres de elementos
    que no son nombres propios.
  • 28:39 - 28:41
    Asaf, me rompes el corazón.
  • 28:41 - 28:43
    (Asaf) Lo sé,
    me gusta ser aguafiestas,
  • 28:43 - 28:48
    pero también tengo buenas noticias,
    sobre los números de pronunciación.
  • 28:49 - 28:53
    Probablemente sepan que Commons
    está llena de archivos de pronunciación,
  • 28:53 - 28:55
    y, por ejemplo,
  • 28:55 - 29:01
    el holandés tiene no menos de 300 000
    archivos de pronunciación en Commons
  • 29:02 - 29:05
    que solo necesitan
    ser ingeridos de alguna manera.
  • 29:05 - 29:08
    Si alguien está buscando
    un proyecto paralelo,
  • 29:08 - 29:09
    hay toneladas y toneladas
  • 29:09 - 29:13
    de archivos de pronunciación
    clasificados y categorizados en Commons
  • 29:13 - 29:17
    bajo la categoría Pronunciación
    por idioma.
  • 29:17 - 29:23
    Así que eso está esperando ser emparejado
    con lexemas y ponerse en Lexemas.
  • 29:23 - 29:25
    Y me preguntaba si podrías decir algo
  • 29:25 - 29:26
    sobre la hoja de ruta,
  • 29:26 - 29:29
    algo acerca de cuánta inversión
  • 29:29 - 29:32
    o qué podemos esperar
    de Lexemas en el próximo año,
  • 29:32 - 29:34
    porque, por mi parte, no puedo esperar.
  • 29:35 - 29:37
    ¿No puedes esperar? (risas)
  • 29:37 - 29:39
    - (Asaf) Por más.
    - Sí. (risas)
  • 29:44 - 29:49
    Ahora nos estamos concentrando
    más en Wikibase y la calidad de los datos
  • 29:51 - 29:55
    para ver cuánta tracción obtiene
  • 29:55 - 30:02
    y luego tener más información
    de los puntos débiles
  • 30:02 - 30:06
    y luego volver a mejorar aún más
    los datos lexicográficos.
  • 30:07 - 30:10
    Y una de las cosas
    que me encantaría saber de ustedes
  • 30:10 - 30:14
    es dónde ven exactamente
    los próximos pasos,
  • 30:14 - 30:16
    dónde desean ver mejoras
  • 30:16 - 30:20
    para que luego podamos descubrir
    cómo hacer que suceda.
  • 30:21 - 30:23
    Pero, por supuesto, tienes razón,
  • 30:23 - 30:26
    todavía hay mucho por hacer
    también en el aspecto técnico.
  • 30:30 - 30:36
    (persona 7) Mientras cargábamos
    las palabras vascas con formas y sentidos
  • 30:36 - 30:38
    y ese tipo de cosas,
  • 30:38 - 30:41
    la semana pasada decíamos:
    "Oh, somos los primeros en algo".
  • 30:43 - 30:45
    Aparece en la prensa y dice:
  • 30:45 - 30:49
    "Oh, los vascos son los primeros...
    son los primeros en algo", está bien.
  • 30:49 - 30:50
    (risas)
  • 30:50 - 30:53
    Y luego la gente pregunta:
    "Bien, pero ¿para qué sirve esto?"
  • 30:55 - 30:57
    No tenemos una muy buena respuesta.
  • 30:57 - 30:58
    Es decir, está bien,
  • 30:58 - 31:02
    esto ayudará a las computadoras
    a comprender más nuestro idioma, sí,
  • 31:02 - 31:05
    pero ¿qué tipo de herramientas
    podemos hacer en el futuro?
  • 31:05 - 31:07
    Y no tenemos
    una buena respuesta para esto.
  • 31:07 - 31:10
    Así que no sé si tienes
    una buena respuesta para esto.
  • 31:10 - 31:13
    (risas) No sé si tengo una buena,
  • 31:13 - 31:15
    pero tengo una respuesta.
  • 31:15 - 31:20
    Creo que en este momento, como les decía,
  • 31:20 - 31:22
    no hemos alcanzado esa masa crítica
  • 31:22 - 31:25
    en la que puedes construir muchas
    de las herramientas interesantes.
  • 31:25 - 31:28
    Pero ya hay algunas herramientas.
  • 31:28 - 31:32
    Justo el otro día,
    Esther [Pandelia], por ejemplo,
  • 31:32 - 31:34
    lanzó una herramienta donde pueden ver,
  • 31:36 - 31:39
    creo que fueron las palabras en un globo
  • 31:39 - 31:42
    donde se habla más, de dónde vienen.
  • 31:42 - 31:44
    Puede que me equivoque,
  • 31:44 - 31:46
    pero ella respondió en el chat
    del Proyecto en Wikidata,
  • 31:46 - 31:49
    pueden buscarlo allí.
  • 31:49 - 31:52
    Así que hemos visto
    estas primeras herramientas,
  • 31:52 - 31:56
    tal como las vimos
    cuando comenzó Wikidata.
  • 31:57 - 31:59
    Primero solo era una red
  • 31:59 - 32:03
    y "Oye, mira, hay una cosa
    que se conecta con esta otra cosa".
  • 32:05 - 32:07
    Y a medida que tenemos más datos,
  • 32:07 - 32:10
    y a medida que alcanzamos
    cierta masa crítica,
  • 32:12 - 32:14
    se hacen posibles
    aplicaciones más potentes,
  • 32:15 - 32:17
    como Histropedia,
  • 32:19 - 32:22
    cosas como preguntas y respuestas
  • 32:22 - 32:26
    en tu asistente personal digital,
    Platypus, etc.
  • 32:26 - 32:29
    Y estamos viendo
    algo similar con los lexemas.
  • 32:31 - 32:34
    Estamos en la etapa en la que
    puedes construir así de pequeño
  • 32:34 - 32:37
    y oye, mira, hay una conexión
    entre las dos cosas,
  • 32:38 - 32:43
    y la etapa de traducción de esta palabra
    a ese lenguaje,
  • 32:43 - 32:48
    y a medida que la desarrollamos
    y a medida que describimos más palabras,
  • 32:48 - 32:49
    más se hace posible.
  • 32:49 - 32:52
    Ahora, ¿qué se hace posible?
  • 32:53 - 32:59
    Como Ben, nuestro orador principal,
    al comenzar habló de traducciones,
  • 33:00 - 33:03
    pudiendo traducir de un idioma a otro.
  • 33:03 - 33:08
    Y Jens, mi colega, siempre habla
  • 33:08 - 33:11
    de que la Unión Europea busca un traductor
  • 33:11 - 33:17
    que pueda traducir de...
    creo que fue de maltés al sueco.
  • 33:17 - 33:19
    - (persona 8) Estonio.
    - Estonio.
  • 33:22 - 33:26
    Y esa no es una combinación habitual.
  • 33:27 - 33:32
    Y una vez que estos idiomas estén
    en un lugar que una máquina pueda leer,
  • 33:32 - 33:33
    ustedes podrán hacerlo,
  • 33:33 - 33:37
    podrán tener un diccionario
  • 33:37 - 33:42
    del estonio al maltés y viceversa.
  • 33:43 - 33:45
    Por lo tanto, cubrir combinaciones
    de idiomas en diccionarios
  • 33:45 - 33:48
    que simplemente no se han cubierto antes
  • 33:48 - 33:51
    porque no había suficiente
    demanda, por ejemplo,
  • 33:51 - 33:55
    para que sea financieramente viable
    y para justificar el trabajo.
  • 33:55 - 33:57
    Ahora podemos hacer eso.
  • 34:00 - 34:02
    Luego generación de texto.
  • 34:02 - 34:04
    Lucie estaba hablando
  • 34:04 - 34:10
    de cómo está trabajando
    con Hattie en la generación de texto
  • 34:10 - 34:14
    para iniciar artículos de Wikipedia
    en idiomas minoritarios,
  • 34:15 - 34:19
    y eso necesita datos sobre palabras,
  • 34:19 - 34:22
    y ustedes necesitan entender
    el idioma para hacerlo.
  • 34:23 - 34:28
    Sí, y esos son solo algunos
    que me vienen a la mente justo ahora.
  • 34:29 - 34:31
    Tal vez nuestra audiencia tenga
    más ideas de lo que quieren hacer
  • 34:31 - 34:34
    cuando tengamos todos los datos gloriosos.
  • 34:38 - 34:41
    (persona 9) Me desviaré
    del tema de los lexemas.
  • 34:41 - 34:43
    Haré la pregunta,
  • 34:43 - 34:45
    ¿cómo puedo,
    como miembro de la comunidad,
  • 34:45 - 34:50
    influir en que esa tarea sea prioridad,
  • 34:50 - 34:56
    que un nuevo usuario pueda indicar
    qué idiomas quiere ver y editar
  • 34:56 - 35:01
    sin algún conocimiento secreto
    de plantillas verbales?
  • 35:02 - 35:05
    Quizás exista este año
    esta lista de deseos técnicos
  • 35:05 - 35:07
    sin temas de Wikipedia.
  • 35:07 - 35:10
    Tal vez haya una esperanza
    de que todos podamos votar
  • 35:10 - 35:14
    sobre esto que no arreglamos
    durante siete años.
  • 35:15 - 35:17
    ¿Tienen alguna idea
    o comentario sobre esto?
  • 35:18 - 35:20
    ¿Estás hablando del hecho
  • 35:20 - 35:23
    de que alguien que no
    ha iniciado sesión en Wikidata
  • 35:23 - 35:26
    no puede cambiar su idioma fácilmente?
  • 35:26 - 35:28
    (persona 9) No, para usuarios [inaudibles].
  • 35:28 - 35:31
    Por lo tanto, si inician sesión,
  • 35:31 - 35:35
    pueden cambiar su idioma
    en la parte superior de la página,
  • 35:36 - 35:38
    y luego aparecerá
  • 35:39 - 35:42
    donde están las descripciones
    de las etiquetas [inaudible],
  • 35:42 - 35:43
    y pueden editarlo.
  • 35:45 - 35:49
    (persona 9) Bueno, en realidad,
    muchas veces el flujo de trabajo
  • 35:49 - 35:52
    es que si quieres tener
    varios idiomas, estén disponibles,
  • 35:52 - 35:55
    y no siempre es así.
  • 35:55 - 35:58
    Bien, tal vez deberíamos sentarnos
    después de esta charla y me lo muestras.
  • 36:01 - 36:04
    Genial. ¿Más preguntas?
  • 36:05 - 36:06
    Sí.
  • 36:11 - 36:13
    (persona 10) Gracias por la presentación.
  • 36:14 - 36:15
    ¿Puede comentarnos
  • 36:15 - 36:19
    sobre el estado de la correlación
    con la comunidad de Wiktionary?
  • 36:19 - 36:22
    Hasta donde he visto,
    hubo algunas discusiones
  • 36:22 - 36:26
    sobre la importación
    de algunos elementos del trabajo,
  • 36:26 - 36:31
    pero parece haber problemas de licencia
    y algunos desacuerdos, etc.
  • 36:31 - 36:32
    Correcto.
  • 36:32 - 36:36
    Bueno, las comunidades de Wiktionary
    han pasado mucho tiempo
  • 36:37 - 36:39
    construyendo Wiktionary.
  • 36:39 - 36:42
    Han creado
  • 36:43 - 36:47
    plantillas increíblemente
    complicadas y complejas
  • 36:47 - 36:53
    para crear tablas bonitas que generan
    automáticamente formas para ustedes
  • 36:53 - 36:56
    y todo tipo de cosas
    realmente impresionantes
  • 36:56 - 37:00
    y cosas un poco locas, si lo piensan.
  • 37:02 - 37:08
    Y, por supuesto, han invertido
    mucho tiempo y esfuerzo en eso.
  • 37:09 - 37:12
    Y comprensiblemente,
  • 37:12 - 37:17
    no quieren que simplemente sea tomado,
  • 37:18 - 37:19
    así como así.
  • 37:19 - 37:22
    En parte viene de eso.
  • 37:22 - 37:25
    Y eso está bien, no hay problema.
  • 37:26 - 37:32
    Ahora, las primeras comunidades
    de Wiktionary están hablando de producir
  • 37:32 - 37:34
    e importar algunos
    de sus datos a Wikidata.
  • 37:34 - 37:39
    El ruso, como han visto,
    por ejemplo, es uno de esos casos
  • 37:40 - 37:42
    y espero que suceda más.
  • 37:43 - 37:47
    Pero será un proceso lento,
  • 37:47 - 37:49
    al igual que la adopción
    de los datos de Wikidata en Wikipedia
  • 37:49 - 37:52
    ha sido un proceso bastante lento.
  • 37:53 - 37:56
    Por otro lado, hacer que sea más fácil
  • 37:56 - 37:59
    usar los datos que están en lexemas,
  • 37:59 - 38:02
    en Wiktionary, para que puedan
    hacer uso de eso
  • 38:02 - 38:05
    y compartir datos entre
    los Wiktionarios de los idioma,
  • 38:05 - 38:09
    que es muy difícil
    o imposible en este momento,
  • 38:09 - 38:11
    lo cual es una locura,
    como con Wikipedia.
  • 38:14 - 38:16
    Esperen por el regalo de cumpleaños.
  • 38:20 - 38:21
    Sí.
  • 38:22 - 38:25
    (persona 11) Mientras lo pensaba,
  • 38:25 - 38:28
    no quise decirlo
    porque pensaba que sería supertonto,
  • 38:28 - 38:32
    pero creo que Wiktionary
    ya tiene algo de contenido,
  • 38:32 - 38:35
    y sé que no podemos
    transferirlo a Wikidata
  • 38:35 - 38:37
    porque hay una diferencia
    en las licencias.
  • 38:37 - 38:39
    Pero estaba pensando que tal vez
    podamos hacer algo al respecto.
  • 38:40 - 38:45
    Tal vez, no sé, podemos obtener
    el permiso de las comunidades
  • 38:46 - 38:51
    luego de, no sé,
    tener una votación pública
  • 38:51 - 38:55
    y para que la comunidad,
    los miembros activos de la comunidad
  • 38:55 - 39:02
    voten y digan si desean
    o aceptan transferir el contenido
  • 39:02 - 39:05
    para el que pueden
    hacer los lexemas de Wikidata.
  • 39:06 - 39:08
    Porque creo que es un desperdicio.
  • 39:09 - 39:14
    Por lo tanto, esa es definitivamente
    una conversación que las personas
  • 39:14 - 39:18
    que están en las comunidades de Wiktionary
    son bienvenidas a plantear.
  • 39:18 - 39:24
    Creo que sería un poco presuntuoso
    para nosotros ir y forzar eso.
  • 39:26 - 39:31
    Pero sí, creo que definitivamente
    vale la pena tener una conversación.
  • 39:31 - 39:34
    Pero creo que también
    es importante entender
  • 39:34 - 39:39
    que hay una distinción entre
    lo que está legalmente permitido
  • 39:39 - 39:43
    y lo que deberíamos estar haciendo,
  • 39:43 - 39:45
    y lo que esas personas
    quieren o no quieren.
  • 39:46 - 39:47
    Incluso si está legalmente permitido,
  • 39:47 - 39:50
    si algunas otras comunidades
    de Wiktionary no quieran eso,
  • 39:50 - 39:53
    al menos yo tendría cuidado.
  • 39:59 - 40:02
    Creo que necesitas el micrófono
    para la transmisión.
  • 40:04 - 40:07
    (persona 12) Obviamente,
    todo es muy emocionante,
  • 40:08 - 40:12
    e inmediatamente pienso
    cómo puedo llevar eso a mis estudiantes
  • 40:12 - 40:15
    y cómo puedo incorporarlo a los cursos,
  • 40:15 - 40:18
    el trabajo que estamos haciendo,
    los entornos educativos.
  • 40:18 - 40:22
    Y no tengo, en este momento,
  • 40:22 - 40:24
    en primer lugar, suficiente conocimiento,
  • 40:24 - 40:27
    pero creo que la documentación que tenemos
  • 40:28 - 40:30
    podría ser mejorada.
  • 40:30 - 40:33
    Esa es una especie de solicitud
    para hacer videos geniales
  • 40:33 - 40:36
    que expliquen cómo funciona
  • 40:36 - 40:40
    porque si lo tenemos, podemos usarlo,
  • 40:40 - 40:42
    y podemos tener estudiantes a bordo,
  • 40:42 - 40:47
    y podemos hacer que la gente entienda
    lo increíble que es todo.
  • 40:47 - 40:52
    Y sí, solo piensen en la documentación
    y en la educación, por favor.
  • 40:52 - 40:54
    Porque creo que se podría hacer mucho.
  • 40:54 - 40:58
    Estas son como muchas tareas
    que podrían hacerse incluso con...
  • 41:00 - 41:02
    bueno, no diría escuelas primarias,
  • 41:02 - 41:05
    pero ciertamente, incluso
    estudiantes más jóvenes.
  • 41:06 - 41:11
    Entonces, realmente me gustaría ver
    ese potencial aprovechado
  • 41:11 - 41:15
    y, a partir de ahora, personalmente
    no entiendo lo suficiente
  • 41:15 - 41:19
    como para poder crear
    tareas o crear como...
  • 41:20 - 41:22
    hacer algo práctico con eso.
  • 41:22 - 41:26
    Cualquier ayuda o pensamiento
    que alguien tenga sobre eso,
  • 41:26 - 41:29
    estaría muy feliz de escucharlas también.
  • 41:30 - 41:32
    Sí, hablemos de eso.
  • 41:35 - 41:37
    ¿Más preguntas?
  • 41:38 - 41:39
    Alguien más levantó una mano.
  • 41:39 - 41:40
    Olvidé dónde estaba.
  • 41:46 - 41:50
    (persona 13) Si no podemos
    importar desde Wiktionary,
  • 41:50 - 41:56
    ¿hay algún esfuerzo concertado en hallar
    otras fuentes de dominio público,
  • 41:56 - 41:57
    tal vez todos los datos
  • 41:59 - 42:03
    y algún tipo de filtro previo, organizarlo
  • 42:03 - 42:08
    que sea fácil de revisar y así importarlo?
  • 42:09 - 42:11
    Se han tomado medidas iniciales.
  • 42:11 - 42:15
    Tengo entendido que el vasco
    es uno de esos esfuerzos.
  • 42:15 - 42:17
    ¿Quizás quieras decir
    un poco más al respecto?
  • 42:18 - 42:20
    (persona 7) [inaudible]
  • 42:23 - 42:27
    Bueno, la respuesta real es pagar por eso.
  • 42:28 - 42:33
    Tenemos un acuerdo con un contratista
    con el que usualmente trabajamos.
  • 42:35 - 42:38
    Hacen diccionarios,
  • 42:40 - 42:42
    y muchas cosas, pero hacen diccionarios.
  • 42:43 - 42:47
    Acordamos con ellos para liberar
    el diccionario de los estudiantes,
  • 42:47 - 42:53
    seleccionamos las palabras más comunes
    y comenzaríamos a cargarlo
  • 42:53 - 42:55
    con un identificador externo
    y el esquema de las cosas.
  • 42:58 - 43:02
    Pero hubo una discusión
    acerca de dejarlo en CC0
  • 43:03 - 43:05
    porque tienen el diccionario con CC
  • 43:06 - 43:10
    y entendieron cuál era la diferencia.
  • 43:10 - 43:14
    Entonces hubo una discusión.
  • 43:14 - 43:20
    Pero creo que proporcionaremos algunas
    herramientas o ejemplos en el futuro,
  • 43:20 - 43:24
    y creo que habrán otros diccionarios
    que podamos manejar,
  • 43:24 - 43:29
    y también creo que Wiktionary
    debe comenzar a moverse en esa dirección,
  • 43:29 - 43:32
    pero esa es otra gran discusión.
  • 43:33 - 43:34
    Y además de eso,
  • 43:34 - 43:39
    Lea también está en contacto
    con personas occitanas
  • 43:39 - 43:42
    que trabajan en diccionarios occitanos,
  • 43:42 - 43:45
    y actualmente están trabajando
    en una colaboración de sumerio.
  • 43:51 - 43:53
    ¿Más preguntas?
  • 44:01 - 44:05
    (persona 14) ¡Hola! Somos las personas
    que queremos importar datos occitanos.
  • 44:05 - 44:06
    ¡Ajá! ¡Perfecto!
  • 44:06 - 44:08
    (persona 14) Y tenemos
    un pequeño problema.
  • 44:09 - 44:14
    No sabemos cómo representar
    la variedad de todos los lexemas.
  • 44:14 - 44:18
    Tenemos seis dialectos
  • 44:18 - 44:24
    y queremos indicarle a Lexemas
    en qué dialecto se usa
  • 44:24 - 44:27
    y no tenemos una declaración C0
    adecuada para hacerlo.
  • 44:27 - 44:31
    Por lo tanto,
    mientras la declaración no exista,
  • 44:31 - 44:34
    nos impide impulsarlo
  • 44:34 - 44:37
    porque tendremos que volver a hacerlo
  • 44:37 - 44:42
    cuando podamos [sacar provecho]
    a la declaración.
  • 44:42 - 44:44
    Y es complicado porque es una declaración
  • 44:44 - 44:48
    que muchas personas no pedirán
  • 44:48 - 44:53
    porque es una declaración que se refiere
    principalmente a los idiomas minoritarios.
  • 44:53 - 44:57
    Tendrás una sola persona que lo pida,
  • 44:57 - 45:00
    pero, como nuestros colegas vascos,
  • 45:00 - 45:06
    puede ser una persona
    que impulsará a miles de otros,
  • 45:06 - 45:11
    por lo que puede que no se pida mucho,
  • 45:11 - 45:14
    pero será muy importante para nosotros.
  • 45:15 - 45:17
    ¿Ya tienen una nueva
    propuesta de propiedad
  • 45:17 - 45:19
    o necesitan ayuda para crearla?
  • 45:21 - 45:24
    (persona 14) La solicitamos
    hace cuatro meses.
  • 45:25 - 45:29
    Entonces hagamos que algunas personas
    ayuden con esta propuesta de propiedad.
  • 45:30 - 45:33
    Estoy seguro de que hay suficientes
    personas en esta sala para que suceda.
  • 45:33 - 45:36
    (persona 15) Propuesta de propiedad
    [hablando en francés].
  • 45:36 - 45:36
    (persona 16) No tuvimos respuesta.
  • 45:36 - 45:40
    (persona 14) No tuvimos respuesta,
    y no sabemos cómo hacerlo
  • 45:40 - 45:43
    porque no estamos
    en la comunidad de Wikidata.
  • 45:45 - 45:49
    Sí, así que hay personas aquí
    que pueden ayudarte.
  • 45:49 - 45:52
    Quizás alguien
    levante la mano para tomar...
  • 45:52 - 45:53
    (persona 7) Estoy para eso.
  • 45:53 - 45:55
    Pero creo que esto
    es bastante interesante
  • 45:55 - 45:59
    no solo por la variante de forma
  • 45:59 - 46:02
    también puede manejarse geográficamente,
  • 46:02 - 46:05
    con coordenadas o algún tipo de mapeo.
  • 46:05 - 46:08
    También tener diferentes pronunciaciones,
  • 46:08 - 46:12
    y creo que esto es algo
    que sucede en muchos idiomas.
  • 46:12 - 46:16
    Deberíamos comenzar
    a hacer que suceda [inaudible],
  • 46:16 - 46:19
    y voy a buscar la propiedad.
  • 46:20 - 46:21
    Genial.
  • 46:21 - 46:24
    Entonces obtendrás respaldo
    para tu propuesta de propiedad.
  • 46:26 - 46:27
    Gracias.
  • 46:28 - 46:30
    Muy bien, ¿más preguntas?
  • 46:32 - 46:34
    Finn.
  • 46:34 - 46:35
    Finn es una de esas personas
  • 46:35 - 46:37
    que construye cosas
    sobre datos lexicográficos.
  • 46:37 - 46:40
    (Finn) Es solo una pequeña pregunta,
  • 46:40 - 46:44
    y se trata de variaciones ortográficas.
  • 46:45 - 46:48
    Parece difícil ponerlos en...
  • 46:48 - 46:53
    Podría, por supuesto, tener múltiples
    formas para la misma palabra.
  • 46:56 - 46:58
    No sé, parece que
  • 46:59 - 47:03
    si no lo haces así
    parece ser difícil de especificar...
  • 47:05 - 47:06
    o no sé
  • 47:06 - 47:10
    si esto es solo un problema
    técnico menor o si...
  • 47:10 - 47:11
    Veámoslo juntos.
  • 47:11 - 47:15
    Me encantaría ver un ejemplo.
  • 47:17 - 47:18
    Asaf.
  • 47:27 - 47:28
    (Asaf) Gracias.
  • 47:29 - 47:34
    Puedo dar un ejemplo muy concreto
    de mi lengua materna, el hebreo.
  • 47:34 - 47:39
    El hebreo tiene dos variantes principales
  • 47:39 - 47:43
    para expresar casi todas las palabras
  • 47:43 - 47:47
    porque la ortografía tradicional
  • 47:47 - 47:50
    omite muchas de las vocales.
  • 47:51 - 47:55
    Y, por lo tanto, en las ediciones
    modernas de la Biblia y de la poesía,
  • 47:55 - 47:57
    se usan diacríticos.
  • 47:57 - 48:03
    Sin embargo, esos signos diacríticos
    nunca se usan para la prosa moderna
  • 48:03 - 48:06
    o la escritura de periódicos
    o letreros de la calle.
  • 48:06 - 48:11
    El uso informal diario promedio
    pone vocales adicionales
  • 48:12 - 48:13
    y no usa los signos diacríticos
  • 48:13 - 48:15
    porque son, por supuesto, más engorrosos
  • 48:15 - 48:18
    y tienen todo tipo de reglas
    y nadie las conoce.
  • 48:18 - 48:20
    Entonces, básicamente hay dos variantes.
  • 48:20 - 48:25
    Existe la variante
    de la prosa informal cotidiana,
  • 48:25 - 48:28
    y está la Biblia o la poesía,
  • 48:28 - 48:32
    que siempre viene
    en este texto diacrítico tradicional.
  • 48:32 - 48:33
    Para ser útil,
  • 48:33 - 48:37
    Lexema tendría que reconocer
    ambas variedades de cada palabra
  • 48:37 - 48:40
    y cada forma de cada palabra.
  • 48:41 - 48:43
    Es un caso de uso muy completo
  • 48:43 - 48:46
    para las variantes estables oficiales.
  • 48:46 - 48:49
    No es dialecto, no son regiones,
  • 48:49 - 48:53
    son básicamente dos sistemas
    morfológicos coexistentes.
  • 48:54 - 48:59
    Y tampoco sé exactamente
    cómo expresarlo en Lexema,
  • 48:59 - 49:03
    cosa que me impide responder
    parcialmente a la pregunta de Magnus
  • 49:03 - 49:05
    de subir las partes que están listas
  • 49:05 - 49:09
    del mayor diccionario hebreo,
    que es de dominio público
  • 49:09 - 49:13
    y que he estado digitalizando
    durante varios años.
  • 49:13 - 49:15
    Una buena parte está lista,
  • 49:15 - 49:16
    pero no la pongo en Lexema en este momento
  • 49:16 - 49:20
    porque no sé exactamente
    cómo resolver este problema.
  • 49:20 - 49:23
    Muy bien, solucionemos
    este problema aquí. (risas)
  • 49:24 - 49:26
    Eso tiene que ser posible.
  • 49:30 - 49:32
    Muy bien, ¿más preguntas?
  • 49:37 - 49:39
    Si no, muchas gracias.
  • 49:40 - 49:45
    (aplausos)
Title:
cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4
Video Language:
English
Duration:
49:51

Spanish subtitles

Revisions