Return to Video

cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

  • 0:06 - 0:09
    Se hablan aproximadamente
    7.500 idiomas
  • 0:09 - 0:11
    en el planeta hoy en día.
  • 0:12 - 0:14
    De esos, se estima
  • 0:14 - 0:18
    que el 70 % corre peligro
    de no sobrevivir
  • 0:18 - 0:20
    al fin del siglo XXI.
  • 0:22 - 0:24
    Cada vez que muere un idioma,
  • 0:25 - 0:27
    se corta una conexión,
  • 0:27 - 0:31
    que ha durado desde cientos
    hasta miles de años,
  • 0:31 - 0:35
    a la cultura, a la historia
  • 0:35 - 0:38
    a las tradiciones y al conocimiento.
  • 0:39 - 0:42
    El lingüista Kenneth Hale dijo
  • 0:42 - 0:44
    que cada vez que muere un idioma,
  • 0:44 - 0:47
    es como arrojar una bomba atómica
    en el Louvre.
  • 0:49 - 0:52
    Entonces, la pregunta es:
  • 0:53 - 0:55
    ¿por qué mueren los idiomas?
  • 0:56 - 1:00
    Bien, quizás la respuesta simple sería
  • 1:00 - 1:03
    que se podría pensar
    que los gobiernos autoritarios
  • 1:03 - 1:05
    impiden que las personas hablen
    su lengua nativa,
  • 1:06 - 1:10
    castigan a los niños por hablar
    su idioma en la escuela
  • 1:10 - 1:13
    o el gobierno cierra
    las estaciones de radio
  • 1:13 - 1:15
    de la lengua minoritaria.
  • 1:15 - 1:17
    Y esto ha ocurrido en el pasado,
  • 1:17 - 1:19
    y aún ocurre hoy en día
    hasta cierto punto.
  • 1:20 - 1:23
    Pero la respuesta honesta
  • 1:23 - 1:27
    es que en la mayoría de los casos
    de la extinción de una lengua,
  • 1:27 - 1:29
    es una respuesta mucho más simple
  • 1:29 - 1:33
    y más fácil de explicar.
  • 1:34 - 1:36
    Los idiomas se extinguen
  • 1:36 - 1:38
    porque no se transmiten
  • 1:38 - 1:40
    de una generación a la siguiente.
  • 1:42 - 1:44
    Cada vez que una persona que habla
  • 1:44 - 1:46
    un idioma minoritario tiene un hijo,
  • 1:47 - 1:50
    realiza un cálculo.
  • 1:51 - 1:53
    Se pregunta:
  • 1:54 - 1:56
    "¿Le enseño mi idioma a mi hijo
  • 1:57 - 2:01
    o le enseño solo el idioma mayoritario?".
  • 2:01 - 2:03
    Básicamente, hay una balanza
  • 2:04 - 2:06
    a la que accede en su mente,
  • 2:07 - 2:08
    en la que de un lado
  • 2:10 - 2:12
    cada vez en su vida
  • 2:12 - 2:14
    que tuvo la oportunidad
    de usar su lengua nativa
  • 2:15 - 2:18
    para comunicarse,
    para acceder a la cultura tradicional,
  • 2:20 - 2:22
    se coloca una piedra en el lado izquierdo.
  • 2:22 - 2:24
    Y cada vez que resulta
  • 2:24 - 2:26
    que no puede usar su lengua nativa
  • 2:26 - 2:28
    y debe depender del idioma mayoritario,
  • 2:28 - 2:30
    se coloca una piedra en el lado derecho.
  • 2:32 - 2:35
    Debido a la fortaleza y a la dignidad
  • 2:35 - 2:37
    de poder hablar la lengua materna propia,
  • 2:37 - 2:39
    las piedras de la izquierda
    suelen ser más pesadas.
  • 2:39 - 2:42
    Pero con suficientes piedras
    en el lado derecho,
  • 2:43 - 2:45
    entonces al final la balanza se inclina,
  • 2:45 - 2:47
    y entonces cuando una persona
    toma la decisión
  • 2:47 - 2:49
    de transmitir su idioma,
  • 2:49 - 2:51
    ven a su propia lengua
  • 2:51 - 2:53
    como una carga en lugar de una bendición.
  • 2:55 - 2:59
    Entonces, la pregunta es:
    ¿cómo revertimos esto?
  • 2:59 - 3:02
    Primero, debemos pensar en el hecho
  • 3:04 - 3:05
    de que, para cualquier idioma,
  • 3:05 - 3:08
    existen ciertas esferas sociales
    en las que se puede usar.
  • 3:08 - 3:09
    Entonces, cualquier idioma
  • 3:09 - 3:11
    que es una lengua materna
    hablada hoy en día
  • 3:11 - 3:13
    se puede usar con la familia propia.
  • 3:14 - 3:17
    Un conjunto menor de idiomas
    se pueden usar con la comunidad,
  • 3:17 - 3:19
    un conjunto menor,
    quizás dentro de una región,
  • 3:19 - 3:22
    y un puñado menor de lenguas,
  • 3:23 - 3:24
    se pueden usar
    para la comunicación internacional.
  • 3:26 - 3:29
    E incluso a través de estas esferas,
  • 3:29 - 3:32
    existe la pregunta:
    ¿puede alguien usar su idioma
  • 3:32 - 3:36
    con el objetivo de la educación,
    los negocios
  • 3:36 - 3:38
    o en la tecnología?
  • 3:39 - 3:42
    Entonces, para explicar mejor
  • 3:43 - 3:45
    lo que estoy diciendo aquí,
  • 3:45 - 3:46
    quisiera usar una anécdota.
  • 3:48 - 3:50
    Digamos que está a punto de irse
  • 3:50 - 3:52
    a sus vacaciones soñadas en India,
  • 3:53 - 3:56
    y tiene una escala de ocho horas
    en Estambul.
  • 3:57 - 4:01
    No planeaba visitar Turquía
    necesariamente,
  • 4:01 - 4:04
    pero con la escala y un amigo turco
  • 4:04 - 4:06
    que le habla de un restaurante increíble
  • 4:06 - 4:07
    que no está lejos del aeropuerto,
  • 4:08 - 4:11
    dice: "Quizás iré durante la escala".
  • 4:11 - 4:13
    Entonces, sale del aeropuerto,
  • 4:14 - 4:15
    llega al restaurante,
  • 4:15 - 4:17
    le dan un menú
  • 4:17 - 4:19
    y este menú está completamente en turco.
  • 4:20 - 4:23
    Ahora, supongamos,
    por la idea de este ejercicio,
  • 4:23 - 4:24
    que no habla turco.
  • 4:25 - 4:27
    ¿Qué hace?
  • 4:28 - 4:30
    Bien, en el mejor de los casos,
  • 4:30 - 4:32
    encuentra a alguien que hable
    su idioma nativo,
  • 4:32 - 4:34
    alemán, inglés, etc.
  • 4:36 - 4:38
    Pero, supongamos
    que no es su día de suerte
  • 4:38 - 4:41
    y nadie en el restaurante habla
    alemán ni inglés.
  • 4:42 - 4:43
    ¿Qué hace?
  • 4:43 - 4:46
    Si es como yo,
    e imagino que la mayoría lo es,
  • 4:46 - 4:48
    probablemente irá
    a una solución tecnológica,
  • 4:50 - 4:52
    la traducción automática
    o un diccionario digital,
  • 4:53 - 4:54
    busca cada palabra individualmente
  • 4:54 - 4:58
    y al final pide
    una comida turca deliciosa.
  • 5:00 - 5:03
    Ahora, imaginemos este escenario
  • 5:04 - 5:06
    en donde es hablante nativo
    de una lengua minoritaria.
  • 5:07 - 5:09
    Por ejemplo, el bajo sorabo.
  • 5:09 - 5:11
    El bajo sorabo es una lengua en extinción
  • 5:11 - 5:12
    que se habla aquí en Alemania,
  • 5:12 - 5:17
    a unos 130 kilómetros al sureste de aquí,
  • 5:18 - 5:21
    y solo la hablan pocos miles de personas,
    mayormente ancianos.
  • 5:23 - 5:25
    Supongamos que su lengua nativa
    es el bajo sorabo.
  • 5:25 - 5:27
    Llega al restaurante.
  • 5:27 - 5:28
    La probabilidad de encontrar a alguien
  • 5:28 - 5:31
    que hable su lengua nativa
    en el restaurante es muy baja.
  • 5:32 - 5:36
    Pero, de nuevo, puede usar
    una solución tecnológica.
  • 5:37 - 5:39
    Sin embargo, para su idioma nativo,
  • 5:39 - 5:42
    estas soluciones tecnológicas no existen.
  • 5:42 - 5:45
    Debería depender del alemán o el inglés
  • 5:45 - 5:47
    como lenguaje de pivote hacia el turco.
  • 5:49 - 5:52
    También podría terminar
    consiguiendo su comida turca deliciosa,
  • 5:52 - 5:55
    pero comienza a pensar
    lo difícil que hubiera sido
  • 5:55 - 5:57
    si fuera su abuelo,
    que no hablaba alemán para nada.
  • 5:58 - 6:00
    Este es solo un pequeño incidente,
  • 6:00 - 6:05
    pero colocará una piedra
    en el lado derecho de la balanza,
  • 6:05 - 6:07
    y quizás le haga pensar
  • 6:07 - 6:10
    que cuando tenga hijos
    o cuando tenga otro hijo,
  • 6:11 - 6:15
    la carga que soportó
  • 6:15 - 6:17
    podría no valer la pena
    para conservar su idioma.
  • 6:19 - 6:21
    E imagine si este fuera un escenario
  • 6:21 - 6:26
    con importancia más significativa,
  • 6:26 - 6:28
    como, por ejemplo, estar en un hospital.
  • 6:31 - 6:36
    Este es el punto en donde podemos ayudar,
  • 6:37 - 6:40
    me refiero a que ustedes en esta sala
    y yo podemos ayudar.
  • 6:41 - 6:43
    Tenemos las herramientas para ayudar.
  • 6:45 - 6:47
    Si las herramientas tecnológicas
    están disponibles
  • 6:47 - 6:49
    para quienes hablan idiomas
    minoritarios y marginados,
  • 6:51 - 6:54
    coloca un dedo
    en el lado izquierdo de la balanza.
  • 6:54 - 6:56
    Alguien no debe pensar necesariamente
  • 6:56 - 6:58
    que deben depender
    de un idioma minoritario
  • 6:58 - 6:59
    para interactuar con el mundo exterior,
  • 7:00 - 7:05
    porque abre las esferas sociales
  • 7:05 - 7:06
    un poco más.
  • 7:08 - 7:10
    Por supuesto, la solución ideal
  • 7:10 - 7:13
    es tener traducción automática
    en todos los idiomas del mundo.
  • 7:13 - 7:17
    Pero, lamentablemente, no es factible.
  • 7:17 - 7:20
    La traducción automática
    requiere un gran corpus de texto,
  • 7:20 - 7:21
    y para muchos de estos idiomas
  • 7:21 - 7:23
    que están en extinción o marginados,
  • 7:23 - 7:25
    estos datos no están disponibles.
  • 7:26 - 7:28
    Algunos ni siquiera se escriben
    comúnmente,
  • 7:29 - 7:33
    entonces, conseguir suficientes datos
    y crear un motor de traducción automática
  • 7:33 - 7:34
    es poco probable.
  • 7:34 - 7:38
    Pero lo que sí está disponible
    son los datos léxicos.
  • 7:40 - 7:43
    Mediante el trabajo de muchos lingüistas
  • 7:43 - 7:45
    a lo largo de los últimos cien años,
  • 7:48 - 7:50
    se han producido diccionarios y manuales
  • 7:50 - 7:52
    para la mayoría de los idiomas del mundo.
  • 7:54 - 7:57
    Pero, lamentablemente,
    la mayoría de estas obras
  • 7:57 - 8:01
    no son accesibles o no están disponibles
    para el mundo,
  • 8:01 - 8:04
    y menos para hablantes
    de los idiomas minoritarios.
  • 8:05 - 8:06
    Y no es un proceso intencional,
  • 8:06 - 8:08
    muchas veces es solo porque
  • 8:08 - 8:11
    la primera edición de estos diccionarios
    era pequeña,
  • 8:11 - 8:13
    y las únicas copias
  • 8:13 - 8:16
    se están pudriendo en la biblioteca
    de alguna universidad.
  • 8:18 - 8:21
    Pero tenemos la capacidad
    de tomar esa información
  • 8:21 - 8:23
    y hacerla accesible para el mundo.
  • 8:24 - 8:28
    La Fundación Wikimedia es
    una de las mejores organizaciones,
  • 8:28 - 8:31
    yo diría que es la mejor organización
    de todo el mundo,
  • 8:31 - 8:33
    para proporcionar datos
  • 8:33 - 8:37
    a la mayoría de la población del planeta.
  • 8:39 - 8:40
    Entonces, trabajemos en eso.
  • 8:41 - 8:43
    Para explicar un poco más
  • 8:43 - 8:45
    lo que hemos estado haciendo al respecto,
  • 8:45 - 8:48
    quisiera presentar a mi organización,
    PanLex,
  • 8:49 - 8:52
    que es una organización que intenta
  • 8:52 - 8:54
    recolectar datos léxicos
    para este propósito.
  • 8:55 - 8:57
    Empezamos hace 12 años
  • 8:57 - 9:00
    en la Universidad de Washington,
    como un proyecto de investigación.
  • 9:00 - 9:01
    La idea detrás
  • 9:01 - 9:04
    era mostrar que las traducciones inferidas
  • 9:04 - 9:07
    podían crear un dispositivo
    de traducción efectivo,
  • 9:07 - 9:09
    básicamente, un dispositivo
    de traducción léxico.
  • 9:09 - 9:12
    Este es un ejemplo de los datos de PanLex.
  • 9:13 - 9:14
    Muestra cómo traducir
  • 9:14 - 9:18
    la palabra turca "ev", que significa casa,
  • 9:18 - 9:20
    a bajo sorabo,
  • 9:20 - 9:21
    el idioma que mencioné antes.
  • 9:21 - 9:23
    Es poco probable encontrar
  • 9:24 - 9:26
    diccionarios de turco-bajo sorabo,
  • 9:26 - 9:28
    pero al pasarla por medio
  • 9:28 - 9:30
    de muchos idiomas intermedios diferentes,
  • 9:30 - 9:33
    se puede crear traducciones efectivas.
  • 9:34 - 9:37
    Una vez que se demostró esto
    en los proyectos de investigación,
  • 9:37 - 9:40
    el fundador de PanLex,
    el Dr. Jonathan Pool,
  • 9:41 - 9:44
    decidió: "¿Por qué no hacemos esto?".
  • 9:44 - 9:45
    Entonces, comenzó una ONG
  • 9:45 - 9:49
    para recolectar todos los datos léxicos
    posibles y hacerlos accesibles.
  • 9:49 - 9:51
    Eso es lo que hemos hecho
    en los últimos 12 años.
  • 9:51 - 9:55
    En ese tiempo, recolectamos
    miles y miles de diccionarios,
  • 9:55 - 9:56
    extrajimos la información léxica
  • 9:56 - 10:01
    y compilamos una base de datos
    que permite la traducción léxica inferida
  • 10:01 - 10:04
    entre cualquiera de...
  • 10:04 - 10:06
    Nuestro conteo actual
    es alrededor de 5.500
  • 10:06 - 10:08
    de los 7.500 idiomas del mundo.
  • 10:09 - 10:11
    Y, desde luego,
  • 10:11 - 10:12
    intentamos constantemente expandir eso
  • 10:12 - 10:15
    y aumentar los datos
    sobre cada idioma individual.
  • 10:17 - 10:21
    Entonces, la siguiente pregunta es:
  • 10:22 - 10:26
    ¿qué podemos hacer
    para trabajar juntos en esto?
  • 10:27 - 10:29
    En PanLex, hemos observado
    con mucha emoción
  • 10:29 - 10:31
    el desarrollo sobre la información léxica,
  • 10:31 - 10:34
    en lo que Wikidata ha trabajado
    últimamente.
  • 10:35 - 10:38
    Es fascinante ver que las organizaciones
  • 10:38 - 10:39
    están trabajando
    en una esfera muy similar,
  • 10:39 - 10:41
    pero en aspectos diferentes.
  • 10:42 - 10:44
    Y estamos muy emocionados por ver
  • 10:45 - 10:46
    los resultados de Wikidata.
  • 10:46 - 10:51
    Además, tenemos ganas
    de colaborar con Wikidata.
  • 10:54 - 10:56
    Creo que las capacidades especiales
  • 10:56 - 10:58
    que desarrollamos en los últimos 12 años,
  • 10:58 - 11:02
    no solo al recolectar datos léxicos,
    sino en el diseño de bases de datos,
  • 11:02 - 11:04
    podrían ser extremadamente útiles
    para Wikidata.
  • 11:04 - 11:07
    Por otra parte, creo que...
  • 11:08 - 11:11
    En especial, me emociona la capacidad
  • 11:12 - 11:15
    de Wikidata para crear datos
    de colaboración abierta.
  • 11:15 - 11:18
    Actualmente, los recursos de PanLex son
  • 11:18 - 11:21
    recursos léxicos impresos
    u otra clase de recursos léxicos,
  • 11:21 - 11:23
    pero no hay una colaboración abierta.
  • 11:23 - 11:25
    Simplemente, no tenemos la infraestructura
  • 11:25 - 11:27
    y, por supuesto, la Fundación Wikimedia
  • 11:27 - 11:29
    es la experta mundial
    de la colaboración abierta.
  • 11:32 - 11:34
    Espero con ansias ver exactamente
  • 11:34 - 11:36
    cómo podemos unir estas habilidades.
  • 11:39 - 11:42
    Pero, en general, creo que lo principal
    que debemos considerar
  • 11:42 - 11:43
    cuando trabajábamos en estas cosas
  • 11:43 - 11:45
    es el detalle.
  • 11:45 - 11:48
    Estamos de brazos cruzados,
    mirando formas gramaticales
  • 11:48 - 11:52
    o pasando hojas de diccionarios antiguos
  • 11:52 - 11:54
    o, a veces, de diccionarios
    publicados recientemente
  • 11:54 - 11:57
    y transformándolos en palabras
    de forma escrita,
  • 11:57 - 12:00
    y se siente muy íntimo.
  • 12:00 - 12:02
    Pero, ocasionalmente, debemos recordar
  • 12:02 - 12:03
    retroceder un paso
  • 12:03 - 12:05
    con respecto a que, aunque lo que hacemos
  • 12:06 - 12:09
    se sienta mundano a veces,
  • 12:10 - 12:12
    el trabajo que hacemos es muy importante.
  • 12:13 - 12:16
    En mi opinión, esta es la mejor manera
  • 12:16 - 12:19
    de apoyar a los idiomas en extinción
  • 12:19 - 12:21
    y asegurarnos de que la diversidad
    lingüística del planeta
  • 12:21 - 12:26
    se preserve hasta el final
    de este siglo o más.
  • 12:26 - 12:30
    Es completamente posible que el trabajo
    que hacemos hoy
  • 12:30 - 12:33
    resulte en que los idiomas
  • 12:33 - 12:35
    se preserven y se transmitan
  • 12:35 - 12:37
    y que no se extingan.
  • 12:39 - 12:41
    Entonces, recuerden
  • 12:41 - 12:43
    que incluso si se está
    sentado en la computadora
  • 12:43 - 12:44
    editando una entrada individual
  • 12:44 - 12:50
    y agregando los datos
    de un idioma minoritario
  • 12:50 - 12:52
    para cada sustantivo,
  • 12:52 - 12:55
    esa pequeña cosa que hace ahora mismo,
  • 12:55 - 12:58
    podría ser responsable, en parte,
  • 12:58 - 12:59
    de que esa lengua sobreviva,
  • 12:59 - 13:01
    hasta el final del siglo o más.
  • 13:03 - 13:04
    Muchas gracias,
  • 13:04 - 13:06
    y quiero invitarlos a que hagan preguntas.
  • 13:06 - 13:08
    (aplausos)
  • 13:24 - 13:25
    (persona 1) Gracias.
  • 13:25 - 13:27
    - Gracias por su charla.
    - Gracias.
  • 13:27 - 13:29
    (persona 1) Tengo una pregunta
    sobre los diccionarios.
  • 13:29 - 13:31
    ¿Dijo que trabajan
    con diccionarios impresos?
  • 13:31 - 13:32
    - Sí.
    - (mujer 1) Mi pregunta
  • 13:32 - 13:35
    es: ¿qué sacan de estos diccionarios
  • 13:35 - 13:38
    y si deben lidiar
    con los derechos de autor?
  • 13:38 - 13:41
    Esperaba que fuera la primera pregunta
    que me harían.
  • 13:41 - 13:43
    (risas)
  • 13:43 - 13:46
    En primer lugar, para PanLex,
  • 13:46 - 13:50
    tenemos, según los recursos legales
    que hemos consultado...
  • 13:53 - 13:57
    Mientras que el arreglo y la organización
    de un diccionario tiene derechos de autor,
  • 13:57 - 14:03
    la traducción en sí misma
    no se considera sujeta a esto.
  • 14:04 - 14:06
    Un buen ejemplo es, por ejemplo,
  • 14:06 - 14:11
    una guía telefónica se considera,
    al menos en la ley estadounidense,
  • 14:11 - 14:12
    con derechos de autor.
  • 14:12 - 14:17
    Pero decir que el teléfono
    de tal persona es tal número
  • 14:17 - 14:18
    no está sujeto a derechos de autor.
  • 14:22 - 14:23
    Entonces, como dije,
  • 14:23 - 14:25
    según nuestros académicos jurídicos,
  • 14:25 - 14:27
    así es cómo lidiamos con esto.
  • 14:27 - 14:31
    Pero incluso si esto no es
    un argumento legal sólido,
  • 14:31 - 14:32
    algo importante a recordar
  • 14:32 - 14:38
    es que la mayoría de estos datos léxicos
  • 14:39 - 14:41
    no tienen derechos de autor.
  • 14:41 - 14:43
    Una cifra importante
    de estos no tienen derechos de autor,
  • 14:43 - 14:44
    entonces se pueden usar.
  • 14:44 - 14:47
    Y, por otro lado, a veces, por ejemplo,
  • 14:47 - 14:50
    si trabajamos con un diccionario
    impreso recientemente,
  • 14:50 - 14:52
    en vez de intentar escanearlo
    y hacerlo OCR,
  • 14:52 - 14:53
    le mandamos un email
    a la persona que lo hizo.
  • 14:53 - 14:58
    Y resulta que a la mayoría
    de los lingüistas les emociona
  • 14:58 - 15:00
    que sus datos se hagan accesibles.
  • 15:00 - 15:01
    Entonces dicen: "Claro, por favor,
  • 15:01 - 15:03
    inclúyanlo todo y háganlo accesible".
  • 15:06 - 15:08
    Como dije, tenemos, al menos,
    según nuestras opiniones legales,
  • 15:08 - 15:09
    tenemos la capacidad,
  • 15:09 - 15:11
    pero incluso si no se quiere hacer eso,
  • 15:11 - 15:16
    es muy fácil dar acceso público
    a la información.
  • 15:26 - 15:28
    - (persona 2) Gracias. Hola
    - Hola.
  • 15:28 - 15:30
    (persona 2) ¿Puede contarnos más
  • 15:30 - 15:35
    sobre cómo la persona que habla
    bajo sorabo accede a la información?
  • 15:35 - 15:38
    Específicamente, ¿cómo le llega
    esa información
  • 15:38 - 15:41
    y cómo podría convencerlos
  • 15:41 - 15:43
    de probar el...?
  • 15:43 - 15:45
    Una gran pregunta, y en realidad es
  • 15:45 - 15:46
    una en la que pienso mucho también,
  • 15:46 - 15:50
    porque creo que cuando
    hablamos de acceso a la información,
  • 15:50 - 15:53
    en realidad hay múltiples pasos.
  • 15:53 - 15:56
    Uno es la preservación de los datos,
    asegurarse de que no desaparezcan.
  • 15:56 - 15:59
    Segundo, asegurarse
    de que sea interoperable,
  • 15:59 - 16:02
    y de que se pueda usar.
  • 16:02 - 16:05
    Y, tercero, asegurarse
    de que esté disponible.
  • 16:06 - 16:07
    Entonces, en el caso de PanLex,
  • 16:07 - 16:10
    tenemos una API que se puede usar,
  • 16:10 - 16:12
    pero, obviamente, no la puede usar
    un usuario final.
  • 16:12 - 16:15
    Pero también hemos desarrollado
    interfaces.
  • 16:15 - 16:20
    Por ejemplo, si van
    a translate.panlex.org,
  • 16:20 - 16:23
    pueden traducir en nuestra base de datos.
  • 16:23 - 16:26
    Si quieren jugar con la API,
    vayan a dev.panlex.org,
  • 16:26 - 16:29
    y si quieren pueden encontrar mucho
    en la API, o en api.panlex.org.
  • 16:31 - 16:33
    Pero también hay otro paso.
  • 16:33 - 16:37
    Aunque se haga completamente
    accesible toda la información
  • 16:37 - 16:41
    con herramientas muy útiles
    para acceder a ella,
  • 16:41 - 16:43
    si no se promocionan estas herramientas,
  • 16:43 - 16:45
    entonces las personas no podrán usarlas.
  • 16:45 - 16:47
    Honestamente, esto es...
  • 16:49 - 16:51
    algo que no se habla lo suficiente,
  • 16:51 - 16:53
    y no tengo una buena respuesta para esto.
  • 16:53 - 16:55
    ¿Cómo nos aseguramos de que...?
  • 16:55 - 16:57
    Por ejemplo, yo, recientemente,
  • 16:57 - 17:00
    solo hace unos años me familiaricé
    con Wikidata,
  • 17:00 - 17:02
    y es exactamente la clase de tema
    que me interesa.
  • 17:03 - 17:07
    Entonces, ¿cómo nos promocionamos
    a los demás?
  • 17:07 - 17:09
    La dejaré como una pregunta abierta.
  • 17:09 - 17:11
    Como dije, no tengo una buena respuesta
    para esto.
  • 17:11 - 17:13
    Pero, por supuesto, para hacerlo,
  • 17:13 - 17:15
    aún debemos alcanzar los primeros pasos.
  • 17:22 - 17:25
    (persona 3) Si queremos tener
    una traducción automática,
  • 17:25 - 17:28
    ¿no necesitamos una memoria de traducción?
  • 17:28 - 17:31
    No estoy seguro
    de que las palabras individuales
  • 17:31 - 17:33
    que ponemos en Wikidata,
  • 17:33 - 17:37
    estas frases cortas
    que ponemos en Wikidata,
  • 17:37 - 17:41
    ya sea como elementos comunes
    o lexemas de Wikidata,
  • 17:41 - 17:44
    sean suficientes para hacer
    una traducción apropiada.
  • 17:44 - 17:47
    Necesitamos oraciones completas,
    por ejemplo, para...
  • 17:47 - 17:48
    (Benjamin) Sí, absolutamente.
  • 17:49 - 17:51
    (persona 3) ¿Y en dónde conseguimos
    esta estructura de datos?
  • 17:51 - 17:55
    No estoy seguro de que, actualmente,
  • 17:55 - 18:00
    Wikidata pueda manejar muy bien
  • 18:00 - 18:03
    el problema de una memoria de traducción,
  • 18:04 - 18:06
    translatewiki.net,
  • 18:06 - 18:09
    para meterse en ese lapso de...
  • 18:12 - 18:15
    ¿Debemos hacer algo al respeto o...?
  • 18:15 - 18:17
    Sí, y de verdad aprecio la pregunta.
  • 18:17 - 18:19
    Mencioné esto un poco antes,
  • 18:19 - 18:20
    pero me encantaría reiterarlo.
  • 18:21 - 18:25
    Precisamente, por esta razón
    PanLex trabaja con datos léxicos
  • 18:25 - 18:27
    y por eso me emocionan los datos léxicos,
  • 18:27 - 18:30
    en vez de... no, sino además
  • 18:30 - 18:35
    de los motores de traducción automática
    y de la traducción automática en general.
  • 18:36 - 18:39
    Como dijo usted, la traducción automática
    requiere datos específicos,
  • 18:40 - 18:43
    y no están disponibles
    para la mayoría de los idiomas del mundo.
  • 18:43 - 18:45
    Para la gran mayoría
    de los idiomas del mundo,
  • 18:45 - 18:46
    simplemente no están disponibles.
  • 18:47 - 18:48
    Pero no significa que debamos rendirnos.
  • 18:48 - 18:50
    ¿Por qué?
  • 18:51 - 18:54
    Si necesitara traducir
    el menú del restaurante turco,
  • 18:55 - 18:59
    entonces la traducción léxica
    será una herramienta muy buena.
  • 18:59 - 19:02
    No estoy diciendo que se pueda usar
    la traducción léxica
  • 19:02 - 19:05
    para hacer una traducción
    de párrafo por párrafo perfecta.
  • 19:05 - 19:07
    Con traducción léxica
    me refiero a palabra por palabra
  • 19:07 - 19:10
    y la traducción palabra por palabra
    puede ser muy útil.
  • 19:12 - 19:15
    Es curioso pensarlo,
    pero no teníamos acceso
  • 19:15 - 19:17
    a una buena traducción automática.
  • 19:17 - 19:20
    Nadie tenía acceso
    hasta muy recientemente.
  • 19:20 - 19:24
    Y aún nos las arreglamos
    con los diccionarios,
  • 19:24 - 19:28
    y son una fuente increíblemente buena.
  • 19:28 - 19:31
    Y la información está disponible,
    ¿por qué no la ponemos a disposición
  • 19:31 - 19:34
    del mundo en general
    y de los hablantes de estos idiomas?
  • 19:36 - 19:39
    (persona 4) Hola, ¿qué mecanismos utilizan
  • 19:39 - 19:41
    cuando la comunidad en sí misma...
    Estoy aquí.
  • 19:41 - 19:43
    - ¿Dónde está? Bien.
    - (persona 4) Sí, lo siento. (risas)
  • 19:43 - 19:45
    ...cuando la comunidad misma
  • 19:45 - 19:47
    no quiere parte de sus datos en PanLex?
  • 19:47 - 19:49
    Muy buena pregunta.
  • 19:49 - 19:52
    La manera en que trabajamos con eso
  • 19:52 - 19:56
    es que si un diccionario se edita
    y se hace público,
  • 19:57 - 19:58
    es un buen indicador.
  • 19:58 - 20:02
    Se podría comprar en una tienda
    o en la biblioteca de la universidad,
  • 20:02 - 20:05
    o en una biblioteca pública
    a la que todos pueden acceder.
  • 20:05 - 20:08
    Es un buen indicador
    de que se tomó la decisión.
  • 20:08 - 20:12
    (persona 4) [inaudible]
  • 20:16 - 20:18
    (persona 5) Por favor, [inaudible],
    hable con el micrófono.
  • 20:19 - 20:20
    ¿Puede repetirlo?
  • 20:20 - 20:23
    (persona 4) Los lingüistas no siempre
    tienen el permiso de la comunidad.
  • 20:23 - 20:24
    Para poder publicar cosas,
  • 20:24 - 20:28
    suelen publicarlas sin el consentimiento
    de la comunidad.
  • 20:28 - 20:30
    Eso absolutamente cierto.
  • 20:30 - 20:33
    Diría que es...
  • 20:33 - 20:34
    Suele ocurrir.
  • 20:34 - 20:37
    Diría que, generalmente,
    una minoría de casos,
  • 20:37 - 20:41
    más que nada confinados a Norteamérica,
  • 20:41 - 20:43
    aunque a veces también
    en idiomas sudamericanos.
  • 20:45 - 20:46
    Es algo que debemos tener en cuenta.
  • 20:46 - 20:49
    Si nos dijeran, por ejemplo,
  • 20:49 - 20:52
    que la información que está en PanLex
  • 20:52 - 20:56
    no puede accederla todo el mundo,
  • 20:56 - 20:58
    entonces, por supuesto, la quitaríamos.
  • 20:58 - 20:59
    (persona 4) Bien, bien.
  • 21:01 - 21:02
    Eso no significa, claro,
  • 21:02 - 21:04
    que seguiremos las reglas
    de derechos de autor
  • 21:04 - 21:07
    pero seguiremos a las comunidades
    tradicionales,
  • 21:07 - 21:08
    y esa es la gran diferencia.
  • 21:08 - 21:10
    (persona 5) Sí, a eso me refiero.
  • 21:15 - 21:17
    Saca a colación un punto interesante,
  • 21:17 - 21:18
    que es que...
  • 21:19 - 21:22
    a veces hay una gran cuestión
    sobre quién habla en nombre de un idioma.
  • 21:23 - 21:28
    Tuve la experiencia de visitar
    el sudoeste estadounidense
  • 21:28 - 21:30
    y de colaborar con algunos grupos
  • 21:30 - 21:32
    que trabajan con indígenas,
    con los idiomas pueblo.
  • 21:36 - 21:38
    Existen aproximadamente
  • 21:38 - 21:40
    seis idiomas pueblo,
    según cómo se los divida,
  • 21:40 - 21:42
    que se hablan en esa área.
  • 21:42 - 21:44
    Pero están divididos
    entre 18 pueblos diferentes
  • 21:44 - 21:47
    y cada uno tiene
    su propio gobierno tribal,
  • 21:47 - 21:50
    y cada gobierno puede tener
    una opinión diferente
  • 21:50 - 21:54
    sobre si su idioma debe ser
    accesible o no para los forasteros.
  • 21:57 - 21:58
    Como, por ejemplo, Zuni Pueblo,
  • 21:58 - 22:01
    es un único pueblo
    que habla el idioma zuñi.
  • 22:03 - 22:05
    Y les interesa mucho que su idioma
    vaya a todos lados,
  • 22:05 - 22:08
    lo ponen en señales de tránsito
    y en todo, es grandioso.
  • 22:08 - 22:11
    Pero en algunos de los demás idiomas,
  • 22:11 - 22:13
    puede haber un grupo que diga:
  • 22:13 - 22:16
    "No queremos que los forasteros
    tengan acceso a nuestro idioma".
  • 22:16 - 22:19
    Pero luego tienen el pueblo vecino
    que habla el mismo idioma y dice:
  • 22:19 - 22:22
    "Queremos que nuestro idioma
    sea accesible a los forasteros
  • 22:22 - 22:24
    con el uso de estas herramientas
    tecnológicas,
  • 22:24 - 22:27
    porque queremos que el idioma sobreviva".
  • 22:27 - 22:29
    Y plantea una cuestión ética
    muy interesante.
  • 22:29 - 22:32
    Porque si se dice por defecto:
  • 22:32 - 22:35
    "Bien, lo quitaré porque este grupo
    dijo que lo quite",
  • 22:35 - 22:37
    ¿no se está perjudicando al segundo grupo
  • 22:37 - 22:39
    porque este activamente
    quiere que descartes estas cosas?
  • 22:39 - 22:43
    No creo que sea una pregunta
    con una respuesta sencilla.
  • 22:43 - 22:45
    Pero diría que, al menos en términos
    de PanLex...
  • 22:45 - 22:49
    Y que conste que aún
    no nos hemos encontrado con esto,
  • 22:49 - 22:50
    que yo sepa.
  • 22:51 - 22:53
    Podría ser parcialmente porque...
  • 22:54 - 22:55
    Volviendo a la pregunta de él,
  • 22:56 - 22:58
    quizás debamos promocionar más. (risas)
  • 22:59 - 23:02
    Pero, en general, hasta donde sé,
  • 23:02 - 23:04
    esto no ha surgido.
  • 23:04 - 23:07
    Pero nuestro plan de juego para esto es,
  • 23:07 - 23:11
    si una comunidad dice que no quiere
    que su idioma esté en una base de datos,
  • 23:11 - 23:12
    entonces lo quitamos.
  • 23:12 - 23:15
    (persona 4) Porque nos encontramos
    con eso en Wikidata y Wikipedia...
  • 23:15 - 23:16
    - ¿En serio?
    - (persona 4) ...en comentarios.
  • 23:16 - 23:17
    - ¿En serio?
    - (persona 4) Es un problema.
  • 23:17 - 23:20
    Sí, imagino que en especial
    en comentarios de fotos y ciertas cosas.
  • 23:20 - 23:22
    (persona 4) Correcto.
  • 23:27 - 23:33
    (persona 6) Hola. Tenía una pregunta
    sobre la contribución abierta.
  • 23:34 - 23:37
    En cuanto a ir a pedirle a una comunidad
  • 23:37 - 23:40
    que anoten o añadan información
    para un conjunto de datos,
  • 23:40 - 23:44
    algo que es un poco intimidante,
  • 23:45 - 23:49
    como editor,
    solo veo las cosas que faltan.
  • 23:49 - 23:53
    Pero si pasaré tiempo con cosas,
    con una idea,
  • 23:54 - 23:57
    existe una lista
    de elementos prioritarios,
  • 23:58 - 24:01
    supongo que es muy motivador
    en este aspecto.
  • 24:01 - 24:04
    Y me dio curiosidad
    sobre si usted tenía un sistema
  • 24:04 - 24:08
    que es, en esencia,
    conocemos los huecos en nuestros datos,
  • 24:08 - 24:12
    tenemos prueba lingüística
    para saber que si tuviéramos
  • 24:12 - 24:16
    estos anotados, causarían mayor efecto.
  • 24:16 - 24:17
    Entonces, imagino
  • 24:18 - 24:21
    que tener el lexema para "casa"
    es muy importante
  • 24:21 - 24:25
    quizás no un lexema para un dato u otro.
  • 24:25 - 24:29
    Pero quería saber si tiene eso, si es algo
  • 24:30 - 24:35
    que podría usarse para impulsar
    estos esfuerzos comunitarios.
  • 24:36 - 24:37
    Muy buena pregunta.
  • 24:37 - 24:41
    Una cosa que tiene de mucho Wikidata...
  • 24:41 - 24:45
    Lo siento, disculpen, PanLex
    tiene muchas listas de Swadesh.
  • 24:45 - 24:48
    Al parecer, tenemos la mayor colección
    de listas de Swadesh en el mundo,
  • 24:48 - 24:49
    y es interesante.
  • 24:49 - 24:50
    Si no saben lo que es
    una lista de Swadesh,
  • 24:50 - 24:56
    básicamente es una lista regularizada
    de elementos léxicos
  • 24:56 - 25:00
    que se pueden usar para analizar idiomas.
  • 25:00 - 25:03
    Contienen conjuntos muy básicos.
  • 25:03 - 25:05
    Existen un par de clases de listas
    de Swadesh diferentes.
  • 25:05 - 25:07
    Pero hay 100 o 213 elementos
  • 25:07 - 25:09
    y pueden contener
  • 25:09 - 25:13
    palabras como "casa", "ojo" y "piel",
  • 25:13 - 25:14
    y básicamente palabras generales
  • 25:14 - 25:16
    que deberían encontrarse
    en cualquier idioma.
  • 25:16 - 25:20
    Es un buen punto de partida
  • 25:20 - 25:23
    para tener esa clase de datos disponibles.
  • 25:29 - 25:31
    Ahora, como dije antes,
  • 25:31 - 25:34
    aún no realizamos la contribución abierta
  • 25:34 - 25:36
    y nos emociona mucho poder hacerla.
  • 25:36 - 25:38
    Algo de lo que me emociona hablar
  • 25:38 - 25:39
    con la gente de esta conferencia
  • 25:39 - 25:43
    es cómo puede usarse
    la contribución abierta
  • 25:43 - 25:46
    y la logística detrás de eso,
  • 25:46 - 25:49
    y esta es la clase de preguntas
    que surgen.
  • 25:51 - 25:53
    Creo que la respuesta que puedo darle
  • 25:53 - 25:55
    es que tenemos una lista prioritaria...
  • 25:55 - 25:58
    Algo que puedo decir es
    que tenemos una lista prioritaria
  • 25:58 - 26:00
    cuando se trata de qué idiomas
    estamos buscando.
  • 26:00 - 26:02
    Buscamos idiomas
  • 26:02 - 26:05
    que actualmente no se sirven
    de soluciones tecnológicas,
  • 26:05 - 26:07
    que suelen ser lenguas minoritarias,
  • 26:07 - 26:09
    o habitualmente lenguas minoritarias,
  • 26:09 - 26:12
    y entonces les damos prioridad.
  • 26:14 - 26:17
    Pero, en términos de que los elementos
    léxicos individuales
  • 26:17 - 26:20
    sean la manera general de conseguir
    nuevos datos
  • 26:20 - 26:23
    es al ingerir el valor
    de un diccionario completo.
  • 26:23 - 26:26
    Dependemos de la elección
    de los elementos léxicos
  • 26:26 - 26:29
    del diccionario, en vez de decir
    que necesariamente
  • 26:29 - 26:32
    estamos buscando la palabra
    para "casa" en cada idioma.
  • 26:32 - 26:35
    Pero cuando se trata de la contribución
    abierta, necesitamos algo así.
  • 26:35 - 26:38
    Entonces es una oportunidad
    para investigar y crecer.
  • 26:40 - 26:43
    (persona 7) Hola, soy Victor,
    y esto es asombroso.
  • 26:45 - 26:47
    Ya que tiene diapositivas,
  • 26:47 - 26:49
    ¿podría hablar un poco
    sobre el estatus técnico
  • 26:49 - 26:51
    que actualmente el flujo
  • 26:51 - 26:57
    de datos o información
    de y hacia Wikidata y PanLex.
  • 26:57 - 27:00
    ¿Actualmente está implementado
  • 27:00 - 27:04
    y cómo lidia con un lado y el otro
  • 27:04 - 27:07
    o con la información de ciclo
    de retroalimentación
  • 27:07 - 27:10
    entre PanLex y Wikidata?
  • 27:10 - 27:14
    No tenemos conexiones formales
    con Wikidata en este momento,
  • 27:14 - 27:15
    y es algo que, de nuevo,
  • 27:15 - 27:18
    me emociona contar
    a las personas en la conferencia.
  • 27:18 - 27:21
    Hemos tenido interacciones con Wiktionary,
  • 27:22 - 27:25
    pero Wikidata es una opción mejor,
    sinceramente,
  • 27:25 - 27:27
    para lo que estamos buscando.
  • 27:27 - 27:29
    Tener elementos léxicos directamente
  • 27:29 - 27:32
    significa que debemos analizar
    y extraer menos datos.
  • 27:33 - 27:37
    Entonces, la respuesta es:
    aún no, pero queremos.
  • 27:37 - 27:40
    (persona 7) Y si no,
    ¿cuáles son los obstáculos?
  • 27:40 - 27:44
    Podemos ver que Wikidata
    ya soporta muchos idiomas,
  • 27:44 - 27:47
    pero cuando busco en translate.panlex.org,
  • 27:47 - 27:49
    parece que ustedes soportan
    muchas más variedades,
  • 27:49 - 27:51
    muchas más que Wikidata.
  • 27:51 - 27:53
    ¿Cómo ve que haya un lapso
  • 27:53 - 27:57
    entre la traducción
    o primero la traducción léxica,
  • 27:57 - 28:00
    la aplicación versus el esfuerzo
  • 28:00 - 28:04
    mientras se intenta mapear
    una estructura de conocimiento?
  • 28:04 - 28:06
    Mapear el conocimiento
    será muy interesante.
  • 28:06 - 28:07
    Hemos tenido debates interesantes
  • 28:07 - 28:12
    sobre la manera en que Wikidata
    organiza sus datos léxicos,
  • 28:12 - 28:14
    sus datos léxicos,
  • 28:14 - 28:16
    y cómo organizamos nosotros
    nuestros datos léxicos.
  • 28:16 - 28:21
    Hay diferencias sutiles que requerirían
    una estrategia de mapeo,
  • 28:21 - 28:25
    algunas no serán necesariamente
    automáticas,
  • 28:25 - 28:27
    pero podríamos desarrollar
    técnicas para hacerlo.
  • 28:27 - 28:31
    Usted dio el ejemplo
    de las variedades de la lengua.
  • 28:31 - 28:34
    Tendemos a ser muy "separatistas"
    cuando se trata de variedades de lenguas.
  • 28:34 - 28:36
    En otras palabras,
    si tenemos una fuente que dice
  • 28:36 - 28:39
    que este es el dialecto que se habla
  • 28:39 - 28:42
    en el lado izquierdo del río
    en Papúa Nueva Guinea, para este idioma,
  • 28:42 - 28:43
    y tenemos otra fuente que dice
  • 28:43 - 28:45
    que este es el dialecto hablado
    a la derecha del río,
  • 28:45 - 28:47
    entonces los consideramos
    idiomas separados.
  • 28:47 - 28:51
    Lo hacemos para preservar
    la mayor información posible.
  • 28:52 - 28:54
    Poder mapear eso
    a cómo lo hace Wikidata...
  • 28:54 - 28:57
    En realidad, me encantaría conversar
  • 28:57 - 29:01
    sobre cómo se designan
  • 29:01 - 29:06
    los idiomas en Wikidata.
  • 29:08 - 29:12
    De nuevo, vamos
    con la estrategia "separatista".
  • 29:14 - 29:17
    En términos generales,
    dependemos de los códigos ISO 6393,
  • 29:18 - 29:20
    brindados por Ethnologue,
  • 29:20 - 29:24
    y entonces cada código individual
    tiene permitido variedades adentro,
  • 29:24 - 29:29
    ya sea variedades de escritura,
    regionales o dialectos sociales, etc.
  • 29:30 - 29:33
    De nuevo, es una oportunidad
    para debatir y trabajar.
  • 29:36 - 29:39
    (persona 8) Hola, quisiera saber
    si tiene una fuente de OCR
  • 29:39 - 29:45
    en especial porque hemos intentado
    hacer OCR en maya,
  • 29:45 - 29:48
    y no obtenemos resultados.
  • 29:48 - 29:50
    No comprende nada...
  • 29:50 - 29:53
    - ¡Sí! (risas)
    - (persona 8) Y... sí.
  • 29:53 - 29:56
    Entonces, ¿sus fuentes están disponibles?
  • 29:56 - 30:00
    Y la otra es si, en la superposición
    de códigos ISO,
  • 30:00 - 30:02
    como dicen a veces:
  • 30:02 - 30:04
    "Ah, esto es un idioma y este es otro",
  • 30:04 - 30:07
    pero hay fuentes que dicen otra cosa,
  • 30:07 - 30:10
    como dijo usted, tienden a superponerse.
  • 30:10 - 30:13
    Entonces, ¿cómo hace...? Sí.
  • 30:13 - 30:15
    Sí, es una pregunta asombrosa.
  • 30:15 - 30:17
    Me gusta mucho.
  • 30:17 - 30:20
    No tenemos una fuente OCR
    formalizada exactamente,
  • 30:20 - 30:24
    lo hacemos fuente por fuente.
  • 30:24 - 30:26
    Una de las razones es porque
    a veces tenemos fuentes
  • 30:26 - 30:28
    que no necesitan que hagamos OCR,
  • 30:28 - 30:30
    que están disponibles
    para algunos idiomas,
  • 30:30 - 30:33
    y nos concentramos en esos porque
    requieren menos trabajo.
  • 30:33 - 30:35
    Pero, obviamente, si queremos profundizar
  • 30:35 - 30:37
    en unas de nuestras fuentes
    que están pendientes,
  • 30:37 - 30:41
    necesitaremos desarrollar
    fuentes OCR más sólidas.
  • 30:41 - 30:44
    Pero también hay otro aspecto,
    que es, como dijo usted...
  • 30:44 - 30:49
    Las personas que diseñaron
    los motores OCR,
  • 30:49 - 30:53
    creo que no saben cuánto
    se pueden someter a pruebas de esfuerzo.
  • 30:53 - 30:55
    ¿Saben qué es divertido?
  • 30:55 - 30:58
    Intentar hacer OCR
    con un diccionario ruso-tibetano.
  • 30:59 - 31:00
    Resulta que es muy difícil...
  • 31:02 - 31:04
    Nos rendimos y contratamos
    a alguien para tipearlo,
  • 31:04 - 31:06
    y fue completamente posible.
  • 31:06 - 31:07
    Y, en realidad, resulta
  • 31:07 - 31:10
    que esta rusa asombrosa
    aprendió a leer tibetano
  • 31:10 - 31:13
    para poder tipearlo, y fue muy genial.
  • 31:15 - 31:18
    Creo que están tratando con cosas
    de la escritura latina,
  • 31:18 - 31:23
    entonces creo que las soluciones de OCR
    que se pueden desarrollar son más sólidas,
  • 31:23 - 31:25
    tratan con fuentes multilingües como esta
  • 31:25 - 31:27
    y esperan conseguir un cuatro al azar,
  • 31:27 - 31:28
    si estás tratando con algo
  • 31:28 - 31:31
    como fuentes mayas del siglo XVI,
    con cuatro dígitos.
  • 31:32 - 31:38
    Pero hay algunas fuentes
  • 31:38 - 31:40
    que OCR probablemente nunca alcance
  • 31:40 - 31:42
    o requieren una inmensa
    cantidad de trabajo,
  • 31:43 - 31:47
    y en realidad utilizamos
    un poco esto ahora.
  • 31:47 - 31:49
    Tenemos otro proyecto activo en PanLex
  • 31:49 - 31:54
    para transcribir toda la literatura
    tradicional de Bali,
  • 31:54 - 31:58
    y encontramos
    que en los manuscritos balineses
  • 31:58 - 32:00
    no hay posibilidad de OCR.
  • 32:00 - 32:02
    Entonces, hicimos que un grupo
    de balineses los tipearan,
  • 32:02 - 32:05
    y se volvió un proyecto cultural
    muy genial en Bali,
  • 32:05 - 32:07
    y se convirtió en noticia y esas cosas.
  • 32:07 - 32:09
    Entonces, diría
  • 32:09 - 32:11
    que no se debe depender del OCR
    necesariamente,
  • 32:11 - 32:13
    sino que hay muchas opciones.
  • 32:13 - 32:15
    Tener buenas soluciones de OCR
    sería bueno.
  • 32:17 - 32:21
    Además, si alguien está interesado
    en la OCR multilingüe,
  • 32:21 - 32:23
    por favor, venga a hablarme.
  • 32:30 - 32:31
    (persona 9) Muchas gracias
    por su presentación.
  • 32:32 - 32:35
    Habló sobre la integración
  • 32:35 - 32:37
    entre PanLex y Wikidata,
  • 32:37 - 32:39
    pero no se adentró en lo específico.
  • 32:39 - 32:43
    Entonces estaba revisando su licencia
    de datos y está bajo CC0.
  • 32:43 - 32:44
    - Sí.
    - (persona 9) Es grandioso.
  • 32:44 - 32:46
    Entonces, existen dos maneras posibles,
  • 32:46 - 32:49
    podemos importar los datos
  • 32:49 - 32:53
    o continuar algo similar
    a la manera de Freebase,
  • 32:53 - 32:56
    donde tuvimos la base de datos
    completa de Freebase,
  • 32:56 - 32:59
    la importamos y creamos un enlace,
  • 32:59 - 33:04
    un identificador externo
    a la base de datos de Freebase.
  • 33:04 - 33:08
    Entonces, si tiene algo en mente,
    ¿piensa algo parecido?
  • 33:08 - 33:10
    ¿O solo quiere hacer...
  • 33:15 - 33:19
    una base de datos independiente
    que se enlace con Wikidata?
  • 33:19 - 33:21
    Sí, es una pregunta grandiosa
  • 33:21 - 33:23
    y siento es un paso adelante
  • 33:23 - 33:26
    de algunas de las cosas
    que he estado pensando,
  • 33:26 - 33:30
    parcialmente porque, como dije,
  • 33:30 - 33:32
    conseguir que las dos bases
    de datos funcionen juntas
  • 33:32 - 33:34
    es un paso por sí mismo.
  • 33:34 - 33:35
    Creo que el primer paso que podemos dar
  • 33:35 - 33:38
    es literalmente unir nuestras habilidades.
  • 33:38 - 33:40
    Tenemos mucha experiencia lidiando
    con cosas
  • 33:40 - 33:43
    como clasificaciones de propiedades
    de lexemas individuales
  • 33:43 - 33:45
    que me encantaría compartir.
  • 33:46 - 33:49
    Pero ser capaz de enlazar
    las bases de datos sería maravilloso.
  • 33:49 - 33:51
    Estoy interesado al 100 %.
  • 33:51 - 33:54
    Creo que sería un poco más fácil
  • 33:54 - 33:56
    desde Wikidata hasta PanLex,
  • 33:56 - 33:59
    pero quizás soy parcial,
    porque veo cómo podría funcionar.
  • 34:02 - 34:06
    Sí, básicamente,
    siempre que Wikidata esté cómodo
  • 34:06 - 34:10
    con todas las licencias,
    o resolvamos algo juntos,
  • 34:10 - 34:12
    entonces creo que sería una gran idea.
  • 34:13 - 34:16
    Solo debemos encontrar maneras
    de enlazar los datos.
  • 34:16 - 34:22
    Algo que imagino es que me encantaría
    que las ediciones de Wikidata
  • 34:23 - 34:26
    se ingresaran de inmediato
    a la base de datos de PanLex,
  • 34:26 - 34:29
    sin tener que, básicamente,
  • 34:29 - 34:31
    reingresarlas cada vez...
  • 34:31 - 34:36
    Hacer de Wikidata una interfaz
    de contribución pública con PanLex
  • 34:36 - 34:37
    sería realmente asombroso.
  • 34:37 - 34:40
    Y luego poder usar PanLex
    en traducciones inmediatas,
  • 34:40 - 34:42
    poder hacer traducir a través
    de elementos léxicos de Wikidata
  • 34:42 - 34:44
    sería glorioso.
  • 34:55 - 35:00
    (persona 10) Es como el proceso
    de auditoría de esta red semántica
  • 35:00 - 35:04
    para cerrar huecos por inferencia.
  • 35:06 - 35:10
    Si lo pensamos más,
    esta clase de traducción,
  • 35:10 - 35:13
    ¿cómo se lidia
    con la discordancia semántica
  • 35:13 - 35:16
    y la discordancia gramática?
  • 35:16 - 35:19
    Por ejemplo, si se intenta traducir
    algo al alemán,
  • 35:19 - 35:22
    simplemente puedes colocar
    varias palabras juntas
  • 35:22 - 35:26
    y alcanzar algo razonable,
  • 35:26 - 35:29
    y, por otro lado, creo a veces que leo
  • 35:31 - 35:38
    que no todos los idiomas
    tienen el mismo sistema granular
  • 35:38 - 35:40
    para los colores, por ejemplo.
  • 35:42 - 35:43
    ¿Usted dijo que todo
  • 35:43 - 35:45
    usa un sistema diferente
    para los colores o el mismo?
  • 35:46 - 35:48
    (persona 10) Recuerdo que es
    por la evolución del lenguaje
  • 35:48 - 35:52
    que comenzaron con blanco y negro
    y luego...
  • 35:52 - 35:53
    Sí, la jerarquía del color.
  • 35:53 - 35:54
    La jerarquía del color
  • 35:54 - 35:57
    es una gran manera de ilustrar
    cómo funciona esto, ¿verdad?
  • 35:58 - 36:01
    Básicamente, cuando se tiene
    un único idioma puente...
  • 36:02 - 36:05
    es interesante cuando lees
    los ensayos sobre traducción automática
  • 36:05 - 36:08
    porque a veces hablan
    sobre un idioma puente hipotético,
  • 36:08 - 36:10
    y dicen: "Sí, hay un idioma puente",
  • 36:10 - 36:12
    y luego lees el ensayo y dice:
    "Es el inglés".
  • 36:12 - 36:17
    Entonces, lo que hace esta forma
    de traducción léxica
  • 36:17 - 36:20
    al pasarla por diferentes idiomas
    intermedios
  • 36:21 - 36:26
    es que tiene el efecto de lidiar
    con mucha ambigüedad semántica.
  • 36:26 - 36:28
    Porque mientras lo pases por idiomas
  • 36:28 - 36:33
    que contienen límites semánticos
    razonablemente similares a una palabra,
  • 36:33 - 36:37
    entonces evitas el problema
  • 36:37 - 36:40
    de introducir ambigüedad semántica
    mediante el idioma puente.
  • 36:40 - 36:43
    Entonces, al usar la jerarquía del color
    como ejemplo,
  • 36:43 - 36:46
    si tomas un idioma que tiene
    una sola palabra para verde y azul
  • 36:46 - 36:51
    y la traduce a azul
  • 36:51 - 36:53
    en tu único idioma puente
  • 36:53 - 36:54
    y luego a otro idioma
  • 36:54 - 36:57
    que tiene ambigüedades diferentes,
  • 36:57 - 37:00
    entonces terminas introduciendo
    ambigüedad semántica.
  • 37:00 - 37:02
    Pero si la pasas por un montón
    de otros idiomas
  • 37:02 - 37:06
    que también contienen un único
    elemento léxico para verde y azul,
  • 37:06 - 37:11
    entonces, básicamente,
    esa especificidad semántica
  • 37:11 - 37:17
    se transmite al idioma resultante.
  • 37:18 - 37:21
    En cuanto a los aspectos
    característicos gramaticales,
  • 37:21 - 37:23
    PanLex, en su historia, fundamentalmente,
  • 37:23 - 37:29
    ha recolectado lexemas, formas léxicas.
  • 37:30 - 37:32
    Con eso, quiero decir, básicamente,
  • 37:32 - 37:34
    lo que tienes como palabra clave
    para un diccionario.
  • 37:35 - 37:38
    Esta vez no nos concentramos
    necesariamente
  • 37:39 - 37:41
    en recolectar formas
    de variedades gramaticales,
  • 37:41 - 37:43
    cosas como datos [de idiomas], etc.
  • 37:43 - 37:45
    o el tiempo pasado y presente.
  • 37:45 - 37:46
    Pero es algo que estamos mirando.
  • 37:46 - 37:48
    Algo que siempre es importante recordar
  • 37:48 - 37:51
    es que, debido a que nuestro foco en...
  • 37:51 - 37:54
    está en los idiomas minoritarios
    marginados y en extinción,
  • 37:55 - 37:58
    queremos asegurarnos
    de que algo esté disponible
  • 37:58 - 38:00
    antes de perfeccionarlo.
  • 38:02 - 38:03
    Una frase que me encanta es:
  • 38:03 - 38:05
    "No dejes que la perfección
    sea enemiga de lo bueno",
  • 38:05 - 38:07
    y eso que lo que pretendemos hacer.
  • 38:07 - 38:09
    Pero estamos muy interesados en la idea
  • 38:09 - 38:12
    de poder manejar formas gramaticales
  • 38:12 - 38:14
    y traducir a través
    de formas gramaticales,
  • 38:14 - 38:16
    y es algo que hemos investigado,
  • 38:16 - 38:17
    pero aún no hemos implementado
    por completo.
  • 38:25 - 38:29
    (Persona 11) Entonces, de los 7.500 idiomas,
  • 38:30 - 38:33
    supongo que dependen de diccionarios
    escritos para nosotros,
  • 38:33 - 38:36
    pero ¿todos esos idiomas tienen
    formas escritas estándares
  • 38:36 - 38:38
    y cómo lidian con...?
  • 38:38 - 38:40
    Es una buena pregunta.
  • 38:42 - 38:45
    Sí, muchos de estos idiomas,
  • 38:45 - 38:48
    como todos saben, son verbales.
  • 38:48 - 38:51
    Pero cualquier idioma
    para el que se ha producido un diccionario
  • 38:51 - 38:52
    tiene alguna clase de ortografía,
  • 38:52 - 38:57
    y dependemos de la ortografía
    producida para el diccionario.
  • 38:57 - 39:00
    Ocasionalmente, manipulamos
    ligeramente la ortografía
  • 39:01 - 39:03
    si podemos garantizar
    que no tenga pérdidas.
  • 39:03 - 39:05
    Pero tendemos a evitarlo
    tanto como sea posible.
  • 39:08 - 39:11
    No nos metemos en el tema
  • 39:11 - 39:13
    de desarrollar ortografías
    para los idiomas,
  • 39:13 - 39:15
    porque a veces están desarrolladas,
  • 39:15 - 39:17
    incluso aunque no estén publicadas.
  • 39:17 - 39:22
    Entonces, por ejemplo,
  • 39:22 - 39:26
    para muchos idiomas hablados
    en Nueva Guinea,
  • 39:26 - 39:29
    puede que no haya una forma ortográfica
    utilizada comúnmente,
  • 39:29 - 39:31
    pero a algunos lingüistas
    se les ocurre algo
  • 39:31 - 39:32
    y es un buen primer paso.
  • 39:33 - 39:37
    También recolectamos formas fonéticas
    cuando están disponibles en diccionarios,
  • 39:37 - 39:38
    y esa es otra manera de entrar,
  • 39:38 - 39:41
    una representación de la palabra en IPA,
  • 39:41 - 39:42
    si está disponible.
  • 39:42 - 39:43
    Eso también se puede usar.
  • 39:43 - 39:46
    Pero normalmente no usamos eso
    como un puente
  • 39:46 - 39:48
    porque introduce ciertas ambigüedades.
  • 39:53 - 39:55
    (persona 12) Gracias,
    puede que sea una pregunta muy tonta,
  • 39:56 - 40:01
    pero ¿esos son solo los idiomas
    intermedios con los que trabajan?
  • 40:01 - 40:02
    No. No.
  • 40:02 - 40:04
    (persona 12) Sí, bien. Gracias.
  • 40:04 - 40:06
    No, me alegra que lo preguntara.
    Responde a la pregunta.
  • 40:06 - 40:11
    Esta es una captura de pantalla
    de translate.panlex.org.
  • 40:11 - 40:13
    Si haces una traducción,
  • 40:13 - 40:15
    recibirás una lista de traducciones
    en el lado derecho.
  • 40:15 - 40:18
    Haces clic en un botón de tres puntos
    y recibirás un gráfico como este.
  • 40:18 - 40:22
    Y lo que muestra son
    los idiomas intermedios,
  • 40:22 - 40:24
    los 20 principales por puntaje...
  • 40:24 - 40:26
    Podría entrar en detalles
    sobre el puntaje,
  • 40:26 - 40:27
    pero no es importante ahora...
  • 40:27 - 40:30
    por el puntaje con que se usa.
  • 40:30 - 40:33
    Pero para traducir, en realidad
    usamos mucho más que 20.
  • 40:33 - 40:36
    Lo limité a 20 porque si tienes más...
  • 40:36 - 40:38
    en realidad esto es
    una simulación de física,
  • 40:38 - 40:40
    puedes mover las cosas y hacen garabatos.
  • 40:40 - 40:42
    Si tienes más de 20,
    la computadora se altera.
  • 40:45 - 40:47
    Entonces es una demostración, sí.
  • 40:56 - 40:58
    (persona 13) Leila,
    de la Fundación Wikimedia.
  • 40:58 - 41:00
    Solo una nota sobre...
  • 41:00 - 41:03
    Mencionó a la Fundación Wikimedia
    un par de veces en la presentación,
  • 41:03 - 41:07
    quería saber si quiere hacer
    alguna clase de incorporación de datos
  • 41:07 - 41:08
    o una colaboración con Wikidata,
  • 41:09 - 41:11
    ¿quizás Wikimedia Deutschland
    sería un lugar mejor
  • 41:11 - 41:13
    para conversar?
  • 41:13 - 41:16
    Porque Wikidata vive
    dentro de Wikimedia Deutschland
  • 41:16 - 41:18
    y el equipo está allí,
  • 41:18 - 41:20
    y además la comunidad
    de voluntarios de Wikidata
  • 41:20 - 41:24
    sería el lugar perfecto para hablar
  • 41:24 - 41:26
    sobre cualquier clase de incorporaciones
  • 41:26 - 41:31
    o trabajar para acercar PanLex a Wikidata.
  • 41:32 - 41:33
    Grandioso, muchas gracias,
  • 41:33 - 41:35
    porque, sinceramente,
    no estoy muy familiarizado
  • 41:35 - 41:38
    con todas las complejidades
    de la arquitectura
  • 41:38 - 41:40
    de cómo se relacionan todos los proyectos.
  • 41:40 - 41:42
    Por las risas, supongo que es complicado.
  • 41:42 - 41:44
    Pero, sí, básicamente, queremos hablar
  • 41:44 - 41:48
    con quien sea responsable de Wikidata.
  • 41:48 - 41:52
    Solo queremos localizar
  • 41:53 - 41:56
    estamos interesados en hablar
    con quien sea responsable de Wikidata,
  • 41:56 - 41:58
    que son todos ustedes, los voluntarios.
  • 42:03 - 42:05
    ¿Hay más preguntas?
  • 42:10 - 42:14
    Bien, si alguien tiene
    más preguntas después
  • 42:14 - 42:18
    o de algo que hablé... los detalles
    y las especificaciones de estas cosas,
  • 42:18 - 42:20
    por favor, vengan a hablarme,
    estoy muy interesado.
  • 42:20 - 42:24
    En especial, si trabajan con algo
    que involucre elementos léxicos,
  • 42:24 - 42:29
    algo que involucre
    idiomas minoritarios en extinción
  • 42:29 - 42:30
    y lenguas marginadas,
  • 42:30 - 42:34
    y además Unicode,
    también me dedico a eso.
  • 42:36 - 42:38
    Muchas gracias,
  • 42:38 - 42:40
    y gracias por invitarme a hablar,
  • 42:40 - 42:42
    espero que lo hayan disfrutado.
  • 42:42 - 42:44
    (aplausos)
Title:
cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4
Video Language:
English
Duration:
42:53

Spanish subtitles

Revisions