-
Se hablan aproximadamente
7.500 idiomas
-
en el planeta hoy en día.
-
De esos, se estima
-
que el 70 % corre peligro
de no sobrevivir
-
al fin del siglo XXI.
-
Cada vez que muere un idioma,
-
se corta una conexión,
-
que ha durado desde cientos
hasta miles de años,
-
a la cultura, a la historia
-
a las tradiciones y al conocimiento.
-
El lingüista Kenneth Hale dijo
-
que cada vez que muere un idioma,
-
es como arrojar una bomba atómica
en el Louvre.
-
Entonces, la pregunta es:
-
¿por qué mueren los idiomas?
-
Bien, quizás la respuesta simple sería
-
que se podría pensar
que los gobiernos autoritarios
-
impiden que las personas hablen
su lengua nativa,
-
castigan a los niños por hablar
su idioma en la escuela
-
o el gobierno cierra
las estaciones de radio
-
de la lengua minoritaria.
-
Y esto ha ocurrido en el pasado,
-
y aún ocurre hoy en día
hasta cierto punto.
-
Pero la respuesta honesta
-
es que en la mayoría de los casos
de la extinción de una lengua,
-
es una respuesta mucho más simple
-
y más fácil de explicar.
-
Los idiomas se extinguen
-
porque no se transmiten
-
de una generación a la siguiente.
-
Cada vez que una persona que habla
-
un idioma minoritario tiene un hijo,
-
realiza un cálculo.
-
Se pregunta:
-
"¿Le enseño mi idioma a mi hijo
-
o le enseño solo el idioma mayoritario?".
-
Básicamente, hay una balanza
-
a la que accede en su mente,
-
en la que de un lado
-
cada vez en su vida
-
que tuvo la oportunidad
de usar su lengua nativa
-
para comunicarse,
para acceder a la cultura tradicional,
-
se coloca una piedra en el lado izquierdo.
-
Y cada vez que resulta
-
que no puede usar su lengua nativa
-
y debe depender del idioma mayoritario,
-
se coloca una piedra en el lado derecho.
-
Debido a la fortaleza y a la dignidad
-
de poder hablar la lengua materna propia,
-
las piedras de la izquierda
suelen ser más pesadas.
-
Pero con suficientes piedras
en el lado derecho,
-
entonces al final la balanza se inclina,
-
y entonces cuando una persona
toma la decisión
-
de transmitir su idioma,
-
ven a su propia lengua
-
como una carga en lugar de una bendición.
-
Entonces, la pregunta es:
¿cómo revertimos esto?
-
Primero, debemos pensar en el hecho
-
de que, para cualquier idioma,
-
existen ciertas esferas sociales
en las que se puede usar.
-
Entonces, cualquier idioma
-
que es una lengua materna
hablada hoy en día
-
se puede usar con la familia propia.
-
Un conjunto menor de idiomas
se pueden usar con la comunidad,
-
un conjunto menor,
quizás dentro de una región,
-
y un puñado menor de lenguas,
-
se pueden usar
para la comunicación internacional.
-
E incluso a través de estas esferas,
-
existe la pregunta:
¿puede alguien usar su idioma
-
con el objetivo de la educación,
los negocios
-
o en la tecnología?
-
Entonces, para explicar mejor
-
lo que estoy diciendo aquí,
-
quisiera usar una anécdota.
-
Digamos que está a punto de irse
-
a sus vacaciones soñadas en India,
-
y tiene una escala de ocho horas
en Estambul.
-
No planeaba visitar Turquía
necesariamente,
-
pero con la escala y un amigo turco
-
que le habla de un restaurante increíble
-
que no está lejos del aeropuerto,
-
dice: "Quizás iré durante la escala".
-
Entonces, sale del aeropuerto,
-
llega al restaurante,
-
le dan un menú
-
y este menú está completamente en turco.
-
Ahora, supongamos,
por la idea de este ejercicio,
-
que no habla turco.
-
¿Qué hace?
-
Bien, en el mejor de los casos,
-
encuentra a alguien que hable
su idioma nativo,
-
alemán, inglés, etc.
-
Pero, supongamos
que no es su día de suerte
-
y nadie en el restaurante habla
alemán ni inglés.
-
¿Qué hace?
-
Si es como yo,
e imagino que la mayoría lo es,
-
probablemente irá
a una solución tecnológica,
-
la traducción automática
o un diccionario digital,
-
busca cada palabra individualmente
-
y al final pide
una comida turca deliciosa.
-
Ahora, imaginemos este escenario
-
en donde es hablante nativo
de una lengua minoritaria.
-
Por ejemplo, el bajo sorabo.
-
El bajo sorabo es una lengua en extinción
-
que se habla aquí en Alemania,
-
a unos 130 kilómetros al sureste de aquí,
-
y solo la hablan pocos miles de personas,
mayormente ancianos.
-
Supongamos que su lengua nativa
es el bajo sorabo.
-
Llega al restaurante.
-
La probabilidad de encontrar a alguien
-
que hable su lengua nativa
en el restaurante es muy baja.
-
Pero, de nuevo, puede usar
una solución tecnológica.
-
Sin embargo, para su idioma nativo,
-
estas soluciones tecnológicas no existen.
-
Debería depender del alemán o el inglés
-
como lenguaje de pivote hacia el turco.
-
También podría terminar
consiguiendo su comida turca deliciosa,
-
pero comienza a pensar
lo difícil que hubiera sido
-
si fuera su abuelo,
que no hablaba alemán para nada.
-
Este es solo un pequeño incidente,
-
pero colocará una piedra
en el lado derecho de la balanza,
-
y quizás le haga pensar
-
que cuando tenga hijos
o cuando tenga otro hijo,
-
la carga que soportó
-
podría no valer la pena
para conservar su idioma.
-
E imagine si este fuera un escenario
-
con importancia más significativa,
-
como, por ejemplo, estar en un hospital.
-
Este es el punto en donde podemos ayudar,
-
me refiero a que ustedes en esta sala
y yo podemos ayudar.
-
Tenemos las herramientas para ayudar.
-
Si las herramientas tecnológicas
están disponibles
-
para quienes hablan idiomas
minoritarios y marginados,
-
coloca un dedo
en el lado izquierdo de la balanza.
-
Alguien no debe pensar necesariamente
-
que deben depender
de un idioma minoritario
-
para interactuar con el mundo exterior,
-
porque abre las esferas sociales
-
un poco más.
-
Por supuesto, la solución ideal
-
es tener traducción automática
en todos los idiomas del mundo.
-
Pero, lamentablemente, no es factible.
-
La traducción automática
requiere un gran corpus de texto,
-
y para muchos de estos idiomas
-
que están en extinción o marginados,
-
estos datos no están disponibles.
-
Algunos ni siquiera se escriben
comúnmente,
-
entonces, conseguir suficientes datos
y crear un motor de traducción automática
-
es poco probable.
-
Pero lo que sí está disponible
son los datos léxicos.
-
Mediante el trabajo de muchos lingüistas
-
a lo largo de los últimos cien años,
-
se han producido diccionarios y manuales
-
para la mayoría de los idiomas del mundo.
-
Pero, lamentablemente,
la mayoría de estas obras
-
no son accesibles o no están disponibles
para el mundo,
-
y menos para hablantes
de los idiomas minoritarios.
-
Y no es un proceso intencional,
-
muchas veces es solo porque
-
la primera edición de estos diccionarios
era pequeña,
-
y las únicas copias
-
se están pudriendo en la biblioteca
de alguna universidad.
-
Pero tenemos la capacidad
de tomar esa información
-
y hacerla accesible para el mundo.
-
La Fundación Wikimedia es
una de las mejores organizaciones,
-
yo diría que es la mejor organización
de todo el mundo,
-
para proporcionar datos
-
a la mayoría de la población del planeta.
-
Entonces, trabajemos en eso.
-
Para explicar un poco más
-
lo que hemos estado haciendo al respecto,
-
quisiera presentar a mi organización,
PanLex,
-
que es una organización que intenta
-
recolectar datos léxicos
para este propósito.
-
Empezamos hace 12 años
-
en la Universidad de Washington,
como un proyecto de investigación.
-
La idea detrás
-
era mostrar que las traducciones inferidas
-
podían crear un dispositivo
de traducción efectivo,
-
básicamente, un dispositivo
de traducción léxico.
-
Este es un ejemplo de los datos de PanLex.
-
Muestra cómo traducir
-
la palabra turca "ev", que significa casa,
-
a bajo sorabo,
-
el idioma que mencioné antes.
-
Es poco probable encontrar
-
diccionarios de turco-bajo sorabo,
-
pero al pasarla por medio
-
de muchos idiomas intermedios diferentes,
-
se puede crear traducciones efectivas.
-
Una vez que se demostró esto
en los proyectos de investigación,
-
el fundador de PanLex,
el Dr. Jonathan Pool,
-
decidió: "¿Por qué no hacemos esto?".
-
Entonces, comenzó una ONG
-
para recolectar todos los datos léxicos
posibles y hacerlos accesibles.
-
Eso es lo que hemos hecho
en los últimos 12 años.
-
En ese tiempo, recolectamos
miles y miles de diccionarios,
-
extrajimos la información léxica
-
y compilamos una base de datos
que permite la traducción léxica inferida
-
entre cualquiera de...
-
Nuestro conteo actual
es alrededor de 5.500
-
de los 7.500 idiomas del mundo.
-
Y, desde luego,
-
intentamos constantemente expandir eso
-
y aumentar los datos
sobre cada idioma individual.
-
Entonces, la siguiente pregunta es:
-
¿qué podemos hacer
para trabajar juntos en esto?
-
En PanLex, hemos observado
con mucha emoción
-
el desarrollo sobre la información léxica,
-
en lo que Wikidata ha trabajado
últimamente.
-
Es fascinante ver que las organizaciones
-
están trabajando
en una esfera muy similar,
-
pero en aspectos diferentes.
-
Y estamos muy emocionados por ver
-
los resultados de Wikidata.
-
Además, tenemos ganas
de colaborar con Wikidata.
-
Creo que las capacidades especiales
-
que desarrollamos en los últimos 12 años,
-
no solo al recolectar datos léxicos,
sino en el diseño de bases de datos,
-
podrían ser extremadamente útiles
para Wikidata.
-
Por otra parte, creo que...
-
En especial, me emociona la capacidad
-
de Wikidata para crear datos
de colaboración abierta.
-
Actualmente, los recursos de PanLex son
-
recursos léxicos impresos
u otra clase de recursos léxicos,
-
pero no hay una colaboración abierta.
-
Simplemente, no tenemos la infraestructura
-
y, por supuesto, la Fundación Wikimedia
-
es la experta mundial
de la colaboración abierta.
-
Espero con ansias ver exactamente
-
cómo podemos unir estas habilidades.
-
Pero, en general, creo que lo principal
que debemos considerar
-
cuando trabajábamos en estas cosas
-
es el detalle.
-
Estamos de brazos cruzados,
mirando formas gramaticales
-
o pasando hojas de diccionarios antiguos
-
o, a veces, de diccionarios
publicados recientemente
-
y transformándolos en palabras
de forma escrita,
-
y se siente muy íntimo.
-
Pero, ocasionalmente, debemos recordar
-
retroceder un paso
-
con respecto a que, aunque lo que hacemos
-
se sienta mundano a veces,
-
el trabajo que hacemos es muy importante.
-
En mi opinión, esta es la mejor manera
-
de apoyar a los idiomas en extinción
-
y asegurarnos de que la diversidad
lingüística del planeta
-
se preserve hasta el final
de este siglo o más.
-
Es completamente posible que el trabajo
que hacemos hoy
-
resulte en que los idiomas
-
se preserven y se transmitan
-
y que no se extingan.
-
Entonces, recuerden
-
que incluso si se está
sentado en la computadora
-
editando una entrada individual
-
y agregando los datos
de un idioma minoritario
-
para cada sustantivo,
-
esa pequeña cosa que hace ahora mismo,
-
podría ser responsable, en parte,
-
de que esa lengua sobreviva,
-
hasta el final del siglo o más.
-
Muchas gracias,
-
y quiero invitarlos a que hagan preguntas.
-
(aplausos)
-
(persona 1) Gracias.
-
- Gracias por su charla.
- Gracias.
-
(persona 1) Tengo una pregunta
sobre los diccionarios.
-
¿Dijo que trabajan
con diccionarios impresos?
-
- Sí.
- (mujer 1) Mi pregunta
-
es: ¿qué sacan de estos diccionarios
-
y si deben lidiar
con los derechos de autor?
-
Esperaba que fuera la primera pregunta
que me harían.
-
(risas)
-
En primer lugar, para PanLex,
-
tenemos, según los recursos legales
que hemos consultado...
-
Mientras que el arreglo y la organización
de un diccionario tiene derechos de autor,
-
la traducción en sí misma
no se considera sujeta a esto.
-
Un buen ejemplo es, por ejemplo,
-
una guía telefónica se considera,
al menos en la ley estadounidense,
-
con derechos de autor.
-
Pero decir que el teléfono
de tal persona es tal número
-
no está sujeto a derechos de autor.
-
Entonces, como dije,
-
según nuestros académicos jurídicos,
-
así es cómo lidiamos con esto.
-
Pero incluso si esto no es
un argumento legal sólido,
-
algo importante a recordar
-
es que la mayoría de estos datos léxicos
-
no tienen derechos de autor.
-
Una cifra importante
de estos no tienen derechos de autor,
-
entonces se pueden usar.
-
Y, por otro lado, a veces, por ejemplo,
-
si trabajamos con un diccionario
impreso recientemente,
-
en vez de intentar escanearlo
y hacerlo OCR,
-
le mandamos un email
a la persona que lo hizo.
-
Y resulta que a la mayoría
de los lingüistas les emociona
-
que sus datos se hagan accesibles.
-
Entonces dicen: "Claro, por favor,
-
inclúyanlo todo y háganlo accesible".
-
Como dije, tenemos, al menos,
según nuestras opiniones legales,
-
tenemos la capacidad,
-
pero incluso si no se quiere hacer eso,
-
es muy fácil dar acceso público
a la información.
-
- (persona 2) Gracias. Hola
- Hola.
-
(persona 2) ¿Puede contarnos más
-
sobre cómo la persona que habla
bajo sorabo accede a la información?
-
Específicamente, ¿cómo le llega
esa información
-
y cómo podría convencerlos
-
de probar el...?
-
Una gran pregunta, y en realidad es
-
una en la que pienso mucho también,
-
porque creo que cuando
hablamos de acceso a la información,
-
en realidad hay múltiples pasos.
-
Uno es la preservación de los datos,
asegurarse de que no desaparezcan.
-
Segundo, asegurarse
de que sea interoperable,
-
y de que se pueda usar.
-
Y, tercero, asegurarse
de que esté disponible.
-
Entonces, en el caso de PanLex,
-
tenemos una API que se puede usar,
-
pero, obviamente, no la puede usar
un usuario final.
-
Pero también hemos desarrollado
interfaces.
-
Por ejemplo, si van
a translate.panlex.org,
-
pueden traducir en nuestra base de datos.
-
Si quieren jugar con la API,
vayan a dev.panlex.org,
-
y si quieren pueden encontrar mucho
en la API, o en api.panlex.org.
-
Pero también hay otro paso.
-
Aunque se haga completamente
accesible toda la información
-
con herramientas muy útiles
para acceder a ella,
-
si no se promocionan estas herramientas,
-
entonces las personas no podrán usarlas.
-
Honestamente, esto es...
-
algo que no se habla lo suficiente,
-
y no tengo una buena respuesta para esto.
-
¿Cómo nos aseguramos de que...?
-
Por ejemplo, yo, recientemente,
-
solo hace unos años me familiaricé
con Wikidata,
-
y es exactamente la clase de tema
que me interesa.
-
Entonces, ¿cómo nos promocionamos
a los demás?
-
La dejaré como una pregunta abierta.
-
Como dije, no tengo una buena respuesta
para esto.
-
Pero, por supuesto, para hacerlo,
-
aún debemos alcanzar los primeros pasos.
-
(persona 3) Si queremos tener
una traducción automática,
-
¿no necesitamos una memoria de traducción?
-
No estoy seguro
de que las palabras individuales
-
que ponemos en Wikidata,
-
estas frases cortas
que ponemos en Wikidata,
-
ya sea como elementos comunes
o lexemas de Wikidata,
-
sean suficientes para hacer
una traducción apropiada.
-
Necesitamos oraciones completas,
por ejemplo, para...
-
(Benjamin) Sí, absolutamente.
-
(persona 3) ¿Y en dónde conseguimos
esta estructura de datos?
-
No estoy seguro de que, actualmente,
-
Wikidata pueda manejar muy bien
-
el problema de una memoria de traducción,
-
translatewiki.net,
-
para meterse en ese lapso de...
-
¿Debemos hacer algo al respeto o...?
-
Sí, y de verdad aprecio la pregunta.
-
Mencioné esto un poco antes,
-
pero me encantaría reiterarlo.
-
Precisamente, por esta razón
PanLex trabaja con datos léxicos
-
y por eso me emocionan los datos léxicos,
-
en vez de... no, sino además
-
de los motores de traducción automática
y de la traducción automática en general.
-
Como dijo usted, la traducción automática
requiere datos específicos,
-
y no están disponibles
para la mayoría de los idiomas del mundo.
-
Para la gran mayoría
de los idiomas del mundo,
-
simplemente no están disponibles.
-
Pero no significa que debamos rendirnos.
-
¿Por qué?
-
Si necesitara traducir
el menú del restaurante turco,
-
entonces la traducción léxica
será una herramienta muy buena.
-
No estoy diciendo que se pueda usar
la traducción léxica
-
para hacer una traducción
de párrafo por párrafo perfecta.
-
Con traducción léxica
me refiero a palabra por palabra
-
y la traducción palabra por palabra
puede ser muy útil.
-
Es curioso pensarlo,
pero no teníamos acceso
-
a una buena traducción automática.
-
Nadie tenía acceso
hasta muy recientemente.
-
Y aún nos las arreglamos
con los diccionarios,
-
y son una fuente increíblemente buena.
-
Y la información está disponible,
¿por qué no la ponemos a disposición
-
del mundo en general
y de los hablantes de estos idiomas?
-
(persona 4) Hola, ¿qué mecanismos utilizan
-
cuando la comunidad en sí misma...
Estoy aquí.
-
- ¿Dónde está? Bien.
- (persona 4) Sí, lo siento. (risas)
-
...cuando la comunidad misma
-
no quiere parte de sus datos en PanLex?
-
Muy buena pregunta.
-
La manera en que trabajamos con eso
-
es que si un diccionario se edita
y se hace público,
-
es un buen indicador.
-
Se podría comprar en una tienda
o en la biblioteca de la universidad,
-
o en una biblioteca pública
a la que todos pueden acceder.
-
Es un buen indicador
de que se tomó la decisión.
-
(persona 4) [inaudible]
-
(persona 5) Por favor, [inaudible],
hable con el micrófono.
-
¿Puede repetirlo?
-
(persona 4) Los lingüistas no siempre
tienen el permiso de la comunidad.
-
Para poder publicar cosas,
-
suelen publicarlas sin el consentimiento
de la comunidad.
-
Eso absolutamente cierto.
-
Diría que es...
-
Suele ocurrir.
-
Diría que, generalmente,
una minoría de casos,
-
más que nada confinados a Norteamérica,
-
aunque a veces también
en idiomas sudamericanos.
-
Es algo que debemos tener en cuenta.
-
Si nos dijeran, por ejemplo,
-
que la información que está en PanLex
-
no puede accederla todo el mundo,
-
entonces, por supuesto, la quitaríamos.
-
(persona 4) Bien, bien.
-
Eso no significa, claro,
-
que seguiremos las reglas
de derechos de autor
-
pero seguiremos a las comunidades
tradicionales,
-
y esa es la gran diferencia.
-
(persona 5) Sí, a eso me refiero.
-
Saca a colación un punto interesante,
-
que es que...
-
a veces hay una gran cuestión
sobre quién habla en nombre de un idioma.
-
Tuve la experiencia de visitar
el sudoeste estadounidense
-
y de colaborar con algunos grupos
-
que trabajan con indígenas,
con los idiomas pueblo.
-
Existen aproximadamente
-
seis idiomas pueblo,
según cómo se los divida,
-
que se hablan en esa área.
-
Pero están divididos
entre 18 pueblos diferentes
-
y cada uno tiene
su propio gobierno tribal,
-
y cada gobierno puede tener
una opinión diferente
-
sobre si su idioma debe ser
accesible o no para los forasteros.
-
Como, por ejemplo, Zuni Pueblo,
-
es un único pueblo
que habla el idioma zuñi.
-
Y les interesa mucho que su idioma
vaya a todos lados,
-
lo ponen en señales de tránsito
y en todo, es grandioso.
-
Pero en algunos de los demás idiomas,
-
puede haber un grupo que diga:
-
"No queremos que los forasteros
tengan acceso a nuestro idioma".
-
Pero luego tienen el pueblo vecino
que habla el mismo idioma y dice:
-
"Queremos que nuestro idioma
sea accesible a los forasteros
-
con el uso de estas herramientas
tecnológicas,
-
porque queremos que el idioma sobreviva".
-
Y plantea una cuestión ética
muy interesante.
-
Porque si se dice por defecto:
-
"Bien, lo quitaré porque este grupo
dijo que lo quite",
-
¿no se está perjudicando al segundo grupo
-
porque este activamente
quiere que descartes estas cosas?
-
No creo que sea una pregunta
con una respuesta sencilla.
-
Pero diría que, al menos en términos
de PanLex...
-
Y que conste que aún
no nos hemos encontrado con esto,
-
que yo sepa.
-
Podría ser parcialmente porque...
-
Volviendo a la pregunta de él,
-
quizás debamos promocionar más. (risas)
-
Pero, en general, hasta donde sé,
-
esto no ha surgido.
-
Pero nuestro plan de juego para esto es,
-
si una comunidad dice que no quiere
que su idioma esté en una base de datos,
-
entonces lo quitamos.
-
(persona 4) Porque nos encontramos
con eso en Wikidata y Wikipedia...
-
- ¿En serio?
- (persona 4) ...en comentarios.
-
- ¿En serio?
- (persona 4) Es un problema.
-
Sí, imagino que en especial
en comentarios de fotos y ciertas cosas.
-
(persona 4) Correcto.
-
(persona 6) Hola. Tenía una pregunta
sobre la contribución abierta.
-
En cuanto a ir a pedirle a una comunidad
-
que anoten o añadan información
para un conjunto de datos,
-
algo que es un poco intimidante,
-
como editor,
solo veo las cosas que faltan.
-
Pero si pasaré tiempo con cosas,
con una idea,
-
existe una lista
de elementos prioritarios,
-
supongo que es muy motivador
en este aspecto.
-
Y me dio curiosidad
sobre si usted tenía un sistema
-
que es, en esencia,
conocemos los huecos en nuestros datos,
-
tenemos prueba lingüística
para saber que si tuviéramos
-
estos anotados, causarían mayor efecto.
-
Entonces, imagino
-
que tener el lexema para "casa"
es muy importante
-
quizás no un lexema para un dato u otro.
-
Pero quería saber si tiene eso, si es algo
-
que podría usarse para impulsar
estos esfuerzos comunitarios.
-
Muy buena pregunta.
-
Una cosa que tiene de mucho Wikidata...
-
Lo siento, disculpen, PanLex
tiene muchas listas de Swadesh.
-
Al parecer, tenemos la mayor colección
de listas de Swadesh en el mundo,
-
y es interesante.
-
Si no saben lo que es
una lista de Swadesh,
-
básicamente es una lista regularizada
de elementos léxicos
-
que se pueden usar para analizar idiomas.
-
Contienen conjuntos muy básicos.
-
Existen un par de clases de listas
de Swadesh diferentes.
-
Pero hay 100 o 213 elementos
-
y pueden contener
-
palabras como "casa", "ojo" y "piel",
-
y básicamente palabras generales
-
que deberían encontrarse
en cualquier idioma.
-
Es un buen punto de partida
-
para tener esa clase de datos disponibles.
-
Ahora, como dije antes,
-
aún no realizamos la contribución abierta
-
y nos emociona mucho poder hacerla.
-
Algo de lo que me emociona hablar
-
con la gente de esta conferencia
-
es cómo puede usarse
la contribución abierta
-
y la logística detrás de eso,
-
y esta es la clase de preguntas
que surgen.
-
Creo que la respuesta que puedo darle
-
es que tenemos una lista prioritaria...
-
Algo que puedo decir es
que tenemos una lista prioritaria
-
cuando se trata de qué idiomas
estamos buscando.
-
Buscamos idiomas
-
que actualmente no se sirven
de soluciones tecnológicas,
-
que suelen ser lenguas minoritarias,
-
o habitualmente lenguas minoritarias,
-
y entonces les damos prioridad.
-
Pero, en términos de que los elementos
léxicos individuales
-
sean la manera general de conseguir
nuevos datos
-
es al ingerir el valor
de un diccionario completo.
-
Dependemos de la elección
de los elementos léxicos
-
del diccionario, en vez de decir
que necesariamente
-
estamos buscando la palabra
para "casa" en cada idioma.
-
Pero cuando se trata de la contribución
abierta, necesitamos algo así.
-
Entonces es una oportunidad
para investigar y crecer.
-
(persona 7) Hola, soy Victor,
y esto es asombroso.
-
Ya que tiene diapositivas,
-
¿podría hablar un poco
sobre el estatus técnico
-
que actualmente el flujo
-
de datos o información
de y hacia Wikidata y PanLex.
-
¿Actualmente está implementado
-
y cómo lidia con un lado y el otro
-
o con la información de ciclo
de retroalimentación
-
entre PanLex y Wikidata?
-
No tenemos conexiones formales
con Wikidata en este momento,
-
y es algo que, de nuevo,
-
me emociona contar
a las personas en la conferencia.
-
Hemos tenido interacciones con Wiktionary,
-
pero Wikidata es una opción mejor,
sinceramente,
-
para lo que estamos buscando.
-
Tener elementos léxicos directamente
-
significa que debemos analizar
y extraer menos datos.
-
Entonces, la respuesta es:
aún no, pero queremos.
-
(persona 7) Y si no,
¿cuáles son los obstáculos?
-
Podemos ver que Wikidata
ya soporta muchos idiomas,
-
pero cuando busco en translate.panlex.org,
-
parece que ustedes soportan
muchas más variedades,
-
muchas más que Wikidata.
-
¿Cómo ve que haya un lapso
-
entre la traducción
o primero la traducción léxica,
-
la aplicación versus el esfuerzo
-
mientras se intenta mapear
una estructura de conocimiento?
-
Mapear el conocimiento
será muy interesante.
-
Hemos tenido debates interesantes
-
sobre la manera en que Wikidata
organiza sus datos léxicos,
-
sus datos léxicos,
-
y cómo organizamos nosotros
nuestros datos léxicos.
-
Hay diferencias sutiles que requerirían
una estrategia de mapeo,
-
algunas no serán necesariamente
automáticas,
-
pero podríamos desarrollar
técnicas para hacerlo.
-
Usted dio el ejemplo
de las variedades de la lengua.
-
Tendemos a ser muy "separatistas"
cuando se trata de variedades de lenguas.
-
En otras palabras,
si tenemos una fuente que dice
-
que este es el dialecto que se habla
-
en el lado izquierdo del río
en Papúa Nueva Guinea, para este idioma,
-
y tenemos otra fuente que dice
-
que este es el dialecto hablado
a la derecha del río,
-
entonces los consideramos
idiomas separados.
-
Lo hacemos para preservar
la mayor información posible.
-
Poder mapear eso
a cómo lo hace Wikidata...
-
En realidad, me encantaría conversar
-
sobre cómo se designan
-
los idiomas en Wikidata.
-
De nuevo, vamos
con la estrategia "separatista".
-
En términos generales,
dependemos de los códigos ISO 6393,
-
brindados por Ethnologue,
-
y entonces cada código individual
tiene permitido variedades adentro,
-
ya sea variedades de escritura,
regionales o dialectos sociales, etc.
-
De nuevo, es una oportunidad
para debatir y trabajar.
-
(persona 8) Hola, quisiera saber
si tiene una fuente de OCR
-
en especial porque hemos intentado
hacer OCR en maya,
-
y no obtenemos resultados.
-
No comprende nada...
-
- ¡Sí! (risas)
- (persona 8) Y... sí.
-
Entonces, ¿sus fuentes están disponibles?
-
Y la otra es si, en la superposición
de códigos ISO,
-
como dicen a veces:
-
"Ah, esto es un idioma y este es otro",
-
pero hay fuentes que dicen otra cosa,
-
como dijo usted, tienden a superponerse.
-
Entonces, ¿cómo hace...? Sí.
-
Sí, es una pregunta asombrosa.
-
Me gusta mucho.
-
No tenemos una fuente OCR
formalizada exactamente,
-
lo hacemos fuente por fuente.
-
Una de las razones es porque
a veces tenemos fuentes
-
que no necesitan que hagamos OCR,
-
que están disponibles
para algunos idiomas,
-
y nos concentramos en esos porque
requieren menos trabajo.
-
Pero, obviamente, si queremos profundizar
-
en unas de nuestras fuentes
que están pendientes,
-
necesitaremos desarrollar
fuentes OCR más sólidas.
-
Pero también hay otro aspecto,
que es, como dijo usted...
-
Las personas que diseñaron
los motores OCR,
-
creo que no saben cuánto
se pueden someter a pruebas de esfuerzo.
-
¿Saben qué es divertido?
-
Intentar hacer OCR
con un diccionario ruso-tibetano.
-
Resulta que es muy difícil...
-
Nos rendimos y contratamos
a alguien para tipearlo,
-
y fue completamente posible.
-
Y, en realidad, resulta
-
que esta rusa asombrosa
aprendió a leer tibetano
-
para poder tipearlo, y fue muy genial.
-
Creo que están tratando con cosas
de la escritura latina,
-
entonces creo que las soluciones de OCR
que se pueden desarrollar son más sólidas,
-
tratan con fuentes multilingües como esta
-
y esperan conseguir un cuatro al azar,
-
si estás tratando con algo
-
como fuentes mayas del siglo XVI,
con cuatro dígitos.
-
Pero hay algunas fuentes
-
que OCR probablemente nunca alcance
-
o requieren una inmensa
cantidad de trabajo,
-
y en realidad utilizamos
un poco esto ahora.
-
Tenemos otro proyecto activo en PanLex
-
para transcribir toda la literatura
tradicional de Bali,
-
y encontramos
que en los manuscritos balineses
-
no hay posibilidad de OCR.
-
Entonces, hicimos que un grupo
de balineses los tipearan,
-
y se volvió un proyecto cultural
muy genial en Bali,
-
y se convirtió en noticia y esas cosas.
-
Entonces, diría
-
que no se debe depender del OCR
necesariamente,
-
sino que hay muchas opciones.
-
Tener buenas soluciones de OCR
sería bueno.
-
Además, si alguien está interesado
en la OCR multilingüe,
-
por favor, venga a hablarme.
-
(persona 9) Muchas gracias
por su presentación.
-
Habló sobre la integración
-
entre PanLex y Wikidata,
-
pero no se adentró en lo específico.
-
Entonces estaba revisando su licencia
de datos y está bajo CC0.
-
- Sí.
- (persona 9) Es grandioso.
-
Entonces, existen dos maneras posibles,
-
podemos importar los datos
-
o continuar algo similar
a la manera de Freebase,
-
donde tuvimos la base de datos
completa de Freebase,
-
la importamos y creamos un enlace,
-
un identificador externo
a la base de datos de Freebase.
-
Entonces, si tiene algo en mente,
¿piensa algo parecido?
-
¿O solo quiere hacer...
-
una base de datos independiente
que se enlace con Wikidata?
-
Sí, es una pregunta grandiosa
-
y siento es un paso adelante
-
de algunas de las cosas
que he estado pensando,
-
parcialmente porque, como dije,
-
conseguir que las dos bases
de datos funcionen juntas
-
es un paso por sí mismo.
-
Creo que el primer paso que podemos dar
-
es literalmente unir nuestras habilidades.
-
Tenemos mucha experiencia lidiando
con cosas
-
como clasificaciones de propiedades
de lexemas individuales
-
que me encantaría compartir.
-
Pero ser capaz de enlazar
las bases de datos sería maravilloso.
-
Estoy interesado al 100 %.
-
Creo que sería un poco más fácil
-
desde Wikidata hasta PanLex,
-
pero quizás soy parcial,
porque veo cómo podría funcionar.
-
Sí, básicamente,
siempre que Wikidata esté cómodo
-
con todas las licencias,
o resolvamos algo juntos,
-
entonces creo que sería una gran idea.
-
Solo debemos encontrar maneras
de enlazar los datos.
-
Algo que imagino es que me encantaría
que las ediciones de Wikidata
-
se ingresaran de inmediato
a la base de datos de PanLex,
-
sin tener que, básicamente,
-
reingresarlas cada vez...
-
Hacer de Wikidata una interfaz
de contribución pública con PanLex
-
sería realmente asombroso.
-
Y luego poder usar PanLex
en traducciones inmediatas,
-
poder hacer traducir a través
de elementos léxicos de Wikidata
-
sería glorioso.
-
(persona 10) Es como el proceso
de auditoría de esta red semántica
-
para cerrar huecos por inferencia.
-
Si lo pensamos más,
esta clase de traducción,
-
¿cómo se lidia
con la discordancia semántica
-
y la discordancia gramática?
-
Por ejemplo, si se intenta traducir
algo al alemán,
-
simplemente puedes colocar
varias palabras juntas
-
y alcanzar algo razonable,
-
y, por otro lado, creo a veces que leo
-
que no todos los idiomas
tienen el mismo sistema granular
-
para los colores, por ejemplo.
-
¿Usted dijo que todo
-
usa un sistema diferente
para los colores o el mismo?
-
(persona 10) Recuerdo que es
por la evolución del lenguaje
-
que comenzaron con blanco y negro
y luego...
-
Sí, la jerarquía del color.
-
La jerarquía del color
-
es una gran manera de ilustrar
cómo funciona esto, ¿verdad?
-
Básicamente, cuando se tiene
un único idioma puente...
-
es interesante cuando lees
los ensayos sobre traducción automática
-
porque a veces hablan
sobre un idioma puente hipotético,
-
y dicen: "Sí, hay un idioma puente",
-
y luego lees el ensayo y dice:
"Es el inglés".
-
Entonces, lo que hace esta forma
de traducción léxica
-
al pasarla por diferentes idiomas
intermedios
-
es que tiene el efecto de lidiar
con mucha ambigüedad semántica.
-
Porque mientras lo pases por idiomas
-
que contienen límites semánticos
razonablemente similares a una palabra,
-
entonces evitas el problema
-
de introducir ambigüedad semántica
mediante el idioma puente.
-
Entonces, al usar la jerarquía del color
como ejemplo,
-
si tomas un idioma que tiene
una sola palabra para verde y azul
-
y la traduce a azul
-
en tu único idioma puente
-
y luego a otro idioma
-
que tiene ambigüedades diferentes,
-
entonces terminas introduciendo
ambigüedad semántica.
-
Pero si la pasas por un montón
de otros idiomas
-
que también contienen un único
elemento léxico para verde y azul,
-
entonces, básicamente,
esa especificidad semántica
-
se transmite al idioma resultante.
-
En cuanto a los aspectos
característicos gramaticales,
-
PanLex, en su historia, fundamentalmente,
-
ha recolectado lexemas, formas léxicas.
-
Con eso, quiero decir, básicamente,
-
lo que tienes como palabra clave
para un diccionario.
-
Esta vez no nos concentramos
necesariamente
-
en recolectar formas
de variedades gramaticales,
-
cosas como datos [de idiomas], etc.
-
o el tiempo pasado y presente.
-
Pero es algo que estamos mirando.
-
Algo que siempre es importante recordar
-
es que, debido a que nuestro foco en...
-
está en los idiomas minoritarios
marginados y en extinción,
-
queremos asegurarnos
de que algo esté disponible
-
antes de perfeccionarlo.
-
Una frase que me encanta es:
-
"No dejes que la perfección
sea enemiga de lo bueno",
-
y eso que lo que pretendemos hacer.
-
Pero estamos muy interesados en la idea
-
de poder manejar formas gramaticales
-
y traducir a través
de formas gramaticales,
-
y es algo que hemos investigado,
-
pero aún no hemos implementado
por completo.
-
(Persona 11) Entonces, de los 7.500 idiomas,
-
supongo que dependen de diccionarios
escritos para nosotros,
-
pero ¿todos esos idiomas tienen
formas escritas estándares
-
y cómo lidian con...?
-
Es una buena pregunta.
-
Sí, muchos de estos idiomas,
-
como todos saben, son verbales.
-
Pero cualquier idioma
para el que se ha producido un diccionario
-
tiene alguna clase de ortografía,
-
y dependemos de la ortografía
producida para el diccionario.
-
Ocasionalmente, manipulamos
ligeramente la ortografía
-
si podemos garantizar
que no tenga pérdidas.
-
Pero tendemos a evitarlo
tanto como sea posible.
-
No nos metemos en el tema
-
de desarrollar ortografías
para los idiomas,
-
porque a veces están desarrolladas,
-
incluso aunque no estén publicadas.
-
Entonces, por ejemplo,
-
para muchos idiomas hablados
en Nueva Guinea,
-
puede que no haya una forma ortográfica
utilizada comúnmente,
-
pero a algunos lingüistas
se les ocurre algo
-
y es un buen primer paso.
-
También recolectamos formas fonéticas
cuando están disponibles en diccionarios,
-
y esa es otra manera de entrar,
-
una representación de la palabra en IPA,
-
si está disponible.
-
Eso también se puede usar.
-
Pero normalmente no usamos eso
como un puente
-
porque introduce ciertas ambigüedades.
-
(persona 12) Gracias,
puede que sea una pregunta muy tonta,
-
pero ¿esos son solo los idiomas
intermedios con los que trabajan?
-
No. No.
-
(persona 12) Sí, bien. Gracias.
-
No, me alegra que lo preguntara.
Responde a la pregunta.
-
Esta es una captura de pantalla
de translate.panlex.org.
-
Si haces una traducción,
-
recibirás una lista de traducciones
en el lado derecho.
-
Haces clic en un botón de tres puntos
y recibirás un gráfico como este.
-
Y lo que muestra son
los idiomas intermedios,
-
los 20 principales por puntaje...
-
Podría entrar en detalles
sobre el puntaje,
-
pero no es importante ahora...
-
por el puntaje con que se usa.
-
Pero para traducir, en realidad
usamos mucho más que 20.
-
Lo limité a 20 porque si tienes más...
-
en realidad esto es
una simulación de física,
-
puedes mover las cosas y hacen garabatos.
-
Si tienes más de 20,
la computadora se altera.
-
Entonces es una demostración, sí.
-
(persona 13) Leila,
de la Fundación Wikimedia.
-
Solo una nota sobre...
-
Mencionó a la Fundación Wikimedia
un par de veces en la presentación,
-
quería saber si quiere hacer
alguna clase de incorporación de datos
-
o una colaboración con Wikidata,
-
¿quizás Wikimedia Deutschland
sería un lugar mejor
-
para conversar?
-
Porque Wikidata vive
dentro de Wikimedia Deutschland
-
y el equipo está allí,
-
y además la comunidad
de voluntarios de Wikidata
-
sería el lugar perfecto para hablar
-
sobre cualquier clase de incorporaciones
-
o trabajar para acercar PanLex a Wikidata.
-
Grandioso, muchas gracias,
-
porque, sinceramente,
no estoy muy familiarizado
-
con todas las complejidades
de la arquitectura
-
de cómo se relacionan todos los proyectos.
-
Por las risas, supongo que es complicado.
-
Pero, sí, básicamente, queremos hablar
-
con quien sea responsable de Wikidata.
-
Solo queremos localizar
-
estamos interesados en hablar
con quien sea responsable de Wikidata,
-
que son todos ustedes, los voluntarios.
-
¿Hay más preguntas?
-
Bien, si alguien tiene
más preguntas después
-
o de algo que hablé... los detalles
y las especificaciones de estas cosas,
-
por favor, vengan a hablarme,
estoy muy interesado.
-
En especial, si trabajan con algo
que involucre elementos léxicos,
-
algo que involucre
idiomas minoritarios en extinción
-
y lenguas marginadas,
-
y además Unicode,
también me dedico a eso.
-
Muchas gracias,
-
y gracias por invitarme a hablar,
-
espero que lo hayan disfrutado.
-
(aplausos)