cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

Edit subtitles

0:06 - 0:09

Se hablan aproximadamente
7.500 idiomas
0:09 - 0:11

en el planeta hoy en día.
0:12 - 0:14

De esos, se estima
0:14 - 0:18

que el 70 % corre peligro
de no sobrevivir
0:18 - 0:20

al fin del siglo XXI.
0:22 - 0:24

Cada vez que muere un idioma,
0:25 - 0:27

se corta una conexión,
0:27 - 0:31

que ha durado desde cientos
hasta miles de años,
0:31 - 0:35

a la cultura, a la historia
0:35 - 0:38

a las tradiciones y al conocimiento.
0:39 - 0:42

El lingüista Kenneth Hale dijo
0:42 - 0:44

que cada vez que muere un idioma,
0:44 - 0:47

es como arrojar una bomba atómica
en el Louvre.
0:49 - 0:52

Entonces, la pregunta es:
0:53 - 0:55

¿por qué mueren los idiomas?
0:56 - 1:00

Bien, quizás la respuesta simple sería
1:00 - 1:03

que se podría pensar
que los gobiernos autoritarios
1:03 - 1:05

impiden que las personas hablen
su lengua nativa,
1:06 - 1:10

castigan a los niños por hablar
su idioma en la escuela
1:10 - 1:13

o el gobierno cierra
las estaciones de radio
1:13 - 1:15

de la lengua minoritaria.
1:15 - 1:17

Y esto ha ocurrido en el pasado,
1:17 - 1:19

y aún ocurre hoy en día
hasta cierto punto.
1:20 - 1:23

Pero la respuesta honesta
1:23 - 1:27

es que en la mayoría de los casos
de la extinción de una lengua,
1:27 - 1:29

es una respuesta mucho más simple
1:29 - 1:33

y más fácil de explicar.
1:34 - 1:36

Los idiomas se extinguen
1:36 - 1:38

porque no se transmiten
1:38 - 1:40

de una generación a la siguiente.
1:42 - 1:44

Cada vez que una persona que habla
1:44 - 1:46

un idioma minoritario tiene un hijo,
1:47 - 1:50

realiza un cálculo.
1:51 - 1:53

Se pregunta:
1:54 - 1:56

"¿Le enseño mi idioma a mi hijo
1:57 - 2:01

o le enseño solo el idioma mayoritario?".
2:01 - 2:03

Básicamente, hay una balanza
2:04 - 2:06

a la que accede en su mente,
2:07 - 2:08

en la que de un lado
2:10 - 2:12

cada vez en su vida
2:12 - 2:14

que tuvo la oportunidad
de usar su lengua nativa
2:15 - 2:18

para comunicarse,
para acceder a la cultura tradicional,
2:20 - 2:22

se coloca una piedra en el lado izquierdo.
2:22 - 2:24

Y cada vez que resulta
2:24 - 2:26

que no puede usar su lengua nativa
2:26 - 2:28

y debe depender del idioma mayoritario,
2:28 - 2:30

se coloca una piedra en el lado derecho.
2:32 - 2:35

Debido a la fortaleza y a la dignidad
2:35 - 2:37

de poder hablar la lengua materna propia,
2:37 - 2:39

las piedras de la izquierda
suelen ser más pesadas.
2:39 - 2:42

Pero con suficientes piedras
en el lado derecho,
2:43 - 2:45

entonces al final la balanza se inclina,
2:45 - 2:47

y entonces cuando una persona
toma la decisión
2:47 - 2:49

de transmitir su idioma,
2:49 - 2:51

ven a su propia lengua
2:51 - 2:53

como una carga en lugar de una bendición.
2:55 - 2:59

Entonces, la pregunta es:
¿cómo revertimos esto?
2:59 - 3:02

Primero, debemos pensar en el hecho
3:04 - 3:05

de que, para cualquier idioma,
3:05 - 3:08

existen ciertas esferas sociales
en las que se puede usar.
3:08 - 3:09

Entonces, cualquier idioma
3:09 - 3:11

que es una lengua materna
hablada hoy en día
3:11 - 3:13

se puede usar con la familia propia.
3:14 - 3:17

Un conjunto menor de idiomas
se pueden usar con la comunidad,
3:17 - 3:19

un conjunto menor,
quizás dentro de una región,
3:19 - 3:22

y un puñado menor de lenguas,
3:23 - 3:24

se pueden usar
para la comunicación internacional.
3:26 - 3:29

E incluso a través de estas esferas,
3:29 - 3:32

existe la pregunta:
¿puede alguien usar su idioma
3:32 - 3:36

con el objetivo de la educación,
los negocios
3:36 - 3:38

o en la tecnología?
3:39 - 3:42

Entonces, para explicar mejor
3:43 - 3:45

lo que estoy diciendo aquí,
3:45 - 3:46

quisiera usar una anécdota.
3:48 - 3:50

Digamos que está a punto de irse
3:50 - 3:52

a sus vacaciones soñadas en India,
3:53 - 3:56

y tiene una escala de ocho horas
en Estambul.
3:57 - 4:01

No planeaba visitar Turquía
necesariamente,
4:01 - 4:04

pero con la escala y un amigo turco
4:04 - 4:06

que le habla de un restaurante increíble
4:06 - 4:07

que no está lejos del aeropuerto,
4:08 - 4:11

dice: "Quizás iré durante la escala".
4:11 - 4:13

Entonces, sale del aeropuerto,
4:14 - 4:15

llega al restaurante,
4:15 - 4:17

le dan un menú
4:17 - 4:19

y este menú está completamente en turco.
4:20 - 4:23

Ahora, supongamos,
por la idea de este ejercicio,
4:23 - 4:24

que no habla turco.
4:25 - 4:27

¿Qué hace?
4:28 - 4:30

Bien, en el mejor de los casos,
4:30 - 4:32

encuentra a alguien que hable
su idioma nativo,
4:32 - 4:34

alemán, inglés, etc.
4:36 - 4:38

Pero, supongamos
que no es su día de suerte
4:38 - 4:41

y nadie en el restaurante habla
alemán ni inglés.
4:42 - 4:43

¿Qué hace?
4:43 - 4:46

Si es como yo,
e imagino que la mayoría lo es,
4:46 - 4:48

probablemente irá
a una solución tecnológica,
4:50 - 4:52

la traducción automática
o un diccionario digital,
4:53 - 4:54

busca cada palabra individualmente
4:54 - 4:58

y al final pide
una comida turca deliciosa.
5:00 - 5:03

Ahora, imaginemos este escenario
5:04 - 5:06

en donde es hablante nativo
de una lengua minoritaria.
5:07 - 5:09

Por ejemplo, el bajo sorabo.
5:09 - 5:11

El bajo sorabo es una lengua en extinción
5:11 - 5:12

que se habla aquí en Alemania,
5:12 - 5:17

a unos 130 kilómetros al sureste de aquí,
5:18 - 5:21

y solo la hablan pocos miles de personas,
mayormente ancianos.
5:23 - 5:25

Supongamos que su lengua nativa
es el bajo sorabo.
5:25 - 5:27

Llega al restaurante.
5:27 - 5:28

La probabilidad de encontrar a alguien
5:28 - 5:31

que hable su lengua nativa
en el restaurante es muy baja.
5:32 - 5:36

Pero, de nuevo, puede usar
una solución tecnológica.
5:37 - 5:39

Sin embargo, para su idioma nativo,
5:39 - 5:42

estas soluciones tecnológicas no existen.
5:42 - 5:45

Debería depender del alemán o el inglés
5:45 - 5:47

como lenguaje de pivote hacia el turco.
5:49 - 5:52

También podría terminar
consiguiendo su comida turca deliciosa,
5:52 - 5:55

pero comienza a pensar
lo difícil que hubiera sido
5:55 - 5:57

si fuera su abuelo,
que no hablaba alemán para nada.
5:58 - 6:00

Este es solo un pequeño incidente,
6:00 - 6:05

pero colocará una piedra
en el lado derecho de la balanza,
6:05 - 6:07

y quizás le haga pensar
6:07 - 6:10

que cuando tenga hijos
o cuando tenga otro hijo,
6:11 - 6:15

la carga que soportó
6:15 - 6:17

podría no valer la pena
para conservar su idioma.
6:19 - 6:21

E imagine si este fuera un escenario
6:21 - 6:26

con importancia más significativa,
6:26 - 6:28

como, por ejemplo, estar en un hospital.
6:31 - 6:36

Este es el punto en donde podemos ayudar,
6:37 - 6:40

me refiero a que ustedes en esta sala
y yo podemos ayudar.
6:41 - 6:43

Tenemos las herramientas para ayudar.
6:45 - 6:47

Si las herramientas tecnológicas
están disponibles
6:47 - 6:49

para quienes hablan idiomas
minoritarios y marginados,
6:51 - 6:54

coloca un dedo
en el lado izquierdo de la balanza.
6:54 - 6:56

Alguien no debe pensar necesariamente
6:56 - 6:58

que deben depender
de un idioma minoritario
6:58 - 6:59

para interactuar con el mundo exterior,
7:00 - 7:05

porque abre las esferas sociales
7:05 - 7:06

un poco más.
7:08 - 7:10

Por supuesto, la solución ideal
7:10 - 7:13

es tener traducción automática
en todos los idiomas del mundo.
7:13 - 7:17

Pero, lamentablemente, no es factible.
7:17 - 7:20

La traducción automática
requiere un gran corpus de texto,
7:20 - 7:21

y para muchos de estos idiomas
7:21 - 7:23

que están en extinción o marginados,
7:23 - 7:25

estos datos no están disponibles.
7:26 - 7:28

Algunos ni siquiera se escriben
comúnmente,
7:29 - 7:33

entonces, conseguir suficientes datos
y crear un motor de traducción automática
7:33 - 7:34

es poco probable.
7:34 - 7:38

Pero lo que sí está disponible
son los datos léxicos.
7:40 - 7:43

Mediante el trabajo de muchos lingüistas
7:43 - 7:45

a lo largo de los últimos cien años,
7:48 - 7:50

se han producido diccionarios y manuales
7:50 - 7:52

para la mayoría de los idiomas del mundo.
7:54 - 7:57

Pero, lamentablemente,
la mayoría de estas obras
7:57 - 8:01

no son accesibles o no están disponibles
para el mundo,
8:01 - 8:04

y menos para hablantes
de los idiomas minoritarios.
8:05 - 8:06

Y no es un proceso intencional,
8:06 - 8:08

muchas veces es solo porque
8:08 - 8:11

la primera edición de estos diccionarios
era pequeña,
8:11 - 8:13

y las únicas copias
8:13 - 8:16

se están pudriendo en la biblioteca
de alguna universidad.
8:18 - 8:21

Pero tenemos la capacidad
de tomar esa información
8:21 - 8:23

y hacerla accesible para el mundo.
8:24 - 8:28

La Fundación Wikimedia es
una de las mejores organizaciones,
8:28 - 8:31

yo diría que es la mejor organización
de todo el mundo,
8:31 - 8:33

para proporcionar datos
8:33 - 8:37

a la mayoría de la población del planeta.
8:39 - 8:40

Entonces, trabajemos en eso.
8:41 - 8:43

Para explicar un poco más
8:43 - 8:45

lo que hemos estado haciendo al respecto,
8:45 - 8:48

quisiera presentar a mi organización,
PanLex,
8:49 - 8:52

que es una organización que intenta
8:52 - 8:54

recolectar datos léxicos
para este propósito.
8:55 - 8:57

Empezamos hace 12 años
8:57 - 9:00

en la Universidad de Washington,
como un proyecto de investigación.
9:00 - 9:01

La idea detrás
9:01 - 9:04

era mostrar que las traducciones inferidas
9:04 - 9:07

podían crear un dispositivo
de traducción efectivo,
9:07 - 9:09

básicamente, un dispositivo
de traducción léxico.
9:09 - 9:12

Este es un ejemplo de los datos de PanLex.
9:13 - 9:14

Muestra cómo traducir
9:14 - 9:18

la palabra turca "ev", que significa casa,
9:18 - 9:20

a bajo sorabo,
9:20 - 9:21

el idioma que mencioné antes.
9:21 - 9:23

Es poco probable encontrar
9:24 - 9:26

diccionarios de turco-bajo sorabo,
9:26 - 9:28

pero al pasarla por medio
9:28 - 9:30

de muchos idiomas intermedios diferentes,
9:30 - 9:33

se puede crear traducciones efectivas.
9:34 - 9:37

Una vez que se demostró esto
en los proyectos de investigación,
9:37 - 9:40

el fundador de PanLex,
el Dr. Jonathan Pool,
9:41 - 9:44

decidió: "¿Por qué no hacemos esto?".
9:44 - 9:45

Entonces, comenzó una ONG
9:45 - 9:49

para recolectar todos los datos léxicos
posibles y hacerlos accesibles.
9:49 - 9:51

Eso es lo que hemos hecho
en los últimos 12 años.
9:51 - 9:55

En ese tiempo, recolectamos
miles y miles de diccionarios,
9:55 - 9:56

extrajimos la información léxica
9:56 - 10:01

y compilamos una base de datos
que permite la traducción léxica inferida
10:01 - 10:04

entre cualquiera de...
10:04 - 10:06

Nuestro conteo actual
es alrededor de 5.500
10:06 - 10:08

de los 7.500 idiomas del mundo.
10:09 - 10:11

Y, desde luego,
10:11 - 10:12

intentamos constantemente expandir eso
10:12 - 10:15

y aumentar los datos
sobre cada idioma individual.
10:17 - 10:21

Entonces, la siguiente pregunta es:
10:22 - 10:26

¿qué podemos hacer
para trabajar juntos en esto?
10:27 - 10:29

En PanLex, hemos observado
con mucha emoción
10:29 - 10:31

el desarrollo sobre la información léxica,
10:31 - 10:34

en lo que Wikidata ha trabajado
últimamente.
10:35 - 10:38

Es fascinante ver que las organizaciones
10:38 - 10:39

están trabajando
en una esfera muy similar,
10:39 - 10:41

pero en aspectos diferentes.
10:42 - 10:44

Y estamos muy emocionados por ver
10:45 - 10:46

los resultados de Wikidata.
10:46 - 10:51

Además, tenemos ganas
de colaborar con Wikidata.
10:54 - 10:56

Creo que las capacidades especiales
10:56 - 10:58

que desarrollamos en los últimos 12 años,
10:58 - 11:02

no solo al recolectar datos léxicos,
sino en el diseño de bases de datos,
11:02 - 11:04

podrían ser extremadamente útiles
para Wikidata.
11:04 - 11:07

Por otra parte, creo que...
11:08 - 11:11

En especial, me emociona la capacidad
11:12 - 11:15

de Wikidata para crear datos
de colaboración abierta.
11:15 - 11:18

Actualmente, los recursos de PanLex son
11:18 - 11:21

recursos léxicos impresos
u otra clase de recursos léxicos,
11:21 - 11:23

pero no hay una colaboración abierta.
11:23 - 11:25

Simplemente, no tenemos la infraestructura
11:25 - 11:27

y, por supuesto, la Fundación Wikimedia
11:27 - 11:29

es la experta mundial
de la colaboración abierta.
11:32 - 11:34

Espero con ansias ver exactamente
11:34 - 11:36

cómo podemos unir estas habilidades.
11:39 - 11:42

Pero, en general, creo que lo principal
que debemos considerar
11:42 - 11:43

cuando trabajábamos en estas cosas
11:43 - 11:45

es el detalle.
11:45 - 11:48

Estamos de brazos cruzados,
mirando formas gramaticales
11:48 - 11:52

o pasando hojas de diccionarios antiguos
11:52 - 11:54

o, a veces, de diccionarios
publicados recientemente
11:54 - 11:57

y transformándolos en palabras
de forma escrita,
11:57 - 12:00

y se siente muy íntimo.
12:00 - 12:02

Pero, ocasionalmente, debemos recordar
12:02 - 12:03

retroceder un paso
12:03 - 12:05

con respecto a que, aunque lo que hacemos
12:06 - 12:09

se sienta mundano a veces,
12:10 - 12:12

el trabajo que hacemos es muy importante.
12:13 - 12:16

En mi opinión, esta es la mejor manera
12:16 - 12:19

de apoyar a los idiomas en extinción
12:19 - 12:21

y asegurarnos de que la diversidad
lingüística del planeta
12:21 - 12:26

se preserve hasta el final
de este siglo o más.
12:26 - 12:30

Es completamente posible que el trabajo
que hacemos hoy
12:30 - 12:33

resulte en que los idiomas
12:33 - 12:35

se preserven y se transmitan
12:35 - 12:37

y que no se extingan.
12:39 - 12:41

Entonces, recuerden
12:41 - 12:43

que incluso si se está
sentado en la computadora
12:43 - 12:44

editando una entrada individual
12:44 - 12:50

y agregando los datos
de un idioma minoritario
12:50 - 12:52

para cada sustantivo,
12:52 - 12:55

esa pequeña cosa que hace ahora mismo,
12:55 - 12:58

podría ser responsable, en parte,
12:58 - 12:59

de que esa lengua sobreviva,
12:59 - 13:01

hasta el final del siglo o más.
13:03 - 13:04

Muchas gracias,
13:04 - 13:06

y quiero invitarlos a que hagan preguntas.
13:06 - 13:08

(aplausos)
13:24 - 13:25

(persona 1) Gracias.
13:25 - 13:27

- Gracias por su charla.
- Gracias.
13:27 - 13:29

(persona 1) Tengo una pregunta
sobre los diccionarios.
13:29 - 13:31

¿Dijo que trabajan
con diccionarios impresos?
13:31 - 13:32

- Sí.
- (mujer 1) Mi pregunta
13:32 - 13:35

es: ¿qué sacan de estos diccionarios
13:35 - 13:38

y si deben lidiar
con los derechos de autor?
13:38 - 13:41

Esperaba que fuera la primera pregunta
que me harían.
13:41 - 13:43

(risas)
13:43 - 13:46

En primer lugar, para PanLex,
13:46 - 13:50

tenemos, según los recursos legales
que hemos consultado...
13:53 - 13:57

Mientras que el arreglo y la organización
de un diccionario tiene derechos de autor,
13:57 - 14:03

la traducción en sí misma
no se considera sujeta a esto.
14:04 - 14:06

Un buen ejemplo es, por ejemplo,
14:06 - 14:11

una guía telefónica se considera,
al menos en la ley estadounidense,
14:11 - 14:12

con derechos de autor.
14:12 - 14:17

Pero decir que el teléfono
de tal persona es tal número
14:17 - 14:18

no está sujeto a derechos de autor.
14:22 - 14:23

Entonces, como dije,
14:23 - 14:25

según nuestros académicos jurídicos,
14:25 - 14:27

así es cómo lidiamos con esto.
14:27 - 14:31

Pero incluso si esto no es
un argumento legal sólido,
14:31 - 14:32

algo importante a recordar
14:32 - 14:38

es que la mayoría de estos datos léxicos
14:39 - 14:41

no tienen derechos de autor.
14:41 - 14:43

Una cifra importante
de estos no tienen derechos de autor,
14:43 - 14:44

entonces se pueden usar.
14:44 - 14:47

Y, por otro lado, a veces, por ejemplo,
14:47 - 14:50

si trabajamos con un diccionario
impreso recientemente,
14:50 - 14:52

en vez de intentar escanearlo
y hacerlo OCR,
14:52 - 14:53

le mandamos un email
a la persona que lo hizo.
14:53 - 14:58

Y resulta que a la mayoría
de los lingüistas les emociona
14:58 - 15:00

que sus datos se hagan accesibles.
15:00 - 15:01

Entonces dicen: "Claro, por favor,
15:01 - 15:03

inclúyanlo todo y háganlo accesible".
15:06 - 15:08

Como dije, tenemos, al menos,
según nuestras opiniones legales,
15:08 - 15:09

tenemos la capacidad,
15:09 - 15:11

pero incluso si no se quiere hacer eso,
15:11 - 15:16

es muy fácil dar acceso público
a la información.
15:26 - 15:28

- (persona 2) Gracias. Hola
- Hola.
15:28 - 15:30

(persona 2) ¿Puede contarnos más
15:30 - 15:35

sobre cómo la persona que habla
bajo sorabo accede a la información?
15:35 - 15:38

Específicamente, ¿cómo le llega
esa información
15:38 - 15:41

y cómo podría convencerlos
15:41 - 15:43

de probar el...?
15:43 - 15:45

Una gran pregunta, y en realidad es
15:45 - 15:46

una en la que pienso mucho también,
15:46 - 15:50

porque creo que cuando
hablamos de acceso a la información,
15:50 - 15:53

en realidad hay múltiples pasos.
15:53 - 15:56

Uno es la preservación de los datos,
asegurarse de que no desaparezcan.
15:56 - 15:59

Segundo, asegurarse
de que sea interoperable,
15:59 - 16:02

y de que se pueda usar.
16:02 - 16:05

Y, tercero, asegurarse
de que esté disponible.
16:06 - 16:07

Entonces, en el caso de PanLex,
16:07 - 16:10

tenemos una API que se puede usar,
16:10 - 16:12

pero, obviamente, no la puede usar
un usuario final.
16:12 - 16:15

Pero también hemos desarrollado
interfaces.
16:15 - 16:20

Por ejemplo, si van
a translate.panlex.org,
16:20 - 16:23

pueden traducir en nuestra base de datos.
16:23 - 16:26

Si quieren jugar con la API,
vayan a dev.panlex.org,
16:26 - 16:29

y si quieren pueden encontrar mucho
en la API, o en api.panlex.org.
16:31 - 16:33

Pero también hay otro paso.
16:33 - 16:37

Aunque se haga completamente
accesible toda la información
16:37 - 16:41

con herramientas muy útiles
para acceder a ella,
16:41 - 16:43

si no se promocionan estas herramientas,
16:43 - 16:45

entonces las personas no podrán usarlas.
16:45 - 16:47

Honestamente, esto es...
16:49 - 16:51

algo que no se habla lo suficiente,
16:51 - 16:53

y no tengo una buena respuesta para esto.
16:53 - 16:55

¿Cómo nos aseguramos de que...?
16:55 - 16:57

Por ejemplo, yo, recientemente,
16:57 - 17:00

solo hace unos años me familiaricé
con Wikidata,
17:00 - 17:02

y es exactamente la clase de tema
que me interesa.
17:03 - 17:07

Entonces, ¿cómo nos promocionamos
a los demás?
17:07 - 17:09

La dejaré como una pregunta abierta.
17:09 - 17:11

Como dije, no tengo una buena respuesta
para esto.
17:11 - 17:13

Pero, por supuesto, para hacerlo,
17:13 - 17:15

aún debemos alcanzar los primeros pasos.
17:22 - 17:25

(persona 3) Si queremos tener
una traducción automática,
17:25 - 17:28

¿no necesitamos una memoria de traducción?
17:28 - 17:31

No estoy seguro
de que las palabras individuales
17:31 - 17:33

que ponemos en Wikidata,
17:33 - 17:37

estas frases cortas
que ponemos en Wikidata,
17:37 - 17:41

ya sea como elementos comunes
o lexemas de Wikidata,
17:41 - 17:44

sean suficientes para hacer
una traducción apropiada.
17:44 - 17:47

Necesitamos oraciones completas,
por ejemplo, para...
17:47 - 17:48

(Benjamin) Sí, absolutamente.
17:49 - 17:51

(persona 3) ¿Y en dónde conseguimos
esta estructura de datos?
17:51 - 17:55

No estoy seguro de que, actualmente,
17:55 - 18:00

Wikidata pueda manejar muy bien
18:00 - 18:03

el problema de una memoria de traducción,
18:04 - 18:06

translatewiki.net,
18:06 - 18:09

para meterse en ese lapso de...
18:12 - 18:15

¿Debemos hacer algo al respeto o...?
18:15 - 18:17

Sí, y de verdad aprecio la pregunta.
18:17 - 18:19

Mencioné esto un poco antes,
18:19 - 18:20

pero me encantaría reiterarlo.
18:21 - 18:25

Precisamente, por esta razón
PanLex trabaja con datos léxicos
18:25 - 18:27

y por eso me emocionan los datos léxicos,
18:27 - 18:30

en vez de... no, sino además
18:30 - 18:35

de los motores de traducción automática
y de la traducción automática en general.
18:36 - 18:39

Como dijo usted, la traducción automática
requiere datos específicos,
18:40 - 18:43

y no están disponibles
para la mayoría de los idiomas del mundo.
18:43 - 18:45

Para la gran mayoría
de los idiomas del mundo,
18:45 - 18:46

simplemente no están disponibles.
18:47 - 18:48

Pero no significa que debamos rendirnos.
18:48 - 18:50

¿Por qué?
18:51 - 18:54

Si necesitara traducir
el menú del restaurante turco,
18:55 - 18:59

entonces la traducción léxica
será una herramienta muy buena.
18:59 - 19:02

No estoy diciendo que se pueda usar
la traducción léxica
19:02 - 19:05

para hacer una traducción
de párrafo por párrafo perfecta.
19:05 - 19:07

Con traducción léxica
me refiero a palabra por palabra
19:07 - 19:10

y la traducción palabra por palabra
puede ser muy útil.
19:12 - 19:15

Es curioso pensarlo,
pero no teníamos acceso
19:15 - 19:17

a una buena traducción automática.
19:17 - 19:20

Nadie tenía acceso
hasta muy recientemente.
19:20 - 19:24

Y aún nos las arreglamos
con los diccionarios,
19:24 - 19:28

y son una fuente increíblemente buena.
19:28 - 19:31

Y la información está disponible,
¿por qué no la ponemos a disposición
19:31 - 19:34

del mundo en general
y de los hablantes de estos idiomas?
19:36 - 19:39

(persona 4) Hola, ¿qué mecanismos utilizan
19:39 - 19:41

cuando la comunidad en sí misma...
Estoy aquí.
19:41 - 19:43

- ¿Dónde está? Bien.
- (persona 4) Sí, lo siento. (risas)
19:43 - 19:45

...cuando la comunidad misma
19:45 - 19:47

no quiere parte de sus datos en PanLex?
19:47 - 19:49

Muy buena pregunta.
19:49 - 19:52

La manera en que trabajamos con eso
19:52 - 19:56

es que si un diccionario se edita
y se hace público,
19:57 - 19:58

es un buen indicador.
19:58 - 20:02

Se podría comprar en una tienda
o en la biblioteca de la universidad,
20:02 - 20:05

o en una biblioteca pública
a la que todos pueden acceder.
20:05 - 20:08

Es un buen indicador
de que se tomó la decisión.
20:08 - 20:12

(persona 4) [inaudible]
20:16 - 20:18

(persona 5) Por favor, [inaudible],
hable con el micrófono.
20:19 - 20:20

¿Puede repetirlo?
20:20 - 20:23

(persona 4) Los lingüistas no siempre
tienen el permiso de la comunidad.
20:23 - 20:24

Para poder publicar cosas,
20:24 - 20:28

suelen publicarlas sin el consentimiento
de la comunidad.
20:28 - 20:30

Eso absolutamente cierto.
20:30 - 20:33

Diría que es...
20:33 - 20:34

Suele ocurrir.
20:34 - 20:37

Diría que, generalmente,
una minoría de casos,
20:37 - 20:41

más que nada confinados a Norteamérica,
20:41 - 20:43

aunque a veces también
en idiomas sudamericanos.
20:45 - 20:46

Es algo que debemos tener en cuenta.
20:46 - 20:49

Si nos dijeran, por ejemplo,
20:49 - 20:52

que la información que está en PanLex
20:52 - 20:56

no puede accederla todo el mundo,
20:56 - 20:58

entonces, por supuesto, la quitaríamos.
20:58 - 20:59

(persona 4) Bien, bien.
21:01 - 21:02

Eso no significa, claro,
21:02 - 21:04

que seguiremos las reglas
de derechos de autor
21:04 - 21:07

pero seguiremos a las comunidades
tradicionales,
21:07 - 21:08

y esa es la gran diferencia.
21:08 - 21:10

(persona 5) Sí, a eso me refiero.
21:15 - 21:17

Saca a colación un punto interesante,
21:17 - 21:18

que es que...
21:19 - 21:22

a veces hay una gran cuestión
sobre quién habla en nombre de un idioma.
21:23 - 21:28

Tuve la experiencia de visitar
el sudoeste estadounidense
21:28 - 21:30

y de colaborar con algunos grupos
21:30 - 21:32

que trabajan con indígenas,
con los idiomas pueblo.
21:36 - 21:38

Existen aproximadamente
21:38 - 21:40

seis idiomas pueblo,
según cómo se los divida,
21:40 - 21:42

que se hablan en esa área.
21:42 - 21:44

Pero están divididos
entre 18 pueblos diferentes
21:44 - 21:47

y cada uno tiene
su propio gobierno tribal,
21:47 - 21:50

y cada gobierno puede tener
una opinión diferente
21:50 - 21:54

sobre si su idioma debe ser
accesible o no para los forasteros.
21:57 - 21:58

Como, por ejemplo, Zuni Pueblo,
21:58 - 22:01

es un único pueblo
que habla el idioma zuñi.
22:03 - 22:05

Y les interesa mucho que su idioma
vaya a todos lados,
22:05 - 22:08

lo ponen en señales de tránsito
y en todo, es grandioso.
22:08 - 22:11

Pero en algunos de los demás idiomas,
22:11 - 22:13

puede haber un grupo que diga:
22:13 - 22:16

"No queremos que los forasteros
tengan acceso a nuestro idioma".
22:16 - 22:19

Pero luego tienen el pueblo vecino
que habla el mismo idioma y dice:
22:19 - 22:22

"Queremos que nuestro idioma
sea accesible a los forasteros
22:22 - 22:24

con el uso de estas herramientas
tecnológicas,
22:24 - 22:27

porque queremos que el idioma sobreviva".
22:27 - 22:29

Y plantea una cuestión ética
muy interesante.
22:29 - 22:32

Porque si se dice por defecto:
22:32 - 22:35

"Bien, lo quitaré porque este grupo
dijo que lo quite",
22:35 - 22:37

¿no se está perjudicando al segundo grupo
22:37 - 22:39

porque este activamente
quiere que descartes estas cosas?
22:39 - 22:43

No creo que sea una pregunta
con una respuesta sencilla.
22:43 - 22:45

Pero diría que, al menos en términos
de PanLex...
22:45 - 22:49

Y que conste que aún
no nos hemos encontrado con esto,
22:49 - 22:50

que yo sepa.
22:51 - 22:53

Podría ser parcialmente porque...
22:54 - 22:55

Volviendo a la pregunta de él,
22:56 - 22:58

quizás debamos promocionar más. (risas)
22:59 - 23:02

Pero, en general, hasta donde sé,
23:02 - 23:04

esto no ha surgido.
23:04 - 23:07

Pero nuestro plan de juego para esto es,
23:07 - 23:11

si una comunidad dice que no quiere
que su idioma esté en una base de datos,
23:11 - 23:12

entonces lo quitamos.
23:12 - 23:15

(persona 4) Porque nos encontramos
con eso en Wikidata y Wikipedia...
23:15 - 23:16

- ¿En serio?
- (persona 4) ...en comentarios.
23:16 - 23:17

- ¿En serio?
- (persona 4) Es un problema.
23:17 - 23:20

Sí, imagino que en especial
en comentarios de fotos y ciertas cosas.
23:20 - 23:22

(persona 4) Correcto.
23:27 - 23:33

(persona 6) Hola. Tenía una pregunta
sobre la contribución abierta.
23:34 - 23:37

En cuanto a ir a pedirle a una comunidad
23:37 - 23:40

que anoten o añadan información
para un conjunto de datos,
23:40 - 23:44

algo que es un poco intimidante,
23:45 - 23:49

como editor,
solo veo las cosas que faltan.
23:49 - 23:53

Pero si pasaré tiempo con cosas,
con una idea,
23:54 - 23:57

existe una lista
de elementos prioritarios,
23:58 - 24:01

supongo que es muy motivador
en este aspecto.
24:01 - 24:04

Y me dio curiosidad
sobre si usted tenía un sistema
24:04 - 24:08

que es, en esencia,
conocemos los huecos en nuestros datos,
24:08 - 24:12

tenemos prueba lingüística
para saber que si tuviéramos
24:12 - 24:16

estos anotados, causarían mayor efecto.
24:16 - 24:17

Entonces, imagino
24:18 - 24:21

que tener el lexema para "casa"
es muy importante
24:21 - 24:25

quizás no un lexema para un dato u otro.
24:25 - 24:29

Pero quería saber si tiene eso, si es algo
24:30 - 24:35

que podría usarse para impulsar
estos esfuerzos comunitarios.
24:36 - 24:37

Muy buena pregunta.
24:37 - 24:41

Una cosa que tiene de mucho Wikidata...
24:41 - 24:45

Lo siento, disculpen, PanLex
tiene muchas listas de Swadesh.
24:45 - 24:48

Al parecer, tenemos la mayor colección
de listas de Swadesh en el mundo,
24:48 - 24:49

y es interesante.
24:49 - 24:50

Si no saben lo que es
una lista de Swadesh,
24:50 - 24:56

básicamente es una lista regularizada
de elementos léxicos
24:56 - 25:00

que se pueden usar para analizar idiomas.
25:00 - 25:03

Contienen conjuntos muy básicos.
25:03 - 25:05

Existen un par de clases de listas
de Swadesh diferentes.
25:05 - 25:07

Pero hay 100 o 213 elementos
25:07 - 25:09

y pueden contener
25:09 - 25:13

palabras como "casa", "ojo" y "piel",
25:13 - 25:14

y básicamente palabras generales
25:14 - 25:16

que deberían encontrarse
en cualquier idioma.
25:16 - 25:20

Es un buen punto de partida
25:20 - 25:23

para tener esa clase de datos disponibles.
25:29 - 25:31

Ahora, como dije antes,
25:31 - 25:34

aún no realizamos la contribución abierta
25:34 - 25:36

y nos emociona mucho poder hacerla.
25:36 - 25:38

Algo de lo que me emociona hablar
25:38 - 25:39

con la gente de esta conferencia
25:39 - 25:43

es cómo puede usarse
la contribución abierta
25:43 - 25:46

y la logística detrás de eso,
25:46 - 25:49

y esta es la clase de preguntas
que surgen.
25:51 - 25:53

Creo que la respuesta que puedo darle
25:53 - 25:55

es que tenemos una lista prioritaria...
25:55 - 25:58

Algo que puedo decir es
que tenemos una lista prioritaria
25:58 - 26:00

cuando se trata de qué idiomas
estamos buscando.
26:00 - 26:02

Buscamos idiomas
26:02 - 26:05

que actualmente no se sirven
de soluciones tecnológicas,
26:05 - 26:07

que suelen ser lenguas minoritarias,
26:07 - 26:09

o habitualmente lenguas minoritarias,
26:09 - 26:12

y entonces les damos prioridad.
26:14 - 26:17

Pero, en términos de que los elementos
léxicos individuales
26:17 - 26:20

sean la manera general de conseguir
nuevos datos
26:20 - 26:23

es al ingerir el valor
de un diccionario completo.
26:23 - 26:26

Dependemos de la elección
de los elementos léxicos
26:26 - 26:29

del diccionario, en vez de decir
que necesariamente
26:29 - 26:32

estamos buscando la palabra
para "casa" en cada idioma.
26:32 - 26:35

Pero cuando se trata de la contribución
abierta, necesitamos algo así.
26:35 - 26:38

Entonces es una oportunidad
para investigar y crecer.
26:40 - 26:43

(persona 7) Hola, soy Victor,
y esto es asombroso.
26:45 - 26:47

Ya que tiene diapositivas,
26:47 - 26:49

¿podría hablar un poco
sobre el estatus técnico
26:49 - 26:51

que actualmente el flujo
26:51 - 26:57

de datos o información
de y hacia Wikidata y PanLex.
26:57 - 27:00

¿Actualmente está implementado
27:00 - 27:04

y cómo lidia con un lado y el otro
27:04 - 27:07

o con la información de ciclo
de retroalimentación
27:07 - 27:10

entre PanLex y Wikidata?
27:10 - 27:14

No tenemos conexiones formales
con Wikidata en este momento,
27:14 - 27:15

y es algo que, de nuevo,
27:15 - 27:18

me emociona contar
a las personas en la conferencia.
27:18 - 27:21

Hemos tenido interacciones con Wiktionary,
27:22 - 27:25

pero Wikidata es una opción mejor,
sinceramente,
27:25 - 27:27

para lo que estamos buscando.
27:27 - 27:29

Tener elementos léxicos directamente
27:29 - 27:32

significa que debemos analizar
y extraer menos datos.
27:33 - 27:37

Entonces, la respuesta es:
aún no, pero queremos.
27:37 - 27:40

(persona 7) Y si no,
¿cuáles son los obstáculos?
27:40 - 27:44

Podemos ver que Wikidata
ya soporta muchos idiomas,
27:44 - 27:47

pero cuando busco en translate.panlex.org,
27:47 - 27:49

parece que ustedes soportan
muchas más variedades,
27:49 - 27:51

muchas más que Wikidata.
27:51 - 27:53

¿Cómo ve que haya un lapso
27:53 - 27:57

entre la traducción
o primero la traducción léxica,
27:57 - 28:00

la aplicación versus el esfuerzo
28:00 - 28:04

mientras se intenta mapear
una estructura de conocimiento?
28:04 - 28:06

Mapear el conocimiento
será muy interesante.
28:06 - 28:07

Hemos tenido debates interesantes
28:07 - 28:12

sobre la manera en que Wikidata
organiza sus datos léxicos,
28:12 - 28:14

sus datos léxicos,
28:14 - 28:16

y cómo organizamos nosotros
nuestros datos léxicos.
28:16 - 28:21

Hay diferencias sutiles que requerirían
una estrategia de mapeo,
28:21 - 28:25

algunas no serán necesariamente
automáticas,
28:25 - 28:27

pero podríamos desarrollar
técnicas para hacerlo.
28:27 - 28:31

Usted dio el ejemplo
de las variedades de la lengua.
28:31 - 28:34

Tendemos a ser muy "separatistas"
cuando se trata de variedades de lenguas.
28:34 - 28:36

En otras palabras,
si tenemos una fuente que dice
28:36 - 28:39

que este es el dialecto que se habla
28:39 - 28:42

en el lado izquierdo del río
en Papúa Nueva Guinea, para este idioma,
28:42 - 28:43

y tenemos otra fuente que dice
28:43 - 28:45

que este es el dialecto hablado
a la derecha del río,
28:45 - 28:47

entonces los consideramos
idiomas separados.
28:47 - 28:51

Lo hacemos para preservar
la mayor información posible.
28:52 - 28:54

Poder mapear eso
a cómo lo hace Wikidata...
28:54 - 28:57

En realidad, me encantaría conversar
28:57 - 29:01

sobre cómo se designan
29:01 - 29:06

los idiomas en Wikidata.
29:08 - 29:12

De nuevo, vamos
con la estrategia "separatista".
29:14 - 29:17

En términos generales,
dependemos de los códigos ISO 6393,
29:18 - 29:20

brindados por Ethnologue,
29:20 - 29:24

y entonces cada código individual
tiene permitido variedades adentro,
29:24 - 29:29

ya sea variedades de escritura,
regionales o dialectos sociales, etc.
29:30 - 29:33

De nuevo, es una oportunidad
para debatir y trabajar.
29:36 - 29:39

(persona 8) Hola, quisiera saber
si tiene una fuente de OCR
29:39 - 29:45

en especial porque hemos intentado
hacer OCR en maya,
29:45 - 29:48

y no obtenemos resultados.
29:48 - 29:50

No comprende nada...
29:50 - 29:53

- ¡Sí! (risas)
- (persona 8) Y... sí.
29:53 - 29:56

Entonces, ¿sus fuentes están disponibles?
29:56 - 30:00

Y la otra es si, en la superposición
de códigos ISO,
30:00 - 30:02

como dicen a veces:
30:02 - 30:04

"Ah, esto es un idioma y este es otro",
30:04 - 30:07

pero hay fuentes que dicen otra cosa,
30:07 - 30:10

como dijo usted, tienden a superponerse.
30:10 - 30:13

Entonces, ¿cómo hace...? Sí.
30:13 - 30:15

Sí, es una pregunta asombrosa.
30:15 - 30:17

Me gusta mucho.
30:17 - 30:20

No tenemos una fuente OCR
formalizada exactamente,
30:20 - 30:24

lo hacemos fuente por fuente.
30:24 - 30:26

Una de las razones es porque
a veces tenemos fuentes
30:26 - 30:28

que no necesitan que hagamos OCR,
30:28 - 30:30

que están disponibles
para algunos idiomas,
30:30 - 30:33

y nos concentramos en esos porque
requieren menos trabajo.
30:33 - 30:35

Pero, obviamente, si queremos profundizar
30:35 - 30:37

en unas de nuestras fuentes
que están pendientes,
30:37 - 30:41

necesitaremos desarrollar
fuentes OCR más sólidas.
30:41 - 30:44

Pero también hay otro aspecto,
que es, como dijo usted...
30:44 - 30:49

Las personas que diseñaron
los motores OCR,
30:49 - 30:53

creo que no saben cuánto
se pueden someter a pruebas de esfuerzo.
30:53 - 30:55

¿Saben qué es divertido?
30:55 - 30:58

Intentar hacer OCR
con un diccionario ruso-tibetano.
30:59 - 31:00

Resulta que es muy difícil...
31:02 - 31:04

Nos rendimos y contratamos
a alguien para tipearlo,
31:04 - 31:06

y fue completamente posible.
31:06 - 31:07

Y, en realidad, resulta
31:07 - 31:10

que esta rusa asombrosa
aprendió a leer tibetano
31:10 - 31:13

para poder tipearlo, y fue muy genial.
31:15 - 31:18

Creo que están tratando con cosas
de la escritura latina,
31:18 - 31:23

entonces creo que las soluciones de OCR
que se pueden desarrollar son más sólidas,
31:23 - 31:25

tratan con fuentes multilingües como esta
31:25 - 31:27

y esperan conseguir un cuatro al azar,
31:27 - 31:28

si estás tratando con algo
31:28 - 31:31

como fuentes mayas del siglo XVI,
con cuatro dígitos.
31:32 - 31:38

Pero hay algunas fuentes
31:38 - 31:40

que OCR probablemente nunca alcance
31:40 - 31:42

o requieren una inmensa
cantidad de trabajo,
31:43 - 31:47

y en realidad utilizamos
un poco esto ahora.
31:47 - 31:49

Tenemos otro proyecto activo en PanLex
31:49 - 31:54

para transcribir toda la literatura
tradicional de Bali,
31:54 - 31:58

y encontramos
que en los manuscritos balineses
31:58 - 32:00

no hay posibilidad de OCR.
32:00 - 32:02

Entonces, hicimos que un grupo
de balineses los tipearan,
32:02 - 32:05

y se volvió un proyecto cultural
muy genial en Bali,
32:05 - 32:07

y se convirtió en noticia y esas cosas.
32:07 - 32:09

Entonces, diría
32:09 - 32:11

que no se debe depender del OCR
necesariamente,
32:11 - 32:13

sino que hay muchas opciones.
32:13 - 32:15

Tener buenas soluciones de OCR
sería bueno.
32:17 - 32:21

Además, si alguien está interesado
en la OCR multilingüe,
32:21 - 32:23

por favor, venga a hablarme.
32:30 - 32:31

(persona 9) Muchas gracias
por su presentación.
32:32 - 32:35

Habló sobre la integración
32:35 - 32:37

entre PanLex y Wikidata,
32:37 - 32:39

pero no se adentró en lo específico.
32:39 - 32:43

Entonces estaba revisando su licencia
de datos y está bajo CC0.
32:43 - 32:44

- Sí.
- (persona 9) Es grandioso.
32:44 - 32:46

Entonces, existen dos maneras posibles,
32:46 - 32:49

podemos importar los datos
32:49 - 32:53

o continuar algo similar
a la manera de Freebase,
32:53 - 32:56

donde tuvimos la base de datos
completa de Freebase,
32:56 - 32:59

la importamos y creamos un enlace,
32:59 - 33:04

un identificador externo
a la base de datos de Freebase.
33:04 - 33:08

Entonces, si tiene algo en mente,
¿piensa algo parecido?
33:08 - 33:10

¿O solo quiere hacer...
33:15 - 33:19

una base de datos independiente
que se enlace con Wikidata?
33:19 - 33:21

Sí, es una pregunta grandiosa
33:21 - 33:23

y siento es un paso adelante
33:23 - 33:26

de algunas de las cosas
que he estado pensando,
33:26 - 33:30

parcialmente porque, como dije,
33:30 - 33:32

conseguir que las dos bases
de datos funcionen juntas
33:32 - 33:34

es un paso por sí mismo.
33:34 - 33:35

Creo que el primer paso que podemos dar
33:35 - 33:38

es literalmente unir nuestras habilidades.
33:38 - 33:40

Tenemos mucha experiencia lidiando
con cosas
33:40 - 33:43

como clasificaciones de propiedades
de lexemas individuales
33:43 - 33:45

que me encantaría compartir.
33:46 - 33:49

Pero ser capaz de enlazar
las bases de datos sería maravilloso.
33:49 - 33:51

Estoy interesado al 100 %.
33:51 - 33:54

Creo que sería un poco más fácil
33:54 - 33:56

desde Wikidata hasta PanLex,
33:56 - 33:59

pero quizás soy parcial,
porque veo cómo podría funcionar.
34:02 - 34:06

Sí, básicamente,
siempre que Wikidata esté cómodo
34:06 - 34:10

con todas las licencias,
o resolvamos algo juntos,
34:10 - 34:12

entonces creo que sería una gran idea.
34:13 - 34:16

Solo debemos encontrar maneras
de enlazar los datos.
34:16 - 34:22

Algo que imagino es que me encantaría
que las ediciones de Wikidata
34:23 - 34:26

se ingresaran de inmediato
a la base de datos de PanLex,
34:26 - 34:29

sin tener que, básicamente,
34:29 - 34:31

reingresarlas cada vez...
34:31 - 34:36

Hacer de Wikidata una interfaz
de contribución pública con PanLex
34:36 - 34:37

sería realmente asombroso.
34:37 - 34:40

Y luego poder usar PanLex
en traducciones inmediatas,
34:40 - 34:42

poder hacer traducir a través
de elementos léxicos de Wikidata
34:42 - 34:44

sería glorioso.
34:55 - 35:00

(persona 10) Es como el proceso
de auditoría de esta red semántica
35:00 - 35:04

para cerrar huecos por inferencia.
35:06 - 35:10

Si lo pensamos más,
esta clase de traducción,
35:10 - 35:13

¿cómo se lidia
con la discordancia semántica
35:13 - 35:16

y la discordancia gramática?
35:16 - 35:19

Por ejemplo, si se intenta traducir
algo al alemán,
35:19 - 35:22

simplemente puedes colocar
varias palabras juntas
35:22 - 35:26

y alcanzar algo razonable,
35:26 - 35:29

y, por otro lado, creo a veces que leo
35:31 - 35:38

que no todos los idiomas
tienen el mismo sistema granular
35:38 - 35:40

para los colores, por ejemplo.
35:42 - 35:43

¿Usted dijo que todo
35:43 - 35:45

usa un sistema diferente
para los colores o el mismo?
35:46 - 35:48

(persona 10) Recuerdo que es
por la evolución del lenguaje
35:48 - 35:52

que comenzaron con blanco y negro
y luego...
35:52 - 35:53

Sí, la jerarquía del color.
35:53 - 35:54

La jerarquía del color
35:54 - 35:57

es una gran manera de ilustrar
cómo funciona esto, ¿verdad?
35:58 - 36:01

Básicamente, cuando se tiene
un único idioma puente...
36:02 - 36:05

es interesante cuando lees
los ensayos sobre traducción automática
36:05 - 36:08

porque a veces hablan
sobre un idioma puente hipotético,
36:08 - 36:10

y dicen: "Sí, hay un idioma puente",
36:10 - 36:12

y luego lees el ensayo y dice:
"Es el inglés".
36:12 - 36:17

Entonces, lo que hace esta forma
de traducción léxica
36:17 - 36:20

al pasarla por diferentes idiomas
intermedios
36:21 - 36:26

es que tiene el efecto de lidiar
con mucha ambigüedad semántica.
36:26 - 36:28

Porque mientras lo pases por idiomas
36:28 - 36:33

que contienen límites semánticos
razonablemente similares a una palabra,
36:33 - 36:37

entonces evitas el problema
36:37 - 36:40

de introducir ambigüedad semántica
mediante el idioma puente.
36:40 - 36:43

Entonces, al usar la jerarquía del color
como ejemplo,
36:43 - 36:46

si tomas un idioma que tiene
una sola palabra para verde y azul
36:46 - 36:51

y la traduce a azul
36:51 - 36:53

en tu único idioma puente
36:53 - 36:54

y luego a otro idioma
36:54 - 36:57

que tiene ambigüedades diferentes,
36:57 - 37:00

entonces terminas introduciendo
ambigüedad semántica.
37:00 - 37:02

Pero si la pasas por un montón
de otros idiomas
37:02 - 37:06

que también contienen un único
elemento léxico para verde y azul,
37:06 - 37:11

entonces, básicamente,
esa especificidad semántica
37:11 - 37:17

se transmite al idioma resultante.
37:18 - 37:21

En cuanto a los aspectos
característicos gramaticales,
37:21 - 37:23

PanLex, en su historia, fundamentalmente,
37:23 - 37:29

ha recolectado lexemas, formas léxicas.
37:30 - 37:32

Con eso, quiero decir, básicamente,
37:32 - 37:34

lo que tienes como palabra clave
para un diccionario.
37:35 - 37:38

Esta vez no nos concentramos
necesariamente
37:39 - 37:41

en recolectar formas
de variedades gramaticales,
37:41 - 37:43

cosas como datos [de idiomas], etc.
37:43 - 37:45

o el tiempo pasado y presente.
37:45 - 37:46

Pero es algo que estamos mirando.
37:46 - 37:48

Algo que siempre es importante recordar
37:48 - 37:51

es que, debido a que nuestro foco en...
37:51 - 37:54

está en los idiomas minoritarios
marginados y en extinción,
37:55 - 37:58

queremos asegurarnos
de que algo esté disponible
37:58 - 38:00

antes de perfeccionarlo.
38:02 - 38:03

Una frase que me encanta es:
38:03 - 38:05

"No dejes que la perfección
sea enemiga de lo bueno",
38:05 - 38:07

y eso que lo que pretendemos hacer.
38:07 - 38:09

Pero estamos muy interesados en la idea
38:09 - 38:12

de poder manejar formas gramaticales
38:12 - 38:14

y traducir a través
de formas gramaticales,
38:14 - 38:16

y es algo que hemos investigado,
38:16 - 38:17

pero aún no hemos implementado
por completo.
38:25 - 38:29

(Persona 11) Entonces, de los 7.500 idiomas,
38:30 - 38:33

supongo que dependen de diccionarios
escritos para nosotros,
38:33 - 38:36

pero ¿todos esos idiomas tienen
formas escritas estándares
38:36 - 38:38

y cómo lidian con...?
38:38 - 38:40

Es una buena pregunta.
38:42 - 38:45

Sí, muchos de estos idiomas,
38:45 - 38:48

como todos saben, son verbales.
38:48 - 38:51

Pero cualquier idioma
para el que se ha producido un diccionario
38:51 - 38:52

tiene alguna clase de ortografía,
38:52 - 38:57

y dependemos de la ortografía
producida para el diccionario.
38:57 - 39:00

Ocasionalmente, manipulamos
ligeramente la ortografía
39:01 - 39:03

si podemos garantizar
que no tenga pérdidas.
39:03 - 39:05

Pero tendemos a evitarlo
tanto como sea posible.
39:08 - 39:11

No nos metemos en el tema
39:11 - 39:13

de desarrollar ortografías
para los idiomas,
39:13 - 39:15

porque a veces están desarrolladas,
39:15 - 39:17

incluso aunque no estén publicadas.
39:17 - 39:22

Entonces, por ejemplo,
39:22 - 39:26

para muchos idiomas hablados
en Nueva Guinea,
39:26 - 39:29

puede que no haya una forma ortográfica
utilizada comúnmente,
39:29 - 39:31

pero a algunos lingüistas
se les ocurre algo
39:31 - 39:32

y es un buen primer paso.
39:33 - 39:37

También recolectamos formas fonéticas
cuando están disponibles en diccionarios,
39:37 - 39:38

y esa es otra manera de entrar,
39:38 - 39:41

una representación de la palabra en IPA,
39:41 - 39:42

si está disponible.
39:42 - 39:43

Eso también se puede usar.
39:43 - 39:46

Pero normalmente no usamos eso
como un puente
39:46 - 39:48

porque introduce ciertas ambigüedades.
39:53 - 39:55

(persona 12) Gracias,
puede que sea una pregunta muy tonta,
39:56 - 40:01

pero ¿esos son solo los idiomas
intermedios con los que trabajan?
40:01 - 40:02

No. No.
40:02 - 40:04

(persona 12) Sí, bien. Gracias.
40:04 - 40:06

No, me alegra que lo preguntara.
Responde a la pregunta.
40:06 - 40:11

Esta es una captura de pantalla
de translate.panlex.org.
40:11 - 40:13

Si haces una traducción,
40:13 - 40:15

recibirás una lista de traducciones
en el lado derecho.
40:15 - 40:18

Haces clic en un botón de tres puntos
y recibirás un gráfico como este.
40:18 - 40:22

Y lo que muestra son
los idiomas intermedios,
40:22 - 40:24

los 20 principales por puntaje...
40:24 - 40:26

Podría entrar en detalles
sobre el puntaje,
40:26 - 40:27

pero no es importante ahora...
40:27 - 40:30

por el puntaje con que se usa.
40:30 - 40:33

Pero para traducir, en realidad
usamos mucho más que 20.
40:33 - 40:36

Lo limité a 20 porque si tienes más...
40:36 - 40:38

en realidad esto es
una simulación de física,
40:38 - 40:40

puedes mover las cosas y hacen garabatos.
40:40 - 40:42

Si tienes más de 20,
la computadora se altera.
40:45 - 40:47

Entonces es una demostración, sí.
40:56 - 40:58

(persona 13) Leila,
de la Fundación Wikimedia.
40:58 - 41:00

Solo una nota sobre...
41:00 - 41:03

Mencionó a la Fundación Wikimedia
un par de veces en la presentación,
41:03 - 41:07

quería saber si quiere hacer
alguna clase de incorporación de datos
41:07 - 41:08

o una colaboración con Wikidata,
41:09 - 41:11

¿quizás Wikimedia Deutschland
sería un lugar mejor
41:11 - 41:13

para conversar?
41:13 - 41:16

Porque Wikidata vive
dentro de Wikimedia Deutschland
41:16 - 41:18

y el equipo está allí,
41:18 - 41:20

y además la comunidad
de voluntarios de Wikidata
41:20 - 41:24

sería el lugar perfecto para hablar
41:24 - 41:26

sobre cualquier clase de incorporaciones
41:26 - 41:31

o trabajar para acercar PanLex a Wikidata.
41:32 - 41:33

Grandioso, muchas gracias,
41:33 - 41:35

porque, sinceramente,
no estoy muy familiarizado
41:35 - 41:38

con todas las complejidades
de la arquitectura
41:38 - 41:40

de cómo se relacionan todos los proyectos.
41:40 - 41:42

Por las risas, supongo que es complicado.
41:42 - 41:44

Pero, sí, básicamente, queremos hablar
41:44 - 41:48

con quien sea responsable de Wikidata.
41:48 - 41:52

Solo queremos localizar
41:53 - 41:56

estamos interesados en hablar
con quien sea responsable de Wikidata,
41:56 - 41:58

que son todos ustedes, los voluntarios.
42:03 - 42:05

¿Hay más preguntas?
42:10 - 42:14

Bien, si alguien tiene
más preguntas después
42:14 - 42:18

o de algo que hablé... los detalles
y las especificaciones de estas cosas,
42:18 - 42:20

por favor, vengan a hablarme,
estoy muy interesado.
42:20 - 42:24

En especial, si trabajan con algo
que involucre elementos léxicos,
42:24 - 42:29

algo que involucre
idiomas minoritarios en extinción
42:29 - 42:30

y lenguas marginadas,
42:30 - 42:34

y además Unicode,
también me dedico a eso.
42:36 - 42:38

Muchas gracias,
42:38 - 42:40

y gracias por invitarme a hablar,
42:40 - 42:42

espero que lo hayan disfrutado.
42:42 - 42:44

(aplausos)

Title:: cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4
Video Language:: English
Duration:: 42:53

Bar Sch edited Spanish subtitles for cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

Spanish subtitles

Revisions

Revision 1 Uploaded

Bar Sch

cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

Revisions

Our website uses cookies

Operating cookies (Required)