cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

Edit subtitles

0:06 - 0:07

(Lydia) Muchas gracias.
0:07 - 0:11

En esta conferencia, uno de los grandes
temas son los idiomas.
0:14 - 0:18

Quiero darles una visión general
de dónde estamos actualmente
0:18 - 0:20

en lo que respecta a los idiomas
0:20 - 0:22

y hacia dónde podemos ir desde aquí.
0:29 - 0:32

Wikidata se trata de dar a más personas
más acceso a más conocimiento,
0:32 - 0:37

y el lenguaje es una parte importante
para hacer que esto sea una realidad,
0:38 - 0:43

porque cada vez más nuestras vidas
dependen de la tecnología.
0:44 - 0:49

Y como nuestro orador principal decía hoy,
0:49 - 0:51

parte de la tecnología
deja atrás a las personas
0:51 - 0:55

simplemente porque no pueden
hablar un determinado idioma,
0:55 - 0:57

y eso no está bien.
0:58 - 1:02

Entonces queremos hacer algo al respecto.
1:03 - 1:06

Y para cambiar eso,
necesitan al menos dos cosas.
1:06 - 1:11

Una es que deben proporcionar contenido
a las personas en su idioma,
1:11 - 1:13

y la segunda cosa que necesitan
1:13 - 1:16

es proporcionarles
interacción en su idioma
1:16 - 1:19

en esas aplicaciones
o lo que sea que tenga.
1:20 - 1:25

Y Wikidata ayuda con ambas cosas.
1:26 - 1:28

Lo primero, contenido en su idioma,
1:28 - 1:31

eso es básicamente lo que tenemos
en elementos y propiedades,
1:31 - 1:33

cómo describimos el mundo.
1:33 - 1:35

Ahora, esto ciertamente
no es todo lo que necesitan,
1:35 - 1:39

pero eso ya es un gran avance.
1:40 - 1:42

La otra cosa
es la interacción en su idioma,
1:42 - 1:46

y ahí es donde
entran en juego los lexemas.
1:46 - 1:49

Si desean hablar
con su asistente personal digital
1:49 - 1:55

o si desean que su dispositivo
traduzca un texto y cosas así.
1:56 - 1:59

Muy bien, veamos
el Contenido en su idioma.
1:59 - 2:03

Entonces, lo que tenemos
en elementos y propiedades.
2:05 - 2:10

Para esto, las etiquetas en esos
elementos y propiedades son cruciales.
2:10 - 2:15

Necesitamos saber cómo se llama
esta entidad de la que estamos hablando.
2:15 - 2:20

Y en lugar de hablar sobre Q5,
2:20 - 2:22

alguien que habla inglés
sabe que es un "humano",
2:22 - 2:25

alguien que habla alemán
sabe que es un "mensch"
2:25 - 2:26

y cosas similares.
2:26 - 2:30

Entonces, esas etiquetas
en elementos y propiedades
2:30 - 2:33

están cerrando la brecha
entre humanos y máquinas.
2:33 - 2:35

Y humanos y humanos
2:35 - 2:40

haciendo más conocimiento existente
accesible para ellos.
2:43 - 2:46

Ahora, esa es una buena aspiración.
2:46 - 2:48

¿Cómo se vería realmente?
2:48 - 2:49

Se vería como esto.
2:51 - 2:52

Lo que están viendo aquí
2:52 - 2:58

es que la mayoría de los elementos
en Wikidata tienen dos etiquetas,
2:58 - 3:01

por lo que las etiquetas
están en dos idiomas.
3:02 - 3:06

Y después de eso, es uno, y luego tres,
y luego se pone muy triste.
3:07 - 3:08

(risa silenciosa)
3:10 - 3:13

Creo que debemos hacerlo mejor.
3:14 - 3:15

Pero, por otro lado,
3:15 - 3:17

en realidad esperaba
que esto fuera aún peor.
3:17 - 3:19

Esperaba que el promedio fuera uno.
3:19 - 3:22

Así que estaba bastante feliz
de ver dos. (risa)
3:25 - 3:26

Bien.
3:27 - 3:29

Pero no solo es interesante saber
3:29 - 3:34

cuántas etiquetas tienen nuestros
elementos y propiedades.
3:34 - 3:36

También es interesante ver en qué idiomas.
3:38 - 3:44

Aquí pueden ver un gráfico de los idiomas
3:44 - 3:47

que tienen etiquetas en los elementos.
3:47 - 3:51

Entonces, la parte más grande es Otros.
3:51 - 3:54

Así que acabo de tomar
los 100 idiomas principales
3:54 - 3:59

y todo lo demás es Otros
para hacer que este gráfico sea legible.
3:59 - 4:02

Y luego está el inglés y el holandés,
4:03 - 4:04

el francés,
4:06 - 4:09

y, para no olvidar, el asturiano.
4:09 - 4:12

- (audiencia) ¡Hurra!
- ¡Yuju! ¡Sí!
4:14 - 4:17

Entonces, lo que ven aquí
es un gran desequilibrio
4:17 - 4:20

y todavía un gran enfoque en el inglés.
4:21 - 4:24

Otra cosa es que si buscan
lo mismo en Propiedades,
4:24 - 4:26

en realidad se ve mejor.
4:27 - 4:33

Y creo que parte se debe
a que son menos propiedades.
4:33 - 4:37

Incluso las comunidades más pequeñas
podrán mantenerse al día con eso.
4:37 - 4:39

Pero también es una parte
bastante importante de Wikidata
4:39 - 4:41

localizarlo en su idioma.
4:41 - 4:42

Eso es bueno.
4:46 - 4:48

Lo que quiero resaltar aquí con asturiano
4:48 - 4:54

es que una pequeña comunidad
puede hacer una gran diferencia
4:54 - 4:57

con un poco de dedicación y trabajo,
4:57 - 4:58

y eso es realmente genial.
5:02 - 5:03

Un pequeño cuestionario para ustedes.
5:03 - 5:07

Si toman todas las propiedades en Wikidata
que no son identificadores externos,
5:07 - 5:10

¿cuál tiene más cantidad de etiquetas,
como la mayoría de los idiomas?
5:10 - 5:14

(audiencia) [inaudible]
5:14 - 5:17

¿Creen que es la instancia de?
5:17 - 5:19

De ser así están equivocados.
5:20 - 5:22

Es imagen. (risas)
5:23 - 5:26

Sí, eso les dice
que si hablan uno de los idiomas
5:26 - 5:28

en los que instancia de
aún no tiene una etiqueta,
5:28 - 5:30

quizás quieran agregarla.
5:32 - 5:36

Tiene 148 etiquetas actualmente.
5:38 - 5:41

Pero es otra diapositiva.
5:42 - 5:46

Este gráfico nos dice algo
sobre la cantidad de contenido
5:46 - 5:49

que ponemos a disposición
en un idioma determinado
5:49 - 5:52

y cuánto de ese contenido
se usa realmente.
5:52 - 5:55

Entonces, lo que están viendo
es básicamente una curva
5:55 - 5:59

con la mayoría del contenido
que tiene etiquetas en inglés,
5:59 - 6:04

disponible en inglés y se usa mucho.
6:04 - 6:06

Y luego se cae un poco.
6:06 - 6:09

Pero, de nuevo, lo que pueden ver
son valores atípicos
6:09 - 6:15

que tienen mucho más contenido
del que necesariamente esperarían,
6:17 - 6:19

y eso es muy muy bueno.
6:20 - 6:25

El problema aún es que no se usa mucho.
6:25 - 6:29

Los asturianos y holandeses
deberían ser más altos,
6:29 - 6:32

y creo que ayudar a esas comunidades
6:33 - 6:35

a aumentar el uso
de los datos que recopilaron
6:35 - 6:38

es algo realmente útil.
6:43 - 6:47

Lo que este y otros análisis
nos mostraron también es algo bueno,
6:47 - 6:51

estamos viendo
que los elementos muy usados
6:51 - 6:55

también tienden a tener más etiquetas
6:55 - 6:58

o al revés...
No está del todo claro.
7:02 - 7:04

Y entonces la pregunta es
7:05 - 7:07

¿estamos sirviendo
solo a los idiomas poderosos?
7:08 - 7:11

¿O estamos sirviendo a todos?
7:13 - 7:18

Y lo que ven aquí
es una agrupación de idiomas.
7:18 - 7:22

Los idiomas que se agrupan
tienden a tener etiquetas juntos.
7:26 - 7:28

Y los ven agruparse.
7:28 - 7:34

Ahora aquí hay una agrupación
similar, coloreada,
7:34 - 7:39

basada en qué tan vivo, cómo se usa,
7:40 - 7:43

qué tan en peligro es el idioma.
7:43 - 7:44

Y lo bueno que están viendo aquí
7:44 - 7:49

es que los idiomas seguros
y los idiomas en peligro de extinción
7:49 - 7:54

no forman dos grupos diferentes.
7:54 - 7:59

Pero todos están mezclados,
8:00 - 8:04

lo que es mucho mejor
de lo que sería al revés
8:04 - 8:09

donde los idiomas seguros,
los idiomas poderosos
8:10 - 8:12

solo se están ayudando mutuamente.
8:13 - 8:14

No, no es el caso.
8:14 - 8:17

Y es algo realmente bueno.
8:17 - 8:20

Cuando vi esto,
pensé que era muy bueno.
8:23 - 8:25

Aquí hay algo similar
8:26 - 8:29

en el que miramos
8:30 - 8:34

el estado de los idiomas
8:34 - 8:36

y cuántas etiquetas tiene.
8:39 - 8:43

Lo que están viendo es una clara victoria
para los idiomas seguros,
8:43 - 8:44

como se esperaba.
8:45 - 8:47

Pero lo que también ven es...
8:49 - 8:54

que los idiomas en las categorías
2 y 3 y tal vez incluso 4
8:54 - 8:59

no son tan malos, en realidad,
8:59 - 9:02

en términos de su representación
en Wikidata y otros.
9:03 - 9:06

Es algo realmente bueno de encontrar.
9:07 - 9:09

Ahora, si observan lo mismo
9:09 - 9:12

para saber cuánto
de ese contenido de esas etiquetas
9:12 - 9:15

se usa realmente
en Wikipedia, por ejemplo,
9:17 - 9:22

entonces vemos una imagen similar
emergiendo nuevamente.
9:23 - 9:30

Y nos dice que esas comunidades
están haciendo un buen uso de su tiempo
9:30 - 9:34

al completar etiquetas para artículos
de mayor uso, por ejemplo.
9:36 - 9:40

Hay valores atípicos
en los que creo que podemos ayudar
9:42 - 9:48

a esas comunidades a encontrar un lugar
donde su trabajo sería más valioso.
9:49 - 9:53

Pero, en general,
estoy contenta con esta imagen.
9:55 - 10:00

Ahora, esa era la parte de elementos
y propiedades de Wikidata.
10:01 - 10:03

Ahora, veamos la interacción
en sus idiomas,
10:03 - 10:05

la parte de lexema de Wikidata
10:05 - 10:09

donde describimos palabras
y sus formas y sus significados.
10:10 - 10:13

Hemos estado haciendo esto
desde mayo del año pasado,
10:16 - 10:19

y el contenido ha ido creciendo.
10:20 - 10:22

Pueden ver aquí en azul los lexemas,
10:22 - 10:26

y luego, en rojo,
las formas en esos lexemas
10:26 - 10:30

y, amarillo, los sentidos en esos lexemas.
10:31 - 10:34

Por lo tanto, algunas comunidades,
lo veremos más adelante,
10:34 - 10:40

han pasado mucho tiempo creando
formas y sentidos para sus lexemas,
10:40 - 10:43

lo cual es realmente útil
10:43 - 10:48

porque construye el núcleo
del conjunto de datos que necesitan.
10:50 - 10:55

Ahora, miramos todos los idiomas
10:55 - 10:58

que tienen lexemas en Wikidata.
10:58 - 11:01

Entonces, las palabras que tenemos
11:02 - 11:04

son ahora 310 idiomas.
11:05 - 11:08

Ahora, ¿cuál creen
que es el idioma principal
11:08 - 11:12

cuando se trata de la cantidad
de lexemas actualmente en Wikidata?
11:13 - 11:15

(persona 1) Ruso.
11:19 - 11:22

- ¿Ah?
- (persona 2) El alemán.
11:22 - 11:24

Lo siento, lo había escuchado.
11:24 - 11:25

Es el ruso.
11:28 - 11:30

El ruso está bastante por delante.
11:32 - 11:34

Y solo para darles una perspectiva,
11:35 - 11:37

hay diferentes opiniones,
11:37 - 11:42

pero he leído, por ejemplo,
que 1000 a 3000 palabras
11:42 - 11:45

te llevan al nivel de conversación,
aproximadamente, en otro idioma,
11:45 - 11:49

y 4000 a 10 000 palabras
a un nivel avanzado.
11:51 - 11:55

Entonces, todavía tenemos
un poco para alcanzar.
11:58 - 12:03

Una cosa a la que quiero
que presten atención es el vasco
12:03 - 12:08

con 10 000 lexemas, aproximadamente.
12:09 - 12:13

Ahora, si observa el número
de formas para esos lexemas,
12:14 - 12:16

el vasco está muy arriba,
12:18 - 12:20

lo cual es realmente genial,
12:20 - 12:25

y deben ir a una charla que explica
por qué ese es el caso.
12:27 - 12:31

Si nos fijamos en la cantidad de sentidos,
en lo qué significan las palabras,
12:32 - 12:35

el vasco llega
a la parte superior de la lista.
12:35 - 12:37

Creo que eso merece un aplauso.
12:37 - 12:39

(aplausos)
12:46 - 12:47

Otra pregunta rápida.
12:47 - 12:50

¿Cuál es el lexema
con más traducciones actualmente?
12:50 - 12:55

(audiencia) Gatos, gatos, [inaudible],
Douglas Adams, [inaudible]
12:57 - 13:00

Todas buenas conjeturas, pero no.
13:01 - 13:04

Es esta, la palabra rusa para "agua".
13:09 - 13:12

Muy bien, ahora hablamos mucho
13:12 - 13:16

sobre cuántos lexemas,
formas y sentidos tenemos,
13:16 - 13:20

pero eso es solo una cosa que necesitas.
13:20 - 13:25

La otra cosa que necesitan es describir
esos lexemas, formas y sentidos
13:25 - 13:27

de manera legible para una máquina.
13:27 - 13:30

Y para eso tienen declaraciones,
por ejemplo, en elementos.
13:31 - 13:36

Y una de las propiedades
que utilizan es el Ejemplo de uso.
13:36 - 13:38

Entonces, quien esté usando esos datos
13:38 - 13:42

puede entender cómo usar
esa palabra en contexto,
13:42 - 13:44

por lo que podría ser una cita,
por ejemplo.
13:45 - 13:47

Y aquí, los polacos son geniales.
13:48 - 13:50

Buen trabajo, hablantes de polaco.
13:54 - 13:58

Otra propiedad realmente útil es el AFI,
13:58 - 14:00

¿cómo se pronuncia esta palabra?
14:01 - 14:07

Aparentemente, Rusia necesita
muchas declaraciones del AFI.
14:10 - 14:13

Pero, de nuevo, polaco, segundo.
14:17 - 14:20

Y por último, pero no menos importante,
tenemos audio de pronunciación.
14:20 - 14:23

Es decir, enlaces a archivos en Commons
14:23 - 14:26

donde alguien habla la palabra,
14:26 - 14:30

para que puedan escuchar
a un hablante nativo pronunciar la palabra
14:30 - 14:33

en caso de que no sepa leer AFI,
por ejemplo.
14:35 - 14:39

Y hay un proyecto realmente
agradable basado en Wiki
14:39 - 14:40

llamado Lingua Libre
14:41 - 14:45

donde pueden ir y ayudar
a grabar palabras en su idioma
14:45 - 14:48

que luego se pueden agregar
a lexemas en Wikidata,
14:48 - 14:52

para que otras personas puedan entender
cómo pronunciar sus palabras.
14:54 - 14:55

(audiencia) [inaudible]
14:55 - 14:57

Si buscas "Lingua Libre"
14:57 - 15:01

y estoy segura de que alguien
puede publicarlo en el canal de Telegram.
15:03 - 15:04

Esos tipos son geniales.
15:04 - 15:07

Hicieron cosas realmente
geniales con Wikibase.
15:09 - 15:10

Bien.
15:12 - 15:17

Entonces, la pregunta es
¿a dónde vamos desde aquí?
15:19 - 15:21

Según los números que acabo de mostrar,
15:23 - 15:25

hemos recorrido un largo camino
15:25 - 15:28

para dar a más personas
más acceso a más conocimiento
15:28 - 15:31

al mirar idiomas en Wikidata.
15:32 - 15:36

Pero también queda
mucho trabajo por delante.
15:39 - 15:42

Algunas de las cosas que pueden hacer
para ayudar, por ejemplo,
15:42 - 15:45

es organizar "etiquetatones",
15:45 - 15:50

reunir a las personas
para etiquetar elementos en Wikidata
15:51 - 15:55

o hacer un "editatón"
alrededor de lexemas en tu idioma
15:55 - 15:59

para llevar las palabras más utilizadas
de tu idioma a Wikidata.
16:01 - 16:03

O pueden usar una herramienta
como Terminator
16:03 - 16:08

que les ayuda a encontrar los elementos
más importantes en su idioma
16:08 - 16:11

que aún no tienen una etiqueta.
16:13 - 16:18

Lo más importante se mide
por la frecuencia con la que se usa
16:18 - 16:22

en otros elementos de Wikidata
como enlaces en las declaraciones.
16:26 - 16:30

Y, por supuesto, para la parte de lexema,
16:31 - 16:35

ahora que tenemos
una cobertura básica de esos lexemas,
16:35 - 16:41

también se trata de construirlos,
agregarles más declaraciones
16:41 - 16:44

para que puedan construir la base
16:44 - 16:47

para aplicaciones significativas
y construir encima de eso.
16:48 - 16:51

Debido a que nos estamos acercando
a esa masa crítica,
16:51 - 16:53

pero aún estamos lejos de eso,
16:53 - 16:56

que puede construir
aplicaciones serias sobre ella.
16:58 - 17:02

Y espero que todos ustedes
se unan a nosotros para hacer eso.
17:02 - 17:07

Y eso me lleva a pedir
17:07 - 17:10

un poco de ayuda de nuestros amigos.
17:10 - 17:12

Bruno, ¿quieres venir
17:14 - 17:17

y hablarnos sobre máscaras léxicas?
17:17 - 17:18

(Bruno) Gracias, Lydia,
17:18 - 17:21

gracias por darme
este breve período de tiempo
17:21 - 17:24

para presentar este trabajo
que hacemos en Google con Denny,
17:24 - 17:29

que la mayoría probablemente
ha escuchado o sabe.
17:30 - 17:32

Porque en Google, soy lingüista.
17:32 - 17:36

Así que estoy muy feliz de estar aquí
entre otros entusiastas de los idiomas.
17:36 - 17:39

También estamos
construyendo algunos léxicos,
17:39 - 17:42

y hemos construido esta tecnología
17:42 - 17:45

o este enfoque que creemos
que puede ser útil para ustedes.
17:46 - 17:48

Solo para darles un poco de contexto,
17:48 - 17:52

este es mi contexto lexicográfico
que habla aquí.
17:52 - 17:54

Cuando creamos
una base de datos de léxicos,
17:54 - 17:58

es muy difícil mantenerlos,
mantenerlos consistentes
17:58 - 18:00

e intercambiar datos,
18:00 - 18:02

como probablemente ya saben.
18:02 - 18:06

Hay varios intentos de unificar
la característica y las propiedades
18:06 - 18:09

que describen esos lexemas y esas formas,
18:09 - 18:11

no es un problema resuelto,
18:11 - 18:14

pero hay algunos intentos
de unificación de ese lado.
18:14 - 18:15

Pero lo que realmente falta,
18:15 - 18:18

y este es un problema que tuvimos
al comienzo de nuestro proyecto en Google
18:18 - 18:21

es tratar de tener una estructura interna
18:22 - 18:26

que describa cómo debería ser
una entrada léxica,
18:26 - 18:28

qué tipo de datos o qué tipo
de información tenemos
18:28 - 18:32

y la especificación que se espera.
18:32 - 18:38

Entonces, esto es lo que se nos ocurrió
con esta cosa llamada máscara léxica.
18:39 - 18:45

Una máscara léxica describe
lo que se espera de una entrada,
18:45 - 18:47

para completar una entrada lexicográfica,
18:47 - 18:51

tanto en términos de la cantidad
de formas que esperan para un lexema
18:51 - 18:55

y la cantidad de características
que esperan para cada forma.
18:56 - 18:58

Aquí hay un ejemplo
de adjetivos italianos.
18:58 - 19:02

En italiano, esperas tener
cuatro formas para tus adjetivos,
19:02 - 19:05

y cada una de estas formas
tiene una combinación específica
19:05 - 19:08

de características de género y número.
19:08 - 19:13

Esto es lo que esperamos
para los adjetivos italianos.
19:13 - 19:16

Por supuesto, puede tener
máscaras extremadamente complejas,
19:16 - 19:21

como la conjugación de verbos franceses,
que es bastante extensa,
19:21 - 19:25

y no le muestro ninguna otra máscara rusa
porque no se ajusta a la pantalla.
19:26 - 19:29

Y también tenemos algunas
especificaciones detalladas
19:29 - 19:33

porque distinguimos
lo que está al nivel de la forma.
19:33 - 19:37

Aquí tienes sustantivos rusos
que tienen tres números
19:37 - 19:40

y una cantidad de casos
con diferentes formas,
19:40 - 19:43

pero también tienen
una especificación de nivel de entrada
19:43 - 19:45

que dice que un sustantivo
particularmente tiene
19:45 - 19:50

un género inherente y una característica
de animación inherente
19:50 - 19:52

que también se especifica en la máscara.
19:54 - 19:59

También distinguiremos que una máscara
proporciona una especificación
19:59 - 20:02

para, en general,
cómo debería ser una entrada.
20:02 - 20:07

Pero puede tener máscaras más pequeñas
para aspectos defectuosos de la forma
20:07 - 20:11

o aspectos defectuosos del lexema
que suceden en el idioma.
20:11 - 20:14

Así que aquí está la versión
más simple de los verbos franceses
20:14 - 20:20

que usan solo la 3ra persona del singular
para todos los verbos meteorológicos,
20:20 - 20:24

como "llueve" o "nieva", como en inglés.
20:24 - 20:26

Entonces distinguimos estos dos niveles.
20:27 - 20:30

Y cómo usamos esto en Google
20:30 - 20:33

es que, cuando tenemos un léxico
que queremos usar,
20:33 - 20:38

usamos la máscara para lanzar
literalmente los léxicos,
20:38 - 20:40

todas las entradas, a través de la máscara
20:40 - 20:44

y ver qué entrada tiene un problema
en términos de estructura.
20:44 - 20:46

¿Nos falta un formulario?
¿Nos falta una característica?
20:46 - 20:51

Y cuando hay un problema,
hacemos una validación humana
20:51 - 20:54

o simplemente para ver si pasa la máscara.
20:54 - 20:58

Es una herramienta muy poderosa
que verifica la calidad de la estructura.
20:59 - 21:02

Entonces, lo que nos complace anunciar hoy
21:02 - 21:05

es que tenemos luz verde
para liberar el código de nuestra máscara.
21:06 - 21:07

Este es un esquema.
21:07 - 21:09

Si lo desean, podemos liberarlo
21:09 - 21:13

y se lo proporcionaremos a Wikidata
como archivo ShEx.
21:13 - 21:17

Este es un archivo ShEx
para sustantivos alemanes,
21:17 - 21:20

y Denny está trabajando en la conversión
de nuestra especificación interna
21:20 - 21:24

a una especificación de código abierto.
21:24 - 21:27

Actualmente cubrimos más de 25 idiomas.
21:27 - 21:29

Así que, esperamos crecer de nuestro lado,
21:29 - 21:34

pero también buscamos esta oportunidad
de colaborar para otros idiomas.
21:34 - 21:41

Y una de las colaboraciones en curso
también que Denny tiene con Lukas.
21:41 - 21:45

Lukas tiene estas excelentes herramientas
para tener una interfaz de usuario
21:45 - 21:51

que ayude al usuario
o al contribuyente a agregar más formas.
21:51 - 21:54

Entonces, si desea agregar
un adjetivo en francés,
21:54 - 21:59

la interfaz de usuario les indica
cuántas formas se esperan
21:59 - 22:01

y qué tipo de características
debe tener esta forma.
22:01 - 22:06

Por lo tanto, nuestra máscara ayudará
a definir y expandir la herramienta.
22:07 - 22:08

Eso es todo.
22:09 - 22:10

(Lydia) Muchas gracias.
22:10 - 22:12

(aplausos)
22:14 - 22:17

Bien. ¿Hay preguntas?
22:17 - 22:19

¿Quieren que hable más sobre lexemas?
22:20 - 22:21

- (persona 3) Sí.
- Sí. (risas)
22:33 - 22:35

(persona 3) Mi pregunta viene
porque estabas hablando
22:35 - 22:39

de dar más acceso
a más personas en más idiomas.
22:39 - 22:42

Pero hay muchos idiomas
que no se pueden usar en Wikidata.
22:42 - 22:44

Entonces, ¿qué solución tienes para eso?
22:46 - 22:48

Cuando dices
que no se puede usar Wikidata,
22:48 - 22:50

¿estás hablando de ingresar etiquetas?
22:50 - 22:52

- (persona 3) Etiquetas, descripciones.
- Correcto.
22:52 - 22:55

Entonces, para lexemas,
es un poco diferente
22:55 - 22:58

porque no tenemos esa restricción.
22:59 - 23:03

Para las etiquetas
de elementos y propiedades,
23:03 - 23:05

hay algunas restricciones
23:05 - 23:10

porque queríamos asegurarnos
23:10 - 23:14

de que no todo el mundo haga de todo
23:14 - 23:17

y se vuelva inmanejable.
23:19 - 23:23

Incluso una pequeña comunidad
que quiera un idioma y trabajar en él,
23:24 - 23:26

hablen con nosotros, lo haremos realidad.
23:26 - 23:29

(persona 3) Hicimos eso
en el Hackathon de Praga en mayo,
23:29 - 23:32

y nos tomó hasta casi agosto
para poder usar nuestro idioma.
23:32 - 23:35

- Sí.
- (persona 3) Entonces, es muy lento.
23:35 - 23:38

Sí, desafortunadamente así es.
23:38 - 23:40

Actualmente trabajamos
con el Comité de idiomas
23:40 - 23:46

para resolver algunos fundamentos...
23:49 - 23:55

como llegar a un acuerdo sobre qué tipo
de idiomas están realmente "permitidos",
23:56 - 23:59

y eso ha llevado demasiado tiempo,
24:00 - 24:04

razón por la cual su solicitud
tardó más de lo que debería.
24:04 - 24:06

(persona 3) Gracias.
24:06 - 24:08

(persona 4) Gracias a ti.
24:08 - 24:11

Lydia, ¿si recuerdas
las estadísticas que mostraste,
24:11 - 24:13

- el número de lexemas por idioma?
- Sí.
24:13 - 24:17

Entonces, ¿contaste todas las formas
como un punto de datos
24:17 - 24:20

o solo lexemas?
24:21 - 24:23

(Lydia) ¿Te refieres a esto?
¿A cuál te refieres?
24:23 - 24:25

(persona 4) Sí, exactamente.
24:26 - 24:28

Si recuerdas, ¿este número [inaudible]
24:28 - 24:32

todas las formas para todos los lexemas
o cuántos lexemas hay?
24:32 - 24:35

- No, solo es el número de lexemas.
- (persona 4) Solo un número de lexemas.
24:35 - 24:37

Entonces, es una estadística justa
24:37 - 24:39

porque si se compilan las formas,
24:39 - 24:40

es por eso que pregunto,
24:40 - 24:43

entonces todos los idiomas
con la morfología flexiva,
24:43 - 24:45

como el ruso, el serbio,
el esloveno y otros,
24:45 - 24:47

tienen una ventaja natural
porque tienen muchos.
24:47 - 24:52

Ya comienza por aquí,
en este número de formas.
24:52 - 24:54

(persona 4) Sí, fue este. Gracias.
24:56 - 25:00

(persona 5) Tengo
una pregunta rápida sobre...
25:00 - 25:07

Cuando hablamos de los elementos
y propiedades reales.
25:07 - 25:09

Por lo que entiendo,
25:09 - 25:12

actualmente no hay forma
de dar una fuente real
25:12 - 25:15

a ninguna de las etiquetas
y descripciones que se dan.
25:15 - 25:18

Entonces, por ejemplo,
porque cuando hablas
25:18 - 25:21

de la propiedad de un elemento,
25:21 - 25:24

por ejemplo, puedes tener
etiquetas en conflicto.
25:24 - 25:26

Sí.
25:26 - 25:28

(persona 5) Esta persona es como...
25:28 - 25:31

Antes hablábamos
de cosas indígenas, por ejemplo.
25:31 - 25:36

Esta persona es un artista noruego
según esta fuente,
25:36 - 25:39

y un artista sami, según esta fuente.
25:39 - 25:43

O, por ejemplo, en estonio,
tuvimos un problema
25:43 - 25:48

en el que cambiamos la terminología
a la de uso oficial
25:48 - 25:49

en los léxicos oficiales,
25:49 - 25:52

pero no tenemos forma
de indicar realmente por qué,
25:52 - 25:53

es decir, cuál fue la fuente
25:53 - 25:55

y por qué fue mejor y qué había allí antes
25:55 - 25:57

solo fui yo, una persona cualquiera,
25:57 - 25:59

simplemente cambiando la cosa
para cualquiera que lo vea.
25:59 - 26:02

¿Hay algún plan para hacer
esto posible de alguna manera
26:02 - 26:06

para tener las fuentes adecuadas
para los datos de un idioma?
26:07 - 26:11

Entonces, es parcialmente posible.
26:11 - 26:16

Por ejemplo, cuando tienes
un elemento para una persona,
26:17 - 26:23

tienes una declaración,
nombre, apellido, etc., de esa persona,
26:23 - 26:26

puedes proporcionar
la referencia para eso allí.
26:28 - 26:32

Dudo bastante en agregar más complejidad
26:32 - 26:35

para las referencias
en etiquetas y descripciones,
26:35 - 26:38

pero si la gente realmente piensa
26:38 - 26:45

que esto no está cubierto
por ninguna referencia en la declaración,
26:45 - 26:47

entonces hablemos de ello.
26:49 - 26:53

Pero me temo que agregará
mucha complejidad
26:53 - 26:56

para lo que espero sean pocos casos,
26:57 - 27:00

pero estoy dispuesta
a convencerme de lo contrario
27:00 - 27:04

si la gente realmente se siente
muy convencida al respecto.
27:04 - 27:08

(persona 5) Si se agrega, probablemente
no debería ser la interfaz predeterminada
27:08 - 27:12

mostrada a los usuarios principiantes,
en cualquier caso.
27:12 - 27:16

Más como "Haga clic aquí si necesita
decir algo específico sobre esto".
27:17 - 27:23

¿Tenemos una idea de cuántas veces
eso realmente importaría?
27:24 - 27:26

(persona 5) En estonio, por ejemplo,
27:26 - 27:29

supongo que esto también es cierto
para otros idiomas,
27:29 - 27:34

por ejemplo, hay un nombre oficial
que es la traducción legítima actual,
27:34 - 27:36

por ejemplo, al inglés,
27:36 - 27:40

es decir, de un tipo de municipio.
27:40 - 27:42

Ese fue mi caso de uso, por ejemplo,
27:42 - 27:44

donde estábamos usando
la palabra "parish",
27:45 - 27:50

que en estonio se refería a una especie
de parroquia de la iglesia,
27:50 - 27:51

y ese fue el origen,
27:51 - 27:54

pero esa no es la traducción oficial
que tiene Estonia en este momento.
27:55 - 27:59

En este caso, simplemente lo agregaría
como declaraciones de nombre oficiales
27:59 - 28:01

y agregaría la referencia allí.
28:02 - 28:03

(persona 5) Bien.
28:05 - 28:06

¿Preguntas? ¿Sí?
28:08 - 28:10

(Asaf) Tengo dos comentarios rápidos.
28:10 - 28:14

Llamaste específicamente al asturiano
como un idioma que funciona bien,
28:14 - 28:16

y creo que es una observación equívoca.
28:16 - 28:17

Cuéntame sobre eso.
28:17 - 28:20

(Asaf) Creo que es solo un bot
28:20 - 28:24

que pegó nombres de personas,
como nombres propios,
28:24 - 28:27

y dijo: "Bueno, esto es exactamente
como en francés o español",
28:27 - 28:28

y solo lo copió masivamente.
28:28 - 28:33

Un punto de evidencia es que
no se ve esa energía en asturiano
28:33 - 28:37

en cosas que requieren traducción,
como nombres de propiedades
28:37 - 28:39

o nombres de elementos
que no son nombres propios.
28:39 - 28:41

Asaf, me rompes el corazón.
28:41 - 28:43

(Asaf) Lo sé,
me gusta ser aguafiestas,
28:43 - 28:48

pero también tengo buenas noticias,
sobre los números de pronunciación.
28:49 - 28:53

Probablemente sepan que Commons
está llena de archivos de pronunciación,
28:53 - 28:55

y, por ejemplo,
28:55 - 29:01

el holandés tiene no menos de 300 000
archivos de pronunciación en Commons
29:02 - 29:05

que solo necesitan
ser ingeridos de alguna manera.
29:05 - 29:08

Si alguien está buscando
un proyecto paralelo,
29:08 - 29:09

hay toneladas y toneladas
29:09 - 29:13

de archivos de pronunciación
clasificados y categorizados en Commons
29:13 - 29:17

bajo la categoría Pronunciación
por idioma.
29:17 - 29:23

Así que eso está esperando ser emparejado
con lexemas y ponerse en Lexemas.
29:23 - 29:25

Y me preguntaba si podrías decir algo
29:25 - 29:26

sobre la hoja de ruta,
29:26 - 29:29

algo acerca de cuánta inversión
29:29 - 29:32

o qué podemos esperar
de Lexemas en el próximo año,
29:32 - 29:34

porque, por mi parte, no puedo esperar.
29:35 - 29:37

¿No puedes esperar? (risas)
29:37 - 29:39

- (Asaf) Por más.
- Sí. (risas)
29:44 - 29:49

Ahora nos estamos concentrando
más en Wikibase y la calidad de los datos
29:51 - 29:55

para ver cuánta tracción obtiene
29:55 - 30:02

y luego tener más información
de los puntos débiles
30:02 - 30:06

y luego volver a mejorar aún más
los datos lexicográficos.
30:07 - 30:10

Y una de las cosas
que me encantaría saber de ustedes
30:10 - 30:14

es dónde ven exactamente
los próximos pasos,
30:14 - 30:16

dónde desean ver mejoras
30:16 - 30:20

para que luego podamos descubrir
cómo hacer que suceda.
30:21 - 30:23

Pero, por supuesto, tienes razón,
30:23 - 30:26

todavía hay mucho por hacer
también en el aspecto técnico.
30:30 - 30:36

(persona 7) Mientras cargábamos
las palabras vascas con formas y sentidos
30:36 - 30:38

y ese tipo de cosas,
30:38 - 30:41

la semana pasada decíamos:
"Oh, somos los primeros en algo".
30:43 - 30:45

Aparece en la prensa y dice:
30:45 - 30:49

"Oh, los vascos son los primeros...
son los primeros en algo", está bien.
30:49 - 30:50

(risas)
30:50 - 30:53

Y luego la gente pregunta:
"Bien, pero ¿para qué sirve esto?"
30:55 - 30:57

No tenemos una muy buena respuesta.
30:57 - 30:58

Es decir, está bien,
30:58 - 31:02

esto ayudará a las computadoras
a comprender más nuestro idioma, sí,
31:02 - 31:05

pero ¿qué tipo de herramientas
podemos hacer en el futuro?
31:05 - 31:07

Y no tenemos
una buena respuesta para esto.
31:07 - 31:10

Así que no sé si tienes
una buena respuesta para esto.
31:10 - 31:13

(risas) No sé si tengo una buena,
31:13 - 31:15

pero tengo una respuesta.
31:15 - 31:20

Creo que en este momento, como les decía,
31:20 - 31:22

no hemos alcanzado esa masa crítica
31:22 - 31:25

en la que puedes construir muchas
de las herramientas interesantes.
31:25 - 31:28

Pero ya hay algunas herramientas.
31:28 - 31:32

Justo el otro día,
Esther [Pandelia], por ejemplo,
31:32 - 31:34

lanzó una herramienta donde pueden ver,
31:36 - 31:39

creo que fueron las palabras en un globo
31:39 - 31:42

donde se habla más, de dónde vienen.
31:42 - 31:44

Puede que me equivoque,
31:44 - 31:46

pero ella respondió en el chat
del Proyecto en Wikidata,
31:46 - 31:49

pueden buscarlo allí.
31:49 - 31:52

Así que hemos visto
estas primeras herramientas,
31:52 - 31:56

tal como las vimos
cuando comenzó Wikidata.
31:57 - 31:59

Primero solo era una red
31:59 - 32:03

y "Oye, mira, hay una cosa
que se conecta con esta otra cosa".
32:05 - 32:07

Y a medida que tenemos más datos,
32:07 - 32:10

y a medida que alcanzamos
cierta masa crítica,
32:12 - 32:14

se hacen posibles
aplicaciones más potentes,
32:15 - 32:17

como Histropedia,
32:19 - 32:22

cosas como preguntas y respuestas
32:22 - 32:26

en tu asistente personal digital,
Platypus, etc.
32:26 - 32:29

Y estamos viendo
algo similar con los lexemas.
32:31 - 32:34

Estamos en la etapa en la que
puedes construir así de pequeño
32:34 - 32:37

y oye, mira, hay una conexión
entre las dos cosas,
32:38 - 32:43

y la etapa de traducción de esta palabra
a ese lenguaje,
32:43 - 32:48

y a medida que la desarrollamos
y a medida que describimos más palabras,
32:48 - 32:49

más se hace posible.
32:49 - 32:52

Ahora, ¿qué se hace posible?
32:53 - 32:59

Como Ben, nuestro orador principal,
al comenzar habló de traducciones,
33:00 - 33:03

pudiendo traducir de un idioma a otro.
33:03 - 33:08

Y Jens, mi colega, siempre habla
33:08 - 33:11

de que la Unión Europea busca un traductor
33:11 - 33:17

que pueda traducir de...
creo que fue de maltés al sueco.
33:17 - 33:19

- (persona 8) Estonio.
- Estonio.
33:22 - 33:26

Y esa no es una combinación habitual.
33:27 - 33:32

Y una vez que estos idiomas estén
en un lugar que una máquina pueda leer,
33:32 - 33:33

ustedes podrán hacerlo,
33:33 - 33:37

podrán tener un diccionario
33:37 - 33:42

del estonio al maltés y viceversa.
33:43 - 33:45

Por lo tanto, cubrir combinaciones
de idiomas en diccionarios
33:45 - 33:48

que simplemente no se han cubierto antes
33:48 - 33:51

porque no había suficiente
demanda, por ejemplo,
33:51 - 33:55

para que sea financieramente viable
y para justificar el trabajo.
33:55 - 33:57

Ahora podemos hacer eso.
34:00 - 34:02

Luego generación de texto.
34:02 - 34:04

Lucie estaba hablando
34:04 - 34:10

de cómo está trabajando
con Hattie en la generación de texto
34:10 - 34:14

para iniciar artículos de Wikipedia
en idiomas minoritarios,
34:15 - 34:19

y eso necesita datos sobre palabras,
34:19 - 34:22

y ustedes necesitan entender
el idioma para hacerlo.
34:23 - 34:28

Sí, y esos son solo algunos
que me vienen a la mente justo ahora.
34:29 - 34:31

Tal vez nuestra audiencia tenga
más ideas de lo que quieren hacer
34:31 - 34:34

cuando tengamos todos los datos gloriosos.
34:38 - 34:41

(persona 9) Me desviaré
del tema de los lexemas.
34:41 - 34:43

Haré la pregunta,
34:43 - 34:45

¿cómo puedo,
como miembro de la comunidad,
34:45 - 34:50

influir en que esa tarea sea prioridad,
34:50 - 34:56

que un nuevo usuario pueda indicar
qué idiomas quiere ver y editar
34:56 - 35:01

sin algún conocimiento secreto
de plantillas verbales?
35:02 - 35:05

Quizás exista este año
esta lista de deseos técnicos
35:05 - 35:07

sin temas de Wikipedia.
35:07 - 35:10

Tal vez haya una esperanza
de que todos podamos votar
35:10 - 35:14

sobre esto que no arreglamos
durante siete años.
35:15 - 35:17

¿Tienen alguna idea
o comentario sobre esto?
35:18 - 35:20

¿Estás hablando del hecho
35:20 - 35:23

de que alguien que no
ha iniciado sesión en Wikidata
35:23 - 35:26

no puede cambiar su idioma fácilmente?
35:26 - 35:28

(persona 9) No, para usuarios [inaudibles].
35:28 - 35:31

Por lo tanto, si inician sesión,
35:31 - 35:35

pueden cambiar su idioma
en la parte superior de la página,
35:36 - 35:38

y luego aparecerá
35:39 - 35:42

donde están las descripciones
de las etiquetas [inaudible],
35:42 - 35:43

y pueden editarlo.
35:45 - 35:49

(persona 9) Bueno, en realidad,
muchas veces el flujo de trabajo
35:49 - 35:52

es que si quieres tener
varios idiomas, estén disponibles,
35:52 - 35:55

y no siempre es así.
35:55 - 35:58

Bien, tal vez deberíamos sentarnos
después de esta charla y me lo muestras.
36:01 - 36:04

Genial. ¿Más preguntas?
36:05 - 36:06

Sí.
36:11 - 36:13

(persona 10) Gracias por la presentación.
36:14 - 36:15

¿Puede comentarnos
36:15 - 36:19

sobre el estado de la correlación
con la comunidad de Wiktionary?
36:19 - 36:22

Hasta donde he visto,
hubo algunas discusiones
36:22 - 36:26

sobre la importación
de algunos elementos del trabajo,
36:26 - 36:31

pero parece haber problemas de licencia
y algunos desacuerdos, etc.
36:31 - 36:32

Correcto.
36:32 - 36:36

Bueno, las comunidades de Wiktionary
han pasado mucho tiempo
36:37 - 36:39

construyendo Wiktionary.
36:39 - 36:42

Han creado
36:43 - 36:47

plantillas increíblemente
complicadas y complejas
36:47 - 36:53

para crear tablas bonitas que generan
automáticamente formas para ustedes
36:53 - 36:56

y todo tipo de cosas
realmente impresionantes
36:56 - 37:00

y cosas un poco locas, si lo piensan.
37:02 - 37:08

Y, por supuesto, han invertido
mucho tiempo y esfuerzo en eso.
37:09 - 37:12

Y comprensiblemente,
37:12 - 37:17

no quieren que simplemente sea tomado,
37:18 - 37:19

así como así.
37:19 - 37:22

En parte viene de eso.
37:22 - 37:25

Y eso está bien, no hay problema.
37:26 - 37:32

Ahora, las primeras comunidades
de Wiktionary están hablando de producir
37:32 - 37:34

e importar algunos
de sus datos a Wikidata.
37:34 - 37:39

El ruso, como han visto,
por ejemplo, es uno de esos casos
37:40 - 37:42

y espero que suceda más.
37:43 - 37:47

Pero será un proceso lento,
37:47 - 37:49

al igual que la adopción
de los datos de Wikidata en Wikipedia
37:49 - 37:52

ha sido un proceso bastante lento.
37:53 - 37:56

Por otro lado, hacer que sea más fácil
37:56 - 37:59

usar los datos que están en lexemas,
37:59 - 38:02

en Wiktionary, para que puedan
hacer uso de eso
38:02 - 38:05

y compartir datos entre
los Wiktionarios de los idioma,
38:05 - 38:09

que es muy difícil
o imposible en este momento,
38:09 - 38:11

lo cual es una locura,
como con Wikipedia.
38:14 - 38:16

Esperen por el regalo de cumpleaños.
38:20 - 38:21

Sí.
38:22 - 38:25

(persona 11) Mientras lo pensaba,
38:25 - 38:28

no quise decirlo
porque pensaba que sería supertonto,
38:28 - 38:32

pero creo que Wiktionary
ya tiene algo de contenido,
38:32 - 38:35

y sé que no podemos
transferirlo a Wikidata
38:35 - 38:37

porque hay una diferencia
en las licencias.
38:37 - 38:39

Pero estaba pensando que tal vez
podamos hacer algo al respecto.
38:40 - 38:45

Tal vez, no sé, podemos obtener
el permiso de las comunidades
38:46 - 38:51

luego de, no sé,
tener una votación pública
38:51 - 38:55

y para que la comunidad,
los miembros activos de la comunidad
38:55 - 39:02

voten y digan si desean
o aceptan transferir el contenido
39:02 - 39:05

para el que pueden
hacer los lexemas de Wikidata.
39:06 - 39:08

Porque creo que es un desperdicio.
39:09 - 39:14

Por lo tanto, esa es definitivamente
una conversación que las personas
39:14 - 39:18

que están en las comunidades de Wiktionary
son bienvenidas a plantear.
39:18 - 39:24

Creo que sería un poco presuntuoso
para nosotros ir y forzar eso.
39:26 - 39:31

Pero sí, creo que definitivamente
vale la pena tener una conversación.
39:31 - 39:34

Pero creo que también
es importante entender
39:34 - 39:39

que hay una distinción entre
lo que está legalmente permitido
39:39 - 39:43

y lo que deberíamos estar haciendo,
39:43 - 39:45

y lo que esas personas
quieren o no quieren.
39:46 - 39:47

Incluso si está legalmente permitido,
39:47 - 39:50

si algunas otras comunidades
de Wiktionary no quieran eso,
39:50 - 39:53

al menos yo tendría cuidado.
39:59 - 40:02

Creo que necesitas el micrófono
para la transmisión.
40:04 - 40:07

(persona 12) Obviamente,
todo es muy emocionante,
40:08 - 40:12

e inmediatamente pienso
cómo puedo llevar eso a mis estudiantes
40:12 - 40:15

y cómo puedo incorporarlo a los cursos,
40:15 - 40:18

el trabajo que estamos haciendo,
los entornos educativos.
40:18 - 40:22

Y no tengo, en este momento,
40:22 - 40:24

en primer lugar, suficiente conocimiento,
40:24 - 40:27

pero creo que la documentación que tenemos
40:28 - 40:30

podría ser mejorada.
40:30 - 40:33

Esa es una especie de solicitud
para hacer videos geniales
40:33 - 40:36

que expliquen cómo funciona
40:36 - 40:40

porque si lo tenemos, podemos usarlo,
40:40 - 40:42

y podemos tener estudiantes a bordo,
40:42 - 40:47

y podemos hacer que la gente entienda
lo increíble que es todo.
40:47 - 40:52

Y sí, solo piensen en la documentación
y en la educación, por favor.
40:52 - 40:54

Porque creo que se podría hacer mucho.
40:54 - 40:58

Estas son como muchas tareas
que podrían hacerse incluso con...
41:00 - 41:02

bueno, no diría escuelas primarias,
41:02 - 41:05

pero ciertamente, incluso
estudiantes más jóvenes.
41:06 - 41:11

Entonces, realmente me gustaría ver
ese potencial aprovechado
41:11 - 41:15

y, a partir de ahora, personalmente
no entiendo lo suficiente
41:15 - 41:19

como para poder crear
tareas o crear como...
41:20 - 41:22

hacer algo práctico con eso.
41:22 - 41:26

Cualquier ayuda o pensamiento
que alguien tenga sobre eso,
41:26 - 41:29

estaría muy feliz de escucharlas también.
41:30 - 41:32

Sí, hablemos de eso.
41:35 - 41:37

¿Más preguntas?
41:38 - 41:39

Alguien más levantó una mano.
41:39 - 41:40

Olvidé dónde estaba.
41:46 - 41:50

(persona 13) Si no podemos
importar desde Wiktionary,
41:50 - 41:56

¿hay algún esfuerzo concertado en hallar
otras fuentes de dominio público,
41:56 - 41:57

tal vez todos los datos
41:59 - 42:03

y algún tipo de filtro previo, organizarlo
42:03 - 42:08

que sea fácil de revisar y así importarlo?
42:09 - 42:11

Se han tomado medidas iniciales.
42:11 - 42:15

Tengo entendido que el vasco
es uno de esos esfuerzos.
42:15 - 42:17

¿Quizás quieras decir
un poco más al respecto?
42:18 - 42:20

(persona 7) [inaudible]
42:23 - 42:27

Bueno, la respuesta real es pagar por eso.
42:28 - 42:33

Tenemos un acuerdo con un contratista
con el que usualmente trabajamos.
42:35 - 42:38

Hacen diccionarios,
42:40 - 42:42

y muchas cosas, pero hacen diccionarios.
42:43 - 42:47

Acordamos con ellos para liberar
el diccionario de los estudiantes,
42:47 - 42:53

seleccionamos las palabras más comunes
y comenzaríamos a cargarlo
42:53 - 42:55

con un identificador externo
y el esquema de las cosas.
42:58 - 43:02

Pero hubo una discusión
acerca de dejarlo en CC0
43:03 - 43:05

porque tienen el diccionario con CC
43:06 - 43:10

y entendieron cuál era la diferencia.
43:10 - 43:14

Entonces hubo una discusión.
43:14 - 43:20

Pero creo que proporcionaremos algunas
herramientas o ejemplos en el futuro,
43:20 - 43:24

y creo que habrán otros diccionarios
que podamos manejar,
43:24 - 43:29

y también creo que Wiktionary
debe comenzar a moverse en esa dirección,
43:29 - 43:32

pero esa es otra gran discusión.
43:33 - 43:34

Y además de eso,
43:34 - 43:39

Lea también está en contacto
con personas occitanas
43:39 - 43:42

que trabajan en diccionarios occitanos,
43:42 - 43:45

y actualmente están trabajando
en una colaboración de sumerio.
43:51 - 43:53

¿Más preguntas?
44:01 - 44:05

(persona 14) ¡Hola! Somos las personas
que queremos importar datos occitanos.
44:05 - 44:06

¡Ajá! ¡Perfecto!
44:06 - 44:08

(persona 14) Y tenemos
un pequeño problema.
44:09 - 44:14

No sabemos cómo representar
la variedad de todos los lexemas.
44:14 - 44:18

Tenemos seis dialectos
44:18 - 44:24

y queremos indicarle a Lexemas
en qué dialecto se usa
44:24 - 44:27

y no tenemos una declaración C0
adecuada para hacerlo.
44:27 - 44:31

Por lo tanto,
mientras la declaración no exista,
44:31 - 44:34

nos impide impulsarlo
44:34 - 44:37

porque tendremos que volver a hacerlo
44:37 - 44:42

cuando podamos [sacar provecho]
a la declaración.
44:42 - 44:44

Y es complicado porque es una declaración
44:44 - 44:48

que muchas personas no pedirán
44:48 - 44:53

porque es una declaración que se refiere
principalmente a los idiomas minoritarios.
44:53 - 44:57

Tendrás una sola persona que lo pida,
44:57 - 45:00

pero, como nuestros colegas vascos,
45:00 - 45:06

puede ser una persona
que impulsará a miles de otros,
45:06 - 45:11

por lo que puede que no se pida mucho,
45:11 - 45:14

pero será muy importante para nosotros.
45:15 - 45:17

¿Ya tienen una nueva
propuesta de propiedad
45:17 - 45:19

o necesitan ayuda para crearla?
45:21 - 45:24

(persona 14) La solicitamos
hace cuatro meses.
45:25 - 45:29

Entonces hagamos que algunas personas
ayuden con esta propuesta de propiedad.
45:30 - 45:33

Estoy seguro de que hay suficientes
personas en esta sala para que suceda.
45:33 - 45:36

(persona 15) Propuesta de propiedad
[hablando en francés].
45:36 - 45:36

(persona 16) No tuvimos respuesta.
45:36 - 45:40

(persona 14) No tuvimos respuesta,
y no sabemos cómo hacerlo
45:40 - 45:43

porque no estamos
en la comunidad de Wikidata.
45:45 - 45:49

Sí, así que hay personas aquí
que pueden ayudarte.
45:49 - 45:52

Quizás alguien
levante la mano para tomar...
45:52 - 45:53

(persona 7) Estoy para eso.
45:53 - 45:55

Pero creo que esto
es bastante interesante
45:55 - 45:59

no solo por la variante de forma
45:59 - 46:02

también puede manejarse geográficamente,
46:02 - 46:05

con coordenadas o algún tipo de mapeo.
46:05 - 46:08

También tener diferentes pronunciaciones,
46:08 - 46:12

y creo que esto es algo
que sucede en muchos idiomas.
46:12 - 46:16

Deberíamos comenzar
a hacer que suceda [inaudible],
46:16 - 46:19

y voy a buscar la propiedad.
46:20 - 46:21

Genial.
46:21 - 46:24

Entonces obtendrás respaldo
para tu propuesta de propiedad.
46:26 - 46:27

Gracias.
46:28 - 46:30

Muy bien, ¿más preguntas?
46:32 - 46:34

Finn.
46:34 - 46:35

Finn es una de esas personas
46:35 - 46:37

que construye cosas
sobre datos lexicográficos.
46:37 - 46:40

(Finn) Es solo una pequeña pregunta,
46:40 - 46:44

y se trata de variaciones ortográficas.
46:45 - 46:48

Parece difícil ponerlos en...
46:48 - 46:53

Podría, por supuesto, tener múltiples
formas para la misma palabra.
46:56 - 46:58

No sé, parece que
46:59 - 47:03

si no lo haces así
parece ser difícil de especificar...
47:05 - 47:06

o no sé
47:06 - 47:10

si esto es solo un problema
técnico menor o si...
47:10 - 47:11

Veámoslo juntos.
47:11 - 47:15

Me encantaría ver un ejemplo.
47:17 - 47:18

Asaf.
47:27 - 47:28

(Asaf) Gracias.
47:29 - 47:34

Puedo dar un ejemplo muy concreto
de mi lengua materna, el hebreo.
47:34 - 47:39

El hebreo tiene dos variantes principales
47:39 - 47:43

para expresar casi todas las palabras
47:43 - 47:47

porque la ortografía tradicional
47:47 - 47:50

omite muchas de las vocales.
47:51 - 47:55

Y, por lo tanto, en las ediciones
modernas de la Biblia y de la poesía,
47:55 - 47:57

se usan diacríticos.
47:57 - 48:03

Sin embargo, esos signos diacríticos
nunca se usan para la prosa moderna
48:03 - 48:06

o la escritura de periódicos
o letreros de la calle.
48:06 - 48:11

El uso informal diario promedio
pone vocales adicionales
48:12 - 48:13

y no usa los signos diacríticos
48:13 - 48:15

porque son, por supuesto, más engorrosos
48:15 - 48:18

y tienen todo tipo de reglas
y nadie las conoce.
48:18 - 48:20

Entonces, básicamente hay dos variantes.
48:20 - 48:25

Existe la variante
de la prosa informal cotidiana,
48:25 - 48:28

y está la Biblia o la poesía,
48:28 - 48:32

que siempre viene
en este texto diacrítico tradicional.
48:32 - 48:33

Para ser útil,
48:33 - 48:37

Lexema tendría que reconocer
ambas variedades de cada palabra
48:37 - 48:40

y cada forma de cada palabra.
48:41 - 48:43

Es un caso de uso muy completo
48:43 - 48:46

para las variantes estables oficiales.
48:46 - 48:49

No es dialecto, no son regiones,
48:49 - 48:53

son básicamente dos sistemas
morfológicos coexistentes.
48:54 - 48:59

Y tampoco sé exactamente
cómo expresarlo en Lexema,
48:59 - 49:03

cosa que me impide responder
parcialmente a la pregunta de Magnus
49:03 - 49:05

de subir las partes que están listas
49:05 - 49:09

del mayor diccionario hebreo,
que es de dominio público
49:09 - 49:13

y que he estado digitalizando
durante varios años.
49:13 - 49:15

Una buena parte está lista,
49:15 - 49:16

pero no la pongo en Lexema en este momento
49:16 - 49:20

porque no sé exactamente
cómo resolver este problema.
49:20 - 49:23

Muy bien, solucionemos
este problema aquí. (risas)
49:24 - 49:26

Eso tiene que ser posible.
49:30 - 49:32

Muy bien, ¿más preguntas?
49:37 - 49:39

Si no, muchas gracias.
49:40 - 49:45

(aplausos)

Title:: cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4
Video Language:: English
Duration:: 49:51

Bar Sch edited Spanish subtitles for cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

Spanish subtitles

Revisions

Revision 1 Uploaded

Bar Sch

cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

Revisions

Our website uses cookies

Operating cookies (Required)