(Lydia) Muchas gracias.

En esta conferencia, uno de los grandes
temas son los idiomas.

Quiero darles una visión general
de dónde estamos actualmente

en lo que respecta a los idiomas

y hacia dónde podemos ir desde aquí.

Wikidata se trata de dar a más personas
más acceso a más conocimiento,

y el lenguaje es una parte importante
para hacer que esto sea una realidad,

porque cada vez más nuestras vidas
dependen de la tecnología.

Y como nuestro orador principal decía hoy,

parte de la tecnología 
deja atrás a las personas

simplemente porque no pueden
hablar un determinado idioma,

y ​​eso no está bien.

Entonces queremos hacer algo al respecto.

Y para cambiar eso, 
necesitan al menos dos cosas.

Una es que deben proporcionar contenido
a las personas en su idioma,

y ​​la segunda cosa que necesitan

es proporcionarles 
interacción en su idioma

en esas aplicaciones 
o lo que sea que tenga.

Y Wikidata ayuda con ambas cosas.

Lo primero, <i>contenido en su idioma,</i>

eso es básicamente lo que tenemos
en elementos y propiedades,

cómo describimos el mundo.

Ahora, esto ciertamente 
no es todo lo que necesitan,

pero eso ya es un gran avance.

La otra cosa 
es la <i>interacción en su idioma,</i>

y ​​ahí es donde 
entran en juego los lexemas.

Si desean hablar 
con su asistente personal digital

o si desean que su dispositivo
traduzca un texto y cosas así.

Muy bien, veamos 
el <i>Contenido en su idioma</i>.

Entonces, lo que tenemos 
en <i>elementos</i> y <i>propiedades</i>.

Para esto, las etiquetas en esos 
<i>elementos</i> y <i>propiedades</i> son cruciales.

Necesitamos saber cómo se llama 
esta entidad de la que estamos hablando.

Y en lugar de hablar sobre Q5,

alguien que habla inglés 
sabe que es un "humano",

alguien que habla alemán 
sabe que es un "mensch"

y cosas similares.

Entonces, esas etiquetas 
en <i>elementos</i> y <i>propiedades</i>

están cerrando la brecha 
entre humanos y máquinas.

Y humanos y humanos

haciendo más conocimiento existente
accesible para ellos.

Ahora, esa es una buena aspiración.

¿Cómo se vería realmente?

Se vería como esto.

Lo que están viendo aquí

es que la mayoría de los elementos
en Wikidata tienen dos etiquetas,

por lo que las etiquetas
están en dos idiomas.

Y después de eso, es uno, y luego tres,
y luego se pone muy triste.

(risa silenciosa)

Creo que debemos hacerlo mejor.

Pero, por otro lado,

en realidad esperaba 
que esto fuera aún peor.

Esperaba que el promedio fuera uno.

Así que estaba bastante feliz
de ver dos. (risa)

Bien.

Pero no solo es interesante saber

cuántas etiquetas tienen nuestros
elementos y propiedades.

También es interesante ver en qué idiomas.

Aquí pueden ver un gráfico de los idiomas

que tienen etiquetas en los <i>elementos</i>.

Entonces, la parte más grande es <i>Otros</i>.

Así que acabo de tomar 
los 100 idiomas principales

y todo lo demás es <i>Otros</i>
para hacer que este gráfico sea legible.

Y luego está el inglés y el holandés,

el francés,

y, para no olvidar, el asturiano.

- (audiencia) <i>¡Hurra!</i>
- ¡Yuju! ¡Sí!

Entonces, lo que ven aquí
es un gran desequilibrio

y todavía un gran enfoque en el inglés.

Otra cosa es que si buscan 
lo mismo en <i>Propiedades</i>,

en realidad se ve mejor.

Y creo que parte se debe
a que son menos propiedades.

Incluso las comunidades más pequeñas
podrán mantenerse al día con eso.

Pero también es una parte 
bastante importante de Wikidata

localizarlo en su idioma.

Eso es bueno.

Lo que quiero resaltar aquí con asturiano

es que una pequeña comunidad 
puede hacer una gran diferencia

con un poco de dedicación y trabajo,

y eso es realmente genial.

Un pequeño cuestionario para ustedes.

Si toman todas las propiedades en Wikidata
que no son identificadores externos,

¿cuál tiene más cantidad de etiquetas,
como la mayoría de los idiomas?

(audiencia) [inaudible]

¿Creen que es la <i>instancia de</i>?

De ser así están equivocados.

Es <i>imagen</i>. (risas)

Sí, eso les dice 
que si hablan uno de los idiomas

en los que <i>instancia de</i>
aún no tiene una etiqueta,

quizás quieran agregarla.

Tiene 148 etiquetas actualmente.

Pero es otra diapositiva.

Este gráfico nos dice algo
sobre la cantidad de contenido

que ponemos a disposición
en un idioma determinado

y cuánto de ese contenido
se usa realmente.

Entonces, lo que están viendo
es básicamente una curva

con la mayoría del contenido
que tiene etiquetas en inglés,

disponible en inglés y se usa mucho.

Y luego se cae un poco.

Pero, de nuevo, lo que pueden ver
son valores atípicos

que tienen mucho más contenido 
del que necesariamente esperarían,

y eso es muy muy bueno.

El problema aún es que no se usa mucho.

Los asturianos y holandeses
deberían ser más altos,

y creo que ayudar a esas comunidades

a aumentar el uso 
de los datos que recopilaron

es algo realmente útil.

Lo que este y otros análisis
nos mostraron también es algo bueno,

estamos viendo
que los elementos muy usados

​​también tienden a tener más etiquetas

o al revés... 
No está del todo claro.

Y entonces la pregunta es

¿estamos sirviendo 
solo a los idiomas poderosos?

¿O estamos sirviendo a todos?

Y lo que ven aquí 
es una agrupación de idiomas.

Los idiomas que se agrupan 
tienden a tener etiquetas juntos.

Y los ven agruparse.

Ahora aquí hay una agrupación
similar, coloreada,

basada en qué tan vivo, cómo se usa,

qué tan en peligro es el idioma.

Y lo bueno que están viendo aquí

es que los idiomas seguros 
y los idiomas en peligro de extinción

no forman dos grupos diferentes.

Pero todos están mezclados,

lo que es mucho mejor 
de lo que sería al revés

donde los idiomas seguros,
los idiomas poderosos

solo se están ayudando mutuamente.

No, no es el caso.

Y es algo realmente bueno.

Cuando vi esto, 
pensé que era muy bueno.

Aquí hay algo similar

en el que miramos

el estado de los idiomas

y cuántas etiquetas tiene.

Lo que están viendo es una clara victoria
para los idiomas seguros,

como se esperaba.

Pero lo que también ven es...

que los idiomas en las categorías
2 y 3 y tal vez incluso 4

no son tan malos, en realidad,

en términos de su representación
en Wikidata y otros.

Es algo realmente bueno de encontrar.

Ahora, si observan lo mismo

para saber cuánto 
de ese contenido de esas etiquetas

se usa realmente 
en Wikipedia, por ejemplo,

entonces vemos una imagen similar
emergiendo nuevamente.

Y nos dice que esas comunidades 
están haciendo un buen uso de su tiempo

al completar etiquetas para artículos
de mayor uso, por ejemplo.

Hay valores atípicos 
en los que creo que podemos ayudar

a esas comunidades a encontrar un lugar
donde su trabajo sería más valioso.

Pero, en general, 
estoy contenta con esta imagen.

Ahora, esa era la parte de elementos
y propiedades de Wikidata.

Ahora, veamos la interacción
en sus idiomas,

la parte de lexema de Wikidata

donde describimos palabras 
y sus formas y sus significados.

Hemos estado haciendo esto
desde mayo del año pasado,

y el contenido ha ido creciendo.

Pueden ver aquí en azul los lexemas,

y luego, en rojo, 
las formas en esos lexemas

y, amarillo, los sentidos en esos lexemas.

Por lo tanto, algunas comunidades,
lo veremos más adelante,

han pasado mucho tiempo creando 
formas y sentidos para sus lexemas,

lo cual es realmente útil

porque construye el núcleo 
del conjunto de datos que necesitan.

Ahora, miramos todos los idiomas

que tienen lexemas en Wikidata.

Entonces, las palabras que tenemos

son ahora 310 idiomas.

Ahora, ¿cuál creen 
que es el idioma principal

cuando se trata de la cantidad 
de lexemas actualmente en Wikidata?

(persona 1) Ruso.

- ¿Ah?
- (persona 2) El alemán.

Lo siento, lo había escuchado.

Es el ruso.

El ruso está bastante por delante.

Y solo para darles una perspectiva,

hay diferentes opiniones,

pero he leído, por ejemplo,
que 1000 a 3000 palabras

te llevan al nivel de conversación, 
aproximadamente, en otro idioma,

y ​​4000 a 10 000 palabras
a un nivel avanzado.

Entonces, todavía tenemos
un poco para alcanzar.

Una cosa a la que quiero
que presten atención es el vasco

con 10 000 lexemas, aproximadamente.

Ahora, si observa el número 
de formas para esos lexemas,

el vasco está muy arriba,

lo cual es realmente genial,

y deben ir a una charla que explica
por qué ese es el caso.

Si nos fijamos en la cantidad de sentidos,
en lo qué significan las palabras,

el vasco llega 
a la parte superior de la lista.

Creo que eso merece un aplauso.

(aplausos)

Otra pregunta rápida.

¿Cuál es el lexema 
con más traducciones actualmente?

(audiencia) <i>Gatos, gatos, [inaudible],
Douglas Adams, [inaudible]</i>

Todas buenas conjeturas, pero no.

Es esta, la palabra rusa para "agua".

Muy bien, ahora hablamos mucho

sobre cuántos lexemas, 
formas y sentidos tenemos,

pero eso es solo una cosa que necesitas.

La otra cosa que necesitan es describir
esos lexemas, formas y sentidos

de manera legible para una máquina.

Y para eso tienen declaraciones,
por ejemplo, en elementos.

Y una de las propiedades 
que utilizan es el Ejemplo de uso.

Entonces, quien esté usando esos datos

puede entender cómo usar
esa palabra en contexto,

por lo que podría ser una cita,
por ejemplo.

Y aquí, los polacos son geniales.

Buen trabajo, hablantes de polaco.

Otra propiedad realmente útil es el AFI,

¿cómo se pronuncia esta palabra?

Aparentemente, Rusia necesita
muchas declaraciones del AFI.

Pero, de nuevo, polaco, segundo.

Y por último, pero no menos importante,
tenemos audio de pronunciación.

Es decir, enlaces a archivos en Commons

donde alguien habla la palabra,

para que puedan escuchar 
a un hablante nativo pronunciar la palabra

en caso de que no sepa leer AFI,
por ejemplo.

Y hay un proyecto realmente
agradable basado en Wiki

llamado Lingua Libre

donde pueden ir y ayudar 
a grabar palabras en su idioma

que luego se pueden agregar
a lexemas en Wikidata,

para que otras personas puedan entender
cómo pronunciar sus palabras.

(audiencia) [inaudible]

Si buscas "Lingua Libre"

y estoy segura de que alguien 
puede publicarlo en el canal de Telegram.

Esos tipos son geniales.

Hicieron cosas realmente
geniales con Wikibase.

Bien.

Entonces, la pregunta es
¿a dónde vamos desde aquí?

Según los números que acabo de mostrar,

hemos recorrido un largo camino

para dar a más personas 
más acceso a más conocimiento

al mirar idiomas en Wikidata.

Pero también queda 
mucho trabajo por delante.

Algunas de las cosas que pueden hacer
para ayudar, por ejemplo,

es organizar "etiquetatones",

reunir a las personas 
para etiquetar elementos en Wikidata

o hacer un "editatón"
alrededor de lexemas en tu idioma

para llevar las palabras más utilizadas
de tu idioma a Wikidata.

O pueden usar una herramienta
como Terminator

que les ayuda a encontrar los elementos
más importantes en su idioma

que aún no tienen una etiqueta.

Lo más importante se mide 
por la frecuencia con la que se usa

en otros elementos de Wikidata 
como enlaces en las declaraciones.

Y, por supuesto, para la parte de lexema,

ahora que tenemos 
una cobertura básica de esos lexemas,

también se trata de construirlos,
agregarles más declaraciones

para que puedan construir la base

para aplicaciones significativas
y construir encima de eso.

Debido a que nos estamos acercando
a esa masa crítica,

pero aún estamos lejos de eso,

que puede construir 
aplicaciones serias sobre ella.

Y espero que todos ustedes 
se unan a nosotros para hacer eso.

Y eso me lleva a pedir

un poco de ayuda de nuestros amigos.

Bruno, ¿quieres venir

y hablarnos sobre máscaras léxicas?

(Bruno) Gracias, Lydia,

gracias por darme 
este breve período de tiempo

para presentar este trabajo 
que hacemos en Google con Denny,

que la mayoría probablemente
ha escuchado o sabe.

Porque en Google, soy lingüista.

Así que estoy muy feliz de estar aquí 
entre otros entusiastas de los idiomas.

También estamos 
construyendo algunos léxicos,

y hemos construido esta tecnología

o este enfoque que creemos 
que puede ser útil para ustedes.

Solo para darles un poco de contexto,

este es mi contexto lexicográfico
que habla aquí.

Cuando creamos 
una base de datos de léxicos,

es muy difícil mantenerlos, 
mantenerlos consistentes

e intercambiar datos,

como probablemente ya saben.

Hay varios intentos de unificar 
la característica y las propiedades

que describen esos lexemas y esas formas,

no es un problema resuelto,

pero hay algunos intentos 
de unificación de ese lado.

Pero lo que realmente falta,

y este es un problema que tuvimos 
al comienzo de nuestro proyecto en Google

es tratar de tener una estructura interna

que describa cómo debería ser
una entrada léxica,

qué tipo de datos o qué tipo
de información tenemos

y la especificación que se espera.

Entonces, esto es lo que se nos ocurrió 
con esta cosa llamada máscara léxica.

Una máscara léxica describe
lo que se espera de una entrada,

para completar una entrada lexicográfica,

tanto en términos de la cantidad 
de formas que esperan para un lexema

y la cantidad de características 
que esperan para cada forma.

Aquí hay un ejemplo 
de adjetivos italianos.

En italiano, esperas tener
cuatro formas para tus adjetivos,

y cada una de estas formas 
tiene una combinación específica

de características de género y número.

Esto es lo que esperamos 
para los adjetivos italianos.

Por supuesto, puede tener 
máscaras extremadamente complejas,

como la conjugación de verbos franceses,
que es bastante extensa,

y no le muestro ninguna otra máscara rusa
porque no se ajusta a la pantalla.

Y también tenemos algunas
especificaciones detalladas

porque distinguimos 
lo que está al nivel de la forma.

Aquí tienes sustantivos rusos
que tienen tres números

y una cantidad de casos
con diferentes formas,

pero también tienen 
una especificación de nivel de entrada

que dice que un sustantivo
particularmente tiene

un género inherente y una característica
de animación inherente

que también se especifica en la máscara.

También distinguiremos que una máscara
proporciona una especificación

para, en general, 
cómo debería ser una entrada.

Pero puede tener máscaras más pequeñas
para aspectos defectuosos de la forma

o aspectos defectuosos del lexema
que suceden en el idioma.

Así que aquí está la versión 
más simple de los verbos franceses

que usan solo la 3ra persona del singular
para todos los verbos meteorológicos,

como "llueve" o "nieva", como en inglés.

Entonces distinguimos estos dos niveles.

Y cómo usamos esto en Google

es que, cuando tenemos un léxico
que queremos usar,

usamos la máscara para lanzar
literalmente los léxicos,

todas las entradas, a través de la máscara

y ver qué entrada tiene un problema
en términos de estructura.

¿Nos falta un formulario?
¿Nos falta una característica?

Y cuando hay un problema, 
hacemos una validación humana

o simplemente para ver si pasa la máscara.

Es una herramienta muy poderosa 
que verifica la calidad de la estructura.

Entonces, lo que nos complace anunciar hoy

es que tenemos luz verde 
para liberar el código de nuestra máscara.

Este es un esquema.

Si lo desean, podemos liberarlo

y se lo proporcionaremos a Wikidata
como archivo ShEx.

Este es un archivo ShEx 
para sustantivos alemanes,

y Denny está trabajando en la conversión
de nuestra especificación interna

a una especificación de código abierto.

Actualmente cubrimos más de 25 idiomas.

Así que, esperamos crecer de nuestro lado,

pero también buscamos esta oportunidad
de colaborar para otros idiomas.

Y una de las colaboraciones en curso
también que Denny tiene con Lukas.

Lukas tiene estas excelentes herramientas
para tener una interfaz de usuario

que ayude al usuario 
o al contribuyente a agregar más formas.

Entonces, si desea agregar
un adjetivo en francés,

la interfaz de usuario les indica 
cuántas formas se esperan

y qué tipo de características
debe tener esta forma.

Por lo tanto, nuestra máscara ayudará
a definir y expandir la herramienta.

Eso es todo.

(Lydia) Muchas gracias.

(aplausos)

Bien. ¿Hay preguntas?

¿Quieren que hable más sobre lexemas?

- (persona 3) Sí.
- Sí. (risas)

(persona 3) Mi pregunta viene 
porque estabas hablando

de dar más acceso 
a más personas en más idiomas.

Pero hay muchos idiomas 
que no se pueden usar en Wikidata.

Entonces, ¿qué solución tienes para eso?

Cuando dices 
que no se puede usar Wikidata,

¿estás hablando de ingresar etiquetas?

- (persona 3) Etiquetas, descripciones.
- Correcto.

Entonces, para lexemas,
es un poco diferente

porque no tenemos esa restricción.

Para las etiquetas 
de elementos y propiedades,

hay algunas restricciones

porque queríamos asegurarnos

de que no todo el mundo haga de todo

y se vuelva inmanejable.

Incluso una pequeña comunidad
que quiera un idioma y trabajar en él,

hablen con nosotros, lo haremos realidad.

(persona 3) Hicimos eso 
en el Hackathon de Praga en mayo,

y nos tomó hasta casi agosto 
para poder usar nuestro idioma.

- Sí.
- (persona 3) Entonces, es muy lento.

Sí, desafortunadamente así es.

Actualmente trabajamos 
con el Comité de idiomas

para resolver algunos fundamentos...

como llegar a un acuerdo sobre qué tipo
de idiomas están realmente "permitidos",

y eso ha llevado demasiado tiempo,

razón por la cual su solicitud 
tardó más de lo que debería.

(persona 3) Gracias.

(persona 4) Gracias a ti.

Lydia, ¿si recuerdas 
las estadísticas que mostraste,

- el número de lexemas por idioma?
- Sí.

Entonces, ¿contaste todas las formas
como un punto de datos

o solo lexemas?

(Lydia) ¿Te refieres a esto?
¿A cuál te refieres?

(persona 4) Sí, exactamente.

Si recuerdas, ¿este número [inaudible]

todas las formas para todos los lexemas
o cuántos lexemas hay?

- No, solo es el número de lexemas.
- (persona 4) Solo un número de lexemas.

Entonces, es una estadística justa

porque si se compilan las formas,

es por eso que pregunto,

entonces todos los idiomas
con la morfología flexiva,

como el ruso, el serbio,
el esloveno y otros,

tienen una ventaja natural
porque tienen muchos.

Ya comienza por aquí,
en este número de formas.

(persona 4) Sí, fue este. Gracias.

(persona 5) Tengo 
una pregunta rápida sobre...

Cuando hablamos de los elementos
y propiedades reales.

Por lo que entiendo,

actualmente no hay forma
de dar una fuente real

a ninguna de las etiquetas 
y descripciones que se dan.

Entonces, por ejemplo, 
porque cuando hablas

de la propiedad de un elemento,

por ejemplo, puedes tener
etiquetas en conflicto.

Sí.

(persona 5) Esta persona es como...

Antes hablábamos 
de cosas indígenas, por ejemplo.

Esta persona es un artista noruego
según esta fuente,

y un artista sami, según esta fuente.

O, por ejemplo, en estonio,
tuvimos un problema

en el que cambiamos la terminología
a la de uso oficial

en los léxicos oficiales,

pero no tenemos forma 
de indicar realmente por qué,

es decir, cuál fue la fuente

y por qué fue mejor y qué había allí antes

solo fui yo, una persona cualquiera,

simplemente cambiando la cosa
para cualquiera que lo vea.

¿Hay algún plan para hacer 
esto posible de alguna manera

para tener las fuentes adecuadas
para los datos de un idioma?

Entonces, es parcialmente posible.

Por ejemplo, cuando tienes 
un elemento para una persona,

tienes una declaración, 
nombre, apellido, etc., de esa persona,

puedes proporcionar
la referencia para eso allí.

Dudo bastante en agregar más complejidad

para las referencias 
en etiquetas y descripciones,

pero si la gente realmente piensa

que esto no está cubierto 
por ninguna referencia en la declaración,

entonces hablemos de ello.

Pero me temo que agregará
mucha complejidad

para lo que espero sean pocos casos,

pero estoy dispuesta 
a convencerme de lo contrario

si la gente realmente se siente
muy convencida al respecto.

(persona 5) Si se agrega, probablemente
no debería ser la interfaz predeterminada

mostrada a los usuarios principiantes,
en cualquier caso.

Más como "Haga clic aquí si necesita
decir algo específico sobre esto".

¿Tenemos una idea de cuántas veces
eso realmente importaría?

(persona 5) En estonio, por ejemplo,

supongo que esto también es cierto
para otros idiomas,

por ejemplo, hay un nombre oficial 
que es la traducción legítima actual,

por ejemplo, al inglés,

es decir, de un tipo de municipio.

Ese fue mi caso de uso, por ejemplo,

donde estábamos usando
la palabra "parish",

que en estonio se refería a una especie
de parroquia de la iglesia,

y ese fue el origen,

pero esa no es la traducción oficial 
que tiene Estonia en este momento.

En este caso, simplemente lo agregaría 
como declaraciones de nombre oficiales

y agregaría la referencia allí.

(persona 5) Bien.

¿Preguntas? ¿Sí?

(Asaf) Tengo dos comentarios rápidos.

Llamaste específicamente al asturiano
como un idioma que funciona bien,

y creo que es una observación equívoca.

Cuéntame sobre eso.

(Asaf) Creo que es solo un bot

que pegó nombres de personas,
como nombres propios,

y dijo: "Bueno, esto es exactamente
como en francés o español",

y solo lo copió masivamente.

Un punto de evidencia es que 
no se ve esa energía en asturiano

en cosas que requieren traducción,
como nombres de propiedades

o nombres de elementos 
que no son nombres propios.

Asaf, me rompes el corazón.

(Asaf) Lo sé, 
me gusta ser aguafiestas,

pero también tengo buenas noticias, 
sobre los números de pronunciación.

Probablemente sepan que Commons 
está llena de archivos de pronunciación,

y, por ejemplo,

el holandés tiene no menos de 300 000 
archivos de pronunciación en Commons

que solo necesitan 
ser ingeridos de alguna manera.

Si alguien está buscando
un proyecto paralelo,

hay toneladas y toneladas

de archivos de pronunciación
clasificados y categorizados en Commons

bajo la categoría <i>Pronunciación</i>
por idioma.

Así que eso está esperando ser emparejado
con lexemas y ponerse en Lexemas.

Y me preguntaba si podrías decir algo

sobre la hoja de ruta,

algo acerca de cuánta inversión

o qué podemos esperar 
de Lexemas en el próximo año,

porque, por mi parte, no puedo esperar.

¿No puedes esperar? (risas)

- (Asaf) Por más.
- Sí. (risas)

Ahora nos estamos concentrando 
más en Wikibase y la calidad de los datos

para ver cuánta tracción obtiene

y luego tener más información
de los puntos débiles

y luego volver a mejorar aún más
los datos lexicográficos.

Y una de las cosas 
que me encantaría saber de ustedes

es dónde ven exactamente
los próximos pasos,

dónde desean ver mejoras

para que luego podamos descubrir
cómo hacer que suceda.

Pero, por supuesto, tienes razón,

todavía hay mucho por hacer 
también en el aspecto técnico.

(persona 7) Mientras cargábamos
las palabras vascas con formas y sentidos

y ese tipo de cosas,

la semana pasada decíamos:
"Oh, somos los primeros en algo".

Aparece en la prensa y dice:

"Oh, los vascos son los primeros...
son los primeros en algo", está bien.

(risas)

Y luego la gente pregunta: 
"Bien, pero ¿para qué sirve esto?"

No tenemos una muy buena respuesta.

Es decir, está bien,

esto ayudará a las computadoras 
a comprender más nuestro idioma, sí,

pero ¿qué tipo de herramientas
podemos hacer en el futuro?

Y no tenemos 
una buena respuesta para esto.

Así que no sé si tienes 
una buena respuesta para esto.

(risas) No sé si tengo una buena,

pero tengo una respuesta.

Creo que en este momento, como les decía,

no hemos alcanzado esa masa crítica

en la que puedes construir muchas
de las herramientas interesantes.

Pero ya hay algunas herramientas.

Justo el otro día, 
Esther [Pandelia], por ejemplo,

lanzó una herramienta donde pueden ver,

creo que fueron las palabras en un globo

donde se habla más, de dónde vienen.

Puede que me equivoque,

pero ella respondió en el chat
del Proyecto en Wikidata,

pueden buscarlo allí.

Así que hemos visto 
estas primeras herramientas,

tal como las vimos 
cuando comenzó Wikidata.

Primero solo era una red

y "Oye, mira, hay una cosa 
que se conecta con esta otra cosa".

Y a medida que tenemos más datos,

y a medida que alcanzamos
cierta masa crítica,

se hacen posibles 
aplicaciones más potentes,

como Histropedia,

cosas como preguntas y respuestas

en tu asistente personal digital,
Platypus, etc.

Y estamos viendo 
algo similar con los lexemas.

Estamos en la etapa en la que 
puedes construir así de pequeño

y oye, mira, hay una conexión
entre las dos cosas,

y la etapa de traducción de esta palabra
a ese lenguaje,

y a medida que la desarrollamos 
y a medida que describimos más palabras,

más se hace posible.

Ahora, ¿qué se hace posible?

Como Ben, nuestro orador principal,
al comenzar habló de traducciones,

pudiendo traducir de un idioma a otro.

Y Jens, mi colega, siempre habla

de que la Unión Europea busca un traductor

que pueda traducir de... 
creo que fue de maltés al sueco.

- (persona 8) Estonio.
- Estonio.

Y esa no es una combinación habitual.

Y una vez que estos idiomas estén 
en un lugar que una máquina pueda leer,

ustedes podrán hacerlo,

podrán tener un diccionario

del estonio al maltés y viceversa.

Por lo tanto, cubrir combinaciones
de idiomas en diccionarios

que simplemente no se han cubierto antes

porque no había suficiente
demanda, por ejemplo,

para que sea financieramente viable
y para justificar el trabajo.

Ahora podemos hacer eso.

Luego generación de texto.

Lucie estaba hablando

de cómo está trabajando 
con Hattie en la generación de texto

para iniciar artículos de Wikipedia
en idiomas minoritarios,

y eso necesita datos sobre palabras,

y ustedes necesitan entender
el idioma para hacerlo.

Sí, y esos son solo algunos 
que me vienen a la mente justo ahora.

Tal vez nuestra audiencia tenga 
más ideas de lo que quieren hacer

cuando tengamos todos los datos gloriosos.

(persona 9) Me desviaré 
del tema de los lexemas.

Haré la pregunta,

¿cómo puedo, 
como miembro de la comunidad,

influir en que esa tarea sea prioridad,

que un nuevo usuario pueda indicar
qué idiomas quiere ver y editar

sin algún conocimiento secreto
de plantillas verbales?

Quizás exista este año 
esta lista de deseos técnicos

sin temas de Wikipedia.

Tal vez haya una esperanza 
de que todos podamos votar

sobre esto que no arreglamos
durante siete años.

¿Tienen alguna idea 
o comentario sobre esto?

¿Estás hablando del hecho

de que alguien que no 
ha iniciado sesión en Wikidata

no puede cambiar su idioma fácilmente?

(persona 9) No, para usuarios [inaudibles].

Por lo tanto, si inician sesión,

pueden cambiar su idioma 
en la parte superior de la página,

y luego aparecerá

donde están las descripciones
de las etiquetas [inaudible],

y pueden editarlo.

(persona 9) Bueno, en realidad, 
muchas veces el flujo de trabajo

es que si quieres tener 
varios idiomas, estén disponibles,

y no siempre es así.

Bien, tal vez deberíamos sentarnos 
después de esta charla y me lo muestras.

Genial. ¿Más preguntas?

Sí.

(persona 10) Gracias por la presentación.

¿Puede comentarnos

sobre el estado de la correlación 
con la comunidad de Wiktionary?

Hasta donde he visto, 
hubo algunas discusiones

sobre la importación 
de algunos elementos del trabajo,

pero parece haber problemas de licencia
y algunos desacuerdos, etc.

Correcto.

Bueno, las comunidades de Wiktionary
han pasado mucho tiempo

construyendo Wiktionary.

Han creado

plantillas increíblemente 
complicadas y complejas

para crear tablas bonitas que generan 
automáticamente formas para ustedes

y todo tipo de cosas 
realmente impresionantes

y cosas un poco locas, si lo piensan.

Y, por supuesto, han invertido 
mucho tiempo y esfuerzo en eso.

Y comprensiblemente,

no quieren que simplemente sea tomado,

así como así.

En parte viene de eso.

Y eso está bien, no hay problema.

Ahora, las primeras comunidades
de Wiktionary están hablando de producir

e importar algunos 
de sus datos a Wikidata.

El ruso, como han visto, 
por ejemplo, es uno de esos casos

y espero que suceda más.

Pero será un proceso lento,

al igual que la adopción 
de los datos de Wikidata en Wikipedia

ha sido un proceso bastante lento.

Por otro lado, hacer que sea más fácil

usar los datos que están en lexemas,

en Wiktionary, para que puedan
hacer uso de eso

y compartir datos entre
los Wiktionarios de los idioma,

que es muy difícil 
o imposible en este momento,

lo cual es una locura, 
como con Wikipedia.

Esperen por el regalo de cumpleaños.

Sí.

(persona 11) Mientras lo pensaba,

no quise decirlo
porque pensaba que sería supertonto,

pero creo que Wiktionary 
ya tiene algo de contenido,

y sé que no podemos 
transferirlo a Wikidata

porque hay una diferencia
en las licencias.

Pero estaba pensando que tal vez
podamos hacer algo al respecto.

Tal vez, no sé, podemos obtener
el permiso de las comunidades

luego de, no sé, 
tener una votación pública

y para que la comunidad, 
los miembros activos de la comunidad

voten y digan si desean 
o aceptan transferir el contenido

para el que pueden 
hacer los lexemas de Wikidata.

Porque creo que es un desperdicio.

Por lo tanto, esa es definitivamente
una conversación que las personas

que están en las comunidades de Wiktionary
son bienvenidas a plantear.

Creo que sería un poco presuntuoso
para nosotros ir y forzar eso.

Pero sí, creo que definitivamente 
vale la pena tener una conversación.

Pero creo que también 
es importante entender

que hay una distinción entre 
lo que está legalmente permitido

y lo que deberíamos estar haciendo,

y lo que esas personas
quieren o no quieren.

Incluso si está legalmente permitido,

si algunas otras comunidades 
de Wiktionary no quieran eso,

al menos yo tendría cuidado.

Creo que necesitas el micrófono
para la transmisión.

(persona 12) Obviamente, 
todo es muy emocionante,

e inmediatamente pienso 
cómo puedo llevar eso a mis estudiantes

y cómo puedo incorporarlo a los cursos,

el trabajo que estamos haciendo,
los entornos educativos.

Y no tengo, en este momento,

en primer lugar, suficiente conocimiento,

pero creo que la documentación que tenemos

podría ser mejorada.

Esa es una especie de solicitud
para hacer videos geniales

que expliquen cómo funciona

porque si lo tenemos, podemos usarlo,

y podemos tener estudiantes a bordo,

y podemos hacer que la gente entienda
lo increíble que es todo.

Y sí, solo piensen en la documentación
y en la educación, por favor.

Porque creo que se podría hacer mucho.

Estas son como muchas tareas 
que podrían hacerse incluso con...

bueno, no diría escuelas primarias,

pero ciertamente, incluso
estudiantes más jóvenes.

Entonces, realmente me gustaría ver
ese potencial aprovechado

y, a partir de ahora, personalmente
no entiendo lo suficiente

como para poder crear
tareas o crear como...

hacer algo práctico con eso.

Cualquier ayuda o pensamiento
que alguien tenga sobre eso,

estaría muy feliz de escucharlas también.

Sí, hablemos de eso.

¿Más preguntas?

Alguien más levantó una mano.

Olvidé dónde estaba.

(persona 13) Si no podemos 
importar desde Wiktionary,

¿hay algún esfuerzo concertado en hallar 
otras fuentes de dominio público,

tal vez todos los datos

y algún tipo de filtro previo, organizarlo

que sea fácil de revisar y así importarlo?

Se han tomado medidas iniciales.

Tengo entendido que el vasco
es uno de esos esfuerzos.

¿Quizás quieras decir 
un poco más al respecto?

(persona 7) [inaudible]

Bueno, la respuesta real es pagar por eso.

Tenemos un acuerdo con un contratista
con el que usualmente trabajamos.

Hacen diccionarios,

y muchas cosas, pero hacen diccionarios.

Acordamos con ellos para liberar
el diccionario de los estudiantes,

seleccionamos las palabras más comunes
y comenzaríamos a cargarlo

con un identificador externo
y el esquema de las cosas.

Pero hubo una discusión 
acerca de dejarlo en CC0

porque tienen el diccionario con CC

y entendieron cuál era la diferencia.

Entonces hubo una discusión.

Pero creo que proporcionaremos algunas
herramientas o ejemplos en el futuro,

y creo que habrán otros diccionarios
que podamos manejar,

y también creo que Wiktionary 
debe comenzar a moverse en esa dirección,

pero esa es otra gran discusión.

Y además de eso,

Lea también está en contacto 
con personas occitanas

que trabajan en diccionarios occitanos,

y actualmente están trabajando
en una colaboración de sumerio.

¿Más preguntas?

(persona 14) ¡Hola! Somos las personas 
que queremos importar datos occitanos.

¡Ajá! ¡Perfecto!

(persona 14) Y tenemos
un pequeño problema.

No sabemos cómo representar 
la variedad de todos los lexemas.

Tenemos seis dialectos

y queremos indicarle a Lexemas
en qué dialecto se usa

y no tenemos una declaración C0
adecuada para hacerlo.

Por lo tanto, 
mientras la declaración no exista,

nos impide impulsarlo

porque tendremos que volver a hacerlo

cuando podamos [sacar provecho]
a la declaración.

Y es complicado porque es una declaración

que muchas personas no pedirán

porque es una declaración que se refiere 
principalmente a los idiomas minoritarios.

Tendrás una sola persona que lo pida,

pero, como nuestros colegas vascos,

puede ser una persona 
que impulsará a miles de otros,

por lo que puede que no se pida mucho,

pero será muy importante para nosotros.

¿Ya tienen una nueva 
propuesta de propiedad

o necesitan ayuda para crearla?

(persona 14) La solicitamos
hace cuatro meses.

Entonces hagamos que algunas personas 
ayuden con esta propuesta de propiedad.

Estoy seguro de que hay suficientes 
personas en esta sala para que suceda.

(persona 15) Propuesta de propiedad
[hablando en francés].

(persona 16) No tuvimos respuesta.

(persona 14) No tuvimos respuesta,
y no sabemos cómo hacerlo

porque no estamos 
en la comunidad de Wikidata.

Sí, así que hay personas aquí
que pueden ayudarte.

Quizás alguien 
levante la mano para tomar...

(persona 7) Estoy para eso.

Pero creo que esto 
es bastante interesante

no solo por la variante de forma

también puede manejarse geográficamente,

con coordenadas o algún tipo de mapeo.

También tener diferentes pronunciaciones,

y creo que esto es algo 
que sucede en muchos idiomas.

Deberíamos comenzar 
a hacer que suceda [inaudible],

y voy a buscar la propiedad.

Genial.

Entonces obtendrás respaldo 
para tu propuesta de propiedad.

Gracias.

Muy bien, ¿más preguntas?

Finn.

Finn es una de esas personas

que construye cosas 
sobre datos lexicográficos.

(Finn) Es solo una pequeña pregunta,

y se trata de variaciones ortográficas.

Parece difícil ponerlos en...

Podría, por supuesto, tener múltiples
formas para la misma palabra.

No sé, parece que

si no lo haces así
parece ser difícil de especificar...

o no sé

si esto es solo un problema
técnico menor o si...

Veámoslo juntos.

Me encantaría ver un ejemplo.

Asaf.

(Asaf) Gracias.

Puedo dar un ejemplo muy concreto
de mi lengua materna, el hebreo.

El hebreo tiene dos variantes principales

para expresar casi todas las palabras

porque la ortografía tradicional

omite muchas de las vocales.

Y, por lo tanto, en las ediciones
modernas de la Biblia y de la poesía,

se usan diacríticos.

Sin embargo, esos signos diacríticos 
nunca se usan para la prosa moderna

o la escritura de periódicos
o letreros de la calle.

El uso informal diario promedio
pone vocales adicionales

y no usa los signos diacríticos

porque son, por supuesto, más engorrosos

y tienen todo tipo de reglas
y nadie las conoce.

Entonces, básicamente hay dos variantes.

Existe la variante 
de la prosa informal cotidiana,

y está la Biblia o la poesía,

que siempre viene 
en este texto diacrítico tradicional.

Para ser útil,

Lexema tendría que reconocer 
ambas variedades de cada palabra

y cada forma de cada palabra.

Es un caso de uso muy completo

para las variantes estables oficiales.

No es dialecto, no son regiones,

son básicamente dos sistemas
morfológicos coexistentes.

Y tampoco sé exactamente 
cómo expresarlo en Lexema,

cosa que me impide responder 
parcialmente a la pregunta de Magnus

de subir las partes que están listas

del mayor diccionario hebreo,
que es de dominio público

y que he estado digitalizando
durante varios años.

Una buena parte está lista,

pero no la pongo en Lexema en este momento

porque no sé exactamente 
cómo resolver este problema.

Muy bien, solucionemos 
este problema aquí. (risas)

Eso tiene que ser posible.

Muy bien, ¿más preguntas?

Si no, muchas gracias.

(aplausos)