(Lydia) Muchas gracias.
En esta conferencia, uno de los grandes
temas son los idiomas.
Quiero darles una visión general
de dónde estamos actualmente
en lo que respecta a los idiomas
y hacia dónde podemos ir desde aquí.
Wikidata se trata de dar a más personas
más acceso a más conocimiento,
y el lenguaje es una parte importante
para hacer que esto sea una realidad,
porque cada vez más nuestras vidas
dependen de la tecnología.
Y como nuestro orador principal decía hoy,
parte de la tecnología
deja atrás a las personas
simplemente porque no pueden
hablar un determinado idioma,
y eso no está bien.
Entonces queremos hacer algo al respecto.
Y para cambiar eso,
necesitan al menos dos cosas.
Una es que deben proporcionar contenido
a las personas en su idioma,
y la segunda cosa que necesitan
es proporcionarles
interacción en su idioma
en esas aplicaciones
o lo que sea que tenga.
Y Wikidata ayuda con ambas cosas.
Lo primero, contenido en su idioma,
eso es básicamente lo que tenemos
en elementos y propiedades,
cómo describimos el mundo.
Ahora, esto ciertamente
no es todo lo que necesitan,
pero eso ya es un gran avance.
La otra cosa
es la interacción en su idioma,
y ahí es donde
entran en juego los lexemas.
Si desean hablar
con su asistente personal digital
o si desean que su dispositivo
traduzca un texto y cosas así.
Muy bien, veamos
el Contenido en su idioma.
Entonces, lo que tenemos
en elementos y propiedades.
Para esto, las etiquetas en esos
elementos y propiedades son cruciales.
Necesitamos saber cómo se llama
esta entidad de la que estamos hablando.
Y en lugar de hablar sobre Q5,
alguien que habla inglés
sabe que es un "humano",
alguien que habla alemán
sabe que es un "mensch"
y cosas similares.
Entonces, esas etiquetas
en elementos y propiedades
están cerrando la brecha
entre humanos y máquinas.
Y humanos y humanos
haciendo más conocimiento existente
accesible para ellos.
Ahora, esa es una buena aspiración.
¿Cómo se vería realmente?
Se vería como esto.
Lo que están viendo aquí
es que la mayoría de los elementos
en Wikidata tienen dos etiquetas,
por lo que las etiquetas
están en dos idiomas.
Y después de eso, es uno, y luego tres,
y luego se pone muy triste.
(risa silenciosa)
Creo que debemos hacerlo mejor.
Pero, por otro lado,
en realidad esperaba
que esto fuera aún peor.
Esperaba que el promedio fuera uno.
Así que estaba bastante feliz
de ver dos. (risa)
Bien.
Pero no solo es interesante saber
cuántas etiquetas tienen nuestros
elementos y propiedades.
También es interesante ver en qué idiomas.
Aquí pueden ver un gráfico de los idiomas
que tienen etiquetas en los elementos.
Entonces, la parte más grande es Otros.
Así que acabo de tomar
los 100 idiomas principales
y todo lo demás es Otros
para hacer que este gráfico sea legible.
Y luego está el inglés y el holandés,
el francés,
y, para no olvidar, el asturiano.
- (audiencia) ¡Hurra!
- ¡Yuju! ¡Sí!
Entonces, lo que ven aquí
es un gran desequilibrio
y todavía un gran enfoque en el inglés.
Otra cosa es que si buscan
lo mismo en Propiedades,
en realidad se ve mejor.
Y creo que parte se debe
a que son menos propiedades.
Incluso las comunidades más pequeñas
podrán mantenerse al día con eso.
Pero también es una parte
bastante importante de Wikidata
localizarlo en su idioma.
Eso es bueno.
Lo que quiero resaltar aquí con asturiano
es que una pequeña comunidad
puede hacer una gran diferencia
con un poco de dedicación y trabajo,
y eso es realmente genial.
Un pequeño cuestionario para ustedes.
Si toman todas las propiedades en Wikidata
que no son identificadores externos,
¿cuál tiene más cantidad de etiquetas,
como la mayoría de los idiomas?
(audiencia) [inaudible]
¿Creen que es la instancia de?
De ser así están equivocados.
Es imagen. (risas)
Sí, eso les dice
que si hablan uno de los idiomas
en los que instancia de
aún no tiene una etiqueta,
quizás quieran agregarla.
Tiene 148 etiquetas actualmente.
Pero es otra diapositiva.
Este gráfico nos dice algo
sobre la cantidad de contenido
que ponemos a disposición
en un idioma determinado
y cuánto de ese contenido
se usa realmente.
Entonces, lo que están viendo
es básicamente una curva
con la mayoría del contenido
que tiene etiquetas en inglés,
disponible en inglés y se usa mucho.
Y luego se cae un poco.
Pero, de nuevo, lo que pueden ver
son valores atípicos
que tienen mucho más contenido
del que necesariamente esperarían,
y eso es muy muy bueno.
El problema aún es que no se usa mucho.
Los asturianos y holandeses
deberían ser más altos,
y creo que ayudar a esas comunidades
a aumentar el uso
de los datos que recopilaron
es algo realmente útil.
Lo que este y otros análisis
nos mostraron también es algo bueno,
estamos viendo
que los elementos muy usados
también tienden a tener más etiquetas
o al revés...
No está del todo claro.
Y entonces la pregunta es
¿estamos sirviendo
solo a los idiomas poderosos?
¿O estamos sirviendo a todos?
Y lo que ven aquí
es una agrupación de idiomas.
Los idiomas que se agrupan
tienden a tener etiquetas juntos.
Y los ven agruparse.
Ahora aquí hay una agrupación
similar, coloreada,
basada en qué tan vivo, cómo se usa,
qué tan en peligro es el idioma.
Y lo bueno que están viendo aquí
es que los idiomas seguros
y los idiomas en peligro de extinción
no forman dos grupos diferentes.
Pero todos están mezclados,
lo que es mucho mejor
de lo que sería al revés
donde los idiomas seguros,
los idiomas poderosos
solo se están ayudando mutuamente.
No, no es el caso.
Y es algo realmente bueno.
Cuando vi esto,
pensé que era muy bueno.
Aquí hay algo similar
en el que miramos
el estado de los idiomas
y cuántas etiquetas tiene.
Lo que están viendo es una clara victoria
para los idiomas seguros,
como se esperaba.
Pero lo que también ven es...
que los idiomas en las categorías
2 y 3 y tal vez incluso 4
no son tan malos, en realidad,
en términos de su representación
en Wikidata y otros.
Es algo realmente bueno de encontrar.
Ahora, si observan lo mismo
para saber cuánto
de ese contenido de esas etiquetas
se usa realmente
en Wikipedia, por ejemplo,
entonces vemos una imagen similar
emergiendo nuevamente.
Y nos dice que esas comunidades
están haciendo un buen uso de su tiempo
al completar etiquetas para artículos
de mayor uso, por ejemplo.
Hay valores atípicos
en los que creo que podemos ayudar
a esas comunidades a encontrar un lugar
donde su trabajo sería más valioso.
Pero, en general,
estoy contenta con esta imagen.
Ahora, esa era la parte de elementos
y propiedades de Wikidata.
Ahora, veamos la interacción
en sus idiomas,
la parte de lexema de Wikidata
donde describimos palabras
y sus formas y sus significados.
Hemos estado haciendo esto
desde mayo del año pasado,
y el contenido ha ido creciendo.
Pueden ver aquí en azul los lexemas,
y luego, en rojo,
las formas en esos lexemas
y, amarillo, los sentidos en esos lexemas.
Por lo tanto, algunas comunidades,
lo veremos más adelante,
han pasado mucho tiempo creando
formas y sentidos para sus lexemas,
lo cual es realmente útil
porque construye el núcleo
del conjunto de datos que necesitan.
Ahora, miramos todos los idiomas
que tienen lexemas en Wikidata.
Entonces, las palabras que tenemos
son ahora 310 idiomas.
Ahora, ¿cuál creen
que es el idioma principal
cuando se trata de la cantidad
de lexemas actualmente en Wikidata?
(persona 1) Ruso.
- ¿Ah?
- (persona 2) El alemán.
Lo siento, lo había escuchado.
Es el ruso.
El ruso está bastante por delante.
Y solo para darles una perspectiva,
hay diferentes opiniones,
pero he leído, por ejemplo,
que 1000 a 3000 palabras
te llevan al nivel de conversación,
aproximadamente, en otro idioma,
y 4000 a 10 000 palabras
a un nivel avanzado.
Entonces, todavía tenemos
un poco para alcanzar.
Una cosa a la que quiero
que presten atención es el vasco
con 10 000 lexemas, aproximadamente.
Ahora, si observa el número
de formas para esos lexemas,
el vasco está muy arriba,
lo cual es realmente genial,
y deben ir a una charla que explica
por qué ese es el caso.
Si nos fijamos en la cantidad de sentidos,
en lo qué significan las palabras,
el vasco llega
a la parte superior de la lista.
Creo que eso merece un aplauso.
(aplausos)
Otra pregunta rápida.
¿Cuál es el lexema
con más traducciones actualmente?
(audiencia) Gatos, gatos, [inaudible],
Douglas Adams, [inaudible]
Todas buenas conjeturas, pero no.
Es esta, la palabra rusa para "agua".
Muy bien, ahora hablamos mucho
sobre cuántos lexemas,
formas y sentidos tenemos,
pero eso es solo una cosa que necesitas.
La otra cosa que necesitan es describir
esos lexemas, formas y sentidos
de manera legible para una máquina.
Y para eso tienen declaraciones,
por ejemplo, en elementos.
Y una de las propiedades
que utilizan es el Ejemplo de uso.
Entonces, quien esté usando esos datos
puede entender cómo usar
esa palabra en contexto,
por lo que podría ser una cita,
por ejemplo.
Y aquí, los polacos son geniales.
Buen trabajo, hablantes de polaco.
Otra propiedad realmente útil es el AFI,
¿cómo se pronuncia esta palabra?
Aparentemente, Rusia necesita
muchas declaraciones del AFI.
Pero, de nuevo, polaco, segundo.
Y por último, pero no menos importante,
tenemos audio de pronunciación.
Es decir, enlaces a archivos en Commons
donde alguien habla la palabra,
para que puedan escuchar
a un hablante nativo pronunciar la palabra
en caso de que no sepa leer AFI,
por ejemplo.
Y hay un proyecto realmente
agradable basado en Wiki
llamado Lingua Libre
donde pueden ir y ayudar
a grabar palabras en su idioma
que luego se pueden agregar
a lexemas en Wikidata,
para que otras personas puedan entender
cómo pronunciar sus palabras.
(audiencia) [inaudible]
Si buscas "Lingua Libre"
y estoy segura de que alguien
puede publicarlo en el canal de Telegram.
Esos tipos son geniales.
Hicieron cosas realmente
geniales con Wikibase.
Bien.
Entonces, la pregunta es
¿a dónde vamos desde aquí?
Según los números que acabo de mostrar,
hemos recorrido un largo camino
para dar a más personas
más acceso a más conocimiento
al mirar idiomas en Wikidata.
Pero también queda
mucho trabajo por delante.
Algunas de las cosas que pueden hacer
para ayudar, por ejemplo,
es organizar "etiquetatones",
reunir a las personas
para etiquetar elementos en Wikidata
o hacer un "editatón"
alrededor de lexemas en tu idioma
para llevar las palabras más utilizadas
de tu idioma a Wikidata.
O pueden usar una herramienta
como Terminator
que les ayuda a encontrar los elementos
más importantes en su idioma
que aún no tienen una etiqueta.
Lo más importante se mide
por la frecuencia con la que se usa
en otros elementos de Wikidata
como enlaces en las declaraciones.
Y, por supuesto, para la parte de lexema,
ahora que tenemos
una cobertura básica de esos lexemas,
también se trata de construirlos,
agregarles más declaraciones
para que puedan construir la base
para aplicaciones significativas
y construir encima de eso.
Debido a que nos estamos acercando
a esa masa crítica,
pero aún estamos lejos de eso,
que puede construir
aplicaciones serias sobre ella.
Y espero que todos ustedes
se unan a nosotros para hacer eso.
Y eso me lleva a pedir
un poco de ayuda de nuestros amigos.
Bruno, ¿quieres venir
y hablarnos sobre máscaras léxicas?
(Bruno) Gracias, Lydia,
gracias por darme
este breve período de tiempo
para presentar este trabajo
que hacemos en Google con Denny,
que la mayoría probablemente
ha escuchado o sabe.
Porque en Google, soy lingüista.
Así que estoy muy feliz de estar aquí
entre otros entusiastas de los idiomas.
También estamos
construyendo algunos léxicos,
y hemos construido esta tecnología
o este enfoque que creemos
que puede ser útil para ustedes.
Solo para darles un poco de contexto,
este es mi contexto lexicográfico
que habla aquí.
Cuando creamos
una base de datos de léxicos,
es muy difícil mantenerlos,
mantenerlos consistentes
e intercambiar datos,
como probablemente ya saben.
Hay varios intentos de unificar
la característica y las propiedades
que describen esos lexemas y esas formas,
no es un problema resuelto,
pero hay algunos intentos
de unificación de ese lado.
Pero lo que realmente falta,
y este es un problema que tuvimos
al comienzo de nuestro proyecto en Google
es tratar de tener una estructura interna
que describa cómo debería ser
una entrada léxica,
qué tipo de datos o qué tipo
de información tenemos
y la especificación que se espera.
Entonces, esto es lo que se nos ocurrió
con esta cosa llamada máscara léxica.
Una máscara léxica describe
lo que se espera de una entrada,
para completar una entrada lexicográfica,
tanto en términos de la cantidad
de formas que esperan para un lexema
y la cantidad de características
que esperan para cada forma.
Aquí hay un ejemplo
de adjetivos italianos.
En italiano, esperas tener
cuatro formas para tus adjetivos,
y cada una de estas formas
tiene una combinación específica
de características de género y número.
Esto es lo que esperamos
para los adjetivos italianos.
Por supuesto, puede tener
máscaras extremadamente complejas,
como la conjugación de verbos franceses,
que es bastante extensa,
y no le muestro ninguna otra máscara rusa
porque no se ajusta a la pantalla.
Y también tenemos algunas
especificaciones detalladas
porque distinguimos
lo que está al nivel de la forma.
Aquí tienes sustantivos rusos
que tienen tres números
y una cantidad de casos
con diferentes formas,
pero también tienen
una especificación de nivel de entrada
que dice que un sustantivo
particularmente tiene
un género inherente y una característica
de animación inherente
que también se especifica en la máscara.
También distinguiremos que una máscara
proporciona una especificación
para, en general,
cómo debería ser una entrada.
Pero puede tener máscaras más pequeñas
para aspectos defectuosos de la forma
o aspectos defectuosos del lexema
que suceden en el idioma.
Así que aquí está la versión
más simple de los verbos franceses
que usan solo la 3ra persona del singular
para todos los verbos meteorológicos,
como "llueve" o "nieva", como en inglés.
Entonces distinguimos estos dos niveles.
Y cómo usamos esto en Google
es que, cuando tenemos un léxico
que queremos usar,
usamos la máscara para lanzar
literalmente los léxicos,
todas las entradas, a través de la máscara
y ver qué entrada tiene un problema
en términos de estructura.
¿Nos falta un formulario?
¿Nos falta una característica?
Y cuando hay un problema,
hacemos una validación humana
o simplemente para ver si pasa la máscara.
Es una herramienta muy poderosa
que verifica la calidad de la estructura.
Entonces, lo que nos complace anunciar hoy
es que tenemos luz verde
para liberar el código de nuestra máscara.
Este es un esquema.
Si lo desean, podemos liberarlo
y se lo proporcionaremos a Wikidata
como archivo ShEx.
Este es un archivo ShEx
para sustantivos alemanes,
y Denny está trabajando en la conversión
de nuestra especificación interna
a una especificación de código abierto.
Actualmente cubrimos más de 25 idiomas.
Así que, esperamos crecer de nuestro lado,
pero también buscamos esta oportunidad
de colaborar para otros idiomas.
Y una de las colaboraciones en curso
también que Denny tiene con Lukas.
Lukas tiene estas excelentes herramientas
para tener una interfaz de usuario
que ayude al usuario
o al contribuyente a agregar más formas.
Entonces, si desea agregar
un adjetivo en francés,
la interfaz de usuario les indica
cuántas formas se esperan
y qué tipo de características
debe tener esta forma.
Por lo tanto, nuestra máscara ayudará
a definir y expandir la herramienta.
Eso es todo.
(Lydia) Muchas gracias.
(aplausos)
Bien. ¿Hay preguntas?
¿Quieren que hable más sobre lexemas?
- (persona 3) Sí.
- Sí. (risas)
(persona 3) Mi pregunta viene
porque estabas hablando
de dar más acceso
a más personas en más idiomas.
Pero hay muchos idiomas
que no se pueden usar en Wikidata.
Entonces, ¿qué solución tienes para eso?
Cuando dices
que no se puede usar Wikidata,
¿estás hablando de ingresar etiquetas?
- (persona 3) Etiquetas, descripciones.
- Correcto.
Entonces, para lexemas,
es un poco diferente
porque no tenemos esa restricción.
Para las etiquetas
de elementos y propiedades,
hay algunas restricciones
porque queríamos asegurarnos
de que no todo el mundo haga de todo
y se vuelva inmanejable.
Incluso una pequeña comunidad
que quiera un idioma y trabajar en él,
hablen con nosotros, lo haremos realidad.
(persona 3) Hicimos eso
en el Hackathon de Praga en mayo,
y nos tomó hasta casi agosto
para poder usar nuestro idioma.
- Sí.
- (persona 3) Entonces, es muy lento.
Sí, desafortunadamente así es.
Actualmente trabajamos
con el Comité de idiomas
para resolver algunos fundamentos...
como llegar a un acuerdo sobre qué tipo
de idiomas están realmente "permitidos",
y eso ha llevado demasiado tiempo,
razón por la cual su solicitud
tardó más de lo que debería.
(persona 3) Gracias.
(persona 4) Gracias a ti.
Lydia, ¿si recuerdas
las estadísticas que mostraste,
- el número de lexemas por idioma?
- Sí.
Entonces, ¿contaste todas las formas
como un punto de datos
o solo lexemas?
(Lydia) ¿Te refieres a esto?
¿A cuál te refieres?
(persona 4) Sí, exactamente.
Si recuerdas, ¿este número [inaudible]
todas las formas para todos los lexemas
o cuántos lexemas hay?
- No, solo es el número de lexemas.
- (persona 4) Solo un número de lexemas.
Entonces, es una estadística justa
porque si se compilan las formas,
es por eso que pregunto,
entonces todos los idiomas
con la morfología flexiva,
como el ruso, el serbio,
el esloveno y otros,
tienen una ventaja natural
porque tienen muchos.
Ya comienza por aquí,
en este número de formas.
(persona 4) Sí, fue este. Gracias.
(persona 5) Tengo
una pregunta rápida sobre...
Cuando hablamos de los elementos
y propiedades reales.
Por lo que entiendo,
actualmente no hay forma
de dar una fuente real
a ninguna de las etiquetas
y descripciones que se dan.
Entonces, por ejemplo,
porque cuando hablas
de la propiedad de un elemento,
por ejemplo, puedes tener
etiquetas en conflicto.
Sí.
(persona 5) Esta persona es como...
Antes hablábamos
de cosas indígenas, por ejemplo.
Esta persona es un artista noruego
según esta fuente,
y un artista sami, según esta fuente.
O, por ejemplo, en estonio,
tuvimos un problema
en el que cambiamos la terminología
a la de uso oficial
en los léxicos oficiales,
pero no tenemos forma
de indicar realmente por qué,
es decir, cuál fue la fuente
y por qué fue mejor y qué había allí antes
solo fui yo, una persona cualquiera,
simplemente cambiando la cosa
para cualquiera que lo vea.
¿Hay algún plan para hacer
esto posible de alguna manera
para tener las fuentes adecuadas
para los datos de un idioma?
Entonces, es parcialmente posible.
Por ejemplo, cuando tienes
un elemento para una persona,
tienes una declaración,
nombre, apellido, etc., de esa persona,
puedes proporcionar
la referencia para eso allí.
Dudo bastante en agregar más complejidad
para las referencias
en etiquetas y descripciones,
pero si la gente realmente piensa
que esto no está cubierto
por ninguna referencia en la declaración,
entonces hablemos de ello.
Pero me temo que agregará
mucha complejidad
para lo que espero sean pocos casos,
pero estoy dispuesta
a convencerme de lo contrario
si la gente realmente se siente
muy convencida al respecto.
(persona 5) Si se agrega, probablemente
no debería ser la interfaz predeterminada
mostrada a los usuarios principiantes,
en cualquier caso.
Más como "Haga clic aquí si necesita
decir algo específico sobre esto".
¿Tenemos una idea de cuántas veces
eso realmente importaría?
(persona 5) En estonio, por ejemplo,
supongo que esto también es cierto
para otros idiomas,
por ejemplo, hay un nombre oficial
que es la traducción legítima actual,
por ejemplo, al inglés,
es decir, de un tipo de municipio.
Ese fue mi caso de uso, por ejemplo,
donde estábamos usando
la palabra "parish",
que en estonio se refería a una especie
de parroquia de la iglesia,
y ese fue el origen,
pero esa no es la traducción oficial
que tiene Estonia en este momento.
En este caso, simplemente lo agregaría
como declaraciones de nombre oficiales
y agregaría la referencia allí.
(persona 5) Bien.
¿Preguntas? ¿Sí?
(Asaf) Tengo dos comentarios rápidos.
Llamaste específicamente al asturiano
como un idioma que funciona bien,
y creo que es una observación equívoca.
Cuéntame sobre eso.
(Asaf) Creo que es solo un bot
que pegó nombres de personas,
como nombres propios,
y dijo: "Bueno, esto es exactamente
como en francés o español",
y solo lo copió masivamente.
Un punto de evidencia es que
no se ve esa energía en asturiano
en cosas que requieren traducción,
como nombres de propiedades
o nombres de elementos
que no son nombres propios.
Asaf, me rompes el corazón.
(Asaf) Lo sé,
me gusta ser aguafiestas,
pero también tengo buenas noticias,
sobre los números de pronunciación.
Probablemente sepan que Commons
está llena de archivos de pronunciación,
y, por ejemplo,
el holandés tiene no menos de 300 000
archivos de pronunciación en Commons
que solo necesitan
ser ingeridos de alguna manera.
Si alguien está buscando
un proyecto paralelo,
hay toneladas y toneladas
de archivos de pronunciación
clasificados y categorizados en Commons
bajo la categoría Pronunciación
por idioma.
Así que eso está esperando ser emparejado
con lexemas y ponerse en Lexemas.
Y me preguntaba si podrías decir algo
sobre la hoja de ruta,
algo acerca de cuánta inversión
o qué podemos esperar
de Lexemas en el próximo año,
porque, por mi parte, no puedo esperar.
¿No puedes esperar? (risas)
- (Asaf) Por más.
- Sí. (risas)
Ahora nos estamos concentrando
más en Wikibase y la calidad de los datos
para ver cuánta tracción obtiene
y luego tener más información
de los puntos débiles
y luego volver a mejorar aún más
los datos lexicográficos.
Y una de las cosas
que me encantaría saber de ustedes
es dónde ven exactamente
los próximos pasos,
dónde desean ver mejoras
para que luego podamos descubrir
cómo hacer que suceda.
Pero, por supuesto, tienes razón,
todavía hay mucho por hacer
también en el aspecto técnico.
(persona 7) Mientras cargábamos
las palabras vascas con formas y sentidos
y ese tipo de cosas,
la semana pasada decíamos:
"Oh, somos los primeros en algo".
Aparece en la prensa y dice:
"Oh, los vascos son los primeros...
son los primeros en algo", está bien.
(risas)
Y luego la gente pregunta:
"Bien, pero ¿para qué sirve esto?"
No tenemos una muy buena respuesta.
Es decir, está bien,
esto ayudará a las computadoras
a comprender más nuestro idioma, sí,
pero ¿qué tipo de herramientas
podemos hacer en el futuro?
Y no tenemos
una buena respuesta para esto.
Así que no sé si tienes
una buena respuesta para esto.
(risas) No sé si tengo una buena,
pero tengo una respuesta.
Creo que en este momento, como les decía,
no hemos alcanzado esa masa crítica
en la que puedes construir muchas
de las herramientas interesantes.
Pero ya hay algunas herramientas.
Justo el otro día,
Esther [Pandelia], por ejemplo,
lanzó una herramienta donde pueden ver,
creo que fueron las palabras en un globo
donde se habla más, de dónde vienen.
Puede que me equivoque,
pero ella respondió en el chat
del Proyecto en Wikidata,
pueden buscarlo allí.
Así que hemos visto
estas primeras herramientas,
tal como las vimos
cuando comenzó Wikidata.
Primero solo era una red
y "Oye, mira, hay una cosa
que se conecta con esta otra cosa".
Y a medida que tenemos más datos,
y a medida que alcanzamos
cierta masa crítica,
se hacen posibles
aplicaciones más potentes,
como Histropedia,
cosas como preguntas y respuestas
en tu asistente personal digital,
Platypus, etc.
Y estamos viendo
algo similar con los lexemas.
Estamos en la etapa en la que
puedes construir así de pequeño
y oye, mira, hay una conexión
entre las dos cosas,
y la etapa de traducción de esta palabra
a ese lenguaje,
y a medida que la desarrollamos
y a medida que describimos más palabras,
más se hace posible.
Ahora, ¿qué se hace posible?
Como Ben, nuestro orador principal,
al comenzar habló de traducciones,
pudiendo traducir de un idioma a otro.
Y Jens, mi colega, siempre habla
de que la Unión Europea busca un traductor
que pueda traducir de...
creo que fue de maltés al sueco.
- (persona 8) Estonio.
- Estonio.
Y esa no es una combinación habitual.
Y una vez que estos idiomas estén
en un lugar que una máquina pueda leer,
ustedes podrán hacerlo,
podrán tener un diccionario
del estonio al maltés y viceversa.
Por lo tanto, cubrir combinaciones
de idiomas en diccionarios
que simplemente no se han cubierto antes
porque no había suficiente
demanda, por ejemplo,
para que sea financieramente viable
y para justificar el trabajo.
Ahora podemos hacer eso.
Luego generación de texto.
Lucie estaba hablando
de cómo está trabajando
con Hattie en la generación de texto
para iniciar artículos de Wikipedia
en idiomas minoritarios,
y eso necesita datos sobre palabras,
y ustedes necesitan entender
el idioma para hacerlo.
Sí, y esos son solo algunos
que me vienen a la mente justo ahora.
Tal vez nuestra audiencia tenga
más ideas de lo que quieren hacer
cuando tengamos todos los datos gloriosos.
(persona 9) Me desviaré
del tema de los lexemas.
Haré la pregunta,
¿cómo puedo,
como miembro de la comunidad,
influir en que esa tarea sea prioridad,
que un nuevo usuario pueda indicar
qué idiomas quiere ver y editar
sin algún conocimiento secreto
de plantillas verbales?
Quizás exista este año
esta lista de deseos técnicos
sin temas de Wikipedia.
Tal vez haya una esperanza
de que todos podamos votar
sobre esto que no arreglamos
durante siete años.
¿Tienen alguna idea
o comentario sobre esto?
¿Estás hablando del hecho
de que alguien que no
ha iniciado sesión en Wikidata
no puede cambiar su idioma fácilmente?
(persona 9) No, para usuarios [inaudibles].
Por lo tanto, si inician sesión,
pueden cambiar su idioma
en la parte superior de la página,
y luego aparecerá
donde están las descripciones
de las etiquetas [inaudible],
y pueden editarlo.
(persona 9) Bueno, en realidad,
muchas veces el flujo de trabajo
es que si quieres tener
varios idiomas, estén disponibles,
y no siempre es así.
Bien, tal vez deberíamos sentarnos
después de esta charla y me lo muestras.
Genial. ¿Más preguntas?
Sí.
(persona 10) Gracias por la presentación.
¿Puede comentarnos
sobre el estado de la correlación
con la comunidad de Wiktionary?
Hasta donde he visto,
hubo algunas discusiones
sobre la importación
de algunos elementos del trabajo,
pero parece haber problemas de licencia
y algunos desacuerdos, etc.
Correcto.
Bueno, las comunidades de Wiktionary
han pasado mucho tiempo
construyendo Wiktionary.
Han creado
plantillas increíblemente
complicadas y complejas
para crear tablas bonitas que generan
automáticamente formas para ustedes
y todo tipo de cosas
realmente impresionantes
y cosas un poco locas, si lo piensan.
Y, por supuesto, han invertido
mucho tiempo y esfuerzo en eso.
Y comprensiblemente,
no quieren que simplemente sea tomado,
así como así.
En parte viene de eso.
Y eso está bien, no hay problema.
Ahora, las primeras comunidades
de Wiktionary están hablando de producir
e importar algunos
de sus datos a Wikidata.
El ruso, como han visto,
por ejemplo, es uno de esos casos
y espero que suceda más.
Pero será un proceso lento,
al igual que la adopción
de los datos de Wikidata en Wikipedia
ha sido un proceso bastante lento.
Por otro lado, hacer que sea más fácil
usar los datos que están en lexemas,
en Wiktionary, para que puedan
hacer uso de eso
y compartir datos entre
los Wiktionarios de los idioma,
que es muy difícil
o imposible en este momento,
lo cual es una locura,
como con Wikipedia.
Esperen por el regalo de cumpleaños.
Sí.
(persona 11) Mientras lo pensaba,
no quise decirlo
porque pensaba que sería supertonto,
pero creo que Wiktionary
ya tiene algo de contenido,
y sé que no podemos
transferirlo a Wikidata
porque hay una diferencia
en las licencias.
Pero estaba pensando que tal vez
podamos hacer algo al respecto.
Tal vez, no sé, podemos obtener
el permiso de las comunidades
luego de, no sé,
tener una votación pública
y para que la comunidad,
los miembros activos de la comunidad
voten y digan si desean
o aceptan transferir el contenido
para el que pueden
hacer los lexemas de Wikidata.
Porque creo que es un desperdicio.
Por lo tanto, esa es definitivamente
una conversación que las personas
que están en las comunidades de Wiktionary
son bienvenidas a plantear.
Creo que sería un poco presuntuoso
para nosotros ir y forzar eso.
Pero sí, creo que definitivamente
vale la pena tener una conversación.
Pero creo que también
es importante entender
que hay una distinción entre
lo que está legalmente permitido
y lo que deberíamos estar haciendo,
y lo que esas personas
quieren o no quieren.
Incluso si está legalmente permitido,
si algunas otras comunidades
de Wiktionary no quieran eso,
al menos yo tendría cuidado.
Creo que necesitas el micrófono
para la transmisión.
(persona 12) Obviamente,
todo es muy emocionante,
e inmediatamente pienso
cómo puedo llevar eso a mis estudiantes
y cómo puedo incorporarlo a los cursos,
el trabajo que estamos haciendo,
los entornos educativos.
Y no tengo, en este momento,
en primer lugar, suficiente conocimiento,
pero creo que la documentación que tenemos
podría ser mejorada.
Esa es una especie de solicitud
para hacer videos geniales
que expliquen cómo funciona
porque si lo tenemos, podemos usarlo,
y podemos tener estudiantes a bordo,
y podemos hacer que la gente entienda
lo increíble que es todo.
Y sí, solo piensen en la documentación
y en la educación, por favor.
Porque creo que se podría hacer mucho.
Estas son como muchas tareas
que podrían hacerse incluso con...
bueno, no diría escuelas primarias,
pero ciertamente, incluso
estudiantes más jóvenes.
Entonces, realmente me gustaría ver
ese potencial aprovechado
y, a partir de ahora, personalmente
no entiendo lo suficiente
como para poder crear
tareas o crear como...
hacer algo práctico con eso.
Cualquier ayuda o pensamiento
que alguien tenga sobre eso,
estaría muy feliz de escucharlas también.
Sí, hablemos de eso.
¿Más preguntas?
Alguien más levantó una mano.
Olvidé dónde estaba.
(persona 13) Si no podemos
importar desde Wiktionary,
¿hay algún esfuerzo concertado en hallar
otras fuentes de dominio público,
tal vez todos los datos
y algún tipo de filtro previo, organizarlo
que sea fácil de revisar y así importarlo?
Se han tomado medidas iniciales.
Tengo entendido que el vasco
es uno de esos esfuerzos.
¿Quizás quieras decir
un poco más al respecto?
(persona 7) [inaudible]
Bueno, la respuesta real es pagar por eso.
Tenemos un acuerdo con un contratista
con el que usualmente trabajamos.
Hacen diccionarios,
y muchas cosas, pero hacen diccionarios.
Acordamos con ellos para liberar
el diccionario de los estudiantes,
seleccionamos las palabras más comunes
y comenzaríamos a cargarlo
con un identificador externo
y el esquema de las cosas.
Pero hubo una discusión
acerca de dejarlo en CC0
porque tienen el diccionario con CC
y entendieron cuál era la diferencia.
Entonces hubo una discusión.
Pero creo que proporcionaremos algunas
herramientas o ejemplos en el futuro,
y creo que habrán otros diccionarios
que podamos manejar,
y también creo que Wiktionary
debe comenzar a moverse en esa dirección,
pero esa es otra gran discusión.
Y además de eso,
Lea también está en contacto
con personas occitanas
que trabajan en diccionarios occitanos,
y actualmente están trabajando
en una colaboración de sumerio.
¿Más preguntas?
(persona 14) ¡Hola! Somos las personas
que queremos importar datos occitanos.
¡Ajá! ¡Perfecto!
(persona 14) Y tenemos
un pequeño problema.
No sabemos cómo representar
la variedad de todos los lexemas.
Tenemos seis dialectos
y queremos indicarle a Lexemas
en qué dialecto se usa
y no tenemos una declaración C0
adecuada para hacerlo.
Por lo tanto,
mientras la declaración no exista,
nos impide impulsarlo
porque tendremos que volver a hacerlo
cuando podamos [sacar provecho]
a la declaración.
Y es complicado porque es una declaración
que muchas personas no pedirán
porque es una declaración que se refiere
principalmente a los idiomas minoritarios.
Tendrás una sola persona que lo pida,
pero, como nuestros colegas vascos,
puede ser una persona
que impulsará a miles de otros,
por lo que puede que no se pida mucho,
pero será muy importante para nosotros.
¿Ya tienen una nueva
propuesta de propiedad
o necesitan ayuda para crearla?
(persona 14) La solicitamos
hace cuatro meses.
Entonces hagamos que algunas personas
ayuden con esta propuesta de propiedad.
Estoy seguro de que hay suficientes
personas en esta sala para que suceda.
(persona 15) Propuesta de propiedad
[hablando en francés].
(persona 16) No tuvimos respuesta.
(persona 14) No tuvimos respuesta,
y no sabemos cómo hacerlo
porque no estamos
en la comunidad de Wikidata.
Sí, así que hay personas aquí
que pueden ayudarte.
Quizás alguien
levante la mano para tomar...
(persona 7) Estoy para eso.
Pero creo que esto
es bastante interesante
no solo por la variante de forma
también puede manejarse geográficamente,
con coordenadas o algún tipo de mapeo.
También tener diferentes pronunciaciones,
y creo que esto es algo
que sucede en muchos idiomas.
Deberíamos comenzar
a hacer que suceda [inaudible],
y voy a buscar la propiedad.
Genial.
Entonces obtendrás respaldo
para tu propuesta de propiedad.
Gracias.
Muy bien, ¿más preguntas?
Finn.
Finn es una de esas personas
que construye cosas
sobre datos lexicográficos.
(Finn) Es solo una pequeña pregunta,
y se trata de variaciones ortográficas.
Parece difícil ponerlos en...
Podría, por supuesto, tener múltiples
formas para la misma palabra.
No sé, parece que
si no lo haces así
parece ser difícil de especificar...
o no sé
si esto es solo un problema
técnico menor o si...
Veámoslo juntos.
Me encantaría ver un ejemplo.
Asaf.
(Asaf) Gracias.
Puedo dar un ejemplo muy concreto
de mi lengua materna, el hebreo.
El hebreo tiene dos variantes principales
para expresar casi todas las palabras
porque la ortografía tradicional
omite muchas de las vocales.
Y, por lo tanto, en las ediciones
modernas de la Biblia y de la poesía,
se usan diacríticos.
Sin embargo, esos signos diacríticos
nunca se usan para la prosa moderna
o la escritura de periódicos
o letreros de la calle.
El uso informal diario promedio
pone vocales adicionales
y no usa los signos diacríticos
porque son, por supuesto, más engorrosos
y tienen todo tipo de reglas
y nadie las conoce.
Entonces, básicamente hay dos variantes.
Existe la variante
de la prosa informal cotidiana,
y está la Biblia o la poesía,
que siempre viene
en este texto diacrítico tradicional.
Para ser útil,
Lexema tendría que reconocer
ambas variedades de cada palabra
y cada forma de cada palabra.
Es un caso de uso muy completo
para las variantes estables oficiales.
No es dialecto, no son regiones,
son básicamente dos sistemas
morfológicos coexistentes.
Y tampoco sé exactamente
cómo expresarlo en Lexema,
cosa que me impide responder
parcialmente a la pregunta de Magnus
de subir las partes que están listas
del mayor diccionario hebreo,
que es de dominio público
y que he estado digitalizando
durante varios años.
Una buena parte está lista,
pero no la pongo en Lexema en este momento
porque no sé exactamente
cómo resolver este problema.
Muy bien, solucionemos
este problema aquí. (risas)
Eso tiene que ser posible.
Muy bien, ¿más preguntas?
Si no, muchas gracias.
(aplausos)