-
(Lydia) Muchas gracias.
-
En esta conferencia, uno de los grandes
temas son los idiomas.
-
Quiero darles una visión general
de dónde estamos actualmente
-
en lo que respecta a los idiomas
-
y hacia dónde podemos ir desde aquí.
-
Wikidata se trata de dar a más personas
más acceso a más conocimiento,
-
y el lenguaje es una parte importante
para hacer que esto sea una realidad,
-
porque cada vez más nuestras vidas
dependen de la tecnología.
-
Y como nuestro orador principal decía hoy,
-
parte de la tecnología
deja atrás a las personas
-
simplemente porque no pueden
hablar un determinado idioma,
-
y eso no está bien.
-
Entonces queremos hacer algo al respecto.
-
Y para cambiar eso,
necesitan al menos dos cosas.
-
Una es que deben proporcionar contenido
a las personas en su idioma,
-
y la segunda cosa que necesitan
-
es proporcionarles
interacción en su idioma
-
en esas aplicaciones
o lo que sea que tenga.
-
Y Wikidata ayuda con ambas cosas.
-
Lo primero, contenido en su idioma,
-
eso es básicamente lo que tenemos
en elementos y propiedades,
-
cómo describimos el mundo.
-
Ahora, esto ciertamente
no es todo lo que necesitan,
-
pero eso ya es un gran avance.
-
La otra cosa
es la interacción en su idioma,
-
y ahí es donde
entran en juego los lexemas.
-
Si desean hablar
con su asistente personal digital
-
o si desean que su dispositivo
traduzca un texto y cosas así.
-
Muy bien, veamos
el Contenido en su idioma.
-
Entonces, lo que tenemos
en elementos y propiedades.
-
Para esto, las etiquetas en esos
elementos y propiedades son cruciales.
-
Necesitamos saber cómo se llama
esta entidad de la que estamos hablando.
-
Y en lugar de hablar sobre Q5,
-
alguien que habla inglés
sabe que es un "humano",
-
alguien que habla alemán
sabe que es un "mensch"
-
y cosas similares.
-
Entonces, esas etiquetas
en elementos y propiedades
-
están cerrando la brecha
entre humanos y máquinas.
-
Y humanos y humanos
-
haciendo más conocimiento existente
accesible para ellos.
-
Ahora, esa es una buena aspiración.
-
¿Cómo se vería realmente?
-
Se vería como esto.
-
Lo que están viendo aquí
-
es que la mayoría de los elementos
en Wikidata tienen dos etiquetas,
-
por lo que las etiquetas
están en dos idiomas.
-
Y después de eso, es uno, y luego tres,
y luego se pone muy triste.
-
(risa silenciosa)
-
Creo que debemos hacerlo mejor.
-
Pero, por otro lado,
-
en realidad esperaba
que esto fuera aún peor.
-
Esperaba que el promedio fuera uno.
-
Así que estaba bastante feliz
de ver dos. (risa)
-
Bien.
-
Pero no solo es interesante saber
-
cuántas etiquetas tienen nuestros
elementos y propiedades.
-
También es interesante ver en qué idiomas.
-
Aquí pueden ver un gráfico de los idiomas
-
que tienen etiquetas en los elementos.
-
Entonces, la parte más grande es Otros.
-
Así que acabo de tomar
los 100 idiomas principales
-
y todo lo demás es Otros
para hacer que este gráfico sea legible.
-
Y luego está el inglés y el holandés,
-
el francés,
-
y, para no olvidar, el asturiano.
-
- (audiencia) ¡Hurra!
- ¡Yuju! ¡Sí!
-
Entonces, lo que ven aquí
es un gran desequilibrio
-
y todavía un gran enfoque en el inglés.
-
Otra cosa es que si buscan
lo mismo en Propiedades,
-
en realidad se ve mejor.
-
Y creo que parte se debe
a que son menos propiedades.
-
Incluso las comunidades más pequeñas
podrán mantenerse al día con eso.
-
Pero también es una parte
bastante importante de Wikidata
-
localizarlo en su idioma.
-
Eso es bueno.
-
Lo que quiero resaltar aquí con asturiano
-
es que una pequeña comunidad
puede hacer una gran diferencia
-
con un poco de dedicación y trabajo,
-
y eso es realmente genial.
-
Un pequeño cuestionario para ustedes.
-
Si toman todas las propiedades en Wikidata
que no son identificadores externos,
-
¿cuál tiene más cantidad de etiquetas,
como la mayoría de los idiomas?
-
(audiencia) [inaudible]
-
¿Creen que es la instancia de?
-
De ser así están equivocados.
-
Es imagen. (risas)
-
Sí, eso les dice
que si hablan uno de los idiomas
-
en los que instancia de
aún no tiene una etiqueta,
-
quizás quieran agregarla.
-
Tiene 148 etiquetas actualmente.
-
Pero es otra diapositiva.
-
Este gráfico nos dice algo
sobre la cantidad de contenido
-
que ponemos a disposición
en un idioma determinado
-
y cuánto de ese contenido
se usa realmente.
-
Entonces, lo que están viendo
es básicamente una curva
-
con la mayoría del contenido
que tiene etiquetas en inglés,
-
disponible en inglés y se usa mucho.
-
Y luego se cae un poco.
-
Pero, de nuevo, lo que pueden ver
son valores atípicos
-
que tienen mucho más contenido
del que necesariamente esperarían,
-
y eso es muy muy bueno.
-
El problema aún es que no se usa mucho.
-
Los asturianos y holandeses
deberían ser más altos,
-
y creo que ayudar a esas comunidades
-
a aumentar el uso
de los datos que recopilaron
-
es algo realmente útil.
-
Lo que este y otros análisis
nos mostraron también es algo bueno,
-
estamos viendo
que los elementos muy usados
-
también tienden a tener más etiquetas
-
o al revés...
No está del todo claro.
-
Y entonces la pregunta es
-
¿estamos sirviendo
solo a los idiomas poderosos?
-
¿O estamos sirviendo a todos?
-
Y lo que ven aquí
es una agrupación de idiomas.
-
Los idiomas que se agrupan
tienden a tener etiquetas juntos.
-
Y los ven agruparse.
-
Ahora aquí hay una agrupación
similar, coloreada,
-
basada en qué tan vivo, cómo se usa,
-
qué tan en peligro es el idioma.
-
Y lo bueno que están viendo aquí
-
es que los idiomas seguros
y los idiomas en peligro de extinción
-
no forman dos grupos diferentes.
-
Pero todos están mezclados,
-
lo que es mucho mejor
de lo que sería al revés
-
donde los idiomas seguros,
los idiomas poderosos
-
solo se están ayudando mutuamente.
-
No, no es el caso.
-
Y es algo realmente bueno.
-
Cuando vi esto,
pensé que era muy bueno.
-
Aquí hay algo similar
-
en el que miramos
-
el estado de los idiomas
-
y cuántas etiquetas tiene.
-
Lo que están viendo es una clara victoria
para los idiomas seguros,
-
como se esperaba.
-
Pero lo que también ven es...
-
que los idiomas en las categorías
2 y 3 y tal vez incluso 4
-
no son tan malos, en realidad,
-
en términos de su representación
en Wikidata y otros.
-
Es algo realmente bueno de encontrar.
-
Ahora, si observan lo mismo
-
para saber cuánto
de ese contenido de esas etiquetas
-
se usa realmente
en Wikipedia, por ejemplo,
-
entonces vemos una imagen similar
emergiendo nuevamente.
-
Y nos dice que esas comunidades
están haciendo un buen uso de su tiempo
-
al completar etiquetas para artículos
de mayor uso, por ejemplo.
-
Hay valores atípicos
en los que creo que podemos ayudar
-
a esas comunidades a encontrar un lugar
donde su trabajo sería más valioso.
-
Pero, en general,
estoy contenta con esta imagen.
-
Ahora, esa era la parte de elementos
y propiedades de Wikidata.
-
Ahora, veamos la interacción
en sus idiomas,
-
la parte de lexema de Wikidata
-
donde describimos palabras
y sus formas y sus significados.
-
Hemos estado haciendo esto
desde mayo del año pasado,
-
y el contenido ha ido creciendo.
-
Pueden ver aquí en azul los lexemas,
-
y luego, en rojo,
las formas en esos lexemas
-
y, amarillo, los sentidos en esos lexemas.
-
Por lo tanto, algunas comunidades,
lo veremos más adelante,
-
han pasado mucho tiempo creando
formas y sentidos para sus lexemas,
-
lo cual es realmente útil
-
porque construye el núcleo
del conjunto de datos que necesitan.
-
Ahora, miramos todos los idiomas
-
que tienen lexemas en Wikidata.
-
Entonces, las palabras que tenemos
-
son ahora 310 idiomas.
-
Ahora, ¿cuál creen
que es el idioma principal
-
cuando se trata de la cantidad
de lexemas actualmente en Wikidata?
-
(persona 1) Ruso.
-
- ¿Ah?
- (persona 2) El alemán.
-
Lo siento, lo había escuchado.
-
Es el ruso.
-
El ruso está bastante por delante.
-
Y solo para darles una perspectiva,
-
hay diferentes opiniones,
-
pero he leído, por ejemplo,
que 1000 a 3000 palabras
-
te llevan al nivel de conversación,
aproximadamente, en otro idioma,
-
y 4000 a 10 000 palabras
a un nivel avanzado.
-
Entonces, todavía tenemos
un poco para alcanzar.
-
Una cosa a la que quiero
que presten atención es el vasco
-
con 10 000 lexemas, aproximadamente.
-
Ahora, si observa el número
de formas para esos lexemas,
-
el vasco está muy arriba,
-
lo cual es realmente genial,
-
y deben ir a una charla que explica
por qué ese es el caso.
-
Si nos fijamos en la cantidad de sentidos,
en lo qué significan las palabras,
-
el vasco llega
a la parte superior de la lista.
-
Creo que eso merece un aplauso.
-
(aplausos)
-
Otra pregunta rápida.
-
¿Cuál es el lexema
con más traducciones actualmente?
-
(audiencia) Gatos, gatos, [inaudible],
Douglas Adams, [inaudible]
-
Todas buenas conjeturas, pero no.
-
Es esta, la palabra rusa para "agua".
-
Muy bien, ahora hablamos mucho
-
sobre cuántos lexemas,
formas y sentidos tenemos,
-
pero eso es solo una cosa que necesitas.
-
La otra cosa que necesitan es describir
esos lexemas, formas y sentidos
-
de manera legible para una máquina.
-
Y para eso tienen declaraciones,
por ejemplo, en elementos.
-
Y una de las propiedades
que utilizan es el Ejemplo de uso.
-
Entonces, quien esté usando esos datos
-
puede entender cómo usar
esa palabra en contexto,
-
por lo que podría ser una cita,
por ejemplo.
-
Y aquí, los polacos son geniales.
-
Buen trabajo, hablantes de polaco.
-
Otra propiedad realmente útil es el AFI,
-
¿cómo se pronuncia esta palabra?
-
Aparentemente, Rusia necesita
muchas declaraciones del AFI.
-
Pero, de nuevo, polaco, segundo.
-
Y por último, pero no menos importante,
tenemos audio de pronunciación.
-
Es decir, enlaces a archivos en Commons
-
donde alguien habla la palabra,
-
para que puedan escuchar
a un hablante nativo pronunciar la palabra
-
en caso de que no sepa leer AFI,
por ejemplo.
-
Y hay un proyecto realmente
agradable basado en Wiki
-
llamado Lingua Libre
-
donde pueden ir y ayudar
a grabar palabras en su idioma
-
que luego se pueden agregar
a lexemas en Wikidata,
-
para que otras personas puedan entender
cómo pronunciar sus palabras.
-
(audiencia) [inaudible]
-
Si buscas "Lingua Libre"
-
y estoy segura de que alguien
puede publicarlo en el canal de Telegram.
-
Esos tipos son geniales.
-
Hicieron cosas realmente
geniales con Wikibase.
-
Bien.
-
Entonces, la pregunta es
¿a dónde vamos desde aquí?
-
Según los números que acabo de mostrar,
-
hemos recorrido un largo camino
-
para dar a más personas
más acceso a más conocimiento
-
al mirar idiomas en Wikidata.
-
Pero también queda
mucho trabajo por delante.
-
Algunas de las cosas que pueden hacer
para ayudar, por ejemplo,
-
es organizar "etiquetatones",
-
reunir a las personas
para etiquetar elementos en Wikidata
-
o hacer un "editatón"
alrededor de lexemas en tu idioma
-
para llevar las palabras más utilizadas
de tu idioma a Wikidata.
-
O pueden usar una herramienta
como Terminator
-
que les ayuda a encontrar los elementos
más importantes en su idioma
-
que aún no tienen una etiqueta.
-
Lo más importante se mide
por la frecuencia con la que se usa
-
en otros elementos de Wikidata
como enlaces en las declaraciones.
-
Y, por supuesto, para la parte de lexema,
-
ahora que tenemos
una cobertura básica de esos lexemas,
-
también se trata de construirlos,
agregarles más declaraciones
-
para que puedan construir la base
-
para aplicaciones significativas
y construir encima de eso.
-
Debido a que nos estamos acercando
a esa masa crítica,
-
pero aún estamos lejos de eso,
-
que puede construir
aplicaciones serias sobre ella.
-
Y espero que todos ustedes
se unan a nosotros para hacer eso.
-
Y eso me lleva a pedir
-
un poco de ayuda de nuestros amigos.
-
Bruno, ¿quieres venir
-
y hablarnos sobre máscaras léxicas?
-
(Bruno) Gracias, Lydia,
-
gracias por darme
este breve período de tiempo
-
para presentar este trabajo
que hacemos en Google con Denny,
-
que la mayoría probablemente
ha escuchado o sabe.
-
Porque en Google, soy lingüista.
-
Así que estoy muy feliz de estar aquí
entre otros entusiastas de los idiomas.
-
También estamos
construyendo algunos léxicos,
-
y hemos construido esta tecnología
-
o este enfoque que creemos
que puede ser útil para ustedes.
-
Solo para darles un poco de contexto,
-
este es mi contexto lexicográfico
que habla aquí.
-
Cuando creamos
una base de datos de léxicos,
-
es muy difícil mantenerlos,
mantenerlos consistentes
-
e intercambiar datos,
-
como probablemente ya saben.
-
Hay varios intentos de unificar
la característica y las propiedades
-
que describen esos lexemas y esas formas,
-
no es un problema resuelto,
-
pero hay algunos intentos
de unificación de ese lado.
-
Pero lo que realmente falta,
-
y este es un problema que tuvimos
al comienzo de nuestro proyecto en Google
-
es tratar de tener una estructura interna
-
que describa cómo debería ser
una entrada léxica,
-
qué tipo de datos o qué tipo
de información tenemos
-
y la especificación que se espera.
-
Entonces, esto es lo que se nos ocurrió
con esta cosa llamada máscara léxica.
-
Una máscara léxica describe
lo que se espera de una entrada,
-
para completar una entrada lexicográfica,
-
tanto en términos de la cantidad
de formas que esperan para un lexema
-
y la cantidad de características
que esperan para cada forma.
-
Aquí hay un ejemplo
de adjetivos italianos.
-
En italiano, esperas tener
cuatro formas para tus adjetivos,
-
y cada una de estas formas
tiene una combinación específica
-
de características de género y número.
-
Esto es lo que esperamos
para los adjetivos italianos.
-
Por supuesto, puede tener
máscaras extremadamente complejas,
-
como la conjugación de verbos franceses,
que es bastante extensa,
-
y no le muestro ninguna otra máscara rusa
porque no se ajusta a la pantalla.
-
Y también tenemos algunas
especificaciones detalladas
-
porque distinguimos
lo que está al nivel de la forma.
-
Aquí tienes sustantivos rusos
que tienen tres números
-
y una cantidad de casos
con diferentes formas,
-
pero también tienen
una especificación de nivel de entrada
-
que dice que un sustantivo
particularmente tiene
-
un género inherente y una característica
de animación inherente
-
que también se especifica en la máscara.
-
También distinguiremos que una máscara
proporciona una especificación
-
para, en general,
cómo debería ser una entrada.
-
Pero puede tener máscaras más pequeñas
para aspectos defectuosos de la forma
-
o aspectos defectuosos del lexema
que suceden en el idioma.
-
Así que aquí está la versión
más simple de los verbos franceses
-
que usan solo la 3ra persona del singular
para todos los verbos meteorológicos,
-
como "llueve" o "nieva", como en inglés.
-
Entonces distinguimos estos dos niveles.
-
Y cómo usamos esto en Google
-
es que, cuando tenemos un léxico
que queremos usar,
-
usamos la máscara para lanzar
literalmente los léxicos,
-
todas las entradas, a través de la máscara
-
y ver qué entrada tiene un problema
en términos de estructura.
-
¿Nos falta un formulario?
¿Nos falta una característica?
-
Y cuando hay un problema,
hacemos una validación humana
-
o simplemente para ver si pasa la máscara.
-
Es una herramienta muy poderosa
que verifica la calidad de la estructura.
-
Entonces, lo que nos complace anunciar hoy
-
es que tenemos luz verde
para liberar el código de nuestra máscara.
-
Este es un esquema.
-
Si lo desean, podemos liberarlo
-
y se lo proporcionaremos a Wikidata
como archivo ShEx.
-
Este es un archivo ShEx
para sustantivos alemanes,
-
y Denny está trabajando en la conversión
de nuestra especificación interna
-
a una especificación de código abierto.
-
Actualmente cubrimos más de 25 idiomas.
-
Así que, esperamos crecer de nuestro lado,
-
pero también buscamos esta oportunidad
de colaborar para otros idiomas.
-
Y una de las colaboraciones en curso
también que Denny tiene con Lukas.
-
Lukas tiene estas excelentes herramientas
para tener una interfaz de usuario
-
que ayude al usuario
o al contribuyente a agregar más formas.
-
Entonces, si desea agregar
un adjetivo en francés,
-
la interfaz de usuario les indica
cuántas formas se esperan
-
y qué tipo de características
debe tener esta forma.
-
Por lo tanto, nuestra máscara ayudará
a definir y expandir la herramienta.
-
Eso es todo.
-
(Lydia) Muchas gracias.
-
(aplausos)
-
Bien. ¿Hay preguntas?
-
¿Quieren que hable más sobre lexemas?
-
- (persona 3) Sí.
- Sí. (risas)
-
(persona 3) Mi pregunta viene
porque estabas hablando
-
de dar más acceso
a más personas en más idiomas.
-
Pero hay muchos idiomas
que no se pueden usar en Wikidata.
-
Entonces, ¿qué solución tienes para eso?
-
Cuando dices
que no se puede usar Wikidata,
-
¿estás hablando de ingresar etiquetas?
-
- (persona 3) Etiquetas, descripciones.
- Correcto.
-
Entonces, para lexemas,
es un poco diferente
-
porque no tenemos esa restricción.
-
Para las etiquetas
de elementos y propiedades,
-
hay algunas restricciones
-
porque queríamos asegurarnos
-
de que no todo el mundo haga de todo
-
y se vuelva inmanejable.
-
Incluso una pequeña comunidad
que quiera un idioma y trabajar en él,
-
hablen con nosotros, lo haremos realidad.
-
(persona 3) Hicimos eso
en el Hackathon de Praga en mayo,
-
y nos tomó hasta casi agosto
para poder usar nuestro idioma.
-
- Sí.
- (persona 3) Entonces, es muy lento.
-
Sí, desafortunadamente así es.
-
Actualmente trabajamos
con el Comité de idiomas
-
para resolver algunos fundamentos...
-
como llegar a un acuerdo sobre qué tipo
de idiomas están realmente "permitidos",
-
y eso ha llevado demasiado tiempo,
-
razón por la cual su solicitud
tardó más de lo que debería.
-
(persona 3) Gracias.
-
(persona 4) Gracias a ti.
-
Lydia, ¿si recuerdas
las estadísticas que mostraste,
-
- el número de lexemas por idioma?
- Sí.
-
Entonces, ¿contaste todas las formas
como un punto de datos
-
o solo lexemas?
-
(Lydia) ¿Te refieres a esto?
¿A cuál te refieres?
-
(persona 4) Sí, exactamente.
-
Si recuerdas, ¿este número [inaudible]
-
todas las formas para todos los lexemas
o cuántos lexemas hay?
-
- No, solo es el número de lexemas.
- (persona 4) Solo un número de lexemas.
-
Entonces, es una estadística justa
-
porque si se compilan las formas,
-
es por eso que pregunto,
-
entonces todos los idiomas
con la morfología flexiva,
-
como el ruso, el serbio,
el esloveno y otros,
-
tienen una ventaja natural
porque tienen muchos.
-
Ya comienza por aquí,
en este número de formas.
-
(persona 4) Sí, fue este. Gracias.
-
(persona 5) Tengo
una pregunta rápida sobre...
-
Cuando hablamos de los elementos
y propiedades reales.
-
Por lo que entiendo,
-
actualmente no hay forma
de dar una fuente real
-
a ninguna de las etiquetas
y descripciones que se dan.
-
Entonces, por ejemplo,
porque cuando hablas
-
de la propiedad de un elemento,
-
por ejemplo, puedes tener
etiquetas en conflicto.
-
Sí.
-
(persona 5) Esta persona es como...
-
Antes hablábamos
de cosas indígenas, por ejemplo.
-
Esta persona es un artista noruego
según esta fuente,
-
y un artista sami, según esta fuente.
-
O, por ejemplo, en estonio,
tuvimos un problema
-
en el que cambiamos la terminología
a la de uso oficial
-
en los léxicos oficiales,
-
pero no tenemos forma
de indicar realmente por qué,
-
es decir, cuál fue la fuente
-
y por qué fue mejor y qué había allí antes
-
solo fui yo, una persona cualquiera,
-
simplemente cambiando la cosa
para cualquiera que lo vea.
-
¿Hay algún plan para hacer
esto posible de alguna manera
-
para tener las fuentes adecuadas
para los datos de un idioma?
-
Entonces, es parcialmente posible.
-
Por ejemplo, cuando tienes
un elemento para una persona,
-
tienes una declaración,
nombre, apellido, etc., de esa persona,
-
puedes proporcionar
la referencia para eso allí.
-
Dudo bastante en agregar más complejidad
-
para las referencias
en etiquetas y descripciones,
-
pero si la gente realmente piensa
-
que esto no está cubierto
por ninguna referencia en la declaración,
-
entonces hablemos de ello.
-
Pero me temo que agregará
mucha complejidad
-
para lo que espero sean pocos casos,
-
pero estoy dispuesta
a convencerme de lo contrario
-
si la gente realmente se siente
muy convencida al respecto.
-
(persona 5) Si se agrega, probablemente
no debería ser la interfaz predeterminada
-
mostrada a los usuarios principiantes,
en cualquier caso.
-
Más como "Haga clic aquí si necesita
decir algo específico sobre esto".
-
¿Tenemos una idea de cuántas veces
eso realmente importaría?
-
(persona 5) En estonio, por ejemplo,
-
supongo que esto también es cierto
para otros idiomas,
-
por ejemplo, hay un nombre oficial
que es la traducción legítima actual,
-
por ejemplo, al inglés,
-
es decir, de un tipo de municipio.
-
Ese fue mi caso de uso, por ejemplo,
-
donde estábamos usando
la palabra "parish",
-
que en estonio se refería a una especie
de parroquia de la iglesia,
-
y ese fue el origen,
-
pero esa no es la traducción oficial
que tiene Estonia en este momento.
-
En este caso, simplemente lo agregaría
como declaraciones de nombre oficiales
-
y agregaría la referencia allí.
-
(persona 5) Bien.
-
¿Preguntas? ¿Sí?
-
(Asaf) Tengo dos comentarios rápidos.
-
Llamaste específicamente al asturiano
como un idioma que funciona bien,
-
y creo que es una observación equívoca.
-
Cuéntame sobre eso.
-
(Asaf) Creo que es solo un bot
-
que pegó nombres de personas,
como nombres propios,
-
y dijo: "Bueno, esto es exactamente
como en francés o español",
-
y solo lo copió masivamente.
-
Un punto de evidencia es que
no se ve esa energía en asturiano
-
en cosas que requieren traducción,
como nombres de propiedades
-
o nombres de elementos
que no son nombres propios.
-
Asaf, me rompes el corazón.
-
(Asaf) Lo sé,
me gusta ser aguafiestas,
-
pero también tengo buenas noticias,
sobre los números de pronunciación.
-
Probablemente sepan que Commons
está llena de archivos de pronunciación,
-
y, por ejemplo,
-
el holandés tiene no menos de 300 000
archivos de pronunciación en Commons
-
que solo necesitan
ser ingeridos de alguna manera.
-
Si alguien está buscando
un proyecto paralelo,
-
hay toneladas y toneladas
-
de archivos de pronunciación
clasificados y categorizados en Commons
-
bajo la categoría Pronunciación
por idioma.
-
Así que eso está esperando ser emparejado
con lexemas y ponerse en Lexemas.
-
Y me preguntaba si podrías decir algo
-
sobre la hoja de ruta,
-
algo acerca de cuánta inversión
-
o qué podemos esperar
de Lexemas en el próximo año,
-
porque, por mi parte, no puedo esperar.
-
¿No puedes esperar? (risas)
-
- (Asaf) Por más.
- Sí. (risas)
-
Ahora nos estamos concentrando
más en Wikibase y la calidad de los datos
-
para ver cuánta tracción obtiene
-
y luego tener más información
de los puntos débiles
-
y luego volver a mejorar aún más
los datos lexicográficos.
-
Y una de las cosas
que me encantaría saber de ustedes
-
es dónde ven exactamente
los próximos pasos,
-
dónde desean ver mejoras
-
para que luego podamos descubrir
cómo hacer que suceda.
-
Pero, por supuesto, tienes razón,
-
todavía hay mucho por hacer
también en el aspecto técnico.
-
(persona 7) Mientras cargábamos
las palabras vascas con formas y sentidos
-
y ese tipo de cosas,
-
la semana pasada decíamos:
"Oh, somos los primeros en algo".
-
Aparece en la prensa y dice:
-
"Oh, los vascos son los primeros...
son los primeros en algo", está bien.
-
(risas)
-
Y luego la gente pregunta:
"Bien, pero ¿para qué sirve esto?"
-
No tenemos una muy buena respuesta.
-
Es decir, está bien,
-
esto ayudará a las computadoras
a comprender más nuestro idioma, sí,
-
pero ¿qué tipo de herramientas
podemos hacer en el futuro?
-
Y no tenemos
una buena respuesta para esto.
-
Así que no sé si tienes
una buena respuesta para esto.
-
(risas) No sé si tengo una buena,
-
pero tengo una respuesta.
-
Creo que en este momento, como les decía,
-
no hemos alcanzado esa masa crítica
-
en la que puedes construir muchas
de las herramientas interesantes.
-
Pero ya hay algunas herramientas.
-
Justo el otro día,
Esther [Pandelia], por ejemplo,
-
lanzó una herramienta donde pueden ver,
-
creo que fueron las palabras en un globo
-
donde se habla más, de dónde vienen.
-
Puede que me equivoque,
-
pero ella respondió en el chat
del Proyecto en Wikidata,
-
pueden buscarlo allí.
-
Así que hemos visto
estas primeras herramientas,
-
tal como las vimos
cuando comenzó Wikidata.
-
Primero solo era una red
-
y "Oye, mira, hay una cosa
que se conecta con esta otra cosa".
-
Y a medida que tenemos más datos,
-
y a medida que alcanzamos
cierta masa crítica,
-
se hacen posibles
aplicaciones más potentes,
-
como Histropedia,
-
cosas como preguntas y respuestas
-
en tu asistente personal digital,
Platypus, etc.
-
Y estamos viendo
algo similar con los lexemas.
-
Estamos en la etapa en la que
puedes construir así de pequeño
-
y oye, mira, hay una conexión
entre las dos cosas,
-
y la etapa de traducción de esta palabra
a ese lenguaje,
-
y a medida que la desarrollamos
y a medida que describimos más palabras,
-
más se hace posible.
-
Ahora, ¿qué se hace posible?
-
Como Ben, nuestro orador principal,
al comenzar habló de traducciones,
-
pudiendo traducir de un idioma a otro.
-
Y Jens, mi colega, siempre habla
-
de que la Unión Europea busca un traductor
-
que pueda traducir de...
creo que fue de maltés al sueco.
-
- (persona 8) Estonio.
- Estonio.
-
Y esa no es una combinación habitual.
-
Y una vez que estos idiomas estén
en un lugar que una máquina pueda leer,
-
ustedes podrán hacerlo,
-
podrán tener un diccionario
-
del estonio al maltés y viceversa.
-
Por lo tanto, cubrir combinaciones
de idiomas en diccionarios
-
que simplemente no se han cubierto antes
-
porque no había suficiente
demanda, por ejemplo,
-
para que sea financieramente viable
y para justificar el trabajo.
-
Ahora podemos hacer eso.
-
Luego generación de texto.
-
Lucie estaba hablando
-
de cómo está trabajando
con Hattie en la generación de texto
-
para iniciar artículos de Wikipedia
en idiomas minoritarios,
-
y eso necesita datos sobre palabras,
-
y ustedes necesitan entender
el idioma para hacerlo.
-
Sí, y esos son solo algunos
que me vienen a la mente justo ahora.
-
Tal vez nuestra audiencia tenga
más ideas de lo que quieren hacer
-
cuando tengamos todos los datos gloriosos.
-
(persona 9) Me desviaré
del tema de los lexemas.
-
Haré la pregunta,
-
¿cómo puedo,
como miembro de la comunidad,
-
influir en que esa tarea sea prioridad,
-
que un nuevo usuario pueda indicar
qué idiomas quiere ver y editar
-
sin algún conocimiento secreto
de plantillas verbales?
-
Quizás exista este año
esta lista de deseos técnicos
-
sin temas de Wikipedia.
-
Tal vez haya una esperanza
de que todos podamos votar
-
sobre esto que no arreglamos
durante siete años.
-
¿Tienen alguna idea
o comentario sobre esto?
-
¿Estás hablando del hecho
-
de que alguien que no
ha iniciado sesión en Wikidata
-
no puede cambiar su idioma fácilmente?
-
(persona 9) No, para usuarios [inaudibles].
-
Por lo tanto, si inician sesión,
-
pueden cambiar su idioma
en la parte superior de la página,
-
y luego aparecerá
-
donde están las descripciones
de las etiquetas [inaudible],
-
y pueden editarlo.
-
(persona 9) Bueno, en realidad,
muchas veces el flujo de trabajo
-
es que si quieres tener
varios idiomas, estén disponibles,
-
y no siempre es así.
-
Bien, tal vez deberíamos sentarnos
después de esta charla y me lo muestras.
-
Genial. ¿Más preguntas?
-
Sí.
-
(persona 10) Gracias por la presentación.
-
¿Puede comentarnos
-
sobre el estado de la correlación
con la comunidad de Wiktionary?
-
Hasta donde he visto,
hubo algunas discusiones
-
sobre la importación
de algunos elementos del trabajo,
-
pero parece haber problemas de licencia
y algunos desacuerdos, etc.
-
Correcto.
-
Bueno, las comunidades de Wiktionary
han pasado mucho tiempo
-
construyendo Wiktionary.
-
Han creado
-
plantillas increíblemente
complicadas y complejas
-
para crear tablas bonitas que generan
automáticamente formas para ustedes
-
y todo tipo de cosas
realmente impresionantes
-
y cosas un poco locas, si lo piensan.
-
Y, por supuesto, han invertido
mucho tiempo y esfuerzo en eso.
-
Y comprensiblemente,
-
no quieren que simplemente sea tomado,
-
así como así.
-
En parte viene de eso.
-
Y eso está bien, no hay problema.
-
Ahora, las primeras comunidades
de Wiktionary están hablando de producir
-
e importar algunos
de sus datos a Wikidata.
-
El ruso, como han visto,
por ejemplo, es uno de esos casos
-
y espero que suceda más.
-
Pero será un proceso lento,
-
al igual que la adopción
de los datos de Wikidata en Wikipedia
-
ha sido un proceso bastante lento.
-
Por otro lado, hacer que sea más fácil
-
usar los datos que están en lexemas,
-
en Wiktionary, para que puedan
hacer uso de eso
-
y compartir datos entre
los Wiktionarios de los idioma,
-
que es muy difícil
o imposible en este momento,
-
lo cual es una locura,
como con Wikipedia.
-
Esperen por el regalo de cumpleaños.
-
Sí.
-
(persona 11) Mientras lo pensaba,
-
no quise decirlo
porque pensaba que sería supertonto,
-
pero creo que Wiktionary
ya tiene algo de contenido,
-
y sé que no podemos
transferirlo a Wikidata
-
porque hay una diferencia
en las licencias.
-
Pero estaba pensando que tal vez
podamos hacer algo al respecto.
-
Tal vez, no sé, podemos obtener
el permiso de las comunidades
-
luego de, no sé,
tener una votación pública
-
y para que la comunidad,
los miembros activos de la comunidad
-
voten y digan si desean
o aceptan transferir el contenido
-
para el que pueden
hacer los lexemas de Wikidata.
-
Porque creo que es un desperdicio.
-
Por lo tanto, esa es definitivamente
una conversación que las personas
-
que están en las comunidades de Wiktionary
son bienvenidas a plantear.
-
Creo que sería un poco presuntuoso
para nosotros ir y forzar eso.
-
Pero sí, creo que definitivamente
vale la pena tener una conversación.
-
Pero creo que también
es importante entender
-
que hay una distinción entre
lo que está legalmente permitido
-
y lo que deberíamos estar haciendo,
-
y lo que esas personas
quieren o no quieren.
-
Incluso si está legalmente permitido,
-
si algunas otras comunidades
de Wiktionary no quieran eso,
-
al menos yo tendría cuidado.
-
Creo que necesitas el micrófono
para la transmisión.
-
(persona 12) Obviamente,
todo es muy emocionante,
-
e inmediatamente pienso
cómo puedo llevar eso a mis estudiantes
-
y cómo puedo incorporarlo a los cursos,
-
el trabajo que estamos haciendo,
los entornos educativos.
-
Y no tengo, en este momento,
-
en primer lugar, suficiente conocimiento,
-
pero creo que la documentación que tenemos
-
podría ser mejorada.
-
Esa es una especie de solicitud
para hacer videos geniales
-
que expliquen cómo funciona
-
porque si lo tenemos, podemos usarlo,
-
y podemos tener estudiantes a bordo,
-
y podemos hacer que la gente entienda
lo increíble que es todo.
-
Y sí, solo piensen en la documentación
y en la educación, por favor.
-
Porque creo que se podría hacer mucho.
-
Estas son como muchas tareas
que podrían hacerse incluso con...
-
bueno, no diría escuelas primarias,
-
pero ciertamente, incluso
estudiantes más jóvenes.
-
Entonces, realmente me gustaría ver
ese potencial aprovechado
-
y, a partir de ahora, personalmente
no entiendo lo suficiente
-
como para poder crear
tareas o crear como...
-
hacer algo práctico con eso.
-
Cualquier ayuda o pensamiento
que alguien tenga sobre eso,
-
estaría muy feliz de escucharlas también.
-
Sí, hablemos de eso.
-
¿Más preguntas?
-
Alguien más levantó una mano.
-
Olvidé dónde estaba.
-
(persona 13) Si no podemos
importar desde Wiktionary,
-
¿hay algún esfuerzo concertado en hallar
otras fuentes de dominio público,
-
tal vez todos los datos
-
y algún tipo de filtro previo, organizarlo
-
que sea fácil de revisar y así importarlo?
-
Se han tomado medidas iniciales.
-
Tengo entendido que el vasco
es uno de esos esfuerzos.
-
¿Quizás quieras decir
un poco más al respecto?
-
(persona 7) [inaudible]
-
Bueno, la respuesta real es pagar por eso.
-
Tenemos un acuerdo con un contratista
con el que usualmente trabajamos.
-
Hacen diccionarios,
-
y muchas cosas, pero hacen diccionarios.
-
Acordamos con ellos para liberar
el diccionario de los estudiantes,
-
seleccionamos las palabras más comunes
y comenzaríamos a cargarlo
-
con un identificador externo
y el esquema de las cosas.
-
Pero hubo una discusión
acerca de dejarlo en CC0
-
porque tienen el diccionario con CC
-
y entendieron cuál era la diferencia.
-
Entonces hubo una discusión.
-
Pero creo que proporcionaremos algunas
herramientas o ejemplos en el futuro,
-
y creo que habrán otros diccionarios
que podamos manejar,
-
y también creo que Wiktionary
debe comenzar a moverse en esa dirección,
-
pero esa es otra gran discusión.
-
Y además de eso,
-
Lea también está en contacto
con personas occitanas
-
que trabajan en diccionarios occitanos,
-
y actualmente están trabajando
en una colaboración de sumerio.
-
¿Más preguntas?
-
(persona 14) ¡Hola! Somos las personas
que queremos importar datos occitanos.
-
¡Ajá! ¡Perfecto!
-
(persona 14) Y tenemos
un pequeño problema.
-
No sabemos cómo representar
la variedad de todos los lexemas.
-
Tenemos seis dialectos
-
y queremos indicarle a Lexemas
en qué dialecto se usa
-
y no tenemos una declaración C0
adecuada para hacerlo.
-
Por lo tanto,
mientras la declaración no exista,
-
nos impide impulsarlo
-
porque tendremos que volver a hacerlo
-
cuando podamos [sacar provecho]
a la declaración.
-
Y es complicado porque es una declaración
-
que muchas personas no pedirán
-
porque es una declaración que se refiere
principalmente a los idiomas minoritarios.
-
Tendrás una sola persona que lo pida,
-
pero, como nuestros colegas vascos,
-
puede ser una persona
que impulsará a miles de otros,
-
por lo que puede que no se pida mucho,
-
pero será muy importante para nosotros.
-
¿Ya tienen una nueva
propuesta de propiedad
-
o necesitan ayuda para crearla?
-
(persona 14) La solicitamos
hace cuatro meses.
-
Entonces hagamos que algunas personas
ayuden con esta propuesta de propiedad.
-
Estoy seguro de que hay suficientes
personas en esta sala para que suceda.
-
(persona 15) Propuesta de propiedad
[hablando en francés].
-
(persona 16) No tuvimos respuesta.
-
(persona 14) No tuvimos respuesta,
y no sabemos cómo hacerlo
-
porque no estamos
en la comunidad de Wikidata.
-
Sí, así que hay personas aquí
que pueden ayudarte.
-
Quizás alguien
levante la mano para tomar...
-
(persona 7) Estoy para eso.
-
Pero creo que esto
es bastante interesante
-
no solo por la variante de forma
-
también puede manejarse geográficamente,
-
con coordenadas o algún tipo de mapeo.
-
También tener diferentes pronunciaciones,
-
y creo que esto es algo
que sucede en muchos idiomas.
-
Deberíamos comenzar
a hacer que suceda [inaudible],
-
y voy a buscar la propiedad.
-
Genial.
-
Entonces obtendrás respaldo
para tu propuesta de propiedad.
-
Gracias.
-
Muy bien, ¿más preguntas?
-
Finn.
-
Finn es una de esas personas
-
que construye cosas
sobre datos lexicográficos.
-
(Finn) Es solo una pequeña pregunta,
-
y se trata de variaciones ortográficas.
-
Parece difícil ponerlos en...
-
Podría, por supuesto, tener múltiples
formas para la misma palabra.
-
No sé, parece que
-
si no lo haces así
parece ser difícil de especificar...
-
o no sé
-
si esto es solo un problema
técnico menor o si...
-
Veámoslo juntos.
-
Me encantaría ver un ejemplo.
-
Asaf.
-
(Asaf) Gracias.
-
Puedo dar un ejemplo muy concreto
de mi lengua materna, el hebreo.
-
El hebreo tiene dos variantes principales
-
para expresar casi todas las palabras
-
porque la ortografía tradicional
-
omite muchas de las vocales.
-
Y, por lo tanto, en las ediciones
modernas de la Biblia y de la poesía,
-
se usan diacríticos.
-
Sin embargo, esos signos diacríticos
nunca se usan para la prosa moderna
-
o la escritura de periódicos
o letreros de la calle.
-
El uso informal diario promedio
pone vocales adicionales
-
y no usa los signos diacríticos
-
porque son, por supuesto, más engorrosos
-
y tienen todo tipo de reglas
y nadie las conoce.
-
Entonces, básicamente hay dos variantes.
-
Existe la variante
de la prosa informal cotidiana,
-
y está la Biblia o la poesía,
-
que siempre viene
en este texto diacrítico tradicional.
-
Para ser útil,
-
Lexema tendría que reconocer
ambas variedades de cada palabra
-
y cada forma de cada palabra.
-
Es un caso de uso muy completo
-
para las variantes estables oficiales.
-
No es dialecto, no son regiones,
-
son básicamente dos sistemas
morfológicos coexistentes.
-
Y tampoco sé exactamente
cómo expresarlo en Lexema,
-
cosa que me impide responder
parcialmente a la pregunta de Magnus
-
de subir las partes que están listas
-
del mayor diccionario hebreo,
que es de dominio público
-
y que he estado digitalizando
durante varios años.
-
Una buena parte está lista,
-
pero no la pongo en Lexema en este momento
-
porque no sé exactamente
cómo resolver este problema.
-
Muy bien, solucionemos
este problema aquí. (risas)
-
Eso tiene que ser posible.
-
Muy bien, ¿más preguntas?
-
Si no, muchas gracias.
-
(aplausos)