(Lydia) Muchas gracias. En esta conferencia, uno de los grandes temas son los idiomas. Quiero darles una visión general de dónde estamos actualmente en lo que respecta a los idiomas y hacia dónde podemos ir desde aquí. Wikidata se trata de dar a más personas más acceso a más conocimiento, y el lenguaje es una parte importante para hacer que esto sea una realidad, porque cada vez más nuestras vidas dependen de la tecnología. Y como nuestro orador principal decía hoy, parte de la tecnología deja atrás a las personas simplemente porque no pueden hablar un determinado idioma, y ​​eso no está bien. Entonces queremos hacer algo al respecto. Y para cambiar eso, necesitan al menos dos cosas. Una es que deben proporcionar contenido a las personas en su idioma, y ​​la segunda cosa que necesitan es proporcionarles interacción en su idioma en esas aplicaciones o lo que sea que tenga. Y Wikidata ayuda con ambas cosas. Lo primero, contenido en su idioma, eso es básicamente lo que tenemos en elementos y propiedades, cómo describimos el mundo. Ahora, esto ciertamente no es todo lo que necesitan, pero eso ya es un gran avance. La otra cosa es la interacción en su idioma, y ​​ahí es donde entran en juego los lexemas. Si desean hablar con su asistente personal digital o si desean que su dispositivo traduzca un texto y cosas así. Muy bien, veamos el Contenido en su idioma. Entonces, lo que tenemos en elementos y propiedades. Para esto, las etiquetas en esos elementos y propiedades son cruciales. Necesitamos saber cómo se llama esta entidad de la que estamos hablando. Y en lugar de hablar sobre Q5, alguien que habla inglés sabe que es un "humano", alguien que habla alemán sabe que es un "mensch" y cosas similares. Entonces, esas etiquetas en elementos y propiedades están cerrando la brecha entre humanos y máquinas. Y humanos y humanos haciendo más conocimiento existente accesible para ellos. Ahora, esa es una buena aspiración. ¿Cómo se vería realmente? Se vería como esto. Lo que están viendo aquí es que la mayoría de los elementos en Wikidata tienen dos etiquetas, por lo que las etiquetas están en dos idiomas. Y después de eso, es uno, y luego tres, y luego se pone muy triste. (risa silenciosa) Creo que debemos hacerlo mejor. Pero, por otro lado, en realidad esperaba que esto fuera aún peor. Esperaba que el promedio fuera uno. Así que estaba bastante feliz de ver dos. (risa) Bien. Pero no solo es interesante saber cuántas etiquetas tienen nuestros elementos y propiedades. También es interesante ver en qué idiomas. Aquí pueden ver un gráfico de los idiomas que tienen etiquetas en los elementos. Entonces, la parte más grande es Otros. Así que acabo de tomar los 100 idiomas principales y todo lo demás es Otros para hacer que este gráfico sea legible. Y luego está el inglés y el holandés, el francés, y, para no olvidar, el asturiano. - (audiencia) ¡Hurra! - ¡Yuju! ¡Sí! Entonces, lo que ven aquí es un gran desequilibrio y todavía un gran enfoque en el inglés. Otra cosa es que si buscan lo mismo en Propiedades, en realidad se ve mejor. Y creo que parte se debe a que son menos propiedades. Incluso las comunidades más pequeñas podrán mantenerse al día con eso. Pero también es una parte bastante importante de Wikidata localizarlo en su idioma. Eso es bueno. Lo que quiero resaltar aquí con asturiano es que una pequeña comunidad puede hacer una gran diferencia con un poco de dedicación y trabajo, y eso es realmente genial. Un pequeño cuestionario para ustedes. Si toman todas las propiedades en Wikidata que no son identificadores externos, ¿cuál tiene más cantidad de etiquetas, como la mayoría de los idiomas? (audiencia) [inaudible] ¿Creen que es la instancia de? De ser así están equivocados. Es imagen. (risas) Sí, eso les dice que si hablan uno de los idiomas en los que instancia de aún no tiene una etiqueta, quizás quieran agregarla. Tiene 148 etiquetas actualmente. Pero es otra diapositiva. Este gráfico nos dice algo sobre la cantidad de contenido que ponemos a disposición en un idioma determinado y cuánto de ese contenido se usa realmente. Entonces, lo que están viendo es básicamente una curva con la mayoría del contenido que tiene etiquetas en inglés, disponible en inglés y se usa mucho. Y luego se cae un poco. Pero, de nuevo, lo que pueden ver son valores atípicos que tienen mucho más contenido del que necesariamente esperarían, y eso es muy muy bueno. El problema aún es que no se usa mucho. Los asturianos y holandeses deberían ser más altos, y creo que ayudar a esas comunidades a aumentar el uso de los datos que recopilaron es algo realmente útil. Lo que este y otros análisis nos mostraron también es algo bueno, estamos viendo que los elementos muy usados ​​también tienden a tener más etiquetas o al revés... No está del todo claro. Y entonces la pregunta es ¿estamos sirviendo solo a los idiomas poderosos? ¿O estamos sirviendo a todos? Y lo que ven aquí es una agrupación de idiomas. Los idiomas que se agrupan tienden a tener etiquetas juntos. Y los ven agruparse. Ahora aquí hay una agrupación similar, coloreada, basada en qué tan vivo, cómo se usa, qué tan en peligro es el idioma. Y lo bueno que están viendo aquí es que los idiomas seguros y los idiomas en peligro de extinción no forman dos grupos diferentes. Pero todos están mezclados, lo que es mucho mejor de lo que sería al revés donde los idiomas seguros, los idiomas poderosos solo se están ayudando mutuamente. No, no es el caso. Y es algo realmente bueno. Cuando vi esto, pensé que era muy bueno. Aquí hay algo similar en el que miramos el estado de los idiomas y cuántas etiquetas tiene. Lo que están viendo es una clara victoria para los idiomas seguros, como se esperaba. Pero lo que también ven es... que los idiomas en las categorías 2 y 3 y tal vez incluso 4 no son tan malos, en realidad, en términos de su representación en Wikidata y otros. Es algo realmente bueno de encontrar. Ahora, si observan lo mismo para saber cuánto de ese contenido de esas etiquetas se usa realmente en Wikipedia, por ejemplo, entonces vemos una imagen similar emergiendo nuevamente. Y nos dice que esas comunidades están haciendo un buen uso de su tiempo al completar etiquetas para artículos de mayor uso, por ejemplo. Hay valores atípicos en los que creo que podemos ayudar a esas comunidades a encontrar un lugar donde su trabajo sería más valioso. Pero, en general, estoy contenta con esta imagen. Ahora, esa era la parte de elementos y propiedades de Wikidata. Ahora, veamos la interacción en sus idiomas, la parte de lexema de Wikidata donde describimos palabras y sus formas y sus significados. Hemos estado haciendo esto desde mayo del año pasado, y el contenido ha ido creciendo. Pueden ver aquí en azul los lexemas, y luego, en rojo, las formas en esos lexemas y, amarillo, los sentidos en esos lexemas. Por lo tanto, algunas comunidades, lo veremos más adelante, han pasado mucho tiempo creando formas y sentidos para sus lexemas, lo cual es realmente útil porque construye el núcleo del conjunto de datos que necesitan. Ahora, miramos todos los idiomas que tienen lexemas en Wikidata. Entonces, las palabras que tenemos son ahora 310 idiomas. Ahora, ¿cuál creen que es el idioma principal cuando se trata de la cantidad de lexemas actualmente en Wikidata? (persona 1) Ruso. - ¿Ah? - (persona 2) El alemán. Lo siento, lo había escuchado. Es el ruso. El ruso está bastante por delante. Y solo para darles una perspectiva, hay diferentes opiniones, pero he leído, por ejemplo, que 1000 a 3000 palabras te llevan al nivel de conversación, aproximadamente, en otro idioma, y ​​4000 a 10 000 palabras a un nivel avanzado. Entonces, todavía tenemos un poco para alcanzar. Una cosa a la que quiero que presten atención es el vasco con 10 000 lexemas, aproximadamente. Ahora, si observa el número de formas para esos lexemas, el vasco está muy arriba, lo cual es realmente genial, y deben ir a una charla que explica por qué ese es el caso. Si nos fijamos en la cantidad de sentidos, en lo qué significan las palabras, el vasco llega a la parte superior de la lista. Creo que eso merece un aplauso. (aplausos) Otra pregunta rápida. ¿Cuál es el lexema con más traducciones actualmente? (audiencia) Gatos, gatos, [inaudible], Douglas Adams, [inaudible] Todas buenas conjeturas, pero no. Es esta, la palabra rusa para "agua". Muy bien, ahora hablamos mucho sobre cuántos lexemas, formas y sentidos tenemos, pero eso es solo una cosa que necesitas. La otra cosa que necesitan es describir esos lexemas, formas y sentidos de manera legible para una máquina. Y para eso tienen declaraciones, por ejemplo, en elementos. Y una de las propiedades que utilizan es el Ejemplo de uso. Entonces, quien esté usando esos datos puede entender cómo usar esa palabra en contexto, por lo que podría ser una cita, por ejemplo. Y aquí, los polacos son geniales. Buen trabajo, hablantes de polaco. Otra propiedad realmente útil es el AFI, ¿cómo se pronuncia esta palabra? Aparentemente, Rusia necesita muchas declaraciones del AFI. Pero, de nuevo, polaco, segundo. Y por último, pero no menos importante, tenemos audio de pronunciación. Es decir, enlaces a archivos en Commons donde alguien habla la palabra, para que puedan escuchar a un hablante nativo pronunciar la palabra en caso de que no sepa leer AFI, por ejemplo. Y hay un proyecto realmente agradable basado en Wiki llamado Lingua Libre donde pueden ir y ayudar a grabar palabras en su idioma que luego se pueden agregar a lexemas en Wikidata, para que otras personas puedan entender cómo pronunciar sus palabras. (audiencia) [inaudible] Si buscas "Lingua Libre" y estoy segura de que alguien puede publicarlo en el canal de Telegram. Esos tipos son geniales. Hicieron cosas realmente geniales con Wikibase. Bien. Entonces, la pregunta es ¿a dónde vamos desde aquí? Según los números que acabo de mostrar, hemos recorrido un largo camino para dar a más personas más acceso a más conocimiento al mirar idiomas en Wikidata. Pero también queda mucho trabajo por delante. Algunas de las cosas que pueden hacer para ayudar, por ejemplo, es organizar "etiquetatones", reunir a las personas para etiquetar elementos en Wikidata o hacer un "editatón" alrededor de lexemas en tu idioma para llevar las palabras más utilizadas de tu idioma a Wikidata. O pueden usar una herramienta como Terminator que les ayuda a encontrar los elementos más importantes en su idioma que aún no tienen una etiqueta. Lo más importante se mide por la frecuencia con la que se usa en otros elementos de Wikidata como enlaces en las declaraciones. Y, por supuesto, para la parte de lexema, ahora que tenemos una cobertura básica de esos lexemas, también se trata de construirlos, agregarles más declaraciones para que puedan construir la base para aplicaciones significativas y construir encima de eso. Debido a que nos estamos acercando a esa masa crítica, pero aún estamos lejos de eso, que puede construir aplicaciones serias sobre ella. Y espero que todos ustedes se unan a nosotros para hacer eso. Y eso me lleva a pedir un poco de ayuda de nuestros amigos. Bruno, ¿quieres venir y hablarnos sobre máscaras léxicas? (Bruno) Gracias, Lydia, gracias por darme este breve período de tiempo para presentar este trabajo que hacemos en Google con Denny, que la mayoría probablemente ha escuchado o sabe. Porque en Google, soy lingüista. Así que estoy muy feliz de estar aquí entre otros entusiastas de los idiomas. También estamos construyendo algunos léxicos, y hemos construido esta tecnología o este enfoque que creemos que puede ser útil para ustedes. Solo para darles un poco de contexto, este es mi contexto lexicográfico que habla aquí. Cuando creamos una base de datos de léxicos, es muy difícil mantenerlos, mantenerlos consistentes e intercambiar datos, como probablemente ya saben. Hay varios intentos de unificar la característica y las propiedades que describen esos lexemas y esas formas, no es un problema resuelto, pero hay algunos intentos de unificación de ese lado. Pero lo que realmente falta, y este es un problema que tuvimos al comienzo de nuestro proyecto en Google es tratar de tener una estructura interna que describa cómo debería ser una entrada léxica, qué tipo de datos o qué tipo de información tenemos y la especificación que se espera. Entonces, esto es lo que se nos ocurrió con esta cosa llamada máscara léxica. Una máscara léxica describe lo que se espera de una entrada, para completar una entrada lexicográfica, tanto en términos de la cantidad de formas que esperan para un lexema y la cantidad de características que esperan para cada forma. Aquí hay un ejemplo de adjetivos italianos. En italiano, esperas tener cuatro formas para tus adjetivos, y cada una de estas formas tiene una combinación específica de características de género y número. Esto es lo que esperamos para los adjetivos italianos. Por supuesto, puede tener máscaras extremadamente complejas, como la conjugación de verbos franceses, que es bastante extensa, y no le muestro ninguna otra máscara rusa porque no se ajusta a la pantalla. Y también tenemos algunas especificaciones detalladas porque distinguimos lo que está al nivel de la forma. Aquí tienes sustantivos rusos que tienen tres números y una cantidad de casos con diferentes formas, pero también tienen una especificación de nivel de entrada que dice que un sustantivo particularmente tiene un género inherente y una característica de animación inherente que también se especifica en la máscara. También distinguiremos que una máscara proporciona una especificación para, en general, cómo debería ser una entrada. Pero puede tener máscaras más pequeñas para aspectos defectuosos de la forma o aspectos defectuosos del lexema que suceden en el idioma. Así que aquí está la versión más simple de los verbos franceses que usan solo la 3ra persona del singular para todos los verbos meteorológicos, como "llueve" o "nieva", como en inglés. Entonces distinguimos estos dos niveles. Y cómo usamos esto en Google es que, cuando tenemos un léxico que queremos usar, usamos la máscara para lanzar literalmente los léxicos, todas las entradas, a través de la máscara y ver qué entrada tiene un problema en términos de estructura. ¿Nos falta un formulario? ¿Nos falta una característica? Y cuando hay un problema, hacemos una validación humana o simplemente para ver si pasa la máscara. Es una herramienta muy poderosa que verifica la calidad de la estructura. Entonces, lo que nos complace anunciar hoy es que tenemos luz verde para liberar el código de nuestra máscara. Este es un esquema. Si lo desean, podemos liberarlo y se lo proporcionaremos a Wikidata como archivo ShEx. Este es un archivo ShEx para sustantivos alemanes, y Denny está trabajando en la conversión de nuestra especificación interna a una especificación de código abierto. Actualmente cubrimos más de 25 idiomas. Así que, esperamos crecer de nuestro lado, pero también buscamos esta oportunidad de colaborar para otros idiomas. Y una de las colaboraciones en curso también que Denny tiene con Lukas. Lukas tiene estas excelentes herramientas para tener una interfaz de usuario que ayude al usuario o al contribuyente a agregar más formas. Entonces, si desea agregar un adjetivo en francés, la interfaz de usuario les indica cuántas formas se esperan y qué tipo de características debe tener esta forma. Por lo tanto, nuestra máscara ayudará a definir y expandir la herramienta. Eso es todo. (Lydia) Muchas gracias. (aplausos) Bien. ¿Hay preguntas? ¿Quieren que hable más sobre lexemas? - (persona 3) Sí. - Sí. (risas) (persona 3) Mi pregunta viene porque estabas hablando de dar más acceso a más personas en más idiomas. Pero hay muchos idiomas que no se pueden usar en Wikidata. Entonces, ¿qué solución tienes para eso? Cuando dices que no se puede usar Wikidata, ¿estás hablando de ingresar etiquetas? - (persona 3) Etiquetas, descripciones. - Correcto. Entonces, para lexemas, es un poco diferente porque no tenemos esa restricción. Para las etiquetas de elementos y propiedades, hay algunas restricciones porque queríamos asegurarnos de que no todo el mundo haga de todo y se vuelva inmanejable. Incluso una pequeña comunidad que quiera un idioma y trabajar en él, hablen con nosotros, lo haremos realidad. (persona 3) Hicimos eso en el Hackathon de Praga en mayo, y nos tomó hasta casi agosto para poder usar nuestro idioma. - Sí. - (persona 3) Entonces, es muy lento. Sí, desafortunadamente así es. Actualmente trabajamos con el Comité de idiomas para resolver algunos fundamentos... como llegar a un acuerdo sobre qué tipo de idiomas están realmente "permitidos", y eso ha llevado demasiado tiempo, razón por la cual su solicitud tardó más de lo que debería. (persona 3) Gracias. (persona 4) Gracias a ti. Lydia, ¿si recuerdas las estadísticas que mostraste, - el número de lexemas por idioma? - Sí. Entonces, ¿contaste todas las formas como un punto de datos o solo lexemas? (Lydia) ¿Te refieres a esto? ¿A cuál te refieres? (persona 4) Sí, exactamente. Si recuerdas, ¿este número [inaudible] todas las formas para todos los lexemas o cuántos lexemas hay? - No, solo es el número de lexemas. - (persona 4) Solo un número de lexemas. Entonces, es una estadística justa porque si se compilan las formas, es por eso que pregunto, entonces todos los idiomas con la morfología flexiva, como el ruso, el serbio, el esloveno y otros, tienen una ventaja natural porque tienen muchos. Ya comienza por aquí, en este número de formas. (persona 4) Sí, fue este. Gracias. (persona 5) Tengo una pregunta rápida sobre... Cuando hablamos de los elementos y propiedades reales. Por lo que entiendo, actualmente no hay forma de dar una fuente real a ninguna de las etiquetas y descripciones que se dan. Entonces, por ejemplo, porque cuando hablas de la propiedad de un elemento, por ejemplo, puedes tener etiquetas en conflicto. Sí. (persona 5) Esta persona es como... Antes hablábamos de cosas indígenas, por ejemplo. Esta persona es un artista noruego según esta fuente, y un artista sami, según esta fuente. O, por ejemplo, en estonio, tuvimos un problema en el que cambiamos la terminología a la de uso oficial en los léxicos oficiales, pero no tenemos forma de indicar realmente por qué, es decir, cuál fue la fuente y por qué fue mejor y qué había allí antes solo fui yo, una persona cualquiera, simplemente cambiando la cosa para cualquiera que lo vea. ¿Hay algún plan para hacer esto posible de alguna manera para tener las fuentes adecuadas para los datos de un idioma? Entonces, es parcialmente posible. Por ejemplo, cuando tienes un elemento para una persona, tienes una declaración, nombre, apellido, etc., de esa persona, puedes proporcionar la referencia para eso allí. Dudo bastante en agregar más complejidad para las referencias en etiquetas y descripciones, pero si la gente realmente piensa que esto no está cubierto por ninguna referencia en la declaración, entonces hablemos de ello. Pero me temo que agregará mucha complejidad para lo que espero sean pocos casos, pero estoy dispuesta a convencerme de lo contrario si la gente realmente se siente muy convencida al respecto. (persona 5) Si se agrega, probablemente no debería ser la interfaz predeterminada mostrada a los usuarios principiantes, en cualquier caso. Más como "Haga clic aquí si necesita decir algo específico sobre esto". ¿Tenemos una idea de cuántas veces eso realmente importaría? (persona 5) En estonio, por ejemplo, supongo que esto también es cierto para otros idiomas, por ejemplo, hay un nombre oficial que es la traducción legítima actual, por ejemplo, al inglés, es decir, de un tipo de municipio. Ese fue mi caso de uso, por ejemplo, donde estábamos usando la palabra "parish", que en estonio se refería a una especie de parroquia de la iglesia, y ese fue el origen, pero esa no es la traducción oficial que tiene Estonia en este momento. En este caso, simplemente lo agregaría como declaraciones de nombre oficiales y agregaría la referencia allí. (persona 5) Bien. ¿Preguntas? ¿Sí? (Asaf) Tengo dos comentarios rápidos. Llamaste específicamente al asturiano como un idioma que funciona bien, y creo que es una observación equívoca. Cuéntame sobre eso. (Asaf) Creo que es solo un bot que pegó nombres de personas, como nombres propios, y dijo: "Bueno, esto es exactamente como en francés o español", y solo lo copió masivamente. Un punto de evidencia es que no se ve esa energía en asturiano en cosas que requieren traducción, como nombres de propiedades o nombres de elementos que no son nombres propios. Asaf, me rompes el corazón. (Asaf) Lo sé, me gusta ser aguafiestas, pero también tengo buenas noticias, sobre los números de pronunciación. Probablemente sepan que Commons está llena de archivos de pronunciación, y, por ejemplo, el holandés tiene no menos de 300 000 archivos de pronunciación en Commons que solo necesitan ser ingeridos de alguna manera. Si alguien está buscando un proyecto paralelo, hay toneladas y toneladas de archivos de pronunciación clasificados y categorizados en Commons bajo la categoría Pronunciación por idioma. Así que eso está esperando ser emparejado con lexemas y ponerse en Lexemas. Y me preguntaba si podrías decir algo sobre la hoja de ruta, algo acerca de cuánta inversión o qué podemos esperar de Lexemas en el próximo año, porque, por mi parte, no puedo esperar. ¿No puedes esperar? (risas) - (Asaf) Por más. - Sí. (risas) Ahora nos estamos concentrando más en Wikibase y la calidad de los datos para ver cuánta tracción obtiene y luego tener más información de los puntos débiles y luego volver a mejorar aún más los datos lexicográficos. Y una de las cosas que me encantaría saber de ustedes es dónde ven exactamente los próximos pasos, dónde desean ver mejoras para que luego podamos descubrir cómo hacer que suceda. Pero, por supuesto, tienes razón, todavía hay mucho por hacer también en el aspecto técnico. (persona 7) Mientras cargábamos las palabras vascas con formas y sentidos y ese tipo de cosas, la semana pasada decíamos: "Oh, somos los primeros en algo". Aparece en la prensa y dice: "Oh, los vascos son los primeros... son los primeros en algo", está bien. (risas) Y luego la gente pregunta: "Bien, pero ¿para qué sirve esto?" No tenemos una muy buena respuesta. Es decir, está bien, esto ayudará a las computadoras a comprender más nuestro idioma, sí, pero ¿qué tipo de herramientas podemos hacer en el futuro? Y no tenemos una buena respuesta para esto. Así que no sé si tienes una buena respuesta para esto. (risas) No sé si tengo una buena, pero tengo una respuesta. Creo que en este momento, como les decía, no hemos alcanzado esa masa crítica en la que puedes construir muchas de las herramientas interesantes. Pero ya hay algunas herramientas. Justo el otro día, Esther [Pandelia], por ejemplo, lanzó una herramienta donde pueden ver, creo que fueron las palabras en un globo donde se habla más, de dónde vienen. Puede que me equivoque, pero ella respondió en el chat del Proyecto en Wikidata, pueden buscarlo allí. Así que hemos visto estas primeras herramientas, tal como las vimos cuando comenzó Wikidata. Primero solo era una red y "Oye, mira, hay una cosa que se conecta con esta otra cosa". Y a medida que tenemos más datos, y a medida que alcanzamos cierta masa crítica, se hacen posibles aplicaciones más potentes, como Histropedia, cosas como preguntas y respuestas en tu asistente personal digital, Platypus, etc. Y estamos viendo algo similar con los lexemas. Estamos en la etapa en la que puedes construir así de pequeño y oye, mira, hay una conexión entre las dos cosas, y la etapa de traducción de esta palabra a ese lenguaje, y a medida que la desarrollamos y a medida que describimos más palabras, más se hace posible. Ahora, ¿qué se hace posible? Como Ben, nuestro orador principal, al comenzar habló de traducciones, pudiendo traducir de un idioma a otro. Y Jens, mi colega, siempre habla de que la Unión Europea busca un traductor que pueda traducir de... creo que fue de maltés al sueco. - (persona 8) Estonio. - Estonio. Y esa no es una combinación habitual. Y una vez que estos idiomas estén en un lugar que una máquina pueda leer, ustedes podrán hacerlo, podrán tener un diccionario del estonio al maltés y viceversa. Por lo tanto, cubrir combinaciones de idiomas en diccionarios que simplemente no se han cubierto antes porque no había suficiente demanda, por ejemplo, para que sea financieramente viable y para justificar el trabajo. Ahora podemos hacer eso. Luego generación de texto. Lucie estaba hablando de cómo está trabajando con Hattie en la generación de texto para iniciar artículos de Wikipedia en idiomas minoritarios, y eso necesita datos sobre palabras, y ustedes necesitan entender el idioma para hacerlo. Sí, y esos son solo algunos que me vienen a la mente justo ahora. Tal vez nuestra audiencia tenga más ideas de lo que quieren hacer cuando tengamos todos los datos gloriosos. (persona 9) Me desviaré del tema de los lexemas. Haré la pregunta, ¿cómo puedo, como miembro de la comunidad, influir en que esa tarea sea prioridad, que un nuevo usuario pueda indicar qué idiomas quiere ver y editar sin algún conocimiento secreto de plantillas verbales? Quizás exista este año esta lista de deseos técnicos sin temas de Wikipedia. Tal vez haya una esperanza de que todos podamos votar sobre esto que no arreglamos durante siete años. ¿Tienen alguna idea o comentario sobre esto? ¿Estás hablando del hecho de que alguien que no ha iniciado sesión en Wikidata no puede cambiar su idioma fácilmente? (persona 9) No, para usuarios [inaudibles]. Por lo tanto, si inician sesión, pueden cambiar su idioma en la parte superior de la página, y luego aparecerá donde están las descripciones de las etiquetas [inaudible], y pueden editarlo. (persona 9) Bueno, en realidad, muchas veces el flujo de trabajo es que si quieres tener varios idiomas, estén disponibles, y no siempre es así. Bien, tal vez deberíamos sentarnos después de esta charla y me lo muestras. Genial. ¿Más preguntas? Sí. (persona 10) Gracias por la presentación. ¿Puede comentarnos sobre el estado de la correlación con la comunidad de Wiktionary? Hasta donde he visto, hubo algunas discusiones sobre la importación de algunos elementos del trabajo, pero parece haber problemas de licencia y algunos desacuerdos, etc. Correcto. Bueno, las comunidades de Wiktionary han pasado mucho tiempo construyendo Wiktionary. Han creado plantillas increíblemente complicadas y complejas para crear tablas bonitas que generan automáticamente formas para ustedes y todo tipo de cosas realmente impresionantes y cosas un poco locas, si lo piensan. Y, por supuesto, han invertido mucho tiempo y esfuerzo en eso. Y comprensiblemente, no quieren que simplemente sea tomado, así como así. En parte viene de eso. Y eso está bien, no hay problema. Ahora, las primeras comunidades de Wiktionary están hablando de producir e importar algunos de sus datos a Wikidata. El ruso, como han visto, por ejemplo, es uno de esos casos y espero que suceda más. Pero será un proceso lento, al igual que la adopción de los datos de Wikidata en Wikipedia ha sido un proceso bastante lento. Por otro lado, hacer que sea más fácil usar los datos que están en lexemas, en Wiktionary, para que puedan hacer uso de eso y compartir datos entre los Wiktionarios de los idioma, que es muy difícil o imposible en este momento, lo cual es una locura, como con Wikipedia. Esperen por el regalo de cumpleaños. Sí. (persona 11) Mientras lo pensaba, no quise decirlo porque pensaba que sería supertonto, pero creo que Wiktionary ya tiene algo de contenido, y sé que no podemos transferirlo a Wikidata porque hay una diferencia en las licencias. Pero estaba pensando que tal vez podamos hacer algo al respecto. Tal vez, no sé, podemos obtener el permiso de las comunidades luego de, no sé, tener una votación pública y para que la comunidad, los miembros activos de la comunidad voten y digan si desean o aceptan transferir el contenido para el que pueden hacer los lexemas de Wikidata. Porque creo que es un desperdicio. Por lo tanto, esa es definitivamente una conversación que las personas que están en las comunidades de Wiktionary son bienvenidas a plantear. Creo que sería un poco presuntuoso para nosotros ir y forzar eso. Pero sí, creo que definitivamente vale la pena tener una conversación. Pero creo que también es importante entender que hay una distinción entre lo que está legalmente permitido y lo que deberíamos estar haciendo, y lo que esas personas quieren o no quieren. Incluso si está legalmente permitido, si algunas otras comunidades de Wiktionary no quieran eso, al menos yo tendría cuidado. Creo que necesitas el micrófono para la transmisión. (persona 12) Obviamente, todo es muy emocionante, e inmediatamente pienso cómo puedo llevar eso a mis estudiantes y cómo puedo incorporarlo a los cursos, el trabajo que estamos haciendo, los entornos educativos. Y no tengo, en este momento, en primer lugar, suficiente conocimiento, pero creo que la documentación que tenemos podría ser mejorada. Esa es una especie de solicitud para hacer videos geniales que expliquen cómo funciona porque si lo tenemos, podemos usarlo, y podemos tener estudiantes a bordo, y podemos hacer que la gente entienda lo increíble que es todo. Y sí, solo piensen en la documentación y en la educación, por favor. Porque creo que se podría hacer mucho. Estas son como muchas tareas que podrían hacerse incluso con... bueno, no diría escuelas primarias, pero ciertamente, incluso estudiantes más jóvenes. Entonces, realmente me gustaría ver ese potencial aprovechado y, a partir de ahora, personalmente no entiendo lo suficiente como para poder crear tareas o crear como... hacer algo práctico con eso. Cualquier ayuda o pensamiento que alguien tenga sobre eso, estaría muy feliz de escucharlas también. Sí, hablemos de eso. ¿Más preguntas? Alguien más levantó una mano. Olvidé dónde estaba. (persona 13) Si no podemos importar desde Wiktionary, ¿hay algún esfuerzo concertado en hallar otras fuentes de dominio público, tal vez todos los datos y algún tipo de filtro previo, organizarlo que sea fácil de revisar y así importarlo? Se han tomado medidas iniciales. Tengo entendido que el vasco es uno de esos esfuerzos. ¿Quizás quieras decir un poco más al respecto? (persona 7) [inaudible] Bueno, la respuesta real es pagar por eso. Tenemos un acuerdo con un contratista con el que usualmente trabajamos. Hacen diccionarios, y muchas cosas, pero hacen diccionarios. Acordamos con ellos para liberar el diccionario de los estudiantes, seleccionamos las palabras más comunes y comenzaríamos a cargarlo con un identificador externo y el esquema de las cosas. Pero hubo una discusión acerca de dejarlo en CC0 porque tienen el diccionario con CC y entendieron cuál era la diferencia. Entonces hubo una discusión. Pero creo que proporcionaremos algunas herramientas o ejemplos en el futuro, y creo que habrán otros diccionarios que podamos manejar, y también creo que Wiktionary debe comenzar a moverse en esa dirección, pero esa es otra gran discusión. Y además de eso, Lea también está en contacto con personas occitanas que trabajan en diccionarios occitanos, y actualmente están trabajando en una colaboración de sumerio. ¿Más preguntas? (persona 14) ¡Hola! Somos las personas que queremos importar datos occitanos. ¡Ajá! ¡Perfecto! (persona 14) Y tenemos un pequeño problema. No sabemos cómo representar la variedad de todos los lexemas. Tenemos seis dialectos y queremos indicarle a Lexemas en qué dialecto se usa y no tenemos una declaración C0 adecuada para hacerlo. Por lo tanto, mientras la declaración no exista, nos impide impulsarlo porque tendremos que volver a hacerlo cuando podamos [sacar provecho] a la declaración. Y es complicado porque es una declaración que muchas personas no pedirán porque es una declaración que se refiere principalmente a los idiomas minoritarios. Tendrás una sola persona que lo pida, pero, como nuestros colegas vascos, puede ser una persona que impulsará a miles de otros, por lo que puede que no se pida mucho, pero será muy importante para nosotros. ¿Ya tienen una nueva propuesta de propiedad o necesitan ayuda para crearla? (persona 14) La solicitamos hace cuatro meses. Entonces hagamos que algunas personas ayuden con esta propuesta de propiedad. Estoy seguro de que hay suficientes personas en esta sala para que suceda. (persona 15) Propuesta de propiedad [hablando en francés]. (persona 16) No tuvimos respuesta. (persona 14) No tuvimos respuesta, y no sabemos cómo hacerlo porque no estamos en la comunidad de Wikidata. Sí, así que hay personas aquí que pueden ayudarte. Quizás alguien levante la mano para tomar... (persona 7) Estoy para eso. Pero creo que esto es bastante interesante no solo por la variante de forma también puede manejarse geográficamente, con coordenadas o algún tipo de mapeo. También tener diferentes pronunciaciones, y creo que esto es algo que sucede en muchos idiomas. Deberíamos comenzar a hacer que suceda [inaudible], y voy a buscar la propiedad. Genial. Entonces obtendrás respaldo para tu propuesta de propiedad. Gracias. Muy bien, ¿más preguntas? Finn. Finn es una de esas personas que construye cosas sobre datos lexicográficos. (Finn) Es solo una pequeña pregunta, y se trata de variaciones ortográficas. Parece difícil ponerlos en... Podría, por supuesto, tener múltiples formas para la misma palabra. No sé, parece que si no lo haces así parece ser difícil de especificar... o no sé si esto es solo un problema técnico menor o si... Veámoslo juntos. Me encantaría ver un ejemplo. Asaf. (Asaf) Gracias. Puedo dar un ejemplo muy concreto de mi lengua materna, el hebreo. El hebreo tiene dos variantes principales para expresar casi todas las palabras porque la ortografía tradicional omite muchas de las vocales. Y, por lo tanto, en las ediciones modernas de la Biblia y de la poesía, se usan diacríticos. Sin embargo, esos signos diacríticos nunca se usan para la prosa moderna o la escritura de periódicos o letreros de la calle. El uso informal diario promedio pone vocales adicionales y no usa los signos diacríticos porque son, por supuesto, más engorrosos y tienen todo tipo de reglas y nadie las conoce. Entonces, básicamente hay dos variantes. Existe la variante de la prosa informal cotidiana, y está la Biblia o la poesía, que siempre viene en este texto diacrítico tradicional. Para ser útil, Lexema tendría que reconocer ambas variedades de cada palabra y cada forma de cada palabra. Es un caso de uso muy completo para las variantes estables oficiales. No es dialecto, no son regiones, son básicamente dos sistemas morfológicos coexistentes. Y tampoco sé exactamente cómo expresarlo en Lexema, cosa que me impide responder parcialmente a la pregunta de Magnus de subir las partes que están listas del mayor diccionario hebreo, que es de dominio público y que he estado digitalizando durante varios años. Una buena parte está lista, pero no la pongo en Lexema en este momento porque no sé exactamente cómo resolver este problema. Muy bien, solucionemos este problema aquí. (risas) Eso tiene que ser posible. Muy bien, ¿más preguntas? Si no, muchas gracias. (aplausos)