WEBVTT 00:00:06.073 --> 00:00:07.202 (Lydia) Muchas gracias. 00:00:07.202 --> 00:00:11.284 En esta conferencia, uno de los grandes temas son los idiomas. 00:00:13.710 --> 00:00:17.969 Quiero darles una visión general de dónde estamos actualmente 00:00:17.969 --> 00:00:19.652 en lo que respecta a los idiomas 00:00:20.104 --> 00:00:22.007 y hacia dónde podemos ir desde aquí. 00:00:28.876 --> 00:00:32.420 Wikidata se trata de dar a más personas más acceso a más conocimiento, 00:00:32.420 --> 00:00:37.008 y el lenguaje es una parte importante para hacer que esto sea una realidad, 00:00:38.045 --> 00:00:43.131 porque cada vez más nuestras vidas dependen de la tecnología. 00:00:43.954 --> 00:00:48.713 Y como nuestro orador principal decía hoy, 00:00:49.473 --> 00:00:51.428 parte de la tecnología deja atrás a las personas 00:00:51.428 --> 00:00:54.860 simplemente porque no pueden hablar un determinado idioma, 00:00:55.160 --> 00:00:57.413 y ​​eso no está bien. 00:00:58.473 --> 00:01:01.937 Entonces queremos hacer algo al respecto. 00:01:02.767 --> 00:01:05.681 Y para cambiar eso, necesitan al menos dos cosas. 00:01:06.251 --> 00:01:11.110 Una es que deben proporcionar contenido a las personas en su idioma, 00:01:11.110 --> 00:01:12.795 y ​​la segunda cosa que necesitan 00:01:12.795 --> 00:01:15.750 es proporcionarles interacción en su idioma 00:01:15.750 --> 00:01:19.029 en esas aplicaciones o lo que sea que tenga. 00:01:20.207 --> 00:01:25.117 Y Wikidata ayuda con ambas cosas. 00:01:25.677 --> 00:01:28.248 Lo primero, contenido en su idioma, 00:01:28.248 --> 00:01:30.719 eso es básicamente lo que tenemos en elementos y propiedades, 00:01:31.089 --> 00:01:32.782 cómo describimos el mundo. 00:01:32.782 --> 00:01:34.925 Ahora, esto ciertamente no es todo lo que necesitan, 00:01:34.925 --> 00:01:39.134 pero eso ya es un gran avance. 00:01:39.604 --> 00:01:41.687 La otra cosa es la interacción en su idioma, 00:01:41.687 --> 00:01:46.089 y ​​ahí es donde entran en juego los lexemas. 00:01:46.089 --> 00:01:49.222 Si desean hablar con su asistente personal digital 00:01:49.222 --> 00:01:54.758 o si desean que su dispositivo traduzca un texto y cosas así. 00:01:56.112 --> 00:01:59.094 Muy bien, veamos el Contenido en su idioma. 00:01:59.094 --> 00:02:03.236 Entonces, lo que tenemos en elementos y propiedades. 00:02:05.246 --> 00:02:09.536 Para esto, las etiquetas en esos elementos y propiedades son cruciales. 00:02:10.076 --> 00:02:14.706 Necesitamos saber cómo se llama esta entidad de la que estamos hablando. 00:02:15.496 --> 00:02:19.827 Y en lugar de hablar sobre Q5, 00:02:19.827 --> 00:02:22.020 alguien que habla inglés sabe que es un "humano", 00:02:22.020 --> 00:02:24.546 alguien que habla alemán sabe que es un "mensch" 00:02:24.546 --> 00:02:26.214 y cosas similares. 00:02:26.214 --> 00:02:29.582 Entonces, esas etiquetas en elementos y propiedades 00:02:29.582 --> 00:02:33.459 están cerrando la brecha entre humanos y máquinas. 00:02:33.459 --> 00:02:35.189 Y humanos y humanos 00:02:35.189 --> 00:02:39.750 haciendo más conocimiento existente accesible para ellos. 00:02:42.950 --> 00:02:46.130 Ahora, esa es una buena aspiración. 00:02:46.130 --> 00:02:48.052 ¿Cómo se vería realmente? 00:02:48.052 --> 00:02:49.447 Se vería como esto. 00:02:50.637 --> 00:02:52.386 Lo que están viendo aquí 00:02:52.386 --> 00:02:58.336 es que la mayoría de los elementos en Wikidata tienen dos etiquetas, 00:02:58.336 --> 00:03:00.607 por lo que las etiquetas están en dos idiomas. 00:03:01.537 --> 00:03:05.508 Y después de eso, es uno, y luego tres, y luego se pone muy triste. 00:03:06.621 --> 00:03:08.421 (risa silenciosa) 00:03:09.777 --> 00:03:12.553 Creo que debemos hacerlo mejor. 00:03:14.025 --> 00:03:15.159 Pero, por otro lado, 00:03:15.159 --> 00:03:17.318 en realidad esperaba que esto fuera aún peor. 00:03:17.318 --> 00:03:19.400 Esperaba que el promedio fuera uno. 00:03:19.400 --> 00:03:22.343 Así que estaba bastante feliz de ver dos. (risa) 00:03:24.571 --> 00:03:25.724 Bien. 00:03:26.996 --> 00:03:29.367 Pero no solo es interesante saber 00:03:29.367 --> 00:03:33.582 cuántas etiquetas tienen nuestros elementos y propiedades. 00:03:33.582 --> 00:03:36.405 También es interesante ver en qué idiomas. 00:03:37.885 --> 00:03:43.604 Aquí pueden ver un gráfico de los idiomas 00:03:43.604 --> 00:03:46.678 que tienen etiquetas en los elementos. 00:03:46.678 --> 00:03:50.509 Entonces, la parte más grande es Otros. 00:03:51.069 --> 00:03:53.703 Así que acabo de tomar los 100 idiomas principales 00:03:54.373 --> 00:03:58.742 y todo lo demás es Otros para hacer que este gráfico sea legible. 00:03:59.382 --> 00:04:01.982 Y luego está el inglés y el holandés, 00:04:02.842 --> 00:04:04.094 el francés, 00:04:05.764 --> 00:04:08.969 y, para no olvidar, el asturiano. 00:04:09.499 --> 00:04:11.729 - (audiencia) ¡Hurra! - ¡Yuju! ¡Sí! 00:04:13.739 --> 00:04:16.794 Entonces, lo que ven aquí es un gran desequilibrio 00:04:16.794 --> 00:04:19.954 y todavía un gran enfoque en el inglés. 00:04:21.076 --> 00:04:24.207 Otra cosa es que si buscan lo mismo en Propiedades, 00:04:24.207 --> 00:04:25.839 en realidad se ve mejor. 00:04:27.239 --> 00:04:32.590 Y creo que parte se debe a que son menos propiedades. 00:04:32.590 --> 00:04:36.610 Incluso las comunidades más pequeñas podrán mantenerse al día con eso. 00:04:36.610 --> 00:04:39.013 Pero también es una parte bastante importante de Wikidata 00:04:39.013 --> 00:04:40.999 localizarlo en su idioma. 00:04:40.999 --> 00:04:42.224 Eso es bueno. 00:04:45.592 --> 00:04:47.682 Lo que quiero resaltar aquí con asturiano 00:04:47.682 --> 00:04:53.538 es que una pequeña comunidad puede hacer una gran diferencia 00:04:54.288 --> 00:04:56.925 con un poco de dedicación y trabajo, 00:04:56.925 --> 00:04:58.260 y eso es realmente genial. 00:05:01.686 --> 00:05:03.370 Un pequeño cuestionario para ustedes. 00:05:03.370 --> 00:05:07.337 Si toman todas las propiedades en Wikidata que no son identificadores externos, 00:05:07.337 --> 00:05:10.198 ¿cuál tiene más cantidad de etiquetas, como la mayoría de los idiomas? 00:05:10.198 --> 00:05:13.567 (audiencia) [inaudible] 00:05:13.567 --> 00:05:16.626 ¿Creen que es la instancia de? 00:05:17.186 --> 00:05:19.283 De ser así están equivocados. 00:05:19.823 --> 00:05:22.050 Es imagen. (risas) 00:05:23.070 --> 00:05:26.206 Sí, eso les dice que si hablan uno de los idiomas 00:05:26.206 --> 00:05:28.461 en los que instancia de aún no tiene una etiqueta, 00:05:28.461 --> 00:05:30.030 quizás quieran agregarla. 00:05:31.942 --> 00:05:35.516 Tiene 148 etiquetas actualmente. 00:05:37.528 --> 00:05:41.089 Pero es otra diapositiva. 00:05:42.471 --> 00:05:45.644 Este gráfico nos dice algo sobre la cantidad de contenido 00:05:46.084 --> 00:05:49.031 que ponemos a disposición en un idioma determinado 00:05:49.031 --> 00:05:51.882 y cuánto de ese contenido se usa realmente. 00:05:51.882 --> 00:05:55.288 Entonces, lo que están viendo es básicamente una curva 00:05:55.288 --> 00:05:59.447 con la mayoría del contenido que tiene etiquetas en inglés, 00:05:59.447 --> 00:06:04.135 disponible en inglés y se usa mucho. 00:06:04.135 --> 00:06:06.289 Y luego se cae un poco. 00:06:06.289 --> 00:06:09.276 Pero, de nuevo, lo que pueden ver son valores atípicos 00:06:09.276 --> 00:06:14.824 que tienen mucho más contenido del que necesariamente esperarían, 00:06:16.623 --> 00:06:19.259 y eso es muy muy bueno. 00:06:20.329 --> 00:06:24.515 El problema aún es que no se usa mucho. 00:06:25.345 --> 00:06:28.582 Los asturianos y holandeses deberían ser más altos, 00:06:28.582 --> 00:06:31.834 y creo que ayudar a esas comunidades 00:06:33.106 --> 00:06:35.403 a aumentar el uso de los datos que recopilaron 00:06:35.403 --> 00:06:37.522 es algo realmente útil. 00:06:42.750 --> 00:06:47.110 Lo que este y otros análisis nos mostraron también es algo bueno, 00:06:47.110 --> 00:06:51.218 estamos viendo que los elementos muy usados 00:06:51.218 --> 00:06:55.135 ​​también tienden a tener más etiquetas 00:06:55.135 --> 00:06:58.028 o al revés... No está del todo claro. 00:07:02.353 --> 00:07:04.216 Y entonces la pregunta es 00:07:04.646 --> 00:07:06.849 ¿estamos sirviendo solo a los idiomas poderosos? 00:07:07.739 --> 00:07:10.987 ¿O estamos sirviendo a todos? 00:07:12.597 --> 00:07:17.583 Y lo que ven aquí es una agrupación de idiomas. 00:07:17.583 --> 00:07:21.672 Los idiomas que se agrupan tienden a tener etiquetas juntos. 00:07:25.882 --> 00:07:28.439 Y los ven agruparse. 00:07:28.439 --> 00:07:33.905 Ahora aquí hay una agrupación similar, coloreada, 00:07:33.905 --> 00:07:39.315 basada en qué tan vivo, cómo se usa, 00:07:40.295 --> 00:07:42.996 qué tan en peligro es el idioma. 00:07:42.996 --> 00:07:44.482 Y lo bueno que están viendo aquí 00:07:44.482 --> 00:07:49.406 es que los idiomas seguros y los idiomas en peligro de extinción 00:07:49.406 --> 00:07:53.613 no forman dos grupos diferentes. 00:07:53.613 --> 00:07:58.712 Pero todos están mezclados, 00:08:00.102 --> 00:08:04.465 lo que es mucho mejor de lo que sería al revés 00:08:04.465 --> 00:08:09.217 donde los idiomas seguros, los idiomas poderosos 00:08:10.037 --> 00:08:12.004 solo se están ayudando mutuamente. 00:08:12.584 --> 00:08:14.196 No, no es el caso. 00:08:14.196 --> 00:08:17.257 Y es algo realmente bueno. 00:08:17.257 --> 00:08:19.882 Cuando vi esto, pensé que era muy bueno. 00:08:23.314 --> 00:08:25.009 Aquí hay algo similar 00:08:26.079 --> 00:08:28.640 en el que miramos 00:08:30.070 --> 00:08:34.062 el estado de los idiomas 00:08:34.062 --> 00:08:36.065 y cuántas etiquetas tiene. 00:08:39.207 --> 00:08:42.777 Lo que están viendo es una clara victoria para los idiomas seguros, 00:08:42.777 --> 00:08:44.088 como se esperaba. 00:08:45.348 --> 00:08:47.018 Pero lo que también ven es... 00:08:49.120 --> 00:08:54.247 que los idiomas en las categorías 2 y 3 y tal vez incluso 4 00:08:54.247 --> 00:08:59.120 no son tan malos, en realidad, 00:08:59.120 --> 00:09:02.207 en términos de su representación en Wikidata y otros. 00:09:03.127 --> 00:09:05.600 Es algo realmente bueno de encontrar. 00:09:07.486 --> 00:09:08.969 Ahora, si observan lo mismo 00:09:08.969 --> 00:09:12.258 para saber cuánto de ese contenido de esas etiquetas 00:09:12.258 --> 00:09:15.335 se usa realmente en Wikipedia, por ejemplo, 00:09:17.295 --> 00:09:22.403 entonces vemos una imagen similar emergiendo nuevamente. 00:09:23.443 --> 00:09:29.653 Y nos dice que esas comunidades están haciendo un buen uso de su tiempo 00:09:29.653 --> 00:09:34.344 al completar etiquetas para artículos de mayor uso, por ejemplo. 00:09:36.250 --> 00:09:40.333 Hay valores atípicos en los que creo que podemos ayudar 00:09:41.523 --> 00:09:48.042 a esas comunidades a encontrar un lugar donde su trabajo sería más valioso. 00:09:49.152 --> 00:09:52.503 Pero, en general, estoy contenta con esta imagen. 00:09:54.663 --> 00:09:59.684 Ahora, esa era la parte de elementos y propiedades de Wikidata. 00:10:00.554 --> 00:10:02.873 Ahora, veamos la interacción en sus idiomas, 00:10:02.873 --> 00:10:05.043 la parte de lexema de Wikidata 00:10:05.043 --> 00:10:09.234 donde describimos palabras y sus formas y sus significados. 00:10:10.007 --> 00:10:13.141 Hemos estado haciendo esto desde mayo del año pasado, 00:10:16.301 --> 00:10:18.967 y el contenido ha ido creciendo. 00:10:19.954 --> 00:10:21.989 Pueden ver aquí en azul los lexemas, 00:10:21.989 --> 00:10:25.778 y luego, en rojo, las formas en esos lexemas 00:10:25.778 --> 00:10:29.750 y, amarillo, los sentidos en esos lexemas. 00:10:30.831 --> 00:10:34.291 Por lo tanto, algunas comunidades, lo veremos más adelante, 00:10:34.291 --> 00:10:39.633 han pasado mucho tiempo creando formas y sentidos para sus lexemas, 00:10:39.633 --> 00:10:42.593 lo cual es realmente útil 00:10:42.593 --> 00:10:48.083 porque construye el núcleo del conjunto de datos que necesitan. 00:10:50.402 --> 00:10:54.973 Ahora, miramos todos los idiomas 00:10:54.973 --> 00:10:57.746 que tienen lexemas en Wikidata. 00:10:57.746 --> 00:11:00.843 Entonces, las palabras que tenemos 00:11:01.553 --> 00:11:04.244 son ahora 310 idiomas. 00:11:04.724 --> 00:11:08.130 Ahora, ¿cuál creen que es el idioma principal 00:11:08.130 --> 00:11:11.789 cuando se trata de la cantidad de lexemas actualmente en Wikidata? 00:11:12.773 --> 00:11:14.540 (persona 1) Ruso. 00:11:19.023 --> 00:11:21.581 - ¿Ah? - (persona 2) El alemán. 00:11:21.581 --> 00:11:24.092 Lo siento, lo había escuchado. 00:11:24.092 --> 00:11:25.491 Es el ruso. 00:11:27.851 --> 00:11:29.594 El ruso está bastante por delante. 00:11:31.737 --> 00:11:33.672 Y solo para darles una perspectiva, 00:11:35.292 --> 00:11:36.516 hay diferentes opiniones, 00:11:36.516 --> 00:11:42.071 pero he leído, por ejemplo, que 1000 a 3000 palabras NOTE Paragraph 00:11:42.071 --> 00:11:45.290 te llevan al nivel de conversación, aproximadamente, en otro idioma, 00:11:45.290 --> 00:11:49.301 y ​​4000 a 10 000 palabras a un nivel avanzado. 00:11:51.431 --> 00:11:55.122 Entonces, todavía tenemos un poco para alcanzar. 00:11:58.323 --> 00:12:03.119 Una cosa a la que quiero que presten atención es el vasco 00:12:03.119 --> 00:12:07.584 con 10 000 lexemas, aproximadamente. 00:12:08.954 --> 00:12:12.713 Ahora, si observa el número de formas para esos lexemas, 00:12:13.843 --> 00:12:16.177 el vasco está muy arriba, 00:12:17.917 --> 00:12:19.666 lo cual es realmente genial, 00:12:19.666 --> 00:12:24.590 y deben ir a una charla que explica por qué ese es el caso. 00:12:27.041 --> 00:12:30.875 Si nos fijamos en la cantidad de sentidos, en lo qué significan las palabras, 00:12:31.775 --> 00:12:34.841 el vasco llega a la parte superior de la lista. 00:12:34.841 --> 00:12:36.862 Creo que eso merece un aplauso. 00:12:36.862 --> 00:12:38.681 (aplausos) 00:12:45.518 --> 00:12:46.958 Otra pregunta rápida. 00:12:46.958 --> 00:12:50.021 ¿Cuál es el lexema con más traducciones actualmente? 00:12:50.311 --> 00:12:54.584 (audiencia) Gatos, gatos, [inaudible], Douglas Adams, [inaudible] 00:12:56.543 --> 00:12:59.791 Todas buenas conjeturas, pero no. 00:13:00.732 --> 00:13:03.857 Es esta, la palabra rusa para "agua". 00:13:09.041 --> 00:13:12.093 Muy bien, ahora hablamos mucho 00:13:12.093 --> 00:13:16.112 sobre cuántos lexemas, formas y sentidos tenemos, 00:13:16.112 --> 00:13:20.333 pero eso es solo una cosa que necesitas. 00:13:20.333 --> 00:13:25.001 La otra cosa que necesitan es describir esos lexemas, formas y sentidos 00:13:25.001 --> 00:13:27.487 de manera legible para una máquina. 00:13:27.487 --> 00:13:29.879 Y para eso tienen declaraciones, por ejemplo, en elementos. 00:13:31.319 --> 00:13:36.202 Y una de las propiedades que utilizan es el Ejemplo de uso. 00:13:36.202 --> 00:13:38.422 Entonces, quien esté usando esos datos 00:13:38.422 --> 00:13:41.929 puede entender cómo usar esa palabra en contexto, 00:13:41.929 --> 00:13:43.998 por lo que podría ser una cita, por ejemplo. 00:13:45.236 --> 00:13:46.953 Y aquí, los polacos son geniales. 00:13:47.740 --> 00:13:49.604 Buen trabajo, hablantes de polaco. 00:13:54.059 --> 00:13:57.520 Otra propiedad realmente útil es el AFI, 00:13:57.520 --> 00:14:00.026 ¿cómo se pronuncia esta palabra? 00:14:00.716 --> 00:14:07.337 Aparentemente, Rusia necesita muchas declaraciones del AFI. 00:14:10.059 --> 00:14:13.154 Pero, de nuevo, polaco, segundo. 00:14:16.988 --> 00:14:20.423 Y por último, pero no menos importante, tenemos audio de pronunciación. 00:14:20.423 --> 00:14:23.212 Es decir, enlaces a archivos en Commons 00:14:23.212 --> 00:14:25.799 donde alguien habla la palabra, 00:14:25.799 --> 00:14:29.753 para que puedan escuchar a un hablante nativo pronunciar la palabra 00:14:29.753 --> 00:14:32.711 en caso de que no sepa leer AFI, por ejemplo. 00:14:34.799 --> 00:14:39.045 Y hay un proyecto realmente agradable basado en Wiki 00:14:39.045 --> 00:14:40.314 llamado Lingua Libre 00:14:40.724 --> 00:14:45.013 donde pueden ir y ayudar a grabar palabras en su idioma 00:14:45.013 --> 00:14:47.676 que luego se pueden agregar a lexemas en Wikidata, 00:14:48.286 --> 00:14:51.656 para que otras personas puedan entender cómo pronunciar sus palabras. 00:14:53.503 --> 00:14:55.424 (audiencia) [inaudible] 00:14:55.424 --> 00:14:57.255 Si buscas "Lingua Libre" 00:14:57.255 --> 00:15:00.821 y estoy segura de que alguien puede publicarlo en el canal de Telegram. 00:15:02.898 --> 00:15:04.331 Esos tipos son geniales. 00:15:04.331 --> 00:15:06.566 Hicieron cosas realmente geniales con Wikibase. 00:15:09.256 --> 00:15:10.457 Bien. 00:15:12.326 --> 00:15:17.125 Entonces, la pregunta es ¿a dónde vamos desde aquí? 00:15:19.005 --> 00:15:21.367 Según los números que acabo de mostrar, 00:15:22.870 --> 00:15:25.012 hemos recorrido un largo camino 00:15:25.012 --> 00:15:28.270 para dar a más personas más acceso a más conocimiento 00:15:28.270 --> 00:15:31.080 al mirar idiomas en Wikidata. 00:15:32.370 --> 00:15:35.964 Pero también queda mucho trabajo por delante. 00:15:38.832 --> 00:15:42.181 Algunas de las cosas que pueden hacer para ayudar, por ejemplo, 00:15:42.181 --> 00:15:44.521 es organizar "etiquetatones", 00:15:44.521 --> 00:15:49.964 reunir a las personas para etiquetar elementos en Wikidata 00:15:50.754 --> 00:15:54.961 o hacer un "editatón" alrededor de lexemas en tu idioma 00:15:54.961 --> 00:15:58.772 para llevar las palabras más utilizadas de tu idioma a Wikidata. 00:16:00.613 --> 00:16:03.125 O pueden usar una herramienta como Terminator 00:16:03.125 --> 00:16:08.333 que les ayuda a encontrar los elementos más importantes en su idioma 00:16:08.333 --> 00:16:11.389 que aún no tienen una etiqueta. 00:16:13.114 --> 00:16:18.199 Lo más importante se mide por la frecuencia con la que se usa 00:16:18.199 --> 00:16:22.393 en otros elementos de Wikidata como enlaces en las declaraciones. 00:16:25.608 --> 00:16:29.862 Y, por supuesto, para la parte de lexema, 00:16:31.182 --> 00:16:35.009 ahora que tenemos una cobertura básica de esos lexemas, 00:16:35.009 --> 00:16:41.003 también se trata de construirlos, agregarles más declaraciones 00:16:41.003 --> 00:16:44.241 para que puedan construir la base 00:16:44.241 --> 00:16:47.261 para aplicaciones significativas y construir encima de eso. 00:16:47.981 --> 00:16:50.635 Debido a que nos estamos acercando a esa masa crítica, 00:16:50.635 --> 00:16:53.456 pero aún estamos lejos de eso, 00:16:53.456 --> 00:16:56.464 que puede construir aplicaciones serias sobre ella. 00:16:58.117 --> 00:17:01.520 Y espero que todos ustedes se unan a nosotros para hacer eso. 00:17:02.423 --> 00:17:06.943 Y eso me lleva a pedir 00:17:06.943 --> 00:17:09.683 un poco de ayuda de nuestros amigos. 00:17:09.683 --> 00:17:12.230 Bruno, ¿quieres venir 00:17:13.562 --> 00:17:16.534 y hablarnos sobre máscaras léxicas? 00:17:17.101 --> 00:17:18.127 (Bruno) Gracias, Lydia, 00:17:18.127 --> 00:17:21.359 gracias por darme este breve período de tiempo 00:17:21.359 --> 00:17:24.490 para presentar este trabajo que hacemos en Google con Denny, 00:17:24.490 --> 00:17:28.963 que la mayoría probablemente ha escuchado o sabe. 00:17:29.966 --> 00:17:31.870 Porque en Google, soy lingüista. 00:17:31.870 --> 00:17:35.780 Así que estoy muy feliz de estar aquí entre otros entusiastas de los idiomas. 00:17:36.460 --> 00:17:39.118 También estamos construyendo algunos léxicos, 00:17:39.118 --> 00:17:41.606 y hemos construido esta tecnología 00:17:41.606 --> 00:17:45.429 o este enfoque que creemos que puede ser útil para ustedes. 00:17:46.209 --> 00:17:48.295 Solo para darles un poco de contexto, 00:17:48.295 --> 00:17:51.668 este es mi contexto lexicográfico que habla aquí. 00:17:52.427 --> 00:17:54.187 Cuando creamos una base de datos de léxicos, 00:17:54.187 --> 00:17:58.463 es muy difícil mantenerlos, mantenerlos consistentes 00:17:58.463 --> 00:17:59.965 e intercambiar datos, 00:17:59.965 --> 00:18:01.867 como probablemente ya saben. 00:18:02.357 --> 00:18:05.767 Hay varios intentos de unificar la característica y las propiedades 00:18:05.767 --> 00:18:09.024 que describen esos lexemas y esas formas, 00:18:09.024 --> 00:18:10.776 no es un problema resuelto, 00:18:10.776 --> 00:18:13.688 pero hay algunos intentos de unificación de ese lado. 00:18:13.688 --> 00:18:15.049 Pero lo que realmente falta, 00:18:15.049 --> 00:18:18.232 y este es un problema que tuvimos al comienzo de nuestro proyecto en Google 00:18:18.232 --> 00:18:21.447 es tratar de tener una estructura interna 00:18:22.037 --> 00:18:25.750 que describa cómo debería ser una entrada léxica, 00:18:25.750 --> 00:18:28.421 qué tipo de datos o qué tipo de información tenemos 00:18:28.421 --> 00:18:32.077 y la especificación que se espera. 00:18:32.077 --> 00:18:38.027 Entonces, esto es lo que se nos ocurrió con esta cosa llamada máscara léxica. 00:18:38.737 --> 00:18:44.681 Una máscara léxica describe lo que se espera de una entrada, 00:18:44.681 --> 00:18:47.169 para completar una entrada lexicográfica, 00:18:47.169 --> 00:18:51.276 tanto en términos de la cantidad de formas que esperan para un lexema 00:18:51.276 --> 00:18:55.447 y la cantidad de características que esperan para cada forma. 00:18:56.157 --> 00:18:58.169 Aquí hay un ejemplo de adjetivos italianos. 00:18:58.169 --> 00:19:01.842 En italiano, esperas tener cuatro formas para tus adjetivos, 00:19:01.842 --> 00:19:05.223 y cada una de estas formas tiene una combinación específica 00:19:05.223 --> 00:19:07.786 de características de género y número. 00:19:08.446 --> 00:19:12.512 Esto es lo que esperamos para los adjetivos italianos. 00:19:12.512 --> 00:19:16.016 Por supuesto, puede tener máscaras extremadamente complejas, 00:19:16.016 --> 00:19:20.623 como la conjugación de verbos franceses, que es bastante extensa, 00:19:20.623 --> 00:19:25.277 y no le muestro ninguna otra máscara rusa porque no se ajusta a la pantalla. 00:19:26.148 --> 00:19:29.371 Y también tenemos algunas especificaciones detalladas 00:19:29.371 --> 00:19:33.261 porque distinguimos lo que está al nivel de la forma. 00:19:33.261 --> 00:19:37.384 Aquí tienes sustantivos rusos que tienen tres números 00:19:37.384 --> 00:19:39.888 y una cantidad de casos con diferentes formas, 00:19:39.888 --> 00:19:42.926 pero también tienen una especificación de nivel de entrada 00:19:42.926 --> 00:19:45.430 que dice que un sustantivo particularmente tiene 00:19:45.430 --> 00:19:49.973 un género inherente y una característica de animación inherente 00:19:49.973 --> 00:19:52.328 que también se especifica en la máscara. 00:19:54.358 --> 00:19:58.619 También distinguiremos que una máscara proporciona una especificación 00:19:58.619 --> 00:20:01.714 para, en general, cómo debería ser una entrada. 00:20:01.714 --> 00:20:06.998 Pero puede tener máscaras más pequeñas para aspectos defectuosos de la forma 00:20:06.998 --> 00:20:11.122 o aspectos defectuosos del lexema que suceden en el idioma. 00:20:11.122 --> 00:20:14.377 Así que aquí está la versión más simple de los verbos franceses 00:20:14.377 --> 00:20:19.569 que usan solo la 3ra persona del singular para todos los verbos meteorológicos, 00:20:19.569 --> 00:20:23.809 como "llueve" o "nieva", como en inglés. 00:20:24.377 --> 00:20:26.333 Entonces distinguimos estos dos niveles. 00:20:26.763 --> 00:20:29.802 Y cómo usamos esto en Google 00:20:29.802 --> 00:20:32.853 es que, cuando tenemos un léxico que queremos usar, 00:20:32.853 --> 00:20:38.149 usamos la máscara para lanzar literalmente los léxicos, 00:20:38.149 --> 00:20:40.003 todas las entradas, a través de la máscara 00:20:40.003 --> 00:20:44.143 y ver qué entrada tiene un problema en términos de estructura. 00:20:44.143 --> 00:20:46.363 ¿Nos falta un formulario? ¿Nos falta una característica? 00:20:46.363 --> 00:20:51.337 Y cuando hay un problema, hacemos una validación humana 00:20:51.337 --> 00:20:53.591 o simplemente para ver si pasa la máscara. 00:20:53.591 --> 00:20:57.764 Es una herramienta muy poderosa que verifica la calidad de la estructura. 00:20:59.267 --> 00:21:01.804 Entonces, lo que nos complace anunciar hoy 00:21:01.804 --> 00:21:05.248 es que tenemos luz verde para liberar el código de nuestra máscara. 00:21:05.788 --> 00:21:07.413 Este es un esquema. 00:21:07.413 --> 00:21:09.317 Si lo desean, podemos liberarlo 00:21:09.317 --> 00:21:13.323 y se lo proporcionaremos a Wikidata como archivo ShEx. 00:21:13.323 --> 00:21:16.528 Este es un archivo ShEx para sustantivos alemanes, 00:21:16.528 --> 00:21:20.268 y Denny está trabajando en la conversión de nuestra especificación interna 00:21:20.268 --> 00:21:23.506 a una especificación de código abierto. 00:21:23.506 --> 00:21:27.362 Actualmente cubrimos más de 25 idiomas. 00:21:27.362 --> 00:21:29.065 Así que, esperamos crecer de nuestro lado, 00:21:29.065 --> 00:21:34.190 pero también buscamos esta oportunidad de colaborar para otros idiomas. 00:21:34.190 --> 00:21:40.568 Y una de las colaboraciones en curso también que Denny tiene con Lukas. 00:21:40.568 --> 00:21:44.892 Lukas tiene estas excelentes herramientas para tener una interfaz de usuario 00:21:44.892 --> 00:21:50.901 que ayude al usuario o al contribuyente a agregar más formas. 00:21:50.901 --> 00:21:53.991 Entonces, si desea agregar un adjetivo en francés, 00:21:53.991 --> 00:21:58.897 la interfaz de usuario les indica cuántas formas se esperan 00:21:58.897 --> 00:22:01.402 y qué tipo de características debe tener esta forma. 00:22:01.402 --> 00:22:06.108 Por lo tanto, nuestra máscara ayudará a definir y expandir la herramienta. 00:22:07.078 --> 00:22:08.225 Eso es todo. 00:22:08.583 --> 00:22:10.198 (Lydia) Muchas gracias. 00:22:10.198 --> 00:22:11.833 (aplausos) 00:22:14.089 --> 00:22:16.731 Bien. ¿Hay preguntas? 00:22:16.731 --> 00:22:19.221 ¿Quieren que hable más sobre lexemas? 00:22:19.527 --> 00:22:21.315 - (persona 3) Sí. - Sí. (risas) 00:22:33.035 --> 00:22:35.220 (persona 3) Mi pregunta viene porque estabas hablando 00:22:35.220 --> 00:22:38.946 de dar más acceso a más personas en más idiomas. 00:22:38.946 --> 00:22:42.284 Pero hay muchos idiomas que no se pueden usar en Wikidata. 00:22:42.284 --> 00:22:44.428 Entonces, ¿qué solución tienes para eso? 00:22:45.729 --> 00:22:47.526 Cuando dices que no se puede usar Wikidata, 00:22:47.526 --> 00:22:50.148 ¿estás hablando de ingresar etiquetas? 00:22:50.148 --> 00:22:52.418 - (persona 3) Etiquetas, descripciones. - Correcto. 00:22:52.418 --> 00:22:55.338 Entonces, para lexemas, es un poco diferente 00:22:55.338 --> 00:22:57.633 porque no tenemos esa restricción. 00:22:58.763 --> 00:23:02.584 Para las etiquetas de elementos y propiedades, 00:23:03.284 --> 00:23:05.193 hay algunas restricciones 00:23:05.193 --> 00:23:09.720 porque queríamos asegurarnos 00:23:09.720 --> 00:23:14.069 de que no todo el mundo haga de todo 00:23:14.069 --> 00:23:17.227 y se vuelva inmanejable. 00:23:19.189 --> 00:23:23.168 Incluso una pequeña comunidad que quiera un idioma y trabajar en él, 00:23:23.738 --> 00:23:26.449 hablen con nosotros, lo haremos realidad. 00:23:26.449 --> 00:23:29.042 (persona 3) Hicimos eso en el Hackathon de Praga en mayo, 00:23:29.042 --> 00:23:32.299 y nos tomó hasta casi agosto para poder usar nuestro idioma. 00:23:32.299 --> 00:23:34.975 - Sí. - (persona 3) Entonces, es muy lento. 00:23:34.975 --> 00:23:37.694 Sí, desafortunadamente así es. 00:23:37.694 --> 00:23:39.723 Actualmente trabajamos con el Comité de idiomas 00:23:39.723 --> 00:23:45.888 para resolver algunos fundamentos... 00:23:49.377 --> 00:23:54.972 como llegar a un acuerdo sobre qué tipo de idiomas están realmente "permitidos", 00:23:55.887 --> 00:23:59.238 y eso ha llevado demasiado tiempo, 00:23:59.668 --> 00:24:03.858 razón por la cual su solicitud tardó más de lo que debería. 00:24:04.448 --> 00:24:05.633 (persona 3) Gracias. 00:24:06.435 --> 00:24:07.730 (persona 4) Gracias a ti. 00:24:07.730 --> 00:24:10.778 Lydia, ¿si recuerdas las estadísticas que mostraste, 00:24:10.778 --> 00:24:12.726 - el número de lexemas por idioma? - Sí. 00:24:12.726 --> 00:24:17.439 Entonces, ¿contaste todas las formas como un punto de datos 00:24:17.439 --> 00:24:19.874 o solo lexemas? 00:24:21.129 --> 00:24:23.300 (Lydia) ¿Te refieres a esto? ¿A cuál te refieres? 00:24:23.300 --> 00:24:25.203 (persona 4) Sí, exactamente. 00:24:25.637 --> 00:24:28.181 Si recuerdas, ¿este número [inaudible] 00:24:28.181 --> 00:24:31.794 todas las formas para todos los lexemas o cuántos lexemas hay? 00:24:31.794 --> 00:24:35.045 - No, solo es el número de lexemas. - (persona 4) Solo un número de lexemas. 00:24:35.045 --> 00:24:36.637 Entonces, es una estadística justa 00:24:36.637 --> 00:24:39.230 porque si se compilan las formas, 00:24:39.230 --> 00:24:40.454 es por eso que pregunto, 00:24:40.454 --> 00:24:42.657 entonces todos los idiomas con la morfología flexiva, 00:24:42.657 --> 00:24:44.867 como el ruso, el serbio, el esloveno y otros, 00:24:44.867 --> 00:24:47.456 tienen una ventaja natural porque tienen muchos. 00:24:47.456 --> 00:24:51.650 Ya comienza por aquí, en este número de formas. 00:24:51.650 --> 00:24:53.691 (persona 4) Sí, fue este. Gracias. 00:24:56.386 --> 00:25:00.064 (persona 5) Tengo una pregunta rápida sobre... 00:25:00.484 --> 00:25:06.664 Cuando hablamos de los elementos y propiedades reales. 00:25:06.964 --> 00:25:08.741 Por lo que entiendo, 00:25:08.741 --> 00:25:11.795 actualmente no hay forma de dar una fuente real 00:25:11.795 --> 00:25:14.566 a ninguna de las etiquetas y descripciones que se dan. 00:25:14.566 --> 00:25:17.887 Entonces, por ejemplo, porque cuando hablas 00:25:17.887 --> 00:25:20.760 de la propiedad de un elemento, 00:25:20.760 --> 00:25:24.349 por ejemplo, puedes tener etiquetas en conflicto. 00:25:24.349 --> 00:25:25.579 Sí. 00:25:25.579 --> 00:25:27.502 (persona 5) Esta persona es como... 00:25:28.242 --> 00:25:30.621 Antes hablábamos de cosas indígenas, por ejemplo. 00:25:30.621 --> 00:25:35.805 Esta persona es un artista noruego según esta fuente, 00:25:35.805 --> 00:25:38.590 y un artista sami, según esta fuente. 00:25:39.390 --> 00:25:42.723 O, por ejemplo, en estonio, tuvimos un problema 00:25:42.723 --> 00:25:47.569 en el que cambiamos la terminología a la de uso oficial 00:25:47.569 --> 00:25:49.322 en los léxicos oficiales, 00:25:49.322 --> 00:25:52.102 pero no tenemos forma de indicar realmente por qué, 00:25:52.102 --> 00:25:53.436 es decir, cuál fue la fuente 00:25:53.436 --> 00:25:55.401 y por qué fue mejor y qué había allí antes 00:25:55.401 --> 00:25:56.990 solo fui yo, una persona cualquiera, 00:25:56.990 --> 00:25:59.455 simplemente cambiando la cosa para cualquiera que lo vea. 00:25:59.455 --> 00:26:02.360 ¿Hay algún plan para hacer esto posible de alguna manera 00:26:02.360 --> 00:26:06.195 para tener las fuentes adecuadas para los datos de un idioma? 00:26:06.885 --> 00:26:11.408 Entonces, es parcialmente posible. 00:26:11.408 --> 00:26:15.798 Por ejemplo, cuando tienes un elemento para una persona, 00:26:16.808 --> 00:26:22.560 tienes una declaración, nombre, apellido, etc., de esa persona, 00:26:22.560 --> 00:26:26.066 puedes proporcionar la referencia para eso allí. 00:26:28.051 --> 00:26:32.384 Dudo bastante en agregar más complejidad 00:26:32.384 --> 00:26:35.397 para las referencias en etiquetas y descripciones, 00:26:35.397 --> 00:26:38.464 pero si la gente realmente piensa 00:26:38.464 --> 00:26:44.779 que esto no está cubierto por ninguna referencia en la declaración, 00:26:44.779 --> 00:26:46.643 entonces hablemos de ello. 00:26:48.919 --> 00:26:53.143 Pero me temo que agregará mucha complejidad 00:26:53.143 --> 00:26:56.363 para lo que espero sean pocos casos, 00:26:57.233 --> 00:27:00.028 pero estoy dispuesta a convencerme de lo contrario 00:27:00.028 --> 00:27:03.927 si la gente realmente se siente muy convencida al respecto. 00:27:03.927 --> 00:27:08.017 (persona 5) Si se agrega, probablemente no debería ser la interfaz predeterminada 00:27:08.017 --> 00:27:12.292 mostrada a los usuarios principiantes, en cualquier caso. 00:27:12.292 --> 00:27:16.030 Más como "Haga clic aquí si necesita decir algo específico sobre esto". 00:27:17.472 --> 00:27:23.208 ¿Tenemos una idea de cuántas veces eso realmente importaría? 00:27:24.360 --> 00:27:26.263 (persona 5) En estonio, por ejemplo, 00:27:26.263 --> 00:27:28.684 supongo que esto también es cierto para otros idiomas, 00:27:29.114 --> 00:27:34.043 por ejemplo, hay un nombre oficial que es la traducción legítima actual, 00:27:34.043 --> 00:27:36.046 por ejemplo, al inglés, 00:27:36.046 --> 00:27:40.154 es decir, de un tipo de municipio. 00:27:40.454 --> 00:27:42.022 Ese fue mi caso de uso, por ejemplo, 00:27:42.022 --> 00:27:44.249 donde estábamos usando la palabra "parish", 00:27:44.999 --> 00:27:50.345 que en estonio se refería a una especie de parroquia de la iglesia, 00:27:50.345 --> 00:27:51.499 y ese fue el origen, 00:27:51.499 --> 00:27:54.412 pero esa no es la traducción oficial que tiene Estonia en este momento. 00:27:54.889 --> 00:27:58.833 En este caso, simplemente lo agregaría como declaraciones de nombre oficiales 00:27:58.833 --> 00:28:00.657 y agregaría la referencia allí. 00:28:01.872 --> 00:28:02.998 (persona 5) Bien. 00:28:05.026 --> 00:28:06.412 ¿Preguntas? ¿Sí? 00:28:07.522 --> 00:28:09.884 (Asaf) Tengo dos comentarios rápidos. 00:28:09.884 --> 00:28:13.774 Llamaste específicamente al asturiano como un idioma que funciona bien, 00:28:13.774 --> 00:28:16.145 y creo que es una observación equívoca. 00:28:16.145 --> 00:28:17.464 Cuéntame sobre eso. 00:28:17.464 --> 00:28:19.588 (Asaf) Creo que es solo un bot 00:28:19.588 --> 00:28:23.908 que pegó nombres de personas, como nombres propios, 00:28:23.908 --> 00:28:27.012 y dijo: "Bueno, esto es exactamente como en francés o español", 00:28:27.012 --> 00:28:28.398 y solo lo copió masivamente. 00:28:28.398 --> 00:28:33.156 Un punto de evidencia es que no se ve esa energía en asturiano 00:28:33.156 --> 00:28:37.045 en cosas que requieren traducción, como nombres de propiedades 00:28:37.045 --> 00:28:39.488 o nombres de elementos que no son nombres propios. 00:28:39.488 --> 00:28:41.059 Asaf, me rompes el corazón. 00:28:41.059 --> 00:28:43.038 (Asaf) Lo sé, me gusta ser aguafiestas, 00:28:43.038 --> 00:28:48.298 pero también tengo buenas noticias, sobre los números de pronunciación. 00:28:49.248 --> 00:28:53.355 Probablemente sepan que Commons está llena de archivos de pronunciación, 00:28:53.355 --> 00:28:54.508 y, por ejemplo, 00:28:54.508 --> 00:29:00.826 el holandés tiene no menos de 300 000 archivos de pronunciación en Commons 00:29:01.752 --> 00:29:04.891 que solo necesitan ser ingeridos de alguna manera. 00:29:04.891 --> 00:29:07.537 Si alguien está buscando un proyecto paralelo, 00:29:07.537 --> 00:29:08.837 hay toneladas y toneladas 00:29:08.837 --> 00:29:13.120 de archivos de pronunciación clasificados y categorizados en Commons 00:29:13.120 --> 00:29:16.733 bajo la categoría Pronunciación por idioma. 00:29:16.733 --> 00:29:22.680 Así que eso está esperando ser emparejado con lexemas y ponerse en Lexemas. 00:29:22.950 --> 00:29:25.254 Y me preguntaba si podrías decir algo 00:29:25.254 --> 00:29:26.355 sobre la hoja de ruta, 00:29:26.355 --> 00:29:28.527 algo acerca de cuánta inversión 00:29:28.527 --> 00:29:31.765 o qué podemos esperar de Lexemas en el próximo año, 00:29:31.765 --> 00:29:33.790 porque, por mi parte, no puedo esperar. 00:29:34.789 --> 00:29:36.884 ¿No puedes esperar? (risas) 00:29:36.884 --> 00:29:38.958 - (Asaf) Por más. - Sí. (risas) 00:29:44.381 --> 00:29:49.363 Ahora nos estamos concentrando más en Wikibase y la calidad de los datos 00:29:51.333 --> 00:29:54.927 para ver cuánta tracción obtiene 00:29:54.927 --> 00:30:01.516 y luego tener más información de los puntos débiles 00:30:01.516 --> 00:30:05.843 y luego volver a mejorar aún más los datos lexicográficos. 00:30:06.743 --> 00:30:09.630 Y una de las cosas que me encantaría saber de ustedes 00:30:09.630 --> 00:30:13.976 es dónde ven exactamente los próximos pasos, 00:30:13.976 --> 00:30:15.806 dónde desean ver mejoras 00:30:15.806 --> 00:30:20.180 para que luego podamos descubrir cómo hacer que suceda. 00:30:20.965 --> 00:30:22.650 Pero, por supuesto, tienes razón, 00:30:22.650 --> 00:30:25.552 todavía hay mucho por hacer también en el aspecto técnico. 00:30:30.413 --> 00:30:35.688 (persona 7) Mientras cargábamos las palabras vascas con formas y sentidos 00:30:35.688 --> 00:30:37.608 y ese tipo de cosas, 00:30:37.608 --> 00:30:41.169 la semana pasada decíamos: "Oh, somos los primeros en algo". 00:30:42.759 --> 00:30:44.768 Aparece en la prensa y dice: 00:30:44.768 --> 00:30:49.328 "Oh, los vascos son los primeros... son los primeros en algo", está bien. 00:30:49.328 --> 00:30:50.446 (risas) 00:30:50.446 --> 00:30:53.158 Y luego la gente pregunta: "Bien, pero ¿para qué sirve esto?" 00:30:54.518 --> 00:30:56.689 No tenemos una muy buena respuesta. 00:30:56.689 --> 00:30:57.728 Es decir, está bien, 00:30:57.728 --> 00:31:01.681 esto ayudará a las computadoras a comprender más nuestro idioma, sí, 00:31:01.681 --> 00:31:05.119 pero ¿qué tipo de herramientas podemos hacer en el futuro? 00:31:05.119 --> 00:31:07.307 Y no tenemos una buena respuesta para esto. 00:31:07.307 --> 00:31:10.465 Así que no sé si tienes una buena respuesta para esto. 00:31:10.465 --> 00:31:12.582 (risas) No sé si tengo una buena, 00:31:12.582 --> 00:31:14.586 pero tengo una respuesta. 00:31:15.320 --> 00:31:20.265 Creo que en este momento, como les decía, 00:31:20.265 --> 00:31:21.764 no hemos alcanzado esa masa crítica 00:31:21.764 --> 00:31:25.369 en la que puedes construir muchas de las herramientas interesantes. 00:31:25.369 --> 00:31:27.547 Pero ya hay algunas herramientas. 00:31:28.107 --> 00:31:31.752 Justo el otro día, Esther [Pandelia], por ejemplo, 00:31:31.752 --> 00:31:33.657 lanzó una herramienta donde pueden ver, 00:31:35.677 --> 00:31:38.729 creo que fueron las palabras en un globo 00:31:38.729 --> 00:31:41.741 donde se habla más, de dónde vienen. 00:31:42.471 --> 00:31:43.930 Puede que me equivoque, 00:31:43.930 --> 00:31:46.186 pero ella respondió en el chat del Proyecto en Wikidata, 00:31:46.186 --> 00:31:48.824 pueden buscarlo allí. 00:31:49.414 --> 00:31:51.645 Así que hemos visto estas primeras herramientas, 00:31:51.645 --> 00:31:55.536 tal como las vimos cuando comenzó Wikidata. 00:31:56.686 --> 00:31:59.442 Primero solo era una red 00:31:59.442 --> 00:32:03.264 y "Oye, mira, hay una cosa que se conecta con esta otra cosa". 00:32:04.664 --> 00:32:06.899 Y a medida que tenemos más datos, 00:32:06.899 --> 00:32:10.192 y a medida que alcanzamos cierta masa crítica, 00:32:11.602 --> 00:32:14.497 se hacen posibles aplicaciones más potentes, 00:32:15.407 --> 00:32:17.246 como Histropedia, 00:32:18.846 --> 00:32:21.708 cosas como preguntas y respuestas 00:32:21.708 --> 00:32:26.383 en tu asistente personal digital, Platypus, etc. 00:32:26.383 --> 00:32:29.388 Y estamos viendo algo similar con los lexemas. 00:32:31.038 --> 00:32:34.490 Estamos en la etapa en la que puedes construir así de pequeño 00:32:34.490 --> 00:32:37.304 y oye, mira, hay una conexión entre las dos cosas, 00:32:37.704 --> 00:32:42.578 y la etapa de traducción de esta palabra a ese lenguaje, 00:32:42.578 --> 00:32:47.587 y a medida que la desarrollamos y a medida que describimos más palabras, 00:32:47.587 --> 00:32:49.373 más se hace posible. 00:32:49.373 --> 00:32:51.635 Ahora, ¿qué se hace posible? 00:32:53.322 --> 00:32:59.323 Como Ben, nuestro orador principal, al comenzar habló de traducciones, 00:32:59.943 --> 00:33:03.295 pudiendo traducir de un idioma a otro. 00:33:03.295 --> 00:33:07.769 Y Jens, mi colega, siempre habla 00:33:07.769 --> 00:33:11.292 de que la Unión Europea busca un traductor 00:33:11.292 --> 00:33:17.279 que pueda traducir de... creo que fue de maltés al sueco. 00:33:17.279 --> 00:33:19.276 - (persona 8) Estonio. - Estonio. 00:33:21.856 --> 00:33:26.051 Y esa no es una combinación habitual. 00:33:27.051 --> 00:33:31.575 Y una vez que estos idiomas estén en un lugar que una máquina pueda leer, 00:33:31.575 --> 00:33:32.983 ustedes podrán hacerlo, 00:33:32.983 --> 00:33:36.697 podrán tener un diccionario 00:33:36.697 --> 00:33:41.575 del estonio al maltés y viceversa. 00:33:42.775 --> 00:33:45.447 Por lo tanto, cubrir combinaciones de idiomas en diccionarios 00:33:45.447 --> 00:33:47.751 que simplemente no se han cubierto antes 00:33:47.751 --> 00:33:50.890 porque no había suficiente demanda, por ejemplo, 00:33:50.890 --> 00:33:55.380 para que sea financieramente viable y para justificar el trabajo. 00:33:55.380 --> 00:33:56.987 Ahora podemos hacer eso. 00:33:59.637 --> 00:34:02.158 Luego generación de texto. 00:34:02.158 --> 00:34:04.032 Lucie estaba hablando 00:34:04.032 --> 00:34:09.976 de cómo está trabajando con Hattie en la generación de texto 00:34:09.976 --> 00:34:14.373 para iniciar artículos de Wikipedia en idiomas minoritarios, 00:34:15.263 --> 00:34:19.352 y eso necesita datos sobre palabras, 00:34:19.352 --> 00:34:22.429 y ustedes necesitan entender el idioma para hacerlo. 00:34:23.359 --> 00:34:27.973 Sí, y esos son solo algunos que me vienen a la mente justo ahora. 00:34:28.533 --> 00:34:31.174 Tal vez nuestra audiencia tenga más ideas de lo que quieren hacer 00:34:31.174 --> 00:34:34.193 cuando tengamos todos los datos gloriosos. 00:34:37.533 --> 00:34:40.732 (persona 9) Me desviaré del tema de los lexemas. 00:34:40.732 --> 00:34:42.506 Haré la pregunta, 00:34:42.506 --> 00:34:45.474 ¿cómo puedo, como miembro de la comunidad, 00:34:45.474 --> 00:34:49.975 influir en que esa tarea sea prioridad, 00:34:49.975 --> 00:34:56.484 que un nuevo usuario pueda indicar qué idiomas quiere ver y editar 00:34:56.484 --> 00:35:00.975 sin algún conocimiento secreto de plantillas verbales? 00:35:01.985 --> 00:35:04.893 Quizás exista este año esta lista de deseos técnicos 00:35:04.893 --> 00:35:06.880 sin temas de Wikipedia. 00:35:06.880 --> 00:35:09.959 Tal vez haya una esperanza de que todos podamos votar 00:35:09.959 --> 00:35:14.058 sobre esto que no arreglamos durante siete años. 00:35:14.695 --> 00:35:17.354 ¿Tienen alguna idea o comentario sobre esto? 00:35:18.057 --> 00:35:20.168 ¿Estás hablando del hecho 00:35:20.168 --> 00:35:23.178 de que alguien que no ha iniciado sesión en Wikidata 00:35:23.178 --> 00:35:25.671 no puede cambiar su idioma fácilmente? 00:35:25.671 --> 00:35:27.679 (persona 9) No, para usuarios [inaudibles]. 00:35:28.149 --> 00:35:30.529 Por lo tanto, si inician sesión, 00:35:30.529 --> 00:35:34.711 pueden cambiar su idioma en la parte superior de la página, 00:35:35.731 --> 00:35:37.939 y luego aparecerá 00:35:39.489 --> 00:35:41.853 donde están las descripciones de las etiquetas [inaudible], 00:35:41.853 --> 00:35:43.323 y pueden editarlo. 00:35:45.497 --> 00:35:48.849 (persona 9) Bueno, en realidad, muchas veces el flujo de trabajo 00:35:48.849 --> 00:35:52.287 es que si quieres tener varios idiomas, estén disponibles, 00:35:52.287 --> 00:35:55.259 y no siempre es así. 00:35:55.259 --> 00:35:58.424 Bien, tal vez deberíamos sentarnos después de esta charla y me lo muestras. 00:36:01.402 --> 00:36:03.693 Genial. ¿Más preguntas? 00:36:05.314 --> 00:36:06.316 Sí. 00:36:11.435 --> 00:36:13.036 (persona 10) Gracias por la presentación. 00:36:13.886 --> 00:36:14.967 ¿Puede comentarnos 00:36:14.967 --> 00:36:19.147 sobre el estado de la correlación con la comunidad de Wiktionary? 00:36:19.147 --> 00:36:22.136 Hasta donde he visto, hubo algunas discusiones 00:36:22.136 --> 00:36:25.891 sobre la importación de algunos elementos del trabajo, 00:36:25.891 --> 00:36:30.683 pero parece haber problemas de licencia y algunos desacuerdos, etc. 00:36:30.683 --> 00:36:31.688 Correcto. 00:36:31.688 --> 00:36:36.170 Bueno, las comunidades de Wiktionary han pasado mucho tiempo 00:36:37.160 --> 00:36:39.313 construyendo Wiktionary. 00:36:39.313 --> 00:36:42.483 Han creado 00:36:43.033 --> 00:36:47.394 plantillas increíblemente complicadas y complejas 00:36:47.394 --> 00:36:53.454 para crear tablas bonitas que generan automáticamente formas para ustedes 00:36:53.454 --> 00:36:56.232 y todo tipo de cosas realmente impresionantes 00:36:56.232 --> 00:37:00.325 y cosas un poco locas, si lo piensan. 00:37:02.151 --> 00:37:07.834 Y, por supuesto, han invertido mucho tiempo y esfuerzo en eso. 00:37:09.204 --> 00:37:11.641 Y comprensiblemente, 00:37:11.641 --> 00:37:16.956 no quieren que simplemente sea tomado, 00:37:17.886 --> 00:37:18.942 así como así. 00:37:18.942 --> 00:37:21.631 En parte viene de eso. 00:37:22.404 --> 00:37:24.780 Y eso está bien, no hay problema. 00:37:25.577 --> 00:37:31.932 Ahora, las primeras comunidades de Wiktionary están hablando de producir 00:37:31.932 --> 00:37:34.169 e importar algunos de sus datos a Wikidata. 00:37:34.169 --> 00:37:38.935 El ruso, como han visto, por ejemplo, es uno de esos casos 00:37:40.125 --> 00:37:42.105 y espero que suceda más. 00:37:43.475 --> 00:37:46.640 Pero será un proceso lento, 00:37:46.640 --> 00:37:49.223 al igual que la adopción de los datos de Wikidata en Wikipedia 00:37:49.223 --> 00:37:51.749 ha sido un proceso bastante lento. 00:37:52.689 --> 00:37:56.023 Por otro lado, hacer que sea más fácil 00:37:56.023 --> 00:37:58.972 usar los datos que están en lexemas, 00:37:58.972 --> 00:38:02.049 en Wiktionary, para que puedan hacer uso de eso 00:38:02.049 --> 00:38:05.371 y compartir datos entre los Wiktionarios de los idioma, 00:38:05.371 --> 00:38:08.693 que es muy difícil o imposible en este momento, 00:38:08.693 --> 00:38:11.400 lo cual es una locura, como con Wikipedia. 00:38:13.590 --> 00:38:16.055 Esperen por el regalo de cumpleaños. 00:38:19.738 --> 00:38:20.772 Sí. 00:38:22.439 --> 00:38:24.667 (persona 11) Mientras lo pensaba, 00:38:24.667 --> 00:38:28.008 no quise decirlo porque pensaba que sería supertonto, 00:38:28.008 --> 00:38:31.843 pero creo que Wiktionary ya tiene algo de contenido, 00:38:31.843 --> 00:38:34.818 y sé que no podemos transferirlo a Wikidata 00:38:34.818 --> 00:38:36.888 porque hay una diferencia en las licencias. 00:38:36.888 --> 00:38:39.471 Pero estaba pensando que tal vez podamos hacer algo al respecto. 00:38:40.161 --> 00:38:45.103 Tal vez, no sé, podemos obtener el permiso de las comunidades 00:38:45.603 --> 00:38:51.045 luego de, no sé, tener una votación pública 00:38:51.045 --> 00:38:55.482 y para que la comunidad, los miembros activos de la comunidad 00:38:55.482 --> 00:39:02.363 voten y digan si desean o aceptan transferir el contenido 00:39:02.363 --> 00:39:05.368 para el que pueden hacer los lexemas de Wikidata. 00:39:06.078 --> 00:39:08.377 Porque creo que es un desperdicio. 00:39:09.408 --> 00:39:14.283 Por lo tanto, esa es definitivamente una conversación que las personas 00:39:14.283 --> 00:39:18.089 que están en las comunidades de Wiktionary son bienvenidas a plantear. 00:39:18.089 --> 00:39:24.487 Creo que sería un poco presuntuoso para nosotros ir y forzar eso. 00:39:25.757 --> 00:39:30.982 Pero sí, creo que definitivamente vale la pena tener una conversación. 00:39:30.982 --> 00:39:33.738 Pero creo que también es importante entender 00:39:33.738 --> 00:39:38.922 que hay una distinción entre lo que está legalmente permitido 00:39:38.922 --> 00:39:42.987 y lo que deberíamos estar haciendo, 00:39:42.987 --> 00:39:45.266 y lo que esas personas quieren o no quieren. 00:39:45.576 --> 00:39:47.169 Incluso si está legalmente permitido, 00:39:47.169 --> 00:39:50.480 si algunas otras comunidades de Wiktionary no quieran eso, 00:39:50.480 --> 00:39:53.377 al menos yo tendría cuidado. 00:39:58.726 --> 00:40:02.329 Creo que necesitas el micrófono para la transmisión. 00:40:04.380 --> 00:40:07.139 (persona 12) Obviamente, todo es muy emocionante, 00:40:07.819 --> 00:40:12.159 e inmediatamente pienso cómo puedo llevar eso a mis estudiantes 00:40:12.159 --> 00:40:15.398 y cómo puedo incorporarlo a los cursos, 00:40:15.398 --> 00:40:18.371 el trabajo que estamos haciendo, los entornos educativos. 00:40:18.371 --> 00:40:22.111 Y no tengo, en este momento, 00:40:22.111 --> 00:40:23.956 en primer lugar, suficiente conocimiento, 00:40:23.956 --> 00:40:27.118 pero creo que la documentación que tenemos 00:40:27.648 --> 00:40:29.922 podría ser mejorada. 00:40:29.922 --> 00:40:33.277 Esa es una especie de solicitud para hacer videos geniales 00:40:33.277 --> 00:40:35.738 que expliquen cómo funciona 00:40:35.738 --> 00:40:39.788 porque si lo tenemos, podemos usarlo, 00:40:39.788 --> 00:40:41.825 y podemos tener estudiantes a bordo, 00:40:41.825 --> 00:40:46.912 y podemos hacer que la gente entienda lo increíble que es todo. 00:40:46.912 --> 00:40:51.841 Y sí, solo piensen en la documentación y en la educación, por favor. 00:40:51.841 --> 00:40:54.320 Porque creo que se podría hacer mucho. 00:40:54.320 --> 00:40:58.425 Estas son como muchas tareas que podrían hacerse incluso con... 00:40:59.965 --> 00:41:01.873 bueno, no diría escuelas primarias, 00:41:01.873 --> 00:41:05.335 pero ciertamente, incluso estudiantes más jóvenes. 00:41:05.755 --> 00:41:10.706 Entonces, realmente me gustaría ver ese potencial aprovechado 00:41:10.706 --> 00:41:15.112 y, a partir de ahora, personalmente no entiendo lo suficiente 00:41:15.112 --> 00:41:19.340 como para poder crear tareas o crear como... 00:41:20.270 --> 00:41:21.995 hacer algo práctico con eso. 00:41:21.995 --> 00:41:25.612 Cualquier ayuda o pensamiento que alguien tenga sobre eso, 00:41:25.612 --> 00:41:29.488 estaría muy feliz de escucharlas también. 00:41:30.348 --> 00:41:31.969 Sí, hablemos de eso. 00:41:35.243 --> 00:41:36.759 ¿Más preguntas? 00:41:37.649 --> 00:41:39.035 Alguien más levantó una mano. 00:41:39.035 --> 00:41:40.335 Olvidé dónde estaba. 00:41:45.579 --> 00:41:49.836 (persona 13) Si no podemos importar desde Wiktionary, 00:41:49.836 --> 00:41:55.612 ¿hay algún esfuerzo concertado en hallar otras fuentes de dominio público, 00:41:55.612 --> 00:41:57.299 tal vez todos los datos 00:41:58.609 --> 00:42:03.007 y algún tipo de filtro previo, organizarlo 00:42:03.007 --> 00:42:08.310 que sea fácil de revisar y así importarlo? 00:42:08.933 --> 00:42:11.021 Se han tomado medidas iniciales. 00:42:11.021 --> 00:42:14.609 Tengo entendido que el vasco es uno de esos esfuerzos. 00:42:14.609 --> 00:42:17.314 ¿Quizás quieras decir un poco más al respecto? 00:42:18.266 --> 00:42:19.970 (persona 7) [inaudible] 00:42:23.006 --> 00:42:26.988 Bueno, la respuesta real es pagar por eso. 00:42:28.214 --> 00:42:33.221 Tenemos un acuerdo con un contratista con el que usualmente trabajamos. 00:42:34.641 --> 00:42:38.095 Hacen diccionarios, 00:42:40.155 --> 00:42:42.436 y muchas cosas, pero hacen diccionarios. 00:42:43.268 --> 00:42:47.313 Acordamos con ellos para liberar el diccionario de los estudiantes, 00:42:47.313 --> 00:42:52.622 seleccionamos las palabras más comunes y comenzaríamos a cargarlo 00:42:52.622 --> 00:42:55.430 con un identificador externo y el esquema de las cosas. 00:42:58.060 --> 00:43:02.425 Pero hubo una discusión acerca de dejarlo en CC0 00:43:03.052 --> 00:43:05.162 porque tienen el diccionario con CC 00:43:06.377 --> 00:43:10.166 y entendieron cuál era la diferencia. 00:43:10.166 --> 00:43:13.706 Entonces hubo una discusión. 00:43:13.706 --> 00:43:19.549 Pero creo que proporcionaremos algunas herramientas o ejemplos en el futuro, 00:43:19.549 --> 00:43:23.856 y creo que habrán otros diccionarios que podamos manejar, 00:43:23.856 --> 00:43:29.114 y también creo que Wiktionary debe comenzar a moverse en esa dirección, 00:43:29.114 --> 00:43:32.100 pero esa es otra gran discusión. 00:43:33.125 --> 00:43:34.327 Y además de eso, 00:43:34.327 --> 00:43:38.679 Lea también está en contacto con personas occitanas 00:43:38.679 --> 00:43:41.667 que trabajan en diccionarios occitanos, 00:43:41.667 --> 00:43:44.978 y actualmente están trabajando en una colaboración de sumerio. 00:43:51.384 --> 00:43:53.103 ¿Más preguntas? 00:44:01.327 --> 00:44:05.189 (persona 14) ¡Hola! Somos las personas que queremos importar datos occitanos. 00:44:05.189 --> 00:44:06.425 ¡Ajá! ¡Perfecto! 00:44:06.425 --> 00:44:08.208 (persona 14) Y tenemos un pequeño problema. 00:44:09.028 --> 00:44:14.055 No sabemos cómo representar la variedad de todos los lexemas. 00:44:14.055 --> 00:44:17.733 Tenemos seis dialectos 00:44:17.733 --> 00:44:23.854 y queremos indicarle a Lexemas en qué dialecto se usa 00:44:23.854 --> 00:44:27.125 y no tenemos una declaración C0 adecuada para hacerlo. 00:44:27.125 --> 00:44:30.945 Por lo tanto, mientras la declaración no exista, 00:44:31.475 --> 00:44:34.305 nos impide impulsarlo 00:44:34.305 --> 00:44:37.443 porque tendremos que volver a hacerlo 00:44:37.443 --> 00:44:41.916 cuando podamos [sacar provecho] a la declaración. 00:44:41.916 --> 00:44:44.391 Y es complicado porque es una declaración 00:44:44.391 --> 00:44:47.642 que muchas personas no pedirán 00:44:47.642 --> 00:44:53.284 porque es una declaración que se refiere principalmente a los idiomas minoritarios. 00:44:53.284 --> 00:44:56.773 Tendrás una sola persona que lo pida, 00:44:56.773 --> 00:44:59.862 pero, como nuestros colegas vascos, 00:44:59.862 --> 00:45:05.922 puede ser una persona que impulsará a miles de otros, 00:45:05.922 --> 00:45:10.724 por lo que puede que no se pida mucho, 00:45:10.724 --> 00:45:13.976 pero será muy importante para nosotros. 00:45:14.714 --> 00:45:17.440 ¿Ya tienen una nueva propuesta de propiedad 00:45:17.440 --> 00:45:19.310 o necesitan ayuda para crearla? 00:45:21.364 --> 00:45:24.140 (persona 14) La solicitamos hace cuatro meses. 00:45:24.560 --> 00:45:28.595 Entonces hagamos que algunas personas ayuden con esta propuesta de propiedad. 00:45:29.929 --> 00:45:32.932 Estoy seguro de que hay suficientes personas en esta sala para que suceda. 00:45:32.932 --> 00:45:35.511 (persona 15) Propuesta de propiedad [hablando en francés]. 00:45:35.511 --> 00:45:36.497 (persona 16) No tuvimos respuesta. 00:45:36.497 --> 00:45:39.539 (persona 14) No tuvimos respuesta, y no sabemos cómo hacerlo 00:45:39.539 --> 00:45:42.793 porque no estamos en la comunidad de Wikidata. 00:45:44.534 --> 00:45:48.657 Sí, así que hay personas aquí que pueden ayudarte. 00:45:48.657 --> 00:45:51.974 Quizás alguien levante la mano para tomar... 00:45:51.974 --> 00:45:53.484 (persona 7) Estoy para eso. 00:45:53.484 --> 00:45:55.352 Pero creo que esto es bastante interesante 00:45:55.352 --> 00:45:58.899 no solo por la variante de forma 00:45:58.899 --> 00:46:02.447 también puede manejarse geográficamente, 00:46:02.447 --> 00:46:04.835 con coordenadas o algún tipo de mapeo. 00:46:05.435 --> 00:46:07.655 También tener diferentes pronunciaciones, 00:46:07.655 --> 00:46:11.677 y creo que esto es algo que sucede en muchos idiomas. 00:46:12.447 --> 00:46:16.102 Deberíamos comenzar a hacer que suceda [inaudible], 00:46:16.102 --> 00:46:18.705 y voy a buscar la propiedad. 00:46:19.622 --> 00:46:20.773 Genial. 00:46:20.773 --> 00:46:24.286 Entonces obtendrás respaldo para tu propuesta de propiedad. 00:46:25.976 --> 00:46:27.137 Gracias. 00:46:27.993 --> 00:46:30.101 Muy bien, ¿más preguntas? 00:46:32.250 --> 00:46:33.584 Finn. 00:46:33.584 --> 00:46:34.895 Finn es una de esas personas 00:46:34.895 --> 00:46:37.371 que construye cosas sobre datos lexicográficos. 00:46:37.371 --> 00:46:39.925 (Finn) Es solo una pequeña pregunta, 00:46:40.245 --> 00:46:44.066 y se trata de variaciones ortográficas. 00:46:44.736 --> 00:46:47.842 Parece difícil ponerlos en... 00:46:48.282 --> 00:46:53.118 Podría, por supuesto, tener múltiples formas para la misma palabra. 00:46:56.167 --> 00:46:58.288 No sé, parece que 00:46:59.398 --> 00:47:03.375 si no lo haces así parece ser difícil de especificar... 00:47:04.611 --> 00:47:05.728 o no sé 00:47:05.728 --> 00:47:09.571 si esto es solo un problema técnico menor o si... 00:47:09.571 --> 00:47:11.092 Veámoslo juntos. 00:47:11.332 --> 00:47:14.920 Me encantaría ver un ejemplo. 00:47:17.318 --> 00:47:18.318 Asaf. 00:47:26.726 --> 00:47:28.236 (Asaf) Gracias. 00:47:29.226 --> 00:47:33.525 Puedo dar un ejemplo muy concreto de mi lengua materna, el hebreo. 00:47:34.045 --> 00:47:38.685 El hebreo tiene dos variantes principales 00:47:38.685 --> 00:47:42.626 para expresar casi todas las palabras 00:47:42.626 --> 00:47:47.480 porque la ortografía tradicional 00:47:47.480 --> 00:47:49.884 omite muchas de las vocales. 00:47:50.774 --> 00:47:55.047 Y, por lo tanto, en las ediciones modernas de la Biblia y de la poesía, 00:47:55.047 --> 00:47:57.301 se usan diacríticos. 00:47:57.301 --> 00:48:02.510 Sin embargo, esos signos diacríticos nunca se usan para la prosa moderna 00:48:02.510 --> 00:48:05.814 o la escritura de periódicos o letreros de la calle. 00:48:05.814 --> 00:48:11.049 El uso informal diario promedio pone vocales adicionales 00:48:12.009 --> 00:48:13.359 y no usa los signos diacríticos 00:48:13.359 --> 00:48:15.447 porque son, por supuesto, más engorrosos 00:48:15.447 --> 00:48:17.733 y tienen todo tipo de reglas y nadie las conoce. 00:48:18.473 --> 00:48:20.371 Entonces, básicamente hay dos variantes. 00:48:20.371 --> 00:48:25.162 Existe la variante de la prosa informal cotidiana, 00:48:25.162 --> 00:48:27.667 y está la Biblia o la poesía, 00:48:27.667 --> 00:48:31.830 que siempre viene en este texto diacrítico tradicional. 00:48:31.830 --> 00:48:33.142 Para ser útil, 00:48:33.142 --> 00:48:37.268 Lexema tendría que reconocer ambas variedades de cada palabra 00:48:37.268 --> 00:48:39.587 y cada forma de cada palabra. 00:48:40.517 --> 00:48:43.231 Es un caso de uso muy completo 00:48:43.231 --> 00:48:46.180 para las variantes estables oficiales. 00:48:46.180 --> 00:48:48.782 No es dialecto, no son regiones, 00:48:49.062 --> 00:48:53.357 son básicamente dos sistemas morfológicos coexistentes. 00:48:54.377 --> 00:48:58.766 Y tampoco sé exactamente cómo expresarlo en Lexema, 00:48:58.766 --> 00:49:02.640 cosa que me impide responder parcialmente a la pregunta de Magnus 00:49:02.640 --> 00:49:05.078 de subir las partes que están listas 00:49:05.078 --> 00:49:09.234 del mayor diccionario hebreo, que es de dominio público 00:49:09.234 --> 00:49:12.981 y que he estado digitalizando durante varios años. 00:49:12.981 --> 00:49:14.643 Una buena parte está lista, 00:49:14.643 --> 00:49:16.389 pero no la pongo en Lexema en este momento 00:49:16.389 --> 00:49:20.085 porque no sé exactamente cómo resolver este problema. 00:49:20.085 --> 00:49:23.227 Muy bien, solucionemos este problema aquí. (risas) 00:49:24.343 --> 00:49:25.861 Eso tiene que ser posible. 00:49:29.741 --> 00:49:31.743 Muy bien, ¿más preguntas? 00:49:36.861 --> 00:49:39.423 Si no, muchas gracias. 00:49:40.355 --> 00:49:45.026 (aplausos)