1 00:00:06,073 --> 00:00:07,202 (Lydia) Muchas gracias. 2 00:00:07,202 --> 00:00:11,284 En esta conferencia, uno de los grandes temas son los idiomas. 3 00:00:13,710 --> 00:00:17,969 Quiero darles una visión general de dónde estamos actualmente 4 00:00:17,969 --> 00:00:19,652 en lo que respecta a los idiomas 5 00:00:20,104 --> 00:00:22,007 y hacia dónde podemos ir desde aquí. 6 00:00:28,876 --> 00:00:32,420 Wikidata se trata de dar a más personas más acceso a más conocimiento, 7 00:00:32,420 --> 00:00:37,008 y el lenguaje es una parte importante para hacer que esto sea una realidad, 8 00:00:38,045 --> 00:00:43,131 porque cada vez más nuestras vidas dependen de la tecnología. 9 00:00:43,954 --> 00:00:48,713 Y como nuestro orador principal decía hoy, 10 00:00:49,473 --> 00:00:51,428 parte de la tecnología deja atrás a las personas 11 00:00:51,428 --> 00:00:54,860 simplemente porque no pueden hablar un determinado idioma, 12 00:00:55,160 --> 00:00:57,413 y ​​eso no está bien. 13 00:00:58,473 --> 00:01:01,937 Entonces queremos hacer algo al respecto. 14 00:01:02,767 --> 00:01:05,681 Y para cambiar eso, necesitan al menos dos cosas. 15 00:01:06,251 --> 00:01:11,110 Una es que deben proporcionar contenido a las personas en su idioma, 16 00:01:11,110 --> 00:01:12,795 y ​​la segunda cosa que necesitan 17 00:01:12,795 --> 00:01:15,750 es proporcionarles interacción en su idioma 18 00:01:15,750 --> 00:01:19,029 en esas aplicaciones o lo que sea que tenga. 19 00:01:20,207 --> 00:01:25,117 Y Wikidata ayuda con ambas cosas. 20 00:01:25,677 --> 00:01:28,248 Lo primero, contenido en su idioma, 21 00:01:28,248 --> 00:01:30,719 eso es básicamente lo que tenemos en elementos y propiedades, 22 00:01:31,089 --> 00:01:32,782 cómo describimos el mundo. 23 00:01:32,782 --> 00:01:34,925 Ahora, esto ciertamente no es todo lo que necesitan, 24 00:01:34,925 --> 00:01:39,134 pero eso ya es un gran avance. 25 00:01:39,604 --> 00:01:41,687 La otra cosa es la interacción en su idioma, 26 00:01:41,687 --> 00:01:46,089 y ​​ahí es donde entran en juego los lexemas. 27 00:01:46,089 --> 00:01:49,222 Si desean hablar con su asistente personal digital 28 00:01:49,222 --> 00:01:54,758 o si desean que su dispositivo traduzca un texto y cosas así. 29 00:01:56,112 --> 00:01:59,094 Muy bien, veamos el Contenido en su idioma. 30 00:01:59,094 --> 00:02:03,236 Entonces, lo que tenemos en elementos y propiedades. 31 00:02:05,246 --> 00:02:09,536 Para esto, las etiquetas en esos elementos y propiedades son cruciales. 32 00:02:10,076 --> 00:02:14,706 Necesitamos saber cómo se llama esta entidad de la que estamos hablando. 33 00:02:15,496 --> 00:02:19,827 Y en lugar de hablar sobre Q5, 34 00:02:19,827 --> 00:02:22,020 alguien que habla inglés sabe que es un "humano", 35 00:02:22,020 --> 00:02:24,546 alguien que habla alemán sabe que es un "mensch" 36 00:02:24,546 --> 00:02:26,214 y cosas similares. 37 00:02:26,214 --> 00:02:29,582 Entonces, esas etiquetas en elementos y propiedades 38 00:02:29,582 --> 00:02:33,459 están cerrando la brecha entre humanos y máquinas. 39 00:02:33,459 --> 00:02:35,189 Y humanos y humanos 40 00:02:35,189 --> 00:02:39,750 haciendo más conocimiento existente accesible para ellos. 41 00:02:42,950 --> 00:02:46,130 Ahora, esa es una buena aspiración. 42 00:02:46,130 --> 00:02:48,052 ¿Cómo se vería realmente? 43 00:02:48,052 --> 00:02:49,447 Se vería como esto. 44 00:02:50,637 --> 00:02:52,386 Lo que están viendo aquí 45 00:02:52,386 --> 00:02:58,336 es que la mayoría de los elementos en Wikidata tienen dos etiquetas, 46 00:02:58,336 --> 00:03:00,607 por lo que las etiquetas están en dos idiomas. 47 00:03:01,537 --> 00:03:05,508 Y después de eso, es uno, y luego tres, y luego se pone muy triste. 48 00:03:06,621 --> 00:03:08,421 (risa silenciosa) 49 00:03:09,777 --> 00:03:12,553 Creo que debemos hacerlo mejor. 50 00:03:14,025 --> 00:03:15,159 Pero, por otro lado, 51 00:03:15,159 --> 00:03:17,318 en realidad esperaba que esto fuera aún peor. 52 00:03:17,318 --> 00:03:19,400 Esperaba que el promedio fuera uno. 53 00:03:19,400 --> 00:03:22,343 Así que estaba bastante feliz de ver dos. (risa) 54 00:03:24,571 --> 00:03:25,724 Bien. 55 00:03:26,996 --> 00:03:29,367 Pero no solo es interesante saber 56 00:03:29,367 --> 00:03:33,582 cuántas etiquetas tienen nuestros elementos y propiedades. 57 00:03:33,582 --> 00:03:36,405 También es interesante ver en qué idiomas. 58 00:03:37,885 --> 00:03:43,604 Aquí pueden ver un gráfico de los idiomas 59 00:03:43,604 --> 00:03:46,678 que tienen etiquetas en los elementos. 60 00:03:46,678 --> 00:03:50,509 Entonces, la parte más grande es Otros. 61 00:03:51,069 --> 00:03:53,703 Así que acabo de tomar los 100 idiomas principales 62 00:03:54,373 --> 00:03:58,742 y todo lo demás es Otros para hacer que este gráfico sea legible. 63 00:03:59,382 --> 00:04:01,982 Y luego está el inglés y el holandés, 64 00:04:02,842 --> 00:04:04,094 el francés, 65 00:04:05,764 --> 00:04:08,969 y, para no olvidar, el asturiano. 66 00:04:09,499 --> 00:04:11,729 - (audiencia) ¡Hurra! - ¡Yuju! ¡Sí! 67 00:04:13,739 --> 00:04:16,794 Entonces, lo que ven aquí es un gran desequilibrio 68 00:04:16,794 --> 00:04:19,954 y todavía un gran enfoque en el inglés. 69 00:04:21,076 --> 00:04:24,207 Otra cosa es que si buscan lo mismo en Propiedades, 70 00:04:24,207 --> 00:04:25,839 en realidad se ve mejor. 71 00:04:27,239 --> 00:04:32,590 Y creo que parte se debe a que son menos propiedades. 72 00:04:32,590 --> 00:04:36,610 Incluso las comunidades más pequeñas podrán mantenerse al día con eso. 73 00:04:36,610 --> 00:04:39,013 Pero también es una parte bastante importante de Wikidata 74 00:04:39,013 --> 00:04:40,999 localizarlo en su idioma. 75 00:04:40,999 --> 00:04:42,224 Eso es bueno. 76 00:04:45,592 --> 00:04:47,682 Lo que quiero resaltar aquí con asturiano 77 00:04:47,682 --> 00:04:53,538 es que una pequeña comunidad puede hacer una gran diferencia 78 00:04:54,288 --> 00:04:56,925 con un poco de dedicación y trabajo, 79 00:04:56,925 --> 00:04:58,260 y eso es realmente genial. 80 00:05:01,686 --> 00:05:03,370 Un pequeño cuestionario para ustedes. 81 00:05:03,370 --> 00:05:07,337 Si toman todas las propiedades en Wikidata que no son identificadores externos, 82 00:05:07,337 --> 00:05:10,198 ¿cuál tiene más cantidad de etiquetas, como la mayoría de los idiomas? 83 00:05:10,198 --> 00:05:13,567 (audiencia) [inaudible] 84 00:05:13,567 --> 00:05:16,626 ¿Creen que es la instancia de? 85 00:05:17,186 --> 00:05:19,283 De ser así están equivocados. 86 00:05:19,823 --> 00:05:22,050 Es imagen. (risas) 87 00:05:23,070 --> 00:05:26,206 Sí, eso les dice que si hablan uno de los idiomas 88 00:05:26,206 --> 00:05:28,461 en los que instancia de aún no tiene una etiqueta, 89 00:05:28,461 --> 00:05:30,030 quizás quieran agregarla. 90 00:05:31,942 --> 00:05:35,516 Tiene 148 etiquetas actualmente. 91 00:05:37,528 --> 00:05:41,089 Pero es otra diapositiva. 92 00:05:42,471 --> 00:05:45,644 Este gráfico nos dice algo sobre la cantidad de contenido 93 00:05:46,084 --> 00:05:49,031 que ponemos a disposición en un idioma determinado 94 00:05:49,031 --> 00:05:51,882 y cuánto de ese contenido se usa realmente. 95 00:05:51,882 --> 00:05:55,288 Entonces, lo que están viendo es básicamente una curva 96 00:05:55,288 --> 00:05:59,447 con la mayoría del contenido que tiene etiquetas en inglés, 97 00:05:59,447 --> 00:06:04,135 disponible en inglés y se usa mucho. 98 00:06:04,135 --> 00:06:06,289 Y luego se cae un poco. 99 00:06:06,289 --> 00:06:09,276 Pero, de nuevo, lo que pueden ver son valores atípicos 100 00:06:09,276 --> 00:06:14,824 que tienen mucho más contenido del que necesariamente esperarían, 101 00:06:16,623 --> 00:06:19,259 y eso es muy muy bueno. 102 00:06:20,329 --> 00:06:24,515 El problema aún es que no se usa mucho. 103 00:06:25,345 --> 00:06:28,582 Los asturianos y holandeses deberían ser más altos, 104 00:06:28,582 --> 00:06:31,834 y creo que ayudar a esas comunidades 105 00:06:33,106 --> 00:06:35,403 a aumentar el uso de los datos que recopilaron 106 00:06:35,403 --> 00:06:37,522 es algo realmente útil. 107 00:06:42,750 --> 00:06:47,110 Lo que este y otros análisis nos mostraron también es algo bueno, 108 00:06:47,110 --> 00:06:51,218 estamos viendo que los elementos muy usados 109 00:06:51,218 --> 00:06:55,135 ​​también tienden a tener más etiquetas 110 00:06:55,135 --> 00:06:58,028 o al revés... No está del todo claro. 111 00:07:02,353 --> 00:07:04,216 Y entonces la pregunta es 112 00:07:04,646 --> 00:07:06,849 ¿estamos sirviendo solo a los idiomas poderosos? 113 00:07:07,739 --> 00:07:10,987 ¿O estamos sirviendo a todos? 114 00:07:12,597 --> 00:07:17,583 Y lo que ven aquí es una agrupación de idiomas. 115 00:07:17,583 --> 00:07:21,672 Los idiomas que se agrupan tienden a tener etiquetas juntos. 116 00:07:25,882 --> 00:07:28,439 Y los ven agruparse. 117 00:07:28,439 --> 00:07:33,905 Ahora aquí hay una agrupación similar, coloreada, 118 00:07:33,905 --> 00:07:39,315 basada en qué tan vivo, cómo se usa, 119 00:07:40,295 --> 00:07:42,996 qué tan en peligro es el idioma. 120 00:07:42,996 --> 00:07:44,482 Y lo bueno que están viendo aquí 121 00:07:44,482 --> 00:07:49,406 es que los idiomas seguros y los idiomas en peligro de extinción 122 00:07:49,406 --> 00:07:53,613 no forman dos grupos diferentes. 123 00:07:53,613 --> 00:07:58,712 Pero todos están mezclados, 124 00:08:00,102 --> 00:08:04,465 lo que es mucho mejor de lo que sería al revés 125 00:08:04,465 --> 00:08:09,217 donde los idiomas seguros, los idiomas poderosos 126 00:08:10,037 --> 00:08:12,004 solo se están ayudando mutuamente. 127 00:08:12,584 --> 00:08:14,196 No, no es el caso. 128 00:08:14,196 --> 00:08:17,257 Y es algo realmente bueno. 129 00:08:17,257 --> 00:08:19,882 Cuando vi esto, pensé que era muy bueno. 130 00:08:23,314 --> 00:08:25,009 Aquí hay algo similar 131 00:08:26,079 --> 00:08:28,640 en el que miramos 132 00:08:30,070 --> 00:08:34,062 el estado de los idiomas 133 00:08:34,062 --> 00:08:36,065 y cuántas etiquetas tiene. 134 00:08:39,207 --> 00:08:42,777 Lo que están viendo es una clara victoria para los idiomas seguros, 135 00:08:42,777 --> 00:08:44,088 como se esperaba. 136 00:08:45,348 --> 00:08:47,018 Pero lo que también ven es... 137 00:08:49,120 --> 00:08:54,247 que los idiomas en las categorías 2 y 3 y tal vez incluso 4 138 00:08:54,247 --> 00:08:59,120 no son tan malos, en realidad, 139 00:08:59,120 --> 00:09:02,207 en términos de su representación en Wikidata y otros. 140 00:09:03,127 --> 00:09:05,600 Es algo realmente bueno de encontrar. 141 00:09:07,486 --> 00:09:08,969 Ahora, si observan lo mismo 142 00:09:08,969 --> 00:09:12,258 para saber cuánto de ese contenido de esas etiquetas 143 00:09:12,258 --> 00:09:15,335 se usa realmente en Wikipedia, por ejemplo, 144 00:09:17,295 --> 00:09:22,403 entonces vemos una imagen similar emergiendo nuevamente. 145 00:09:23,443 --> 00:09:29,653 Y nos dice que esas comunidades están haciendo un buen uso de su tiempo 146 00:09:29,653 --> 00:09:34,344 al completar etiquetas para artículos de mayor uso, por ejemplo. 147 00:09:36,250 --> 00:09:40,333 Hay valores atípicos en los que creo que podemos ayudar 148 00:09:41,523 --> 00:09:48,042 a esas comunidades a encontrar un lugar donde su trabajo sería más valioso. 149 00:09:49,152 --> 00:09:52,503 Pero, en general, estoy contenta con esta imagen. 150 00:09:54,663 --> 00:09:59,684 Ahora, esa era la parte de elementos y propiedades de Wikidata. 151 00:10:00,554 --> 00:10:02,873 Ahora, veamos la interacción en sus idiomas, 152 00:10:02,873 --> 00:10:05,043 la parte de lexema de Wikidata 153 00:10:05,043 --> 00:10:09,234 donde describimos palabras y sus formas y sus significados. 154 00:10:10,007 --> 00:10:13,141 Hemos estado haciendo esto desde mayo del año pasado, 155 00:10:16,301 --> 00:10:18,967 y el contenido ha ido creciendo. 156 00:10:19,954 --> 00:10:21,989 Pueden ver aquí en azul los lexemas, 157 00:10:21,989 --> 00:10:25,778 y luego, en rojo, las formas en esos lexemas 158 00:10:25,778 --> 00:10:29,750 y, amarillo, los sentidos en esos lexemas. 159 00:10:30,831 --> 00:10:34,291 Por lo tanto, algunas comunidades, lo veremos más adelante, 160 00:10:34,291 --> 00:10:39,633 han pasado mucho tiempo creando formas y sentidos para sus lexemas, 161 00:10:39,633 --> 00:10:42,593 lo cual es realmente útil 162 00:10:42,593 --> 00:10:48,083 porque construye el núcleo del conjunto de datos que necesitan. 163 00:10:50,402 --> 00:10:54,973 Ahora, miramos todos los idiomas 164 00:10:54,973 --> 00:10:57,746 que tienen lexemas en Wikidata. 165 00:10:57,746 --> 00:11:00,843 Entonces, las palabras que tenemos 166 00:11:01,553 --> 00:11:04,244 son ahora 310 idiomas. 167 00:11:04,724 --> 00:11:08,130 Ahora, ¿cuál creen que es el idioma principal 168 00:11:08,130 --> 00:11:11,789 cuando se trata de la cantidad de lexemas actualmente en Wikidata? 169 00:11:12,773 --> 00:11:14,540 (persona 1) Ruso. 170 00:11:19,023 --> 00:11:21,581 - ¿Ah? - (persona 2) El alemán. 171 00:11:21,581 --> 00:11:24,092 Lo siento, lo había escuchado. 172 00:11:24,092 --> 00:11:25,491 Es el ruso. 173 00:11:27,851 --> 00:11:29,594 El ruso está bastante por delante. 174 00:11:31,737 --> 00:11:33,672 Y solo para darles una perspectiva, 175 00:11:35,292 --> 00:11:36,516 hay diferentes opiniones, 176 00:11:36,516 --> 00:11:42,071 pero he leído, por ejemplo, que 1000 a 3000 palabras 177 00:11:42,071 --> 00:11:45,290 te llevan al nivel de conversación, aproximadamente, en otro idioma, 178 00:11:45,290 --> 00:11:49,301 y ​​4000 a 10 000 palabras a un nivel avanzado. 179 00:11:51,431 --> 00:11:55,122 Entonces, todavía tenemos un poco para alcanzar. 180 00:11:58,323 --> 00:12:03,119 Una cosa a la que quiero que presten atención es el vasco 181 00:12:03,119 --> 00:12:07,584 con 10 000 lexemas, aproximadamente. 182 00:12:08,954 --> 00:12:12,713 Ahora, si observa el número de formas para esos lexemas, 183 00:12:13,843 --> 00:12:16,177 el vasco está muy arriba, 184 00:12:17,917 --> 00:12:19,666 lo cual es realmente genial, 185 00:12:19,666 --> 00:12:24,590 y deben ir a una charla que explica por qué ese es el caso. 186 00:12:27,041 --> 00:12:30,875 Si nos fijamos en la cantidad de sentidos, en lo qué significan las palabras, 187 00:12:31,775 --> 00:12:34,841 el vasco llega a la parte superior de la lista. 188 00:12:34,841 --> 00:12:36,862 Creo que eso merece un aplauso. 189 00:12:36,862 --> 00:12:38,681 (aplausos) 190 00:12:45,518 --> 00:12:46,958 Otra pregunta rápida. 191 00:12:46,958 --> 00:12:50,021 ¿Cuál es el lexema con más traducciones actualmente? 192 00:12:50,311 --> 00:12:54,584 (audiencia) Gatos, gatos, [inaudible], Douglas Adams, [inaudible] 193 00:12:56,543 --> 00:12:59,791 Todas buenas conjeturas, pero no. 194 00:13:00,732 --> 00:13:03,857 Es esta, la palabra rusa para "agua". 195 00:13:09,041 --> 00:13:12,093 Muy bien, ahora hablamos mucho 196 00:13:12,093 --> 00:13:16,112 sobre cuántos lexemas, formas y sentidos tenemos, 197 00:13:16,112 --> 00:13:20,333 pero eso es solo una cosa que necesitas. 198 00:13:20,333 --> 00:13:25,001 La otra cosa que necesitan es describir esos lexemas, formas y sentidos 199 00:13:25,001 --> 00:13:27,487 de manera legible para una máquina. 200 00:13:27,487 --> 00:13:29,879 Y para eso tienen declaraciones, por ejemplo, en elementos. 201 00:13:31,319 --> 00:13:36,202 Y una de las propiedades que utilizan es el Ejemplo de uso. 202 00:13:36,202 --> 00:13:38,422 Entonces, quien esté usando esos datos 203 00:13:38,422 --> 00:13:41,929 puede entender cómo usar esa palabra en contexto, 204 00:13:41,929 --> 00:13:43,998 por lo que podría ser una cita, por ejemplo. 205 00:13:45,236 --> 00:13:46,953 Y aquí, los polacos son geniales. 206 00:13:47,740 --> 00:13:49,604 Buen trabajo, hablantes de polaco. 207 00:13:54,059 --> 00:13:57,520 Otra propiedad realmente útil es el AFI, 208 00:13:57,520 --> 00:14:00,026 ¿cómo se pronuncia esta palabra? 209 00:14:00,716 --> 00:14:07,337 Aparentemente, Rusia necesita muchas declaraciones del AFI. 210 00:14:10,059 --> 00:14:13,154 Pero, de nuevo, polaco, segundo. 211 00:14:16,988 --> 00:14:20,423 Y por último, pero no menos importante, tenemos audio de pronunciación. 212 00:14:20,423 --> 00:14:23,212 Es decir, enlaces a archivos en Commons 213 00:14:23,212 --> 00:14:25,799 donde alguien habla la palabra, 214 00:14:25,799 --> 00:14:29,753 para que puedan escuchar a un hablante nativo pronunciar la palabra 215 00:14:29,753 --> 00:14:32,711 en caso de que no sepa leer AFI, por ejemplo. 216 00:14:34,799 --> 00:14:39,045 Y hay un proyecto realmente agradable basado en Wiki 217 00:14:39,045 --> 00:14:40,314 llamado Lingua Libre 218 00:14:40,724 --> 00:14:45,013 donde pueden ir y ayudar a grabar palabras en su idioma 219 00:14:45,013 --> 00:14:47,676 que luego se pueden agregar a lexemas en Wikidata, 220 00:14:48,286 --> 00:14:51,656 para que otras personas puedan entender cómo pronunciar sus palabras. 221 00:14:53,503 --> 00:14:55,424 (audiencia) [inaudible] 222 00:14:55,424 --> 00:14:57,255 Si buscas "Lingua Libre" 223 00:14:57,255 --> 00:15:00,821 y estoy segura de que alguien puede publicarlo en el canal de Telegram. 224 00:15:02,898 --> 00:15:04,331 Esos tipos son geniales. 225 00:15:04,331 --> 00:15:06,566 Hicieron cosas realmente geniales con Wikibase. 226 00:15:09,256 --> 00:15:10,457 Bien. 227 00:15:12,326 --> 00:15:17,125 Entonces, la pregunta es ¿a dónde vamos desde aquí? 228 00:15:19,005 --> 00:15:21,367 Según los números que acabo de mostrar, 229 00:15:22,870 --> 00:15:25,012 hemos recorrido un largo camino 230 00:15:25,012 --> 00:15:28,270 para dar a más personas más acceso a más conocimiento 231 00:15:28,270 --> 00:15:31,080 al mirar idiomas en Wikidata. 232 00:15:32,370 --> 00:15:35,964 Pero también queda mucho trabajo por delante. 233 00:15:38,832 --> 00:15:42,181 Algunas de las cosas que pueden hacer para ayudar, por ejemplo, 234 00:15:42,181 --> 00:15:44,521 es organizar "etiquetatones", 235 00:15:44,521 --> 00:15:49,964 reunir a las personas para etiquetar elementos en Wikidata 236 00:15:50,754 --> 00:15:54,961 o hacer un "editatón" alrededor de lexemas en tu idioma 237 00:15:54,961 --> 00:15:58,772 para llevar las palabras más utilizadas de tu idioma a Wikidata. 238 00:16:00,613 --> 00:16:03,125 O pueden usar una herramienta como Terminator 239 00:16:03,125 --> 00:16:08,333 que les ayuda a encontrar los elementos más importantes en su idioma 240 00:16:08,333 --> 00:16:11,389 que aún no tienen una etiqueta. 241 00:16:13,114 --> 00:16:18,199 Lo más importante se mide por la frecuencia con la que se usa 242 00:16:18,199 --> 00:16:22,393 en otros elementos de Wikidata como enlaces en las declaraciones. 243 00:16:25,608 --> 00:16:29,862 Y, por supuesto, para la parte de lexema, 244 00:16:31,182 --> 00:16:35,009 ahora que tenemos una cobertura básica de esos lexemas, 245 00:16:35,009 --> 00:16:41,003 también se trata de construirlos, agregarles más declaraciones 246 00:16:41,003 --> 00:16:44,241 para que puedan construir la base 247 00:16:44,241 --> 00:16:47,261 para aplicaciones significativas y construir encima de eso. 248 00:16:47,981 --> 00:16:50,635 Debido a que nos estamos acercando a esa masa crítica, 249 00:16:50,635 --> 00:16:53,456 pero aún estamos lejos de eso, 250 00:16:53,456 --> 00:16:56,464 que puede construir aplicaciones serias sobre ella. 251 00:16:58,117 --> 00:17:01,520 Y espero que todos ustedes se unan a nosotros para hacer eso. 252 00:17:02,423 --> 00:17:06,943 Y eso me lleva a pedir 253 00:17:06,943 --> 00:17:09,683 un poco de ayuda de nuestros amigos. 254 00:17:09,683 --> 00:17:12,230 Bruno, ¿quieres venir 255 00:17:13,562 --> 00:17:16,534 y hablarnos sobre máscaras léxicas? 256 00:17:17,101 --> 00:17:18,127 (Bruno) Gracias, Lydia, 257 00:17:18,127 --> 00:17:21,359 gracias por darme este breve período de tiempo 258 00:17:21,359 --> 00:17:24,490 para presentar este trabajo que hacemos en Google con Denny, 259 00:17:24,490 --> 00:17:28,963 que la mayoría probablemente ha escuchado o sabe. 260 00:17:29,966 --> 00:17:31,870 Porque en Google, soy lingüista. 261 00:17:31,870 --> 00:17:35,780 Así que estoy muy feliz de estar aquí entre otros entusiastas de los idiomas. 262 00:17:36,460 --> 00:17:39,118 También estamos construyendo algunos léxicos, 263 00:17:39,118 --> 00:17:41,606 y hemos construido esta tecnología 264 00:17:41,606 --> 00:17:45,429 o este enfoque que creemos que puede ser útil para ustedes. 265 00:17:46,209 --> 00:17:48,295 Solo para darles un poco de contexto, 266 00:17:48,295 --> 00:17:51,668 este es mi contexto lexicográfico que habla aquí. 267 00:17:52,427 --> 00:17:54,187 Cuando creamos una base de datos de léxicos, 268 00:17:54,187 --> 00:17:58,463 es muy difícil mantenerlos, mantenerlos consistentes 269 00:17:58,463 --> 00:17:59,965 e intercambiar datos, 270 00:17:59,965 --> 00:18:01,867 como probablemente ya saben. 271 00:18:02,357 --> 00:18:05,767 Hay varios intentos de unificar la característica y las propiedades 272 00:18:05,767 --> 00:18:09,024 que describen esos lexemas y esas formas, 273 00:18:09,024 --> 00:18:10,776 no es un problema resuelto, 274 00:18:10,776 --> 00:18:13,688 pero hay algunos intentos de unificación de ese lado. 275 00:18:13,688 --> 00:18:15,049 Pero lo que realmente falta, 276 00:18:15,049 --> 00:18:18,232 y este es un problema que tuvimos al comienzo de nuestro proyecto en Google 277 00:18:18,232 --> 00:18:21,447 es tratar de tener una estructura interna 278 00:18:22,037 --> 00:18:25,750 que describa cómo debería ser una entrada léxica, 279 00:18:25,750 --> 00:18:28,421 qué tipo de datos o qué tipo de información tenemos 280 00:18:28,421 --> 00:18:32,077 y la especificación que se espera. 281 00:18:32,077 --> 00:18:38,027 Entonces, esto es lo que se nos ocurrió con esta cosa llamada máscara léxica. 282 00:18:38,737 --> 00:18:44,681 Una máscara léxica describe lo que se espera de una entrada, 283 00:18:44,681 --> 00:18:47,169 para completar una entrada lexicográfica, 284 00:18:47,169 --> 00:18:51,276 tanto en términos de la cantidad de formas que esperan para un lexema 285 00:18:51,276 --> 00:18:55,447 y la cantidad de características que esperan para cada forma. 286 00:18:56,157 --> 00:18:58,169 Aquí hay un ejemplo de adjetivos italianos. 287 00:18:58,169 --> 00:19:01,842 En italiano, esperas tener cuatro formas para tus adjetivos, 288 00:19:01,842 --> 00:19:05,223 y cada una de estas formas tiene una combinación específica 289 00:19:05,223 --> 00:19:07,786 de características de género y número. 290 00:19:08,446 --> 00:19:12,512 Esto es lo que esperamos para los adjetivos italianos. 291 00:19:12,512 --> 00:19:16,016 Por supuesto, puede tener máscaras extremadamente complejas, 292 00:19:16,016 --> 00:19:20,623 como la conjugación de verbos franceses, que es bastante extensa, 293 00:19:20,623 --> 00:19:25,277 y no le muestro ninguna otra máscara rusa porque no se ajusta a la pantalla. 294 00:19:26,148 --> 00:19:29,371 Y también tenemos algunas especificaciones detalladas 295 00:19:29,371 --> 00:19:33,261 porque distinguimos lo que está al nivel de la forma. 296 00:19:33,261 --> 00:19:37,384 Aquí tienes sustantivos rusos que tienen tres números 297 00:19:37,384 --> 00:19:39,888 y una cantidad de casos con diferentes formas, 298 00:19:39,888 --> 00:19:42,926 pero también tienen una especificación de nivel de entrada 299 00:19:42,926 --> 00:19:45,430 que dice que un sustantivo particularmente tiene 300 00:19:45,430 --> 00:19:49,973 un género inherente y una característica de animación inherente 301 00:19:49,973 --> 00:19:52,328 que también se especifica en la máscara. 302 00:19:54,358 --> 00:19:58,619 También distinguiremos que una máscara proporciona una especificación 303 00:19:58,619 --> 00:20:01,714 para, en general, cómo debería ser una entrada. 304 00:20:01,714 --> 00:20:06,998 Pero puede tener máscaras más pequeñas para aspectos defectuosos de la forma 305 00:20:06,998 --> 00:20:11,122 o aspectos defectuosos del lexema que suceden en el idioma. 306 00:20:11,122 --> 00:20:14,377 Así que aquí está la versión más simple de los verbos franceses 307 00:20:14,377 --> 00:20:19,569 que usan solo la 3ra persona del singular para todos los verbos meteorológicos, 308 00:20:19,569 --> 00:20:23,809 como "llueve" o "nieva", como en inglés. 309 00:20:24,377 --> 00:20:26,333 Entonces distinguimos estos dos niveles. 310 00:20:26,763 --> 00:20:29,802 Y cómo usamos esto en Google 311 00:20:29,802 --> 00:20:32,853 es que, cuando tenemos un léxico que queremos usar, 312 00:20:32,853 --> 00:20:38,149 usamos la máscara para lanzar literalmente los léxicos, 313 00:20:38,149 --> 00:20:40,003 todas las entradas, a través de la máscara 314 00:20:40,003 --> 00:20:44,143 y ver qué entrada tiene un problema en términos de estructura. 315 00:20:44,143 --> 00:20:46,363 ¿Nos falta un formulario? ¿Nos falta una característica? 316 00:20:46,363 --> 00:20:51,337 Y cuando hay un problema, hacemos una validación humana 317 00:20:51,337 --> 00:20:53,591 o simplemente para ver si pasa la máscara. 318 00:20:53,591 --> 00:20:57,764 Es una herramienta muy poderosa que verifica la calidad de la estructura. 319 00:20:59,267 --> 00:21:01,804 Entonces, lo que nos complace anunciar hoy 320 00:21:01,804 --> 00:21:05,248 es que tenemos luz verde para liberar el código de nuestra máscara. 321 00:21:05,788 --> 00:21:07,413 Este es un esquema. 322 00:21:07,413 --> 00:21:09,317 Si lo desean, podemos liberarlo 323 00:21:09,317 --> 00:21:13,323 y se lo proporcionaremos a Wikidata como archivo ShEx. 324 00:21:13,323 --> 00:21:16,528 Este es un archivo ShEx para sustantivos alemanes, 325 00:21:16,528 --> 00:21:20,268 y Denny está trabajando en la conversión de nuestra especificación interna 326 00:21:20,268 --> 00:21:23,506 a una especificación de código abierto. 327 00:21:23,506 --> 00:21:27,362 Actualmente cubrimos más de 25 idiomas. 328 00:21:27,362 --> 00:21:29,065 Así que, esperamos crecer de nuestro lado, 329 00:21:29,065 --> 00:21:34,190 pero también buscamos esta oportunidad de colaborar para otros idiomas. 330 00:21:34,190 --> 00:21:40,568 Y una de las colaboraciones en curso también que Denny tiene con Lukas. 331 00:21:40,568 --> 00:21:44,892 Lukas tiene estas excelentes herramientas para tener una interfaz de usuario 332 00:21:44,892 --> 00:21:50,901 que ayude al usuario o al contribuyente a agregar más formas. 333 00:21:50,901 --> 00:21:53,991 Entonces, si desea agregar un adjetivo en francés, 334 00:21:53,991 --> 00:21:58,897 la interfaz de usuario les indica cuántas formas se esperan 335 00:21:58,897 --> 00:22:01,402 y qué tipo de características debe tener esta forma. 336 00:22:01,402 --> 00:22:06,108 Por lo tanto, nuestra máscara ayudará a definir y expandir la herramienta. 337 00:22:07,078 --> 00:22:08,225 Eso es todo. 338 00:22:08,583 --> 00:22:10,198 (Lydia) Muchas gracias. 339 00:22:10,198 --> 00:22:11,833 (aplausos) 340 00:22:14,089 --> 00:22:16,731 Bien. ¿Hay preguntas? 341 00:22:16,731 --> 00:22:19,221 ¿Quieren que hable más sobre lexemas? 342 00:22:19,527 --> 00:22:21,315 - (persona 3) Sí. - Sí. (risas) 343 00:22:33,035 --> 00:22:35,220 (persona 3) Mi pregunta viene porque estabas hablando 344 00:22:35,220 --> 00:22:38,946 de dar más acceso a más personas en más idiomas. 345 00:22:38,946 --> 00:22:42,284 Pero hay muchos idiomas que no se pueden usar en Wikidata. 346 00:22:42,284 --> 00:22:44,428 Entonces, ¿qué solución tienes para eso? 347 00:22:45,729 --> 00:22:47,526 Cuando dices que no se puede usar Wikidata, 348 00:22:47,526 --> 00:22:50,148 ¿estás hablando de ingresar etiquetas? 349 00:22:50,148 --> 00:22:52,418 - (persona 3) Etiquetas, descripciones. - Correcto. 350 00:22:52,418 --> 00:22:55,338 Entonces, para lexemas, es un poco diferente 351 00:22:55,338 --> 00:22:57,633 porque no tenemos esa restricción. 352 00:22:58,763 --> 00:23:02,584 Para las etiquetas de elementos y propiedades, 353 00:23:03,284 --> 00:23:05,193 hay algunas restricciones 354 00:23:05,193 --> 00:23:09,720 porque queríamos asegurarnos 355 00:23:09,720 --> 00:23:14,069 de que no todo el mundo haga de todo 356 00:23:14,069 --> 00:23:17,227 y se vuelva inmanejable. 357 00:23:19,189 --> 00:23:23,168 Incluso una pequeña comunidad que quiera un idioma y trabajar en él, 358 00:23:23,738 --> 00:23:26,449 hablen con nosotros, lo haremos realidad. 359 00:23:26,449 --> 00:23:29,042 (persona 3) Hicimos eso en el Hackathon de Praga en mayo, 360 00:23:29,042 --> 00:23:32,299 y nos tomó hasta casi agosto para poder usar nuestro idioma. 361 00:23:32,299 --> 00:23:34,975 - Sí. - (persona 3) Entonces, es muy lento. 362 00:23:34,975 --> 00:23:37,694 Sí, desafortunadamente así es. 363 00:23:37,694 --> 00:23:39,723 Actualmente trabajamos con el Comité de idiomas 364 00:23:39,723 --> 00:23:45,888 para resolver algunos fundamentos... 365 00:23:49,377 --> 00:23:54,972 como llegar a un acuerdo sobre qué tipo de idiomas están realmente "permitidos", 366 00:23:55,887 --> 00:23:59,238 y eso ha llevado demasiado tiempo, 367 00:23:59,668 --> 00:24:03,858 razón por la cual su solicitud tardó más de lo que debería. 368 00:24:04,448 --> 00:24:05,633 (persona 3) Gracias. 369 00:24:06,435 --> 00:24:07,730 (persona 4) Gracias a ti. 370 00:24:07,730 --> 00:24:10,778 Lydia, ¿si recuerdas las estadísticas que mostraste, 371 00:24:10,778 --> 00:24:12,726 - el número de lexemas por idioma? - Sí. 372 00:24:12,726 --> 00:24:17,439 Entonces, ¿contaste todas las formas como un punto de datos 373 00:24:17,439 --> 00:24:19,874 o solo lexemas? 374 00:24:21,129 --> 00:24:23,300 (Lydia) ¿Te refieres a esto? ¿A cuál te refieres? 375 00:24:23,300 --> 00:24:25,203 (persona 4) Sí, exactamente. 376 00:24:25,637 --> 00:24:28,181 Si recuerdas, ¿este número [inaudible] 377 00:24:28,181 --> 00:24:31,794 todas las formas para todos los lexemas o cuántos lexemas hay? 378 00:24:31,794 --> 00:24:35,045 - No, solo es el número de lexemas. - (persona 4) Solo un número de lexemas. 379 00:24:35,045 --> 00:24:36,637 Entonces, es una estadística justa 380 00:24:36,637 --> 00:24:39,230 porque si se compilan las formas, 381 00:24:39,230 --> 00:24:40,454 es por eso que pregunto, 382 00:24:40,454 --> 00:24:42,657 entonces todos los idiomas con la morfología flexiva, 383 00:24:42,657 --> 00:24:44,867 como el ruso, el serbio, el esloveno y otros, 384 00:24:44,867 --> 00:24:47,456 tienen una ventaja natural porque tienen muchos. 385 00:24:47,456 --> 00:24:51,650 Ya comienza por aquí, en este número de formas. 386 00:24:51,650 --> 00:24:53,691 (persona 4) Sí, fue este. Gracias. 387 00:24:56,386 --> 00:25:00,064 (persona 5) Tengo una pregunta rápida sobre... 388 00:25:00,484 --> 00:25:06,664 Cuando hablamos de los elementos y propiedades reales. 389 00:25:06,964 --> 00:25:08,741 Por lo que entiendo, 390 00:25:08,741 --> 00:25:11,795 actualmente no hay forma de dar una fuente real 391 00:25:11,795 --> 00:25:14,566 a ninguna de las etiquetas y descripciones que se dan. 392 00:25:14,566 --> 00:25:17,887 Entonces, por ejemplo, porque cuando hablas 393 00:25:17,887 --> 00:25:20,760 de la propiedad de un elemento, 394 00:25:20,760 --> 00:25:24,349 por ejemplo, puedes tener etiquetas en conflicto. 395 00:25:24,349 --> 00:25:25,579 Sí. 396 00:25:25,579 --> 00:25:27,502 (persona 5) Esta persona es como... 397 00:25:28,242 --> 00:25:30,621 Antes hablábamos de cosas indígenas, por ejemplo. 398 00:25:30,621 --> 00:25:35,805 Esta persona es un artista noruego según esta fuente, 399 00:25:35,805 --> 00:25:38,590 y un artista sami, según esta fuente. 400 00:25:39,390 --> 00:25:42,723 O, por ejemplo, en estonio, tuvimos un problema 401 00:25:42,723 --> 00:25:47,569 en el que cambiamos la terminología a la de uso oficial 402 00:25:47,569 --> 00:25:49,322 en los léxicos oficiales, 403 00:25:49,322 --> 00:25:52,102 pero no tenemos forma de indicar realmente por qué, 404 00:25:52,102 --> 00:25:53,436 es decir, cuál fue la fuente 405 00:25:53,436 --> 00:25:55,401 y por qué fue mejor y qué había allí antes 406 00:25:55,401 --> 00:25:56,990 solo fui yo, una persona cualquiera, 407 00:25:56,990 --> 00:25:59,455 simplemente cambiando la cosa para cualquiera que lo vea. 408 00:25:59,455 --> 00:26:02,360 ¿Hay algún plan para hacer esto posible de alguna manera 409 00:26:02,360 --> 00:26:06,195 para tener las fuentes adecuadas para los datos de un idioma? 410 00:26:06,885 --> 00:26:11,408 Entonces, es parcialmente posible. 411 00:26:11,408 --> 00:26:15,798 Por ejemplo, cuando tienes un elemento para una persona, 412 00:26:16,808 --> 00:26:22,560 tienes una declaración, nombre, apellido, etc., de esa persona, 413 00:26:22,560 --> 00:26:26,066 puedes proporcionar la referencia para eso allí. 414 00:26:28,051 --> 00:26:32,384 Dudo bastante en agregar más complejidad 415 00:26:32,384 --> 00:26:35,397 para las referencias en etiquetas y descripciones, 416 00:26:35,397 --> 00:26:38,464 pero si la gente realmente piensa 417 00:26:38,464 --> 00:26:44,779 que esto no está cubierto por ninguna referencia en la declaración, 418 00:26:44,779 --> 00:26:46,643 entonces hablemos de ello. 419 00:26:48,919 --> 00:26:53,143 Pero me temo que agregará mucha complejidad 420 00:26:53,143 --> 00:26:56,363 para lo que espero sean pocos casos, 421 00:26:57,233 --> 00:27:00,028 pero estoy dispuesta a convencerme de lo contrario 422 00:27:00,028 --> 00:27:03,927 si la gente realmente se siente muy convencida al respecto. 423 00:27:03,927 --> 00:27:08,017 (persona 5) Si se agrega, probablemente no debería ser la interfaz predeterminada 424 00:27:08,017 --> 00:27:12,292 mostrada a los usuarios principiantes, en cualquier caso. 425 00:27:12,292 --> 00:27:16,030 Más como "Haga clic aquí si necesita decir algo específico sobre esto". 426 00:27:17,472 --> 00:27:23,208 ¿Tenemos una idea de cuántas veces eso realmente importaría? 427 00:27:24,360 --> 00:27:26,263 (persona 5) En estonio, por ejemplo, 428 00:27:26,263 --> 00:27:28,684 supongo que esto también es cierto para otros idiomas, 429 00:27:29,114 --> 00:27:34,043 por ejemplo, hay un nombre oficial que es la traducción legítima actual, 430 00:27:34,043 --> 00:27:36,046 por ejemplo, al inglés, 431 00:27:36,046 --> 00:27:40,154 es decir, de un tipo de municipio. 432 00:27:40,454 --> 00:27:42,022 Ese fue mi caso de uso, por ejemplo, 433 00:27:42,022 --> 00:27:44,249 donde estábamos usando la palabra "parish", 434 00:27:44,999 --> 00:27:50,345 que en estonio se refería a una especie de parroquia de la iglesia, 435 00:27:50,345 --> 00:27:51,499 y ese fue el origen, 436 00:27:51,499 --> 00:27:54,412 pero esa no es la traducción oficial que tiene Estonia en este momento. 437 00:27:54,889 --> 00:27:58,833 En este caso, simplemente lo agregaría como declaraciones de nombre oficiales 438 00:27:58,833 --> 00:28:00,657 y agregaría la referencia allí. 439 00:28:01,872 --> 00:28:02,998 (persona 5) Bien. 440 00:28:05,026 --> 00:28:06,412 ¿Preguntas? ¿Sí? 441 00:28:07,522 --> 00:28:09,884 (Asaf) Tengo dos comentarios rápidos. 442 00:28:09,884 --> 00:28:13,774 Llamaste específicamente al asturiano como un idioma que funciona bien, 443 00:28:13,774 --> 00:28:16,145 y creo que es una observación equívoca. 444 00:28:16,145 --> 00:28:17,464 Cuéntame sobre eso. 445 00:28:17,464 --> 00:28:19,588 (Asaf) Creo que es solo un bot 446 00:28:19,588 --> 00:28:23,908 que pegó nombres de personas, como nombres propios, 447 00:28:23,908 --> 00:28:27,012 y dijo: "Bueno, esto es exactamente como en francés o español", 448 00:28:27,012 --> 00:28:28,398 y solo lo copió masivamente. 449 00:28:28,398 --> 00:28:33,156 Un punto de evidencia es que no se ve esa energía en asturiano 450 00:28:33,156 --> 00:28:37,045 en cosas que requieren traducción, como nombres de propiedades 451 00:28:37,045 --> 00:28:39,488 o nombres de elementos que no son nombres propios. 452 00:28:39,488 --> 00:28:41,059 Asaf, me rompes el corazón. 453 00:28:41,059 --> 00:28:43,038 (Asaf) Lo sé, me gusta ser aguafiestas, 454 00:28:43,038 --> 00:28:48,298 pero también tengo buenas noticias, sobre los números de pronunciación. 455 00:28:49,248 --> 00:28:53,355 Probablemente sepan que Commons está llena de archivos de pronunciación, 456 00:28:53,355 --> 00:28:54,508 y, por ejemplo, 457 00:28:54,508 --> 00:29:00,826 el holandés tiene no menos de 300 000 archivos de pronunciación en Commons 458 00:29:01,752 --> 00:29:04,891 que solo necesitan ser ingeridos de alguna manera. 459 00:29:04,891 --> 00:29:07,537 Si alguien está buscando un proyecto paralelo, 460 00:29:07,537 --> 00:29:08,837 hay toneladas y toneladas 461 00:29:08,837 --> 00:29:13,120 de archivos de pronunciación clasificados y categorizados en Commons 462 00:29:13,120 --> 00:29:16,733 bajo la categoría Pronunciación por idioma. 463 00:29:16,733 --> 00:29:22,680 Así que eso está esperando ser emparejado con lexemas y ponerse en Lexemas. 464 00:29:22,950 --> 00:29:25,254 Y me preguntaba si podrías decir algo 465 00:29:25,254 --> 00:29:26,355 sobre la hoja de ruta, 466 00:29:26,355 --> 00:29:28,527 algo acerca de cuánta inversión 467 00:29:28,527 --> 00:29:31,765 o qué podemos esperar de Lexemas en el próximo año, 468 00:29:31,765 --> 00:29:33,790 porque, por mi parte, no puedo esperar. 469 00:29:34,789 --> 00:29:36,884 ¿No puedes esperar? (risas) 470 00:29:36,884 --> 00:29:38,958 - (Asaf) Por más. - Sí. (risas) 471 00:29:44,381 --> 00:29:49,363 Ahora nos estamos concentrando más en Wikibase y la calidad de los datos 472 00:29:51,333 --> 00:29:54,927 para ver cuánta tracción obtiene 473 00:29:54,927 --> 00:30:01,516 y luego tener más información de los puntos débiles 474 00:30:01,516 --> 00:30:05,843 y luego volver a mejorar aún más los datos lexicográficos. 475 00:30:06,743 --> 00:30:09,630 Y una de las cosas que me encantaría saber de ustedes 476 00:30:09,630 --> 00:30:13,976 es dónde ven exactamente los próximos pasos, 477 00:30:13,976 --> 00:30:15,806 dónde desean ver mejoras 478 00:30:15,806 --> 00:30:20,180 para que luego podamos descubrir cómo hacer que suceda. 479 00:30:20,965 --> 00:30:22,650 Pero, por supuesto, tienes razón, 480 00:30:22,650 --> 00:30:25,552 todavía hay mucho por hacer también en el aspecto técnico. 481 00:30:30,413 --> 00:30:35,688 (persona 7) Mientras cargábamos las palabras vascas con formas y sentidos 482 00:30:35,688 --> 00:30:37,608 y ese tipo de cosas, 483 00:30:37,608 --> 00:30:41,169 la semana pasada decíamos: "Oh, somos los primeros en algo". 484 00:30:42,759 --> 00:30:44,768 Aparece en la prensa y dice: 485 00:30:44,768 --> 00:30:49,328 "Oh, los vascos son los primeros... son los primeros en algo", está bien. 486 00:30:49,328 --> 00:30:50,446 (risas) 487 00:30:50,446 --> 00:30:53,158 Y luego la gente pregunta: "Bien, pero ¿para qué sirve esto?" 488 00:30:54,518 --> 00:30:56,689 No tenemos una muy buena respuesta. 489 00:30:56,689 --> 00:30:57,728 Es decir, está bien, 490 00:30:57,728 --> 00:31:01,681 esto ayudará a las computadoras a comprender más nuestro idioma, sí, 491 00:31:01,681 --> 00:31:05,119 pero ¿qué tipo de herramientas podemos hacer en el futuro? 492 00:31:05,119 --> 00:31:07,307 Y no tenemos una buena respuesta para esto. 493 00:31:07,307 --> 00:31:10,465 Así que no sé si tienes una buena respuesta para esto. 494 00:31:10,465 --> 00:31:12,582 (risas) No sé si tengo una buena, 495 00:31:12,582 --> 00:31:14,586 pero tengo una respuesta. 496 00:31:15,320 --> 00:31:20,265 Creo que en este momento, como les decía, 497 00:31:20,265 --> 00:31:21,764 no hemos alcanzado esa masa crítica 498 00:31:21,764 --> 00:31:25,369 en la que puedes construir muchas de las herramientas interesantes. 499 00:31:25,369 --> 00:31:27,547 Pero ya hay algunas herramientas. 500 00:31:28,107 --> 00:31:31,752 Justo el otro día, Esther [Pandelia], por ejemplo, 501 00:31:31,752 --> 00:31:33,657 lanzó una herramienta donde pueden ver, 502 00:31:35,677 --> 00:31:38,729 creo que fueron las palabras en un globo 503 00:31:38,729 --> 00:31:41,741 donde se habla más, de dónde vienen. 504 00:31:42,471 --> 00:31:43,930 Puede que me equivoque, 505 00:31:43,930 --> 00:31:46,186 pero ella respondió en el chat del Proyecto en Wikidata, 506 00:31:46,186 --> 00:31:48,824 pueden buscarlo allí. 507 00:31:49,414 --> 00:31:51,645 Así que hemos visto estas primeras herramientas, 508 00:31:51,645 --> 00:31:55,536 tal como las vimos cuando comenzó Wikidata. 509 00:31:56,686 --> 00:31:59,442 Primero solo era una red 510 00:31:59,442 --> 00:32:03,264 y "Oye, mira, hay una cosa que se conecta con esta otra cosa". 511 00:32:04,664 --> 00:32:06,899 Y a medida que tenemos más datos, 512 00:32:06,899 --> 00:32:10,192 y a medida que alcanzamos cierta masa crítica, 513 00:32:11,602 --> 00:32:14,497 se hacen posibles aplicaciones más potentes, 514 00:32:15,407 --> 00:32:17,246 como Histropedia, 515 00:32:18,846 --> 00:32:21,708 cosas como preguntas y respuestas 516 00:32:21,708 --> 00:32:26,383 en tu asistente personal digital, Platypus, etc. 517 00:32:26,383 --> 00:32:29,388 Y estamos viendo algo similar con los lexemas. 518 00:32:31,038 --> 00:32:34,490 Estamos en la etapa en la que puedes construir así de pequeño 519 00:32:34,490 --> 00:32:37,304 y oye, mira, hay una conexión entre las dos cosas, 520 00:32:37,704 --> 00:32:42,578 y la etapa de traducción de esta palabra a ese lenguaje, 521 00:32:42,578 --> 00:32:47,587 y a medida que la desarrollamos y a medida que describimos más palabras, 522 00:32:47,587 --> 00:32:49,373 más se hace posible. 523 00:32:49,373 --> 00:32:51,635 Ahora, ¿qué se hace posible? 524 00:32:53,322 --> 00:32:59,323 Como Ben, nuestro orador principal, al comenzar habló de traducciones, 525 00:32:59,943 --> 00:33:03,295 pudiendo traducir de un idioma a otro. 526 00:33:03,295 --> 00:33:07,769 Y Jens, mi colega, siempre habla 527 00:33:07,769 --> 00:33:11,292 de que la Unión Europea busca un traductor 528 00:33:11,292 --> 00:33:17,279 que pueda traducir de... creo que fue de maltés al sueco. 529 00:33:17,279 --> 00:33:19,276 - (persona 8) Estonio. - Estonio. 530 00:33:21,856 --> 00:33:26,051 Y esa no es una combinación habitual. 531 00:33:27,051 --> 00:33:31,575 Y una vez que estos idiomas estén en un lugar que una máquina pueda leer, 532 00:33:31,575 --> 00:33:32,983 ustedes podrán hacerlo, 533 00:33:32,983 --> 00:33:36,697 podrán tener un diccionario 534 00:33:36,697 --> 00:33:41,575 del estonio al maltés y viceversa. 535 00:33:42,775 --> 00:33:45,447 Por lo tanto, cubrir combinaciones de idiomas en diccionarios 536 00:33:45,447 --> 00:33:47,751 que simplemente no se han cubierto antes 537 00:33:47,751 --> 00:33:50,890 porque no había suficiente demanda, por ejemplo, 538 00:33:50,890 --> 00:33:55,380 para que sea financieramente viable y para justificar el trabajo. 539 00:33:55,380 --> 00:33:56,987 Ahora podemos hacer eso. 540 00:33:59,637 --> 00:34:02,158 Luego generación de texto. 541 00:34:02,158 --> 00:34:04,032 Lucie estaba hablando 542 00:34:04,032 --> 00:34:09,976 de cómo está trabajando con Hattie en la generación de texto 543 00:34:09,976 --> 00:34:14,373 para iniciar artículos de Wikipedia en idiomas minoritarios, 544 00:34:15,263 --> 00:34:19,352 y eso necesita datos sobre palabras, 545 00:34:19,352 --> 00:34:22,429 y ustedes necesitan entender el idioma para hacerlo. 546 00:34:23,359 --> 00:34:27,973 Sí, y esos son solo algunos que me vienen a la mente justo ahora. 547 00:34:28,533 --> 00:34:31,174 Tal vez nuestra audiencia tenga más ideas de lo que quieren hacer 548 00:34:31,174 --> 00:34:34,193 cuando tengamos todos los datos gloriosos. 549 00:34:37,533 --> 00:34:40,732 (persona 9) Me desviaré del tema de los lexemas. 550 00:34:40,732 --> 00:34:42,506 Haré la pregunta, 551 00:34:42,506 --> 00:34:45,474 ¿cómo puedo, como miembro de la comunidad, 552 00:34:45,474 --> 00:34:49,975 influir en que esa tarea sea prioridad, 553 00:34:49,975 --> 00:34:56,484 que un nuevo usuario pueda indicar qué idiomas quiere ver y editar 554 00:34:56,484 --> 00:35:00,975 sin algún conocimiento secreto de plantillas verbales? 555 00:35:01,985 --> 00:35:04,893 Quizás exista este año esta lista de deseos técnicos 556 00:35:04,893 --> 00:35:06,880 sin temas de Wikipedia. 557 00:35:06,880 --> 00:35:09,959 Tal vez haya una esperanza de que todos podamos votar 558 00:35:09,959 --> 00:35:14,058 sobre esto que no arreglamos durante siete años. 559 00:35:14,695 --> 00:35:17,354 ¿Tienen alguna idea o comentario sobre esto? 560 00:35:18,057 --> 00:35:20,168 ¿Estás hablando del hecho 561 00:35:20,168 --> 00:35:23,178 de que alguien que no ha iniciado sesión en Wikidata 562 00:35:23,178 --> 00:35:25,671 no puede cambiar su idioma fácilmente? 563 00:35:25,671 --> 00:35:27,679 (persona 9) No, para usuarios [inaudibles]. 564 00:35:28,149 --> 00:35:30,529 Por lo tanto, si inician sesión, 565 00:35:30,529 --> 00:35:34,711 pueden cambiar su idioma en la parte superior de la página, 566 00:35:35,731 --> 00:35:37,939 y luego aparecerá 567 00:35:39,489 --> 00:35:41,853 donde están las descripciones de las etiquetas [inaudible], 568 00:35:41,853 --> 00:35:43,323 y pueden editarlo. 569 00:35:45,497 --> 00:35:48,849 (persona 9) Bueno, en realidad, muchas veces el flujo de trabajo 570 00:35:48,849 --> 00:35:52,287 es que si quieres tener varios idiomas, estén disponibles, 571 00:35:52,287 --> 00:35:55,259 y no siempre es así. 572 00:35:55,259 --> 00:35:58,424 Bien, tal vez deberíamos sentarnos después de esta charla y me lo muestras. 573 00:36:01,402 --> 00:36:03,693 Genial. ¿Más preguntas? 574 00:36:05,314 --> 00:36:06,316 Sí. 575 00:36:11,435 --> 00:36:13,036 (persona 10) Gracias por la presentación. 576 00:36:13,886 --> 00:36:14,967 ¿Puede comentarnos 577 00:36:14,967 --> 00:36:19,147 sobre el estado de la correlación con la comunidad de Wiktionary? 578 00:36:19,147 --> 00:36:22,136 Hasta donde he visto, hubo algunas discusiones 579 00:36:22,136 --> 00:36:25,891 sobre la importación de algunos elementos del trabajo, 580 00:36:25,891 --> 00:36:30,683 pero parece haber problemas de licencia y algunos desacuerdos, etc. 581 00:36:30,683 --> 00:36:31,688 Correcto. 582 00:36:31,688 --> 00:36:36,170 Bueno, las comunidades de Wiktionary han pasado mucho tiempo 583 00:36:37,160 --> 00:36:39,313 construyendo Wiktionary. 584 00:36:39,313 --> 00:36:42,483 Han creado 585 00:36:43,033 --> 00:36:47,394 plantillas increíblemente complicadas y complejas 586 00:36:47,394 --> 00:36:53,454 para crear tablas bonitas que generan automáticamente formas para ustedes 587 00:36:53,454 --> 00:36:56,232 y todo tipo de cosas realmente impresionantes 588 00:36:56,232 --> 00:37:00,325 y cosas un poco locas, si lo piensan. 589 00:37:02,151 --> 00:37:07,834 Y, por supuesto, han invertido mucho tiempo y esfuerzo en eso. 590 00:37:09,204 --> 00:37:11,641 Y comprensiblemente, 591 00:37:11,641 --> 00:37:16,956 no quieren que simplemente sea tomado, 592 00:37:17,886 --> 00:37:18,942 así como así. 593 00:37:18,942 --> 00:37:21,631 En parte viene de eso. 594 00:37:22,404 --> 00:37:24,780 Y eso está bien, no hay problema. 595 00:37:25,577 --> 00:37:31,932 Ahora, las primeras comunidades de Wiktionary están hablando de producir 596 00:37:31,932 --> 00:37:34,169 e importar algunos de sus datos a Wikidata. 597 00:37:34,169 --> 00:37:38,935 El ruso, como han visto, por ejemplo, es uno de esos casos 598 00:37:40,125 --> 00:37:42,105 y espero que suceda más. 599 00:37:43,475 --> 00:37:46,640 Pero será un proceso lento, 600 00:37:46,640 --> 00:37:49,223 al igual que la adopción de los datos de Wikidata en Wikipedia 601 00:37:49,223 --> 00:37:51,749 ha sido un proceso bastante lento. 602 00:37:52,689 --> 00:37:56,023 Por otro lado, hacer que sea más fácil 603 00:37:56,023 --> 00:37:58,972 usar los datos que están en lexemas, 604 00:37:58,972 --> 00:38:02,049 en Wiktionary, para que puedan hacer uso de eso 605 00:38:02,049 --> 00:38:05,371 y compartir datos entre los Wiktionarios de los idioma, 606 00:38:05,371 --> 00:38:08,693 que es muy difícil o imposible en este momento, 607 00:38:08,693 --> 00:38:11,400 lo cual es una locura, como con Wikipedia. 608 00:38:13,590 --> 00:38:16,055 Esperen por el regalo de cumpleaños. 609 00:38:19,738 --> 00:38:20,772 Sí. 610 00:38:22,439 --> 00:38:24,667 (persona 11) Mientras lo pensaba, 611 00:38:24,667 --> 00:38:28,008 no quise decirlo porque pensaba que sería supertonto, 612 00:38:28,008 --> 00:38:31,843 pero creo que Wiktionary ya tiene algo de contenido, 613 00:38:31,843 --> 00:38:34,818 y sé que no podemos transferirlo a Wikidata 614 00:38:34,818 --> 00:38:36,888 porque hay una diferencia en las licencias. 615 00:38:36,888 --> 00:38:39,471 Pero estaba pensando que tal vez podamos hacer algo al respecto. 616 00:38:40,161 --> 00:38:45,103 Tal vez, no sé, podemos obtener el permiso de las comunidades 617 00:38:45,603 --> 00:38:51,045 luego de, no sé, tener una votación pública 618 00:38:51,045 --> 00:38:55,482 y para que la comunidad, los miembros activos de la comunidad 619 00:38:55,482 --> 00:39:02,363 voten y digan si desean o aceptan transferir el contenido 620 00:39:02,363 --> 00:39:05,368 para el que pueden hacer los lexemas de Wikidata. 621 00:39:06,078 --> 00:39:08,377 Porque creo que es un desperdicio. 622 00:39:09,408 --> 00:39:14,283 Por lo tanto, esa es definitivamente una conversación que las personas 623 00:39:14,283 --> 00:39:18,089 que están en las comunidades de Wiktionary son bienvenidas a plantear. 624 00:39:18,089 --> 00:39:24,487 Creo que sería un poco presuntuoso para nosotros ir y forzar eso. 625 00:39:25,757 --> 00:39:30,982 Pero sí, creo que definitivamente vale la pena tener una conversación. 626 00:39:30,982 --> 00:39:33,738 Pero creo que también es importante entender 627 00:39:33,738 --> 00:39:38,922 que hay una distinción entre lo que está legalmente permitido 628 00:39:38,922 --> 00:39:42,987 y lo que deberíamos estar haciendo, 629 00:39:42,987 --> 00:39:45,266 y lo que esas personas quieren o no quieren. 630 00:39:45,576 --> 00:39:47,169 Incluso si está legalmente permitido, 631 00:39:47,169 --> 00:39:50,480 si algunas otras comunidades de Wiktionary no quieran eso, 632 00:39:50,480 --> 00:39:53,377 al menos yo tendría cuidado. 633 00:39:58,726 --> 00:40:02,329 Creo que necesitas el micrófono para la transmisión. 634 00:40:04,380 --> 00:40:07,139 (persona 12) Obviamente, todo es muy emocionante, 635 00:40:07,819 --> 00:40:12,159 e inmediatamente pienso cómo puedo llevar eso a mis estudiantes 636 00:40:12,159 --> 00:40:15,398 y cómo puedo incorporarlo a los cursos, 637 00:40:15,398 --> 00:40:18,371 el trabajo que estamos haciendo, los entornos educativos. 638 00:40:18,371 --> 00:40:22,111 Y no tengo, en este momento, 639 00:40:22,111 --> 00:40:23,956 en primer lugar, suficiente conocimiento, 640 00:40:23,956 --> 00:40:27,118 pero creo que la documentación que tenemos 641 00:40:27,648 --> 00:40:29,922 podría ser mejorada. 642 00:40:29,922 --> 00:40:33,277 Esa es una especie de solicitud para hacer videos geniales 643 00:40:33,277 --> 00:40:35,738 que expliquen cómo funciona 644 00:40:35,738 --> 00:40:39,788 porque si lo tenemos, podemos usarlo, 645 00:40:39,788 --> 00:40:41,825 y podemos tener estudiantes a bordo, 646 00:40:41,825 --> 00:40:46,912 y podemos hacer que la gente entienda lo increíble que es todo. 647 00:40:46,912 --> 00:40:51,841 Y sí, solo piensen en la documentación y en la educación, por favor. 648 00:40:51,841 --> 00:40:54,320 Porque creo que se podría hacer mucho. 649 00:40:54,320 --> 00:40:58,425 Estas son como muchas tareas que podrían hacerse incluso con... 650 00:40:59,965 --> 00:41:01,873 bueno, no diría escuelas primarias, 651 00:41:01,873 --> 00:41:05,335 pero ciertamente, incluso estudiantes más jóvenes. 652 00:41:05,755 --> 00:41:10,706 Entonces, realmente me gustaría ver ese potencial aprovechado 653 00:41:10,706 --> 00:41:15,112 y, a partir de ahora, personalmente no entiendo lo suficiente 654 00:41:15,112 --> 00:41:19,340 como para poder crear tareas o crear como... 655 00:41:20,270 --> 00:41:21,995 hacer algo práctico con eso. 656 00:41:21,995 --> 00:41:25,612 Cualquier ayuda o pensamiento que alguien tenga sobre eso, 657 00:41:25,612 --> 00:41:29,488 estaría muy feliz de escucharlas también. 658 00:41:30,348 --> 00:41:31,969 Sí, hablemos de eso. 659 00:41:35,243 --> 00:41:36,759 ¿Más preguntas? 660 00:41:37,649 --> 00:41:39,035 Alguien más levantó una mano. 661 00:41:39,035 --> 00:41:40,335 Olvidé dónde estaba. 662 00:41:45,579 --> 00:41:49,836 (persona 13) Si no podemos importar desde Wiktionary, 663 00:41:49,836 --> 00:41:55,612 ¿hay algún esfuerzo concertado en hallar otras fuentes de dominio público, 664 00:41:55,612 --> 00:41:57,299 tal vez todos los datos 665 00:41:58,609 --> 00:42:03,007 y algún tipo de filtro previo, organizarlo 666 00:42:03,007 --> 00:42:08,310 que sea fácil de revisar y así importarlo? 667 00:42:08,933 --> 00:42:11,021 Se han tomado medidas iniciales. 668 00:42:11,021 --> 00:42:14,609 Tengo entendido que el vasco es uno de esos esfuerzos. 669 00:42:14,609 --> 00:42:17,314 ¿Quizás quieras decir un poco más al respecto? 670 00:42:18,266 --> 00:42:19,970 (persona 7) [inaudible] 671 00:42:23,006 --> 00:42:26,988 Bueno, la respuesta real es pagar por eso. 672 00:42:28,214 --> 00:42:33,221 Tenemos un acuerdo con un contratista con el que usualmente trabajamos. 673 00:42:34,641 --> 00:42:38,095 Hacen diccionarios, 674 00:42:40,155 --> 00:42:42,436 y muchas cosas, pero hacen diccionarios. 675 00:42:43,268 --> 00:42:47,313 Acordamos con ellos para liberar el diccionario de los estudiantes, 676 00:42:47,313 --> 00:42:52,622 seleccionamos las palabras más comunes y comenzaríamos a cargarlo 677 00:42:52,622 --> 00:42:55,430 con un identificador externo y el esquema de las cosas. 678 00:42:58,060 --> 00:43:02,425 Pero hubo una discusión acerca de dejarlo en CC0 679 00:43:03,052 --> 00:43:05,162 porque tienen el diccionario con CC 680 00:43:06,377 --> 00:43:10,166 y entendieron cuál era la diferencia. 681 00:43:10,166 --> 00:43:13,706 Entonces hubo una discusión. 682 00:43:13,706 --> 00:43:19,549 Pero creo que proporcionaremos algunas herramientas o ejemplos en el futuro, 683 00:43:19,549 --> 00:43:23,856 y creo que habrán otros diccionarios que podamos manejar, 684 00:43:23,856 --> 00:43:29,114 y también creo que Wiktionary debe comenzar a moverse en esa dirección, 685 00:43:29,114 --> 00:43:32,100 pero esa es otra gran discusión. 686 00:43:33,125 --> 00:43:34,327 Y además de eso, 687 00:43:34,327 --> 00:43:38,679 Lea también está en contacto con personas occitanas 688 00:43:38,679 --> 00:43:41,667 que trabajan en diccionarios occitanos, 689 00:43:41,667 --> 00:43:44,978 y actualmente están trabajando en una colaboración de sumerio. 690 00:43:51,384 --> 00:43:53,103 ¿Más preguntas? 691 00:44:01,327 --> 00:44:05,189 (persona 14) ¡Hola! Somos las personas que queremos importar datos occitanos. 692 00:44:05,189 --> 00:44:06,425 ¡Ajá! ¡Perfecto! 693 00:44:06,425 --> 00:44:08,208 (persona 14) Y tenemos un pequeño problema. 694 00:44:09,028 --> 00:44:14,055 No sabemos cómo representar la variedad de todos los lexemas. 695 00:44:14,055 --> 00:44:17,733 Tenemos seis dialectos 696 00:44:17,733 --> 00:44:23,854 y queremos indicarle a Lexemas en qué dialecto se usa 697 00:44:23,854 --> 00:44:27,125 y no tenemos una declaración C0 adecuada para hacerlo. 698 00:44:27,125 --> 00:44:30,945 Por lo tanto, mientras la declaración no exista, 699 00:44:31,475 --> 00:44:34,305 nos impide impulsarlo 700 00:44:34,305 --> 00:44:37,443 porque tendremos que volver a hacerlo 701 00:44:37,443 --> 00:44:41,916 cuando podamos [sacar provecho] a la declaración. 702 00:44:41,916 --> 00:44:44,391 Y es complicado porque es una declaración 703 00:44:44,391 --> 00:44:47,642 que muchas personas no pedirán 704 00:44:47,642 --> 00:44:53,284 porque es una declaración que se refiere principalmente a los idiomas minoritarios. 705 00:44:53,284 --> 00:44:56,773 Tendrás una sola persona que lo pida, 706 00:44:56,773 --> 00:44:59,862 pero, como nuestros colegas vascos, 707 00:44:59,862 --> 00:45:05,922 puede ser una persona que impulsará a miles de otros, 708 00:45:05,922 --> 00:45:10,724 por lo que puede que no se pida mucho, 709 00:45:10,724 --> 00:45:13,976 pero será muy importante para nosotros. 710 00:45:14,714 --> 00:45:17,440 ¿Ya tienen una nueva propuesta de propiedad 711 00:45:17,440 --> 00:45:19,310 o necesitan ayuda para crearla? 712 00:45:21,364 --> 00:45:24,140 (persona 14) La solicitamos hace cuatro meses. 713 00:45:24,560 --> 00:45:28,595 Entonces hagamos que algunas personas ayuden con esta propuesta de propiedad. 714 00:45:29,929 --> 00:45:32,932 Estoy seguro de que hay suficientes personas en esta sala para que suceda. 715 00:45:32,932 --> 00:45:35,511 (persona 15) Propuesta de propiedad [hablando en francés]. 716 00:45:35,511 --> 00:45:36,497 (persona 16) No tuvimos respuesta. 717 00:45:36,497 --> 00:45:39,539 (persona 14) No tuvimos respuesta, y no sabemos cómo hacerlo 718 00:45:39,539 --> 00:45:42,793 porque no estamos en la comunidad de Wikidata. 719 00:45:44,534 --> 00:45:48,657 Sí, así que hay personas aquí que pueden ayudarte. 720 00:45:48,657 --> 00:45:51,974 Quizás alguien levante la mano para tomar... 721 00:45:51,974 --> 00:45:53,484 (persona 7) Estoy para eso. 722 00:45:53,484 --> 00:45:55,352 Pero creo que esto es bastante interesante 723 00:45:55,352 --> 00:45:58,899 no solo por la variante de forma 724 00:45:58,899 --> 00:46:02,447 también puede manejarse geográficamente, 725 00:46:02,447 --> 00:46:04,835 con coordenadas o algún tipo de mapeo. 726 00:46:05,435 --> 00:46:07,655 También tener diferentes pronunciaciones, 727 00:46:07,655 --> 00:46:11,677 y creo que esto es algo que sucede en muchos idiomas. 728 00:46:12,447 --> 00:46:16,102 Deberíamos comenzar a hacer que suceda [inaudible], 729 00:46:16,102 --> 00:46:18,705 y voy a buscar la propiedad. 730 00:46:19,622 --> 00:46:20,773 Genial. 731 00:46:20,773 --> 00:46:24,286 Entonces obtendrás respaldo para tu propuesta de propiedad. 732 00:46:25,976 --> 00:46:27,137 Gracias. 733 00:46:27,993 --> 00:46:30,101 Muy bien, ¿más preguntas? 734 00:46:32,250 --> 00:46:33,584 Finn. 735 00:46:33,584 --> 00:46:34,895 Finn es una de esas personas 736 00:46:34,895 --> 00:46:37,371 que construye cosas sobre datos lexicográficos. 737 00:46:37,371 --> 00:46:39,925 (Finn) Es solo una pequeña pregunta, 738 00:46:40,245 --> 00:46:44,066 y se trata de variaciones ortográficas. 739 00:46:44,736 --> 00:46:47,842 Parece difícil ponerlos en... 740 00:46:48,282 --> 00:46:53,118 Podría, por supuesto, tener múltiples formas para la misma palabra. 741 00:46:56,167 --> 00:46:58,288 No sé, parece que 742 00:46:59,398 --> 00:47:03,375 si no lo haces así parece ser difícil de especificar... 743 00:47:04,611 --> 00:47:05,728 o no sé 744 00:47:05,728 --> 00:47:09,571 si esto es solo un problema técnico menor o si... 745 00:47:09,571 --> 00:47:11,092 Veámoslo juntos. 746 00:47:11,332 --> 00:47:14,920 Me encantaría ver un ejemplo. 747 00:47:17,318 --> 00:47:18,318 Asaf. 748 00:47:26,726 --> 00:47:28,236 (Asaf) Gracias. 749 00:47:29,226 --> 00:47:33,525 Puedo dar un ejemplo muy concreto de mi lengua materna, el hebreo. 750 00:47:34,045 --> 00:47:38,685 El hebreo tiene dos variantes principales 751 00:47:38,685 --> 00:47:42,626 para expresar casi todas las palabras 752 00:47:42,626 --> 00:47:47,480 porque la ortografía tradicional 753 00:47:47,480 --> 00:47:49,884 omite muchas de las vocales. 754 00:47:50,774 --> 00:47:55,047 Y, por lo tanto, en las ediciones modernas de la Biblia y de la poesía, 755 00:47:55,047 --> 00:47:57,301 se usan diacríticos. 756 00:47:57,301 --> 00:48:02,510 Sin embargo, esos signos diacríticos nunca se usan para la prosa moderna 757 00:48:02,510 --> 00:48:05,814 o la escritura de periódicos o letreros de la calle. 758 00:48:05,814 --> 00:48:11,049 El uso informal diario promedio pone vocales adicionales 759 00:48:12,009 --> 00:48:13,359 y no usa los signos diacríticos 760 00:48:13,359 --> 00:48:15,447 porque son, por supuesto, más engorrosos 761 00:48:15,447 --> 00:48:17,733 y tienen todo tipo de reglas y nadie las conoce. 762 00:48:18,473 --> 00:48:20,371 Entonces, básicamente hay dos variantes. 763 00:48:20,371 --> 00:48:25,162 Existe la variante de la prosa informal cotidiana, 764 00:48:25,162 --> 00:48:27,667 y está la Biblia o la poesía, 765 00:48:27,667 --> 00:48:31,830 que siempre viene en este texto diacrítico tradicional. 766 00:48:31,830 --> 00:48:33,142 Para ser útil, 767 00:48:33,142 --> 00:48:37,268 Lexema tendría que reconocer ambas variedades de cada palabra 768 00:48:37,268 --> 00:48:39,587 y cada forma de cada palabra. 769 00:48:40,517 --> 00:48:43,231 Es un caso de uso muy completo 770 00:48:43,231 --> 00:48:46,180 para las variantes estables oficiales. 771 00:48:46,180 --> 00:48:48,782 No es dialecto, no son regiones, 772 00:48:49,062 --> 00:48:53,357 son básicamente dos sistemas morfológicos coexistentes. 773 00:48:54,377 --> 00:48:58,766 Y tampoco sé exactamente cómo expresarlo en Lexema, 774 00:48:58,766 --> 00:49:02,640 cosa que me impide responder parcialmente a la pregunta de Magnus 775 00:49:02,640 --> 00:49:05,078 de subir las partes que están listas 776 00:49:05,078 --> 00:49:09,234 del mayor diccionario hebreo, que es de dominio público 777 00:49:09,234 --> 00:49:12,981 y que he estado digitalizando durante varios años. 778 00:49:12,981 --> 00:49:14,643 Una buena parte está lista, 779 00:49:14,643 --> 00:49:16,389 pero no la pongo en Lexema en este momento 780 00:49:16,389 --> 00:49:20,085 porque no sé exactamente cómo resolver este problema. 781 00:49:20,085 --> 00:49:23,227 Muy bien, solucionemos este problema aquí. (risas) 782 00:49:24,343 --> 00:49:25,861 Eso tiene que ser posible. 783 00:49:29,741 --> 00:49:31,743 Muy bien, ¿más preguntas? 784 00:49:36,861 --> 00:49:39,423 Si no, muchas gracias. 785 00:49:40,355 --> 00:49:45,026 (aplausos)