0:00:06.073,0:00:07.202
(Lydia) Muchas gracias.
0:00:07.202,0:00:11.284
En esta conferencia, uno de los grandes[br]temas son los idiomas.
0:00:13.710,0:00:17.969
Quiero darles una visión general[br]de dónde estamos actualmente
0:00:17.969,0:00:19.652
en lo que respecta a los idiomas
0:00:20.104,0:00:22.007
y hacia dónde podemos ir desde aquí.
0:00:28.876,0:00:32.420
Wikidata se trata de dar a más personas[br]más acceso a más conocimiento,
0:00:32.420,0:00:37.008
y el lenguaje es una parte importante[br]para hacer que esto sea una realidad,
0:00:38.045,0:00:43.131
porque cada vez más nuestras vidas[br]dependen de la tecnología.
0:00:43.954,0:00:48.713
Y como nuestro orador principal decía hoy,
0:00:49.473,0:00:51.428
parte de la tecnología [br]deja atrás a las personas
0:00:51.428,0:00:54.860
simplemente porque no pueden[br]hablar un determinado idioma,
0:00:55.160,0:00:57.413
y eso no está bien.
0:00:58.473,0:01:01.937
Entonces queremos hacer algo al respecto.
0:01:02.767,0:01:05.681
Y para cambiar eso, [br]necesitan al menos dos cosas.
0:01:06.251,0:01:11.110
Una es que deben proporcionar contenido[br]a las personas en su idioma,
0:01:11.110,0:01:12.795
y la segunda cosa que necesitan
0:01:12.795,0:01:15.750
es proporcionarles [br]interacción en su idioma
0:01:15.750,0:01:19.029
en esas aplicaciones [br]o lo que sea que tenga.
0:01:20.207,0:01:25.117
Y Wikidata ayuda con ambas cosas.
0:01:25.677,0:01:28.248
Lo primero, contenido en su idioma,
0:01:28.248,0:01:30.719
eso es básicamente lo que tenemos[br]en elementos y propiedades,
0:01:31.089,0:01:32.782
cómo describimos el mundo.
0:01:32.782,0:01:34.925
Ahora, esto ciertamente [br]no es todo lo que necesitan,
0:01:34.925,0:01:39.134
pero eso ya es un gran avance.
0:01:39.604,0:01:41.687
La otra cosa [br]es la interacción en su idioma,
0:01:41.687,0:01:46.089
y ahí es donde [br]entran en juego los lexemas.
0:01:46.089,0:01:49.222
Si desean hablar [br]con su asistente personal digital
0:01:49.222,0:01:54.758
o si desean que su dispositivo[br]traduzca un texto y cosas así.
0:01:56.112,0:01:59.094
Muy bien, veamos [br]el Contenido en su idioma.
0:01:59.094,0:02:03.236
Entonces, lo que tenemos [br]en elementos y propiedades.
0:02:05.246,0:02:09.536
Para esto, las etiquetas en esos [br]elementos y propiedades son cruciales.
0:02:10.076,0:02:14.706
Necesitamos saber cómo se llama [br]esta entidad de la que estamos hablando.
0:02:15.496,0:02:19.827
Y en lugar de hablar sobre Q5,
0:02:19.827,0:02:22.020
alguien que habla inglés [br]sabe que es un "humano",
0:02:22.020,0:02:24.546
alguien que habla alemán [br]sabe que es un "mensch"
0:02:24.546,0:02:26.214
y cosas similares.
0:02:26.214,0:02:29.582
Entonces, esas etiquetas [br]en elementos y propiedades
0:02:29.582,0:02:33.459
están cerrando la brecha [br]entre humanos y máquinas.
0:02:33.459,0:02:35.189
Y humanos y humanos
0:02:35.189,0:02:39.750
haciendo más conocimiento existente[br]accesible para ellos.
0:02:42.950,0:02:46.130
Ahora, esa es una buena aspiración.
0:02:46.130,0:02:48.052
¿Cómo se vería realmente?
0:02:48.052,0:02:49.447
Se vería como esto.
0:02:50.637,0:02:52.386
Lo que están viendo aquí
0:02:52.386,0:02:58.336
es que la mayoría de los elementos[br]en Wikidata tienen dos etiquetas,
0:02:58.336,0:03:00.607
por lo que las etiquetas[br]están en dos idiomas.
0:03:01.537,0:03:05.508
Y después de eso, es uno, y luego tres,[br]y luego se pone muy triste.
0:03:06.621,0:03:08.421
(risa silenciosa)
0:03:09.777,0:03:12.553
Creo que debemos hacerlo mejor.
0:03:14.025,0:03:15.159
Pero, por otro lado,
0:03:15.159,0:03:17.318
en realidad esperaba [br]que esto fuera aún peor.
0:03:17.318,0:03:19.400
Esperaba que el promedio fuera uno.
0:03:19.400,0:03:22.343
Así que estaba bastante feliz[br]de ver dos. (risa)
0:03:24.571,0:03:25.724
Bien.
0:03:26.996,0:03:29.367
Pero no solo es interesante saber
0:03:29.367,0:03:33.582
cuántas etiquetas tienen nuestros[br]elementos y propiedades.
0:03:33.582,0:03:36.405
También es interesante ver en qué idiomas.
0:03:37.885,0:03:43.604
Aquí pueden ver un gráfico de los idiomas
0:03:43.604,0:03:46.678
que tienen etiquetas en los elementos.
0:03:46.678,0:03:50.509
Entonces, la parte más grande es Otros.
0:03:51.069,0:03:53.703
Así que acabo de tomar [br]los 100 idiomas principales
0:03:54.373,0:03:58.742
y todo lo demás es Otros[br]para hacer que este gráfico sea legible.
0:03:59.382,0:04:01.982
Y luego está el inglés y el holandés,
0:04:02.842,0:04:04.094
el francés,
0:04:05.764,0:04:08.969
y, para no olvidar, el asturiano.
0:04:09.499,0:04:11.729
- (audiencia) ¡Hurra![br]- ¡Yuju! ¡Sí!
0:04:13.739,0:04:16.794
Entonces, lo que ven aquí[br]es un gran desequilibrio
0:04:16.794,0:04:19.954
y todavía un gran enfoque en el inglés.
0:04:21.076,0:04:24.207
Otra cosa es que si buscan [br]lo mismo en Propiedades,
0:04:24.207,0:04:25.839
en realidad se ve mejor.
0:04:27.239,0:04:32.590
Y creo que parte se debe[br]a que son menos propiedades.
0:04:32.590,0:04:36.610
Incluso las comunidades más pequeñas[br]podrán mantenerse al día con eso.
0:04:36.610,0:04:39.013
Pero también es una parte [br]bastante importante de Wikidata
0:04:39.013,0:04:40.999
localizarlo en su idioma.
0:04:40.999,0:04:42.224
Eso es bueno.
0:04:45.592,0:04:47.682
Lo que quiero resaltar aquí con asturiano
0:04:47.682,0:04:53.538
es que una pequeña comunidad [br]puede hacer una gran diferencia
0:04:54.288,0:04:56.925
con un poco de dedicación y trabajo,
0:04:56.925,0:04:58.260
y eso es realmente genial.
0:05:01.686,0:05:03.370
Un pequeño cuestionario para ustedes.
0:05:03.370,0:05:07.337
Si toman todas las propiedades en Wikidata[br]que no son identificadores externos,
0:05:07.337,0:05:10.198
¿cuál tiene más cantidad de etiquetas,[br]como la mayoría de los idiomas?
0:05:10.198,0:05:13.567
(audiencia) [inaudible]
0:05:13.567,0:05:16.626
¿Creen que es la instancia de?
0:05:17.186,0:05:19.283
De ser así están equivocados.
0:05:19.823,0:05:22.050
Es imagen. (risas)
0:05:23.070,0:05:26.206
Sí, eso les dice [br]que si hablan uno de los idiomas
0:05:26.206,0:05:28.461
en los que instancia de[br]aún no tiene una etiqueta,
0:05:28.461,0:05:30.030
quizás quieran agregarla.
0:05:31.942,0:05:35.516
Tiene 148 etiquetas actualmente.
0:05:37.528,0:05:41.089
Pero es otra diapositiva.
0:05:42.471,0:05:45.644
Este gráfico nos dice algo[br]sobre la cantidad de contenido
0:05:46.084,0:05:49.031
que ponemos a disposición[br]en un idioma determinado
0:05:49.031,0:05:51.882
y cuánto de ese contenido[br]se usa realmente.
0:05:51.882,0:05:55.288
Entonces, lo que están viendo[br]es básicamente una curva
0:05:55.288,0:05:59.447
con la mayoría del contenido[br]que tiene etiquetas en inglés,
0:05:59.447,0:06:04.135
disponible en inglés y se usa mucho.
0:06:04.135,0:06:06.289
Y luego se cae un poco.
0:06:06.289,0:06:09.276
Pero, de nuevo, lo que pueden ver[br]son valores atípicos
0:06:09.276,0:06:14.824
que tienen mucho más contenido [br]del que necesariamente esperarían,
0:06:16.623,0:06:19.259
y eso es muy muy bueno.
0:06:20.329,0:06:24.515
El problema aún es que no se usa mucho.
0:06:25.345,0:06:28.582
Los asturianos y holandeses[br]deberían ser más altos,
0:06:28.582,0:06:31.834
y creo que ayudar a esas comunidades
0:06:33.106,0:06:35.403
a aumentar el uso [br]de los datos que recopilaron
0:06:35.403,0:06:37.522
es algo realmente útil.
0:06:42.750,0:06:47.110
Lo que este y otros análisis[br]nos mostraron también es algo bueno,
0:06:47.110,0:06:51.218
estamos viendo[br]que los elementos muy usados
0:06:51.218,0:06:55.135
también tienden a tener más etiquetas
0:06:55.135,0:06:58.028
o al revés... [br]No está del todo claro.
0:07:02.353,0:07:04.216
Y entonces la pregunta es
0:07:04.646,0:07:06.849
¿estamos sirviendo [br]solo a los idiomas poderosos?
0:07:07.739,0:07:10.987
¿O estamos sirviendo a todos?
0:07:12.597,0:07:17.583
Y lo que ven aquí [br]es una agrupación de idiomas.
0:07:17.583,0:07:21.672
Los idiomas que se agrupan [br]tienden a tener etiquetas juntos.
0:07:25.882,0:07:28.439
Y los ven agruparse.
0:07:28.439,0:07:33.905
Ahora aquí hay una agrupación[br]similar, coloreada,
0:07:33.905,0:07:39.315
basada en qué tan vivo, cómo se usa,
0:07:40.295,0:07:42.996
qué tan en peligro es el idioma.
0:07:42.996,0:07:44.482
Y lo bueno que están viendo aquí
0:07:44.482,0:07:49.406
es que los idiomas seguros [br]y los idiomas en peligro de extinción
0:07:49.406,0:07:53.613
no forman dos grupos diferentes.
0:07:53.613,0:07:58.712
Pero todos están mezclados,
0:08:00.102,0:08:04.465
lo que es mucho mejor [br]de lo que sería al revés
0:08:04.465,0:08:09.217
donde los idiomas seguros,[br]los idiomas poderosos
0:08:10.037,0:08:12.004
solo se están ayudando mutuamente.
0:08:12.584,0:08:14.196
No, no es el caso.
0:08:14.196,0:08:17.257
Y es algo realmente bueno.
0:08:17.257,0:08:19.882
Cuando vi esto, [br]pensé que era muy bueno.
0:08:23.314,0:08:25.009
Aquí hay algo similar
0:08:26.079,0:08:28.640
en el que miramos
0:08:30.070,0:08:34.062
el estado de los idiomas
0:08:34.062,0:08:36.065
y cuántas etiquetas tiene.
0:08:39.207,0:08:42.777
Lo que están viendo es una clara victoria[br]para los idiomas seguros,
0:08:42.777,0:08:44.088
como se esperaba.
0:08:45.348,0:08:47.018
Pero lo que también ven es...
0:08:49.120,0:08:54.247
que los idiomas en las categorías[br]2 y 3 y tal vez incluso 4
0:08:54.247,0:08:59.120
no son tan malos, en realidad,
0:08:59.120,0:09:02.207
en términos de su representación[br]en Wikidata y otros.
0:09:03.127,0:09:05.600
Es algo realmente bueno de encontrar.
0:09:07.486,0:09:08.969
Ahora, si observan lo mismo
0:09:08.969,0:09:12.258
para saber cuánto [br]de ese contenido de esas etiquetas
0:09:12.258,0:09:15.335
se usa realmente [br]en Wikipedia, por ejemplo,
0:09:17.295,0:09:22.403
entonces vemos una imagen similar[br]emergiendo nuevamente.
0:09:23.443,0:09:29.653
Y nos dice que esas comunidades [br]están haciendo un buen uso de su tiempo
0:09:29.653,0:09:34.344
al completar etiquetas para artículos[br]de mayor uso, por ejemplo.
0:09:36.250,0:09:40.333
Hay valores atípicos [br]en los que creo que podemos ayudar
0:09:41.523,0:09:48.042
a esas comunidades a encontrar un lugar[br]donde su trabajo sería más valioso.
0:09:49.152,0:09:52.503
Pero, en general, [br]estoy contenta con esta imagen.
0:09:54.663,0:09:59.684
Ahora, esa era la parte de elementos[br]y propiedades de Wikidata.
0:10:00.554,0:10:02.873
Ahora, veamos la interacción[br]en sus idiomas,
0:10:02.873,0:10:05.043
la parte de lexema de Wikidata
0:10:05.043,0:10:09.234
donde describimos palabras [br]y sus formas y sus significados.
0:10:10.007,0:10:13.141
Hemos estado haciendo esto[br]desde mayo del año pasado,
0:10:16.301,0:10:18.967
y el contenido ha ido creciendo.
0:10:19.954,0:10:21.989
Pueden ver aquí en azul los lexemas,
0:10:21.989,0:10:25.778
y luego, en rojo, [br]las formas en esos lexemas
0:10:25.778,0:10:29.750
y, amarillo, los sentidos en esos lexemas.
0:10:30.831,0:10:34.291
Por lo tanto, algunas comunidades,[br]lo veremos más adelante,
0:10:34.291,0:10:39.633
han pasado mucho tiempo creando [br]formas y sentidos para sus lexemas,
0:10:39.633,0:10:42.593
lo cual es realmente útil
0:10:42.593,0:10:48.083
porque construye el núcleo [br]del conjunto de datos que necesitan.
0:10:50.402,0:10:54.973
Ahora, miramos todos los idiomas
0:10:54.973,0:10:57.746
que tienen lexemas en Wikidata.
0:10:57.746,0:11:00.843
Entonces, las palabras que tenemos
0:11:01.553,0:11:04.244
son ahora 310 idiomas.
0:11:04.724,0:11:08.130
Ahora, ¿cuál creen [br]que es el idioma principal
0:11:08.130,0:11:11.789
cuando se trata de la cantidad [br]de lexemas actualmente en Wikidata?
0:11:12.773,0:11:14.540
(persona 1) Ruso.
0:11:19.023,0:11:21.581
- ¿Ah?[br]- (persona 2) El alemán.
0:11:21.581,0:11:24.092
Lo siento, lo había escuchado.
0:11:24.092,0:11:25.491
Es el ruso.
0:11:27.851,0:11:29.594
El ruso está bastante por delante.
0:11:31.737,0:11:33.672
Y solo para darles una perspectiva,
0:11:35.292,0:11:36.516
hay diferentes opiniones,
0:11:36.516,0:11:42.071
pero he leído, por ejemplo,[br]que 1000 a 3000 palabras
0:11:42.071,0:11:45.290
te llevan al nivel de conversación, [br]aproximadamente, en otro idioma,
0:11:45.290,0:11:49.301
y 4000 a 10 000 palabras[br]a un nivel avanzado.
0:11:51.431,0:11:55.122
Entonces, todavía tenemos[br]un poco para alcanzar.
0:11:58.323,0:12:03.119
Una cosa a la que quiero[br]que presten atención es el vasco
0:12:03.119,0:12:07.584
con 10 000 lexemas, aproximadamente.
0:12:08.954,0:12:12.713
Ahora, si observa el número [br]de formas para esos lexemas,
0:12:13.843,0:12:16.177
el vasco está muy arriba,
0:12:17.917,0:12:19.666
lo cual es realmente genial,
0:12:19.666,0:12:24.590
y deben ir a una charla que explica[br]por qué ese es el caso.
0:12:27.041,0:12:30.875
Si nos fijamos en la cantidad de sentidos,[br]en lo qué significan las palabras,
0:12:31.775,0:12:34.841
el vasco llega [br]a la parte superior de la lista.
0:12:34.841,0:12:36.862
Creo que eso merece un aplauso.
0:12:36.862,0:12:38.681
(aplausos)
0:12:45.518,0:12:46.958
Otra pregunta rápida.
0:12:46.958,0:12:50.021
¿Cuál es el lexema [br]con más traducciones actualmente?
0:12:50.311,0:12:54.584
(audiencia) Gatos, gatos, [inaudible],[br]Douglas Adams, [inaudible]
0:12:56.543,0:12:59.791
Todas buenas conjeturas, pero no.
0:13:00.732,0:13:03.857
Es esta, la palabra rusa para "agua".
0:13:09.041,0:13:12.093
Muy bien, ahora hablamos mucho
0:13:12.093,0:13:16.112
sobre cuántos lexemas, [br]formas y sentidos tenemos,
0:13:16.112,0:13:20.333
pero eso es solo una cosa que necesitas.
0:13:20.333,0:13:25.001
La otra cosa que necesitan es describir[br]esos lexemas, formas y sentidos
0:13:25.001,0:13:27.487
de manera legible para una máquina.
0:13:27.487,0:13:29.879
Y para eso tienen declaraciones,[br]por ejemplo, en elementos.
0:13:31.319,0:13:36.202
Y una de las propiedades [br]que utilizan es el Ejemplo de uso.
0:13:36.202,0:13:38.422
Entonces, quien esté usando esos datos
0:13:38.422,0:13:41.929
puede entender cómo usar[br]esa palabra en contexto,
0:13:41.929,0:13:43.998
por lo que podría ser una cita,[br]por ejemplo.
0:13:45.236,0:13:46.953
Y aquí, los polacos son geniales.
0:13:47.740,0:13:49.604
Buen trabajo, hablantes de polaco.
0:13:54.059,0:13:57.520
Otra propiedad realmente útil es el AFI,
0:13:57.520,0:14:00.026
¿cómo se pronuncia esta palabra?
0:14:00.716,0:14:07.337
Aparentemente, Rusia necesita[br]muchas declaraciones del AFI.
0:14:10.059,0:14:13.154
Pero, de nuevo, polaco, segundo.
0:14:16.988,0:14:20.423
Y por último, pero no menos importante,[br]tenemos audio de pronunciación.
0:14:20.423,0:14:23.212
Es decir, enlaces a archivos en Commons
0:14:23.212,0:14:25.799
donde alguien habla la palabra,
0:14:25.799,0:14:29.753
para que puedan escuchar [br]a un hablante nativo pronunciar la palabra
0:14:29.753,0:14:32.711
en caso de que no sepa leer AFI,[br]por ejemplo.
0:14:34.799,0:14:39.045
Y hay un proyecto realmente[br]agradable basado en Wiki
0:14:39.045,0:14:40.314
llamado Lingua Libre
0:14:40.724,0:14:45.013
donde pueden ir y ayudar [br]a grabar palabras en su idioma
0:14:45.013,0:14:47.676
que luego se pueden agregar[br]a lexemas en Wikidata,
0:14:48.286,0:14:51.656
para que otras personas puedan entender[br]cómo pronunciar sus palabras.
0:14:53.503,0:14:55.424
(audiencia) [inaudible]
0:14:55.424,0:14:57.255
Si buscas "Lingua Libre"
0:14:57.255,0:15:00.821
y estoy segura de que alguien [br]puede publicarlo en el canal de Telegram.
0:15:02.898,0:15:04.331
Esos tipos son geniales.
0:15:04.331,0:15:06.566
Hicieron cosas realmente[br]geniales con Wikibase.
0:15:09.256,0:15:10.457
Bien.
0:15:12.326,0:15:17.125
Entonces, la pregunta es[br]¿a dónde vamos desde aquí?
0:15:19.005,0:15:21.367
Según los números que acabo de mostrar,
0:15:22.870,0:15:25.012
hemos recorrido un largo camino
0:15:25.012,0:15:28.270
para dar a más personas [br]más acceso a más conocimiento
0:15:28.270,0:15:31.080
al mirar idiomas en Wikidata.
0:15:32.370,0:15:35.964
Pero también queda [br]mucho trabajo por delante.
0:15:38.832,0:15:42.181
Algunas de las cosas que pueden hacer[br]para ayudar, por ejemplo,
0:15:42.181,0:15:44.521
es organizar "etiquetatones",
0:15:44.521,0:15:49.964
reunir a las personas [br]para etiquetar elementos en Wikidata
0:15:50.754,0:15:54.961
o hacer un "editatón"[br]alrededor de lexemas en tu idioma
0:15:54.961,0:15:58.772
para llevar las palabras más utilizadas[br]de tu idioma a Wikidata.
0:16:00.613,0:16:03.125
O pueden usar una herramienta[br]como Terminator
0:16:03.125,0:16:08.333
que les ayuda a encontrar los elementos[br]más importantes en su idioma
0:16:08.333,0:16:11.389
que aún no tienen una etiqueta.
0:16:13.114,0:16:18.199
Lo más importante se mide [br]por la frecuencia con la que se usa
0:16:18.199,0:16:22.393
en otros elementos de Wikidata [br]como enlaces en las declaraciones.
0:16:25.608,0:16:29.862
Y, por supuesto, para la parte de lexema,
0:16:31.182,0:16:35.009
ahora que tenemos [br]una cobertura básica de esos lexemas,
0:16:35.009,0:16:41.003
también se trata de construirlos,[br]agregarles más declaraciones
0:16:41.003,0:16:44.241
para que puedan construir la base
0:16:44.241,0:16:47.261
para aplicaciones significativas[br]y construir encima de eso.
0:16:47.981,0:16:50.635
Debido a que nos estamos acercando[br]a esa masa crítica,
0:16:50.635,0:16:53.456
pero aún estamos lejos de eso,
0:16:53.456,0:16:56.464
que puede construir [br]aplicaciones serias sobre ella.
0:16:58.117,0:17:01.520
Y espero que todos ustedes [br]se unan a nosotros para hacer eso.
0:17:02.423,0:17:06.943
Y eso me lleva a pedir
0:17:06.943,0:17:09.683
un poco de ayuda de nuestros amigos.
0:17:09.683,0:17:12.230
Bruno, ¿quieres venir
0:17:13.562,0:17:16.534
y hablarnos sobre máscaras léxicas?
0:17:17.101,0:17:18.127
(Bruno) Gracias, Lydia,
0:17:18.127,0:17:21.359
gracias por darme [br]este breve período de tiempo
0:17:21.359,0:17:24.490
para presentar este trabajo [br]que hacemos en Google con Denny,
0:17:24.490,0:17:28.963
que la mayoría probablemente[br]ha escuchado o sabe.
0:17:29.966,0:17:31.870
Porque en Google, soy lingüista.
0:17:31.870,0:17:35.780
Así que estoy muy feliz de estar aquí [br]entre otros entusiastas de los idiomas.
0:17:36.460,0:17:39.118
También estamos [br]construyendo algunos léxicos,
0:17:39.118,0:17:41.606
y hemos construido esta tecnología
0:17:41.606,0:17:45.429
o este enfoque que creemos [br]que puede ser útil para ustedes.
0:17:46.209,0:17:48.295
Solo para darles un poco de contexto,
0:17:48.295,0:17:51.668
este es mi contexto lexicográfico[br]que habla aquí.
0:17:52.427,0:17:54.187
Cuando creamos [br]una base de datos de léxicos,
0:17:54.187,0:17:58.463
es muy difícil mantenerlos, [br]mantenerlos consistentes
0:17:58.463,0:17:59.965
e intercambiar datos,
0:17:59.965,0:18:01.867
como probablemente ya saben.
0:18:02.357,0:18:05.767
Hay varios intentos de unificar [br]la característica y las propiedades
0:18:05.767,0:18:09.024
que describen esos lexemas y esas formas,
0:18:09.024,0:18:10.776
no es un problema resuelto,
0:18:10.776,0:18:13.688
pero hay algunos intentos [br]de unificación de ese lado.
0:18:13.688,0:18:15.049
Pero lo que realmente falta,
0:18:15.049,0:18:18.232
y este es un problema que tuvimos [br]al comienzo de nuestro proyecto en Google
0:18:18.232,0:18:21.447
es tratar de tener una estructura interna
0:18:22.037,0:18:25.750
que describa cómo debería ser[br]una entrada léxica,
0:18:25.750,0:18:28.421
qué tipo de datos o qué tipo[br]de información tenemos
0:18:28.421,0:18:32.077
y la especificación que se espera.
0:18:32.077,0:18:38.027
Entonces, esto es lo que se nos ocurrió [br]con esta cosa llamada máscara léxica.
0:18:38.737,0:18:44.681
Una máscara léxica describe[br]lo que se espera de una entrada,
0:18:44.681,0:18:47.169
para completar una entrada lexicográfica,
0:18:47.169,0:18:51.276
tanto en términos de la cantidad [br]de formas que esperan para un lexema
0:18:51.276,0:18:55.447
y la cantidad de características [br]que esperan para cada forma.
0:18:56.157,0:18:58.169
Aquí hay un ejemplo [br]de adjetivos italianos.
0:18:58.169,0:19:01.842
En italiano, esperas tener[br]cuatro formas para tus adjetivos,
0:19:01.842,0:19:05.223
y cada una de estas formas [br]tiene una combinación específica
0:19:05.223,0:19:07.786
de características de género y número.
0:19:08.446,0:19:12.512
Esto es lo que esperamos [br]para los adjetivos italianos.
0:19:12.512,0:19:16.016
Por supuesto, puede tener [br]máscaras extremadamente complejas,
0:19:16.016,0:19:20.623
como la conjugación de verbos franceses,[br]que es bastante extensa,
0:19:20.623,0:19:25.277
y no le muestro ninguna otra máscara rusa[br]porque no se ajusta a la pantalla.
0:19:26.148,0:19:29.371
Y también tenemos algunas[br]especificaciones detalladas
0:19:29.371,0:19:33.261
porque distinguimos [br]lo que está al nivel de la forma.
0:19:33.261,0:19:37.384
Aquí tienes sustantivos rusos[br]que tienen tres números
0:19:37.384,0:19:39.888
y una cantidad de casos[br]con diferentes formas,
0:19:39.888,0:19:42.926
pero también tienen [br]una especificación de nivel de entrada
0:19:42.926,0:19:45.430
que dice que un sustantivo[br]particularmente tiene
0:19:45.430,0:19:49.973
un género inherente y una característica[br]de animación inherente
0:19:49.973,0:19:52.328
que también se especifica en la máscara.
0:19:54.358,0:19:58.619
También distinguiremos que una máscara[br]proporciona una especificación
0:19:58.619,0:20:01.714
para, en general, [br]cómo debería ser una entrada.
0:20:01.714,0:20:06.998
Pero puede tener máscaras más pequeñas[br]para aspectos defectuosos de la forma
0:20:06.998,0:20:11.122
o aspectos defectuosos del lexema[br]que suceden en el idioma.
0:20:11.122,0:20:14.377
Así que aquí está la versión [br]más simple de los verbos franceses
0:20:14.377,0:20:19.569
que usan solo la 3ra persona del singular[br]para todos los verbos meteorológicos,
0:20:19.569,0:20:23.809
como "llueve" o "nieva", como en inglés.
0:20:24.377,0:20:26.333
Entonces distinguimos estos dos niveles.
0:20:26.763,0:20:29.802
Y cómo usamos esto en Google
0:20:29.802,0:20:32.853
es que, cuando tenemos un léxico[br]que queremos usar,
0:20:32.853,0:20:38.149
usamos la máscara para lanzar[br]literalmente los léxicos,
0:20:38.149,0:20:40.003
todas las entradas, a través de la máscara
0:20:40.003,0:20:44.143
y ver qué entrada tiene un problema[br]en términos de estructura.
0:20:44.143,0:20:46.363
¿Nos falta un formulario?[br]¿Nos falta una característica?
0:20:46.363,0:20:51.337
Y cuando hay un problema, [br]hacemos una validación humana
0:20:51.337,0:20:53.591
o simplemente para ver si pasa la máscara.
0:20:53.591,0:20:57.764
Es una herramienta muy poderosa [br]que verifica la calidad de la estructura.
0:20:59.267,0:21:01.804
Entonces, lo que nos complace anunciar hoy
0:21:01.804,0:21:05.248
es que tenemos luz verde [br]para liberar el código de nuestra máscara.
0:21:05.788,0:21:07.413
Este es un esquema.
0:21:07.413,0:21:09.317
Si lo desean, podemos liberarlo
0:21:09.317,0:21:13.323
y se lo proporcionaremos a Wikidata[br]como archivo ShEx.
0:21:13.323,0:21:16.528
Este es un archivo ShEx [br]para sustantivos alemanes,
0:21:16.528,0:21:20.268
y Denny está trabajando en la conversión[br]de nuestra especificación interna
0:21:20.268,0:21:23.506
a una especificación de código abierto.
0:21:23.506,0:21:27.362
Actualmente cubrimos más de 25 idiomas.
0:21:27.362,0:21:29.065
Así que, esperamos crecer de nuestro lado,
0:21:29.065,0:21:34.190
pero también buscamos esta oportunidad[br]de colaborar para otros idiomas.
0:21:34.190,0:21:40.568
Y una de las colaboraciones en curso[br]también que Denny tiene con Lukas.
0:21:40.568,0:21:44.892
Lukas tiene estas excelentes herramientas[br]para tener una interfaz de usuario
0:21:44.892,0:21:50.901
que ayude al usuario [br]o al contribuyente a agregar más formas.
0:21:50.901,0:21:53.991
Entonces, si desea agregar[br]un adjetivo en francés,
0:21:53.991,0:21:58.897
la interfaz de usuario les indica [br]cuántas formas se esperan
0:21:58.897,0:22:01.402
y qué tipo de características[br]debe tener esta forma.
0:22:01.402,0:22:06.108
Por lo tanto, nuestra máscara ayudará[br]a definir y expandir la herramienta.
0:22:07.078,0:22:08.225
Eso es todo.
0:22:08.583,0:22:10.198
(Lydia) Muchas gracias.
0:22:10.198,0:22:11.833
(aplausos)
0:22:14.089,0:22:16.731
Bien. ¿Hay preguntas?
0:22:16.731,0:22:19.221
¿Quieren que hable más sobre lexemas?
0:22:19.527,0:22:21.315
- (persona 3) Sí.[br]- Sí. (risas)
0:22:33.035,0:22:35.220
(persona 3) Mi pregunta viene [br]porque estabas hablando
0:22:35.220,0:22:38.946
de dar más acceso [br]a más personas en más idiomas.
0:22:38.946,0:22:42.284
Pero hay muchos idiomas [br]que no se pueden usar en Wikidata.
0:22:42.284,0:22:44.428
Entonces, ¿qué solución tienes para eso?
0:22:45.729,0:22:47.526
Cuando dices [br]que no se puede usar Wikidata,
0:22:47.526,0:22:50.148
¿estás hablando de ingresar etiquetas?
0:22:50.148,0:22:52.418
- (persona 3) Etiquetas, descripciones.[br]- Correcto.
0:22:52.418,0:22:55.338
Entonces, para lexemas,[br]es un poco diferente
0:22:55.338,0:22:57.633
porque no tenemos esa restricción.
0:22:58.763,0:23:02.584
Para las etiquetas [br]de elementos y propiedades,
0:23:03.284,0:23:05.193
hay algunas restricciones
0:23:05.193,0:23:09.720
porque queríamos asegurarnos
0:23:09.720,0:23:14.069
de que no todo el mundo haga de todo
0:23:14.069,0:23:17.227
y se vuelva inmanejable.
0:23:19.189,0:23:23.168
Incluso una pequeña comunidad[br]que quiera un idioma y trabajar en él,
0:23:23.738,0:23:26.449
hablen con nosotros, lo haremos realidad.
0:23:26.449,0:23:29.042
(persona 3) Hicimos eso [br]en el Hackathon de Praga en mayo,
0:23:29.042,0:23:32.299
y nos tomó hasta casi agosto [br]para poder usar nuestro idioma.
0:23:32.299,0:23:34.975
- Sí.[br]- (persona 3) Entonces, es muy lento.
0:23:34.975,0:23:37.694
Sí, desafortunadamente así es.
0:23:37.694,0:23:39.723
Actualmente trabajamos [br]con el Comité de idiomas
0:23:39.723,0:23:45.888
para resolver algunos fundamentos...
0:23:49.377,0:23:54.972
como llegar a un acuerdo sobre qué tipo[br]de idiomas están realmente "permitidos",
0:23:55.887,0:23:59.238
y eso ha llevado demasiado tiempo,
0:23:59.668,0:24:03.858
razón por la cual su solicitud [br]tardó más de lo que debería.
0:24:04.448,0:24:05.633
(persona 3) Gracias.
0:24:06.435,0:24:07.730
(persona 4) Gracias a ti.
0:24:07.730,0:24:10.778
Lydia, ¿si recuerdas [br]las estadísticas que mostraste,
0:24:10.778,0:24:12.726
- el número de lexemas por idioma?[br]- Sí.
0:24:12.726,0:24:17.439
Entonces, ¿contaste todas las formas[br]como un punto de datos
0:24:17.439,0:24:19.874
o solo lexemas?
0:24:21.129,0:24:23.300
(Lydia) ¿Te refieres a esto?[br]¿A cuál te refieres?
0:24:23.300,0:24:25.203
(persona 4) Sí, exactamente.
0:24:25.637,0:24:28.181
Si recuerdas, ¿este número [inaudible]
0:24:28.181,0:24:31.794
todas las formas para todos los lexemas[br]o cuántos lexemas hay?
0:24:31.794,0:24:35.045
- No, solo es el número de lexemas.[br]- (persona 4) Solo un número de lexemas.
0:24:35.045,0:24:36.637
Entonces, es una estadística justa
0:24:36.637,0:24:39.230
porque si se compilan las formas,
0:24:39.230,0:24:40.454
es por eso que pregunto,
0:24:40.454,0:24:42.657
entonces todos los idiomas[br]con la morfología flexiva,
0:24:42.657,0:24:44.867
como el ruso, el serbio,[br]el esloveno y otros,
0:24:44.867,0:24:47.456
tienen una ventaja natural[br]porque tienen muchos.
0:24:47.456,0:24:51.650
Ya comienza por aquí,[br]en este número de formas.
0:24:51.650,0:24:53.691
(persona 4) Sí, fue este. Gracias.
0:24:56.386,0:25:00.064
(persona 5) Tengo [br]una pregunta rápida sobre...
0:25:00.484,0:25:06.664
Cuando hablamos de los elementos[br]y propiedades reales.
0:25:06.964,0:25:08.741
Por lo que entiendo,
0:25:08.741,0:25:11.795
actualmente no hay forma[br]de dar una fuente real
0:25:11.795,0:25:14.566
a ninguna de las etiquetas [br]y descripciones que se dan.
0:25:14.566,0:25:17.887
Entonces, por ejemplo, [br]porque cuando hablas
0:25:17.887,0:25:20.760
de la propiedad de un elemento,
0:25:20.760,0:25:24.349
por ejemplo, puedes tener[br]etiquetas en conflicto.
0:25:24.349,0:25:25.579
Sí.
0:25:25.579,0:25:27.502
(persona 5) Esta persona es como...
0:25:28.242,0:25:30.621
Antes hablábamos [br]de cosas indígenas, por ejemplo.
0:25:30.621,0:25:35.805
Esta persona es un artista noruego[br]según esta fuente,
0:25:35.805,0:25:38.590
y un artista sami, según esta fuente.
0:25:39.390,0:25:42.723
O, por ejemplo, en estonio,[br]tuvimos un problema
0:25:42.723,0:25:47.569
en el que cambiamos la terminología[br]a la de uso oficial
0:25:47.569,0:25:49.322
en los léxicos oficiales,
0:25:49.322,0:25:52.102
pero no tenemos forma [br]de indicar realmente por qué,
0:25:52.102,0:25:53.436
es decir, cuál fue la fuente
0:25:53.436,0:25:55.401
y por qué fue mejor y qué había allí antes
0:25:55.401,0:25:56.990
solo fui yo, una persona cualquiera,
0:25:56.990,0:25:59.455
simplemente cambiando la cosa[br]para cualquiera que lo vea.
0:25:59.455,0:26:02.360
¿Hay algún plan para hacer [br]esto posible de alguna manera
0:26:02.360,0:26:06.195
para tener las fuentes adecuadas[br]para los datos de un idioma?
0:26:06.885,0:26:11.408
Entonces, es parcialmente posible.
0:26:11.408,0:26:15.798
Por ejemplo, cuando tienes [br]un elemento para una persona,
0:26:16.808,0:26:22.560
tienes una declaración, [br]nombre, apellido, etc., de esa persona,
0:26:22.560,0:26:26.066
puedes proporcionar[br]la referencia para eso allí.
0:26:28.051,0:26:32.384
Dudo bastante en agregar más complejidad
0:26:32.384,0:26:35.397
para las referencias [br]en etiquetas y descripciones,
0:26:35.397,0:26:38.464
pero si la gente realmente piensa
0:26:38.464,0:26:44.779
que esto no está cubierto [br]por ninguna referencia en la declaración,
0:26:44.779,0:26:46.643
entonces hablemos de ello.
0:26:48.919,0:26:53.143
Pero me temo que agregará[br]mucha complejidad
0:26:53.143,0:26:56.363
para lo que espero sean pocos casos,
0:26:57.233,0:27:00.028
pero estoy dispuesta [br]a convencerme de lo contrario
0:27:00.028,0:27:03.927
si la gente realmente se siente[br]muy convencida al respecto.
0:27:03.927,0:27:08.017
(persona 5) Si se agrega, probablemente[br]no debería ser la interfaz predeterminada
0:27:08.017,0:27:12.292
mostrada a los usuarios principiantes,[br]en cualquier caso.
0:27:12.292,0:27:16.030
Más como "Haga clic aquí si necesita[br]decir algo específico sobre esto".
0:27:17.472,0:27:23.208
¿Tenemos una idea de cuántas veces[br]eso realmente importaría?
0:27:24.360,0:27:26.263
(persona 5) En estonio, por ejemplo,
0:27:26.263,0:27:28.684
supongo que esto también es cierto[br]para otros idiomas,
0:27:29.114,0:27:34.043
por ejemplo, hay un nombre oficial [br]que es la traducción legítima actual,
0:27:34.043,0:27:36.046
por ejemplo, al inglés,
0:27:36.046,0:27:40.154
es decir, de un tipo de municipio.
0:27:40.454,0:27:42.022
Ese fue mi caso de uso, por ejemplo,
0:27:42.022,0:27:44.249
donde estábamos usando[br]la palabra "parish",
0:27:44.999,0:27:50.345
que en estonio se refería a una especie[br]de parroquia de la iglesia,
0:27:50.345,0:27:51.499
y ese fue el origen,
0:27:51.499,0:27:54.412
pero esa no es la traducción oficial [br]que tiene Estonia en este momento.
0:27:54.889,0:27:58.833
En este caso, simplemente lo agregaría [br]como declaraciones de nombre oficiales
0:27:58.833,0:28:00.657
y agregaría la referencia allí.
0:28:01.872,0:28:02.998
(persona 5) Bien.
0:28:05.026,0:28:06.412
¿Preguntas? ¿Sí?
0:28:07.522,0:28:09.884
(Asaf) Tengo dos comentarios rápidos.
0:28:09.884,0:28:13.774
Llamaste específicamente al asturiano[br]como un idioma que funciona bien,
0:28:13.774,0:28:16.145
y creo que es una observación equívoca.
0:28:16.145,0:28:17.464
Cuéntame sobre eso.
0:28:17.464,0:28:19.588
(Asaf) Creo que es solo un bot
0:28:19.588,0:28:23.908
que pegó nombres de personas,[br]como nombres propios,
0:28:23.908,0:28:27.012
y dijo: "Bueno, esto es exactamente[br]como en francés o español",
0:28:27.012,0:28:28.398
y solo lo copió masivamente.
0:28:28.398,0:28:33.156
Un punto de evidencia es que [br]no se ve esa energía en asturiano
0:28:33.156,0:28:37.045
en cosas que requieren traducción,[br]como nombres de propiedades
0:28:37.045,0:28:39.488
o nombres de elementos [br]que no son nombres propios.
0:28:39.488,0:28:41.059
Asaf, me rompes el corazón.
0:28:41.059,0:28:43.038
(Asaf) Lo sé, [br]me gusta ser aguafiestas,
0:28:43.038,0:28:48.298
pero también tengo buenas noticias, [br]sobre los números de pronunciación.
0:28:49.248,0:28:53.355
Probablemente sepan que Commons [br]está llena de archivos de pronunciación,
0:28:53.355,0:28:54.508
y, por ejemplo,
0:28:54.508,0:29:00.826
el holandés tiene no menos de 300 000 [br]archivos de pronunciación en Commons
0:29:01.752,0:29:04.891
que solo necesitan [br]ser ingeridos de alguna manera.
0:29:04.891,0:29:07.537
Si alguien está buscando[br]un proyecto paralelo,
0:29:07.537,0:29:08.837
hay toneladas y toneladas
0:29:08.837,0:29:13.120
de archivos de pronunciación[br]clasificados y categorizados en Commons
0:29:13.120,0:29:16.733
bajo la categoría Pronunciación[br]por idioma.
0:29:16.733,0:29:22.680
Así que eso está esperando ser emparejado[br]con lexemas y ponerse en Lexemas.
0:29:22.950,0:29:25.254
Y me preguntaba si podrías decir algo
0:29:25.254,0:29:26.355
sobre la hoja de ruta,
0:29:26.355,0:29:28.527
algo acerca de cuánta inversión
0:29:28.527,0:29:31.765
o qué podemos esperar [br]de Lexemas en el próximo año,
0:29:31.765,0:29:33.790
porque, por mi parte, no puedo esperar.
0:29:34.789,0:29:36.884
¿No puedes esperar? (risas)
0:29:36.884,0:29:38.958
- (Asaf) Por más.[br]- Sí. (risas)
0:29:44.381,0:29:49.363
Ahora nos estamos concentrando [br]más en Wikibase y la calidad de los datos
0:29:51.333,0:29:54.927
para ver cuánta tracción obtiene
0:29:54.927,0:30:01.516
y luego tener más información[br]de los puntos débiles
0:30:01.516,0:30:05.843
y luego volver a mejorar aún más[br]los datos lexicográficos.
0:30:06.743,0:30:09.630
Y una de las cosas [br]que me encantaría saber de ustedes
0:30:09.630,0:30:13.976
es dónde ven exactamente[br]los próximos pasos,
0:30:13.976,0:30:15.806
dónde desean ver mejoras
0:30:15.806,0:30:20.180
para que luego podamos descubrir[br]cómo hacer que suceda.
0:30:20.965,0:30:22.650
Pero, por supuesto, tienes razón,
0:30:22.650,0:30:25.552
todavía hay mucho por hacer [br]también en el aspecto técnico.
0:30:30.413,0:30:35.688
(persona 7) Mientras cargábamos[br]las palabras vascas con formas y sentidos
0:30:35.688,0:30:37.608
y ese tipo de cosas,
0:30:37.608,0:30:41.169
la semana pasada decíamos:[br]"Oh, somos los primeros en algo".
0:30:42.759,0:30:44.768
Aparece en la prensa y dice:
0:30:44.768,0:30:49.328
"Oh, los vascos son los primeros...[br]son los primeros en algo", está bien.
0:30:49.328,0:30:50.446
(risas)
0:30:50.446,0:30:53.158
Y luego la gente pregunta: [br]"Bien, pero ¿para qué sirve esto?"
0:30:54.518,0:30:56.689
No tenemos una muy buena respuesta.
0:30:56.689,0:30:57.728
Es decir, está bien,
0:30:57.728,0:31:01.681
esto ayudará a las computadoras [br]a comprender más nuestro idioma, sí,
0:31:01.681,0:31:05.119
pero ¿qué tipo de herramientas[br]podemos hacer en el futuro?
0:31:05.119,0:31:07.307
Y no tenemos [br]una buena respuesta para esto.
0:31:07.307,0:31:10.465
Así que no sé si tienes [br]una buena respuesta para esto.
0:31:10.465,0:31:12.582
(risas) No sé si tengo una buena,
0:31:12.582,0:31:14.586
pero tengo una respuesta.
0:31:15.320,0:31:20.265
Creo que en este momento, como les decía,
0:31:20.265,0:31:21.764
no hemos alcanzado esa masa crítica
0:31:21.764,0:31:25.369
en la que puedes construir muchas[br]de las herramientas interesantes.
0:31:25.369,0:31:27.547
Pero ya hay algunas herramientas.
0:31:28.107,0:31:31.752
Justo el otro día, [br]Esther [Pandelia], por ejemplo,
0:31:31.752,0:31:33.657
lanzó una herramienta donde pueden ver,
0:31:35.677,0:31:38.729
creo que fueron las palabras en un globo
0:31:38.729,0:31:41.741
donde se habla más, de dónde vienen.
0:31:42.471,0:31:43.930
Puede que me equivoque,
0:31:43.930,0:31:46.186
pero ella respondió en el chat[br]del Proyecto en Wikidata,
0:31:46.186,0:31:48.824
pueden buscarlo allí.
0:31:49.414,0:31:51.645
Así que hemos visto [br]estas primeras herramientas,
0:31:51.645,0:31:55.536
tal como las vimos [br]cuando comenzó Wikidata.
0:31:56.686,0:31:59.442
Primero solo era una red
0:31:59.442,0:32:03.264
y "Oye, mira, hay una cosa [br]que se conecta con esta otra cosa".
0:32:04.664,0:32:06.899
Y a medida que tenemos más datos,
0:32:06.899,0:32:10.192
y a medida que alcanzamos[br]cierta masa crítica,
0:32:11.602,0:32:14.497
se hacen posibles [br]aplicaciones más potentes,
0:32:15.407,0:32:17.246
como Histropedia,
0:32:18.846,0:32:21.708
cosas como preguntas y respuestas
0:32:21.708,0:32:26.383
en tu asistente personal digital,[br]Platypus, etc.
0:32:26.383,0:32:29.388
Y estamos viendo [br]algo similar con los lexemas.
0:32:31.038,0:32:34.490
Estamos en la etapa en la que [br]puedes construir así de pequeño
0:32:34.490,0:32:37.304
y oye, mira, hay una conexión[br]entre las dos cosas,
0:32:37.704,0:32:42.578
y la etapa de traducción de esta palabra[br]a ese lenguaje,
0:32:42.578,0:32:47.587
y a medida que la desarrollamos [br]y a medida que describimos más palabras,
0:32:47.587,0:32:49.373
más se hace posible.
0:32:49.373,0:32:51.635
Ahora, ¿qué se hace posible?
0:32:53.322,0:32:59.323
Como Ben, nuestro orador principal,[br]al comenzar habló de traducciones,
0:32:59.943,0:33:03.295
pudiendo traducir de un idioma a otro.
0:33:03.295,0:33:07.769
Y Jens, mi colega, siempre habla
0:33:07.769,0:33:11.292
de que la Unión Europea busca un traductor
0:33:11.292,0:33:17.279
que pueda traducir de... [br]creo que fue de maltés al sueco.
0:33:17.279,0:33:19.276
- (persona 8) Estonio.[br]- Estonio.
0:33:21.856,0:33:26.051
Y esa no es una combinación habitual.
0:33:27.051,0:33:31.575
Y una vez que estos idiomas estén [br]en un lugar que una máquina pueda leer,
0:33:31.575,0:33:32.983
ustedes podrán hacerlo,
0:33:32.983,0:33:36.697
podrán tener un diccionario
0:33:36.697,0:33:41.575
del estonio al maltés y viceversa.
0:33:42.775,0:33:45.447
Por lo tanto, cubrir combinaciones[br]de idiomas en diccionarios
0:33:45.447,0:33:47.751
que simplemente no se han cubierto antes
0:33:47.751,0:33:50.890
porque no había suficiente[br]demanda, por ejemplo,
0:33:50.890,0:33:55.380
para que sea financieramente viable[br]y para justificar el trabajo.
0:33:55.380,0:33:56.987
Ahora podemos hacer eso.
0:33:59.637,0:34:02.158
Luego generación de texto.
0:34:02.158,0:34:04.032
Lucie estaba hablando
0:34:04.032,0:34:09.976
de cómo está trabajando [br]con Hattie en la generación de texto
0:34:09.976,0:34:14.373
para iniciar artículos de Wikipedia[br]en idiomas minoritarios,
0:34:15.263,0:34:19.352
y eso necesita datos sobre palabras,
0:34:19.352,0:34:22.429
y ustedes necesitan entender[br]el idioma para hacerlo.
0:34:23.359,0:34:27.973
Sí, y esos son solo algunos [br]que me vienen a la mente justo ahora.
0:34:28.533,0:34:31.174
Tal vez nuestra audiencia tenga [br]más ideas de lo que quieren hacer
0:34:31.174,0:34:34.193
cuando tengamos todos los datos gloriosos.
0:34:37.533,0:34:40.732
(persona 9) Me desviaré [br]del tema de los lexemas.
0:34:40.732,0:34:42.506
Haré la pregunta,
0:34:42.506,0:34:45.474
¿cómo puedo, [br]como miembro de la comunidad,
0:34:45.474,0:34:49.975
influir en que esa tarea sea prioridad,
0:34:49.975,0:34:56.484
que un nuevo usuario pueda indicar[br]qué idiomas quiere ver y editar
0:34:56.484,0:35:00.975
sin algún conocimiento secreto[br]de plantillas verbales?
0:35:01.985,0:35:04.893
Quizás exista este año [br]esta lista de deseos técnicos
0:35:04.893,0:35:06.880
sin temas de Wikipedia.
0:35:06.880,0:35:09.959
Tal vez haya una esperanza [br]de que todos podamos votar
0:35:09.959,0:35:14.058
sobre esto que no arreglamos[br]durante siete años.
0:35:14.695,0:35:17.354
¿Tienen alguna idea [br]o comentario sobre esto?
0:35:18.057,0:35:20.168
¿Estás hablando del hecho
0:35:20.168,0:35:23.178
de que alguien que no [br]ha iniciado sesión en Wikidata
0:35:23.178,0:35:25.671
no puede cambiar su idioma fácilmente?
0:35:25.671,0:35:27.679
(persona 9) No, para usuarios [inaudibles].
0:35:28.149,0:35:30.529
Por lo tanto, si inician sesión,
0:35:30.529,0:35:34.711
pueden cambiar su idioma [br]en la parte superior de la página,
0:35:35.731,0:35:37.939
y luego aparecerá
0:35:39.489,0:35:41.853
donde están las descripciones[br]de las etiquetas [inaudible],
0:35:41.853,0:35:43.323
y pueden editarlo.
0:35:45.497,0:35:48.849
(persona 9) Bueno, en realidad, [br]muchas veces el flujo de trabajo
0:35:48.849,0:35:52.287
es que si quieres tener [br]varios idiomas, estén disponibles,
0:35:52.287,0:35:55.259
y no siempre es así.
0:35:55.259,0:35:58.424
Bien, tal vez deberíamos sentarnos [br]después de esta charla y me lo muestras.
0:36:01.402,0:36:03.693
Genial. ¿Más preguntas?
0:36:05.314,0:36:06.316
Sí.
0:36:11.435,0:36:13.036
(persona 10) Gracias por la presentación.
0:36:13.886,0:36:14.967
¿Puede comentarnos
0:36:14.967,0:36:19.147
sobre el estado de la correlación [br]con la comunidad de Wiktionary?
0:36:19.147,0:36:22.136
Hasta donde he visto, [br]hubo algunas discusiones
0:36:22.136,0:36:25.891
sobre la importación [br]de algunos elementos del trabajo,
0:36:25.891,0:36:30.683
pero parece haber problemas de licencia[br]y algunos desacuerdos, etc.
0:36:30.683,0:36:31.688
Correcto.
0:36:31.688,0:36:36.170
Bueno, las comunidades de Wiktionary[br]han pasado mucho tiempo
0:36:37.160,0:36:39.313
construyendo Wiktionary.
0:36:39.313,0:36:42.483
Han creado
0:36:43.033,0:36:47.394
plantillas increíblemente [br]complicadas y complejas
0:36:47.394,0:36:53.454
para crear tablas bonitas que generan [br]automáticamente formas para ustedes
0:36:53.454,0:36:56.232
y todo tipo de cosas [br]realmente impresionantes
0:36:56.232,0:37:00.325
y cosas un poco locas, si lo piensan.
0:37:02.151,0:37:07.834
Y, por supuesto, han invertido [br]mucho tiempo y esfuerzo en eso.
0:37:09.204,0:37:11.641
Y comprensiblemente,
0:37:11.641,0:37:16.956
no quieren que simplemente sea tomado,
0:37:17.886,0:37:18.942
así como así.
0:37:18.942,0:37:21.631
En parte viene de eso.
0:37:22.404,0:37:24.780
Y eso está bien, no hay problema.
0:37:25.577,0:37:31.932
Ahora, las primeras comunidades[br]de Wiktionary están hablando de producir
0:37:31.932,0:37:34.169
e importar algunos [br]de sus datos a Wikidata.
0:37:34.169,0:37:38.935
El ruso, como han visto, [br]por ejemplo, es uno de esos casos
0:37:40.125,0:37:42.105
y espero que suceda más.
0:37:43.475,0:37:46.640
Pero será un proceso lento,
0:37:46.640,0:37:49.223
al igual que la adopción [br]de los datos de Wikidata en Wikipedia
0:37:49.223,0:37:51.749
ha sido un proceso bastante lento.
0:37:52.689,0:37:56.023
Por otro lado, hacer que sea más fácil
0:37:56.023,0:37:58.972
usar los datos que están en lexemas,
0:37:58.972,0:38:02.049
en Wiktionary, para que puedan[br]hacer uso de eso
0:38:02.049,0:38:05.371
y compartir datos entre[br]los Wiktionarios de los idioma,
0:38:05.371,0:38:08.693
que es muy difícil [br]o imposible en este momento,
0:38:08.693,0:38:11.400
lo cual es una locura, [br]como con Wikipedia.
0:38:13.590,0:38:16.055
Esperen por el regalo de cumpleaños.
0:38:19.738,0:38:20.772
Sí.
0:38:22.439,0:38:24.667
(persona 11) Mientras lo pensaba,
0:38:24.667,0:38:28.008
no quise decirlo[br]porque pensaba que sería supertonto,
0:38:28.008,0:38:31.843
pero creo que Wiktionary [br]ya tiene algo de contenido,
0:38:31.843,0:38:34.818
y sé que no podemos [br]transferirlo a Wikidata
0:38:34.818,0:38:36.888
porque hay una diferencia[br]en las licencias.
0:38:36.888,0:38:39.471
Pero estaba pensando que tal vez[br]podamos hacer algo al respecto.
0:38:40.161,0:38:45.103
Tal vez, no sé, podemos obtener[br]el permiso de las comunidades
0:38:45.603,0:38:51.045
luego de, no sé, [br]tener una votación pública
0:38:51.045,0:38:55.482
y para que la comunidad, [br]los miembros activos de la comunidad
0:38:55.482,0:39:02.363
voten y digan si desean [br]o aceptan transferir el contenido
0:39:02.363,0:39:05.368
para el que pueden [br]hacer los lexemas de Wikidata.
0:39:06.078,0:39:08.377
Porque creo que es un desperdicio.
0:39:09.408,0:39:14.283
Por lo tanto, esa es definitivamente[br]una conversación que las personas
0:39:14.283,0:39:18.089
que están en las comunidades de Wiktionary[br]son bienvenidas a plantear.
0:39:18.089,0:39:24.487
Creo que sería un poco presuntuoso[br]para nosotros ir y forzar eso.
0:39:25.757,0:39:30.982
Pero sí, creo que definitivamente [br]vale la pena tener una conversación.
0:39:30.982,0:39:33.738
Pero creo que también [br]es importante entender
0:39:33.738,0:39:38.922
que hay una distinción entre [br]lo que está legalmente permitido
0:39:38.922,0:39:42.987
y lo que deberíamos estar haciendo,
0:39:42.987,0:39:45.266
y lo que esas personas[br]quieren o no quieren.
0:39:45.576,0:39:47.169
Incluso si está legalmente permitido,
0:39:47.169,0:39:50.480
si algunas otras comunidades [br]de Wiktionary no quieran eso,
0:39:50.480,0:39:53.377
al menos yo tendría cuidado.
0:39:58.726,0:40:02.329
Creo que necesitas el micrófono[br]para la transmisión.
0:40:04.380,0:40:07.139
(persona 12) Obviamente, [br]todo es muy emocionante,
0:40:07.819,0:40:12.159
e inmediatamente pienso [br]cómo puedo llevar eso a mis estudiantes
0:40:12.159,0:40:15.398
y cómo puedo incorporarlo a los cursos,
0:40:15.398,0:40:18.371
el trabajo que estamos haciendo,[br]los entornos educativos.
0:40:18.371,0:40:22.111
Y no tengo, en este momento,
0:40:22.111,0:40:23.956
en primer lugar, suficiente conocimiento,
0:40:23.956,0:40:27.118
pero creo que la documentación que tenemos
0:40:27.648,0:40:29.922
podría ser mejorada.
0:40:29.922,0:40:33.277
Esa es una especie de solicitud[br]para hacer videos geniales
0:40:33.277,0:40:35.738
que expliquen cómo funciona
0:40:35.738,0:40:39.788
porque si lo tenemos, podemos usarlo,
0:40:39.788,0:40:41.825
y podemos tener estudiantes a bordo,
0:40:41.825,0:40:46.912
y podemos hacer que la gente entienda[br]lo increíble que es todo.
0:40:46.912,0:40:51.841
Y sí, solo piensen en la documentación[br]y en la educación, por favor.
0:40:51.841,0:40:54.320
Porque creo que se podría hacer mucho.
0:40:54.320,0:40:58.425
Estas son como muchas tareas [br]que podrían hacerse incluso con...
0:40:59.965,0:41:01.873
bueno, no diría escuelas primarias,
0:41:01.873,0:41:05.335
pero ciertamente, incluso[br]estudiantes más jóvenes.
0:41:05.755,0:41:10.706
Entonces, realmente me gustaría ver[br]ese potencial aprovechado
0:41:10.706,0:41:15.112
y, a partir de ahora, personalmente[br]no entiendo lo suficiente
0:41:15.112,0:41:19.340
como para poder crear[br]tareas o crear como...
0:41:20.270,0:41:21.995
hacer algo práctico con eso.
0:41:21.995,0:41:25.612
Cualquier ayuda o pensamiento[br]que alguien tenga sobre eso,
0:41:25.612,0:41:29.488
estaría muy feliz de escucharlas también.
0:41:30.348,0:41:31.969
Sí, hablemos de eso.
0:41:35.243,0:41:36.759
¿Más preguntas?
0:41:37.649,0:41:39.035
Alguien más levantó una mano.
0:41:39.035,0:41:40.335
Olvidé dónde estaba.
0:41:45.579,0:41:49.836
(persona 13) Si no podemos [br]importar desde Wiktionary,
0:41:49.836,0:41:55.612
¿hay algún esfuerzo concertado en hallar [br]otras fuentes de dominio público,
0:41:55.612,0:41:57.299
tal vez todos los datos
0:41:58.609,0:42:03.007
y algún tipo de filtro previo, organizarlo
0:42:03.007,0:42:08.310
que sea fácil de revisar y así importarlo?
0:42:08.933,0:42:11.021
Se han tomado medidas iniciales.
0:42:11.021,0:42:14.609
Tengo entendido que el vasco[br]es uno de esos esfuerzos.
0:42:14.609,0:42:17.314
¿Quizás quieras decir [br]un poco más al respecto?
0:42:18.266,0:42:19.970
(persona 7) [inaudible]
0:42:23.006,0:42:26.988
Bueno, la respuesta real es pagar por eso.
0:42:28.214,0:42:33.221
Tenemos un acuerdo con un contratista[br]con el que usualmente trabajamos.
0:42:34.641,0:42:38.095
Hacen diccionarios,
0:42:40.155,0:42:42.436
y muchas cosas, pero hacen diccionarios.
0:42:43.268,0:42:47.313
Acordamos con ellos para liberar[br]el diccionario de los estudiantes,
0:42:47.313,0:42:52.622
seleccionamos las palabras más comunes[br]y comenzaríamos a cargarlo
0:42:52.622,0:42:55.430
con un identificador externo[br]y el esquema de las cosas.
0:42:58.060,0:43:02.425
Pero hubo una discusión [br]acerca de dejarlo en CC0
0:43:03.052,0:43:05.162
porque tienen el diccionario con CC
0:43:06.377,0:43:10.166
y entendieron cuál era la diferencia.
0:43:10.166,0:43:13.706
Entonces hubo una discusión.
0:43:13.706,0:43:19.549
Pero creo que proporcionaremos algunas[br]herramientas o ejemplos en el futuro,
0:43:19.549,0:43:23.856
y creo que habrán otros diccionarios[br]que podamos manejar,
0:43:23.856,0:43:29.114
y también creo que Wiktionary [br]debe comenzar a moverse en esa dirección,
0:43:29.114,0:43:32.100
pero esa es otra gran discusión.
0:43:33.125,0:43:34.327
Y además de eso,
0:43:34.327,0:43:38.679
Lea también está en contacto [br]con personas occitanas
0:43:38.679,0:43:41.667
que trabajan en diccionarios occitanos,
0:43:41.667,0:43:44.978
y actualmente están trabajando[br]en una colaboración de sumerio.
0:43:51.384,0:43:53.103
¿Más preguntas?
0:44:01.327,0:44:05.189
(persona 14) ¡Hola! Somos las personas [br]que queremos importar datos occitanos.
0:44:05.189,0:44:06.425
¡Ajá! ¡Perfecto!
0:44:06.425,0:44:08.208
(persona 14) Y tenemos[br]un pequeño problema.
0:44:09.028,0:44:14.055
No sabemos cómo representar [br]la variedad de todos los lexemas.
0:44:14.055,0:44:17.733
Tenemos seis dialectos
0:44:17.733,0:44:23.854
y queremos indicarle a Lexemas[br]en qué dialecto se usa
0:44:23.854,0:44:27.125
y no tenemos una declaración C0[br]adecuada para hacerlo.
0:44:27.125,0:44:30.945
Por lo tanto, [br]mientras la declaración no exista,
0:44:31.475,0:44:34.305
nos impide impulsarlo
0:44:34.305,0:44:37.443
porque tendremos que volver a hacerlo
0:44:37.443,0:44:41.916
cuando podamos [sacar provecho][br]a la declaración.
0:44:41.916,0:44:44.391
Y es complicado porque es una declaración
0:44:44.391,0:44:47.642
que muchas personas no pedirán
0:44:47.642,0:44:53.284
porque es una declaración que se refiere [br]principalmente a los idiomas minoritarios.
0:44:53.284,0:44:56.773
Tendrás una sola persona que lo pida,
0:44:56.773,0:44:59.862
pero, como nuestros colegas vascos,
0:44:59.862,0:45:05.922
puede ser una persona [br]que impulsará a miles de otros,
0:45:05.922,0:45:10.724
por lo que puede que no se pida mucho,
0:45:10.724,0:45:13.976
pero será muy importante para nosotros.
0:45:14.714,0:45:17.440
¿Ya tienen una nueva [br]propuesta de propiedad
0:45:17.440,0:45:19.310
o necesitan ayuda para crearla?
0:45:21.364,0:45:24.140
(persona 14) La solicitamos[br]hace cuatro meses.
0:45:24.560,0:45:28.595
Entonces hagamos que algunas personas [br]ayuden con esta propuesta de propiedad.
0:45:29.929,0:45:32.932
Estoy seguro de que hay suficientes [br]personas en esta sala para que suceda.
0:45:32.932,0:45:35.511
(persona 15) Propuesta de propiedad[br][hablando en francés].
0:45:35.511,0:45:36.497
(persona 16) No tuvimos respuesta.
0:45:36.497,0:45:39.539
(persona 14) No tuvimos respuesta,[br]y no sabemos cómo hacerlo
0:45:39.539,0:45:42.793
porque no estamos [br]en la comunidad de Wikidata.
0:45:44.534,0:45:48.657
Sí, así que hay personas aquí[br]que pueden ayudarte.
0:45:48.657,0:45:51.974
Quizás alguien [br]levante la mano para tomar...
0:45:51.974,0:45:53.484
(persona 7) Estoy para eso.
0:45:53.484,0:45:55.352
Pero creo que esto [br]es bastante interesante
0:45:55.352,0:45:58.899
no solo por la variante de forma
0:45:58.899,0:46:02.447
también puede manejarse geográficamente,
0:46:02.447,0:46:04.835
con coordenadas o algún tipo de mapeo.
0:46:05.435,0:46:07.655
También tener diferentes pronunciaciones,
0:46:07.655,0:46:11.677
y creo que esto es algo [br]que sucede en muchos idiomas.
0:46:12.447,0:46:16.102
Deberíamos comenzar [br]a hacer que suceda [inaudible],
0:46:16.102,0:46:18.705
y voy a buscar la propiedad.
0:46:19.622,0:46:20.773
Genial.
0:46:20.773,0:46:24.286
Entonces obtendrás respaldo [br]para tu propuesta de propiedad.
0:46:25.976,0:46:27.137
Gracias.
0:46:27.993,0:46:30.101
Muy bien, ¿más preguntas?
0:46:32.250,0:46:33.584
Finn.
0:46:33.584,0:46:34.895
Finn es una de esas personas
0:46:34.895,0:46:37.371
que construye cosas [br]sobre datos lexicográficos.
0:46:37.371,0:46:39.925
(Finn) Es solo una pequeña pregunta,
0:46:40.245,0:46:44.066
y se trata de variaciones ortográficas.
0:46:44.736,0:46:47.842
Parece difícil ponerlos en...
0:46:48.282,0:46:53.118
Podría, por supuesto, tener múltiples[br]formas para la misma palabra.
0:46:56.167,0:46:58.288
No sé, parece que
0:46:59.398,0:47:03.375
si no lo haces así[br]parece ser difícil de especificar...
0:47:04.611,0:47:05.728
o no sé
0:47:05.728,0:47:09.571
si esto es solo un problema[br]técnico menor o si...
0:47:09.571,0:47:11.092
Veámoslo juntos.
0:47:11.332,0:47:14.920
Me encantaría ver un ejemplo.
0:47:17.318,0:47:18.318
Asaf.
0:47:26.726,0:47:28.236
(Asaf) Gracias.
0:47:29.226,0:47:33.525
Puedo dar un ejemplo muy concreto[br]de mi lengua materna, el hebreo.
0:47:34.045,0:47:38.685
El hebreo tiene dos variantes principales
0:47:38.685,0:47:42.626
para expresar casi todas las palabras
0:47:42.626,0:47:47.480
porque la ortografía tradicional
0:47:47.480,0:47:49.884
omite muchas de las vocales.
0:47:50.774,0:47:55.047
Y, por lo tanto, en las ediciones[br]modernas de la Biblia y de la poesía,
0:47:55.047,0:47:57.301
se usan diacríticos.
0:47:57.301,0:48:02.510
Sin embargo, esos signos diacríticos [br]nunca se usan para la prosa moderna
0:48:02.510,0:48:05.814
o la escritura de periódicos[br]o letreros de la calle.
0:48:05.814,0:48:11.049
El uso informal diario promedio[br]pone vocales adicionales
0:48:12.009,0:48:13.359
y no usa los signos diacríticos
0:48:13.359,0:48:15.447
porque son, por supuesto, más engorrosos
0:48:15.447,0:48:17.733
y tienen todo tipo de reglas[br]y nadie las conoce.
0:48:18.473,0:48:20.371
Entonces, básicamente hay dos variantes.
0:48:20.371,0:48:25.162
Existe la variante [br]de la prosa informal cotidiana,
0:48:25.162,0:48:27.667
y está la Biblia o la poesía,
0:48:27.667,0:48:31.830
que siempre viene [br]en este texto diacrítico tradicional.
0:48:31.830,0:48:33.142
Para ser útil,
0:48:33.142,0:48:37.268
Lexema tendría que reconocer [br]ambas variedades de cada palabra
0:48:37.268,0:48:39.587
y cada forma de cada palabra.
0:48:40.517,0:48:43.231
Es un caso de uso muy completo
0:48:43.231,0:48:46.180
para las variantes estables oficiales.
0:48:46.180,0:48:48.782
No es dialecto, no son regiones,
0:48:49.062,0:48:53.357
son básicamente dos sistemas[br]morfológicos coexistentes.
0:48:54.377,0:48:58.766
Y tampoco sé exactamente [br]cómo expresarlo en Lexema,
0:48:58.766,0:49:02.640
cosa que me impide responder [br]parcialmente a la pregunta de Magnus
0:49:02.640,0:49:05.078
de subir las partes que están listas
0:49:05.078,0:49:09.234
del mayor diccionario hebreo,[br]que es de dominio público
0:49:09.234,0:49:12.981
y que he estado digitalizando[br]durante varios años.
0:49:12.981,0:49:14.643
Una buena parte está lista,
0:49:14.643,0:49:16.389
pero no la pongo en Lexema en este momento
0:49:16.389,0:49:20.085
porque no sé exactamente [br]cómo resolver este problema.
0:49:20.085,0:49:23.227
Muy bien, solucionemos [br]este problema aquí. (risas)
0:49:24.343,0:49:25.861
Eso tiene que ser posible.
0:49:29.741,0:49:31.743
Muy bien, ¿más preguntas?
0:49:36.861,0:49:39.423
Si no, muchas gracias.
0:49:40.355,0:49:45.026
(aplausos)