WEBVTT
00:00:06.073 --> 00:00:07.202
(Lydia) Muchas gracias.
00:00:07.202 --> 00:00:11.284
En esta conferencia, uno de los grandes
temas son los idiomas.
00:00:13.710 --> 00:00:17.969
Quiero darles una visión general
de dónde estamos actualmente
00:00:17.969 --> 00:00:19.652
en lo que respecta a los idiomas
00:00:20.104 --> 00:00:22.007
y hacia dónde podemos ir desde aquí.
00:00:28.876 --> 00:00:32.420
Wikidata se trata de dar a más personas
más acceso a más conocimiento,
00:00:32.420 --> 00:00:37.008
y el lenguaje es una parte importante
para hacer que esto sea una realidad,
00:00:38.045 --> 00:00:43.131
porque cada vez más nuestras vidas
dependen de la tecnología.
00:00:43.954 --> 00:00:48.713
Y como nuestro orador principal decía hoy,
00:00:49.473 --> 00:00:51.428
parte de la tecnología
deja atrás a las personas
00:00:51.428 --> 00:00:54.860
simplemente porque no pueden
hablar un determinado idioma,
00:00:55.160 --> 00:00:57.413
y eso no está bien.
00:00:58.473 --> 00:01:01.937
Entonces queremos hacer algo al respecto.
00:01:02.767 --> 00:01:05.681
Y para cambiar eso,
necesitan al menos dos cosas.
00:01:06.251 --> 00:01:11.110
Una es que deben proporcionar contenido
a las personas en su idioma,
00:01:11.110 --> 00:01:12.795
y la segunda cosa que necesitan
00:01:12.795 --> 00:01:15.750
es proporcionarles
interacción en su idioma
00:01:15.750 --> 00:01:19.029
en esas aplicaciones
o lo que sea que tenga.
00:01:20.207 --> 00:01:25.117
Y Wikidata ayuda con ambas cosas.
00:01:25.677 --> 00:01:28.248
Lo primero, contenido en su idioma,
00:01:28.248 --> 00:01:30.719
eso es básicamente lo que tenemos
en elementos y propiedades,
00:01:31.089 --> 00:01:32.782
cómo describimos el mundo.
00:01:32.782 --> 00:01:34.925
Ahora, esto ciertamente
no es todo lo que necesitan,
00:01:34.925 --> 00:01:39.134
pero eso ya es un gran avance.
00:01:39.604 --> 00:01:41.687
La otra cosa
es la interacción en su idioma,
00:01:41.687 --> 00:01:46.089
y ahí es donde
entran en juego los lexemas.
00:01:46.089 --> 00:01:49.222
Si desean hablar
con su asistente personal digital
00:01:49.222 --> 00:01:54.758
o si desean que su dispositivo
traduzca un texto y cosas así.
00:01:56.112 --> 00:01:59.094
Muy bien, veamos
el Contenido en su idioma.
00:01:59.094 --> 00:02:03.236
Entonces, lo que tenemos
en elementos y propiedades.
00:02:05.246 --> 00:02:09.536
Para esto, las etiquetas en esos
elementos y propiedades son cruciales.
00:02:10.076 --> 00:02:14.706
Necesitamos saber cómo se llama
esta entidad de la que estamos hablando.
00:02:15.496 --> 00:02:19.827
Y en lugar de hablar sobre Q5,
00:02:19.827 --> 00:02:22.020
alguien que habla inglés
sabe que es un "humano",
00:02:22.020 --> 00:02:24.546
alguien que habla alemán
sabe que es un "mensch"
00:02:24.546 --> 00:02:26.214
y cosas similares.
00:02:26.214 --> 00:02:29.582
Entonces, esas etiquetas
en elementos y propiedades
00:02:29.582 --> 00:02:33.459
están cerrando la brecha
entre humanos y máquinas.
00:02:33.459 --> 00:02:35.189
Y humanos y humanos
00:02:35.189 --> 00:02:39.750
haciendo más conocimiento existente
accesible para ellos.
00:02:42.950 --> 00:02:46.130
Ahora, esa es una buena aspiración.
00:02:46.130 --> 00:02:48.052
¿Cómo se vería realmente?
00:02:48.052 --> 00:02:49.447
Se vería como esto.
00:02:50.637 --> 00:02:52.386
Lo que están viendo aquí
00:02:52.386 --> 00:02:58.336
es que la mayoría de los elementos
en Wikidata tienen dos etiquetas,
00:02:58.336 --> 00:03:00.607
por lo que las etiquetas
están en dos idiomas.
00:03:01.537 --> 00:03:05.508
Y después de eso, es uno, y luego tres,
y luego se pone muy triste.
00:03:06.621 --> 00:03:08.421
(risa silenciosa)
00:03:09.777 --> 00:03:12.553
Creo que debemos hacerlo mejor.
00:03:14.025 --> 00:03:15.159
Pero, por otro lado,
00:03:15.159 --> 00:03:17.318
en realidad esperaba
que esto fuera aún peor.
00:03:17.318 --> 00:03:19.400
Esperaba que el promedio fuera uno.
00:03:19.400 --> 00:03:22.343
Así que estaba bastante feliz
de ver dos. (risa)
00:03:24.571 --> 00:03:25.724
Bien.
00:03:26.996 --> 00:03:29.367
Pero no solo es interesante saber
00:03:29.367 --> 00:03:33.582
cuántas etiquetas tienen nuestros
elementos y propiedades.
00:03:33.582 --> 00:03:36.405
También es interesante ver en qué idiomas.
00:03:37.885 --> 00:03:43.604
Aquí pueden ver un gráfico de los idiomas
00:03:43.604 --> 00:03:46.678
que tienen etiquetas en los elementos.
00:03:46.678 --> 00:03:50.509
Entonces, la parte más grande es Otros.
00:03:51.069 --> 00:03:53.703
Así que acabo de tomar
los 100 idiomas principales
00:03:54.373 --> 00:03:58.742
y todo lo demás es Otros
para hacer que este gráfico sea legible.
00:03:59.382 --> 00:04:01.982
Y luego está el inglés y el holandés,
00:04:02.842 --> 00:04:04.094
el francés,
00:04:05.764 --> 00:04:08.969
y, para no olvidar, el asturiano.
00:04:09.499 --> 00:04:11.729
- (audiencia) ¡Hurra!
- ¡Yuju! ¡Sí!
00:04:13.739 --> 00:04:16.794
Entonces, lo que ven aquí
es un gran desequilibrio
00:04:16.794 --> 00:04:19.954
y todavía un gran enfoque en el inglés.
00:04:21.076 --> 00:04:24.207
Otra cosa es que si buscan
lo mismo en Propiedades,
00:04:24.207 --> 00:04:25.839
en realidad se ve mejor.
00:04:27.239 --> 00:04:32.590
Y creo que parte se debe
a que son menos propiedades.
00:04:32.590 --> 00:04:36.610
Incluso las comunidades más pequeñas
podrán mantenerse al día con eso.
00:04:36.610 --> 00:04:39.013
Pero también es una parte
bastante importante de Wikidata
00:04:39.013 --> 00:04:40.999
localizarlo en su idioma.
00:04:40.999 --> 00:04:42.224
Eso es bueno.
00:04:45.592 --> 00:04:47.682
Lo que quiero resaltar aquí con asturiano
00:04:47.682 --> 00:04:53.538
es que una pequeña comunidad
puede hacer una gran diferencia
00:04:54.288 --> 00:04:56.925
con un poco de dedicación y trabajo,
00:04:56.925 --> 00:04:58.260
y eso es realmente genial.
00:05:01.686 --> 00:05:03.370
Un pequeño cuestionario para ustedes.
00:05:03.370 --> 00:05:07.337
Si toman todas las propiedades en Wikidata
que no son identificadores externos,
00:05:07.337 --> 00:05:10.198
¿cuál tiene más cantidad de etiquetas,
como la mayoría de los idiomas?
00:05:10.198 --> 00:05:13.567
(audiencia) [inaudible]
00:05:13.567 --> 00:05:16.626
¿Creen que es la instancia de?
00:05:17.186 --> 00:05:19.283
De ser así están equivocados.
00:05:19.823 --> 00:05:22.050
Es imagen. (risas)
00:05:23.070 --> 00:05:26.206
Sí, eso les dice
que si hablan uno de los idiomas
00:05:26.206 --> 00:05:28.461
en los que instancia de
aún no tiene una etiqueta,
00:05:28.461 --> 00:05:30.030
quizás quieran agregarla.
00:05:31.942 --> 00:05:35.516
Tiene 148 etiquetas actualmente.
00:05:37.528 --> 00:05:41.089
Pero es otra diapositiva.
00:05:42.471 --> 00:05:45.644
Este gráfico nos dice algo
sobre la cantidad de contenido
00:05:46.084 --> 00:05:49.031
que ponemos a disposición
en un idioma determinado
00:05:49.031 --> 00:05:51.882
y cuánto de ese contenido
se usa realmente.
00:05:51.882 --> 00:05:55.288
Entonces, lo que están viendo
es básicamente una curva
00:05:55.288 --> 00:05:59.447
con la mayoría del contenido
que tiene etiquetas en inglés,
00:05:59.447 --> 00:06:04.135
disponible en inglés y se usa mucho.
00:06:04.135 --> 00:06:06.289
Y luego se cae un poco.
00:06:06.289 --> 00:06:09.276
Pero, de nuevo, lo que pueden ver
son valores atípicos
00:06:09.276 --> 00:06:14.824
que tienen mucho más contenido
del que necesariamente esperarían,
00:06:16.623 --> 00:06:19.259
y eso es muy muy bueno.
00:06:20.329 --> 00:06:24.515
El problema aún es que no se usa mucho.
00:06:25.345 --> 00:06:28.582
Los asturianos y holandeses
deberían ser más altos,
00:06:28.582 --> 00:06:31.834
y creo que ayudar a esas comunidades
00:06:33.106 --> 00:06:35.403
a aumentar el uso
de los datos que recopilaron
00:06:35.403 --> 00:06:37.522
es algo realmente útil.
00:06:42.750 --> 00:06:47.110
Lo que este y otros análisis
nos mostraron también es algo bueno,
00:06:47.110 --> 00:06:51.218
estamos viendo
que los elementos muy usados
00:06:51.218 --> 00:06:55.135
también tienden a tener más etiquetas
00:06:55.135 --> 00:06:58.028
o al revés...
No está del todo claro.
00:07:02.353 --> 00:07:04.216
Y entonces la pregunta es
00:07:04.646 --> 00:07:06.849
¿estamos sirviendo
solo a los idiomas poderosos?
00:07:07.739 --> 00:07:10.987
¿O estamos sirviendo a todos?
00:07:12.597 --> 00:07:17.583
Y lo que ven aquí
es una agrupación de idiomas.
00:07:17.583 --> 00:07:21.672
Los idiomas que se agrupan
tienden a tener etiquetas juntos.
00:07:25.882 --> 00:07:28.439
Y los ven agruparse.
00:07:28.439 --> 00:07:33.905
Ahora aquí hay una agrupación
similar, coloreada,
00:07:33.905 --> 00:07:39.315
basada en qué tan vivo, cómo se usa,
00:07:40.295 --> 00:07:42.996
qué tan en peligro es el idioma.
00:07:42.996 --> 00:07:44.482
Y lo bueno que están viendo aquí
00:07:44.482 --> 00:07:49.406
es que los idiomas seguros
y los idiomas en peligro de extinción
00:07:49.406 --> 00:07:53.613
no forman dos grupos diferentes.
00:07:53.613 --> 00:07:58.712
Pero todos están mezclados,
00:08:00.102 --> 00:08:04.465
lo que es mucho mejor
de lo que sería al revés
00:08:04.465 --> 00:08:09.217
donde los idiomas seguros,
los idiomas poderosos
00:08:10.037 --> 00:08:12.004
solo se están ayudando mutuamente.
00:08:12.584 --> 00:08:14.196
No, no es el caso.
00:08:14.196 --> 00:08:17.257
Y es algo realmente bueno.
00:08:17.257 --> 00:08:19.882
Cuando vi esto,
pensé que era muy bueno.
00:08:23.314 --> 00:08:25.009
Aquí hay algo similar
00:08:26.079 --> 00:08:28.640
en el que miramos
00:08:30.070 --> 00:08:34.062
el estado de los idiomas
00:08:34.062 --> 00:08:36.065
y cuántas etiquetas tiene.
00:08:39.207 --> 00:08:42.777
Lo que están viendo es una clara victoria
para los idiomas seguros,
00:08:42.777 --> 00:08:44.088
como se esperaba.
00:08:45.348 --> 00:08:47.018
Pero lo que también ven es...
00:08:49.120 --> 00:08:54.247
que los idiomas en las categorías
2 y 3 y tal vez incluso 4
00:08:54.247 --> 00:08:59.120
no son tan malos, en realidad,
00:08:59.120 --> 00:09:02.207
en términos de su representación
en Wikidata y otros.
00:09:03.127 --> 00:09:05.600
Es algo realmente bueno de encontrar.
00:09:07.486 --> 00:09:08.969
Ahora, si observan lo mismo
00:09:08.969 --> 00:09:12.258
para saber cuánto
de ese contenido de esas etiquetas
00:09:12.258 --> 00:09:15.335
se usa realmente
en Wikipedia, por ejemplo,
00:09:17.295 --> 00:09:22.403
entonces vemos una imagen similar
emergiendo nuevamente.
00:09:23.443 --> 00:09:29.653
Y nos dice que esas comunidades
están haciendo un buen uso de su tiempo
00:09:29.653 --> 00:09:34.344
al completar etiquetas para artículos
de mayor uso, por ejemplo.
00:09:36.250 --> 00:09:40.333
Hay valores atípicos
en los que creo que podemos ayudar
00:09:41.523 --> 00:09:48.042
a esas comunidades a encontrar un lugar
donde su trabajo sería más valioso.
00:09:49.152 --> 00:09:52.503
Pero, en general,
estoy contenta con esta imagen.
00:09:54.663 --> 00:09:59.684
Ahora, esa era la parte de elementos
y propiedades de Wikidata.
00:10:00.554 --> 00:10:02.873
Ahora, veamos la interacción
en sus idiomas,
00:10:02.873 --> 00:10:05.043
la parte de lexema de Wikidata
00:10:05.043 --> 00:10:09.234
donde describimos palabras
y sus formas y sus significados.
00:10:10.007 --> 00:10:13.141
Hemos estado haciendo esto
desde mayo del año pasado,
00:10:16.301 --> 00:10:18.967
y el contenido ha ido creciendo.
00:10:19.954 --> 00:10:21.989
Pueden ver aquí en azul los lexemas,
00:10:21.989 --> 00:10:25.778
y luego, en rojo,
las formas en esos lexemas
00:10:25.778 --> 00:10:29.750
y, amarillo, los sentidos en esos lexemas.
00:10:30.831 --> 00:10:34.291
Por lo tanto, algunas comunidades,
lo veremos más adelante,
00:10:34.291 --> 00:10:39.633
han pasado mucho tiempo creando
formas y sentidos para sus lexemas,
00:10:39.633 --> 00:10:42.593
lo cual es realmente útil
00:10:42.593 --> 00:10:48.083
porque construye el núcleo
del conjunto de datos que necesitan.
00:10:50.402 --> 00:10:54.973
Ahora, miramos todos los idiomas
00:10:54.973 --> 00:10:57.746
que tienen lexemas en Wikidata.
00:10:57.746 --> 00:11:00.843
Entonces, las palabras que tenemos
00:11:01.553 --> 00:11:04.244
son ahora 310 idiomas.
00:11:04.724 --> 00:11:08.130
Ahora, ¿cuál creen
que es el idioma principal
00:11:08.130 --> 00:11:11.789
cuando se trata de la cantidad
de lexemas actualmente en Wikidata?
00:11:12.773 --> 00:11:14.540
(persona 1) Ruso.
00:11:19.023 --> 00:11:21.581
- ¿Ah?
- (persona 2) El alemán.
00:11:21.581 --> 00:11:24.092
Lo siento, lo había escuchado.
00:11:24.092 --> 00:11:25.491
Es el ruso.
00:11:27.851 --> 00:11:29.594
El ruso está bastante por delante.
00:11:31.737 --> 00:11:33.672
Y solo para darles una perspectiva,
00:11:35.292 --> 00:11:36.516
hay diferentes opiniones,
00:11:36.516 --> 00:11:42.071
pero he leído, por ejemplo,
que 1000 a 3000 palabras
NOTE Paragraph
00:11:42.071 --> 00:11:45.290
te llevan al nivel de conversación,
aproximadamente, en otro idioma,
00:11:45.290 --> 00:11:49.301
y 4000 a 10 000 palabras
a un nivel avanzado.
00:11:51.431 --> 00:11:55.122
Entonces, todavía tenemos
un poco para alcanzar.
00:11:58.323 --> 00:12:03.119
Una cosa a la que quiero
que presten atención es el vasco
00:12:03.119 --> 00:12:07.584
con 10 000 lexemas, aproximadamente.
00:12:08.954 --> 00:12:12.713
Ahora, si observa el número
de formas para esos lexemas,
00:12:13.843 --> 00:12:16.177
el vasco está muy arriba,
00:12:17.917 --> 00:12:19.666
lo cual es realmente genial,
00:12:19.666 --> 00:12:24.590
y deben ir a una charla que explica
por qué ese es el caso.
00:12:27.041 --> 00:12:30.875
Si nos fijamos en la cantidad de sentidos,
en lo qué significan las palabras,
00:12:31.775 --> 00:12:34.841
el vasco llega
a la parte superior de la lista.
00:12:34.841 --> 00:12:36.862
Creo que eso merece un aplauso.
00:12:36.862 --> 00:12:38.681
(aplausos)
00:12:45.518 --> 00:12:46.958
Otra pregunta rápida.
00:12:46.958 --> 00:12:50.021
¿Cuál es el lexema
con más traducciones actualmente?
00:12:50.311 --> 00:12:54.584
(audiencia) Gatos, gatos, [inaudible],
Douglas Adams, [inaudible]
00:12:56.543 --> 00:12:59.791
Todas buenas conjeturas, pero no.
00:13:00.732 --> 00:13:03.857
Es esta, la palabra rusa para "agua".
00:13:09.041 --> 00:13:12.093
Muy bien, ahora hablamos mucho
00:13:12.093 --> 00:13:16.112
sobre cuántos lexemas,
formas y sentidos tenemos,
00:13:16.112 --> 00:13:20.333
pero eso es solo una cosa que necesitas.
00:13:20.333 --> 00:13:25.001
La otra cosa que necesitan es describir
esos lexemas, formas y sentidos
00:13:25.001 --> 00:13:27.487
de manera legible para una máquina.
00:13:27.487 --> 00:13:29.879
Y para eso tienen declaraciones,
por ejemplo, en elementos.
00:13:31.319 --> 00:13:36.202
Y una de las propiedades
que utilizan es el Ejemplo de uso.
00:13:36.202 --> 00:13:38.422
Entonces, quien esté usando esos datos
00:13:38.422 --> 00:13:41.929
puede entender cómo usar
esa palabra en contexto,
00:13:41.929 --> 00:13:43.998
por lo que podría ser una cita,
por ejemplo.
00:13:45.236 --> 00:13:46.953
Y aquí, los polacos son geniales.
00:13:47.740 --> 00:13:49.604
Buen trabajo, hablantes de polaco.
00:13:54.059 --> 00:13:57.520
Otra propiedad realmente útil es el AFI,
00:13:57.520 --> 00:14:00.026
¿cómo se pronuncia esta palabra?
00:14:00.716 --> 00:14:07.337
Aparentemente, Rusia necesita
muchas declaraciones del AFI.
00:14:10.059 --> 00:14:13.154
Pero, de nuevo, polaco, segundo.
00:14:16.988 --> 00:14:20.423
Y por último, pero no menos importante,
tenemos audio de pronunciación.
00:14:20.423 --> 00:14:23.212
Es decir, enlaces a archivos en Commons
00:14:23.212 --> 00:14:25.799
donde alguien habla la palabra,
00:14:25.799 --> 00:14:29.753
para que puedan escuchar
a un hablante nativo pronunciar la palabra
00:14:29.753 --> 00:14:32.711
en caso de que no sepa leer AFI,
por ejemplo.
00:14:34.799 --> 00:14:39.045
Y hay un proyecto realmente
agradable basado en Wiki
00:14:39.045 --> 00:14:40.314
llamado Lingua Libre
00:14:40.724 --> 00:14:45.013
donde pueden ir y ayudar
a grabar palabras en su idioma
00:14:45.013 --> 00:14:47.676
que luego se pueden agregar
a lexemas en Wikidata,
00:14:48.286 --> 00:14:51.656
para que otras personas puedan entender
cómo pronunciar sus palabras.
00:14:53.503 --> 00:14:55.424
(audiencia) [inaudible]
00:14:55.424 --> 00:14:57.255
Si buscas "Lingua Libre"
00:14:57.255 --> 00:15:00.821
y estoy segura de que alguien
puede publicarlo en el canal de Telegram.
00:15:02.898 --> 00:15:04.331
Esos tipos son geniales.
00:15:04.331 --> 00:15:06.566
Hicieron cosas realmente
geniales con Wikibase.
00:15:09.256 --> 00:15:10.457
Bien.
00:15:12.326 --> 00:15:17.125
Entonces, la pregunta es
¿a dónde vamos desde aquí?
00:15:19.005 --> 00:15:21.367
Según los números que acabo de mostrar,
00:15:22.870 --> 00:15:25.012
hemos recorrido un largo camino
00:15:25.012 --> 00:15:28.270
para dar a más personas
más acceso a más conocimiento
00:15:28.270 --> 00:15:31.080
al mirar idiomas en Wikidata.
00:15:32.370 --> 00:15:35.964
Pero también queda
mucho trabajo por delante.
00:15:38.832 --> 00:15:42.181
Algunas de las cosas que pueden hacer
para ayudar, por ejemplo,
00:15:42.181 --> 00:15:44.521
es organizar "etiquetatones",
00:15:44.521 --> 00:15:49.964
reunir a las personas
para etiquetar elementos en Wikidata
00:15:50.754 --> 00:15:54.961
o hacer un "editatón"
alrededor de lexemas en tu idioma
00:15:54.961 --> 00:15:58.772
para llevar las palabras más utilizadas
de tu idioma a Wikidata.
00:16:00.613 --> 00:16:03.125
O pueden usar una herramienta
como Terminator
00:16:03.125 --> 00:16:08.333
que les ayuda a encontrar los elementos
más importantes en su idioma
00:16:08.333 --> 00:16:11.389
que aún no tienen una etiqueta.
00:16:13.114 --> 00:16:18.199
Lo más importante se mide
por la frecuencia con la que se usa
00:16:18.199 --> 00:16:22.393
en otros elementos de Wikidata
como enlaces en las declaraciones.
00:16:25.608 --> 00:16:29.862
Y, por supuesto, para la parte de lexema,
00:16:31.182 --> 00:16:35.009
ahora que tenemos
una cobertura básica de esos lexemas,
00:16:35.009 --> 00:16:41.003
también se trata de construirlos,
agregarles más declaraciones
00:16:41.003 --> 00:16:44.241
para que puedan construir la base
00:16:44.241 --> 00:16:47.261
para aplicaciones significativas
y construir encima de eso.
00:16:47.981 --> 00:16:50.635
Debido a que nos estamos acercando
a esa masa crítica,
00:16:50.635 --> 00:16:53.456
pero aún estamos lejos de eso,
00:16:53.456 --> 00:16:56.464
que puede construir
aplicaciones serias sobre ella.
00:16:58.117 --> 00:17:01.520
Y espero que todos ustedes
se unan a nosotros para hacer eso.
00:17:02.423 --> 00:17:06.943
Y eso me lleva a pedir
00:17:06.943 --> 00:17:09.683
un poco de ayuda de nuestros amigos.
00:17:09.683 --> 00:17:12.230
Bruno, ¿quieres venir
00:17:13.562 --> 00:17:16.534
y hablarnos sobre máscaras léxicas?
00:17:17.101 --> 00:17:18.127
(Bruno) Gracias, Lydia,
00:17:18.127 --> 00:17:21.359
gracias por darme
este breve período de tiempo
00:17:21.359 --> 00:17:24.490
para presentar este trabajo
que hacemos en Google con Denny,
00:17:24.490 --> 00:17:28.963
que la mayoría probablemente
ha escuchado o sabe.
00:17:29.966 --> 00:17:31.870
Porque en Google, soy lingüista.
00:17:31.870 --> 00:17:35.780
Así que estoy muy feliz de estar aquí
entre otros entusiastas de los idiomas.
00:17:36.460 --> 00:17:39.118
También estamos
construyendo algunos léxicos,
00:17:39.118 --> 00:17:41.606
y hemos construido esta tecnología
00:17:41.606 --> 00:17:45.429
o este enfoque que creemos
que puede ser útil para ustedes.
00:17:46.209 --> 00:17:48.295
Solo para darles un poco de contexto,
00:17:48.295 --> 00:17:51.668
este es mi contexto lexicográfico
que habla aquí.
00:17:52.427 --> 00:17:54.187
Cuando creamos
una base de datos de léxicos,
00:17:54.187 --> 00:17:58.463
es muy difícil mantenerlos,
mantenerlos consistentes
00:17:58.463 --> 00:17:59.965
e intercambiar datos,
00:17:59.965 --> 00:18:01.867
como probablemente ya saben.
00:18:02.357 --> 00:18:05.767
Hay varios intentos de unificar
la característica y las propiedades
00:18:05.767 --> 00:18:09.024
que describen esos lexemas y esas formas,
00:18:09.024 --> 00:18:10.776
no es un problema resuelto,
00:18:10.776 --> 00:18:13.688
pero hay algunos intentos
de unificación de ese lado.
00:18:13.688 --> 00:18:15.049
Pero lo que realmente falta,
00:18:15.049 --> 00:18:18.232
y este es un problema que tuvimos
al comienzo de nuestro proyecto en Google
00:18:18.232 --> 00:18:21.447
es tratar de tener una estructura interna
00:18:22.037 --> 00:18:25.750
que describa cómo debería ser
una entrada léxica,
00:18:25.750 --> 00:18:28.421
qué tipo de datos o qué tipo
de información tenemos
00:18:28.421 --> 00:18:32.077
y la especificación que se espera.
00:18:32.077 --> 00:18:38.027
Entonces, esto es lo que se nos ocurrió
con esta cosa llamada máscara léxica.
00:18:38.737 --> 00:18:44.681
Una máscara léxica describe
lo que se espera de una entrada,
00:18:44.681 --> 00:18:47.169
para completar una entrada lexicográfica,
00:18:47.169 --> 00:18:51.276
tanto en términos de la cantidad
de formas que esperan para un lexema
00:18:51.276 --> 00:18:55.447
y la cantidad de características
que esperan para cada forma.
00:18:56.157 --> 00:18:58.169
Aquí hay un ejemplo
de adjetivos italianos.
00:18:58.169 --> 00:19:01.842
En italiano, esperas tener
cuatro formas para tus adjetivos,
00:19:01.842 --> 00:19:05.223
y cada una de estas formas
tiene una combinación específica
00:19:05.223 --> 00:19:07.786
de características de género y número.
00:19:08.446 --> 00:19:12.512
Esto es lo que esperamos
para los adjetivos italianos.
00:19:12.512 --> 00:19:16.016
Por supuesto, puede tener
máscaras extremadamente complejas,
00:19:16.016 --> 00:19:20.623
como la conjugación de verbos franceses,
que es bastante extensa,
00:19:20.623 --> 00:19:25.277
y no le muestro ninguna otra máscara rusa
porque no se ajusta a la pantalla.
00:19:26.148 --> 00:19:29.371
Y también tenemos algunas
especificaciones detalladas
00:19:29.371 --> 00:19:33.261
porque distinguimos
lo que está al nivel de la forma.
00:19:33.261 --> 00:19:37.384
Aquí tienes sustantivos rusos
que tienen tres números
00:19:37.384 --> 00:19:39.888
y una cantidad de casos
con diferentes formas,
00:19:39.888 --> 00:19:42.926
pero también tienen
una especificación de nivel de entrada
00:19:42.926 --> 00:19:45.430
que dice que un sustantivo
particularmente tiene
00:19:45.430 --> 00:19:49.973
un género inherente y una característica
de animación inherente
00:19:49.973 --> 00:19:52.328
que también se especifica en la máscara.
00:19:54.358 --> 00:19:58.619
También distinguiremos que una máscara
proporciona una especificación
00:19:58.619 --> 00:20:01.714
para, en general,
cómo debería ser una entrada.
00:20:01.714 --> 00:20:06.998
Pero puede tener máscaras más pequeñas
para aspectos defectuosos de la forma
00:20:06.998 --> 00:20:11.122
o aspectos defectuosos del lexema
que suceden en el idioma.
00:20:11.122 --> 00:20:14.377
Así que aquí está la versión
más simple de los verbos franceses
00:20:14.377 --> 00:20:19.569
que usan solo la 3ra persona del singular
para todos los verbos meteorológicos,
00:20:19.569 --> 00:20:23.809
como "llueve" o "nieva", como en inglés.
00:20:24.377 --> 00:20:26.333
Entonces distinguimos estos dos niveles.
00:20:26.763 --> 00:20:29.802
Y cómo usamos esto en Google
00:20:29.802 --> 00:20:32.853
es que, cuando tenemos un léxico
que queremos usar,
00:20:32.853 --> 00:20:38.149
usamos la máscara para lanzar
literalmente los léxicos,
00:20:38.149 --> 00:20:40.003
todas las entradas, a través de la máscara
00:20:40.003 --> 00:20:44.143
y ver qué entrada tiene un problema
en términos de estructura.
00:20:44.143 --> 00:20:46.363
¿Nos falta un formulario?
¿Nos falta una característica?
00:20:46.363 --> 00:20:51.337
Y cuando hay un problema,
hacemos una validación humana
00:20:51.337 --> 00:20:53.591
o simplemente para ver si pasa la máscara.
00:20:53.591 --> 00:20:57.764
Es una herramienta muy poderosa
que verifica la calidad de la estructura.
00:20:59.267 --> 00:21:01.804
Entonces, lo que nos complace anunciar hoy
00:21:01.804 --> 00:21:05.248
es que tenemos luz verde
para liberar el código de nuestra máscara.
00:21:05.788 --> 00:21:07.413
Este es un esquema.
00:21:07.413 --> 00:21:09.317
Si lo desean, podemos liberarlo
00:21:09.317 --> 00:21:13.323
y se lo proporcionaremos a Wikidata
como archivo ShEx.
00:21:13.323 --> 00:21:16.528
Este es un archivo ShEx
para sustantivos alemanes,
00:21:16.528 --> 00:21:20.268
y Denny está trabajando en la conversión
de nuestra especificación interna
00:21:20.268 --> 00:21:23.506
a una especificación de código abierto.
00:21:23.506 --> 00:21:27.362
Actualmente cubrimos más de 25 idiomas.
00:21:27.362 --> 00:21:29.065
Así que, esperamos crecer de nuestro lado,
00:21:29.065 --> 00:21:34.190
pero también buscamos esta oportunidad
de colaborar para otros idiomas.
00:21:34.190 --> 00:21:40.568
Y una de las colaboraciones en curso
también que Denny tiene con Lukas.
00:21:40.568 --> 00:21:44.892
Lukas tiene estas excelentes herramientas
para tener una interfaz de usuario
00:21:44.892 --> 00:21:50.901
que ayude al usuario
o al contribuyente a agregar más formas.
00:21:50.901 --> 00:21:53.991
Entonces, si desea agregar
un adjetivo en francés,
00:21:53.991 --> 00:21:58.897
la interfaz de usuario les indica
cuántas formas se esperan
00:21:58.897 --> 00:22:01.402
y qué tipo de características
debe tener esta forma.
00:22:01.402 --> 00:22:06.108
Por lo tanto, nuestra máscara ayudará
a definir y expandir la herramienta.
00:22:07.078 --> 00:22:08.225
Eso es todo.
00:22:08.583 --> 00:22:10.198
(Lydia) Muchas gracias.
00:22:10.198 --> 00:22:11.833
(aplausos)
00:22:14.089 --> 00:22:16.731
Bien. ¿Hay preguntas?
00:22:16.731 --> 00:22:19.221
¿Quieren que hable más sobre lexemas?
00:22:19.527 --> 00:22:21.315
- (persona 3) Sí.
- Sí. (risas)
00:22:33.035 --> 00:22:35.220
(persona 3) Mi pregunta viene
porque estabas hablando
00:22:35.220 --> 00:22:38.946
de dar más acceso
a más personas en más idiomas.
00:22:38.946 --> 00:22:42.284
Pero hay muchos idiomas
que no se pueden usar en Wikidata.
00:22:42.284 --> 00:22:44.428
Entonces, ¿qué solución tienes para eso?
00:22:45.729 --> 00:22:47.526
Cuando dices
que no se puede usar Wikidata,
00:22:47.526 --> 00:22:50.148
¿estás hablando de ingresar etiquetas?
00:22:50.148 --> 00:22:52.418
- (persona 3) Etiquetas, descripciones.
- Correcto.
00:22:52.418 --> 00:22:55.338
Entonces, para lexemas,
es un poco diferente
00:22:55.338 --> 00:22:57.633
porque no tenemos esa restricción.
00:22:58.763 --> 00:23:02.584
Para las etiquetas
de elementos y propiedades,
00:23:03.284 --> 00:23:05.193
hay algunas restricciones
00:23:05.193 --> 00:23:09.720
porque queríamos asegurarnos
00:23:09.720 --> 00:23:14.069
de que no todo el mundo haga de todo
00:23:14.069 --> 00:23:17.227
y se vuelva inmanejable.
00:23:19.189 --> 00:23:23.168
Incluso una pequeña comunidad
que quiera un idioma y trabajar en él,
00:23:23.738 --> 00:23:26.449
hablen con nosotros, lo haremos realidad.
00:23:26.449 --> 00:23:29.042
(persona 3) Hicimos eso
en el Hackathon de Praga en mayo,
00:23:29.042 --> 00:23:32.299
y nos tomó hasta casi agosto
para poder usar nuestro idioma.
00:23:32.299 --> 00:23:34.975
- Sí.
- (persona 3) Entonces, es muy lento.
00:23:34.975 --> 00:23:37.694
Sí, desafortunadamente así es.
00:23:37.694 --> 00:23:39.723
Actualmente trabajamos
con el Comité de idiomas
00:23:39.723 --> 00:23:45.888
para resolver algunos fundamentos...
00:23:49.377 --> 00:23:54.972
como llegar a un acuerdo sobre qué tipo
de idiomas están realmente "permitidos",
00:23:55.887 --> 00:23:59.238
y eso ha llevado demasiado tiempo,
00:23:59.668 --> 00:24:03.858
razón por la cual su solicitud
tardó más de lo que debería.
00:24:04.448 --> 00:24:05.633
(persona 3) Gracias.
00:24:06.435 --> 00:24:07.730
(persona 4) Gracias a ti.
00:24:07.730 --> 00:24:10.778
Lydia, ¿si recuerdas
las estadísticas que mostraste,
00:24:10.778 --> 00:24:12.726
- el número de lexemas por idioma?
- Sí.
00:24:12.726 --> 00:24:17.439
Entonces, ¿contaste todas las formas
como un punto de datos
00:24:17.439 --> 00:24:19.874
o solo lexemas?
00:24:21.129 --> 00:24:23.300
(Lydia) ¿Te refieres a esto?
¿A cuál te refieres?
00:24:23.300 --> 00:24:25.203
(persona 4) Sí, exactamente.
00:24:25.637 --> 00:24:28.181
Si recuerdas, ¿este número [inaudible]
00:24:28.181 --> 00:24:31.794
todas las formas para todos los lexemas
o cuántos lexemas hay?
00:24:31.794 --> 00:24:35.045
- No, solo es el número de lexemas.
- (persona 4) Solo un número de lexemas.
00:24:35.045 --> 00:24:36.637
Entonces, es una estadística justa
00:24:36.637 --> 00:24:39.230
porque si se compilan las formas,
00:24:39.230 --> 00:24:40.454
es por eso que pregunto,
00:24:40.454 --> 00:24:42.657
entonces todos los idiomas
con la morfología flexiva,
00:24:42.657 --> 00:24:44.867
como el ruso, el serbio,
el esloveno y otros,
00:24:44.867 --> 00:24:47.456
tienen una ventaja natural
porque tienen muchos.
00:24:47.456 --> 00:24:51.650
Ya comienza por aquí,
en este número de formas.
00:24:51.650 --> 00:24:53.691
(persona 4) Sí, fue este. Gracias.
00:24:56.386 --> 00:25:00.064
(persona 5) Tengo
una pregunta rápida sobre...
00:25:00.484 --> 00:25:06.664
Cuando hablamos de los elementos
y propiedades reales.
00:25:06.964 --> 00:25:08.741
Por lo que entiendo,
00:25:08.741 --> 00:25:11.795
actualmente no hay forma
de dar una fuente real
00:25:11.795 --> 00:25:14.566
a ninguna de las etiquetas
y descripciones que se dan.
00:25:14.566 --> 00:25:17.887
Entonces, por ejemplo,
porque cuando hablas
00:25:17.887 --> 00:25:20.760
de la propiedad de un elemento,
00:25:20.760 --> 00:25:24.349
por ejemplo, puedes tener
etiquetas en conflicto.
00:25:24.349 --> 00:25:25.579
Sí.
00:25:25.579 --> 00:25:27.502
(persona 5) Esta persona es como...
00:25:28.242 --> 00:25:30.621
Antes hablábamos
de cosas indígenas, por ejemplo.
00:25:30.621 --> 00:25:35.805
Esta persona es un artista noruego
según esta fuente,
00:25:35.805 --> 00:25:38.590
y un artista sami, según esta fuente.
00:25:39.390 --> 00:25:42.723
O, por ejemplo, en estonio,
tuvimos un problema
00:25:42.723 --> 00:25:47.569
en el que cambiamos la terminología
a la de uso oficial
00:25:47.569 --> 00:25:49.322
en los léxicos oficiales,
00:25:49.322 --> 00:25:52.102
pero no tenemos forma
de indicar realmente por qué,
00:25:52.102 --> 00:25:53.436
es decir, cuál fue la fuente
00:25:53.436 --> 00:25:55.401
y por qué fue mejor y qué había allí antes
00:25:55.401 --> 00:25:56.990
solo fui yo, una persona cualquiera,
00:25:56.990 --> 00:25:59.455
simplemente cambiando la cosa
para cualquiera que lo vea.
00:25:59.455 --> 00:26:02.360
¿Hay algún plan para hacer
esto posible de alguna manera
00:26:02.360 --> 00:26:06.195
para tener las fuentes adecuadas
para los datos de un idioma?
00:26:06.885 --> 00:26:11.408
Entonces, es parcialmente posible.
00:26:11.408 --> 00:26:15.798
Por ejemplo, cuando tienes
un elemento para una persona,
00:26:16.808 --> 00:26:22.560
tienes una declaración,
nombre, apellido, etc., de esa persona,
00:26:22.560 --> 00:26:26.066
puedes proporcionar
la referencia para eso allí.
00:26:28.051 --> 00:26:32.384
Dudo bastante en agregar más complejidad
00:26:32.384 --> 00:26:35.397
para las referencias
en etiquetas y descripciones,
00:26:35.397 --> 00:26:38.464
pero si la gente realmente piensa
00:26:38.464 --> 00:26:44.779
que esto no está cubierto
por ninguna referencia en la declaración,
00:26:44.779 --> 00:26:46.643
entonces hablemos de ello.
00:26:48.919 --> 00:26:53.143
Pero me temo que agregará
mucha complejidad
00:26:53.143 --> 00:26:56.363
para lo que espero sean pocos casos,
00:26:57.233 --> 00:27:00.028
pero estoy dispuesta
a convencerme de lo contrario
00:27:00.028 --> 00:27:03.927
si la gente realmente se siente
muy convencida al respecto.
00:27:03.927 --> 00:27:08.017
(persona 5) Si se agrega, probablemente
no debería ser la interfaz predeterminada
00:27:08.017 --> 00:27:12.292
mostrada a los usuarios principiantes,
en cualquier caso.
00:27:12.292 --> 00:27:16.030
Más como "Haga clic aquí si necesita
decir algo específico sobre esto".
00:27:17.472 --> 00:27:23.208
¿Tenemos una idea de cuántas veces
eso realmente importaría?
00:27:24.360 --> 00:27:26.263
(persona 5) En estonio, por ejemplo,
00:27:26.263 --> 00:27:28.684
supongo que esto también es cierto
para otros idiomas,
00:27:29.114 --> 00:27:34.043
por ejemplo, hay un nombre oficial
que es la traducción legítima actual,
00:27:34.043 --> 00:27:36.046
por ejemplo, al inglés,
00:27:36.046 --> 00:27:40.154
es decir, de un tipo de municipio.
00:27:40.454 --> 00:27:42.022
Ese fue mi caso de uso, por ejemplo,
00:27:42.022 --> 00:27:44.249
donde estábamos usando
la palabra "parish",
00:27:44.999 --> 00:27:50.345
que en estonio se refería a una especie
de parroquia de la iglesia,
00:27:50.345 --> 00:27:51.499
y ese fue el origen,
00:27:51.499 --> 00:27:54.412
pero esa no es la traducción oficial
que tiene Estonia en este momento.
00:27:54.889 --> 00:27:58.833
En este caso, simplemente lo agregaría
como declaraciones de nombre oficiales
00:27:58.833 --> 00:28:00.657
y agregaría la referencia allí.
00:28:01.872 --> 00:28:02.998
(persona 5) Bien.
00:28:05.026 --> 00:28:06.412
¿Preguntas? ¿Sí?
00:28:07.522 --> 00:28:09.884
(Asaf) Tengo dos comentarios rápidos.
00:28:09.884 --> 00:28:13.774
Llamaste específicamente al asturiano
como un idioma que funciona bien,
00:28:13.774 --> 00:28:16.145
y creo que es una observación equívoca.
00:28:16.145 --> 00:28:17.464
Cuéntame sobre eso.
00:28:17.464 --> 00:28:19.588
(Asaf) Creo que es solo un bot
00:28:19.588 --> 00:28:23.908
que pegó nombres de personas,
como nombres propios,
00:28:23.908 --> 00:28:27.012
y dijo: "Bueno, esto es exactamente
como en francés o español",
00:28:27.012 --> 00:28:28.398
y solo lo copió masivamente.
00:28:28.398 --> 00:28:33.156
Un punto de evidencia es que
no se ve esa energía en asturiano
00:28:33.156 --> 00:28:37.045
en cosas que requieren traducción,
como nombres de propiedades
00:28:37.045 --> 00:28:39.488
o nombres de elementos
que no son nombres propios.
00:28:39.488 --> 00:28:41.059
Asaf, me rompes el corazón.
00:28:41.059 --> 00:28:43.038
(Asaf) Lo sé,
me gusta ser aguafiestas,
00:28:43.038 --> 00:28:48.298
pero también tengo buenas noticias,
sobre los números de pronunciación.
00:28:49.248 --> 00:28:53.355
Probablemente sepan que Commons
está llena de archivos de pronunciación,
00:28:53.355 --> 00:28:54.508
y, por ejemplo,
00:28:54.508 --> 00:29:00.826
el holandés tiene no menos de 300 000
archivos de pronunciación en Commons
00:29:01.752 --> 00:29:04.891
que solo necesitan
ser ingeridos de alguna manera.
00:29:04.891 --> 00:29:07.537
Si alguien está buscando
un proyecto paralelo,
00:29:07.537 --> 00:29:08.837
hay toneladas y toneladas
00:29:08.837 --> 00:29:13.120
de archivos de pronunciación
clasificados y categorizados en Commons
00:29:13.120 --> 00:29:16.733
bajo la categoría Pronunciación
por idioma.
00:29:16.733 --> 00:29:22.680
Así que eso está esperando ser emparejado
con lexemas y ponerse en Lexemas.
00:29:22.950 --> 00:29:25.254
Y me preguntaba si podrías decir algo
00:29:25.254 --> 00:29:26.355
sobre la hoja de ruta,
00:29:26.355 --> 00:29:28.527
algo acerca de cuánta inversión
00:29:28.527 --> 00:29:31.765
o qué podemos esperar
de Lexemas en el próximo año,
00:29:31.765 --> 00:29:33.790
porque, por mi parte, no puedo esperar.
00:29:34.789 --> 00:29:36.884
¿No puedes esperar? (risas)
00:29:36.884 --> 00:29:38.958
- (Asaf) Por más.
- Sí. (risas)
00:29:44.381 --> 00:29:49.363
Ahora nos estamos concentrando
más en Wikibase y la calidad de los datos
00:29:51.333 --> 00:29:54.927
para ver cuánta tracción obtiene
00:29:54.927 --> 00:30:01.516
y luego tener más información
de los puntos débiles
00:30:01.516 --> 00:30:05.843
y luego volver a mejorar aún más
los datos lexicográficos.
00:30:06.743 --> 00:30:09.630
Y una de las cosas
que me encantaría saber de ustedes
00:30:09.630 --> 00:30:13.976
es dónde ven exactamente
los próximos pasos,
00:30:13.976 --> 00:30:15.806
dónde desean ver mejoras
00:30:15.806 --> 00:30:20.180
para que luego podamos descubrir
cómo hacer que suceda.
00:30:20.965 --> 00:30:22.650
Pero, por supuesto, tienes razón,
00:30:22.650 --> 00:30:25.552
todavía hay mucho por hacer
también en el aspecto técnico.
00:30:30.413 --> 00:30:35.688
(persona 7) Mientras cargábamos
las palabras vascas con formas y sentidos
00:30:35.688 --> 00:30:37.608
y ese tipo de cosas,
00:30:37.608 --> 00:30:41.169
la semana pasada decíamos:
"Oh, somos los primeros en algo".
00:30:42.759 --> 00:30:44.768
Aparece en la prensa y dice:
00:30:44.768 --> 00:30:49.328
"Oh, los vascos son los primeros...
son los primeros en algo", está bien.
00:30:49.328 --> 00:30:50.446
(risas)
00:30:50.446 --> 00:30:53.158
Y luego la gente pregunta:
"Bien, pero ¿para qué sirve esto?"
00:30:54.518 --> 00:30:56.689
No tenemos una muy buena respuesta.
00:30:56.689 --> 00:30:57.728
Es decir, está bien,
00:30:57.728 --> 00:31:01.681
esto ayudará a las computadoras
a comprender más nuestro idioma, sí,
00:31:01.681 --> 00:31:05.119
pero ¿qué tipo de herramientas
podemos hacer en el futuro?
00:31:05.119 --> 00:31:07.307
Y no tenemos
una buena respuesta para esto.
00:31:07.307 --> 00:31:10.465
Así que no sé si tienes
una buena respuesta para esto.
00:31:10.465 --> 00:31:12.582
(risas) No sé si tengo una buena,
00:31:12.582 --> 00:31:14.586
pero tengo una respuesta.
00:31:15.320 --> 00:31:20.265
Creo que en este momento, como les decía,
00:31:20.265 --> 00:31:21.764
no hemos alcanzado esa masa crítica
00:31:21.764 --> 00:31:25.369
en la que puedes construir muchas
de las herramientas interesantes.
00:31:25.369 --> 00:31:27.547
Pero ya hay algunas herramientas.
00:31:28.107 --> 00:31:31.752
Justo el otro día,
Esther [Pandelia], por ejemplo,
00:31:31.752 --> 00:31:33.657
lanzó una herramienta donde pueden ver,
00:31:35.677 --> 00:31:38.729
creo que fueron las palabras en un globo
00:31:38.729 --> 00:31:41.741
donde se habla más, de dónde vienen.
00:31:42.471 --> 00:31:43.930
Puede que me equivoque,
00:31:43.930 --> 00:31:46.186
pero ella respondió en el chat
del Proyecto en Wikidata,
00:31:46.186 --> 00:31:48.824
pueden buscarlo allí.
00:31:49.414 --> 00:31:51.645
Así que hemos visto
estas primeras herramientas,
00:31:51.645 --> 00:31:55.536
tal como las vimos
cuando comenzó Wikidata.
00:31:56.686 --> 00:31:59.442
Primero solo era una red
00:31:59.442 --> 00:32:03.264
y "Oye, mira, hay una cosa
que se conecta con esta otra cosa".
00:32:04.664 --> 00:32:06.899
Y a medida que tenemos más datos,
00:32:06.899 --> 00:32:10.192
y a medida que alcanzamos
cierta masa crítica,
00:32:11.602 --> 00:32:14.497
se hacen posibles
aplicaciones más potentes,
00:32:15.407 --> 00:32:17.246
como Histropedia,
00:32:18.846 --> 00:32:21.708
cosas como preguntas y respuestas
00:32:21.708 --> 00:32:26.383
en tu asistente personal digital,
Platypus, etc.
00:32:26.383 --> 00:32:29.388
Y estamos viendo
algo similar con los lexemas.
00:32:31.038 --> 00:32:34.490
Estamos en la etapa en la que
puedes construir así de pequeño
00:32:34.490 --> 00:32:37.304
y oye, mira, hay una conexión
entre las dos cosas,
00:32:37.704 --> 00:32:42.578
y la etapa de traducción de esta palabra
a ese lenguaje,
00:32:42.578 --> 00:32:47.587
y a medida que la desarrollamos
y a medida que describimos más palabras,
00:32:47.587 --> 00:32:49.373
más se hace posible.
00:32:49.373 --> 00:32:51.635
Ahora, ¿qué se hace posible?
00:32:53.322 --> 00:32:59.323
Como Ben, nuestro orador principal,
al comenzar habló de traducciones,
00:32:59.943 --> 00:33:03.295
pudiendo traducir de un idioma a otro.
00:33:03.295 --> 00:33:07.769
Y Jens, mi colega, siempre habla
00:33:07.769 --> 00:33:11.292
de que la Unión Europea busca un traductor
00:33:11.292 --> 00:33:17.279
que pueda traducir de...
creo que fue de maltés al sueco.
00:33:17.279 --> 00:33:19.276
- (persona 8) Estonio.
- Estonio.
00:33:21.856 --> 00:33:26.051
Y esa no es una combinación habitual.
00:33:27.051 --> 00:33:31.575
Y una vez que estos idiomas estén
en un lugar que una máquina pueda leer,
00:33:31.575 --> 00:33:32.983
ustedes podrán hacerlo,
00:33:32.983 --> 00:33:36.697
podrán tener un diccionario
00:33:36.697 --> 00:33:41.575
del estonio al maltés y viceversa.
00:33:42.775 --> 00:33:45.447
Por lo tanto, cubrir combinaciones
de idiomas en diccionarios
00:33:45.447 --> 00:33:47.751
que simplemente no se han cubierto antes
00:33:47.751 --> 00:33:50.890
porque no había suficiente
demanda, por ejemplo,
00:33:50.890 --> 00:33:55.380
para que sea financieramente viable
y para justificar el trabajo.
00:33:55.380 --> 00:33:56.987
Ahora podemos hacer eso.
00:33:59.637 --> 00:34:02.158
Luego generación de texto.
00:34:02.158 --> 00:34:04.032
Lucie estaba hablando
00:34:04.032 --> 00:34:09.976
de cómo está trabajando
con Hattie en la generación de texto
00:34:09.976 --> 00:34:14.373
para iniciar artículos de Wikipedia
en idiomas minoritarios,
00:34:15.263 --> 00:34:19.352
y eso necesita datos sobre palabras,
00:34:19.352 --> 00:34:22.429
y ustedes necesitan entender
el idioma para hacerlo.
00:34:23.359 --> 00:34:27.973
Sí, y esos son solo algunos
que me vienen a la mente justo ahora.
00:34:28.533 --> 00:34:31.174
Tal vez nuestra audiencia tenga
más ideas de lo que quieren hacer
00:34:31.174 --> 00:34:34.193
cuando tengamos todos los datos gloriosos.
00:34:37.533 --> 00:34:40.732
(persona 9) Me desviaré
del tema de los lexemas.
00:34:40.732 --> 00:34:42.506
Haré la pregunta,
00:34:42.506 --> 00:34:45.474
¿cómo puedo,
como miembro de la comunidad,
00:34:45.474 --> 00:34:49.975
influir en que esa tarea sea prioridad,
00:34:49.975 --> 00:34:56.484
que un nuevo usuario pueda indicar
qué idiomas quiere ver y editar
00:34:56.484 --> 00:35:00.975
sin algún conocimiento secreto
de plantillas verbales?
00:35:01.985 --> 00:35:04.893
Quizás exista este año
esta lista de deseos técnicos
00:35:04.893 --> 00:35:06.880
sin temas de Wikipedia.
00:35:06.880 --> 00:35:09.959
Tal vez haya una esperanza
de que todos podamos votar
00:35:09.959 --> 00:35:14.058
sobre esto que no arreglamos
durante siete años.
00:35:14.695 --> 00:35:17.354
¿Tienen alguna idea
o comentario sobre esto?
00:35:18.057 --> 00:35:20.168
¿Estás hablando del hecho
00:35:20.168 --> 00:35:23.178
de que alguien que no
ha iniciado sesión en Wikidata
00:35:23.178 --> 00:35:25.671
no puede cambiar su idioma fácilmente?
00:35:25.671 --> 00:35:27.679
(persona 9) No, para usuarios [inaudibles].
00:35:28.149 --> 00:35:30.529
Por lo tanto, si inician sesión,
00:35:30.529 --> 00:35:34.711
pueden cambiar su idioma
en la parte superior de la página,
00:35:35.731 --> 00:35:37.939
y luego aparecerá
00:35:39.489 --> 00:35:41.853
donde están las descripciones
de las etiquetas [inaudible],
00:35:41.853 --> 00:35:43.323
y pueden editarlo.
00:35:45.497 --> 00:35:48.849
(persona 9) Bueno, en realidad,
muchas veces el flujo de trabajo
00:35:48.849 --> 00:35:52.287
es que si quieres tener
varios idiomas, estén disponibles,
00:35:52.287 --> 00:35:55.259
y no siempre es así.
00:35:55.259 --> 00:35:58.424
Bien, tal vez deberíamos sentarnos
después de esta charla y me lo muestras.
00:36:01.402 --> 00:36:03.693
Genial. ¿Más preguntas?
00:36:05.314 --> 00:36:06.316
Sí.
00:36:11.435 --> 00:36:13.036
(persona 10) Gracias por la presentación.
00:36:13.886 --> 00:36:14.967
¿Puede comentarnos
00:36:14.967 --> 00:36:19.147
sobre el estado de la correlación
con la comunidad de Wiktionary?
00:36:19.147 --> 00:36:22.136
Hasta donde he visto,
hubo algunas discusiones
00:36:22.136 --> 00:36:25.891
sobre la importación
de algunos elementos del trabajo,
00:36:25.891 --> 00:36:30.683
pero parece haber problemas de licencia
y algunos desacuerdos, etc.
00:36:30.683 --> 00:36:31.688
Correcto.
00:36:31.688 --> 00:36:36.170
Bueno, las comunidades de Wiktionary
han pasado mucho tiempo
00:36:37.160 --> 00:36:39.313
construyendo Wiktionary.
00:36:39.313 --> 00:36:42.483
Han creado
00:36:43.033 --> 00:36:47.394
plantillas increíblemente
complicadas y complejas
00:36:47.394 --> 00:36:53.454
para crear tablas bonitas que generan
automáticamente formas para ustedes
00:36:53.454 --> 00:36:56.232
y todo tipo de cosas
realmente impresionantes
00:36:56.232 --> 00:37:00.325
y cosas un poco locas, si lo piensan.
00:37:02.151 --> 00:37:07.834
Y, por supuesto, han invertido
mucho tiempo y esfuerzo en eso.
00:37:09.204 --> 00:37:11.641
Y comprensiblemente,
00:37:11.641 --> 00:37:16.956
no quieren que simplemente sea tomado,
00:37:17.886 --> 00:37:18.942
así como así.
00:37:18.942 --> 00:37:21.631
En parte viene de eso.
00:37:22.404 --> 00:37:24.780
Y eso está bien, no hay problema.
00:37:25.577 --> 00:37:31.932
Ahora, las primeras comunidades
de Wiktionary están hablando de producir
00:37:31.932 --> 00:37:34.169
e importar algunos
de sus datos a Wikidata.
00:37:34.169 --> 00:37:38.935
El ruso, como han visto,
por ejemplo, es uno de esos casos
00:37:40.125 --> 00:37:42.105
y espero que suceda más.
00:37:43.475 --> 00:37:46.640
Pero será un proceso lento,
00:37:46.640 --> 00:37:49.223
al igual que la adopción
de los datos de Wikidata en Wikipedia
00:37:49.223 --> 00:37:51.749
ha sido un proceso bastante lento.
00:37:52.689 --> 00:37:56.023
Por otro lado, hacer que sea más fácil
00:37:56.023 --> 00:37:58.972
usar los datos que están en lexemas,
00:37:58.972 --> 00:38:02.049
en Wiktionary, para que puedan
hacer uso de eso
00:38:02.049 --> 00:38:05.371
y compartir datos entre
los Wiktionarios de los idioma,
00:38:05.371 --> 00:38:08.693
que es muy difícil
o imposible en este momento,
00:38:08.693 --> 00:38:11.400
lo cual es una locura,
como con Wikipedia.
00:38:13.590 --> 00:38:16.055
Esperen por el regalo de cumpleaños.
00:38:19.738 --> 00:38:20.772
Sí.
00:38:22.439 --> 00:38:24.667
(persona 11) Mientras lo pensaba,
00:38:24.667 --> 00:38:28.008
no quise decirlo
porque pensaba que sería supertonto,
00:38:28.008 --> 00:38:31.843
pero creo que Wiktionary
ya tiene algo de contenido,
00:38:31.843 --> 00:38:34.818
y sé que no podemos
transferirlo a Wikidata
00:38:34.818 --> 00:38:36.888
porque hay una diferencia
en las licencias.
00:38:36.888 --> 00:38:39.471
Pero estaba pensando que tal vez
podamos hacer algo al respecto.
00:38:40.161 --> 00:38:45.103
Tal vez, no sé, podemos obtener
el permiso de las comunidades
00:38:45.603 --> 00:38:51.045
luego de, no sé,
tener una votación pública
00:38:51.045 --> 00:38:55.482
y para que la comunidad,
los miembros activos de la comunidad
00:38:55.482 --> 00:39:02.363
voten y digan si desean
o aceptan transferir el contenido
00:39:02.363 --> 00:39:05.368
para el que pueden
hacer los lexemas de Wikidata.
00:39:06.078 --> 00:39:08.377
Porque creo que es un desperdicio.
00:39:09.408 --> 00:39:14.283
Por lo tanto, esa es definitivamente
una conversación que las personas
00:39:14.283 --> 00:39:18.089
que están en las comunidades de Wiktionary
son bienvenidas a plantear.
00:39:18.089 --> 00:39:24.487
Creo que sería un poco presuntuoso
para nosotros ir y forzar eso.
00:39:25.757 --> 00:39:30.982
Pero sí, creo que definitivamente
vale la pena tener una conversación.
00:39:30.982 --> 00:39:33.738
Pero creo que también
es importante entender
00:39:33.738 --> 00:39:38.922
que hay una distinción entre
lo que está legalmente permitido
00:39:38.922 --> 00:39:42.987
y lo que deberíamos estar haciendo,
00:39:42.987 --> 00:39:45.266
y lo que esas personas
quieren o no quieren.
00:39:45.576 --> 00:39:47.169
Incluso si está legalmente permitido,
00:39:47.169 --> 00:39:50.480
si algunas otras comunidades
de Wiktionary no quieran eso,
00:39:50.480 --> 00:39:53.377
al menos yo tendría cuidado.
00:39:58.726 --> 00:40:02.329
Creo que necesitas el micrófono
para la transmisión.
00:40:04.380 --> 00:40:07.139
(persona 12) Obviamente,
todo es muy emocionante,
00:40:07.819 --> 00:40:12.159
e inmediatamente pienso
cómo puedo llevar eso a mis estudiantes
00:40:12.159 --> 00:40:15.398
y cómo puedo incorporarlo a los cursos,
00:40:15.398 --> 00:40:18.371
el trabajo que estamos haciendo,
los entornos educativos.
00:40:18.371 --> 00:40:22.111
Y no tengo, en este momento,
00:40:22.111 --> 00:40:23.956
en primer lugar, suficiente conocimiento,
00:40:23.956 --> 00:40:27.118
pero creo que la documentación que tenemos
00:40:27.648 --> 00:40:29.922
podría ser mejorada.
00:40:29.922 --> 00:40:33.277
Esa es una especie de solicitud
para hacer videos geniales
00:40:33.277 --> 00:40:35.738
que expliquen cómo funciona
00:40:35.738 --> 00:40:39.788
porque si lo tenemos, podemos usarlo,
00:40:39.788 --> 00:40:41.825
y podemos tener estudiantes a bordo,
00:40:41.825 --> 00:40:46.912
y podemos hacer que la gente entienda
lo increíble que es todo.
00:40:46.912 --> 00:40:51.841
Y sí, solo piensen en la documentación
y en la educación, por favor.
00:40:51.841 --> 00:40:54.320
Porque creo que se podría hacer mucho.
00:40:54.320 --> 00:40:58.425
Estas son como muchas tareas
que podrían hacerse incluso con...
00:40:59.965 --> 00:41:01.873
bueno, no diría escuelas primarias,
00:41:01.873 --> 00:41:05.335
pero ciertamente, incluso
estudiantes más jóvenes.
00:41:05.755 --> 00:41:10.706
Entonces, realmente me gustaría ver
ese potencial aprovechado
00:41:10.706 --> 00:41:15.112
y, a partir de ahora, personalmente
no entiendo lo suficiente
00:41:15.112 --> 00:41:19.340
como para poder crear
tareas o crear como...
00:41:20.270 --> 00:41:21.995
hacer algo práctico con eso.
00:41:21.995 --> 00:41:25.612
Cualquier ayuda o pensamiento
que alguien tenga sobre eso,
00:41:25.612 --> 00:41:29.488
estaría muy feliz de escucharlas también.
00:41:30.348 --> 00:41:31.969
Sí, hablemos de eso.
00:41:35.243 --> 00:41:36.759
¿Más preguntas?
00:41:37.649 --> 00:41:39.035
Alguien más levantó una mano.
00:41:39.035 --> 00:41:40.335
Olvidé dónde estaba.
00:41:45.579 --> 00:41:49.836
(persona 13) Si no podemos
importar desde Wiktionary,
00:41:49.836 --> 00:41:55.612
¿hay algún esfuerzo concertado en hallar
otras fuentes de dominio público,
00:41:55.612 --> 00:41:57.299
tal vez todos los datos
00:41:58.609 --> 00:42:03.007
y algún tipo de filtro previo, organizarlo
00:42:03.007 --> 00:42:08.310
que sea fácil de revisar y así importarlo?
00:42:08.933 --> 00:42:11.021
Se han tomado medidas iniciales.
00:42:11.021 --> 00:42:14.609
Tengo entendido que el vasco
es uno de esos esfuerzos.
00:42:14.609 --> 00:42:17.314
¿Quizás quieras decir
un poco más al respecto?
00:42:18.266 --> 00:42:19.970
(persona 7) [inaudible]
00:42:23.006 --> 00:42:26.988
Bueno, la respuesta real es pagar por eso.
00:42:28.214 --> 00:42:33.221
Tenemos un acuerdo con un contratista
con el que usualmente trabajamos.
00:42:34.641 --> 00:42:38.095
Hacen diccionarios,
00:42:40.155 --> 00:42:42.436
y muchas cosas, pero hacen diccionarios.
00:42:43.268 --> 00:42:47.313
Acordamos con ellos para liberar
el diccionario de los estudiantes,
00:42:47.313 --> 00:42:52.622
seleccionamos las palabras más comunes
y comenzaríamos a cargarlo
00:42:52.622 --> 00:42:55.430
con un identificador externo
y el esquema de las cosas.
00:42:58.060 --> 00:43:02.425
Pero hubo una discusión
acerca de dejarlo en CC0
00:43:03.052 --> 00:43:05.162
porque tienen el diccionario con CC
00:43:06.377 --> 00:43:10.166
y entendieron cuál era la diferencia.
00:43:10.166 --> 00:43:13.706
Entonces hubo una discusión.
00:43:13.706 --> 00:43:19.549
Pero creo que proporcionaremos algunas
herramientas o ejemplos en el futuro,
00:43:19.549 --> 00:43:23.856
y creo que habrán otros diccionarios
que podamos manejar,
00:43:23.856 --> 00:43:29.114
y también creo que Wiktionary
debe comenzar a moverse en esa dirección,
00:43:29.114 --> 00:43:32.100
pero esa es otra gran discusión.
00:43:33.125 --> 00:43:34.327
Y además de eso,
00:43:34.327 --> 00:43:38.679
Lea también está en contacto
con personas occitanas
00:43:38.679 --> 00:43:41.667
que trabajan en diccionarios occitanos,
00:43:41.667 --> 00:43:44.978
y actualmente están trabajando
en una colaboración de sumerio.
00:43:51.384 --> 00:43:53.103
¿Más preguntas?
00:44:01.327 --> 00:44:05.189
(persona 14) ¡Hola! Somos las personas
que queremos importar datos occitanos.
00:44:05.189 --> 00:44:06.425
¡Ajá! ¡Perfecto!
00:44:06.425 --> 00:44:08.208
(persona 14) Y tenemos
un pequeño problema.
00:44:09.028 --> 00:44:14.055
No sabemos cómo representar
la variedad de todos los lexemas.
00:44:14.055 --> 00:44:17.733
Tenemos seis dialectos
00:44:17.733 --> 00:44:23.854
y queremos indicarle a Lexemas
en qué dialecto se usa
00:44:23.854 --> 00:44:27.125
y no tenemos una declaración C0
adecuada para hacerlo.
00:44:27.125 --> 00:44:30.945
Por lo tanto,
mientras la declaración no exista,
00:44:31.475 --> 00:44:34.305
nos impide impulsarlo
00:44:34.305 --> 00:44:37.443
porque tendremos que volver a hacerlo
00:44:37.443 --> 00:44:41.916
cuando podamos [sacar provecho]
a la declaración.
00:44:41.916 --> 00:44:44.391
Y es complicado porque es una declaración
00:44:44.391 --> 00:44:47.642
que muchas personas no pedirán
00:44:47.642 --> 00:44:53.284
porque es una declaración que se refiere
principalmente a los idiomas minoritarios.
00:44:53.284 --> 00:44:56.773
Tendrás una sola persona que lo pida,
00:44:56.773 --> 00:44:59.862
pero, como nuestros colegas vascos,
00:44:59.862 --> 00:45:05.922
puede ser una persona
que impulsará a miles de otros,
00:45:05.922 --> 00:45:10.724
por lo que puede que no se pida mucho,
00:45:10.724 --> 00:45:13.976
pero será muy importante para nosotros.
00:45:14.714 --> 00:45:17.440
¿Ya tienen una nueva
propuesta de propiedad
00:45:17.440 --> 00:45:19.310
o necesitan ayuda para crearla?
00:45:21.364 --> 00:45:24.140
(persona 14) La solicitamos
hace cuatro meses.
00:45:24.560 --> 00:45:28.595
Entonces hagamos que algunas personas
ayuden con esta propuesta de propiedad.
00:45:29.929 --> 00:45:32.932
Estoy seguro de que hay suficientes
personas en esta sala para que suceda.
00:45:32.932 --> 00:45:35.511
(persona 15) Propuesta de propiedad
[hablando en francés].
00:45:35.511 --> 00:45:36.497
(persona 16) No tuvimos respuesta.
00:45:36.497 --> 00:45:39.539
(persona 14) No tuvimos respuesta,
y no sabemos cómo hacerlo
00:45:39.539 --> 00:45:42.793
porque no estamos
en la comunidad de Wikidata.
00:45:44.534 --> 00:45:48.657
Sí, así que hay personas aquí
que pueden ayudarte.
00:45:48.657 --> 00:45:51.974
Quizás alguien
levante la mano para tomar...
00:45:51.974 --> 00:45:53.484
(persona 7) Estoy para eso.
00:45:53.484 --> 00:45:55.352
Pero creo que esto
es bastante interesante
00:45:55.352 --> 00:45:58.899
no solo por la variante de forma
00:45:58.899 --> 00:46:02.447
también puede manejarse geográficamente,
00:46:02.447 --> 00:46:04.835
con coordenadas o algún tipo de mapeo.
00:46:05.435 --> 00:46:07.655
También tener diferentes pronunciaciones,
00:46:07.655 --> 00:46:11.677
y creo que esto es algo
que sucede en muchos idiomas.
00:46:12.447 --> 00:46:16.102
Deberíamos comenzar
a hacer que suceda [inaudible],
00:46:16.102 --> 00:46:18.705
y voy a buscar la propiedad.
00:46:19.622 --> 00:46:20.773
Genial.
00:46:20.773 --> 00:46:24.286
Entonces obtendrás respaldo
para tu propuesta de propiedad.
00:46:25.976 --> 00:46:27.137
Gracias.
00:46:27.993 --> 00:46:30.101
Muy bien, ¿más preguntas?
00:46:32.250 --> 00:46:33.584
Finn.
00:46:33.584 --> 00:46:34.895
Finn es una de esas personas
00:46:34.895 --> 00:46:37.371
que construye cosas
sobre datos lexicográficos.
00:46:37.371 --> 00:46:39.925
(Finn) Es solo una pequeña pregunta,
00:46:40.245 --> 00:46:44.066
y se trata de variaciones ortográficas.
00:46:44.736 --> 00:46:47.842
Parece difícil ponerlos en...
00:46:48.282 --> 00:46:53.118
Podría, por supuesto, tener múltiples
formas para la misma palabra.
00:46:56.167 --> 00:46:58.288
No sé, parece que
00:46:59.398 --> 00:47:03.375
si no lo haces así
parece ser difícil de especificar...
00:47:04.611 --> 00:47:05.728
o no sé
00:47:05.728 --> 00:47:09.571
si esto es solo un problema
técnico menor o si...
00:47:09.571 --> 00:47:11.092
Veámoslo juntos.
00:47:11.332 --> 00:47:14.920
Me encantaría ver un ejemplo.
00:47:17.318 --> 00:47:18.318
Asaf.
00:47:26.726 --> 00:47:28.236
(Asaf) Gracias.
00:47:29.226 --> 00:47:33.525
Puedo dar un ejemplo muy concreto
de mi lengua materna, el hebreo.
00:47:34.045 --> 00:47:38.685
El hebreo tiene dos variantes principales
00:47:38.685 --> 00:47:42.626
para expresar casi todas las palabras
00:47:42.626 --> 00:47:47.480
porque la ortografía tradicional
00:47:47.480 --> 00:47:49.884
omite muchas de las vocales.
00:47:50.774 --> 00:47:55.047
Y, por lo tanto, en las ediciones
modernas de la Biblia y de la poesía,
00:47:55.047 --> 00:47:57.301
se usan diacríticos.
00:47:57.301 --> 00:48:02.510
Sin embargo, esos signos diacríticos
nunca se usan para la prosa moderna
00:48:02.510 --> 00:48:05.814
o la escritura de periódicos
o letreros de la calle.
00:48:05.814 --> 00:48:11.049
El uso informal diario promedio
pone vocales adicionales
00:48:12.009 --> 00:48:13.359
y no usa los signos diacríticos
00:48:13.359 --> 00:48:15.447
porque son, por supuesto, más engorrosos
00:48:15.447 --> 00:48:17.733
y tienen todo tipo de reglas
y nadie las conoce.
00:48:18.473 --> 00:48:20.371
Entonces, básicamente hay dos variantes.
00:48:20.371 --> 00:48:25.162
Existe la variante
de la prosa informal cotidiana,
00:48:25.162 --> 00:48:27.667
y está la Biblia o la poesía,
00:48:27.667 --> 00:48:31.830
que siempre viene
en este texto diacrítico tradicional.
00:48:31.830 --> 00:48:33.142
Para ser útil,
00:48:33.142 --> 00:48:37.268
Lexema tendría que reconocer
ambas variedades de cada palabra
00:48:37.268 --> 00:48:39.587
y cada forma de cada palabra.
00:48:40.517 --> 00:48:43.231
Es un caso de uso muy completo
00:48:43.231 --> 00:48:46.180
para las variantes estables oficiales.
00:48:46.180 --> 00:48:48.782
No es dialecto, no son regiones,
00:48:49.062 --> 00:48:53.357
son básicamente dos sistemas
morfológicos coexistentes.
00:48:54.377 --> 00:48:58.766
Y tampoco sé exactamente
cómo expresarlo en Lexema,
00:48:58.766 --> 00:49:02.640
cosa que me impide responder
parcialmente a la pregunta de Magnus
00:49:02.640 --> 00:49:05.078
de subir las partes que están listas
00:49:05.078 --> 00:49:09.234
del mayor diccionario hebreo,
que es de dominio público
00:49:09.234 --> 00:49:12.981
y que he estado digitalizando
durante varios años.
00:49:12.981 --> 00:49:14.643
Una buena parte está lista,
00:49:14.643 --> 00:49:16.389
pero no la pongo en Lexema en este momento
00:49:16.389 --> 00:49:20.085
porque no sé exactamente
cómo resolver este problema.
00:49:20.085 --> 00:49:23.227
Muy bien, solucionemos
este problema aquí. (risas)
00:49:24.343 --> 00:49:25.861
Eso tiene que ser posible.
00:49:29.741 --> 00:49:31.743
Muy bien, ¿más preguntas?
00:49:36.861 --> 00:49:39.423
Si no, muchas gracias.
00:49:40.355 --> 00:49:45.026
(aplausos)