1
00:00:06,073 --> 00:00:07,202
(Lydia) Muchas gracias.
2
00:00:07,202 --> 00:00:11,284
En esta conferencia, uno de los grandes
temas son los idiomas.
3
00:00:13,710 --> 00:00:17,969
Quiero darles una visión general
de dónde estamos actualmente
4
00:00:17,969 --> 00:00:19,652
en lo que respecta a los idiomas
5
00:00:20,104 --> 00:00:22,007
y hacia dónde podemos ir desde aquí.
6
00:00:28,876 --> 00:00:32,420
Wikidata se trata de dar a más personas
más acceso a más conocimiento,
7
00:00:32,420 --> 00:00:37,008
y el lenguaje es una parte importante
para hacer que esto sea una realidad,
8
00:00:38,045 --> 00:00:43,131
porque cada vez más nuestras vidas
dependen de la tecnología.
9
00:00:43,954 --> 00:00:48,713
Y como nuestro orador principal decía hoy,
10
00:00:49,473 --> 00:00:51,428
parte de la tecnología
deja atrás a las personas
11
00:00:51,428 --> 00:00:54,860
simplemente porque no pueden
hablar un determinado idioma,
12
00:00:55,160 --> 00:00:57,413
y eso no está bien.
13
00:00:58,473 --> 00:01:01,937
Entonces queremos hacer algo al respecto.
14
00:01:02,767 --> 00:01:05,681
Y para cambiar eso,
necesitan al menos dos cosas.
15
00:01:06,251 --> 00:01:11,110
Una es que deben proporcionar contenido
a las personas en su idioma,
16
00:01:11,110 --> 00:01:12,795
y la segunda cosa que necesitan
17
00:01:12,795 --> 00:01:15,750
es proporcionarles
interacción en su idioma
18
00:01:15,750 --> 00:01:19,029
en esas aplicaciones
o lo que sea que tenga.
19
00:01:20,207 --> 00:01:25,117
Y Wikidata ayuda con ambas cosas.
20
00:01:25,677 --> 00:01:28,248
Lo primero, contenido en su idioma,
21
00:01:28,248 --> 00:01:30,719
eso es básicamente lo que tenemos
en elementos y propiedades,
22
00:01:31,089 --> 00:01:32,782
cómo describimos el mundo.
23
00:01:32,782 --> 00:01:34,925
Ahora, esto ciertamente
no es todo lo que necesitan,
24
00:01:34,925 --> 00:01:39,134
pero eso ya es un gran avance.
25
00:01:39,604 --> 00:01:41,687
La otra cosa
es la interacción en su idioma,
26
00:01:41,687 --> 00:01:46,089
y ahí es donde
entran en juego los lexemas.
27
00:01:46,089 --> 00:01:49,222
Si desean hablar
con su asistente personal digital
28
00:01:49,222 --> 00:01:54,758
o si desean que su dispositivo
traduzca un texto y cosas así.
29
00:01:56,112 --> 00:01:59,094
Muy bien, veamos
el Contenido en su idioma.
30
00:01:59,094 --> 00:02:03,236
Entonces, lo que tenemos
en elementos y propiedades.
31
00:02:05,246 --> 00:02:09,536
Para esto, las etiquetas en esos
elementos y propiedades son cruciales.
32
00:02:10,076 --> 00:02:14,706
Necesitamos saber cómo se llama
esta entidad de la que estamos hablando.
33
00:02:15,496 --> 00:02:19,827
Y en lugar de hablar sobre Q5,
34
00:02:19,827 --> 00:02:22,020
alguien que habla inglés
sabe que es un "humano",
35
00:02:22,020 --> 00:02:24,546
alguien que habla alemán
sabe que es un "mensch"
36
00:02:24,546 --> 00:02:26,214
y cosas similares.
37
00:02:26,214 --> 00:02:29,582
Entonces, esas etiquetas
en elementos y propiedades
38
00:02:29,582 --> 00:02:33,459
están cerrando la brecha
entre humanos y máquinas.
39
00:02:33,459 --> 00:02:35,189
Y humanos y humanos
40
00:02:35,189 --> 00:02:39,750
haciendo más conocimiento existente
accesible para ellos.
41
00:02:42,950 --> 00:02:46,130
Ahora, esa es una buena aspiración.
42
00:02:46,130 --> 00:02:48,052
¿Cómo se vería realmente?
43
00:02:48,052 --> 00:02:49,447
Se vería como esto.
44
00:02:50,637 --> 00:02:52,386
Lo que están viendo aquí
45
00:02:52,386 --> 00:02:58,336
es que la mayoría de los elementos
en Wikidata tienen dos etiquetas,
46
00:02:58,336 --> 00:03:00,607
por lo que las etiquetas
están en dos idiomas.
47
00:03:01,537 --> 00:03:05,508
Y después de eso, es uno, y luego tres,
y luego se pone muy triste.
48
00:03:06,621 --> 00:03:08,421
(risa silenciosa)
49
00:03:09,777 --> 00:03:12,553
Creo que debemos hacerlo mejor.
50
00:03:14,025 --> 00:03:15,159
Pero, por otro lado,
51
00:03:15,159 --> 00:03:17,318
en realidad esperaba
que esto fuera aún peor.
52
00:03:17,318 --> 00:03:19,400
Esperaba que el promedio fuera uno.
53
00:03:19,400 --> 00:03:22,343
Así que estaba bastante feliz
de ver dos. (risa)
54
00:03:24,571 --> 00:03:25,724
Bien.
55
00:03:26,996 --> 00:03:29,367
Pero no solo es interesante saber
56
00:03:29,367 --> 00:03:33,582
cuántas etiquetas tienen nuestros
elementos y propiedades.
57
00:03:33,582 --> 00:03:36,405
También es interesante ver en qué idiomas.
58
00:03:37,885 --> 00:03:43,604
Aquí pueden ver un gráfico de los idiomas
59
00:03:43,604 --> 00:03:46,678
que tienen etiquetas en los elementos.
60
00:03:46,678 --> 00:03:50,509
Entonces, la parte más grande es Otros.
61
00:03:51,069 --> 00:03:53,703
Así que acabo de tomar
los 100 idiomas principales
62
00:03:54,373 --> 00:03:58,742
y todo lo demás es Otros
para hacer que este gráfico sea legible.
63
00:03:59,382 --> 00:04:01,982
Y luego está el inglés y el holandés,
64
00:04:02,842 --> 00:04:04,094
el francés,
65
00:04:05,764 --> 00:04:08,969
y, para no olvidar, el asturiano.
66
00:04:09,499 --> 00:04:11,729
- (audiencia) ¡Hurra!
- ¡Yuju! ¡Sí!
67
00:04:13,739 --> 00:04:16,794
Entonces, lo que ven aquí
es un gran desequilibrio
68
00:04:16,794 --> 00:04:19,954
y todavía un gran enfoque en el inglés.
69
00:04:21,076 --> 00:04:24,207
Otra cosa es que si buscan
lo mismo en Propiedades,
70
00:04:24,207 --> 00:04:25,839
en realidad se ve mejor.
71
00:04:27,239 --> 00:04:32,590
Y creo que parte se debe
a que son menos propiedades.
72
00:04:32,590 --> 00:04:36,610
Incluso las comunidades más pequeñas
podrán mantenerse al día con eso.
73
00:04:36,610 --> 00:04:39,013
Pero también es una parte
bastante importante de Wikidata
74
00:04:39,013 --> 00:04:40,999
localizarlo en su idioma.
75
00:04:40,999 --> 00:04:42,224
Eso es bueno.
76
00:04:45,592 --> 00:04:47,682
Lo que quiero resaltar aquí con asturiano
77
00:04:47,682 --> 00:04:53,538
es que una pequeña comunidad
puede hacer una gran diferencia
78
00:04:54,288 --> 00:04:56,925
con un poco de dedicación y trabajo,
79
00:04:56,925 --> 00:04:58,260
y eso es realmente genial.
80
00:05:01,686 --> 00:05:03,370
Un pequeño cuestionario para ustedes.
81
00:05:03,370 --> 00:05:07,337
Si toman todas las propiedades en Wikidata
que no son identificadores externos,
82
00:05:07,337 --> 00:05:10,198
¿cuál tiene más cantidad de etiquetas,
como la mayoría de los idiomas?
83
00:05:10,198 --> 00:05:13,567
(audiencia) [inaudible]
84
00:05:13,567 --> 00:05:16,626
¿Creen que es la instancia de?
85
00:05:17,186 --> 00:05:19,283
De ser así están equivocados.
86
00:05:19,823 --> 00:05:22,050
Es imagen. (risas)
87
00:05:23,070 --> 00:05:26,206
Sí, eso les dice
que si hablan uno de los idiomas
88
00:05:26,206 --> 00:05:28,461
en los que instancia de
aún no tiene una etiqueta,
89
00:05:28,461 --> 00:05:30,030
quizás quieran agregarla.
90
00:05:31,942 --> 00:05:35,516
Tiene 148 etiquetas actualmente.
91
00:05:37,528 --> 00:05:41,089
Pero es otra diapositiva.
92
00:05:42,471 --> 00:05:45,644
Este gráfico nos dice algo
sobre la cantidad de contenido
93
00:05:46,084 --> 00:05:49,031
que ponemos a disposición
en un idioma determinado
94
00:05:49,031 --> 00:05:51,882
y cuánto de ese contenido
se usa realmente.
95
00:05:51,882 --> 00:05:55,288
Entonces, lo que están viendo
es básicamente una curva
96
00:05:55,288 --> 00:05:59,447
con la mayoría del contenido
que tiene etiquetas en inglés,
97
00:05:59,447 --> 00:06:04,135
disponible en inglés y se usa mucho.
98
00:06:04,135 --> 00:06:06,289
Y luego se cae un poco.
99
00:06:06,289 --> 00:06:09,276
Pero, de nuevo, lo que pueden ver
son valores atípicos
100
00:06:09,276 --> 00:06:14,824
que tienen mucho más contenido
del que necesariamente esperarían,
101
00:06:16,623 --> 00:06:19,259
y eso es muy muy bueno.
102
00:06:20,329 --> 00:06:24,515
El problema aún es que no se usa mucho.
103
00:06:25,345 --> 00:06:28,582
Los asturianos y holandeses
deberían ser más altos,
104
00:06:28,582 --> 00:06:31,834
y creo que ayudar a esas comunidades
105
00:06:33,106 --> 00:06:35,403
a aumentar el uso
de los datos que recopilaron
106
00:06:35,403 --> 00:06:37,522
es algo realmente útil.
107
00:06:42,750 --> 00:06:47,110
Lo que este y otros análisis
nos mostraron también es algo bueno,
108
00:06:47,110 --> 00:06:51,218
estamos viendo
que los elementos muy usados
109
00:06:51,218 --> 00:06:55,135
también tienden a tener más etiquetas
110
00:06:55,135 --> 00:06:58,028
o al revés...
No está del todo claro.
111
00:07:02,353 --> 00:07:04,216
Y entonces la pregunta es
112
00:07:04,646 --> 00:07:06,849
¿estamos sirviendo
solo a los idiomas poderosos?
113
00:07:07,739 --> 00:07:10,987
¿O estamos sirviendo a todos?
114
00:07:12,597 --> 00:07:17,583
Y lo que ven aquí
es una agrupación de idiomas.
115
00:07:17,583 --> 00:07:21,672
Los idiomas que se agrupan
tienden a tener etiquetas juntos.
116
00:07:25,882 --> 00:07:28,439
Y los ven agruparse.
117
00:07:28,439 --> 00:07:33,905
Ahora aquí hay una agrupación
similar, coloreada,
118
00:07:33,905 --> 00:07:39,315
basada en qué tan vivo, cómo se usa,
119
00:07:40,295 --> 00:07:42,996
qué tan en peligro es el idioma.
120
00:07:42,996 --> 00:07:44,482
Y lo bueno que están viendo aquí
121
00:07:44,482 --> 00:07:49,406
es que los idiomas seguros
y los idiomas en peligro de extinción
122
00:07:49,406 --> 00:07:53,613
no forman dos grupos diferentes.
123
00:07:53,613 --> 00:07:58,712
Pero todos están mezclados,
124
00:08:00,102 --> 00:08:04,465
lo que es mucho mejor
de lo que sería al revés
125
00:08:04,465 --> 00:08:09,217
donde los idiomas seguros,
los idiomas poderosos
126
00:08:10,037 --> 00:08:12,004
solo se están ayudando mutuamente.
127
00:08:12,584 --> 00:08:14,196
No, no es el caso.
128
00:08:14,196 --> 00:08:17,257
Y es algo realmente bueno.
129
00:08:17,257 --> 00:08:19,882
Cuando vi esto,
pensé que era muy bueno.
130
00:08:23,314 --> 00:08:25,009
Aquí hay algo similar
131
00:08:26,079 --> 00:08:28,640
en el que miramos
132
00:08:30,070 --> 00:08:34,062
el estado de los idiomas
133
00:08:34,062 --> 00:08:36,065
y cuántas etiquetas tiene.
134
00:08:39,207 --> 00:08:42,777
Lo que están viendo es una clara victoria
para los idiomas seguros,
135
00:08:42,777 --> 00:08:44,088
como se esperaba.
136
00:08:45,348 --> 00:08:47,018
Pero lo que también ven es...
137
00:08:49,120 --> 00:08:54,247
que los idiomas en las categorías
2 y 3 y tal vez incluso 4
138
00:08:54,247 --> 00:08:59,120
no son tan malos, en realidad,
139
00:08:59,120 --> 00:09:02,207
en términos de su representación
en Wikidata y otros.
140
00:09:03,127 --> 00:09:05,600
Es algo realmente bueno de encontrar.
141
00:09:07,486 --> 00:09:08,969
Ahora, si observan lo mismo
142
00:09:08,969 --> 00:09:12,258
para saber cuánto
de ese contenido de esas etiquetas
143
00:09:12,258 --> 00:09:15,335
se usa realmente
en Wikipedia, por ejemplo,
144
00:09:17,295 --> 00:09:22,403
entonces vemos una imagen similar
emergiendo nuevamente.
145
00:09:23,443 --> 00:09:29,653
Y nos dice que esas comunidades
están haciendo un buen uso de su tiempo
146
00:09:29,653 --> 00:09:34,344
al completar etiquetas para artículos
de mayor uso, por ejemplo.
147
00:09:36,250 --> 00:09:40,333
Hay valores atípicos
en los que creo que podemos ayudar
148
00:09:41,523 --> 00:09:48,042
a esas comunidades a encontrar un lugar
donde su trabajo sería más valioso.
149
00:09:49,152 --> 00:09:52,503
Pero, en general,
estoy contenta con esta imagen.
150
00:09:54,663 --> 00:09:59,684
Ahora, esa era la parte de elementos
y propiedades de Wikidata.
151
00:10:00,554 --> 00:10:02,873
Ahora, veamos la interacción
en sus idiomas,
152
00:10:02,873 --> 00:10:05,043
la parte de lexema de Wikidata
153
00:10:05,043 --> 00:10:09,234
donde describimos palabras
y sus formas y sus significados.
154
00:10:10,007 --> 00:10:13,141
Hemos estado haciendo esto
desde mayo del año pasado,
155
00:10:16,301 --> 00:10:18,967
y el contenido ha ido creciendo.
156
00:10:19,954 --> 00:10:21,989
Pueden ver aquí en azul los lexemas,
157
00:10:21,989 --> 00:10:25,778
y luego, en rojo,
las formas en esos lexemas
158
00:10:25,778 --> 00:10:29,750
y, amarillo, los sentidos en esos lexemas.
159
00:10:30,831 --> 00:10:34,291
Por lo tanto, algunas comunidades,
lo veremos más adelante,
160
00:10:34,291 --> 00:10:39,633
han pasado mucho tiempo creando
formas y sentidos para sus lexemas,
161
00:10:39,633 --> 00:10:42,593
lo cual es realmente útil
162
00:10:42,593 --> 00:10:48,083
porque construye el núcleo
del conjunto de datos que necesitan.
163
00:10:50,402 --> 00:10:54,973
Ahora, miramos todos los idiomas
164
00:10:54,973 --> 00:10:57,746
que tienen lexemas en Wikidata.
165
00:10:57,746 --> 00:11:00,843
Entonces, las palabras que tenemos
166
00:11:01,553 --> 00:11:04,244
son ahora 310 idiomas.
167
00:11:04,724 --> 00:11:08,130
Ahora, ¿cuál creen
que es el idioma principal
168
00:11:08,130 --> 00:11:11,789
cuando se trata de la cantidad
de lexemas actualmente en Wikidata?
169
00:11:12,773 --> 00:11:14,540
(persona 1) Ruso.
170
00:11:19,023 --> 00:11:21,581
- ¿Ah?
- (persona 2) El alemán.
171
00:11:21,581 --> 00:11:24,092
Lo siento, lo había escuchado.
172
00:11:24,092 --> 00:11:25,491
Es el ruso.
173
00:11:27,851 --> 00:11:29,594
El ruso está bastante por delante.
174
00:11:31,737 --> 00:11:33,672
Y solo para darles una perspectiva,
175
00:11:35,292 --> 00:11:36,516
hay diferentes opiniones,
176
00:11:36,516 --> 00:11:42,071
pero he leído, por ejemplo,
que 1000 a 3000 palabras
177
00:11:42,071 --> 00:11:45,290
te llevan al nivel de conversación,
aproximadamente, en otro idioma,
178
00:11:45,290 --> 00:11:49,301
y 4000 a 10 000 palabras
a un nivel avanzado.
179
00:11:51,431 --> 00:11:55,122
Entonces, todavía tenemos
un poco para alcanzar.
180
00:11:58,323 --> 00:12:03,119
Una cosa a la que quiero
que presten atención es el vasco
181
00:12:03,119 --> 00:12:07,584
con 10 000 lexemas, aproximadamente.
182
00:12:08,954 --> 00:12:12,713
Ahora, si observa el número
de formas para esos lexemas,
183
00:12:13,843 --> 00:12:16,177
el vasco está muy arriba,
184
00:12:17,917 --> 00:12:19,666
lo cual es realmente genial,
185
00:12:19,666 --> 00:12:24,590
y deben ir a una charla que explica
por qué ese es el caso.
186
00:12:27,041 --> 00:12:30,875
Si nos fijamos en la cantidad de sentidos,
en lo qué significan las palabras,
187
00:12:31,775 --> 00:12:34,841
el vasco llega
a la parte superior de la lista.
188
00:12:34,841 --> 00:12:36,862
Creo que eso merece un aplauso.
189
00:12:36,862 --> 00:12:38,681
(aplausos)
190
00:12:45,518 --> 00:12:46,958
Otra pregunta rápida.
191
00:12:46,958 --> 00:12:50,021
¿Cuál es el lexema
con más traducciones actualmente?
192
00:12:50,311 --> 00:12:54,584
(audiencia) Gatos, gatos, [inaudible],
Douglas Adams, [inaudible]
193
00:12:56,543 --> 00:12:59,791
Todas buenas conjeturas, pero no.
194
00:13:00,732 --> 00:13:03,857
Es esta, la palabra rusa para "agua".
195
00:13:09,041 --> 00:13:12,093
Muy bien, ahora hablamos mucho
196
00:13:12,093 --> 00:13:16,112
sobre cuántos lexemas,
formas y sentidos tenemos,
197
00:13:16,112 --> 00:13:20,333
pero eso es solo una cosa que necesitas.
198
00:13:20,333 --> 00:13:25,001
La otra cosa que necesitan es describir
esos lexemas, formas y sentidos
199
00:13:25,001 --> 00:13:27,487
de manera legible para una máquina.
200
00:13:27,487 --> 00:13:29,879
Y para eso tienen declaraciones,
por ejemplo, en elementos.
201
00:13:31,319 --> 00:13:36,202
Y una de las propiedades
que utilizan es el Ejemplo de uso.
202
00:13:36,202 --> 00:13:38,422
Entonces, quien esté usando esos datos
203
00:13:38,422 --> 00:13:41,929
puede entender cómo usar
esa palabra en contexto,
204
00:13:41,929 --> 00:13:43,998
por lo que podría ser una cita,
por ejemplo.
205
00:13:45,236 --> 00:13:46,953
Y aquí, los polacos son geniales.
206
00:13:47,740 --> 00:13:49,604
Buen trabajo, hablantes de polaco.
207
00:13:54,059 --> 00:13:57,520
Otra propiedad realmente útil es el AFI,
208
00:13:57,520 --> 00:14:00,026
¿cómo se pronuncia esta palabra?
209
00:14:00,716 --> 00:14:07,337
Aparentemente, Rusia necesita
muchas declaraciones del AFI.
210
00:14:10,059 --> 00:14:13,154
Pero, de nuevo, polaco, segundo.
211
00:14:16,988 --> 00:14:20,423
Y por último, pero no menos importante,
tenemos audio de pronunciación.
212
00:14:20,423 --> 00:14:23,212
Es decir, enlaces a archivos en Commons
213
00:14:23,212 --> 00:14:25,799
donde alguien habla la palabra,
214
00:14:25,799 --> 00:14:29,753
para que puedan escuchar
a un hablante nativo pronunciar la palabra
215
00:14:29,753 --> 00:14:32,711
en caso de que no sepa leer AFI,
por ejemplo.
216
00:14:34,799 --> 00:14:39,045
Y hay un proyecto realmente
agradable basado en Wiki
217
00:14:39,045 --> 00:14:40,314
llamado Lingua Libre
218
00:14:40,724 --> 00:14:45,013
donde pueden ir y ayudar
a grabar palabras en su idioma
219
00:14:45,013 --> 00:14:47,676
que luego se pueden agregar
a lexemas en Wikidata,
220
00:14:48,286 --> 00:14:51,656
para que otras personas puedan entender
cómo pronunciar sus palabras.
221
00:14:53,503 --> 00:14:55,424
(audiencia) [inaudible]
222
00:14:55,424 --> 00:14:57,255
Si buscas "Lingua Libre"
223
00:14:57,255 --> 00:15:00,821
y estoy segura de que alguien
puede publicarlo en el canal de Telegram.
224
00:15:02,898 --> 00:15:04,331
Esos tipos son geniales.
225
00:15:04,331 --> 00:15:06,566
Hicieron cosas realmente
geniales con Wikibase.
226
00:15:09,256 --> 00:15:10,457
Bien.
227
00:15:12,326 --> 00:15:17,125
Entonces, la pregunta es
¿a dónde vamos desde aquí?
228
00:15:19,005 --> 00:15:21,367
Según los números que acabo de mostrar,
229
00:15:22,870 --> 00:15:25,012
hemos recorrido un largo camino
230
00:15:25,012 --> 00:15:28,270
para dar a más personas
más acceso a más conocimiento
231
00:15:28,270 --> 00:15:31,080
al mirar idiomas en Wikidata.
232
00:15:32,370 --> 00:15:35,964
Pero también queda
mucho trabajo por delante.
233
00:15:38,832 --> 00:15:42,181
Algunas de las cosas que pueden hacer
para ayudar, por ejemplo,
234
00:15:42,181 --> 00:15:44,521
es organizar "etiquetatones",
235
00:15:44,521 --> 00:15:49,964
reunir a las personas
para etiquetar elementos en Wikidata
236
00:15:50,754 --> 00:15:54,961
o hacer un "editatón"
alrededor de lexemas en tu idioma
237
00:15:54,961 --> 00:15:58,772
para llevar las palabras más utilizadas
de tu idioma a Wikidata.
238
00:16:00,613 --> 00:16:03,125
O pueden usar una herramienta
como Terminator
239
00:16:03,125 --> 00:16:08,333
que les ayuda a encontrar los elementos
más importantes en su idioma
240
00:16:08,333 --> 00:16:11,389
que aún no tienen una etiqueta.
241
00:16:13,114 --> 00:16:18,199
Lo más importante se mide
por la frecuencia con la que se usa
242
00:16:18,199 --> 00:16:22,393
en otros elementos de Wikidata
como enlaces en las declaraciones.
243
00:16:25,608 --> 00:16:29,862
Y, por supuesto, para la parte de lexema,
244
00:16:31,182 --> 00:16:35,009
ahora que tenemos
una cobertura básica de esos lexemas,
245
00:16:35,009 --> 00:16:41,003
también se trata de construirlos,
agregarles más declaraciones
246
00:16:41,003 --> 00:16:44,241
para que puedan construir la base
247
00:16:44,241 --> 00:16:47,261
para aplicaciones significativas
y construir encima de eso.
248
00:16:47,981 --> 00:16:50,635
Debido a que nos estamos acercando
a esa masa crítica,
249
00:16:50,635 --> 00:16:53,456
pero aún estamos lejos de eso,
250
00:16:53,456 --> 00:16:56,464
que puede construir
aplicaciones serias sobre ella.
251
00:16:58,117 --> 00:17:01,520
Y espero que todos ustedes
se unan a nosotros para hacer eso.
252
00:17:02,423 --> 00:17:06,943
Y eso me lleva a pedir
253
00:17:06,943 --> 00:17:09,683
un poco de ayuda de nuestros amigos.
254
00:17:09,683 --> 00:17:12,230
Bruno, ¿quieres venir
255
00:17:13,562 --> 00:17:16,534
y hablarnos sobre máscaras léxicas?
256
00:17:17,101 --> 00:17:18,127
(Bruno) Gracias, Lydia,
257
00:17:18,127 --> 00:17:21,359
gracias por darme
este breve período de tiempo
258
00:17:21,359 --> 00:17:24,490
para presentar este trabajo
que hacemos en Google con Denny,
259
00:17:24,490 --> 00:17:28,963
que la mayoría probablemente
ha escuchado o sabe.
260
00:17:29,966 --> 00:17:31,870
Porque en Google, soy lingüista.
261
00:17:31,870 --> 00:17:35,780
Así que estoy muy feliz de estar aquí
entre otros entusiastas de los idiomas.
262
00:17:36,460 --> 00:17:39,118
También estamos
construyendo algunos léxicos,
263
00:17:39,118 --> 00:17:41,606
y hemos construido esta tecnología
264
00:17:41,606 --> 00:17:45,429
o este enfoque que creemos
que puede ser útil para ustedes.
265
00:17:46,209 --> 00:17:48,295
Solo para darles un poco de contexto,
266
00:17:48,295 --> 00:17:51,668
este es mi contexto lexicográfico
que habla aquí.
267
00:17:52,427 --> 00:17:54,187
Cuando creamos
una base de datos de léxicos,
268
00:17:54,187 --> 00:17:58,463
es muy difícil mantenerlos,
mantenerlos consistentes
269
00:17:58,463 --> 00:17:59,965
e intercambiar datos,
270
00:17:59,965 --> 00:18:01,867
como probablemente ya saben.
271
00:18:02,357 --> 00:18:05,767
Hay varios intentos de unificar
la característica y las propiedades
272
00:18:05,767 --> 00:18:09,024
que describen esos lexemas y esas formas,
273
00:18:09,024 --> 00:18:10,776
no es un problema resuelto,
274
00:18:10,776 --> 00:18:13,688
pero hay algunos intentos
de unificación de ese lado.
275
00:18:13,688 --> 00:18:15,049
Pero lo que realmente falta,
276
00:18:15,049 --> 00:18:18,232
y este es un problema que tuvimos
al comienzo de nuestro proyecto en Google
277
00:18:18,232 --> 00:18:21,447
es tratar de tener una estructura interna
278
00:18:22,037 --> 00:18:25,750
que describa cómo debería ser
una entrada léxica,
279
00:18:25,750 --> 00:18:28,421
qué tipo de datos o qué tipo
de información tenemos
280
00:18:28,421 --> 00:18:32,077
y la especificación que se espera.
281
00:18:32,077 --> 00:18:38,027
Entonces, esto es lo que se nos ocurrió
con esta cosa llamada máscara léxica.
282
00:18:38,737 --> 00:18:44,681
Una máscara léxica describe
lo que se espera de una entrada,
283
00:18:44,681 --> 00:18:47,169
para completar una entrada lexicográfica,
284
00:18:47,169 --> 00:18:51,276
tanto en términos de la cantidad
de formas que esperan para un lexema
285
00:18:51,276 --> 00:18:55,447
y la cantidad de características
que esperan para cada forma.
286
00:18:56,157 --> 00:18:58,169
Aquí hay un ejemplo
de adjetivos italianos.
287
00:18:58,169 --> 00:19:01,842
En italiano, esperas tener
cuatro formas para tus adjetivos,
288
00:19:01,842 --> 00:19:05,223
y cada una de estas formas
tiene una combinación específica
289
00:19:05,223 --> 00:19:07,786
de características de género y número.
290
00:19:08,446 --> 00:19:12,512
Esto es lo que esperamos
para los adjetivos italianos.
291
00:19:12,512 --> 00:19:16,016
Por supuesto, puede tener
máscaras extremadamente complejas,
292
00:19:16,016 --> 00:19:20,623
como la conjugación de verbos franceses,
que es bastante extensa,
293
00:19:20,623 --> 00:19:25,277
y no le muestro ninguna otra máscara rusa
porque no se ajusta a la pantalla.
294
00:19:26,148 --> 00:19:29,371
Y también tenemos algunas
especificaciones detalladas
295
00:19:29,371 --> 00:19:33,261
porque distinguimos
lo que está al nivel de la forma.
296
00:19:33,261 --> 00:19:37,384
Aquí tienes sustantivos rusos
que tienen tres números
297
00:19:37,384 --> 00:19:39,888
y una cantidad de casos
con diferentes formas,
298
00:19:39,888 --> 00:19:42,926
pero también tienen
una especificación de nivel de entrada
299
00:19:42,926 --> 00:19:45,430
que dice que un sustantivo
particularmente tiene
300
00:19:45,430 --> 00:19:49,973
un género inherente y una característica
de animación inherente
301
00:19:49,973 --> 00:19:52,328
que también se especifica en la máscara.
302
00:19:54,358 --> 00:19:58,619
También distinguiremos que una máscara
proporciona una especificación
303
00:19:58,619 --> 00:20:01,714
para, en general,
cómo debería ser una entrada.
304
00:20:01,714 --> 00:20:06,998
Pero puede tener máscaras más pequeñas
para aspectos defectuosos de la forma
305
00:20:06,998 --> 00:20:11,122
o aspectos defectuosos del lexema
que suceden en el idioma.
306
00:20:11,122 --> 00:20:14,377
Así que aquí está la versión
más simple de los verbos franceses
307
00:20:14,377 --> 00:20:19,569
que usan solo la 3ra persona del singular
para todos los verbos meteorológicos,
308
00:20:19,569 --> 00:20:23,809
como "llueve" o "nieva", como en inglés.
309
00:20:24,377 --> 00:20:26,333
Entonces distinguimos estos dos niveles.
310
00:20:26,763 --> 00:20:29,802
Y cómo usamos esto en Google
311
00:20:29,802 --> 00:20:32,853
es que, cuando tenemos un léxico
que queremos usar,
312
00:20:32,853 --> 00:20:38,149
usamos la máscara para lanzar
literalmente los léxicos,
313
00:20:38,149 --> 00:20:40,003
todas las entradas, a través de la máscara
314
00:20:40,003 --> 00:20:44,143
y ver qué entrada tiene un problema
en términos de estructura.
315
00:20:44,143 --> 00:20:46,363
¿Nos falta un formulario?
¿Nos falta una característica?
316
00:20:46,363 --> 00:20:51,337
Y cuando hay un problema,
hacemos una validación humana
317
00:20:51,337 --> 00:20:53,591
o simplemente para ver si pasa la máscara.
318
00:20:53,591 --> 00:20:57,764
Es una herramienta muy poderosa
que verifica la calidad de la estructura.
319
00:20:59,267 --> 00:21:01,804
Entonces, lo que nos complace anunciar hoy
320
00:21:01,804 --> 00:21:05,248
es que tenemos luz verde
para liberar el código de nuestra máscara.
321
00:21:05,788 --> 00:21:07,413
Este es un esquema.
322
00:21:07,413 --> 00:21:09,317
Si lo desean, podemos liberarlo
323
00:21:09,317 --> 00:21:13,323
y se lo proporcionaremos a Wikidata
como archivo ShEx.
324
00:21:13,323 --> 00:21:16,528
Este es un archivo ShEx
para sustantivos alemanes,
325
00:21:16,528 --> 00:21:20,268
y Denny está trabajando en la conversión
de nuestra especificación interna
326
00:21:20,268 --> 00:21:23,506
a una especificación de código abierto.
327
00:21:23,506 --> 00:21:27,362
Actualmente cubrimos más de 25 idiomas.
328
00:21:27,362 --> 00:21:29,065
Así que, esperamos crecer de nuestro lado,
329
00:21:29,065 --> 00:21:34,190
pero también buscamos esta oportunidad
de colaborar para otros idiomas.
330
00:21:34,190 --> 00:21:40,568
Y una de las colaboraciones en curso
también que Denny tiene con Lukas.
331
00:21:40,568 --> 00:21:44,892
Lukas tiene estas excelentes herramientas
para tener una interfaz de usuario
332
00:21:44,892 --> 00:21:50,901
que ayude al usuario
o al contribuyente a agregar más formas.
333
00:21:50,901 --> 00:21:53,991
Entonces, si desea agregar
un adjetivo en francés,
334
00:21:53,991 --> 00:21:58,897
la interfaz de usuario les indica
cuántas formas se esperan
335
00:21:58,897 --> 00:22:01,402
y qué tipo de características
debe tener esta forma.
336
00:22:01,402 --> 00:22:06,108
Por lo tanto, nuestra máscara ayudará
a definir y expandir la herramienta.
337
00:22:07,078 --> 00:22:08,225
Eso es todo.
338
00:22:08,583 --> 00:22:10,198
(Lydia) Muchas gracias.
339
00:22:10,198 --> 00:22:11,833
(aplausos)
340
00:22:14,089 --> 00:22:16,731
Bien. ¿Hay preguntas?
341
00:22:16,731 --> 00:22:19,221
¿Quieren que hable más sobre lexemas?
342
00:22:19,527 --> 00:22:21,315
- (persona 3) Sí.
- Sí. (risas)
343
00:22:33,035 --> 00:22:35,220
(persona 3) Mi pregunta viene
porque estabas hablando
344
00:22:35,220 --> 00:22:38,946
de dar más acceso
a más personas en más idiomas.
345
00:22:38,946 --> 00:22:42,284
Pero hay muchos idiomas
que no se pueden usar en Wikidata.
346
00:22:42,284 --> 00:22:44,428
Entonces, ¿qué solución tienes para eso?
347
00:22:45,729 --> 00:22:47,526
Cuando dices
que no se puede usar Wikidata,
348
00:22:47,526 --> 00:22:50,148
¿estás hablando de ingresar etiquetas?
349
00:22:50,148 --> 00:22:52,418
- (persona 3) Etiquetas, descripciones.
- Correcto.
350
00:22:52,418 --> 00:22:55,338
Entonces, para lexemas,
es un poco diferente
351
00:22:55,338 --> 00:22:57,633
porque no tenemos esa restricción.
352
00:22:58,763 --> 00:23:02,584
Para las etiquetas
de elementos y propiedades,
353
00:23:03,284 --> 00:23:05,193
hay algunas restricciones
354
00:23:05,193 --> 00:23:09,720
porque queríamos asegurarnos
355
00:23:09,720 --> 00:23:14,069
de que no todo el mundo haga de todo
356
00:23:14,069 --> 00:23:17,227
y se vuelva inmanejable.
357
00:23:19,189 --> 00:23:23,168
Incluso una pequeña comunidad
que quiera un idioma y trabajar en él,
358
00:23:23,738 --> 00:23:26,449
hablen con nosotros, lo haremos realidad.
359
00:23:26,449 --> 00:23:29,042
(persona 3) Hicimos eso
en el Hackathon de Praga en mayo,
360
00:23:29,042 --> 00:23:32,299
y nos tomó hasta casi agosto
para poder usar nuestro idioma.
361
00:23:32,299 --> 00:23:34,975
- Sí.
- (persona 3) Entonces, es muy lento.
362
00:23:34,975 --> 00:23:37,694
Sí, desafortunadamente así es.
363
00:23:37,694 --> 00:23:39,723
Actualmente trabajamos
con el Comité de idiomas
364
00:23:39,723 --> 00:23:45,888
para resolver algunos fundamentos...
365
00:23:49,377 --> 00:23:54,972
como llegar a un acuerdo sobre qué tipo
de idiomas están realmente "permitidos",
366
00:23:55,887 --> 00:23:59,238
y eso ha llevado demasiado tiempo,
367
00:23:59,668 --> 00:24:03,858
razón por la cual su solicitud
tardó más de lo que debería.
368
00:24:04,448 --> 00:24:05,633
(persona 3) Gracias.
369
00:24:06,435 --> 00:24:07,730
(persona 4) Gracias a ti.
370
00:24:07,730 --> 00:24:10,778
Lydia, ¿si recuerdas
las estadísticas que mostraste,
371
00:24:10,778 --> 00:24:12,726
- el número de lexemas por idioma?
- Sí.
372
00:24:12,726 --> 00:24:17,439
Entonces, ¿contaste todas las formas
como un punto de datos
373
00:24:17,439 --> 00:24:19,874
o solo lexemas?
374
00:24:21,129 --> 00:24:23,300
(Lydia) ¿Te refieres a esto?
¿A cuál te refieres?
375
00:24:23,300 --> 00:24:25,203
(persona 4) Sí, exactamente.
376
00:24:25,637 --> 00:24:28,181
Si recuerdas, ¿este número [inaudible]
377
00:24:28,181 --> 00:24:31,794
todas las formas para todos los lexemas
o cuántos lexemas hay?
378
00:24:31,794 --> 00:24:35,045
- No, solo es el número de lexemas.
- (persona 4) Solo un número de lexemas.
379
00:24:35,045 --> 00:24:36,637
Entonces, es una estadística justa
380
00:24:36,637 --> 00:24:39,230
porque si se compilan las formas,
381
00:24:39,230 --> 00:24:40,454
es por eso que pregunto,
382
00:24:40,454 --> 00:24:42,657
entonces todos los idiomas
con la morfología flexiva,
383
00:24:42,657 --> 00:24:44,867
como el ruso, el serbio,
el esloveno y otros,
384
00:24:44,867 --> 00:24:47,456
tienen una ventaja natural
porque tienen muchos.
385
00:24:47,456 --> 00:24:51,650
Ya comienza por aquí,
en este número de formas.
386
00:24:51,650 --> 00:24:53,691
(persona 4) Sí, fue este. Gracias.
387
00:24:56,386 --> 00:25:00,064
(persona 5) Tengo
una pregunta rápida sobre...
388
00:25:00,484 --> 00:25:06,664
Cuando hablamos de los elementos
y propiedades reales.
389
00:25:06,964 --> 00:25:08,741
Por lo que entiendo,
390
00:25:08,741 --> 00:25:11,795
actualmente no hay forma
de dar una fuente real
391
00:25:11,795 --> 00:25:14,566
a ninguna de las etiquetas
y descripciones que se dan.
392
00:25:14,566 --> 00:25:17,887
Entonces, por ejemplo,
porque cuando hablas
393
00:25:17,887 --> 00:25:20,760
de la propiedad de un elemento,
394
00:25:20,760 --> 00:25:24,349
por ejemplo, puedes tener
etiquetas en conflicto.
395
00:25:24,349 --> 00:25:25,579
Sí.
396
00:25:25,579 --> 00:25:27,502
(persona 5) Esta persona es como...
397
00:25:28,242 --> 00:25:30,621
Antes hablábamos
de cosas indígenas, por ejemplo.
398
00:25:30,621 --> 00:25:35,805
Esta persona es un artista noruego
según esta fuente,
399
00:25:35,805 --> 00:25:38,590
y un artista sami, según esta fuente.
400
00:25:39,390 --> 00:25:42,723
O, por ejemplo, en estonio,
tuvimos un problema
401
00:25:42,723 --> 00:25:47,569
en el que cambiamos la terminología
a la de uso oficial
402
00:25:47,569 --> 00:25:49,322
en los léxicos oficiales,
403
00:25:49,322 --> 00:25:52,102
pero no tenemos forma
de indicar realmente por qué,
404
00:25:52,102 --> 00:25:53,436
es decir, cuál fue la fuente
405
00:25:53,436 --> 00:25:55,401
y por qué fue mejor y qué había allí antes
406
00:25:55,401 --> 00:25:56,990
solo fui yo, una persona cualquiera,
407
00:25:56,990 --> 00:25:59,455
simplemente cambiando la cosa
para cualquiera que lo vea.
408
00:25:59,455 --> 00:26:02,360
¿Hay algún plan para hacer
esto posible de alguna manera
409
00:26:02,360 --> 00:26:06,195
para tener las fuentes adecuadas
para los datos de un idioma?
410
00:26:06,885 --> 00:26:11,408
Entonces, es parcialmente posible.
411
00:26:11,408 --> 00:26:15,798
Por ejemplo, cuando tienes
un elemento para una persona,
412
00:26:16,808 --> 00:26:22,560
tienes una declaración,
nombre, apellido, etc., de esa persona,
413
00:26:22,560 --> 00:26:26,066
puedes proporcionar
la referencia para eso allí.
414
00:26:28,051 --> 00:26:32,384
Dudo bastante en agregar más complejidad
415
00:26:32,384 --> 00:26:35,397
para las referencias
en etiquetas y descripciones,
416
00:26:35,397 --> 00:26:38,464
pero si la gente realmente piensa
417
00:26:38,464 --> 00:26:44,779
que esto no está cubierto
por ninguna referencia en la declaración,
418
00:26:44,779 --> 00:26:46,643
entonces hablemos de ello.
419
00:26:48,919 --> 00:26:53,143
Pero me temo que agregará
mucha complejidad
420
00:26:53,143 --> 00:26:56,363
para lo que espero sean pocos casos,
421
00:26:57,233 --> 00:27:00,028
pero estoy dispuesta
a convencerme de lo contrario
422
00:27:00,028 --> 00:27:03,927
si la gente realmente se siente
muy convencida al respecto.
423
00:27:03,927 --> 00:27:08,017
(persona 5) Si se agrega, probablemente
no debería ser la interfaz predeterminada
424
00:27:08,017 --> 00:27:12,292
mostrada a los usuarios principiantes,
en cualquier caso.
425
00:27:12,292 --> 00:27:16,030
Más como "Haga clic aquí si necesita
decir algo específico sobre esto".
426
00:27:17,472 --> 00:27:23,208
¿Tenemos una idea de cuántas veces
eso realmente importaría?
427
00:27:24,360 --> 00:27:26,263
(persona 5) En estonio, por ejemplo,
428
00:27:26,263 --> 00:27:28,684
supongo que esto también es cierto
para otros idiomas,
429
00:27:29,114 --> 00:27:34,043
por ejemplo, hay un nombre oficial
que es la traducción legítima actual,
430
00:27:34,043 --> 00:27:36,046
por ejemplo, al inglés,
431
00:27:36,046 --> 00:27:40,154
es decir, de un tipo de municipio.
432
00:27:40,454 --> 00:27:42,022
Ese fue mi caso de uso, por ejemplo,
433
00:27:42,022 --> 00:27:44,249
donde estábamos usando
la palabra "parish",
434
00:27:44,999 --> 00:27:50,345
que en estonio se refería a una especie
de parroquia de la iglesia,
435
00:27:50,345 --> 00:27:51,499
y ese fue el origen,
436
00:27:51,499 --> 00:27:54,412
pero esa no es la traducción oficial
que tiene Estonia en este momento.
437
00:27:54,889 --> 00:27:58,833
En este caso, simplemente lo agregaría
como declaraciones de nombre oficiales
438
00:27:58,833 --> 00:28:00,657
y agregaría la referencia allí.
439
00:28:01,872 --> 00:28:02,998
(persona 5) Bien.
440
00:28:05,026 --> 00:28:06,412
¿Preguntas? ¿Sí?
441
00:28:07,522 --> 00:28:09,884
(Asaf) Tengo dos comentarios rápidos.
442
00:28:09,884 --> 00:28:13,774
Llamaste específicamente al asturiano
como un idioma que funciona bien,
443
00:28:13,774 --> 00:28:16,145
y creo que es una observación equívoca.
444
00:28:16,145 --> 00:28:17,464
Cuéntame sobre eso.
445
00:28:17,464 --> 00:28:19,588
(Asaf) Creo que es solo un bot
446
00:28:19,588 --> 00:28:23,908
que pegó nombres de personas,
como nombres propios,
447
00:28:23,908 --> 00:28:27,012
y dijo: "Bueno, esto es exactamente
como en francés o español",
448
00:28:27,012 --> 00:28:28,398
y solo lo copió masivamente.
449
00:28:28,398 --> 00:28:33,156
Un punto de evidencia es que
no se ve esa energía en asturiano
450
00:28:33,156 --> 00:28:37,045
en cosas que requieren traducción,
como nombres de propiedades
451
00:28:37,045 --> 00:28:39,488
o nombres de elementos
que no son nombres propios.
452
00:28:39,488 --> 00:28:41,059
Asaf, me rompes el corazón.
453
00:28:41,059 --> 00:28:43,038
(Asaf) Lo sé,
me gusta ser aguafiestas,
454
00:28:43,038 --> 00:28:48,298
pero también tengo buenas noticias,
sobre los números de pronunciación.
455
00:28:49,248 --> 00:28:53,355
Probablemente sepan que Commons
está llena de archivos de pronunciación,
456
00:28:53,355 --> 00:28:54,508
y, por ejemplo,
457
00:28:54,508 --> 00:29:00,826
el holandés tiene no menos de 300 000
archivos de pronunciación en Commons
458
00:29:01,752 --> 00:29:04,891
que solo necesitan
ser ingeridos de alguna manera.
459
00:29:04,891 --> 00:29:07,537
Si alguien está buscando
un proyecto paralelo,
460
00:29:07,537 --> 00:29:08,837
hay toneladas y toneladas
461
00:29:08,837 --> 00:29:13,120
de archivos de pronunciación
clasificados y categorizados en Commons
462
00:29:13,120 --> 00:29:16,733
bajo la categoría Pronunciación
por idioma.
463
00:29:16,733 --> 00:29:22,680
Así que eso está esperando ser emparejado
con lexemas y ponerse en Lexemas.
464
00:29:22,950 --> 00:29:25,254
Y me preguntaba si podrías decir algo
465
00:29:25,254 --> 00:29:26,355
sobre la hoja de ruta,
466
00:29:26,355 --> 00:29:28,527
algo acerca de cuánta inversión
467
00:29:28,527 --> 00:29:31,765
o qué podemos esperar
de Lexemas en el próximo año,
468
00:29:31,765 --> 00:29:33,790
porque, por mi parte, no puedo esperar.
469
00:29:34,789 --> 00:29:36,884
¿No puedes esperar? (risas)
470
00:29:36,884 --> 00:29:38,958
- (Asaf) Por más.
- Sí. (risas)
471
00:29:44,381 --> 00:29:49,363
Ahora nos estamos concentrando
más en Wikibase y la calidad de los datos
472
00:29:51,333 --> 00:29:54,927
para ver cuánta tracción obtiene
473
00:29:54,927 --> 00:30:01,516
y luego tener más información
de los puntos débiles
474
00:30:01,516 --> 00:30:05,843
y luego volver a mejorar aún más
los datos lexicográficos.
475
00:30:06,743 --> 00:30:09,630
Y una de las cosas
que me encantaría saber de ustedes
476
00:30:09,630 --> 00:30:13,976
es dónde ven exactamente
los próximos pasos,
477
00:30:13,976 --> 00:30:15,806
dónde desean ver mejoras
478
00:30:15,806 --> 00:30:20,180
para que luego podamos descubrir
cómo hacer que suceda.
479
00:30:20,965 --> 00:30:22,650
Pero, por supuesto, tienes razón,
480
00:30:22,650 --> 00:30:25,552
todavía hay mucho por hacer
también en el aspecto técnico.
481
00:30:30,413 --> 00:30:35,688
(persona 7) Mientras cargábamos
las palabras vascas con formas y sentidos
482
00:30:35,688 --> 00:30:37,608
y ese tipo de cosas,
483
00:30:37,608 --> 00:30:41,169
la semana pasada decíamos:
"Oh, somos los primeros en algo".
484
00:30:42,759 --> 00:30:44,768
Aparece en la prensa y dice:
485
00:30:44,768 --> 00:30:49,328
"Oh, los vascos son los primeros...
son los primeros en algo", está bien.
486
00:30:49,328 --> 00:30:50,446
(risas)
487
00:30:50,446 --> 00:30:53,158
Y luego la gente pregunta:
"Bien, pero ¿para qué sirve esto?"
488
00:30:54,518 --> 00:30:56,689
No tenemos una muy buena respuesta.
489
00:30:56,689 --> 00:30:57,728
Es decir, está bien,
490
00:30:57,728 --> 00:31:01,681
esto ayudará a las computadoras
a comprender más nuestro idioma, sí,
491
00:31:01,681 --> 00:31:05,119
pero ¿qué tipo de herramientas
podemos hacer en el futuro?
492
00:31:05,119 --> 00:31:07,307
Y no tenemos
una buena respuesta para esto.
493
00:31:07,307 --> 00:31:10,465
Así que no sé si tienes
una buena respuesta para esto.
494
00:31:10,465 --> 00:31:12,582
(risas) No sé si tengo una buena,
495
00:31:12,582 --> 00:31:14,586
pero tengo una respuesta.
496
00:31:15,320 --> 00:31:20,265
Creo que en este momento, como les decía,
497
00:31:20,265 --> 00:31:21,764
no hemos alcanzado esa masa crítica
498
00:31:21,764 --> 00:31:25,369
en la que puedes construir muchas
de las herramientas interesantes.
499
00:31:25,369 --> 00:31:27,547
Pero ya hay algunas herramientas.
500
00:31:28,107 --> 00:31:31,752
Justo el otro día,
Esther [Pandelia], por ejemplo,
501
00:31:31,752 --> 00:31:33,657
lanzó una herramienta donde pueden ver,
502
00:31:35,677 --> 00:31:38,729
creo que fueron las palabras en un globo
503
00:31:38,729 --> 00:31:41,741
donde se habla más, de dónde vienen.
504
00:31:42,471 --> 00:31:43,930
Puede que me equivoque,
505
00:31:43,930 --> 00:31:46,186
pero ella respondió en el chat
del Proyecto en Wikidata,
506
00:31:46,186 --> 00:31:48,824
pueden buscarlo allí.
507
00:31:49,414 --> 00:31:51,645
Así que hemos visto
estas primeras herramientas,
508
00:31:51,645 --> 00:31:55,536
tal como las vimos
cuando comenzó Wikidata.
509
00:31:56,686 --> 00:31:59,442
Primero solo era una red
510
00:31:59,442 --> 00:32:03,264
y "Oye, mira, hay una cosa
que se conecta con esta otra cosa".
511
00:32:04,664 --> 00:32:06,899
Y a medida que tenemos más datos,
512
00:32:06,899 --> 00:32:10,192
y a medida que alcanzamos
cierta masa crítica,
513
00:32:11,602 --> 00:32:14,497
se hacen posibles
aplicaciones más potentes,
514
00:32:15,407 --> 00:32:17,246
como Histropedia,
515
00:32:18,846 --> 00:32:21,708
cosas como preguntas y respuestas
516
00:32:21,708 --> 00:32:26,383
en tu asistente personal digital,
Platypus, etc.
517
00:32:26,383 --> 00:32:29,388
Y estamos viendo
algo similar con los lexemas.
518
00:32:31,038 --> 00:32:34,490
Estamos en la etapa en la que
puedes construir así de pequeño
519
00:32:34,490 --> 00:32:37,304
y oye, mira, hay una conexión
entre las dos cosas,
520
00:32:37,704 --> 00:32:42,578
y la etapa de traducción de esta palabra
a ese lenguaje,
521
00:32:42,578 --> 00:32:47,587
y a medida que la desarrollamos
y a medida que describimos más palabras,
522
00:32:47,587 --> 00:32:49,373
más se hace posible.
523
00:32:49,373 --> 00:32:51,635
Ahora, ¿qué se hace posible?
524
00:32:53,322 --> 00:32:59,323
Como Ben, nuestro orador principal,
al comenzar habló de traducciones,
525
00:32:59,943 --> 00:33:03,295
pudiendo traducir de un idioma a otro.
526
00:33:03,295 --> 00:33:07,769
Y Jens, mi colega, siempre habla
527
00:33:07,769 --> 00:33:11,292
de que la Unión Europea busca un traductor
528
00:33:11,292 --> 00:33:17,279
que pueda traducir de...
creo que fue de maltés al sueco.
529
00:33:17,279 --> 00:33:19,276
- (persona 8) Estonio.
- Estonio.
530
00:33:21,856 --> 00:33:26,051
Y esa no es una combinación habitual.
531
00:33:27,051 --> 00:33:31,575
Y una vez que estos idiomas estén
en un lugar que una máquina pueda leer,
532
00:33:31,575 --> 00:33:32,983
ustedes podrán hacerlo,
533
00:33:32,983 --> 00:33:36,697
podrán tener un diccionario
534
00:33:36,697 --> 00:33:41,575
del estonio al maltés y viceversa.
535
00:33:42,775 --> 00:33:45,447
Por lo tanto, cubrir combinaciones
de idiomas en diccionarios
536
00:33:45,447 --> 00:33:47,751
que simplemente no se han cubierto antes
537
00:33:47,751 --> 00:33:50,890
porque no había suficiente
demanda, por ejemplo,
538
00:33:50,890 --> 00:33:55,380
para que sea financieramente viable
y para justificar el trabajo.
539
00:33:55,380 --> 00:33:56,987
Ahora podemos hacer eso.
540
00:33:59,637 --> 00:34:02,158
Luego generación de texto.
541
00:34:02,158 --> 00:34:04,032
Lucie estaba hablando
542
00:34:04,032 --> 00:34:09,976
de cómo está trabajando
con Hattie en la generación de texto
543
00:34:09,976 --> 00:34:14,373
para iniciar artículos de Wikipedia
en idiomas minoritarios,
544
00:34:15,263 --> 00:34:19,352
y eso necesita datos sobre palabras,
545
00:34:19,352 --> 00:34:22,429
y ustedes necesitan entender
el idioma para hacerlo.
546
00:34:23,359 --> 00:34:27,973
Sí, y esos son solo algunos
que me vienen a la mente justo ahora.
547
00:34:28,533 --> 00:34:31,174
Tal vez nuestra audiencia tenga
más ideas de lo que quieren hacer
548
00:34:31,174 --> 00:34:34,193
cuando tengamos todos los datos gloriosos.
549
00:34:37,533 --> 00:34:40,732
(persona 9) Me desviaré
del tema de los lexemas.
550
00:34:40,732 --> 00:34:42,506
Haré la pregunta,
551
00:34:42,506 --> 00:34:45,474
¿cómo puedo,
como miembro de la comunidad,
552
00:34:45,474 --> 00:34:49,975
influir en que esa tarea sea prioridad,
553
00:34:49,975 --> 00:34:56,484
que un nuevo usuario pueda indicar
qué idiomas quiere ver y editar
554
00:34:56,484 --> 00:35:00,975
sin algún conocimiento secreto
de plantillas verbales?
555
00:35:01,985 --> 00:35:04,893
Quizás exista este año
esta lista de deseos técnicos
556
00:35:04,893 --> 00:35:06,880
sin temas de Wikipedia.
557
00:35:06,880 --> 00:35:09,959
Tal vez haya una esperanza
de que todos podamos votar
558
00:35:09,959 --> 00:35:14,058
sobre esto que no arreglamos
durante siete años.
559
00:35:14,695 --> 00:35:17,354
¿Tienen alguna idea
o comentario sobre esto?
560
00:35:18,057 --> 00:35:20,168
¿Estás hablando del hecho
561
00:35:20,168 --> 00:35:23,178
de que alguien que no
ha iniciado sesión en Wikidata
562
00:35:23,178 --> 00:35:25,671
no puede cambiar su idioma fácilmente?
563
00:35:25,671 --> 00:35:27,679
(persona 9) No, para usuarios [inaudibles].
564
00:35:28,149 --> 00:35:30,529
Por lo tanto, si inician sesión,
565
00:35:30,529 --> 00:35:34,711
pueden cambiar su idioma
en la parte superior de la página,
566
00:35:35,731 --> 00:35:37,939
y luego aparecerá
567
00:35:39,489 --> 00:35:41,853
donde están las descripciones
de las etiquetas [inaudible],
568
00:35:41,853 --> 00:35:43,323
y pueden editarlo.
569
00:35:45,497 --> 00:35:48,849
(persona 9) Bueno, en realidad,
muchas veces el flujo de trabajo
570
00:35:48,849 --> 00:35:52,287
es que si quieres tener
varios idiomas, estén disponibles,
571
00:35:52,287 --> 00:35:55,259
y no siempre es así.
572
00:35:55,259 --> 00:35:58,424
Bien, tal vez deberíamos sentarnos
después de esta charla y me lo muestras.
573
00:36:01,402 --> 00:36:03,693
Genial. ¿Más preguntas?
574
00:36:05,314 --> 00:36:06,316
Sí.
575
00:36:11,435 --> 00:36:13,036
(persona 10) Gracias por la presentación.
576
00:36:13,886 --> 00:36:14,967
¿Puede comentarnos
577
00:36:14,967 --> 00:36:19,147
sobre el estado de la correlación
con la comunidad de Wiktionary?
578
00:36:19,147 --> 00:36:22,136
Hasta donde he visto,
hubo algunas discusiones
579
00:36:22,136 --> 00:36:25,891
sobre la importación
de algunos elementos del trabajo,
580
00:36:25,891 --> 00:36:30,683
pero parece haber problemas de licencia
y algunos desacuerdos, etc.
581
00:36:30,683 --> 00:36:31,688
Correcto.
582
00:36:31,688 --> 00:36:36,170
Bueno, las comunidades de Wiktionary
han pasado mucho tiempo
583
00:36:37,160 --> 00:36:39,313
construyendo Wiktionary.
584
00:36:39,313 --> 00:36:42,483
Han creado
585
00:36:43,033 --> 00:36:47,394
plantillas increíblemente
complicadas y complejas
586
00:36:47,394 --> 00:36:53,454
para crear tablas bonitas que generan
automáticamente formas para ustedes
587
00:36:53,454 --> 00:36:56,232
y todo tipo de cosas
realmente impresionantes
588
00:36:56,232 --> 00:37:00,325
y cosas un poco locas, si lo piensan.
589
00:37:02,151 --> 00:37:07,834
Y, por supuesto, han invertido
mucho tiempo y esfuerzo en eso.
590
00:37:09,204 --> 00:37:11,641
Y comprensiblemente,
591
00:37:11,641 --> 00:37:16,956
no quieren que simplemente sea tomado,
592
00:37:17,886 --> 00:37:18,942
así como así.
593
00:37:18,942 --> 00:37:21,631
En parte viene de eso.
594
00:37:22,404 --> 00:37:24,780
Y eso está bien, no hay problema.
595
00:37:25,577 --> 00:37:31,932
Ahora, las primeras comunidades
de Wiktionary están hablando de producir
596
00:37:31,932 --> 00:37:34,169
e importar algunos
de sus datos a Wikidata.
597
00:37:34,169 --> 00:37:38,935
El ruso, como han visto,
por ejemplo, es uno de esos casos
598
00:37:40,125 --> 00:37:42,105
y espero que suceda más.
599
00:37:43,475 --> 00:37:46,640
Pero será un proceso lento,
600
00:37:46,640 --> 00:37:49,223
al igual que la adopción
de los datos de Wikidata en Wikipedia
601
00:37:49,223 --> 00:37:51,749
ha sido un proceso bastante lento.
602
00:37:52,689 --> 00:37:56,023
Por otro lado, hacer que sea más fácil
603
00:37:56,023 --> 00:37:58,972
usar los datos que están en lexemas,
604
00:37:58,972 --> 00:38:02,049
en Wiktionary, para que puedan
hacer uso de eso
605
00:38:02,049 --> 00:38:05,371
y compartir datos entre
los Wiktionarios de los idioma,
606
00:38:05,371 --> 00:38:08,693
que es muy difícil
o imposible en este momento,
607
00:38:08,693 --> 00:38:11,400
lo cual es una locura,
como con Wikipedia.
608
00:38:13,590 --> 00:38:16,055
Esperen por el regalo de cumpleaños.
609
00:38:19,738 --> 00:38:20,772
Sí.
610
00:38:22,439 --> 00:38:24,667
(persona 11) Mientras lo pensaba,
611
00:38:24,667 --> 00:38:28,008
no quise decirlo
porque pensaba que sería supertonto,
612
00:38:28,008 --> 00:38:31,843
pero creo que Wiktionary
ya tiene algo de contenido,
613
00:38:31,843 --> 00:38:34,818
y sé que no podemos
transferirlo a Wikidata
614
00:38:34,818 --> 00:38:36,888
porque hay una diferencia
en las licencias.
615
00:38:36,888 --> 00:38:39,471
Pero estaba pensando que tal vez
podamos hacer algo al respecto.
616
00:38:40,161 --> 00:38:45,103
Tal vez, no sé, podemos obtener
el permiso de las comunidades
617
00:38:45,603 --> 00:38:51,045
luego de, no sé,
tener una votación pública
618
00:38:51,045 --> 00:38:55,482
y para que la comunidad,
los miembros activos de la comunidad
619
00:38:55,482 --> 00:39:02,363
voten y digan si desean
o aceptan transferir el contenido
620
00:39:02,363 --> 00:39:05,368
para el que pueden
hacer los lexemas de Wikidata.
621
00:39:06,078 --> 00:39:08,377
Porque creo que es un desperdicio.
622
00:39:09,408 --> 00:39:14,283
Por lo tanto, esa es definitivamente
una conversación que las personas
623
00:39:14,283 --> 00:39:18,089
que están en las comunidades de Wiktionary
son bienvenidas a plantear.
624
00:39:18,089 --> 00:39:24,487
Creo que sería un poco presuntuoso
para nosotros ir y forzar eso.
625
00:39:25,757 --> 00:39:30,982
Pero sí, creo que definitivamente
vale la pena tener una conversación.
626
00:39:30,982 --> 00:39:33,738
Pero creo que también
es importante entender
627
00:39:33,738 --> 00:39:38,922
que hay una distinción entre
lo que está legalmente permitido
628
00:39:38,922 --> 00:39:42,987
y lo que deberíamos estar haciendo,
629
00:39:42,987 --> 00:39:45,266
y lo que esas personas
quieren o no quieren.
630
00:39:45,576 --> 00:39:47,169
Incluso si está legalmente permitido,
631
00:39:47,169 --> 00:39:50,480
si algunas otras comunidades
de Wiktionary no quieran eso,
632
00:39:50,480 --> 00:39:53,377
al menos yo tendría cuidado.
633
00:39:58,726 --> 00:40:02,329
Creo que necesitas el micrófono
para la transmisión.
634
00:40:04,380 --> 00:40:07,139
(persona 12) Obviamente,
todo es muy emocionante,
635
00:40:07,819 --> 00:40:12,159
e inmediatamente pienso
cómo puedo llevar eso a mis estudiantes
636
00:40:12,159 --> 00:40:15,398
y cómo puedo incorporarlo a los cursos,
637
00:40:15,398 --> 00:40:18,371
el trabajo que estamos haciendo,
los entornos educativos.
638
00:40:18,371 --> 00:40:22,111
Y no tengo, en este momento,
639
00:40:22,111 --> 00:40:23,956
en primer lugar, suficiente conocimiento,
640
00:40:23,956 --> 00:40:27,118
pero creo que la documentación que tenemos
641
00:40:27,648 --> 00:40:29,922
podría ser mejorada.
642
00:40:29,922 --> 00:40:33,277
Esa es una especie de solicitud
para hacer videos geniales
643
00:40:33,277 --> 00:40:35,738
que expliquen cómo funciona
644
00:40:35,738 --> 00:40:39,788
porque si lo tenemos, podemos usarlo,
645
00:40:39,788 --> 00:40:41,825
y podemos tener estudiantes a bordo,
646
00:40:41,825 --> 00:40:46,912
y podemos hacer que la gente entienda
lo increíble que es todo.
647
00:40:46,912 --> 00:40:51,841
Y sí, solo piensen en la documentación
y en la educación, por favor.
648
00:40:51,841 --> 00:40:54,320
Porque creo que se podría hacer mucho.
649
00:40:54,320 --> 00:40:58,425
Estas son como muchas tareas
que podrían hacerse incluso con...
650
00:40:59,965 --> 00:41:01,873
bueno, no diría escuelas primarias,
651
00:41:01,873 --> 00:41:05,335
pero ciertamente, incluso
estudiantes más jóvenes.
652
00:41:05,755 --> 00:41:10,706
Entonces, realmente me gustaría ver
ese potencial aprovechado
653
00:41:10,706 --> 00:41:15,112
y, a partir de ahora, personalmente
no entiendo lo suficiente
654
00:41:15,112 --> 00:41:19,340
como para poder crear
tareas o crear como...
655
00:41:20,270 --> 00:41:21,995
hacer algo práctico con eso.
656
00:41:21,995 --> 00:41:25,612
Cualquier ayuda o pensamiento
que alguien tenga sobre eso,
657
00:41:25,612 --> 00:41:29,488
estaría muy feliz de escucharlas también.
658
00:41:30,348 --> 00:41:31,969
Sí, hablemos de eso.
659
00:41:35,243 --> 00:41:36,759
¿Más preguntas?
660
00:41:37,649 --> 00:41:39,035
Alguien más levantó una mano.
661
00:41:39,035 --> 00:41:40,335
Olvidé dónde estaba.
662
00:41:45,579 --> 00:41:49,836
(persona 13) Si no podemos
importar desde Wiktionary,
663
00:41:49,836 --> 00:41:55,612
¿hay algún esfuerzo concertado en hallar
otras fuentes de dominio público,
664
00:41:55,612 --> 00:41:57,299
tal vez todos los datos
665
00:41:58,609 --> 00:42:03,007
y algún tipo de filtro previo, organizarlo
666
00:42:03,007 --> 00:42:08,310
que sea fácil de revisar y así importarlo?
667
00:42:08,933 --> 00:42:11,021
Se han tomado medidas iniciales.
668
00:42:11,021 --> 00:42:14,609
Tengo entendido que el vasco
es uno de esos esfuerzos.
669
00:42:14,609 --> 00:42:17,314
¿Quizás quieras decir
un poco más al respecto?
670
00:42:18,266 --> 00:42:19,970
(persona 7) [inaudible]
671
00:42:23,006 --> 00:42:26,988
Bueno, la respuesta real es pagar por eso.
672
00:42:28,214 --> 00:42:33,221
Tenemos un acuerdo con un contratista
con el que usualmente trabajamos.
673
00:42:34,641 --> 00:42:38,095
Hacen diccionarios,
674
00:42:40,155 --> 00:42:42,436
y muchas cosas, pero hacen diccionarios.
675
00:42:43,268 --> 00:42:47,313
Acordamos con ellos para liberar
el diccionario de los estudiantes,
676
00:42:47,313 --> 00:42:52,622
seleccionamos las palabras más comunes
y comenzaríamos a cargarlo
677
00:42:52,622 --> 00:42:55,430
con un identificador externo
y el esquema de las cosas.
678
00:42:58,060 --> 00:43:02,425
Pero hubo una discusión
acerca de dejarlo en CC0
679
00:43:03,052 --> 00:43:05,162
porque tienen el diccionario con CC
680
00:43:06,377 --> 00:43:10,166
y entendieron cuál era la diferencia.
681
00:43:10,166 --> 00:43:13,706
Entonces hubo una discusión.
682
00:43:13,706 --> 00:43:19,549
Pero creo que proporcionaremos algunas
herramientas o ejemplos en el futuro,
683
00:43:19,549 --> 00:43:23,856
y creo que habrán otros diccionarios
que podamos manejar,
684
00:43:23,856 --> 00:43:29,114
y también creo que Wiktionary
debe comenzar a moverse en esa dirección,
685
00:43:29,114 --> 00:43:32,100
pero esa es otra gran discusión.
686
00:43:33,125 --> 00:43:34,327
Y además de eso,
687
00:43:34,327 --> 00:43:38,679
Lea también está en contacto
con personas occitanas
688
00:43:38,679 --> 00:43:41,667
que trabajan en diccionarios occitanos,
689
00:43:41,667 --> 00:43:44,978
y actualmente están trabajando
en una colaboración de sumerio.
690
00:43:51,384 --> 00:43:53,103
¿Más preguntas?
691
00:44:01,327 --> 00:44:05,189
(persona 14) ¡Hola! Somos las personas
que queremos importar datos occitanos.
692
00:44:05,189 --> 00:44:06,425
¡Ajá! ¡Perfecto!
693
00:44:06,425 --> 00:44:08,208
(persona 14) Y tenemos
un pequeño problema.
694
00:44:09,028 --> 00:44:14,055
No sabemos cómo representar
la variedad de todos los lexemas.
695
00:44:14,055 --> 00:44:17,733
Tenemos seis dialectos
696
00:44:17,733 --> 00:44:23,854
y queremos indicarle a Lexemas
en qué dialecto se usa
697
00:44:23,854 --> 00:44:27,125
y no tenemos una declaración C0
adecuada para hacerlo.
698
00:44:27,125 --> 00:44:30,945
Por lo tanto,
mientras la declaración no exista,
699
00:44:31,475 --> 00:44:34,305
nos impide impulsarlo
700
00:44:34,305 --> 00:44:37,443
porque tendremos que volver a hacerlo
701
00:44:37,443 --> 00:44:41,916
cuando podamos [sacar provecho]
a la declaración.
702
00:44:41,916 --> 00:44:44,391
Y es complicado porque es una declaración
703
00:44:44,391 --> 00:44:47,642
que muchas personas no pedirán
704
00:44:47,642 --> 00:44:53,284
porque es una declaración que se refiere
principalmente a los idiomas minoritarios.
705
00:44:53,284 --> 00:44:56,773
Tendrás una sola persona que lo pida,
706
00:44:56,773 --> 00:44:59,862
pero, como nuestros colegas vascos,
707
00:44:59,862 --> 00:45:05,922
puede ser una persona
que impulsará a miles de otros,
708
00:45:05,922 --> 00:45:10,724
por lo que puede que no se pida mucho,
709
00:45:10,724 --> 00:45:13,976
pero será muy importante para nosotros.
710
00:45:14,714 --> 00:45:17,440
¿Ya tienen una nueva
propuesta de propiedad
711
00:45:17,440 --> 00:45:19,310
o necesitan ayuda para crearla?
712
00:45:21,364 --> 00:45:24,140
(persona 14) La solicitamos
hace cuatro meses.
713
00:45:24,560 --> 00:45:28,595
Entonces hagamos que algunas personas
ayuden con esta propuesta de propiedad.
714
00:45:29,929 --> 00:45:32,932
Estoy seguro de que hay suficientes
personas en esta sala para que suceda.
715
00:45:32,932 --> 00:45:35,511
(persona 15) Propuesta de propiedad
[hablando en francés].
716
00:45:35,511 --> 00:45:36,497
(persona 16) No tuvimos respuesta.
717
00:45:36,497 --> 00:45:39,539
(persona 14) No tuvimos respuesta,
y no sabemos cómo hacerlo
718
00:45:39,539 --> 00:45:42,793
porque no estamos
en la comunidad de Wikidata.
719
00:45:44,534 --> 00:45:48,657
Sí, así que hay personas aquí
que pueden ayudarte.
720
00:45:48,657 --> 00:45:51,974
Quizás alguien
levante la mano para tomar...
721
00:45:51,974 --> 00:45:53,484
(persona 7) Estoy para eso.
722
00:45:53,484 --> 00:45:55,352
Pero creo que esto
es bastante interesante
723
00:45:55,352 --> 00:45:58,899
no solo por la variante de forma
724
00:45:58,899 --> 00:46:02,447
también puede manejarse geográficamente,
725
00:46:02,447 --> 00:46:04,835
con coordenadas o algún tipo de mapeo.
726
00:46:05,435 --> 00:46:07,655
También tener diferentes pronunciaciones,
727
00:46:07,655 --> 00:46:11,677
y creo que esto es algo
que sucede en muchos idiomas.
728
00:46:12,447 --> 00:46:16,102
Deberíamos comenzar
a hacer que suceda [inaudible],
729
00:46:16,102 --> 00:46:18,705
y voy a buscar la propiedad.
730
00:46:19,622 --> 00:46:20,773
Genial.
731
00:46:20,773 --> 00:46:24,286
Entonces obtendrás respaldo
para tu propuesta de propiedad.
732
00:46:25,976 --> 00:46:27,137
Gracias.
733
00:46:27,993 --> 00:46:30,101
Muy bien, ¿más preguntas?
734
00:46:32,250 --> 00:46:33,584
Finn.
735
00:46:33,584 --> 00:46:34,895
Finn es una de esas personas
736
00:46:34,895 --> 00:46:37,371
que construye cosas
sobre datos lexicográficos.
737
00:46:37,371 --> 00:46:39,925
(Finn) Es solo una pequeña pregunta,
738
00:46:40,245 --> 00:46:44,066
y se trata de variaciones ortográficas.
739
00:46:44,736 --> 00:46:47,842
Parece difícil ponerlos en...
740
00:46:48,282 --> 00:46:53,118
Podría, por supuesto, tener múltiples
formas para la misma palabra.
741
00:46:56,167 --> 00:46:58,288
No sé, parece que
742
00:46:59,398 --> 00:47:03,375
si no lo haces así
parece ser difícil de especificar...
743
00:47:04,611 --> 00:47:05,728
o no sé
744
00:47:05,728 --> 00:47:09,571
si esto es solo un problema
técnico menor o si...
745
00:47:09,571 --> 00:47:11,092
Veámoslo juntos.
746
00:47:11,332 --> 00:47:14,920
Me encantaría ver un ejemplo.
747
00:47:17,318 --> 00:47:18,318
Asaf.
748
00:47:26,726 --> 00:47:28,236
(Asaf) Gracias.
749
00:47:29,226 --> 00:47:33,525
Puedo dar un ejemplo muy concreto
de mi lengua materna, el hebreo.
750
00:47:34,045 --> 00:47:38,685
El hebreo tiene dos variantes principales
751
00:47:38,685 --> 00:47:42,626
para expresar casi todas las palabras
752
00:47:42,626 --> 00:47:47,480
porque la ortografía tradicional
753
00:47:47,480 --> 00:47:49,884
omite muchas de las vocales.
754
00:47:50,774 --> 00:47:55,047
Y, por lo tanto, en las ediciones
modernas de la Biblia y de la poesía,
755
00:47:55,047 --> 00:47:57,301
se usan diacríticos.
756
00:47:57,301 --> 00:48:02,510
Sin embargo, esos signos diacríticos
nunca se usan para la prosa moderna
757
00:48:02,510 --> 00:48:05,814
o la escritura de periódicos
o letreros de la calle.
758
00:48:05,814 --> 00:48:11,049
El uso informal diario promedio
pone vocales adicionales
759
00:48:12,009 --> 00:48:13,359
y no usa los signos diacríticos
760
00:48:13,359 --> 00:48:15,447
porque son, por supuesto, más engorrosos
761
00:48:15,447 --> 00:48:17,733
y tienen todo tipo de reglas
y nadie las conoce.
762
00:48:18,473 --> 00:48:20,371
Entonces, básicamente hay dos variantes.
763
00:48:20,371 --> 00:48:25,162
Existe la variante
de la prosa informal cotidiana,
764
00:48:25,162 --> 00:48:27,667
y está la Biblia o la poesía,
765
00:48:27,667 --> 00:48:31,830
que siempre viene
en este texto diacrítico tradicional.
766
00:48:31,830 --> 00:48:33,142
Para ser útil,
767
00:48:33,142 --> 00:48:37,268
Lexema tendría que reconocer
ambas variedades de cada palabra
768
00:48:37,268 --> 00:48:39,587
y cada forma de cada palabra.
769
00:48:40,517 --> 00:48:43,231
Es un caso de uso muy completo
770
00:48:43,231 --> 00:48:46,180
para las variantes estables oficiales.
771
00:48:46,180 --> 00:48:48,782
No es dialecto, no son regiones,
772
00:48:49,062 --> 00:48:53,357
son básicamente dos sistemas
morfológicos coexistentes.
773
00:48:54,377 --> 00:48:58,766
Y tampoco sé exactamente
cómo expresarlo en Lexema,
774
00:48:58,766 --> 00:49:02,640
cosa que me impide responder
parcialmente a la pregunta de Magnus
775
00:49:02,640 --> 00:49:05,078
de subir las partes que están listas
776
00:49:05,078 --> 00:49:09,234
del mayor diccionario hebreo,
que es de dominio público
777
00:49:09,234 --> 00:49:12,981
y que he estado digitalizando
durante varios años.
778
00:49:12,981 --> 00:49:14,643
Una buena parte está lista,
779
00:49:14,643 --> 00:49:16,389
pero no la pongo en Lexema en este momento
780
00:49:16,389 --> 00:49:20,085
porque no sé exactamente
cómo resolver este problema.
781
00:49:20,085 --> 00:49:23,227
Muy bien, solucionemos
este problema aquí. (risas)
782
00:49:24,343 --> 00:49:25,861
Eso tiene que ser posible.
783
00:49:29,741 --> 00:49:31,743
Muy bien, ¿más preguntas?
784
00:49:36,861 --> 00:49:39,423
Si no, muchas gracias.
785
00:49:40,355 --> 00:49:45,026
(aplausos)