1
00:00:06,303 --> 00:00:07,362
(Lydia) Muito obrigada.
2
00:00:07,362 --> 00:00:11,244
Então, nesta conferência,
um dos grandes temas são as linguagens.
3
00:00:11,244 --> 00:00:13,710
Então...
4
00:00:13,710 --> 00:00:18,368
Quero dar-vos uma visão geral
de onde estamos atualmente
5
00:00:18,368 --> 00:00:19,734
no que diz respeito a linguagens
6
00:00:19,734 --> 00:00:22,167
e para onde podemos ir daqui.
7
00:00:28,956 --> 00:00:32,580
A Wikidada pretende dar a mais pessoas
mais acesso a mais conhecimento
8
00:00:32,580 --> 00:00:37,168
e a linguagem é uma parte muito importante
para tornar isso realidade.
9
00:00:38,115 --> 00:00:43,291
Especialmente, porque cada vez mais
as nossas vidas dependem da tecnologia.
10
00:00:44,114 --> 00:00:48,873
E, como um dos palestrantes
mencionou há pouco,
11
00:00:49,613 --> 00:00:51,588
alguma da tecnologia
deixa as pessoas para trás
12
00:00:51,588 --> 00:00:55,020
simplesmente porque
não falam determinada linguagem,
13
00:00:55,320 --> 00:00:57,573
o que não está correto.
14
00:00:58,473 --> 00:01:02,097
Então, nós queremos fazer algo
em relação a isso.
15
00:01:02,927 --> 00:01:05,841
E, de forma a mudar isso,
precisamos de pelos menos duas coisas.
16
00:01:06,321 --> 00:01:11,270
Primeiro, providenciar conteúdo
na língua nativa das pessoas
17
00:01:11,270 --> 00:01:12,955
e, segundo,
18
00:01:12,955 --> 00:01:15,770
providenciar
interação na sua língua,
19
00:01:15,770 --> 00:01:19,189
nas aplicações
ou seja no que for que tenham.
20
00:01:20,367 --> 00:01:25,277
A Wikidata ajuda em ambas as coisas.
21
00:01:25,277 --> 00:01:28,408
Em relação à primeira,
conteúdo na sua língua,
22
00:01:28,408 --> 00:01:30,879
isso é basicamente o que temos
nos itens e propriedades,
23
00:01:31,319 --> 00:01:33,082
como descrevemos o mundo.
24
00:01:33,082 --> 00:01:35,085
Isto não é, certamente,
tudo o que é preciso,
25
00:01:35,085 --> 00:01:39,294
mas já dá uma ajuda considerável.
26
00:01:39,614 --> 00:01:41,847
A outra coisa,
interação na sua língua,
27
00:01:41,847 --> 00:01:46,389
é onde os lexemas entram em jogo
28
00:01:46,389 --> 00:01:49,382
se quiserem falar
com o vosso assistente pessoal digital,
29
00:01:49,382 --> 00:01:54,918
ou se quiserem que o vosso dispositivo
traduza um texto e afins.
30
00:01:56,404 --> 00:01:59,254
Tudo bem, vamos olhar para
conteúdo na sua língua.
31
00:01:59,254 --> 00:02:03,396
O que temos em itens e propriedades?
32
00:02:05,406 --> 00:02:09,696
Para isto, as etiquetas nesses itens
e propriedades são cruciais.
33
00:02:10,236 --> 00:02:14,866
Precisamos de saber como se chama
esta entidade de que estamos a falar.
34
00:02:15,656 --> 00:02:19,847
E, em vez de falarmos sobre Q5...
35
00:02:19,847 --> 00:02:22,180
Alguém que fale inglês
sabe que isso é um "humano",
36
00:02:22,180 --> 00:02:24,706
alguém que fale alemão
sabe que é um "mensch",
37
00:02:24,706 --> 00:02:26,374
e por aí adiante.
38
00:02:26,374 --> 00:02:29,742
Então, estas etiquetas
nos itens e propriedades
39
00:02:29,742 --> 00:02:33,619
estão a fechar as brechas
entre humanos e máquinas
40
00:02:33,619 --> 00:02:35,439
e entre humanos e humanos.
41
00:02:35,439 --> 00:02:40,115
Fazendo com que mais conhecimento
esteja acessível para eles.
42
00:02:43,270 --> 00:02:46,290
Isso é um bom objetivo.
43
00:02:46,290 --> 00:02:48,342
Mas qual é o aspeto disso?
44
00:02:48,342 --> 00:02:49,607
Bem, é este.
45
00:02:50,947 --> 00:02:52,416
O que estão a ver aqui
46
00:02:52,416 --> 00:02:58,496
é que a maioria dos items
na Wikidata tem duas etiquetas,
47
00:02:58,496 --> 00:03:00,767
portanto, são etiquetados em duas línguas.
48
00:03:01,697 --> 00:03:03,851
Depois disso, é um, e depois três
49
00:03:03,851 --> 00:03:06,115
e depois fica muito triste.
50
00:03:06,781 --> 00:03:08,581
(riso tímido)
51
00:03:10,047 --> 00:03:12,713
Eu penso que temos que fazer melhor.
52
00:03:14,185 --> 00:03:15,319
Mas, por outro lado,
53
00:03:15,319 --> 00:03:17,478
eu, na verdade, estava à espera
de muito pior.
54
00:03:17,478 --> 00:03:19,560
Estava à espera que a média fosse um.
55
00:03:19,560 --> 00:03:22,503
Portanto, fiquei
bastante contente em ver dois. (risos)
56
00:03:24,921 --> 00:03:26,186
Certo.
57
00:03:27,156 --> 00:03:29,527
Mas, o interessante não é só saber
58
00:03:29,527 --> 00:03:33,742
quantas etiquetas os nossos items
e propriedades têm,
59
00:03:33,742 --> 00:03:36,565
também é interessante ver
em que línguas.
60
00:03:38,045 --> 00:03:43,764
Aqui têm um gráfico das línguas
61
00:03:43,764 --> 00:03:46,838
que têm etiquetas para itens.
62
00:03:46,838 --> 00:03:50,669
A maior parte é Outra.
63
00:03:51,229 --> 00:03:53,863
Então, peguei nas 100 maiores línguas
64
00:03:54,483 --> 00:03:58,902
e tudo o resto são Outras,
para que o gráfico se perceba.
65
00:03:59,542 --> 00:04:02,142
Depois, há inglês e holandês,
66
00:04:03,002 --> 00:04:04,254
francês,
67
00:04:05,924 --> 00:04:09,129
e não nos esqueçamos do... asturiano.
68
00:04:09,659 --> 00:04:11,889
- (plateia 1) (grito de entusiasmo)
- De facto!
69
00:04:13,899 --> 00:04:16,954
Então, podem ver que há aqui
um considerável desequilíbrio
70
00:04:16,954 --> 00:04:20,114
e o foco ainda se mantém muito no inglês.
71
00:04:21,236 --> 00:04:24,367
Outra coisa que notamos
é que nas Propriedades,
72
00:04:24,367 --> 00:04:25,999
as coisas estão bem melhores.
73
00:04:27,399 --> 00:04:32,750
E penso que, em parte, isso deve-se
a haver muito menos propriedades.
74
00:04:32,750 --> 00:04:36,770
Então, mesmo comunidades menores
têm hipótese de se manter a par.
75
00:04:36,770 --> 00:04:39,173
Mas também é uma parte importante
da Wikidata,
76
00:04:39,173 --> 00:04:41,159
a localização na tua própria língua.
77
00:04:41,159 --> 00:04:42,384
Portanto, isso é bom.
78
00:04:45,752 --> 00:04:47,842
O que quero salientar aqui
com o asturiano
79
00:04:47,842 --> 00:04:53,698
é que uma comunidade pequena
pode realmente fazer uma enorme diferença
80
00:04:54,448 --> 00:04:57,085
com alguma dedicação e trabalho,
81
00:04:57,085 --> 00:04:58,420
o que é muito fixe.
82
00:05:01,846 --> 00:05:03,530
Uma pequena pergunta para vocês.
83
00:05:03,530 --> 00:05:05,493
Se pegarmos em todas as propriedades
na Wikidata,
84
00:05:05,493 --> 00:05:07,687
que não são indentificadores externos,
85
00:05:07,687 --> 00:05:10,358
qual é o que tem mais etiquetas,
o maior número de linguagens?
86
00:05:10,767 --> 00:05:13,717
(plateia) [inaudível]
87
00:05:13,717 --> 00:05:16,786
Ouço algum acordo em instância de?
88
00:05:17,316 --> 00:05:19,443
Estariam errados.
89
00:05:19,873 --> 00:05:22,210
É imagem. (risos)
90
00:05:23,160 --> 00:05:26,366
Então, sim, isso diz-vos,
se falarem uma destas línguas
91
00:05:26,366 --> 00:05:28,621
nas quais instância de
ainda não tem etiqueta,
92
00:05:28,621 --> 00:05:30,190
que poderão querer adicioná-la.
93
00:05:31,642 --> 00:05:35,676
Tem, neste momento, 148 etiquetas.
94
00:05:37,688 --> 00:05:41,249
Mas isso é outro slide.
95
00:05:42,631 --> 00:05:44,162
Este gráfico diz-nos algo
96
00:05:44,162 --> 00:05:49,321
sobre quanto conteúdo estamos a tornar
disponível numa certa língua
97
00:05:49,321 --> 00:05:52,042
e quanto conteúdo
é realmente utilizado.
98
00:05:52,042 --> 00:05:55,448
Então, o que temos aqui
é basicamente uma curva
99
00:05:55,448 --> 00:06:00,987
com a maior parte do conteúdo com
etiquetas em inglês, disponível em inglês
100
00:06:01,507 --> 00:06:04,295
e a ser muito usado.
101
00:06:04,295 --> 00:06:06,449
E depois, isto meio que baixa.
102
00:06:06,449 --> 00:06:09,436
Mas, novamente, o que podem ver
são os valores atípicos
103
00:06:09,436 --> 00:06:15,333
que têm muito mais conteúdo
do que seria de esperar
104
00:06:16,663 --> 00:06:19,539
e isso é mesmo muito bom.
105
00:06:20,739 --> 00:06:24,945
O problema é que não é tão utilizado.
106
00:06:25,565 --> 00:06:28,742
Asturiano e holandês
deveriam ser mais altos.
107
00:06:28,742 --> 00:06:31,994
Acho que, ajudar essas comunidades
108
00:06:33,266 --> 00:06:35,493
a aumentar o uso
dos dados que coletaram,
109
00:06:35,493 --> 00:06:37,682
é uma coisa realmente útil de se fazer.
110
00:06:42,910 --> 00:06:46,801
O que esta análise e outras
nos mostraram é uma coisa boa,
111
00:06:46,801 --> 00:06:51,378
embora estejamos a ver que os itens
que são mais utilizados
112
00:06:51,378 --> 00:06:55,295
também tendem a ter mais etiquetas
113
00:06:55,295 --> 00:06:58,188
ou ao contrário.
Não é completamente claro.
114
00:07:02,513 --> 00:07:04,376
E então, a questão é:
115
00:07:04,806 --> 00:07:07,009
estamos a servir
apenas as linguagens poderosas?
116
00:07:07,899 --> 00:07:11,147
Ou conseguimos fazê-lo para todos?
117
00:07:12,757 --> 00:07:17,743
O que vêm aqui
é um agrupamento das linguagens.
118
00:07:17,743 --> 00:07:21,832
As linguagens que estão agrupadas
tendem a ter etiquetas juntas.
119
00:07:26,042 --> 00:07:28,599
E conseguimos vê-las a aglomerarem-se.
120
00:07:28,599 --> 00:07:34,065
Agora, temos aqui
um aglomerado similar, colorido,
121
00:07:34,065 --> 00:07:39,475
baseado em quão viva, quão usada,
122
00:07:40,455 --> 00:07:43,156
quão ameaçada a linguagem está.
123
00:07:43,156 --> 00:07:44,642
E uma coisa boa que vemos aqui,
124
00:07:44,642 --> 00:07:49,566
é que linguagens seguras
e ameaçadas
125
00:07:49,566 --> 00:07:53,773
não formam dois aglomerados diferentes.
126
00:07:53,773 --> 00:07:58,872
Elas misturam-se,
127
00:08:00,262 --> 00:08:04,545
o que é muito melhor do que seria
se fosse ao contrário
128
00:08:04,545 --> 00:08:09,377
onde as linguagens seguras,
as linguagens poderosas,
129
00:08:10,197 --> 00:08:12,164
estariam apenas a ajudar-se entre elas.
130
00:08:12,594 --> 00:08:14,356
Não, não é esse o caso.
131
00:08:14,356 --> 00:08:17,417
E isso é uma coisa ótima.
132
00:08:17,417 --> 00:08:20,042
Quando vi isto,
pensei que isto era muito bom.
133
00:08:23,474 --> 00:08:25,169
Aqui está uma coisa similar,
134
00:08:26,239 --> 00:08:28,800
onde olhamos para
135
00:08:30,230 --> 00:08:34,222
os estados das linguagens,
136
00:08:34,222 --> 00:08:36,225
para quantas etiquetas têm.
137
00:08:39,367 --> 00:08:42,937
O que estão a ver é uma clara vantagem
para as linguagens seguras,
138
00:08:42,937 --> 00:08:44,248
como seria de esperar.
139
00:08:45,508 --> 00:08:46,693
Mas também estão a ver
140
00:08:46,693 --> 00:08:54,407
que as linguagens na categoria dois,
e três e até mesmo quatro
141
00:08:54,407 --> 00:08:59,280
não estão, na verdade, nada mal
142
00:08:59,280 --> 00:09:02,367
em termos de representação
na Wikidata e em outros.
143
00:09:03,287 --> 00:09:06,408
É uma coisa muito boa de se encontrar.
144
00:09:07,646 --> 00:09:09,129
Agora, se olharmos para a mesma coisa
145
00:09:09,129 --> 00:09:12,418
para quanto do conteúdo
dessas etiquetas
146
00:09:12,418 --> 00:09:15,495
é atualmente usado
na Wikipedia, por exemplo,
147
00:09:17,455 --> 00:09:22,563
emerge uma imagem semelhante.
148
00:09:23,603 --> 00:09:29,813
E diz-nos que estas comunidades
estão a fazer um bom uso do tempo
149
00:09:29,813 --> 00:09:34,504
preenchendo as etiquetas
para os itens mais usados, por exemplo.
150
00:09:36,410 --> 00:09:40,493
Há valores atípicos
onde penso que podemos ajudar...
151
00:09:41,683 --> 00:09:48,202
Ajudar as comunidades a encontrar sítios
onde o seu trabalho será mais valioso.
152
00:09:49,312 --> 00:09:52,663
Mas, no geral, estou contente
com este panorama.
153
00:09:54,823 --> 00:09:59,844
Agora, isto foram os itens
e as propriedades da Wikidata.
154
00:10:00,714 --> 00:10:03,033
Agora vamos olhar para a interação
nas vossas línguas.
155
00:10:03,033 --> 00:10:05,203
Portanto as porções do lexema
da Wikidata
156
00:10:05,203 --> 00:10:09,394
onde nós descrevemos palavras
e as suas formas e significados.
157
00:10:10,167 --> 00:10:13,301
Andamos a fazer isso
desde Maio do ano passado
158
00:10:16,391 --> 00:10:19,127
e o conteúdo tem aumentado.
159
00:10:19,434 --> 00:10:22,149
Podem ver aqui em azul os lexemas
160
00:10:22,149 --> 00:10:25,938
e a vermelho,
as formas nesses lexemas
161
00:10:25,938 --> 00:10:29,910
e a amarelo, os sentidos
nesses lexemas.
162
00:10:30,991 --> 00:10:34,451
Então algumas comunidades--
já voltaremos a isso mais tarde--
163
00:10:34,451 --> 00:10:39,793
dispenderam muito tempo a criar formas
e sentidos para os seus lexemas,
164
00:10:39,793 --> 00:10:42,753
o que é muito útil
165
00:10:42,753 --> 00:10:48,243
porque constrói o núcleo
dos conjuntos de dados que precisamos.
166
00:10:50,562 --> 00:10:55,133
Agora, olhamos para todas as línguas
167
00:10:55,133 --> 00:10:57,906
que têm lexemas na Wikidata.
168
00:10:57,906 --> 00:11:01,003
Portanto, palavras que nós temos.
169
00:11:01,713 --> 00:11:04,404
Há, agora, 310 línguas.
170
00:11:04,884 --> 00:11:08,290
Agora, qual é que acham que é
a língua que está no topo
171
00:11:08,290 --> 00:11:11,949
quando falamos em número de lexemas
neste momento na Wikidata?
172
00:11:12,813 --> 00:11:19,073
(Plateia) [inaudível]
173
00:11:19,073 --> 00:11:20,146
O quê?
174
00:11:20,146 --> 00:11:21,741
(Plateia 2) Alemão.
175
00:11:21,741 --> 00:11:24,142
Desculpe, já o tinha ouvido antes.
176
00:11:24,142 --> 00:11:25,651
É Russo.
177
00:11:27,691 --> 00:11:29,754
O Russo está bastante à frente.
178
00:11:31,647 --> 00:11:33,832
E, para vos dar alguma perspetiva,
179
00:11:35,652 --> 00:11:36,816
há diferentes opiniões
180
00:11:36,816 --> 00:11:42,231
mas li, por exemplo,
que entre 1 000 e 3 000 palavras
181
00:11:42,231 --> 00:11:45,450
chegam para chegar
ao nível conversacional noutra língua
182
00:11:45,450 --> 00:11:49,461
e que entre 4 000 a 10 000 palavras
chegam para o nível avançado.
183
00:11:51,591 --> 00:11:55,282
Então, ainda temos um pouco
para pôr em dia.
184
00:11:58,483 --> 00:12:03,279
Uma coisa à qual quero
que prestem atenção é ao basco
185
00:12:03,279 --> 00:12:07,744
com, aproximadamente, 10 000 lexemas.
186
00:12:09,244 --> 00:12:13,003
Agora, se olharem para o número de formas
nesses lexemas,
187
00:12:14,013 --> 00:12:16,497
o basco está lá em cima,
188
00:12:18,137 --> 00:12:20,006
o que é bastante fixe.
189
00:12:20,006 --> 00:12:24,930
Deviam ir a uma palestra que vos explique
o porquê desta situação.
190
00:12:27,181 --> 00:12:31,175
Agora, olhando para o número de sentidos,
para o que as palavras querem dizer,
191
00:12:32,015 --> 00:12:35,081
o basco chega mesmo ao topo da lista.
192
00:12:35,081 --> 00:12:37,102
Eu acho que merece um aplauso.
193
00:12:37,102 --> 00:12:40,861
(aplausos)
194
00:12:45,678 --> 00:12:47,118
Outra pequena pergunta.
195
00:12:47,118 --> 00:12:50,181
Qual é o lexema com o maior número
de traduções neste momento?
196
00:12:50,651 --> 00:12:56,676
(Plateia) Gatos, gatos, [inaudível],
Douglas Adams, [inaudível].
197
00:12:56,676 --> 00:13:00,014
Todos bons palpites, mas não.
198
00:13:00,882 --> 00:13:04,137
É esta, a palavra para "água", em russo.
199
00:13:09,571 --> 00:13:12,253
Já falámos muito
200
00:13:12,253 --> 00:13:16,412
sobre quantos lexemas,
formas e sentidos temos,
201
00:13:16,412 --> 00:13:20,493
mas isso é apenas uma parte
do que precisamos.
202
00:13:20,493 --> 00:13:21,515
A outra parte
203
00:13:21,515 --> 00:13:25,161
é descrever os lexemas,
formas e sentidos,
204
00:13:25,161 --> 00:13:27,647
de uma forma que as máquinas possam ler.
205
00:13:27,647 --> 00:13:30,039
E para isso temos declarações,
tal como nos itens.
206
00:13:31,479 --> 00:13:36,362
E uma das propriedades
que usamos é o exemplo de utilização.
207
00:13:36,362 --> 00:13:38,582
Portanto quem quer que esteja
a usar os dados
208
00:13:38,582 --> 00:13:42,089
pode entender como usar
a palavra no contexto,
209
00:13:42,089 --> 00:13:44,158
pode ser uma citação, por exemplo.
210
00:13:45,396 --> 00:13:47,113
E aqui, o polaco reina.
211
00:13:47,900 --> 00:13:49,764
Bom trabalho falantes de polaco.
212
00:13:54,219 --> 00:13:57,680
Outra propriedade
que é mesmo útil é IPA,
213
00:13:57,680 --> 00:14:00,186
logo, como é que se pronuncia uma palavra.
214
00:14:00,876 --> 00:14:07,497
O russo, aparentemente, precisa
imenso de declarações IPA.
215
00:14:10,219 --> 00:14:13,314
Mas, novamente, polaco em segundo.
216
00:14:17,148 --> 00:14:20,753
E, por último, mas não menos importante,
temos a pronunciação áudio.
217
00:14:20,753 --> 00:14:23,372
Isto corresponde a ligações
a ficheiros nos Commons
218
00:14:23,372 --> 00:14:25,959
onde alguém diz a palavra,
219
00:14:25,959 --> 00:14:29,913
de forma a que possamos ouvir
como um nativo a pronuncia
220
00:14:29,913 --> 00:14:32,871
para o caso de não conseguires ler IPA,
por exemplo.
221
00:14:34,959 --> 00:14:39,205
E há um projeto muito porreiro
baseado na Wiki,
222
00:14:39,205 --> 00:14:40,474
chamado Lingua Libre,
223
00:14:40,884 --> 00:14:45,173
onde podemos ir e ajudar a gravar
palavras na nossa língua
224
00:14:45,173 --> 00:14:47,836
que pode ser depois adicionadas
a lexemas na Wikidata,
225
00:14:48,446 --> 00:14:52,103
para que outras pessoas possam entender
como pronunciar as palavras.
226
00:14:53,663 --> 00:14:55,694
(plateia 3) Há alguma ligação para isso?
227
00:14:55,694 --> 00:14:57,485
Se procurarem por "Lingua Libre"...
228
00:14:57,485 --> 00:15:00,981
Tenho a certeza de que alguém pode
publicá-la no nosso canal do Telegram.
229
00:15:03,138 --> 00:15:04,621
Aqueles tipos são os maiores.
230
00:15:04,621 --> 00:15:06,726
Fizeram uma coisa mesmo fixe
com a Wikibase.
231
00:15:09,416 --> 00:15:10,617
Certo.
232
00:15:12,556 --> 00:15:17,285
Então, a questão é,
para onde seguimos daqui?
233
00:15:19,165 --> 00:15:22,010
A julgar pelos números que vos mostrei,
234
00:15:23,030 --> 00:15:25,172
já fizemos um longo caminho
235
00:15:25,172 --> 00:15:28,430
na direção de dar a mais pessoas
mais acesso a mais conhecimento
236
00:15:28,430 --> 00:15:31,240
quando procuram línguas na Wikidata.
237
00:15:32,530 --> 00:15:36,392
Mas ainda há muito trabalho pela frente.
238
00:15:38,992 --> 00:15:42,341
Algumas coisas que podem fazer
para ajudar, por exemplo,
239
00:15:42,341 --> 00:15:44,921
é organizar maratonas de etiquetagem,
240
00:15:44,921 --> 00:15:50,124
como juntar pessoas
para etiquetar items na Wikidata.
241
00:15:50,914 --> 00:15:55,121
Ou fazer uma maratona de etiquetagem
para lexemas na vossa língua,
242
00:15:55,121 --> 00:15:59,212
para introduzir as palavras mais usadas
na vossa língua na Wikidata.
243
00:16:00,773 --> 00:16:03,285
Ou podem usar uma ferramenta
como o Terminator,
244
00:16:03,285 --> 00:16:08,493
que vos ajuda a encontrar os itens
mais importantes na vossa língua
245
00:16:08,493 --> 00:16:11,549
a que ainda falte alguma etiqueta.
246
00:16:13,274 --> 00:16:18,359
Sendo que mais importante é medido
por quantas vezes é usado
247
00:16:18,359 --> 00:16:22,553
em outros items da Wikidata
como ligações ou declarações.
248
00:16:25,768 --> 00:16:30,022
E, claro, para a porção do lexema,
249
00:16:31,342 --> 00:16:35,169
agora que temos uma cobertura básica
desses lexemas,
250
00:16:35,169 --> 00:16:41,163
queremos também construí-los,
adicionar-lhes mais declarações
251
00:16:41,163 --> 00:16:44,401
para que eles possam, realmente,
construir a base
252
00:16:44,401 --> 00:16:47,421
para construir aplicações significativas
a partir deles.
253
00:16:48,141 --> 00:16:50,795
Porque estamos a aproximarmo-nos
dessa massa crítica,
254
00:16:50,795 --> 00:16:53,496
mas ainda estamos longe disso,
255
00:16:53,496 --> 00:16:56,624
de podermos construir aplicações
sérias sobre isto.
256
00:16:58,097 --> 00:17:01,680
E espero que todos vocês
se juntem a nós para fazermos isso.
257
00:17:02,583 --> 00:17:07,103
E isso já me leva
258
00:17:07,103 --> 00:17:09,843
a uma pequena ajuda dos nossos amigos.
259
00:17:09,843 --> 00:17:12,812
Bruno, queres vir até aqui
260
00:17:13,882 --> 00:17:16,854
para nos falares
sobre as máscaras lexicais?
261
00:17:17,541 --> 00:17:18,567
(Bruno) Obrigado, Lydia,
262
00:17:18,567 --> 00:17:21,519
por me cederes este bocadinho de tempo
263
00:17:21,519 --> 00:17:24,150
para apresentar o trabalho
que estamos a fazer na Google
264
00:17:24,150 --> 00:17:29,635
com o Denny, que a maior parte de vocês
já deve ter ouvido falar ou conhece.
265
00:17:30,126 --> 00:17:32,030
Porque na Google-- eu sou linguista,
266
00:17:32,030 --> 00:17:36,150
portanto estou muito feliz de estar aqui
entre outros entusiastas de linguagens--
267
00:17:36,620 --> 00:17:39,278
nós também estamos a construir
alguns léxicos
268
00:17:39,278 --> 00:17:41,766
e construimos esta tecnologia,
269
00:17:41,766 --> 00:17:45,589
ou esta abordagem, que pensamos
poderá ser útil para vocês.
270
00:17:46,369 --> 00:17:48,455
Só para vos situar,
271
00:17:48,455 --> 00:17:52,068
isto é a minha experiência
lexicográfica a falar.
272
00:17:52,788 --> 00:17:54,347
Quando criamos bases de dados
de léxico,
273
00:17:54,347 --> 00:17:58,623
é preciso muito tempo para a manter,
mantê-la consistente
274
00:17:58,623 --> 00:18:00,125
e para trocar dados,
275
00:18:00,125 --> 00:18:02,027
como vocês provavelmente sabem.
276
00:18:02,517 --> 00:18:05,927
Houve várias tentativas para unificar
as características e propriedades
277
00:18:05,927 --> 00:18:09,184
que descrevem os lexemas
e as formas.
278
00:18:09,184 --> 00:18:10,936
Ainda não é um problema resolvido,
279
00:18:10,936 --> 00:18:13,958
mas há ainda algumas tentativas
de unificação nesse sentido.
280
00:18:13,958 --> 00:18:15,209
Mas o que está mesmo a faltar--
281
00:18:15,209 --> 00:18:18,732
e isto é um problema que tivemos
no início do nosso projeto na Google--
282
00:18:18,732 --> 00:18:21,607
é tentar ter uma estrutura interna
283
00:18:22,197 --> 00:18:25,910
que descreva como
uma entrada lexical se deverá parecer,
284
00:18:25,910 --> 00:18:28,581
que tipo de dados
ou que tipo de informação temos
285
00:18:28,581 --> 00:18:32,237
e a especificação pretendida.
286
00:18:32,237 --> 00:18:38,187
Assim, isto foi o que inventámos,
esta coisa chamada máscara lexical.
287
00:18:38,897 --> 00:18:44,841
Uma máscara lexical descreve
o que é expectável de uma entrada,
288
00:18:44,841 --> 00:18:47,329
de uma entrada lexicográfica,
para estar completa,
289
00:18:47,329 --> 00:18:51,436
tanto em termos de número de formas
que se esperam de um lexema
290
00:18:51,436 --> 00:18:55,607
como do número de características
que se esperam em cada forma.
291
00:18:56,397 --> 00:18:58,329
Aqui está um exemplo
para adjetivos italianos.
292
00:18:58,329 --> 00:19:02,002
Seria de esperar, em italiano, termos
quatro formas para os adjetivos
293
00:19:02,002 --> 00:19:05,383
e cada uma dessas formas
ter uma combinação específica
294
00:19:05,383 --> 00:19:07,946
de género e número de características.
295
00:19:08,606 --> 00:19:12,672
Isto é o que esperamos
de adjetivos italianos.
296
00:19:12,672 --> 00:19:16,176
Claro que, podemos ter
máscaras extremamente complexas,
297
00:19:16,176 --> 00:19:20,783
como a conjugação dos verbos em francês,
que é bastante extensa.
298
00:19:20,783 --> 00:19:23,487
E não vos quero mostrar
nenhuma máscara russa
299
00:19:23,487 --> 00:19:25,378
porque não cabe no ecrã.
(risos)
300
00:19:26,308 --> 00:19:29,531
E também temos especificações
detalhadas,
301
00:19:29,531 --> 00:19:33,421
porque distinguimos
o que está ao nível da forma.
302
00:19:33,421 --> 00:19:37,544
Então, aqui temos nomes russos
que têm três números
303
00:19:37,544 --> 00:19:40,048
e alguns casos
com diferentes formas.
304
00:19:40,048 --> 00:19:43,086
Mas, eles também têm
uma especificação de entrada de gama
305
00:19:43,086 --> 00:19:45,590
que diz que o nome em particular tem
306
00:19:45,590 --> 00:19:50,133
um género inerente e uma característica
de animação inerente
307
00:19:50,133 --> 00:19:52,488
que também são especificados na máscara.
308
00:19:54,518 --> 00:19:58,779
Também queremos salientar
que uma máscara fornece uma especificação
309
00:19:58,779 --> 00:20:01,874
para qual deve ser
o aspeto de uma entrada.
310
00:20:01,874 --> 00:20:07,158
Mas, podemos ter máscaras mais pequenas,
para aspetos defeituosos da forma
311
00:20:07,158 --> 00:20:11,282
ou aspetos defeituosos do lexema
que acontecem na linguagem.
312
00:20:11,282 --> 00:20:14,537
Aqui podem ver a forma mais simples
dos verbos franceses
313
00:20:14,537 --> 00:20:19,729
que só têm a terceira pessoa do singular
para todos os verbos metereológicos,
314
00:20:19,729 --> 00:20:23,969
como "chove" ou "neva",
em português.
315
00:20:24,537 --> 00:20:26,493
Distinguimos estes dois níveis.
316
00:20:26,923 --> 00:20:29,962
E como é que usamos isto na Google?
317
00:20:29,962 --> 00:20:32,643
Quando temos um léxico
que queremos usar,
318
00:20:33,063 --> 00:20:38,309
usamos a máscara para
literalmente atirar os léxicos,
319
00:20:38,309 --> 00:20:40,163
todas as entradas, através da máscara
320
00:20:40,163 --> 00:20:44,303
e ver que entrada tem problemas
em termos de estrutura.
321
00:20:44,303 --> 00:20:46,523
Está a faltar uma forma?
Falta uma característica?
322
00:20:46,523 --> 00:20:51,497
E, quando surge um problema,
fazemos validação humana
323
00:20:51,497 --> 00:20:53,751
ou só para ver se passa na máscara.
324
00:20:53,751 --> 00:20:57,924
É uma ferramenta extremamente poderosa
para conferir a qualidade da estrutura.
325
00:20:59,427 --> 00:21:01,964
Portanto, estamos felizes em anunciar hoje
326
00:21:01,964 --> 00:21:05,408
que recebemos luz verde
para disponibilizarmos o código fonte.
327
00:21:05,948 --> 00:21:07,573
Portanto este é o esquema.
328
00:21:07,573 --> 00:21:09,477
Se quiserem isto, podemos lançar
329
00:21:09,477 --> 00:21:13,483
e pode ser providenciado
à Wikidata em ficheiros ShEx.
330
00:21:13,483 --> 00:21:16,688
Este é o ficheiro ShEx para nomes
em alemão,
331
00:21:16,688 --> 00:21:20,428
e o Denny está a trabalhar na conversão
da nossa especificação interna
332
00:21:20,428 --> 00:21:23,666
para uma mais de código aberto.
333
00:21:23,666 --> 00:21:27,522
Atualmente temos mais de 25 linguagens,
334
00:21:27,522 --> 00:21:29,225
portanto esperamos crescer do nosso lado,
335
00:21:29,225 --> 00:21:34,350
mas também fazer disto uma oportunidade
para colaborar noutras línguas.
336
00:21:34,350 --> 00:21:40,728
E uma dessas colaborações
é a que o Denny tem com o Lukas.
337
00:21:40,728 --> 00:21:45,052
O Lukas tem umas ferramentas ótimas
para ter uma interface com o utilizador
338
00:21:45,052 --> 00:21:51,061
que ajuda o utilizador ou contribuidor
a adicionar mais formas.
339
00:21:51,061 --> 00:21:54,151
Portanto, se quiserem adicionar
um adjetivo em francês,
340
00:21:54,151 --> 00:21:59,057
a interface diz-vos
quantas formas são expetáveis
341
00:21:59,057 --> 00:22:01,562
e e quantas características
essa forma deverá ter.
342
00:22:01,562 --> 00:22:06,268
Então a nossa máscara ajudará a ferramenta
a ser definida e expandida.
343
00:22:07,048 --> 00:22:08,385
É isto.
344
00:22:08,591 --> 00:22:10,358
(Lydia) Muito obrigado.
345
00:22:10,358 --> 00:22:13,523
(aplausos)
346
00:22:14,249 --> 00:22:16,891
Certo. Há questões?
347
00:22:16,891 --> 00:22:19,381
Querem falar mais sobre os lexemas?
348
00:22:19,697 --> 00:22:21,475
- (plateia 4) Sim.
- Sim. (risos)
349
00:22:33,055 --> 00:22:35,380
(plateia 4) A minha questão,
porque estava a falar
350
00:22:35,380 --> 00:22:38,996
acerca de dar mais acesso
a mais pessoas em mais línguas,
351
00:22:38,996 --> 00:22:42,444
mas há muitas línguas
que não podem ser usadas na Wikidata.
352
00:22:42,444 --> 00:22:44,588
Então que solução é que têm para isso?
353
00:22:45,739 --> 00:22:47,686
Quando diz que não podem ser usadas,
354
00:22:47,686 --> 00:22:50,308
está a referir-se à entrada de etiquetas?
355
00:22:50,308 --> 00:22:52,578
- (plateia 4) Etiquetas, descrições.
- Certo.
356
00:22:52,578 --> 00:22:55,498
Para lexemas, é um pouco diferente
357
00:22:55,498 --> 00:22:57,793
porque aí não temos
essa restrição.
358
00:22:58,923 --> 00:23:05,425
Para etiquetas nos itens e propriedades,
há realmente alguma restrição
359
00:23:05,433 --> 00:23:12,411
porque quisemos ter a certeza
que não é completamente--
360
00:23:12,411 --> 00:23:14,229
qualquer um faz o que quiser
361
00:23:14,229 --> 00:23:17,769
e torna-se ingerível.
362
00:23:17,769 --> 00:23:23,898
Até uma comunidade pequena que queira
uma língua e que queira trabalhar nisso:
363
00:23:23,898 --> 00:23:26,657
venham ter connosco e fazemos acontecer.
364
00:23:26,657 --> 00:23:29,202
(plateia 4) Nós fizemos isso
no Hackathon de Praga em Maio
365
00:23:29,202 --> 00:23:32,359
e demorou quase até Agosto
até conseguirmos usar a nossa linguagem.
366
00:23:32,359 --> 00:23:34,935
- Sim.
- (plateia 4) Portanto, é muito lento.
367
00:23:34,935 --> 00:23:37,854
Sim, infelizmente é muito lento.
368
00:23:37,854 --> 00:23:39,883
Estamos a trabalhar
com o Comité de Linguagem
369
00:23:39,883 --> 00:23:46,048
a tentar resolver os mais básicos...
370
00:23:49,537 --> 00:23:55,447
Ter o acordo sobre que tipo
de linguagens são realmente "permitidas"
371
00:23:56,047 --> 00:23:59,838
e isso tem demorado tempo demais,
372
00:23:59,838 --> 00:24:04,178
o que pode ser a razão para o vosso pedido
ter demorado mais do que devia.
373
00:24:04,778 --> 00:24:06,213
(plateia 4) Obrigada.
374
00:24:06,555 --> 00:24:07,610
(plateia 5) Obrigado.
375
00:24:07,610 --> 00:24:10,788
Lydia, se se lembra das estatísticas
que mostrou,
376
00:24:10,788 --> 00:24:12,886
o número de lexemas por linguagem.
- Sim.
377
00:24:12,886 --> 00:24:17,599
(plateia 5) Então, contaram todos
as formas como pontos de dados
378
00:24:17,599 --> 00:24:20,034
ou apenas os lexemas?
379
00:24:20,909 --> 00:24:22,621
(Lydia) Está a falar disto?
380
00:24:22,621 --> 00:24:24,053
A qual é que se refere?
381
00:24:24,053 --> 00:24:25,529
(plateia 5) Sim, exatamente.
382
00:24:25,797 --> 00:24:28,341
Se se lembrar, este número é [inaudível]
383
00:24:28,341 --> 00:24:31,514
todas as formas, todos os lexemas
ou apenas quantos lexemas há?
384
00:24:31,514 --> 00:24:33,915
Não, isto é apenas o número de lexemas.
385
00:24:33,915 --> 00:24:35,395
(plateia 5) Só o número de lexemas.
386
00:24:35,395 --> 00:24:36,797
Então é apenas uma estatística
387
00:24:36,797 --> 00:24:39,310
porque, se depois
contássemos com as formas--
388
00:24:39,310 --> 00:24:40,614
por isso pergunto--
389
00:24:40,614 --> 00:24:42,637
então, todas as línguas
com morfologia de inflexão,
390
00:24:42,637 --> 00:24:44,927
como russo, sérvio,
esloveno, etc,
391
00:24:44,927 --> 00:24:47,616
têm uma vantagem natural,
porque têm tantas.
392
00:24:47,616 --> 00:24:51,630
Daí, este tipo de saltos aqui
no número de formulários.
393
00:24:51,630 --> 00:24:53,851
(plateia 5) Sim, era esse mesmo.
Obrigado.
394
00:24:56,386 --> 00:25:00,224
(plateia 6) Tenho só uma
pergunta rápida acerca de...
395
00:25:00,524 --> 00:25:06,824
Quando estávamos a falar sobre
os itens e propriedades.
396
00:25:07,124 --> 00:25:09,921
Até onde eu consigo entender,
não há, atualmente, forma
397
00:25:09,921 --> 00:25:12,746
de dar uma fonte definida
a qualquer das etiquetas
398
00:25:12,746 --> 00:25:14,606
e descrições que foram dadas.
- Sim.
399
00:25:14,606 --> 00:25:18,047
(plateia 6) Então, não há nada
porque, quando estás a falar
400
00:25:18,047 --> 00:25:20,920
acerca de uma propriedade de um item,
401
00:25:20,920 --> 00:25:24,339
podes ter, por exemplo,
etiquetas conflituosas.
402
00:25:24,339 --> 00:25:27,999
- Sim.
- (Plateia 6) Então, esta pessoa é como...
403
00:25:28,302 --> 00:25:30,432
Falamos à pouco sobre
coisas indígenas, por exemplo.
404
00:25:30,432 --> 00:25:35,965
Então esta pessoa é um artista norueguês,
de acordo com uma fonte,
405
00:25:35,965 --> 00:25:38,750
e um artista sami,
de acordo com outra fonte.
406
00:25:39,230 --> 00:25:42,633
Ou, por exemplo, em estoniano,
tivemos um problema
407
00:25:42,633 --> 00:25:47,729
onde tivemos que mudar uma terminologia
para a terminologia oficial usada
408
00:25:47,729 --> 00:25:49,482
nos léxicos oficiais.
409
00:25:49,482 --> 00:25:52,262
Mas não temos realmente
uma forma de indicar porquê.
410
00:25:52,262 --> 00:25:53,596
Qual foi a fonte disto
411
00:25:53,596 --> 00:25:55,561
e por que razão isto está melhor
do que estava.
412
00:25:55,561 --> 00:25:57,150
Fui apenas eu, como uma pessoa
ao acaso,
413
00:25:57,150 --> 00:25:59,615
a mudar isto
para quem quer que o veja.
414
00:25:59,615 --> 00:26:02,520
Então, há um plano
para isto ser possível de qualquer forma,
415
00:26:02,520 --> 00:26:06,355
de modo a que possamos realmente ter
fontes confiáveis para dados de linguagem?
416
00:26:07,045 --> 00:26:11,358
Isso é parcialmente possível.
417
00:26:11,358 --> 00:26:15,958
Por exemplo, quando há
um item para uma pessoa,
418
00:26:15,968 --> 00:26:22,720
pode ter as declarações: primeiro nome,
último nome, e por aí em diante.
419
00:26:22,720 --> 00:26:26,226
E, nessa altura, pode-se providenciar
referências para isso.
420
00:26:28,061 --> 00:26:32,544
Tenho algumas reticências em
adicionar mais complexidade
421
00:26:32,544 --> 00:26:35,557
para referências
em etiquetas e descrições,
422
00:26:35,557 --> 00:26:38,624
mas se as pessoas realmente pensam
423
00:26:38,624 --> 00:26:44,939
que isto é algo que não está coberto
por qualquer referência na declaração,
424
00:26:44,939 --> 00:26:46,803
então falamos sobre isso.
425
00:26:48,809 --> 00:26:53,303
Mas temo que
vá adicionar muita complexidade
426
00:26:53,303 --> 00:26:56,523
para o que espero serem poucos casos.
427
00:26:57,393 --> 00:27:00,188
Mas estou disposta
a ser convencida do contrário
428
00:27:00,188 --> 00:27:04,017
se as pessoas realmente sentem
que isto tem relevãncia.
429
00:27:04,017 --> 00:27:07,737
(plateia 6) Se for adicionado
provavelmente não deveria ser o padrão,
430
00:27:07,737 --> 00:27:12,182
mostrado a todos os utilizadores
iniciados na interface, em todos os casos.
431
00:27:12,182 --> 00:27:16,190
Podia ser mais, "Clica aqui se queres
adicionar algo específico sobre isto."
432
00:27:17,632 --> 00:27:23,368
Temos alguma ideia de quantas vezes
isso teria importância?
433
00:27:24,340 --> 00:27:26,423
(plateia 6) Em estónio, por exemplo--
434
00:27:26,423 --> 00:27:29,034
eu imagino que seja assim
noutras línguas também--
435
00:27:29,034 --> 00:27:34,113
por exemplo, há um nome oficial
que é a legítima tradução
436
00:27:34,113 --> 00:27:36,726
para inglês de,
437
00:27:36,726 --> 00:27:40,314
digamos, um tipo específico
de municipalidade.
438
00:27:40,314 --> 00:27:42,182
Este foi o meu caso
de utilizador, por exemplo,
439
00:27:42,182 --> 00:27:44,409
onde estávamos a usar a palavra "paróquia"
440
00:27:45,159 --> 00:27:50,615
na qual a palavra estónia original
significava paróquia de igreja
441
00:27:50,615 --> 00:27:51,779
e essa foi a sua origem,
442
00:27:51,779 --> 00:27:54,809
mas não é agora a tradução oficial
que a Estónia recebe atualmente.
443
00:27:54,809 --> 00:27:58,853
Neste caso, eu juntaria-a apenas como
declarações de nome oficial
444
00:27:58,853 --> 00:28:00,817
e juntaria a referência aí.
445
00:28:02,032 --> 00:28:03,158
(plateia 6) Certo.
446
00:28:05,026 --> 00:28:06,572
Mais questões, sim?
447
00:28:07,682 --> 00:28:09,944
(Asaf) Dois comentários rápidos.
448
00:28:09,944 --> 00:28:13,934
Falou especificamente do asturiano
como uma linguagem que está em alta
449
00:28:13,934 --> 00:28:16,385
e eu acho que isso é falso.
450
00:28:16,385 --> 00:28:17,644
Conte-me.
451
00:28:17,644 --> 00:28:19,748
(Asaf) Eu penso que é apenas um bot
452
00:28:19,748 --> 00:28:24,068
que colou nomes de pessoas,
nomes apropriados para pessoas,
453
00:28:24,068 --> 00:28:27,172
e disse "Bem, isto é exatamente
como em francês ou espanhol"
454
00:28:27,172 --> 00:28:28,558
e copiou-o massivamente.
455
00:28:28,558 --> 00:28:33,316
Uma prova é que
não se vê essa energia no asturiano,
456
00:28:33,316 --> 00:28:37,205
em coisas que realmente requerem tradução,
como nomes de propriedades,
457
00:28:37,205 --> 00:28:39,568
ou nomes de itens
que não são nomes próprios.
458
00:28:39,568 --> 00:28:41,119
Asaf, partes-me o coração.
459
00:28:41,119 --> 00:28:43,108
(Asaf) Eu sei,
costumo estragar as festas,
460
00:28:43,108 --> 00:28:48,458
mas tenho boas notícias também,
sobre os números das pronunciações.
461
00:28:49,408 --> 00:28:53,515
Como saberão, o Commons está cheio
de ficheiros de pronunciação
462
00:28:53,515 --> 00:28:54,668
e, por exemplo,
463
00:28:54,668 --> 00:29:01,102
o holandês tem, nada mais nada menos, que
300 000 ficheiros desses introduzidos
464
00:29:01,802 --> 00:29:05,051
que necessitam de ser "ingeridos"
de alguma forma.
465
00:29:05,051 --> 00:29:07,697
Então, se alguém está à procura
de um projeto para as horas vagas,
466
00:29:07,697 --> 00:29:08,807
há imensos
467
00:29:08,807 --> 00:29:13,210
ficheiros de pronunciação, classificados
e categorizados no Commons
468
00:29:13,210 --> 00:29:16,763
na categoria "Pronunciação" por linguagem.
469
00:29:16,763 --> 00:29:22,840
Estão à espera de ser combinados
com os lexemas e postos no lexema.
470
00:29:23,030 --> 00:29:25,484
E estava a pensar
se me poderia dizer alguma coisa
471
00:29:25,484 --> 00:29:26,585
sobre o quadro referência,
472
00:29:26,585 --> 00:29:28,757
algo sobre quanto investimento
473
00:29:28,757 --> 00:29:31,995
ou o que podemos esperar
relativo ao lexema no próximo ano,
474
00:29:31,995 --> 00:29:34,020
porque eu, pessoalmente,
mal posso esperar.
475
00:29:34,839 --> 00:29:37,044
Não pode? (risos)
476
00:29:37,044 --> 00:29:39,118
- (Asaf) Por mais.
- Sim. (risos)
477
00:29:40,339 --> 00:29:42,329
Penso que ...
478
00:29:44,401 --> 00:29:49,523
Neste momento, estamos concentrados
mais na Wikibase e na qualidade de dados
479
00:29:51,283 --> 00:29:55,087
para ver quanta tração isto tem
480
00:29:55,087 --> 00:30:01,516
e para obter mais para descobrir
onde os próximos pontos críticos estão
481
00:30:01,516 --> 00:30:06,003
e depois voltar atrás e melhorar
mais os dados lexicográficos.
482
00:30:06,903 --> 00:30:09,790
E uma das coisas
que adoraria ouvir de vocês
483
00:30:09,790 --> 00:30:14,136
é onde exatamente vocês vêm
que poderão ser dados os próximos passos,
484
00:30:14,136 --> 00:30:15,966
onde querem melhorias
485
00:30:15,966 --> 00:30:20,340
para que nós possamos descobrir
como fazer isso acontecer.
486
00:30:21,065 --> 00:30:22,810
Mas claro que está certo,
487
00:30:22,810 --> 00:30:25,712
ainda há muito a fazer
também do lado técnico.
488
00:30:30,363 --> 00:30:35,848
(plateia 7) Ao carregarmos
as palavras bascas com formas,
489
00:30:35,848 --> 00:30:38,259
e verão alguns destes tipos de coisas,
estávamos todos...
490
00:30:38,259 --> 00:30:41,329
Na semana passada
dissemos "Somos os primeiros em algo."
491
00:30:41,329 --> 00:30:42,919
[inaudível]
492
00:30:42,919 --> 00:30:44,928
Apareceu na imprensa e foi tipo:
493
00:30:44,928 --> 00:30:49,208
"O basco foi o primeiro em algo,
foram os primeiros."
494
00:30:49,208 --> 00:30:50,466
(risos)
495
00:30:50,466 --> 00:30:53,318
E depois as pessoas perguntaram
"Mas para que serve isto?"
496
00:30:54,538 --> 00:30:56,749
Nós não temos uma boa resposta.
497
00:30:56,749 --> 00:30:57,888
Quer dizer, certo,
498
00:30:57,888 --> 00:31:01,841
isto vai ajudar computadores
a entender mais a nossa linguagem, sim.
499
00:31:01,841 --> 00:31:05,279
Mas que tipo de ferramentas
podemos fazer no futuro?
500
00:31:05,279 --> 00:31:07,407
E ainda não temos uma boa resposta.
501
00:31:07,407 --> 00:31:10,625
Portanto eu não sei
se vocês têm uma boa resposta para isto.
502
00:31:10,625 --> 00:31:12,742
(risos) Eu não sei
se eu tenho uma boa resposta,
503
00:31:12,742 --> 00:31:14,746
mas tenho uma resposta.
504
00:31:15,380 --> 00:31:20,225
Então, eu penso, neste momento,
como estava a dizer [inaudível],
505
00:31:20,225 --> 00:31:21,924
que ainda não chegámos à massa crítica
506
00:31:21,924 --> 00:31:25,529
onde podemos construir um monte
de ferramentas realmente interessantes.
507
00:31:25,529 --> 00:31:27,707
Mas já existem algumas ferramentas.
508
00:31:28,157 --> 00:31:31,692
No outro dia,
a Esther Pandalia, por exemplo,
509
00:31:31,692 --> 00:31:33,817
lançou uma ferramenta onde podemos ver,
510
00:31:35,587 --> 00:31:38,889
penso que eram as palavras num globo,
511
00:31:38,889 --> 00:31:41,901
onde eram faladas,
de onde tinham vindo.
512
00:31:42,461 --> 00:31:44,090
Posso estar errada sobre isto.
513
00:31:44,090 --> 00:31:46,286
Mas ela respondeu no chat
do projeto na Wikidata.
514
00:31:46,286 --> 00:31:48,984
Podem vê-lo ali.
515
00:31:49,574 --> 00:31:51,805
Então já vimos as primeiras ferramentas,
516
00:31:51,805 --> 00:31:55,696
tal como já vimos, no passado,
quando a Wikidata começou.
517
00:31:56,846 --> 00:31:59,602
Primeiro algumas... Como uma rede
518
00:31:59,602 --> 00:32:03,424
e depois "Olha, há aqui esta coisa
que liga a esta outra coisa."
519
00:32:04,734 --> 00:32:07,059
E à medida que temos mais dados
520
00:32:07,059 --> 00:32:10,352
e chegamos mais perto da massa crítica,
521
00:32:11,702 --> 00:32:14,747
tornam-se possíveis
aplicações mais poderosas.
522
00:32:15,607 --> 00:32:17,516
Coisas como a Histropedia,
523
00:32:19,036 --> 00:32:21,988
coisas como perguntas e respostas
524
00:32:21,988 --> 00:32:26,463
no vosso assistente pessoal digital,
Platypus e assim por diante.
525
00:32:26,463 --> 00:32:30,228
E estamos a ver
coisas semelhantes com os lexemas.
526
00:32:31,048 --> 00:32:34,650
Estamos num estágio em que
podemos construir estes pequenos:
527
00:32:34,650 --> 00:32:37,654
"Olha, há uma ligação
entre duas coisas
528
00:32:37,654 --> 00:32:42,618
e há uma tradução dessa palavra
para esse estágio de linguagem."
529
00:32:42,618 --> 00:32:47,687
E, à medida que construimos
e à medida que descrevemos mais palavras,
530
00:32:47,687 --> 00:32:49,443
mais se torna possível.
531
00:32:49,443 --> 00:32:51,795
Agora, o que é que isso torna possível?
532
00:32:53,322 --> 00:33:00,103
Como o Ben, o nosso orador de antes,
estava a dizer acerca de traduções,
533
00:33:00,103 --> 00:33:03,315
ser capaz de traduzir
de uma língua para outra.
534
00:33:03,315 --> 00:33:07,839
E Jens, outro colega,
que está sempre a falar sobre
535
00:33:07,839 --> 00:33:11,452
a União Europeia
andar sempre à procura de um tradutor
536
00:33:11,452 --> 00:33:17,319
que possa fazê-lo de,
penso que era maltês para sueco.
537
00:33:17,319 --> 00:33:19,027
- (plateia 8) Estónio.
- Estónio.
538
00:33:19,027 --> 00:33:20,027
(risos)
539
00:33:22,016 --> 00:33:26,211
E essa não é uma combinação usual.
540
00:33:27,111 --> 00:33:31,735
Mas assim que temos todas essas linguagens
num lugar passível de ser lido por máquina
541
00:33:31,735 --> 00:33:33,063
podemos fazer isso.
542
00:33:33,063 --> 00:33:36,857
Podemos obter um dicionário
543
00:33:36,857 --> 00:33:41,735
de estónio para maltês e vice-versa.
544
00:33:42,935 --> 00:33:45,607
Então, incluir combinações
de linguagens em dicionários
545
00:33:45,607 --> 00:33:47,791
que não foram incluídas antes
546
00:33:47,791 --> 00:33:51,050
porque não havia
procura suficiente para elas, por exemplo,
547
00:33:51,050 --> 00:33:55,380
para fazê-lo de forma financeiramente
viável e para justificar o trabalho.
548
00:33:55,380 --> 00:33:57,147
Agora podemos fazer isso.
549
00:33:59,607 --> 00:34:02,088
E depois a geração de texto.
550
00:34:02,088 --> 00:34:03,653
A Lucie estava a falar
551
00:34:03,653 --> 00:34:10,136
acerca de como ela está a trabalhar
com a Hattie em gerar textos
552
00:34:10,136 --> 00:34:14,673
para iniciar artigos na Wikipedia
em línguas minoritárias.
553
00:34:15,423 --> 00:34:19,382
Isso precisa de dados sobre palavras
554
00:34:19,382 --> 00:34:22,589
e precisamos perceber a língua
para fazer isso.
555
00:34:23,469 --> 00:34:28,133
Sim, e isto é só
o que me vem à cabeça agora.
556
00:34:28,573 --> 00:34:30,494
Talvez a nossa audiência tenha mais ideias
557
00:34:30,494 --> 00:34:34,353
do que querem fazer quando tivermos
todos esses gloriosos dados.
558
00:34:37,693 --> 00:34:40,772
(plateia 9) Vou-nos desviar
do tópico dos lexemas.
559
00:34:40,772 --> 00:34:42,536
Quero perguntar-vos algo.
560
00:34:42,536 --> 00:34:45,514
Como posso eu, como membro da comunidade
561
00:34:45,514 --> 00:34:49,925
influenciar que a prioridade
seja colocada na tarefa,
562
00:34:49,925 --> 00:34:56,644
que um utilizador novo venha, e possa
indicar que línguas quer ver e editar
563
00:34:56,644 --> 00:35:02,115
sem um qualquer conhecimento padrão
verbal secreto.
564
00:35:02,115 --> 00:35:04,893
Talvez haja, este ano,
uma lista técnica de desejos
565
00:35:04,893 --> 00:35:06,820
sem tópicos da Wikipedia.
566
00:35:06,820 --> 00:35:10,119
Talvez haja esperança
de que possamos votar acerca
567
00:35:10,119 --> 00:35:13,928
daquela coisa
que não arranjamos há sete anos.
568
00:35:13,928 --> 00:35:17,607
Tem alguma ideia
ou comentário sobre isso?
569
00:35:18,217 --> 00:35:20,198
Então, está a falar sobre o facto
570
00:35:20,198 --> 00:35:23,258
de alguém que não esteja ligado
à Wikidata
571
00:35:23,258 --> 00:35:25,391
não poder mudar
a sua linguagem facilmente?
572
00:35:25,391 --> 00:35:27,839
(plateia 9) Não, para novos utilizadores.
573
00:35:28,309 --> 00:35:30,689
Então, se estiverem ligados,
574
00:35:30,689 --> 00:35:34,871
eles podem mudar a sua língua
no topo da página.
575
00:35:35,891 --> 00:35:39,589
Depois, aparece onde...
576
00:35:39,599 --> 00:35:42,013
onde as descrições das etiquetas estão
577
00:35:42,013 --> 00:35:43,483
e podem editá-las.
578
00:35:45,507 --> 00:35:49,009
(plateia 9) Bem, na verdade, muitas vezes
o fluxo de trabalho é,
579
00:35:49,009 --> 00:35:52,217
se queremos ter
múltiplas línguas elas estão disponíveis,
580
00:35:52,217 --> 00:35:55,419
e nem sempre acontece.
581
00:35:55,419 --> 00:35:58,584
Talvez devamos sentar-nos
depois desta apresentação e mostra-me.
582
00:36:01,312 --> 00:36:04,089
Fixe. Mais questões?
583
00:36:05,394 --> 00:36:06,536
Sim.
584
00:36:11,415 --> 00:36:13,196
(plateia 10) Obrigado pela apresentação.
585
00:36:13,896 --> 00:36:15,127
Pode comentar
586
00:36:15,127 --> 00:36:19,307
acerca do estado da correlação
com a comunidade do Wiktionary.
587
00:36:19,307 --> 00:36:22,146
Do que eu tenho conseguido ver,
tem havido algumas discussões
588
00:36:22,146 --> 00:36:26,051
acerca de importar
alguns elementos do trabalho,
589
00:36:26,051 --> 00:36:30,333
mas parece haver algumas questões
de licenciamento e desentendimentos, etc.
590
00:36:30,333 --> 00:36:31,438
Certo.
591
00:36:31,438 --> 00:36:36,970
Então, as comunidades do Wiktionary
passaram muito tempo
592
00:36:36,970 --> 00:36:38,973
a construir o Wiktionary.
593
00:36:38,973 --> 00:36:42,643
Construiram
594
00:36:42,883 --> 00:36:47,304
padrões extremamente complicados
e complexos
595
00:36:47,304 --> 00:36:53,404
para construir as bonitas tabelas
que geram formulários para vocês
596
00:36:53,404 --> 00:36:56,392
e é tudo realmente impressionante,
597
00:36:56,392 --> 00:37:00,683
e um pouco louco,
se pensarmos bem nisso.
598
00:37:02,081 --> 00:37:07,994
E, é claro, investiram
muito tempo e esforço a fazê-lo.
599
00:37:09,204 --> 00:37:11,671
E, compreensivelmente,
600
00:37:11,671 --> 00:37:17,116
não querem que isso seja agarrado
601
00:37:17,936 --> 00:37:18,982
de qualquer maneira.
602
00:37:18,982 --> 00:37:21,791
Então, há um pouco disso, vindo daí.
603
00:37:21,791 --> 00:37:25,137
E está certo, tudo bem.
604
00:37:25,137 --> 00:37:31,782
Agora, as primeiras comunidades Wiktionary
estão a falar de mudar isso
605
00:37:31,782 --> 00:37:34,329
e importar alguns
dos dados deles para a Wikidata.
606
00:37:34,329 --> 00:37:39,095
O russo, por exemplo, como já viram,
é um desses casos
607
00:37:39,785 --> 00:37:42,355
e espero que mais aconteçam.
608
00:37:43,425 --> 00:37:46,640
Mas vai ser um processo lento,
609
00:37:46,640 --> 00:37:49,383
tal como a adopção
dos dados da Wikidata pela Wikipedia
610
00:37:49,383 --> 00:37:51,909
está a ser um processo bem lento.
611
00:37:52,699 --> 00:37:56,183
O outro lado é tentar que seja mais fácil
612
00:37:56,183 --> 00:37:59,132
usar os dados que estão nos lexemas,
613
00:37:59,132 --> 00:38:02,209
no Wiktionary, para que
possam fazer uso deles
614
00:38:02,209 --> 00:38:05,531
e partilhar dados entre
as Wiktionaries de linguagens.
615
00:38:05,531 --> 00:38:08,753
O que é super difícil neste momento,
616
00:38:08,753 --> 00:38:11,560
o que é de doidos,
tal como foi na Wikipedia.
617
00:38:13,720 --> 00:38:16,325
Esperem pelo presente de aniversário.
(risos)
618
00:38:19,918 --> 00:38:21,182
Sim.
619
00:38:22,519 --> 00:38:24,777
(plateia 11) Quando estava a pensar
sobre a outra forma,
620
00:38:24,777 --> 00:38:28,038
eu, na verdade, não o quis dizer
porque penso que pode ser super tolo.
621
00:38:28,038 --> 00:38:31,833
Mas acho que o Wiktionary
já tem algum conteúdo
622
00:38:31,833 --> 00:38:34,978
e eu sei que
não pode ser transferido para a Wikidata
623
00:38:34,978 --> 00:38:37,048
por causa das diferenças de licenças.
624
00:38:37,048 --> 00:38:39,631
Mas estava a pensar que talvez
possamos fazer algo acerca disso.
625
00:38:40,161 --> 00:38:45,473
Talvez obter permissão das comunidades
626
00:38:45,473 --> 00:38:51,205
depois de, não sei,
haver uma votação pública
627
00:38:51,825 --> 00:38:55,642
de forma a que comunidade,
os seus membros ativos,
628
00:38:55,642 --> 00:39:02,523
votem e digam se querem
ou não aceitar a transferência de conteúdo
629
00:39:02,523 --> 00:39:05,528
para a qual podem fazer
os lexemas da Wikidata.
630
00:39:06,148 --> 00:39:08,537
Porque penso que é um desperdício.
631
00:39:09,528 --> 00:39:14,273
Então, isso é definitivamente
uma conversa que essas pessoas,
632
00:39:14,273 --> 00:39:18,249
que estão nas comunidades Wiktionary,
podem ter lá.
633
00:39:18,249 --> 00:39:24,647
Penso que seria um pouco presunçoso
da nossa parte forçarmos isso.
634
00:39:25,767 --> 00:39:31,032
Mas sim, penso que, definitivamente,
vale a pena ter essa conversa.
635
00:39:31,032 --> 00:39:33,898
Mas eu penso que também
é importante entender
636
00:39:33,898 --> 00:39:38,962
que há uma distinção entre
o que é legalmente permitido
637
00:39:38,962 --> 00:39:43,057
e o que devíamos estar a fazer
638
00:39:43,057 --> 00:39:45,426
e o que as essas pessoas querem ou não.
639
00:39:45,736 --> 00:39:47,329
Portanto, mesmo se for legal,
640
00:39:47,329 --> 00:39:50,640
se algumas das comunidades Wiktionary
não o quiserem,
641
00:39:50,640 --> 00:39:53,537
eu teria cuidado, no mínimo.
642
00:39:58,766 --> 00:40:02,489
Penso que precisamos do microfone
para o vídeo.
643
00:40:04,380 --> 00:40:07,299
(plateia 12) Obviamente,
isto é tudo muito excitante
644
00:40:07,849 --> 00:40:12,169
e penso imediatamente em como
levar isto aos meus estudantes,
645
00:40:12,169 --> 00:40:15,288
como posso incorporar isto nos cursos,
646
00:40:15,288 --> 00:40:18,531
no trabalho que estamos a fazer,
ambientes educacionais.
647
00:40:18,531 --> 00:40:22,271
E não tenho, neste momento,
648
00:40:22,791 --> 00:40:24,116
primeiro, conhecimento,
649
00:40:24,116 --> 00:40:27,278
mas acho que a documentação
que temos
650
00:40:27,768 --> 00:40:29,992
pode ser melhorada.
651
00:40:29,992 --> 00:40:33,437
Portanto, isto é um pedido
para fazerem vídeos fixes
652
00:40:33,437 --> 00:40:35,898
que expliquem como funciona.
653
00:40:35,898 --> 00:40:39,948
Porque, se os tivermos, podemos usá-los,
654
00:40:39,948 --> 00:40:41,985
podemos ter estudantes a bordo
655
00:40:41,985 --> 00:40:46,952
e podemos fazer as pessoas entender
quão espetacular é.
656
00:40:46,952 --> 00:40:51,891
Sim, pensem na documentação
e pensem na educação, por favor.
657
00:40:51,891 --> 00:40:54,440
Porque penso que muito pode ser feito.
658
00:40:54,440 --> 00:40:58,585
Estas são pequenas tarefas
que podem ser feitas mesmo com...
659
00:41:00,125 --> 00:41:02,033
bem, não direi escolas primárias,
660
00:41:02,033 --> 00:41:05,495
mas certamente até com estudantes jovens.
661
00:41:05,765 --> 00:41:10,646
E, portanto, gostaria mesmo de ver
esse potencial a ser aproveitado
662
00:41:10,646 --> 00:41:15,172
e, neste momento, eu, pessoalmente,
não entendo o suficiente
663
00:41:15,172 --> 00:41:19,500
para conseguir criar tarefas
ou para criar tipo...
664
00:41:20,200 --> 00:41:22,155
para fazer algo prático com isto.
665
00:41:22,155 --> 00:41:25,772
Portanto, qualquer ajuda, ideias
que alguém tenha acerca disso,
666
00:41:25,772 --> 00:41:29,648
estou completamente disponível para ouvir
tudo o que tenham em mente.
667
00:41:30,328 --> 00:41:32,129
Sim, vamos falar sobre isso.
668
00:41:35,273 --> 00:41:37,139
Mais questões?
669
00:41:37,569 --> 00:41:39,065
Mais alguém tinha levantado a mão.
670
00:41:39,065 --> 00:41:40,495
Esqueci-me de quem foi.
671
00:41:45,739 --> 00:41:49,866
(plateia 13) Então, se não conseguimos
importar a partir do Wiktionary,
672
00:41:49,866 --> 00:41:55,772
há algum esforço concertado para
achar outras fontes de domínio público,
673
00:41:55,772 --> 00:41:57,459
talvez dados mais antigos,
674
00:41:58,769 --> 00:42:03,167
e filtrá-los previamente, organizá-los
675
00:42:03,167 --> 00:42:08,470
para que seja fácil a sua verificação,
por pessoas, para importação?
676
00:42:08,993 --> 00:42:11,131
Então, foram feitos esforços iniciais.
677
00:42:11,131 --> 00:42:14,649
Penso que o basco é um desses esforços.
678
00:42:14,649 --> 00:42:17,474
Talvez queiras dizer
algo sobre isso?
679
00:42:18,426 --> 00:42:20,130
(plateia 14) [inaudível]
680
00:42:23,026 --> 00:42:27,148
Certo, a resposta é
pagando por isso...
681
00:42:28,204 --> 00:42:33,381
Temos um acordo
com um fornecedor com quem trabalhamos.
682
00:42:34,661 --> 00:42:38,725
Eles fazem dicionários, outros...
683
00:42:40,315 --> 00:42:42,458
montes de coisas, mas fazem dicionários.
684
00:42:42,458 --> 00:42:47,473
Temos um acordo com eles para
tornar grátis os dicionários estudantis.
685
00:42:47,473 --> 00:42:52,622
Nós transmitiríamos as palavras
mais comuns e começaríamos a carregá-las
686
00:42:52,622 --> 00:42:55,590
com um identificador externo
e esse tipo de coisas.
687
00:42:56,090 --> 00:43:02,702
Mas houve alguma discussão
acerca de deixá-lo no CC0,
688
00:43:02,702 --> 00:43:05,322
porque eles têm
um dicionário com CC por ele,
689
00:43:05,947 --> 00:43:10,066
e perceberam qual era a diferença.
690
00:43:10,066 --> 00:43:13,726
Portanto, houve alguma discussão.
691
00:43:13,726 --> 00:43:19,499
Mas penso que podemos providenciar algumas
ferramentas ou exemplos, no futuro,
692
00:43:19,499 --> 00:43:21,761
e penso que haverá outros dicionários
693
00:43:21,761 --> 00:43:23,826
que podemos gerir.
694
00:43:23,826 --> 00:43:29,274
E também penso que o Wiktionary
deveria ir nessa direção,
695
00:43:29,274 --> 00:43:32,260
mas isso é outra grande discussão.
696
00:43:33,015 --> 00:43:34,447
E, para além disso,
697
00:43:34,447 --> 00:43:38,699
a Lea está também em contacto
com pessoas da Occitan,
698
00:43:38,699 --> 00:43:41,767
que trabalham nos dicionários Occitan,
699
00:43:41,767 --> 00:43:45,138
e eles estão atualmente a trabalhar
numa colaboração suméria.
700
00:43:51,374 --> 00:43:53,363
Mais questões?
701
00:44:01,307 --> 00:44:05,179
(plateia 15) Olá. Nós somos as pessoas
que querem importar dados da Occitan.
702
00:44:05,179 --> 00:44:06,405
Perfeito!
703
00:44:06,405 --> 00:44:09,188
(plateia 15) E temos
um pequeno problema para...
704
00:44:09,188 --> 00:44:14,135
Nós não sabemos como representar
toda a variedade de lexemas.
705
00:44:14,135 --> 00:44:17,493
Temos seis dialetos
706
00:44:17,493 --> 00:44:23,904
e queremos indicar, para o lexema,
em que dialeto é usado
707
00:44:23,904 --> 00:44:27,175
e não temos a declaração CO
apropriada para isso.
708
00:44:27,175 --> 00:44:31,105
Portanto, enquanto o segmento não existir,
709
00:44:31,525 --> 00:44:34,365
não conseguimos [inaudível]
710
00:44:34,365 --> 00:44:37,603
porque vamos precisar de fazê-lo outra vez
711
00:44:37,603 --> 00:44:41,946
quando estivermos em condições
de exportar a declaração.
712
00:44:41,946 --> 00:44:44,471
E é complicado
porque é uma declaração
713
00:44:44,471 --> 00:44:47,802
que não vai ser pedida por muita gente
714
00:44:47,802 --> 00:44:53,444
porque é uma declaração que diz respeito
principalmente a línguas minoritárias.
715
00:44:53,444 --> 00:44:56,803
Então teremos uma pessoa a pedir isto.
716
00:44:56,803 --> 00:44:59,962
Mas, como no caso
dos nossos colegas Bascos,
717
00:44:59,962 --> 00:45:06,082
pode ser uma pessoa
que ajudará milhares de outros.
718
00:45:06,082 --> 00:45:10,884
Portanto, pode não parecer importante,
719
00:45:10,884 --> 00:45:14,136
mas será muito importante para nós.
720
00:45:14,524 --> 00:45:17,600
Vocês já têm a nova proposta
de propriedade a funcionar,
721
00:45:17,600 --> 00:45:19,470
ou precisam de ajuda para criá-la?
722
00:45:21,244 --> 00:45:24,300
(plateia 15) Fizemos o pedido
há quatro meses.
723
00:45:24,300 --> 00:45:28,755
Certo, então vamos arranjar pessoal
para ajudar com essa proposta.
724
00:45:29,959 --> 00:45:33,092
De certeza que há pessoas suficentes
nesta sala para isso se realizar.
725
00:45:33,092 --> 00:45:35,992
(plateia 15) Proposta de propriedade
[em francês].
726
00:45:35,992 --> 00:45:39,479
Nós não tivemos resposta
e não sabemos fazê-lo
727
00:45:39,479 --> 00:45:42,953
porque não somos da comunidade Wikidata.
728
00:45:44,514 --> 00:45:48,697
Sim, então há aqui pessoas
que vos podem ajudar.
729
00:45:48,697 --> 00:45:52,134
Talvez alguém levante a mão
para ficar...
730
00:45:52,134 --> 00:45:53,454
(plateia 14) Sou a favor.
731
00:45:53,454 --> 00:45:55,512
Mas penso que é muito interessante
732
00:45:55,512 --> 00:45:58,939
que apenas a variante de forma
733
00:45:58,939 --> 00:46:02,607
também o possa gerir geograficamente,
734
00:46:02,607 --> 00:46:04,995
com coordenadas
ou algum tipo de mapeamento.
735
00:46:05,485 --> 00:46:07,815
Também tendo diferentes pronúncias
736
00:46:07,815 --> 00:46:11,837
e penso que é algo
que acontece em muitas línguas.
737
00:46:12,517 --> 00:46:16,112
Deveríamos trabalhar para isso
acontecer de alguma forma
738
00:46:16,112 --> 00:46:18,865
e eu vou procurar a propriedade.
739
00:46:19,652 --> 00:46:20,773
Fixe.
740
00:46:20,773 --> 00:46:24,446
Então, vocês terão apoio
para a vossa proposta de propriedade.
741
00:46:25,996 --> 00:46:27,297
Obrigado.
742
00:46:27,962 --> 00:46:30,261
Mais alguma questão?
743
00:46:32,210 --> 00:46:33,474
Finn.
744
00:46:33,784 --> 00:46:35,055
O Finn é uma daquelas pessoas
745
00:46:35,055 --> 00:46:37,531
que constrói coisas
tendo como base dados lexicográficos.
746
00:46:37,531 --> 00:46:40,285
(Finn) É só uma pequena questão,
747
00:46:40,285 --> 00:46:44,226
e é sobre variações de ortografia.
748
00:46:44,896 --> 00:46:48,242
Parece difícil pô-las em...
749
00:46:48,242 --> 00:46:53,838
Poderíamos, claro,
ter múltiplas formas para a mesma palavra.
750
00:46:55,627 --> 00:46:58,448
Não sei, parece ser...
751
00:46:59,328 --> 00:47:03,535
Se não o fizeres dessa forma,
parece ser difícil especificar...
752
00:47:04,521 --> 00:47:05,888
ou, não sei se
753
00:47:05,888 --> 00:47:09,591
é apenas um problema técnico menor
ou se...
754
00:47:09,591 --> 00:47:11,332
Vamos olhar para isso juntos.
755
00:47:11,332 --> 00:47:15,230
Adoraria ver um exemplo.
756
00:47:17,248 --> 00:47:18,478
Asaf.
757
00:47:26,666 --> 00:47:28,396
(Asaf) Obrigado.
758
00:47:29,216 --> 00:47:33,685
Posso dar um exemplo concreto
da minha língua, o hebreu.
759
00:47:34,125 --> 00:47:38,685
O Hebreu tem duas variantes principais
760
00:47:38,685 --> 00:47:42,646
para expressar quase todas as palavras,
761
00:47:42,646 --> 00:47:47,520
porque a ortografia tradicional
762
00:47:47,520 --> 00:47:50,044
deixa de parte muitas vogais.
763
00:47:50,814 --> 00:47:54,987
E, assim sendo, nas edições modernas
da Bíblia e de poesia,
764
00:47:54,987 --> 00:47:57,265
são usados os diacríticos.
765
00:47:57,265 --> 00:48:02,560
Por outro lado, os diacríticos
nunca são usados na prosa moderna
766
00:48:02,560 --> 00:48:05,734
ou imprensa escrita ou toponímia.
767
00:48:05,734 --> 00:48:11,209
Então, a utilização casual diária
usa as vogais extra
768
00:48:12,049 --> 00:48:13,519
e não usa os diacríticos.
769
00:48:13,519 --> 00:48:15,607
Porque eles são,
obviamente, mais complicados
770
00:48:15,607 --> 00:48:17,893
e têm todo o tipo de regras
e ninguém sabe as regras.
771
00:48:18,393 --> 00:48:20,531
- (risos)
- Então, há duas variantes.
772
00:48:20,531 --> 00:48:25,222
Há a variante casual para prosa
773
00:48:25,222 --> 00:48:27,827
e há a da Bíblia e da poesia.
774
00:48:27,827 --> 00:48:32,200
que vem sempre
no tradicional texto diacriticizado.
775
00:48:32,200 --> 00:48:33,302
Para ser útil,
776
00:48:33,302 --> 00:48:37,428
o lexema teria que reconhecer
ambas as variantes de cada palavra
777
00:48:37,428 --> 00:48:39,747
e cada forma
de cada palavra.
778
00:48:40,477 --> 00:48:43,391
Portanto, esse é um caso de utilização
muito abrangente
779
00:48:43,391 --> 00:48:46,250
para variantes oficiais estáveis.
780
00:48:46,250 --> 00:48:49,262
Não é dialeto, não é regional,
781
00:48:49,262 --> 00:48:53,627
são, basicamente, dois sistemas
morfológicos coexistentes.
782
00:48:54,427 --> 00:48:58,786
E eu também não sei exatamente
como expressar isso no lexema, agora,
783
00:48:58,786 --> 00:49:02,800
o que é uma das coisas que me impede,
em resposta parcial à pergunta do Magnus,
784
00:49:02,800 --> 00:49:05,238
de carregar as partes que estão prontas
785
00:49:05,238 --> 00:49:09,394
do maior dicionário Hebreu,
que é de domínio público
786
00:49:09,394 --> 00:49:12,927
e que tenho andar a digitalizar
há vários anos.
787
00:49:12,927 --> 00:49:14,723
Uma grande porção está pronta,
788
00:49:14,723 --> 00:49:16,459
mas não o ponho no lexema agora
789
00:49:16,459 --> 00:49:20,115
porque, basicamente, não sei
como resolver este problema.
790
00:49:20,115 --> 00:49:23,387
Está bem, vamos resolver
este problema aqui. (risos)
791
00:49:24,303 --> 00:49:26,021
Tem de ser possível.
792
00:49:29,875 --> 00:49:32,047
Mais perguntas?
793
00:49:37,003 --> 00:49:39,735
Se não, então muito obrigada.
794
00:49:40,435 --> 00:49:44,915
(aplausos)