WEBVTT
00:00:06.303 --> 00:00:07.362
(Lydia) Muito obrigada.
00:00:07.362 --> 00:00:11.244
Então, nesta conferência,
um dos grandes temas são as linguagens.
00:00:11.244 --> 00:00:13.710
Então...
00:00:13.710 --> 00:00:18.368
Quero dar-vos uma visão geral
de onde estamos atualmente
00:00:18.368 --> 00:00:19.734
no que diz respeito a linguagens
00:00:19.734 --> 00:00:22.167
e para onde podemos ir daqui.
00:00:28.956 --> 00:00:32.580
A Wikidada pretende dar a mais pessoas
mais acesso a mais conhecimento
00:00:32.580 --> 00:00:37.168
e a linguagem é uma parte muito importante
para tornar isso realidade.
00:00:38.115 --> 00:00:43.291
Especialmente, porque cada vez mais
as nossas vidas dependem da tecnologia.
00:00:44.114 --> 00:00:48.873
E, como um dos palestrantes
mencionou há pouco,
00:00:49.613 --> 00:00:51.588
alguma da tecnologia
deixa as pessoas para trás
00:00:51.588 --> 00:00:55.020
simplesmente porque
não falam determinada linguagem,
00:00:55.320 --> 00:00:57.573
o que não está correto.
00:00:58.473 --> 00:01:02.097
Então, nós queremos fazer algo
em relação a isso.
00:01:02.927 --> 00:01:05.841
E, de forma a mudar isso,
precisamos de pelos menos duas coisas.
00:01:06.321 --> 00:01:11.270
Primeiro, providenciar conteúdo
na língua nativa das pessoas
00:01:11.270 --> 00:01:12.955
e, segundo,
00:01:12.955 --> 00:01:15.770
providenciar
interação na sua língua,
00:01:15.770 --> 00:01:19.189
nas aplicações
ou seja no que for que tenham.
00:01:20.367 --> 00:01:25.277
A Wikidata ajuda em ambas as coisas.
00:01:25.277 --> 00:01:28.408
Em relação à primeira,
conteúdo na sua língua,
00:01:28.408 --> 00:01:30.879
isso é basicamente o que temos
nos itens e propriedades,
00:01:31.319 --> 00:01:33.082
como descrevemos o mundo.
00:01:33.082 --> 00:01:35.085
Isto não é, certamente,
tudo o que é preciso,
00:01:35.085 --> 00:01:39.294
mas já dá uma ajuda considerável.
00:01:39.614 --> 00:01:41.847
A outra coisa,
interação na sua língua,
00:01:41.847 --> 00:01:46.389
é onde os lexemas entram em jogo
00:01:46.389 --> 00:01:49.382
se quiserem falar
com o vosso assistente pessoal digital,
00:01:49.382 --> 00:01:54.918
ou se quiserem que o vosso dispositivo
traduza um texto e afins.
00:01:56.404 --> 00:01:59.254
Tudo bem, vamos olhar para
conteúdo na sua língua.
00:01:59.254 --> 00:02:03.396
O que temos em itens e propriedades?
00:02:05.406 --> 00:02:09.696
Para isto, as etiquetas nesses itens
e propriedades são cruciais.
00:02:10.236 --> 00:02:14.866
Precisamos de saber como se chama
esta entidade de que estamos a falar.
00:02:15.656 --> 00:02:19.847
E, em vez de falarmos sobre Q5...
00:02:19.847 --> 00:02:22.180
Alguém que fale inglês
sabe que isso é um "humano",
00:02:22.180 --> 00:02:24.706
alguém que fale alemão
sabe que é um "mensch",
00:02:24.706 --> 00:02:26.374
e por aí adiante.
00:02:26.374 --> 00:02:29.742
Então, estas etiquetas
nos itens e propriedades
00:02:29.742 --> 00:02:33.619
estão a fechar as brechas
entre humanos e máquinas
00:02:33.619 --> 00:02:35.439
e entre humanos e humanos.
00:02:35.439 --> 00:02:40.115
Fazendo com que mais conhecimento
esteja acessível para eles.
00:02:43.270 --> 00:02:46.290
Isso é um bom objetivo.
00:02:46.290 --> 00:02:48.342
Mas qual é o aspeto disso?
00:02:48.342 --> 00:02:49.607
Bem, é este.
00:02:50.947 --> 00:02:52.416
O que estão a ver aqui
00:02:52.416 --> 00:02:58.496
é que a maioria dos items
na Wikidata tem duas etiquetas,
00:02:58.496 --> 00:03:00.767
portanto, são etiquetados em duas línguas.
00:03:01.697 --> 00:03:03.851
Depois disso, é um, e depois três
00:03:03.851 --> 00:03:06.115
e depois fica muito triste.
00:03:06.781 --> 00:03:08.581
(riso tímido)
00:03:10.047 --> 00:03:12.713
Eu penso que temos que fazer melhor.
00:03:14.185 --> 00:03:15.319
Mas, por outro lado,
00:03:15.319 --> 00:03:17.478
eu, na verdade, estava à espera
de muito pior.
00:03:17.478 --> 00:03:19.560
Estava à espera que a média fosse um.
00:03:19.560 --> 00:03:22.503
Portanto, fiquei
bastante contente em ver dois. (risos)
00:03:24.921 --> 00:03:26.186
Certo.
00:03:27.156 --> 00:03:29.527
Mas, o interessante não é só saber
00:03:29.527 --> 00:03:33.742
quantas etiquetas os nossos items
e propriedades têm,
00:03:33.742 --> 00:03:36.565
também é interessante ver
em que línguas.
00:03:38.045 --> 00:03:43.764
Aqui têm um gráfico das línguas
00:03:43.764 --> 00:03:46.838
que têm etiquetas para itens.
00:03:46.838 --> 00:03:50.669
A maior parte é Outra.
00:03:51.229 --> 00:03:53.863
Então, peguei nas 100 maiores línguas
00:03:54.483 --> 00:03:58.902
e tudo o resto são Outras,
para que o gráfico se perceba.
00:03:59.542 --> 00:04:02.142
Depois, há inglês e holandês,
00:04:03.002 --> 00:04:04.254
francês,
00:04:05.924 --> 00:04:09.129
e não nos esqueçamos do... asturiano.
00:04:09.659 --> 00:04:11.889
- (plateia 1) (grito de entusiasmo)
- De facto!
00:04:13.899 --> 00:04:16.954
Então, podem ver que há aqui
um considerável desequilíbrio
00:04:16.954 --> 00:04:20.114
e o foco ainda se mantém muito no inglês.
00:04:21.236 --> 00:04:24.367
Outra coisa que notamos
é que nas Propriedades,
00:04:24.367 --> 00:04:25.999
as coisas estão bem melhores.
00:04:27.399 --> 00:04:32.750
E penso que, em parte, isso deve-se
a haver muito menos propriedades.
00:04:32.750 --> 00:04:36.770
Então, mesmo comunidades menores
têm hipótese de se manter a par.
00:04:36.770 --> 00:04:39.173
Mas também é uma parte importante
da Wikidata,
00:04:39.173 --> 00:04:41.159
a localização na tua própria língua.
00:04:41.159 --> 00:04:42.384
Portanto, isso é bom.
00:04:45.752 --> 00:04:47.842
O que quero salientar aqui
com o asturiano
00:04:47.842 --> 00:04:53.698
é que uma comunidade pequena
pode realmente fazer uma enorme diferença
00:04:54.448 --> 00:04:57.085
com alguma dedicação e trabalho,
00:04:57.085 --> 00:04:58.420
o que é muito fixe.
00:05:01.846 --> 00:05:03.530
Uma pequena pergunta para vocês.
00:05:03.530 --> 00:05:05.493
Se pegarmos em todas as propriedades
na Wikidata,
00:05:05.493 --> 00:05:07.687
que não são indentificadores externos,
00:05:07.687 --> 00:05:10.358
qual é o que tem mais etiquetas,
o maior número de linguagens?
00:05:10.767 --> 00:05:13.717
(plateia) [inaudível]
00:05:13.717 --> 00:05:16.786
Ouço algum acordo em instância de?
00:05:17.316 --> 00:05:19.443
Estariam errados.
00:05:19.873 --> 00:05:22.210
É imagem. (risos)
00:05:23.160 --> 00:05:26.366
Então, sim, isso diz-vos,
se falarem uma destas línguas
00:05:26.366 --> 00:05:28.621
nas quais instância de
ainda não tem etiqueta,
00:05:28.621 --> 00:05:30.190
que poderão querer adicioná-la.
00:05:31.642 --> 00:05:35.676
Tem, neste momento, 148 etiquetas.
00:05:37.688 --> 00:05:41.249
Mas isso é outro slide.
00:05:42.631 --> 00:05:44.162
Este gráfico diz-nos algo
00:05:44.162 --> 00:05:49.321
sobre quanto conteúdo estamos a tornar
disponível numa certa língua
00:05:49.321 --> 00:05:52.042
e quanto conteúdo
é realmente utilizado.
00:05:52.042 --> 00:05:55.448
Então, o que temos aqui
é basicamente uma curva
00:05:55.448 --> 00:06:00.987
com a maior parte do conteúdo com
etiquetas em inglês, disponível em inglês
00:06:01.507 --> 00:06:04.295
e a ser muito usado.
00:06:04.295 --> 00:06:06.449
E depois, isto meio que baixa.
00:06:06.449 --> 00:06:09.436
Mas, novamente, o que podem ver
são os valores atípicos
00:06:09.436 --> 00:06:15.333
que têm muito mais conteúdo
do que seria de esperar
00:06:16.663 --> 00:06:19.539
e isso é mesmo muito bom.
00:06:20.739 --> 00:06:24.945
O problema é que não é tão utilizado.
00:06:25.565 --> 00:06:28.742
Asturiano e holandês
deveriam ser mais altos.
00:06:28.742 --> 00:06:31.994
Acho que, ajudar essas comunidades
00:06:33.266 --> 00:06:35.493
a aumentar o uso
dos dados que coletaram,
00:06:35.493 --> 00:06:37.682
é uma coisa realmente útil de se fazer.
00:06:42.910 --> 00:06:46.801
O que esta análise e outras
nos mostraram é uma coisa boa,
00:06:46.801 --> 00:06:51.378
embora estejamos a ver que os itens
que são mais utilizados
00:06:51.378 --> 00:06:55.295
também tendem a ter mais etiquetas
00:06:55.295 --> 00:06:58.188
ou ao contrário.
Não é completamente claro.
00:07:02.513 --> 00:07:04.376
E então, a questão é:
00:07:04.806 --> 00:07:07.009
estamos a servir
apenas as linguagens poderosas?
00:07:07.899 --> 00:07:11.147
Ou conseguimos fazê-lo para todos?
00:07:12.757 --> 00:07:17.743
O que vêm aqui
é um agrupamento das linguagens.
00:07:17.743 --> 00:07:21.832
As linguagens que estão agrupadas
tendem a ter etiquetas juntas.
00:07:26.042 --> 00:07:28.599
E conseguimos vê-las a aglomerarem-se.
00:07:28.599 --> 00:07:34.065
Agora, temos aqui
um aglomerado similar, colorido,
00:07:34.065 --> 00:07:39.475
baseado em quão viva, quão usada,
00:07:40.455 --> 00:07:43.156
quão ameaçada a linguagem está.
00:07:43.156 --> 00:07:44.642
E uma coisa boa que vemos aqui,
00:07:44.642 --> 00:07:49.566
é que linguagens seguras
e ameaçadas
00:07:49.566 --> 00:07:53.773
não formam dois aglomerados diferentes.
00:07:53.773 --> 00:07:58.872
Elas misturam-se,
00:08:00.262 --> 00:08:04.545
o que é muito melhor do que seria
se fosse ao contrário
00:08:04.545 --> 00:08:09.377
onde as linguagens seguras,
as linguagens poderosas,
00:08:10.197 --> 00:08:12.164
estariam apenas a ajudar-se entre elas.
00:08:12.594 --> 00:08:14.356
Não, não é esse o caso.
00:08:14.356 --> 00:08:17.417
E isso é uma coisa ótima.
00:08:17.417 --> 00:08:20.042
Quando vi isto,
pensei que isto era muito bom.
00:08:23.474 --> 00:08:25.169
Aqui está uma coisa similar,
00:08:26.239 --> 00:08:28.800
onde olhamos para
00:08:30.230 --> 00:08:34.222
os estados das linguagens,
00:08:34.222 --> 00:08:36.225
para quantas etiquetas têm.
00:08:39.367 --> 00:08:42.937
O que estão a ver é uma clara vantagem
para as linguagens seguras,
00:08:42.937 --> 00:08:44.248
como seria de esperar.
00:08:45.508 --> 00:08:46.693
Mas também estão a ver
00:08:46.693 --> 00:08:54.407
que as linguagens na categoria dois,
e três e até mesmo quatro
00:08:54.407 --> 00:08:59.280
não estão, na verdade, nada mal
00:08:59.280 --> 00:09:02.367
em termos de representação
na Wikidata e em outros.
00:09:03.287 --> 00:09:06.408
É uma coisa muito boa de se encontrar.
00:09:07.646 --> 00:09:09.129
Agora, se olharmos para a mesma coisa
00:09:09.129 --> 00:09:12.418
para quanto do conteúdo
dessas etiquetas
00:09:12.418 --> 00:09:15.495
é atualmente usado
na Wikipedia, por exemplo,
00:09:17.455 --> 00:09:22.563
emerge uma imagem semelhante.
00:09:23.603 --> 00:09:29.813
E diz-nos que estas comunidades
estão a fazer um bom uso do tempo
00:09:29.813 --> 00:09:34.504
preenchendo as etiquetas
para os itens mais usados, por exemplo.
00:09:36.410 --> 00:09:40.493
Há valores atípicos
onde penso que podemos ajudar...
00:09:41.683 --> 00:09:48.202
Ajudar as comunidades a encontrar sítios
onde o seu trabalho será mais valioso.
00:09:49.312 --> 00:09:52.663
Mas, no geral, estou contente
com este panorama.
00:09:54.823 --> 00:09:59.844
Agora, isto foram os itens
e as propriedades da Wikidata.
00:10:00.714 --> 00:10:03.033
Agora vamos olhar para a interação
nas vossas línguas.
00:10:03.033 --> 00:10:05.203
Portanto as porções do lexema
da Wikidata
00:10:05.203 --> 00:10:09.394
onde nós descrevemos palavras
e as suas formas e significados.
00:10:10.167 --> 00:10:13.301
Andamos a fazer isso
desde Maio do ano passado
00:10:16.391 --> 00:10:19.127
e o conteúdo tem aumentado.
00:10:19.434 --> 00:10:22.149
Podem ver aqui em azul os lexemas
00:10:22.149 --> 00:10:25.938
e a vermelho,
as formas nesses lexemas
00:10:25.938 --> 00:10:29.910
e a amarelo, os sentidos
nesses lexemas.
00:10:30.991 --> 00:10:34.451
Então algumas comunidades--
já voltaremos a isso mais tarde--
00:10:34.451 --> 00:10:39.793
dispenderam muito tempo a criar formas
e sentidos para os seus lexemas,
00:10:39.793 --> 00:10:42.753
o que é muito útil
00:10:42.753 --> 00:10:48.243
porque constrói o núcleo
dos conjuntos de dados que precisamos.
00:10:50.562 --> 00:10:55.133
Agora, olhamos para todas as línguas
00:10:55.133 --> 00:10:57.906
que têm lexemas na Wikidata.
00:10:57.906 --> 00:11:01.003
Portanto, palavras que nós temos.
00:11:01.713 --> 00:11:04.404
Há, agora, 310 línguas.
00:11:04.884 --> 00:11:08.290
Agora, qual é que acham que é
a língua que está no topo
00:11:08.290 --> 00:11:11.949
quando falamos em número de lexemas
neste momento na Wikidata?
00:11:12.813 --> 00:11:19.073
(Plateia) [inaudível]
00:11:19.073 --> 00:11:20.146
O quê?
00:11:20.146 --> 00:11:21.741
(Plateia 2) Alemão.
00:11:21.741 --> 00:11:24.142
Desculpe, já o tinha ouvido antes.
00:11:24.142 --> 00:11:25.651
É Russo.
00:11:27.691 --> 00:11:29.754
O Russo está bastante à frente.
00:11:31.647 --> 00:11:33.832
E, para vos dar alguma perspetiva,
00:11:35.652 --> 00:11:36.816
há diferentes opiniões
00:11:36.816 --> 00:11:42.231
mas li, por exemplo,
que entre 1 000 e 3 000 palavras
00:11:42.231 --> 00:11:45.450
chegam para chegar
ao nível conversacional noutra língua
00:11:45.450 --> 00:11:49.461
e que entre 4 000 a 10 000 palavras
chegam para o nível avançado.
00:11:51.591 --> 00:11:55.282
Então, ainda temos um pouco
para pôr em dia.
00:11:58.483 --> 00:12:03.279
Uma coisa à qual quero
que prestem atenção é ao basco
00:12:03.279 --> 00:12:07.744
com, aproximadamente, 10 000 lexemas.
00:12:09.244 --> 00:12:13.003
Agora, se olharem para o número de formas
nesses lexemas,
00:12:14.013 --> 00:12:16.497
o basco está lá em cima,
00:12:18.137 --> 00:12:20.006
o que é bastante fixe.
00:12:20.006 --> 00:12:24.930
Deviam ir a uma palestra que vos explique
o porquê desta situação.
00:12:27.181 --> 00:12:31.175
Agora, olhando para o número de sentidos,
para o que as palavras querem dizer,
00:12:32.015 --> 00:12:35.081
o basco chega mesmo ao topo da lista.
00:12:35.081 --> 00:12:37.102
Eu acho que merece um aplauso.
00:12:37.102 --> 00:12:40.861
(aplausos)
00:12:45.678 --> 00:12:47.118
Outra pequena pergunta.
00:12:47.118 --> 00:12:50.181
Qual é o lexema com o maior número
de traduções neste momento?
00:12:50.651 --> 00:12:56.676
(Plateia) Gatos, gatos, [inaudível],
Douglas Adams, [inaudível].
00:12:56.676 --> 00:13:00.014
Todos bons palpites, mas não.
00:13:00.882 --> 00:13:04.137
É esta, a palavra para "água", em russo.
00:13:09.571 --> 00:13:12.253
Já falámos muito
00:13:12.253 --> 00:13:16.412
sobre quantos lexemas,
formas e sentidos temos,
00:13:16.412 --> 00:13:20.493
mas isso é apenas uma parte
do que precisamos.
00:13:20.493 --> 00:13:21.515
A outra parte
00:13:21.515 --> 00:13:25.161
é descrever os lexemas,
formas e sentidos,
00:13:25.161 --> 00:13:27.647
de uma forma que as máquinas possam ler.
00:13:27.647 --> 00:13:30.039
E para isso temos declarações,
tal como nos itens.
00:13:31.479 --> 00:13:36.362
E uma das propriedades
que usamos é o exemplo de utilização.
00:13:36.362 --> 00:13:38.582
Portanto quem quer que esteja
a usar os dados
00:13:38.582 --> 00:13:42.089
pode entender como usar
a palavra no contexto,
00:13:42.089 --> 00:13:44.158
pode ser uma citação, por exemplo.
00:13:45.396 --> 00:13:47.113
E aqui, o polaco reina.
00:13:47.900 --> 00:13:49.764
Bom trabalho falantes de polaco.
00:13:54.219 --> 00:13:57.680
Outra propriedade
que é mesmo útil é IPA,
00:13:57.680 --> 00:14:00.186
logo, como é que se pronuncia uma palavra.
00:14:00.876 --> 00:14:07.497
O russo, aparentemente, precisa
imenso de declarações IPA.
00:14:10.219 --> 00:14:13.314
Mas, novamente, polaco em segundo.
00:14:17.148 --> 00:14:20.753
E, por último, mas não menos importante,
temos a pronunciação áudio.
00:14:20.753 --> 00:14:23.372
Isto corresponde a ligações
a ficheiros nos Commons
00:14:23.372 --> 00:14:25.959
onde alguém diz a palavra,
00:14:25.959 --> 00:14:29.913
de forma a que possamos ouvir
como um nativo a pronuncia
00:14:29.913 --> 00:14:32.871
para o caso de não conseguires ler IPA,
por exemplo.
00:14:34.959 --> 00:14:39.205
E há um projeto muito porreiro
baseado na Wiki,
00:14:39.205 --> 00:14:40.474
chamado Lingua Libre,
00:14:40.884 --> 00:14:45.173
onde podemos ir e ajudar a gravar
palavras na nossa língua
00:14:45.173 --> 00:14:47.836
que pode ser depois adicionadas
a lexemas na Wikidata,
00:14:48.446 --> 00:14:52.103
para que outras pessoas possam entender
como pronunciar as palavras.
00:14:53.663 --> 00:14:55.694
(plateia 3) Há alguma ligação para isso?
00:14:55.694 --> 00:14:57.485
Se procurarem por "Lingua Libre"...
00:14:57.485 --> 00:15:00.981
Tenho a certeza de que alguém pode
publicá-la no nosso canal do Telegram.
00:15:03.138 --> 00:15:04.621
Aqueles tipos são os maiores.
00:15:04.621 --> 00:15:06.726
Fizeram uma coisa mesmo fixe
com a Wikibase.
00:15:09.416 --> 00:15:10.617
Certo.
00:15:12.556 --> 00:15:17.285
Então, a questão é,
para onde seguimos daqui?
00:15:19.165 --> 00:15:22.010
A julgar pelos números que vos mostrei,
00:15:23.030 --> 00:15:25.172
já fizemos um longo caminho
00:15:25.172 --> 00:15:28.430
na direção de dar a mais pessoas
mais acesso a mais conhecimento
00:15:28.430 --> 00:15:31.240
quando procuram línguas na Wikidata.
00:15:32.530 --> 00:15:36.392
Mas ainda há muito trabalho pela frente.
00:15:38.992 --> 00:15:42.341
Algumas coisas que podem fazer
para ajudar, por exemplo,
00:15:42.341 --> 00:15:44.921
é organizar maratonas de etiquetagem,
00:15:44.921 --> 00:15:50.124
como juntar pessoas
para etiquetar items na Wikidata.
00:15:50.914 --> 00:15:55.121
Ou fazer uma maratona de etiquetagem
para lexemas na vossa língua,
00:15:55.121 --> 00:15:59.212
para introduzir as palavras mais usadas
na vossa língua na Wikidata.
00:16:00.773 --> 00:16:03.285
Ou podem usar uma ferramenta
como o Terminator,
00:16:03.285 --> 00:16:08.493
que vos ajuda a encontrar os itens
mais importantes na vossa língua
00:16:08.493 --> 00:16:11.549
a que ainda falte alguma etiqueta.
00:16:13.274 --> 00:16:18.359
Sendo que mais importante é medido
por quantas vezes é usado
00:16:18.359 --> 00:16:22.553
em outros items da Wikidata
como ligações ou declarações.
00:16:25.768 --> 00:16:30.022
E, claro, para a porção do lexema,
00:16:31.342 --> 00:16:35.169
agora que temos uma cobertura básica
desses lexemas,
00:16:35.169 --> 00:16:41.163
queremos também construí-los,
adicionar-lhes mais declarações
00:16:41.163 --> 00:16:44.401
para que eles possam, realmente,
construir a base
00:16:44.401 --> 00:16:47.421
para construir aplicações significativas
a partir deles.
00:16:48.141 --> 00:16:50.795
Porque estamos a aproximarmo-nos
dessa massa crítica,
00:16:50.795 --> 00:16:53.496
mas ainda estamos longe disso,
00:16:53.496 --> 00:16:56.624
de podermos construir aplicações
sérias sobre isto.
00:16:58.097 --> 00:17:01.680
E espero que todos vocês
se juntem a nós para fazermos isso.
00:17:02.583 --> 00:17:07.103
E isso já me leva
00:17:07.103 --> 00:17:09.843
a uma pequena ajuda dos nossos amigos.
00:17:09.843 --> 00:17:12.812
Bruno, queres vir até aqui
00:17:13.882 --> 00:17:16.854
para nos falares
sobre as máscaras lexicais?
00:17:17.541 --> 00:17:18.567
(Bruno) Obrigado, Lydia,
00:17:18.567 --> 00:17:21.519
por me cederes este bocadinho de tempo
00:17:21.519 --> 00:17:24.150
para apresentar o trabalho
que estamos a fazer na Google
00:17:24.150 --> 00:17:29.635
com o Denny, que a maior parte de vocês
já deve ter ouvido falar ou conhece.
00:17:30.126 --> 00:17:32.030
Porque na Google-- eu sou linguista,
00:17:32.030 --> 00:17:36.150
portanto estou muito feliz de estar aqui
entre outros entusiastas de linguagens--
00:17:36.620 --> 00:17:39.278
nós também estamos a construir
alguns léxicos
00:17:39.278 --> 00:17:41.766
e construimos esta tecnologia,
00:17:41.766 --> 00:17:45.589
ou esta abordagem, que pensamos
poderá ser útil para vocês.
00:17:46.369 --> 00:17:48.455
Só para vos situar,
00:17:48.455 --> 00:17:52.068
isto é a minha experiência
lexicográfica a falar.
00:17:52.788 --> 00:17:54.347
Quando criamos bases de dados
de léxico,
00:17:54.347 --> 00:17:58.623
é preciso muito tempo para a manter,
mantê-la consistente
00:17:58.623 --> 00:18:00.125
e para trocar dados,
00:18:00.125 --> 00:18:02.027
como vocês provavelmente sabem.
00:18:02.517 --> 00:18:05.927
Houve várias tentativas para unificar
as características e propriedades
00:18:05.927 --> 00:18:09.184
que descrevem os lexemas
e as formas.
00:18:09.184 --> 00:18:10.936
Ainda não é um problema resolvido,
00:18:10.936 --> 00:18:13.958
mas há ainda algumas tentativas
de unificação nesse sentido.
00:18:13.958 --> 00:18:15.209
Mas o que está mesmo a faltar--
00:18:15.209 --> 00:18:18.732
e isto é um problema que tivemos
no início do nosso projeto na Google--
00:18:18.732 --> 00:18:21.607
é tentar ter uma estrutura interna
00:18:22.197 --> 00:18:25.910
que descreva como
uma entrada lexical se deverá parecer,
00:18:25.910 --> 00:18:28.581
que tipo de dados
ou que tipo de informação temos
00:18:28.581 --> 00:18:32.237
e a especificação pretendida.
00:18:32.237 --> 00:18:38.187
Assim, isto foi o que inventámos,
esta coisa chamada máscara lexical.
00:18:38.897 --> 00:18:44.841
Uma máscara lexical descreve
o que é expectável de uma entrada,
00:18:44.841 --> 00:18:47.329
de uma entrada lexicográfica,
para estar completa,
00:18:47.329 --> 00:18:51.436
tanto em termos de número de formas
que se esperam de um lexema
00:18:51.436 --> 00:18:55.607
como do número de características
que se esperam em cada forma.
00:18:56.397 --> 00:18:58.329
Aqui está um exemplo
para adjetivos italianos.
00:18:58.329 --> 00:19:02.002
Seria de esperar, em italiano, termos
quatro formas para os adjetivos
00:19:02.002 --> 00:19:05.383
e cada uma dessas formas
ter uma combinação específica
00:19:05.383 --> 00:19:07.946
de género e número de características.
00:19:08.606 --> 00:19:12.672
Isto é o que esperamos
de adjetivos italianos.
00:19:12.672 --> 00:19:16.176
Claro que, podemos ter
máscaras extremamente complexas,
00:19:16.176 --> 00:19:20.783
como a conjugação dos verbos em francês,
que é bastante extensa.
00:19:20.783 --> 00:19:23.487
E não vos quero mostrar
nenhuma máscara russa
00:19:23.487 --> 00:19:25.378
porque não cabe no ecrã.
(risos)
00:19:26.308 --> 00:19:29.531
E também temos especificações
detalhadas,
00:19:29.531 --> 00:19:33.421
porque distinguimos
o que está ao nível da forma.
00:19:33.421 --> 00:19:37.544
Então, aqui temos nomes russos
que têm três números
00:19:37.544 --> 00:19:40.048
e alguns casos
com diferentes formas.
00:19:40.048 --> 00:19:43.086
Mas, eles também têm
uma especificação de entrada de gama
00:19:43.086 --> 00:19:45.590
que diz que o nome em particular tem
00:19:45.590 --> 00:19:50.133
um género inerente e uma característica
de animação inerente
00:19:50.133 --> 00:19:52.488
que também são especificados na máscara.
00:19:54.518 --> 00:19:58.779
Também queremos salientar
que uma máscara fornece uma especificação
00:19:58.779 --> 00:20:01.874
para qual deve ser
o aspeto de uma entrada.
00:20:01.874 --> 00:20:07.158
Mas, podemos ter máscaras mais pequenas,
para aspetos defeituosos da forma
00:20:07.158 --> 00:20:11.282
ou aspetos defeituosos do lexema
que acontecem na linguagem.
00:20:11.282 --> 00:20:14.537
Aqui podem ver a forma mais simples
dos verbos franceses
00:20:14.537 --> 00:20:19.729
que só têm a terceira pessoa do singular
para todos os verbos metereológicos,
00:20:19.729 --> 00:20:23.969
como "chove" ou "neva",
em português.
00:20:24.537 --> 00:20:26.493
Distinguimos estes dois níveis.
00:20:26.923 --> 00:20:29.962
E como é que usamos isto na Google?
00:20:29.962 --> 00:20:32.643
Quando temos um léxico
que queremos usar,
00:20:33.063 --> 00:20:38.309
usamos a máscara para
literalmente atirar os léxicos,
00:20:38.309 --> 00:20:40.163
todas as entradas, através da máscara
00:20:40.163 --> 00:20:44.303
e ver que entrada tem problemas
em termos de estrutura.
00:20:44.303 --> 00:20:46.523
Está a faltar uma forma?
Falta uma característica?
00:20:46.523 --> 00:20:51.497
E, quando surge um problema,
fazemos validação humana
00:20:51.497 --> 00:20:53.751
ou só para ver se passa na máscara.
00:20:53.751 --> 00:20:57.924
É uma ferramenta extremamente poderosa
para conferir a qualidade da estrutura.
00:20:59.427 --> 00:21:01.964
Portanto, estamos felizes em anunciar hoje
00:21:01.964 --> 00:21:05.408
que recebemos luz verde
para disponibilizarmos o código fonte.
00:21:05.948 --> 00:21:07.573
Portanto este é o esquema.
00:21:07.573 --> 00:21:09.477
Se quiserem isto, podemos lançar
00:21:09.477 --> 00:21:13.483
e pode ser providenciado
à Wikidata em ficheiros ShEx.
00:21:13.483 --> 00:21:16.688
Este é o ficheiro ShEx para nomes
em alemão,
00:21:16.688 --> 00:21:20.428
e o Denny está a trabalhar na conversão
da nossa especificação interna
00:21:20.428 --> 00:21:23.666
para uma mais de código aberto.
00:21:23.666 --> 00:21:27.522
Atualmente temos mais de 25 linguagens,
00:21:27.522 --> 00:21:29.225
portanto esperamos crescer do nosso lado,
00:21:29.225 --> 00:21:34.350
mas também fazer disto uma oportunidade
para colaborar noutras línguas.
00:21:34.350 --> 00:21:40.728
E uma dessas colaborações
é a que o Denny tem com o Lukas.
00:21:40.728 --> 00:21:45.052
O Lukas tem umas ferramentas ótimas
para ter uma interface com o utilizador
00:21:45.052 --> 00:21:51.061
que ajuda o utilizador ou contribuidor
a adicionar mais formas.
00:21:51.061 --> 00:21:54.151
Portanto, se quiserem adicionar
um adjetivo em francês,
00:21:54.151 --> 00:21:59.057
a interface diz-vos
quantas formas são expetáveis
00:21:59.057 --> 00:22:01.562
e e quantas características
essa forma deverá ter.
00:22:01.562 --> 00:22:06.268
Então a nossa máscara ajudará a ferramenta
a ser definida e expandida.
00:22:07.048 --> 00:22:08.385
É isto.
00:22:08.591 --> 00:22:10.358
(Lydia) Muito obrigado.
00:22:10.358 --> 00:22:13.523
(aplausos)
00:22:14.249 --> 00:22:16.891
Certo. Há questões?
00:22:16.891 --> 00:22:19.381
Querem falar mais sobre os lexemas?
00:22:19.697 --> 00:22:21.475
- (plateia 4) Sim.
- Sim. (risos)
00:22:33.055 --> 00:22:35.380
(plateia 4) A minha questão,
porque estava a falar
00:22:35.380 --> 00:22:38.996
acerca de dar mais acesso
a mais pessoas em mais línguas,
00:22:38.996 --> 00:22:42.444
mas há muitas línguas
que não podem ser usadas na Wikidata.
00:22:42.444 --> 00:22:44.588
Então que solução é que têm para isso?
00:22:45.739 --> 00:22:47.686
Quando diz que não podem ser usadas,
00:22:47.686 --> 00:22:50.308
está a referir-se à entrada de etiquetas?
00:22:50.308 --> 00:22:52.578
- (plateia 4) Etiquetas, descrições.
- Certo.
00:22:52.578 --> 00:22:55.498
Para lexemas, é um pouco diferente
00:22:55.498 --> 00:22:57.793
porque aí não temos
essa restrição.
00:22:58.923 --> 00:23:05.425
Para etiquetas nos itens e propriedades,
há realmente alguma restrição
00:23:05.433 --> 00:23:12.411
porque quisemos ter a certeza
que não é completamente--
00:23:12.411 --> 00:23:14.229
qualquer um faz o que quiser
00:23:14.229 --> 00:23:17.769
e torna-se ingerível.
00:23:17.769 --> 00:23:23.898
Até uma comunidade pequena que queira
uma língua e que queira trabalhar nisso:
00:23:23.898 --> 00:23:26.657
venham ter connosco e fazemos acontecer.
00:23:26.657 --> 00:23:29.202
(plateia 4) Nós fizemos isso
no Hackathon de Praga em Maio
00:23:29.202 --> 00:23:32.359
e demorou quase até Agosto
até conseguirmos usar a nossa linguagem.
00:23:32.359 --> 00:23:34.935
- Sim.
- (plateia 4) Portanto, é muito lento.
00:23:34.935 --> 00:23:37.854
Sim, infelizmente é muito lento.
00:23:37.854 --> 00:23:39.883
Estamos a trabalhar
com o Comité de Linguagem
00:23:39.883 --> 00:23:46.048
a tentar resolver os mais básicos...
00:23:49.537 --> 00:23:55.447
Ter o acordo sobre que tipo
de linguagens são realmente "permitidas"
00:23:56.047 --> 00:23:59.838
e isso tem demorado tempo demais,
00:23:59.838 --> 00:24:04.178
o que pode ser a razão para o vosso pedido
ter demorado mais do que devia.
00:24:04.778 --> 00:24:06.213
(plateia 4) Obrigada.
00:24:06.555 --> 00:24:07.610
(plateia 5) Obrigado.
00:24:07.610 --> 00:24:10.788
Lydia, se se lembra das estatísticas
que mostrou,
00:24:10.788 --> 00:24:12.886
o número de lexemas por linguagem.
- Sim.
00:24:12.886 --> 00:24:17.599
(plateia 5) Então, contaram todos
as formas como pontos de dados
00:24:17.599 --> 00:24:20.034
ou apenas os lexemas?
00:24:20.909 --> 00:24:22.621
(Lydia) Está a falar disto?
00:24:22.621 --> 00:24:24.053
A qual é que se refere?
00:24:24.053 --> 00:24:25.529
(plateia 5) Sim, exatamente.
00:24:25.797 --> 00:24:28.341
Se se lembrar, este número é [inaudível]
00:24:28.341 --> 00:24:31.514
todas as formas, todos os lexemas
ou apenas quantos lexemas há?
00:24:31.514 --> 00:24:33.915
Não, isto é apenas o número de lexemas.
00:24:33.915 --> 00:24:35.395
(plateia 5) Só o número de lexemas.
00:24:35.395 --> 00:24:36.797
Então é apenas uma estatística
00:24:36.797 --> 00:24:39.310
porque, se depois
contássemos com as formas--
00:24:39.310 --> 00:24:40.614
por isso pergunto--
00:24:40.614 --> 00:24:42.637
então, todas as línguas
com morfologia de inflexão,
00:24:42.637 --> 00:24:44.927
como russo, sérvio,
esloveno, etc,
00:24:44.927 --> 00:24:47.616
têm uma vantagem natural,
porque têm tantas.
00:24:47.616 --> 00:24:51.630
Daí, este tipo de saltos aqui
no número de formulários.
00:24:51.630 --> 00:24:53.851
(plateia 5) Sim, era esse mesmo.
Obrigado.
00:24:56.386 --> 00:25:00.224
(plateia 6) Tenho só uma
pergunta rápida acerca de...
00:25:00.524 --> 00:25:06.824
Quando estávamos a falar sobre
os itens e propriedades.
00:25:07.124 --> 00:25:09.921
Até onde eu consigo entender,
não há, atualmente, forma
00:25:09.921 --> 00:25:12.746
de dar uma fonte definida
a qualquer das etiquetas
00:25:12.746 --> 00:25:14.606
e descrições que foram dadas.
- Sim.
00:25:14.606 --> 00:25:18.047
(plateia 6) Então, não há nada
porque, quando estás a falar
00:25:18.047 --> 00:25:20.920
acerca de uma propriedade de um item,
00:25:20.920 --> 00:25:24.339
podes ter, por exemplo,
etiquetas conflituosas.
00:25:24.339 --> 00:25:27.999
- Sim.
- (Plateia 6) Então, esta pessoa é como...
00:25:28.302 --> 00:25:30.432
Falamos à pouco sobre
coisas indígenas, por exemplo.
00:25:30.432 --> 00:25:35.965
Então esta pessoa é um artista norueguês,
de acordo com uma fonte,
00:25:35.965 --> 00:25:38.750
e um artista sami,
de acordo com outra fonte.
00:25:39.230 --> 00:25:42.633
Ou, por exemplo, em estoniano,
tivemos um problema
00:25:42.633 --> 00:25:47.729
onde tivemos que mudar uma terminologia
para a terminologia oficial usada
00:25:47.729 --> 00:25:49.482
nos léxicos oficiais.
00:25:49.482 --> 00:25:52.262
Mas não temos realmente
uma forma de indicar porquê.
00:25:52.262 --> 00:25:53.596
Qual foi a fonte disto
00:25:53.596 --> 00:25:55.561
e por que razão isto está melhor
do que estava.
00:25:55.561 --> 00:25:57.150
Fui apenas eu, como uma pessoa
ao acaso,
00:25:57.150 --> 00:25:59.615
a mudar isto
para quem quer que o veja.
00:25:59.615 --> 00:26:02.520
Então, há um plano
para isto ser possível de qualquer forma,
00:26:02.520 --> 00:26:06.355
de modo a que possamos realmente ter
fontes confiáveis para dados de linguagem?
00:26:07.045 --> 00:26:11.358
Isso é parcialmente possível.
00:26:11.358 --> 00:26:15.958
Por exemplo, quando há
um item para uma pessoa,
00:26:15.968 --> 00:26:22.720
pode ter as declarações: primeiro nome,
último nome, e por aí em diante.
00:26:22.720 --> 00:26:26.226
E, nessa altura, pode-se providenciar
referências para isso.
00:26:28.061 --> 00:26:32.544
Tenho algumas reticências em
adicionar mais complexidade
00:26:32.544 --> 00:26:35.557
para referências
em etiquetas e descrições,
00:26:35.557 --> 00:26:38.624
mas se as pessoas realmente pensam
00:26:38.624 --> 00:26:44.939
que isto é algo que não está coberto
por qualquer referência na declaração,
00:26:44.939 --> 00:26:46.803
então falamos sobre isso.
00:26:48.809 --> 00:26:53.303
Mas temo que
vá adicionar muita complexidade
00:26:53.303 --> 00:26:56.523
para o que espero serem poucos casos.
00:26:57.393 --> 00:27:00.188
Mas estou disposta
a ser convencida do contrário
00:27:00.188 --> 00:27:04.017
se as pessoas realmente sentem
que isto tem relevãncia.
00:27:04.017 --> 00:27:07.737
(plateia 6) Se for adicionado
provavelmente não deveria ser o padrão,
00:27:07.737 --> 00:27:12.182
mostrado a todos os utilizadores
iniciados na interface, em todos os casos.
00:27:12.182 --> 00:27:16.190
Podia ser mais, "Clica aqui se queres
adicionar algo específico sobre isto."
00:27:17.632 --> 00:27:23.368
Temos alguma ideia de quantas vezes
isso teria importância?
00:27:24.340 --> 00:27:26.423
(plateia 6) Em estónio, por exemplo--
00:27:26.423 --> 00:27:29.034
eu imagino que seja assim
noutras línguas também--
00:27:29.034 --> 00:27:34.113
por exemplo, há um nome oficial
que é a legítima tradução
00:27:34.113 --> 00:27:36.726
para inglês de,
00:27:36.726 --> 00:27:40.314
digamos, um tipo específico
de municipalidade.
00:27:40.314 --> 00:27:42.182
Este foi o meu caso
de utilizador, por exemplo,
00:27:42.182 --> 00:27:44.409
onde estávamos a usar a palavra "paróquia"
00:27:45.159 --> 00:27:50.615
na qual a palavra estónia original
significava paróquia de igreja
00:27:50.615 --> 00:27:51.779
e essa foi a sua origem,
00:27:51.779 --> 00:27:54.809
mas não é agora a tradução oficial
que a Estónia recebe atualmente.
00:27:54.809 --> 00:27:58.853
Neste caso, eu juntaria-a apenas como
declarações de nome oficial
00:27:58.853 --> 00:28:00.817
e juntaria a referência aí.
00:28:02.032 --> 00:28:03.158
(plateia 6) Certo.
00:28:05.026 --> 00:28:06.572
Mais questões, sim?
00:28:07.682 --> 00:28:09.944
(Asaf) Dois comentários rápidos.
00:28:09.944 --> 00:28:13.934
Falou especificamente do asturiano
como uma linguagem que está em alta
00:28:13.934 --> 00:28:16.385
e eu acho que isso é falso.
00:28:16.385 --> 00:28:17.644
Conte-me.
00:28:17.644 --> 00:28:19.748
(Asaf) Eu penso que é apenas um bot
00:28:19.748 --> 00:28:24.068
que colou nomes de pessoas,
nomes apropriados para pessoas,
00:28:24.068 --> 00:28:27.172
e disse "Bem, isto é exatamente
como em francês ou espanhol"
00:28:27.172 --> 00:28:28.558
e copiou-o massivamente.
00:28:28.558 --> 00:28:33.316
Uma prova é que
não se vê essa energia no asturiano,
00:28:33.316 --> 00:28:37.205
em coisas que realmente requerem tradução,
como nomes de propriedades,
00:28:37.205 --> 00:28:39.568
ou nomes de itens
que não são nomes próprios.
00:28:39.568 --> 00:28:41.119
Asaf, partes-me o coração.
00:28:41.119 --> 00:28:43.108
(Asaf) Eu sei,
costumo estragar as festas,
00:28:43.108 --> 00:28:48.458
mas tenho boas notícias também,
sobre os números das pronunciações.
00:28:49.408 --> 00:28:53.515
Como saberão, o Commons está cheio
de ficheiros de pronunciação
00:28:53.515 --> 00:28:54.668
e, por exemplo,
00:28:54.668 --> 00:29:01.102
o holandês tem, nada mais nada menos, que
300 000 ficheiros desses introduzidos
00:29:01.802 --> 00:29:05.051
que necessitam de ser "ingeridos"
de alguma forma.
00:29:05.051 --> 00:29:07.697
Então, se alguém está à procura
de um projeto para as horas vagas,
00:29:07.697 --> 00:29:08.807
há imensos
00:29:08.807 --> 00:29:13.210
ficheiros de pronunciação, classificados
e categorizados no Commons
00:29:13.210 --> 00:29:16.763
na categoria "Pronunciação" por linguagem.
00:29:16.763 --> 00:29:22.840
Estão à espera de ser combinados
com os lexemas e postos no lexema.
00:29:23.030 --> 00:29:25.484
E estava a pensar
se me poderia dizer alguma coisa
00:29:25.484 --> 00:29:26.585
sobre o quadro referência,
00:29:26.585 --> 00:29:28.757
algo sobre quanto investimento
00:29:28.757 --> 00:29:31.995
ou o que podemos esperar
relativo ao lexema no próximo ano,
00:29:31.995 --> 00:29:34.020
porque eu, pessoalmente,
mal posso esperar.
00:29:34.839 --> 00:29:37.044
Não pode? (risos)
00:29:37.044 --> 00:29:39.118
- (Asaf) Por mais.
- Sim. (risos)
00:29:40.339 --> 00:29:42.329
Penso que ...
00:29:44.401 --> 00:29:49.523
Neste momento, estamos concentrados
mais na Wikibase e na qualidade de dados
00:29:51.283 --> 00:29:55.087
para ver quanta tração isto tem
00:29:55.087 --> 00:30:01.516
e para obter mais para descobrir
onde os próximos pontos críticos estão
00:30:01.516 --> 00:30:06.003
e depois voltar atrás e melhorar
mais os dados lexicográficos.
00:30:06.903 --> 00:30:09.790
E uma das coisas
que adoraria ouvir de vocês
00:30:09.790 --> 00:30:14.136
é onde exatamente vocês vêm
que poderão ser dados os próximos passos,
00:30:14.136 --> 00:30:15.966
onde querem melhorias
00:30:15.966 --> 00:30:20.340
para que nós possamos descobrir
como fazer isso acontecer.
00:30:21.065 --> 00:30:22.810
Mas claro que está certo,
00:30:22.810 --> 00:30:25.712
ainda há muito a fazer
também do lado técnico.
00:30:30.363 --> 00:30:35.848
(plateia 7) Ao carregarmos
as palavras bascas com formas,
00:30:35.848 --> 00:30:38.259
e verão alguns destes tipos de coisas,
estávamos todos...
00:30:38.259 --> 00:30:41.329
Na semana passada
dissemos "Somos os primeiros em algo."
00:30:41.329 --> 00:30:42.919
[inaudível]
00:30:42.919 --> 00:30:44.928
Apareceu na imprensa e foi tipo:
00:30:44.928 --> 00:30:49.208
"O basco foi o primeiro em algo,
foram os primeiros."
00:30:49.208 --> 00:30:50.466
(risos)
00:30:50.466 --> 00:30:53.318
E depois as pessoas perguntaram
"Mas para que serve isto?"
00:30:54.538 --> 00:30:56.749
Nós não temos uma boa resposta.
00:30:56.749 --> 00:30:57.888
Quer dizer, certo,
00:30:57.888 --> 00:31:01.841
isto vai ajudar computadores
a entender mais a nossa linguagem, sim.
00:31:01.841 --> 00:31:05.279
Mas que tipo de ferramentas
podemos fazer no futuro?
00:31:05.279 --> 00:31:07.407
E ainda não temos uma boa resposta.
00:31:07.407 --> 00:31:10.625
Portanto eu não sei
se vocês têm uma boa resposta para isto.
00:31:10.625 --> 00:31:12.742
(risos) Eu não sei
se eu tenho uma boa resposta,
00:31:12.742 --> 00:31:14.746
mas tenho uma resposta.
00:31:15.380 --> 00:31:20.225
Então, eu penso, neste momento,
como estava a dizer [inaudível],
00:31:20.225 --> 00:31:21.924
que ainda não chegámos à massa crítica
00:31:21.924 --> 00:31:25.529
onde podemos construir um monte
de ferramentas realmente interessantes.
00:31:25.529 --> 00:31:27.707
Mas já existem algumas ferramentas.
00:31:28.157 --> 00:31:31.692
No outro dia,
a Esther Pandalia, por exemplo,
00:31:31.692 --> 00:31:33.817
lançou uma ferramenta onde podemos ver,
00:31:35.587 --> 00:31:38.889
penso que eram as palavras num globo,
00:31:38.889 --> 00:31:41.901
onde eram faladas,
de onde tinham vindo.
00:31:42.461 --> 00:31:44.090
Posso estar errada sobre isto.
00:31:44.090 --> 00:31:46.286
Mas ela respondeu no chat
do projeto na Wikidata.
00:31:46.286 --> 00:31:48.984
Podem vê-lo ali.
00:31:49.574 --> 00:31:51.805
Então já vimos as primeiras ferramentas,
00:31:51.805 --> 00:31:55.696
tal como já vimos, no passado,
quando a Wikidata começou.
00:31:56.846 --> 00:31:59.602
Primeiro algumas... Como uma rede
00:31:59.602 --> 00:32:03.424
e depois "Olha, há aqui esta coisa
que liga a esta outra coisa."
00:32:04.734 --> 00:32:07.059
E à medida que temos mais dados
00:32:07.059 --> 00:32:10.352
e chegamos mais perto da massa crítica,
00:32:11.702 --> 00:32:14.747
tornam-se possíveis
aplicações mais poderosas.
00:32:15.607 --> 00:32:17.516
Coisas como a Histropedia,
00:32:19.036 --> 00:32:21.988
coisas como perguntas e respostas
00:32:21.988 --> 00:32:26.463
no vosso assistente pessoal digital,
Platypus e assim por diante.
00:32:26.463 --> 00:32:30.228
E estamos a ver
coisas semelhantes com os lexemas.
00:32:31.048 --> 00:32:34.650
Estamos num estágio em que
podemos construir estes pequenos:
00:32:34.650 --> 00:32:37.654
"Olha, há uma ligação
entre duas coisas
00:32:37.654 --> 00:32:42.618
e há uma tradução dessa palavra
para esse estágio de linguagem."
00:32:42.618 --> 00:32:47.687
E, à medida que construimos
e à medida que descrevemos mais palavras,
00:32:47.687 --> 00:32:49.443
mais se torna possível.
00:32:49.443 --> 00:32:51.795
Agora, o que é que isso torna possível?
00:32:53.322 --> 00:33:00.103
Como o Ben, o nosso orador de antes,
estava a dizer acerca de traduções,
00:33:00.103 --> 00:33:03.315
ser capaz de traduzir
de uma língua para outra.
00:33:03.315 --> 00:33:07.839
E Jens, outro colega,
que está sempre a falar sobre
00:33:07.839 --> 00:33:11.452
a União Europeia
andar sempre à procura de um tradutor
00:33:11.452 --> 00:33:17.319
que possa fazê-lo de,
penso que era maltês para sueco.
00:33:17.319 --> 00:33:19.027
- (plateia 8) Estónio.
- Estónio.
00:33:19.027 --> 00:33:20.027
(risos)
00:33:22.016 --> 00:33:26.211
E essa não é uma combinação usual.
00:33:27.111 --> 00:33:31.735
Mas assim que temos todas essas linguagens
num lugar passível de ser lido por máquina
00:33:31.735 --> 00:33:33.063
podemos fazer isso.
00:33:33.063 --> 00:33:36.857
Podemos obter um dicionário
00:33:36.857 --> 00:33:41.735
de estónio para maltês e vice-versa.
00:33:42.935 --> 00:33:45.607
Então, incluir combinações
de linguagens em dicionários
00:33:45.607 --> 00:33:47.791
que não foram incluídas antes
00:33:47.791 --> 00:33:51.050
porque não havia
procura suficiente para elas, por exemplo,
00:33:51.050 --> 00:33:55.380
para fazê-lo de forma financeiramente
viável e para justificar o trabalho.
00:33:55.380 --> 00:33:57.147
Agora podemos fazer isso.
00:33:59.607 --> 00:34:02.088
E depois a geração de texto.
00:34:02.088 --> 00:34:03.653
A Lucie estava a falar
00:34:03.653 --> 00:34:10.136
acerca de como ela está a trabalhar
com a Hattie em gerar textos
00:34:10.136 --> 00:34:14.673
para iniciar artigos na Wikipedia
em línguas minoritárias.
00:34:15.423 --> 00:34:19.382
Isso precisa de dados sobre palavras
00:34:19.382 --> 00:34:22.589
e precisamos perceber a língua
para fazer isso.
00:34:23.469 --> 00:34:28.133
Sim, e isto é só
o que me vem à cabeça agora.
00:34:28.573 --> 00:34:30.494
Talvez a nossa audiência tenha mais ideias
00:34:30.494 --> 00:34:34.353
do que querem fazer quando tivermos
todos esses gloriosos dados.
00:34:37.693 --> 00:34:40.772
(plateia 9) Vou-nos desviar
do tópico dos lexemas.
00:34:40.772 --> 00:34:42.536
Quero perguntar-vos algo.
00:34:42.536 --> 00:34:45.514
Como posso eu, como membro da comunidade
00:34:45.514 --> 00:34:49.925
influenciar que a prioridade
seja colocada na tarefa,
00:34:49.925 --> 00:34:56.644
que um utilizador novo venha, e possa
indicar que línguas quer ver e editar
00:34:56.644 --> 00:35:02.115
sem um qualquer conhecimento padrão
verbal secreto.
00:35:02.115 --> 00:35:04.893
Talvez haja, este ano,
uma lista técnica de desejos
00:35:04.893 --> 00:35:06.820
sem tópicos da Wikipedia.
00:35:06.820 --> 00:35:10.119
Talvez haja esperança
de que possamos votar acerca
00:35:10.119 --> 00:35:13.928
daquela coisa
que não arranjamos há sete anos.
00:35:13.928 --> 00:35:17.607
Tem alguma ideia
ou comentário sobre isso?
00:35:18.217 --> 00:35:20.198
Então, está a falar sobre o facto
00:35:20.198 --> 00:35:23.258
de alguém que não esteja ligado
à Wikidata
00:35:23.258 --> 00:35:25.391
não poder mudar
a sua linguagem facilmente?
00:35:25.391 --> 00:35:27.839
(plateia 9) Não, para novos utilizadores.
00:35:28.309 --> 00:35:30.689
Então, se estiverem ligados,
00:35:30.689 --> 00:35:34.871
eles podem mudar a sua língua
no topo da página.
00:35:35.891 --> 00:35:39.589
Depois, aparece onde...
00:35:39.599 --> 00:35:42.013
onde as descrições das etiquetas estão
00:35:42.013 --> 00:35:43.483
e podem editá-las.
00:35:45.507 --> 00:35:49.009
(plateia 9) Bem, na verdade, muitas vezes
o fluxo de trabalho é,
00:35:49.009 --> 00:35:52.217
se queremos ter
múltiplas línguas elas estão disponíveis,
00:35:52.217 --> 00:35:55.419
e nem sempre acontece.
00:35:55.419 --> 00:35:58.584
Talvez devamos sentar-nos
depois desta apresentação e mostra-me.
00:36:01.312 --> 00:36:04.089
Fixe. Mais questões?
00:36:05.394 --> 00:36:06.536
Sim.
00:36:11.415 --> 00:36:13.196
(plateia 10) Obrigado pela apresentação.
00:36:13.896 --> 00:36:15.127
Pode comentar
00:36:15.127 --> 00:36:19.307
acerca do estado da correlação
com a comunidade do Wiktionary.
00:36:19.307 --> 00:36:22.146
Do que eu tenho conseguido ver,
tem havido algumas discussões
00:36:22.146 --> 00:36:26.051
acerca de importar
alguns elementos do trabalho,
00:36:26.051 --> 00:36:30.333
mas parece haver algumas questões
de licenciamento e desentendimentos, etc.
00:36:30.333 --> 00:36:31.438
Certo.
00:36:31.438 --> 00:36:36.970
Então, as comunidades do Wiktionary
passaram muito tempo
00:36:36.970 --> 00:36:38.973
a construir o Wiktionary.
00:36:38.973 --> 00:36:42.643
Construiram
00:36:42.883 --> 00:36:47.304
padrões extremamente complicados
e complexos
00:36:47.304 --> 00:36:53.404
para construir as bonitas tabelas
que geram formulários para vocês
00:36:53.404 --> 00:36:56.392
e é tudo realmente impressionante,
00:36:56.392 --> 00:37:00.683
e um pouco louco,
se pensarmos bem nisso.
00:37:02.081 --> 00:37:07.994
E, é claro, investiram
muito tempo e esforço a fazê-lo.
00:37:09.204 --> 00:37:11.671
E, compreensivelmente,
00:37:11.671 --> 00:37:17.116
não querem que isso seja agarrado
00:37:17.936 --> 00:37:18.982
de qualquer maneira.
00:37:18.982 --> 00:37:21.791
Então, há um pouco disso, vindo daí.
00:37:21.791 --> 00:37:25.137
E está certo, tudo bem.
00:37:25.137 --> 00:37:31.782
Agora, as primeiras comunidades Wiktionary
estão a falar de mudar isso
00:37:31.782 --> 00:37:34.329
e importar alguns
dos dados deles para a Wikidata.
00:37:34.329 --> 00:37:39.095
O russo, por exemplo, como já viram,
é um desses casos
00:37:39.785 --> 00:37:42.355
e espero que mais aconteçam.
00:37:43.425 --> 00:37:46.640
Mas vai ser um processo lento,
00:37:46.640 --> 00:37:49.383
tal como a adopção
dos dados da Wikidata pela Wikipedia
00:37:49.383 --> 00:37:51.909
está a ser um processo bem lento.
00:37:52.699 --> 00:37:56.183
O outro lado é tentar que seja mais fácil
00:37:56.183 --> 00:37:59.132
usar os dados que estão nos lexemas,
00:37:59.132 --> 00:38:02.209
no Wiktionary, para que
possam fazer uso deles
00:38:02.209 --> 00:38:05.531
e partilhar dados entre
as Wiktionaries de linguagens.
00:38:05.531 --> 00:38:08.753
O que é super difícil neste momento,
00:38:08.753 --> 00:38:11.560
o que é de doidos,
tal como foi na Wikipedia.
00:38:13.720 --> 00:38:16.325
Esperem pelo presente de aniversário.
(risos)
00:38:19.918 --> 00:38:21.182
Sim.
00:38:22.519 --> 00:38:24.777
(plateia 11) Quando estava a pensar
sobre a outra forma,
00:38:24.777 --> 00:38:28.038
eu, na verdade, não o quis dizer
porque penso que pode ser super tolo.
00:38:28.038 --> 00:38:31.833
Mas acho que o Wiktionary
já tem algum conteúdo
00:38:31.833 --> 00:38:34.978
e eu sei que
não pode ser transferido para a Wikidata
00:38:34.978 --> 00:38:37.048
por causa das diferenças de licenças.
00:38:37.048 --> 00:38:39.631
Mas estava a pensar que talvez
possamos fazer algo acerca disso.
00:38:40.161 --> 00:38:45.473
Talvez obter permissão das comunidades
00:38:45.473 --> 00:38:51.205
depois de, não sei,
haver uma votação pública
00:38:51.825 --> 00:38:55.642
de forma a que comunidade,
os seus membros ativos,
00:38:55.642 --> 00:39:02.523
votem e digam se querem
ou não aceitar a transferência de conteúdo
00:39:02.523 --> 00:39:05.528
para a qual podem fazer
os lexemas da Wikidata.
00:39:06.148 --> 00:39:08.537
Porque penso que é um desperdício.
00:39:09.528 --> 00:39:14.273
Então, isso é definitivamente
uma conversa que essas pessoas,
00:39:14.273 --> 00:39:18.249
que estão nas comunidades Wiktionary,
podem ter lá.
00:39:18.249 --> 00:39:24.647
Penso que seria um pouco presunçoso
da nossa parte forçarmos isso.
00:39:25.767 --> 00:39:31.032
Mas sim, penso que, definitivamente,
vale a pena ter essa conversa.
00:39:31.032 --> 00:39:33.898
Mas eu penso que também
é importante entender
00:39:33.898 --> 00:39:38.962
que há uma distinção entre
o que é legalmente permitido
00:39:38.962 --> 00:39:43.057
e o que devíamos estar a fazer
00:39:43.057 --> 00:39:45.426
e o que as essas pessoas querem ou não.
00:39:45.736 --> 00:39:47.329
Portanto, mesmo se for legal,
00:39:47.329 --> 00:39:50.640
se algumas das comunidades Wiktionary
não o quiserem,
00:39:50.640 --> 00:39:53.537
eu teria cuidado, no mínimo.
00:39:58.766 --> 00:40:02.489
Penso que precisamos do microfone
para o vídeo.
00:40:04.380 --> 00:40:07.299
(plateia 12) Obviamente,
isto é tudo muito excitante
00:40:07.849 --> 00:40:12.169
e penso imediatamente em como
levar isto aos meus estudantes,
00:40:12.169 --> 00:40:15.288
como posso incorporar isto nos cursos,
00:40:15.288 --> 00:40:18.531
no trabalho que estamos a fazer,
ambientes educacionais.
00:40:18.531 --> 00:40:22.271
E não tenho, neste momento,
00:40:22.791 --> 00:40:24.116
primeiro, conhecimento,
00:40:24.116 --> 00:40:27.278
mas acho que a documentação
que temos
00:40:27.768 --> 00:40:29.992
pode ser melhorada.
00:40:29.992 --> 00:40:33.437
Portanto, isto é um pedido
para fazerem vídeos fixes
00:40:33.437 --> 00:40:35.898
que expliquem como funciona.
00:40:35.898 --> 00:40:39.948
Porque, se os tivermos, podemos usá-los,
00:40:39.948 --> 00:40:41.985
podemos ter estudantes a bordo
00:40:41.985 --> 00:40:46.952
e podemos fazer as pessoas entender
quão espetacular é.
00:40:46.952 --> 00:40:51.891
Sim, pensem na documentação
e pensem na educação, por favor.
00:40:51.891 --> 00:40:54.440
Porque penso que muito pode ser feito.
00:40:54.440 --> 00:40:58.585
Estas são pequenas tarefas
que podem ser feitas mesmo com...
00:41:00.125 --> 00:41:02.033
bem, não direi escolas primárias,
00:41:02.033 --> 00:41:05.495
mas certamente até com estudantes jovens.
00:41:05.765 --> 00:41:10.646
E, portanto, gostaria mesmo de ver
esse potencial a ser aproveitado
00:41:10.646 --> 00:41:15.172
e, neste momento, eu, pessoalmente,
não entendo o suficiente
00:41:15.172 --> 00:41:19.500
para conseguir criar tarefas
ou para criar tipo...
00:41:20.200 --> 00:41:22.155
para fazer algo prático com isto.
00:41:22.155 --> 00:41:25.772
Portanto, qualquer ajuda, ideias
que alguém tenha acerca disso,
00:41:25.772 --> 00:41:29.648
estou completamente disponível para ouvir
tudo o que tenham em mente.
00:41:30.328 --> 00:41:32.129
Sim, vamos falar sobre isso.
00:41:35.273 --> 00:41:37.139
Mais questões?
00:41:37.569 --> 00:41:39.065
Mais alguém tinha levantado a mão.
00:41:39.065 --> 00:41:40.495
Esqueci-me de quem foi.
00:41:45.739 --> 00:41:49.866
(plateia 13) Então, se não conseguimos
importar a partir do Wiktionary,
00:41:49.866 --> 00:41:55.772
há algum esforço concertado para
achar outras fontes de domínio público,
00:41:55.772 --> 00:41:57.459
talvez dados mais antigos,
00:41:58.769 --> 00:42:03.167
e filtrá-los previamente, organizá-los
00:42:03.167 --> 00:42:08.470
para que seja fácil a sua verificação,
por pessoas, para importação?
00:42:08.993 --> 00:42:11.131
Então, foram feitos esforços iniciais.
00:42:11.131 --> 00:42:14.649
Penso que o basco é um desses esforços.
00:42:14.649 --> 00:42:17.474
Talvez queiras dizer
algo sobre isso?
00:42:18.426 --> 00:42:20.130
(plateia 14) [inaudível]
00:42:23.026 --> 00:42:27.148
Certo, a resposta é
pagando por isso...
00:42:28.204 --> 00:42:33.381
Temos um acordo
com um fornecedor com quem trabalhamos.
00:42:34.661 --> 00:42:38.725
Eles fazem dicionários, outros...
00:42:40.315 --> 00:42:42.458
montes de coisas, mas fazem dicionários.
00:42:42.458 --> 00:42:47.473
Temos um acordo com eles para
tornar grátis os dicionários estudantis.
00:42:47.473 --> 00:42:52.622
Nós transmitiríamos as palavras
mais comuns e começaríamos a carregá-las
00:42:52.622 --> 00:42:55.590
com um identificador externo
e esse tipo de coisas.
00:42:56.090 --> 00:43:02.702
Mas houve alguma discussão
acerca de deixá-lo no CC0,
00:43:02.702 --> 00:43:05.322
porque eles têm
um dicionário com CC por ele,
00:43:05.947 --> 00:43:10.066
e perceberam qual era a diferença.
00:43:10.066 --> 00:43:13.726
Portanto, houve alguma discussão.
00:43:13.726 --> 00:43:19.499
Mas penso que podemos providenciar algumas
ferramentas ou exemplos, no futuro,
00:43:19.499 --> 00:43:21.761
e penso que haverá outros dicionários
00:43:21.761 --> 00:43:23.826
que podemos gerir.
00:43:23.826 --> 00:43:29.274
E também penso que o Wiktionary
deveria ir nessa direção,
00:43:29.274 --> 00:43:32.260
mas isso é outra grande discussão.
00:43:33.015 --> 00:43:34.447
E, para além disso,
00:43:34.447 --> 00:43:38.699
a Lea está também em contacto
com pessoas da Occitan,
00:43:38.699 --> 00:43:41.767
que trabalham nos dicionários Occitan,
00:43:41.767 --> 00:43:45.138
e eles estão atualmente a trabalhar
numa colaboração suméria.
00:43:51.374 --> 00:43:53.363
Mais questões?
00:44:01.307 --> 00:44:05.179
(plateia 15) Olá. Nós somos as pessoas
que querem importar dados da Occitan.
00:44:05.179 --> 00:44:06.405
Perfeito!
00:44:06.405 --> 00:44:09.188
(plateia 15) E temos
um pequeno problema para...
00:44:09.188 --> 00:44:14.135
Nós não sabemos como representar
toda a variedade de lexemas.
00:44:14.135 --> 00:44:17.493
Temos seis dialetos
00:44:17.493 --> 00:44:23.904
e queremos indicar, para o lexema,
em que dialeto é usado
00:44:23.904 --> 00:44:27.175
e não temos a declaração CO
apropriada para isso.
00:44:27.175 --> 00:44:31.105
Portanto, enquanto o segmento não existir,
00:44:31.525 --> 00:44:34.365
não conseguimos [inaudível]
00:44:34.365 --> 00:44:37.603
porque vamos precisar de fazê-lo outra vez
00:44:37.603 --> 00:44:41.946
quando estivermos em condições
de exportar a declaração.
00:44:41.946 --> 00:44:44.471
E é complicado
porque é uma declaração
00:44:44.471 --> 00:44:47.802
que não vai ser pedida por muita gente
00:44:47.802 --> 00:44:53.444
porque é uma declaração que diz respeito
principalmente a línguas minoritárias.
00:44:53.444 --> 00:44:56.803
Então teremos uma pessoa a pedir isto.
00:44:56.803 --> 00:44:59.962
Mas, como no caso
dos nossos colegas Bascos,
00:44:59.962 --> 00:45:06.082
pode ser uma pessoa
que ajudará milhares de outros.
00:45:06.082 --> 00:45:10.884
Portanto, pode não parecer importante,
00:45:10.884 --> 00:45:14.136
mas será muito importante para nós.
00:45:14.524 --> 00:45:17.600
Vocês já têm a nova proposta
de propriedade a funcionar,
00:45:17.600 --> 00:45:19.470
ou precisam de ajuda para criá-la?
00:45:21.244 --> 00:45:24.300
(plateia 15) Fizemos o pedido
há quatro meses.
00:45:24.300 --> 00:45:28.755
Certo, então vamos arranjar pessoal
para ajudar com essa proposta.
00:45:29.959 --> 00:45:33.092
De certeza que há pessoas suficentes
nesta sala para isso se realizar.
00:45:33.092 --> 00:45:35.992
(plateia 15) Proposta de propriedade
[em francês].
00:45:35.992 --> 00:45:39.479
Nós não tivemos resposta
e não sabemos fazê-lo
00:45:39.479 --> 00:45:42.953
porque não somos da comunidade Wikidata.
00:45:44.514 --> 00:45:48.697
Sim, então há aqui pessoas
que vos podem ajudar.
00:45:48.697 --> 00:45:52.134
Talvez alguém levante a mão
para ficar...
00:45:52.134 --> 00:45:53.454
(plateia 14) Sou a favor.
00:45:53.454 --> 00:45:55.512
Mas penso que é muito interessante
00:45:55.512 --> 00:45:58.939
que apenas a variante de forma
00:45:58.939 --> 00:46:02.607
também o possa gerir geograficamente,
00:46:02.607 --> 00:46:04.995
com coordenadas
ou algum tipo de mapeamento.
00:46:05.485 --> 00:46:07.815
Também tendo diferentes pronúncias
00:46:07.815 --> 00:46:11.837
e penso que é algo
que acontece em muitas línguas.
00:46:12.517 --> 00:46:16.112
Deveríamos trabalhar para isso
acontecer de alguma forma
00:46:16.112 --> 00:46:18.865
e eu vou procurar a propriedade.
00:46:19.652 --> 00:46:20.773
Fixe.
00:46:20.773 --> 00:46:24.446
Então, vocês terão apoio
para a vossa proposta de propriedade.
00:46:25.996 --> 00:46:27.297
Obrigado.
00:46:27.962 --> 00:46:30.261
Mais alguma questão?
00:46:32.210 --> 00:46:33.474
Finn.
00:46:33.784 --> 00:46:35.055
O Finn é uma daquelas pessoas
00:46:35.055 --> 00:46:37.531
que constrói coisas
tendo como base dados lexicográficos.
00:46:37.531 --> 00:46:40.285
(Finn) É só uma pequena questão,
00:46:40.285 --> 00:46:44.226
e é sobre variações de ortografia.
00:46:44.896 --> 00:46:48.242
Parece difícil pô-las em...
00:46:48.242 --> 00:46:53.838
Poderíamos, claro,
ter múltiplas formas para a mesma palavra.
00:46:55.627 --> 00:46:58.448
Não sei, parece ser...
00:46:59.328 --> 00:47:03.535
Se não o fizeres dessa forma,
parece ser difícil especificar...
00:47:04.521 --> 00:47:05.888
ou, não sei se
00:47:05.888 --> 00:47:09.591
é apenas um problema técnico menor
ou se...
00:47:09.591 --> 00:47:11.332
Vamos olhar para isso juntos.
00:47:11.332 --> 00:47:15.230
Adoraria ver um exemplo.
00:47:17.248 --> 00:47:18.478
Asaf.
00:47:26.666 --> 00:47:28.396
(Asaf) Obrigado.
00:47:29.216 --> 00:47:33.685
Posso dar um exemplo concreto
da minha língua, o hebreu.
00:47:34.125 --> 00:47:38.685
O Hebreu tem duas variantes principais
00:47:38.685 --> 00:47:42.646
para expressar quase todas as palavras,
00:47:42.646 --> 00:47:47.520
porque a ortografia tradicional
00:47:47.520 --> 00:47:50.044
deixa de parte muitas vogais.
00:47:50.814 --> 00:47:54.987
E, assim sendo, nas edições modernas
da Bíblia e de poesia,
00:47:54.987 --> 00:47:57.265
são usados os diacríticos.
00:47:57.265 --> 00:48:02.560
Por outro lado, os diacríticos
nunca são usados na prosa moderna
00:48:02.560 --> 00:48:05.734
ou imprensa escrita ou toponímia.
00:48:05.734 --> 00:48:11.209
Então, a utilização casual diária
usa as vogais extra
00:48:12.049 --> 00:48:13.519
e não usa os diacríticos.
00:48:13.519 --> 00:48:15.607
Porque eles são,
obviamente, mais complicados
00:48:15.607 --> 00:48:17.893
e têm todo o tipo de regras
e ninguém sabe as regras.
00:48:18.393 --> 00:48:20.531
- (risos)
- Então, há duas variantes.
00:48:20.531 --> 00:48:25.222
Há a variante casual para prosa
00:48:25.222 --> 00:48:27.827
e há a da Bíblia e da poesia.
00:48:27.827 --> 00:48:32.200
que vem sempre
no tradicional texto diacriticizado.
00:48:32.200 --> 00:48:33.302
Para ser útil,
00:48:33.302 --> 00:48:37.428
o lexema teria que reconhecer
ambas as variantes de cada palavra
00:48:37.428 --> 00:48:39.747
e cada forma
de cada palavra.
00:48:40.477 --> 00:48:43.391
Portanto, esse é um caso de utilização
muito abrangente
00:48:43.391 --> 00:48:46.250
para variantes oficiais estáveis.
00:48:46.250 --> 00:48:49.262
Não é dialeto, não é regional,
00:48:49.262 --> 00:48:53.627
são, basicamente, dois sistemas
morfológicos coexistentes.
00:48:54.427 --> 00:48:58.786
E eu também não sei exatamente
como expressar isso no lexema, agora,
00:48:58.786 --> 00:49:02.800
o que é uma das coisas que me impede,
em resposta parcial à pergunta do Magnus,
00:49:02.800 --> 00:49:05.238
de carregar as partes que estão prontas
00:49:05.238 --> 00:49:09.394
do maior dicionário Hebreu,
que é de domínio público
00:49:09.394 --> 00:49:12.927
e que tenho andar a digitalizar
há vários anos.
00:49:12.927 --> 00:49:14.723
Uma grande porção está pronta,
00:49:14.723 --> 00:49:16.459
mas não o ponho no lexema agora
00:49:16.459 --> 00:49:20.115
porque, basicamente, não sei
como resolver este problema.
00:49:20.115 --> 00:49:23.387
Está bem, vamos resolver
este problema aqui. (risos)
00:49:24.303 --> 00:49:26.021
Tem de ser possível.
00:49:29.875 --> 00:49:32.047
Mais perguntas?
00:49:37.003 --> 00:49:39.735
Se não, então muito obrigada.
00:49:40.435 --> 00:49:44.915
(aplausos)