0:00:06.303,0:00:07.362
(Lydia) Muito obrigada.
0:00:07.362,0:00:11.244
Então, nesta conferência,[br]um dos grandes temas são as linguagens.
0:00:11.244,0:00:13.710
Então...
0:00:13.710,0:00:18.368
Quero dar-vos uma visão geral [br]de onde estamos atualmente
0:00:18.368,0:00:19.734
no que diz respeito a linguagens
0:00:19.734,0:00:22.167
e para onde podemos ir daqui.
0:00:28.956,0:00:32.580
A Wikidada pretende dar a mais pessoas[br]mais acesso a mais conhecimento
0:00:32.580,0:00:37.168
e a linguagem é uma parte muito importante[br]para tornar isso realidade.
0:00:38.115,0:00:43.291
Especialmente, porque cada vez mais [br]as nossas vidas dependem da tecnologia.
0:00:44.114,0:00:48.873
E, como um dos palestrantes [br]mencionou há pouco,
0:00:49.613,0:00:51.588
alguma da tecnologia [br]deixa as pessoas para trás
0:00:51.588,0:00:55.020
simplesmente porque[br]não falam determinada linguagem,
0:00:55.320,0:00:57.573
o que não está correto.
0:00:58.473,0:01:02.097
Então, nós queremos fazer algo[br]em relação a isso.
0:01:02.927,0:01:05.841
E, de forma a mudar isso, [br]precisamos de pelos menos duas coisas.
0:01:06.321,0:01:11.270
Primeiro, providenciar conteúdo[br]na língua nativa das pessoas
0:01:11.270,0:01:12.955
e, segundo,
0:01:12.955,0:01:15.770
providenciar [br]interação na sua língua,
0:01:15.770,0:01:19.189
nas aplicações[br]ou seja no que for que tenham.
0:01:20.367,0:01:25.277
A Wikidata ajuda em ambas as coisas.
0:01:25.277,0:01:28.408
Em relação à primeira,[br]conteúdo na sua língua,
0:01:28.408,0:01:30.879
isso é basicamente o que temos[br]nos itens e propriedades,
0:01:31.319,0:01:33.082
como descrevemos o mundo.
0:01:33.082,0:01:35.085
Isto não é, certamente,[br]tudo o que é preciso,
0:01:35.085,0:01:39.294
mas já dá uma ajuda considerável.
0:01:39.614,0:01:41.847
A outra coisa,[br]interação na sua língua,
0:01:41.847,0:01:46.389
é onde os lexemas entram em jogo
0:01:46.389,0:01:49.382
se quiserem falar[br]com o vosso assistente pessoal digital,
0:01:49.382,0:01:54.918
ou se quiserem que o vosso dispositivo[br]traduza um texto e afins.
0:01:56.404,0:01:59.254
Tudo bem, vamos olhar para [br]conteúdo na sua língua.
0:01:59.254,0:02:03.396
O que temos em itens e propriedades?
0:02:05.406,0:02:09.696
Para isto, as etiquetas nesses itens[br]e propriedades são cruciais.
0:02:10.236,0:02:14.866
Precisamos de saber como se chama [br]esta entidade de que estamos a falar.
0:02:15.656,0:02:19.847
E, em vez de falarmos sobre Q5...
0:02:19.847,0:02:22.180
Alguém que fale inglês[br]sabe que isso é um "humano",
0:02:22.180,0:02:24.706
alguém que fale alemão[br]sabe que é um "mensch",
0:02:24.706,0:02:26.374
e por aí adiante.
0:02:26.374,0:02:29.742
Então, estas etiquetas [br]nos itens e propriedades
0:02:29.742,0:02:33.619
estão a fechar as brechas[br]entre humanos e máquinas
0:02:33.619,0:02:35.439
e entre humanos e humanos.
0:02:35.439,0:02:40.115
Fazendo com que mais conhecimento[br]esteja acessível para eles.
0:02:43.270,0:02:46.290
Isso é um bom objetivo.
0:02:46.290,0:02:48.342
Mas qual é o aspeto disso?
0:02:48.342,0:02:49.607
Bem, é este.
0:02:50.947,0:02:52.416
O que estão a ver aqui
0:02:52.416,0:02:58.496
é que a maioria dos items[br]na Wikidata tem duas etiquetas,
0:02:58.496,0:03:00.767
portanto, são etiquetados em duas línguas.
0:03:01.697,0:03:03.851
Depois disso, é um, e depois três
0:03:03.851,0:03:06.115
e depois fica muito triste.
0:03:06.781,0:03:08.581
(riso tímido)
0:03:10.047,0:03:12.713
Eu penso que temos que fazer melhor.
0:03:14.185,0:03:15.319
Mas, por outro lado,
0:03:15.319,0:03:17.478
eu, na verdade, estava à espera[br]de muito pior.
0:03:17.478,0:03:19.560
Estava à espera que a média fosse um.
0:03:19.560,0:03:22.503
Portanto, fiquei[br]bastante contente em ver dois. (risos)
0:03:24.921,0:03:26.186
Certo.
0:03:27.156,0:03:29.527
Mas, o interessante não é só saber
0:03:29.527,0:03:33.742
quantas etiquetas os nossos items[br]e propriedades têm,
0:03:33.742,0:03:36.565
também é interessante ver[br]em que línguas.
0:03:38.045,0:03:43.764
Aqui têm um gráfico das línguas
0:03:43.764,0:03:46.838
que têm etiquetas para itens.
0:03:46.838,0:03:50.669
A maior parte é Outra.
0:03:51.229,0:03:53.863
Então, peguei nas 100 maiores línguas
0:03:54.483,0:03:58.902
e tudo o resto são Outras,[br]para que o gráfico se perceba.
0:03:59.542,0:04:02.142
Depois, há inglês e holandês,
0:04:03.002,0:04:04.254
francês,
0:04:05.924,0:04:09.129
e não nos esqueçamos do... asturiano.
0:04:09.659,0:04:11.889
- (plateia 1) (grito de entusiasmo)[br]- De facto!
0:04:13.899,0:04:16.954
Então, podem ver que há aqui [br]um considerável desequilíbrio
0:04:16.954,0:04:20.114
e o foco ainda se mantém muito no inglês.
0:04:21.236,0:04:24.367
Outra coisa que notamos [br]é que nas Propriedades,
0:04:24.367,0:04:25.999
as coisas estão bem melhores.
0:04:27.399,0:04:32.750
E penso que, em parte, isso deve-se[br]a haver muito menos propriedades.
0:04:32.750,0:04:36.770
Então, mesmo comunidades menores[br]têm hipótese de se manter a par.
0:04:36.770,0:04:39.173
Mas também é uma parte importante[br]da Wikidata,
0:04:39.173,0:04:41.159
a localização na tua própria língua.
0:04:41.159,0:04:42.384
Portanto, isso é bom.
0:04:45.752,0:04:47.842
O que quero salientar aqui [br]com o asturiano
0:04:47.842,0:04:53.698
é que uma comunidade pequena[br]pode realmente fazer uma enorme diferença
0:04:54.448,0:04:57.085
com alguma dedicação e trabalho,
0:04:57.085,0:04:58.420
o que é muito fixe.
0:05:01.846,0:05:03.530
Uma pequena pergunta para vocês.
0:05:03.530,0:05:05.493
Se pegarmos em todas as propriedades [br]na Wikidata,
0:05:05.493,0:05:07.687
que não são indentificadores externos,
0:05:07.687,0:05:10.358
qual é o que tem mais etiquetas,[br]o maior número de linguagens?
0:05:10.767,0:05:13.717
(plateia) [inaudível]
0:05:13.717,0:05:16.786
Ouço algum acordo em instância de?
0:05:17.316,0:05:19.443
Estariam errados.
0:05:19.873,0:05:22.210
É imagem. (risos)
0:05:23.160,0:05:26.366
Então, sim, isso diz-vos,[br]se falarem uma destas línguas
0:05:26.366,0:05:28.621
nas quais instância de[br]ainda não tem etiqueta,
0:05:28.621,0:05:30.190
que poderão querer adicioná-la.
0:05:31.642,0:05:35.676
Tem, neste momento, 148 etiquetas.
0:05:37.688,0:05:41.249
Mas isso é outro slide.
0:05:42.631,0:05:44.162
Este gráfico diz-nos algo
0:05:44.162,0:05:49.321
sobre quanto conteúdo estamos a tornar[br]disponível numa certa língua
0:05:49.321,0:05:52.042
e quanto conteúdo [br]é realmente utilizado.
0:05:52.042,0:05:55.448
Então, o que temos aqui [br]é basicamente uma curva
0:05:55.448,0:06:00.987
com a maior parte do conteúdo com[br]etiquetas em inglês, disponível em inglês
0:06:01.507,0:06:04.295
e a ser muito usado.
0:06:04.295,0:06:06.449
E depois, isto meio que baixa.
0:06:06.449,0:06:09.436
Mas, novamente, o que podem ver[br]são os valores atípicos
0:06:09.436,0:06:15.333
que têm muito mais conteúdo[br]do que seria de esperar
0:06:16.663,0:06:19.539
e isso é mesmo muito bom.
0:06:20.739,0:06:24.945
O problema é que não é tão utilizado.
0:06:25.565,0:06:28.742
Asturiano e holandês[br]deveriam ser mais altos.
0:06:28.742,0:06:31.994
Acho que, ajudar essas comunidades
0:06:33.266,0:06:35.493
a aumentar o uso [br]dos dados que coletaram,
0:06:35.493,0:06:37.682
é uma coisa realmente útil de se fazer.
0:06:42.910,0:06:46.801
O que esta análise e outras[br]nos mostraram é uma coisa boa,
0:06:46.801,0:06:51.378
embora estejamos a ver que os itens[br]que são mais utilizados
0:06:51.378,0:06:55.295
também tendem a ter mais etiquetas
0:06:55.295,0:06:58.188
ou ao contrário.[br]Não é completamente claro.
0:07:02.513,0:07:04.376
E então, a questão é:
0:07:04.806,0:07:07.009
estamos a servir[br]apenas as linguagens poderosas?
0:07:07.899,0:07:11.147
Ou conseguimos fazê-lo para todos?
0:07:12.757,0:07:17.743
O que vêm aqui [br]é um agrupamento das linguagens.
0:07:17.743,0:07:21.832
As linguagens que estão agrupadas[br]tendem a ter etiquetas juntas.
0:07:26.042,0:07:28.599
E conseguimos vê-las a aglomerarem-se.
0:07:28.599,0:07:34.065
Agora, temos aqui[br]um aglomerado similar, colorido,
0:07:34.065,0:07:39.475
baseado em quão viva, quão usada,
0:07:40.455,0:07:43.156
quão ameaçada a linguagem está.
0:07:43.156,0:07:44.642
E uma coisa boa que vemos aqui,
0:07:44.642,0:07:49.566
é que linguagens seguras[br]e ameaçadas
0:07:49.566,0:07:53.773
não formam dois aglomerados diferentes.
0:07:53.773,0:07:58.872
Elas misturam-se,
0:08:00.262,0:08:04.545
o que é muito melhor do que seria [br]se fosse ao contrário
0:08:04.545,0:08:09.377
onde as linguagens seguras,[br]as linguagens poderosas,
0:08:10.197,0:08:12.164
estariam apenas a ajudar-se entre elas.
0:08:12.594,0:08:14.356
Não, não é esse o caso.
0:08:14.356,0:08:17.417
E isso é uma coisa ótima.
0:08:17.417,0:08:20.042
Quando vi isto,[br]pensei que isto era muito bom.
0:08:23.474,0:08:25.169
Aqui está uma coisa similar,
0:08:26.239,0:08:28.800
onde olhamos para
0:08:30.230,0:08:34.222
os estados das linguagens,
0:08:34.222,0:08:36.225
para quantas etiquetas têm.
0:08:39.367,0:08:42.937
O que estão a ver é uma clara vantagem[br]para as linguagens seguras,
0:08:42.937,0:08:44.248
como seria de esperar.
0:08:45.508,0:08:46.693
Mas também estão a ver
0:08:46.693,0:08:54.407
que as linguagens na categoria dois,[br]e três e até mesmo quatro
0:08:54.407,0:08:59.280
não estão, na verdade, nada mal
0:08:59.280,0:09:02.367
em termos de representação[br]na Wikidata e em outros.
0:09:03.287,0:09:06.408
É uma coisa muito boa de se encontrar.
0:09:07.646,0:09:09.129
Agora, se olharmos para a mesma coisa
0:09:09.129,0:09:12.418
para quanto do conteúdo[br]dessas etiquetas
0:09:12.418,0:09:15.495
é atualmente usado [br]na Wikipedia, por exemplo,
0:09:17.455,0:09:22.563
emerge uma imagem semelhante.
0:09:23.603,0:09:29.813
E diz-nos que estas comunidades[br]estão a fazer um bom uso do tempo
0:09:29.813,0:09:34.504
preenchendo as etiquetas[br]para os itens mais usados, por exemplo.
0:09:36.410,0:09:40.493
Há valores atípicos[br]onde penso que podemos ajudar...
0:09:41.683,0:09:48.202
Ajudar as comunidades a encontrar sítios[br]onde o seu trabalho será mais valioso.
0:09:49.312,0:09:52.663
Mas, no geral, estou contente [br]com este panorama.
0:09:54.823,0:09:59.844
Agora, isto foram os itens[br]e as propriedades da Wikidata.
0:10:00.714,0:10:03.033
Agora vamos olhar para a interação[br]nas vossas línguas.
0:10:03.033,0:10:05.203
Portanto as porções do lexema [br]da Wikidata
0:10:05.203,0:10:09.394
onde nós descrevemos palavras[br]e as suas formas e significados.
0:10:10.167,0:10:13.301
Andamos a fazer isso [br]desde Maio do ano passado
0:10:16.391,0:10:19.127
e o conteúdo tem aumentado.
0:10:19.434,0:10:22.149
Podem ver aqui em azul os lexemas
0:10:22.149,0:10:25.938
e a vermelho,[br]as formas nesses lexemas
0:10:25.938,0:10:29.910
e a amarelo, os sentidos[br]nesses lexemas.
0:10:30.991,0:10:34.451
Então algumas comunidades--[br]já voltaremos a isso mais tarde--
0:10:34.451,0:10:39.793
dispenderam muito tempo a criar formas[br]e sentidos para os seus lexemas,
0:10:39.793,0:10:42.753
o que é muito útil
0:10:42.753,0:10:48.243
porque constrói o núcleo[br]dos conjuntos de dados que precisamos.
0:10:50.562,0:10:55.133
Agora, olhamos para todas as línguas
0:10:55.133,0:10:57.906
que têm lexemas na Wikidata.
0:10:57.906,0:11:01.003
Portanto, palavras que nós temos.
0:11:01.713,0:11:04.404
Há, agora, 310 línguas.
0:11:04.884,0:11:08.290
Agora, qual é que acham que é [br]a língua que está no topo
0:11:08.290,0:11:11.949
quando falamos em número de lexemas[br]neste momento na Wikidata?
0:11:12.813,0:11:19.073
(Plateia) [inaudível]
0:11:19.073,0:11:20.146
O quê?
0:11:20.146,0:11:21.741
(Plateia 2) Alemão.
0:11:21.741,0:11:24.142
Desculpe, já o tinha ouvido antes.
0:11:24.142,0:11:25.651
É Russo.
0:11:27.691,0:11:29.754
O Russo está bastante à frente.
0:11:31.647,0:11:33.832
E, para vos dar alguma perspetiva,
0:11:35.652,0:11:36.816
há diferentes opiniões
0:11:36.816,0:11:42.231
mas li, por exemplo,[br]que entre 1 000 e 3 000 palavras
0:11:42.231,0:11:45.450
chegam para chegar[br]ao nível conversacional noutra língua
0:11:45.450,0:11:49.461
e que entre 4 000 a 10 000 palavras[br]chegam para o nível avançado.
0:11:51.591,0:11:55.282
Então, ainda temos um pouco[br]para pôr em dia.
0:11:58.483,0:12:03.279
Uma coisa à qual quero[br]que prestem atenção é ao basco
0:12:03.279,0:12:07.744
com, aproximadamente, 10 000 lexemas.
0:12:09.244,0:12:13.003
Agora, se olharem para o número de formas [br]nesses lexemas,
0:12:14.013,0:12:16.497
o basco está lá em cima,
0:12:18.137,0:12:20.006
o que é bastante fixe.
0:12:20.006,0:12:24.930
Deviam ir a uma palestra que vos explique[br]o porquê desta situação.
0:12:27.181,0:12:31.175
Agora, olhando para o número de sentidos,[br]para o que as palavras querem dizer,
0:12:32.015,0:12:35.081
o basco chega mesmo ao topo da lista.
0:12:35.081,0:12:37.102
Eu acho que merece um aplauso.
0:12:37.102,0:12:40.861
(aplausos)
0:12:45.678,0:12:47.118
Outra pequena pergunta.
0:12:47.118,0:12:50.181
Qual é o lexema com o maior número[br]de traduções neste momento?
0:12:50.651,0:12:56.676
(Plateia) Gatos, gatos, [inaudível],[br]Douglas Adams, [inaudível].
0:12:56.676,0:13:00.014
Todos bons palpites, mas não.
0:13:00.882,0:13:04.137
É esta, a palavra para "água", em russo.
0:13:09.571,0:13:12.253
Já falámos muito
0:13:12.253,0:13:16.412
sobre quantos lexemas, [br]formas e sentidos temos,
0:13:16.412,0:13:20.493
mas isso é apenas uma parte [br]do que precisamos.
0:13:20.493,0:13:21.515
A outra parte
0:13:21.515,0:13:25.161
é descrever os lexemas, [br]formas e sentidos,
0:13:25.161,0:13:27.647
de uma forma que as máquinas possam ler.
0:13:27.647,0:13:30.039
E para isso temos declarações,[br]tal como nos itens.
0:13:31.479,0:13:36.362
E uma das propriedades[br]que usamos é o exemplo de utilização.
0:13:36.362,0:13:38.582
Portanto quem quer que esteja[br]a usar os dados
0:13:38.582,0:13:42.089
pode entender como usar [br]a palavra no contexto,
0:13:42.089,0:13:44.158
pode ser uma citação, por exemplo.
0:13:45.396,0:13:47.113
E aqui, o polaco reina.
0:13:47.900,0:13:49.764
Bom trabalho falantes de polaco.
0:13:54.219,0:13:57.680
Outra propriedade [br]que é mesmo útil é IPA,
0:13:57.680,0:14:00.186
logo, como é que se pronuncia uma palavra.
0:14:00.876,0:14:07.497
O russo, aparentemente, precisa[br]imenso de declarações IPA.
0:14:10.219,0:14:13.314
Mas, novamente, polaco em segundo.
0:14:17.148,0:14:20.753
E, por último, mas não menos importante, [br]temos a pronunciação áudio.
0:14:20.753,0:14:23.372
Isto corresponde a ligações [br]a ficheiros nos Commons
0:14:23.372,0:14:25.959
onde alguém diz a palavra,
0:14:25.959,0:14:29.913
de forma a que possamos ouvir [br]como um nativo a pronuncia
0:14:29.913,0:14:32.871
para o caso de não conseguires ler IPA, [br]por exemplo.
0:14:34.959,0:14:39.205
E há um projeto muito porreiro[br]baseado na Wiki,
0:14:39.205,0:14:40.474
chamado Lingua Libre,
0:14:40.884,0:14:45.173
onde podemos ir e ajudar a gravar[br]palavras na nossa língua
0:14:45.173,0:14:47.836
que pode ser depois adicionadas[br]a lexemas na Wikidata,
0:14:48.446,0:14:52.103
para que outras pessoas possam entender[br]como pronunciar as palavras.
0:14:53.663,0:14:55.694
(plateia 3) Há alguma ligação para isso?
0:14:55.694,0:14:57.485
Se procurarem por "Lingua Libre"...
0:14:57.485,0:15:00.981
Tenho a certeza de que alguém pode[br]publicá-la no nosso canal do Telegram.
0:15:03.138,0:15:04.621
Aqueles tipos são os maiores.
0:15:04.621,0:15:06.726
Fizeram uma coisa mesmo fixe[br]com a Wikibase.
0:15:09.416,0:15:10.617
Certo.
0:15:12.556,0:15:17.285
Então, a questão é,[br]para onde seguimos daqui?
0:15:19.165,0:15:22.010
A julgar pelos números que vos mostrei,
0:15:23.030,0:15:25.172
já fizemos um longo caminho
0:15:25.172,0:15:28.430
na direção de dar a mais pessoas[br]mais acesso a mais conhecimento
0:15:28.430,0:15:31.240
quando procuram línguas na Wikidata.
0:15:32.530,0:15:36.392
Mas ainda há muito trabalho pela frente.
0:15:38.992,0:15:42.341
Algumas coisas que podem fazer [br]para ajudar, por exemplo,
0:15:42.341,0:15:44.921
é organizar maratonas de etiquetagem,
0:15:44.921,0:15:50.124
como juntar pessoas[br]para etiquetar items na Wikidata.
0:15:50.914,0:15:55.121
Ou fazer uma maratona de etiquetagem[br]para lexemas na vossa língua,
0:15:55.121,0:15:59.212
para introduzir as palavras mais usadas[br]na vossa língua na Wikidata.
0:16:00.773,0:16:03.285
Ou podem usar uma ferramenta [br]como o Terminator,
0:16:03.285,0:16:08.493
que vos ajuda a encontrar os itens [br]mais importantes na vossa língua
0:16:08.493,0:16:11.549
a que ainda falte alguma etiqueta.
0:16:13.274,0:16:18.359
Sendo que mais importante é medido[br]por quantas vezes é usado
0:16:18.359,0:16:22.553
em outros items da Wikidata[br]como ligações ou declarações.
0:16:25.768,0:16:30.022
E, claro, para a porção do lexema,
0:16:31.342,0:16:35.169
agora que temos uma cobertura básica[br]desses lexemas,
0:16:35.169,0:16:41.163
queremos também construí-los,[br]adicionar-lhes mais declarações
0:16:41.163,0:16:44.401
para que eles possam, realmente, [br]construir a base
0:16:44.401,0:16:47.421
para construir aplicações significativas [br]a partir deles.
0:16:48.141,0:16:50.795
Porque estamos a aproximarmo-nos[br]dessa massa crítica,
0:16:50.795,0:16:53.496
mas ainda estamos longe disso,
0:16:53.496,0:16:56.624
de podermos construir aplicações[br]sérias sobre isto.
0:16:58.097,0:17:01.680
E espero que todos vocês[br]se juntem a nós para fazermos isso.
0:17:02.583,0:17:07.103
E isso já me leva
0:17:07.103,0:17:09.843
a uma pequena ajuda dos nossos amigos.
0:17:09.843,0:17:12.812
Bruno, queres vir até aqui
0:17:13.882,0:17:16.854
para nos falares [br]sobre as máscaras lexicais?
0:17:17.541,0:17:18.567
(Bruno) Obrigado, Lydia,
0:17:18.567,0:17:21.519
por me cederes este bocadinho de tempo
0:17:21.519,0:17:24.150
para apresentar o trabalho[br]que estamos a fazer na Google
0:17:24.150,0:17:29.635
com o Denny, que a maior parte de vocês[br]já deve ter ouvido falar ou conhece.
0:17:30.126,0:17:32.030
Porque na Google-- eu sou linguista,
0:17:32.030,0:17:36.150
portanto estou muito feliz de estar aqui[br]entre outros entusiastas de linguagens--
0:17:36.620,0:17:39.278
nós também estamos a construir [br]alguns léxicos
0:17:39.278,0:17:41.766
e construimos esta tecnologia,
0:17:41.766,0:17:45.589
ou esta abordagem, que pensamos [br]poderá ser útil para vocês.
0:17:46.369,0:17:48.455
Só para vos situar,
0:17:48.455,0:17:52.068
isto é a minha experiência[br]lexicográfica a falar.
0:17:52.788,0:17:54.347
Quando criamos bases de dados[br]de léxico,
0:17:54.347,0:17:58.623
é preciso muito tempo para a manter,[br]mantê-la consistente
0:17:58.623,0:18:00.125
e para trocar dados,
0:18:00.125,0:18:02.027
como vocês provavelmente sabem.
0:18:02.517,0:18:05.927
Houve várias tentativas para unificar[br]as características e propriedades
0:18:05.927,0:18:09.184
que descrevem os lexemas[br]e as formas.
0:18:09.184,0:18:10.936
Ainda não é um problema resolvido,
0:18:10.936,0:18:13.958
mas há ainda algumas tentativas [br]de unificação nesse sentido.
0:18:13.958,0:18:15.209
Mas o que está mesmo a faltar--
0:18:15.209,0:18:18.732
e isto é um problema que tivemos[br]no início do nosso projeto na Google--
0:18:18.732,0:18:21.607
é tentar ter uma estrutura interna
0:18:22.197,0:18:25.910
que descreva como [br]uma entrada lexical se deverá parecer,
0:18:25.910,0:18:28.581
que tipo de dados[br]ou que tipo de informação temos
0:18:28.581,0:18:32.237
e a especificação pretendida.
0:18:32.237,0:18:38.187
Assim, isto foi o que inventámos,[br]esta coisa chamada máscara lexical.
0:18:38.897,0:18:44.841
Uma máscara lexical descreve[br]o que é expectável de uma entrada,
0:18:44.841,0:18:47.329
de uma entrada lexicográfica, [br]para estar completa,
0:18:47.329,0:18:51.436
tanto em termos de número de formas[br]que se esperam de um lexema
0:18:51.436,0:18:55.607
como do número de características[br]que se esperam em cada forma.
0:18:56.397,0:18:58.329
Aqui está um exemplo [br]para adjetivos italianos.
0:18:58.329,0:19:02.002
Seria de esperar, em italiano, termos[br]quatro formas para os adjetivos
0:19:02.002,0:19:05.383
e cada uma dessas formas[br]ter uma combinação específica
0:19:05.383,0:19:07.946
de género e número de características.
0:19:08.606,0:19:12.672
Isto é o que esperamos[br]de adjetivos italianos.
0:19:12.672,0:19:16.176
Claro que, podemos ter[br]máscaras extremamente complexas,
0:19:16.176,0:19:20.783
como a conjugação dos verbos em francês,[br]que é bastante extensa.
0:19:20.783,0:19:23.487
E não vos quero mostrar [br]nenhuma máscara russa
0:19:23.487,0:19:25.378
porque não cabe no ecrã.[br](risos)
0:19:26.308,0:19:29.531
E também temos especificações[br]detalhadas,
0:19:29.531,0:19:33.421
porque distinguimos[br]o que está ao nível da forma.
0:19:33.421,0:19:37.544
Então, aqui temos nomes russos[br]que têm três números
0:19:37.544,0:19:40.048
e alguns casos [br]com diferentes formas.
0:19:40.048,0:19:43.086
Mas, eles também têm [br]uma especificação de entrada de gama
0:19:43.086,0:19:45.590
que diz que o nome em particular tem
0:19:45.590,0:19:50.133
um género inerente e uma característica [br]de animação inerente
0:19:50.133,0:19:52.488
que também são especificados na máscara.
0:19:54.518,0:19:58.779
Também queremos salientar[br]que uma máscara fornece uma especificação
0:19:58.779,0:20:01.874
para qual deve ser[br]o aspeto de uma entrada.
0:20:01.874,0:20:07.158
Mas, podemos ter máscaras mais pequenas,[br]para aspetos defeituosos da forma
0:20:07.158,0:20:11.282
ou aspetos defeituosos do lexema[br]que acontecem na linguagem.
0:20:11.282,0:20:14.537
Aqui podem ver a forma mais simples[br]dos verbos franceses
0:20:14.537,0:20:19.729
que só têm a terceira pessoa do singular[br]para todos os verbos metereológicos,
0:20:19.729,0:20:23.969
como "chove" ou "neva",[br]em português.
0:20:24.537,0:20:26.493
Distinguimos estes dois níveis.
0:20:26.923,0:20:29.962
E como é que usamos isto na Google?
0:20:29.962,0:20:32.643
Quando temos um léxico[br]que queremos usar,
0:20:33.063,0:20:38.309
usamos a máscara para[br]literalmente atirar os léxicos,
0:20:38.309,0:20:40.163
todas as entradas, através da máscara
0:20:40.163,0:20:44.303
e ver que entrada tem problemas[br]em termos de estrutura.
0:20:44.303,0:20:46.523
Está a faltar uma forma?[br]Falta uma característica?
0:20:46.523,0:20:51.497
E, quando surge um problema,[br]fazemos validação humana
0:20:51.497,0:20:53.751
ou só para ver se passa na máscara.
0:20:53.751,0:20:57.924
É uma ferramenta extremamente poderosa [br]para conferir a qualidade da estrutura.
0:20:59.427,0:21:01.964
Portanto, estamos felizes em anunciar hoje
0:21:01.964,0:21:05.408
que recebemos luz verde [br]para disponibilizarmos o código fonte.
0:21:05.948,0:21:07.573
Portanto este é o esquema.
0:21:07.573,0:21:09.477
Se quiserem isto, podemos lançar
0:21:09.477,0:21:13.483
e pode ser providenciado[br]à Wikidata em ficheiros ShEx.
0:21:13.483,0:21:16.688
Este é o ficheiro ShEx para nomes [br]em alemão,
0:21:16.688,0:21:20.428
e o Denny está a trabalhar na conversão[br]da nossa especificação interna
0:21:20.428,0:21:23.666
para uma mais de código aberto.
0:21:23.666,0:21:27.522
Atualmente temos mais de 25 linguagens,
0:21:27.522,0:21:29.225
portanto esperamos crescer do nosso lado,
0:21:29.225,0:21:34.350
mas também fazer disto uma oportunidade [br]para colaborar noutras línguas.
0:21:34.350,0:21:40.728
E uma dessas colaborações [br]é a que o Denny tem com o Lukas.
0:21:40.728,0:21:45.052
O Lukas tem umas ferramentas ótimas [br]para ter uma interface com o utilizador
0:21:45.052,0:21:51.061
que ajuda o utilizador ou contribuidor[br]a adicionar mais formas.
0:21:51.061,0:21:54.151
Portanto, se quiserem adicionar[br]um adjetivo em francês,
0:21:54.151,0:21:59.057
a interface diz-vos[br]quantas formas são expetáveis
0:21:59.057,0:22:01.562
e e quantas características[br]essa forma deverá ter.
0:22:01.562,0:22:06.268
Então a nossa máscara ajudará a ferramenta[br]a ser definida e expandida.
0:22:07.048,0:22:08.385
É isto.
0:22:08.591,0:22:10.358
(Lydia) Muito obrigado.
0:22:10.358,0:22:13.523
(aplausos)
0:22:14.249,0:22:16.891
Certo. Há questões?
0:22:16.891,0:22:19.381
Querem falar mais sobre os lexemas?
0:22:19.697,0:22:21.475
- (plateia 4) Sim.[br]- Sim. (risos)
0:22:33.055,0:22:35.380
(plateia 4) A minha questão,[br]porque estava a falar
0:22:35.380,0:22:38.996
acerca de dar mais acesso[br]a mais pessoas em mais línguas,
0:22:38.996,0:22:42.444
mas há muitas línguas [br]que não podem ser usadas na Wikidata.
0:22:42.444,0:22:44.588
Então que solução é que têm para isso?
0:22:45.739,0:22:47.686
Quando diz que não podem ser usadas,
0:22:47.686,0:22:50.308
está a referir-se à entrada de etiquetas?
0:22:50.308,0:22:52.578
- (plateia 4) Etiquetas, descrições.[br]- Certo.
0:22:52.578,0:22:55.498
Para lexemas, é um pouco diferente
0:22:55.498,0:22:57.793
porque aí não temos [br]essa restrição.
0:22:58.923,0:23:05.425
Para etiquetas nos itens e propriedades,[br]há realmente alguma restrição
0:23:05.433,0:23:12.411
porque quisemos ter a certeza[br]que não é completamente--
0:23:12.411,0:23:14.229
qualquer um faz o que quiser
0:23:14.229,0:23:17.769
e torna-se ingerível.
0:23:17.769,0:23:23.898
Até uma comunidade pequena que queira[br]uma língua e que queira trabalhar nisso:
0:23:23.898,0:23:26.657
venham ter connosco e fazemos acontecer.
0:23:26.657,0:23:29.202
(plateia 4) Nós fizemos isso[br]no Hackathon de Praga em Maio
0:23:29.202,0:23:32.359
e demorou quase até Agosto[br]até conseguirmos usar a nossa linguagem.
0:23:32.359,0:23:34.935
- Sim.[br]- (plateia 4) Portanto, é muito lento.
0:23:34.935,0:23:37.854
Sim, infelizmente é muito lento.
0:23:37.854,0:23:39.883
Estamos a trabalhar[br]com o Comité de Linguagem
0:23:39.883,0:23:46.048
a tentar resolver os mais básicos...
0:23:49.537,0:23:55.447
Ter o acordo sobre que tipo [br]de linguagens são realmente "permitidas"
0:23:56.047,0:23:59.838
e isso tem demorado tempo demais,
0:23:59.838,0:24:04.178
o que pode ser a razão para o vosso pedido[br]ter demorado mais do que devia.
0:24:04.778,0:24:06.213
(plateia 4) Obrigada.
0:24:06.555,0:24:07.610
(plateia 5) Obrigado.
0:24:07.610,0:24:10.788
Lydia, se se lembra das estatísticas[br]que mostrou,
0:24:10.788,0:24:12.886
o número de lexemas por linguagem.[br]- Sim.
0:24:12.886,0:24:17.599
(plateia 5) Então, contaram todos [br]as formas como pontos de dados
0:24:17.599,0:24:20.034
ou apenas os lexemas?
0:24:20.909,0:24:22.621
(Lydia) Está a falar disto?
0:24:22.621,0:24:24.053
A qual é que se refere?
0:24:24.053,0:24:25.529
(plateia 5) Sim, exatamente.
0:24:25.797,0:24:28.341
Se se lembrar, este número é [inaudível]
0:24:28.341,0:24:31.514
todas as formas, todos os lexemas[br]ou apenas quantos lexemas há?
0:24:31.514,0:24:33.915
Não, isto é apenas o número de lexemas.
0:24:33.915,0:24:35.395
(plateia 5) Só o número de lexemas.
0:24:35.395,0:24:36.797
Então é apenas uma estatística
0:24:36.797,0:24:39.310
porque, se depois[br]contássemos com as formas--
0:24:39.310,0:24:40.614
por isso pergunto--
0:24:40.614,0:24:42.637
então, todas as línguas[br]com morfologia de inflexão,
0:24:42.637,0:24:44.927
como russo, sérvio,[br]esloveno, etc,
0:24:44.927,0:24:47.616
têm uma vantagem natural,[br]porque têm tantas.
0:24:47.616,0:24:51.630
Daí, este tipo de saltos aqui[br]no número de formulários.
0:24:51.630,0:24:53.851
(plateia 5) Sim, era esse mesmo.[br]Obrigado.
0:24:56.386,0:25:00.224
(plateia 6) Tenho só uma [br]pergunta rápida acerca de...
0:25:00.524,0:25:06.824
Quando estávamos a falar sobre [br]os itens e propriedades.
0:25:07.124,0:25:09.921
Até onde eu consigo entender,[br]não há, atualmente, forma
0:25:09.921,0:25:12.746
de dar uma fonte definida[br]a qualquer das etiquetas
0:25:12.746,0:25:14.606
e descrições que foram dadas.[br]- Sim.
0:25:14.606,0:25:18.047
(plateia 6) Então, não há nada[br]porque, quando estás a falar
0:25:18.047,0:25:20.920
acerca de uma propriedade de um item,
0:25:20.920,0:25:24.339
podes ter, por exemplo,[br]etiquetas conflituosas.
0:25:24.339,0:25:27.999
- Sim.[br]- (Plateia 6) Então, esta pessoa é como...
0:25:28.302,0:25:30.432
Falamos à pouco sobre [br]coisas indígenas, por exemplo.
0:25:30.432,0:25:35.965
Então esta pessoa é um artista norueguês,[br]de acordo com uma fonte,
0:25:35.965,0:25:38.750
e um artista sami,[br]de acordo com outra fonte.
0:25:39.230,0:25:42.633
Ou, por exemplo, em estoniano,[br]tivemos um problema
0:25:42.633,0:25:47.729
onde tivemos que mudar uma terminologia[br]para a terminologia oficial usada
0:25:47.729,0:25:49.482
nos léxicos oficiais.
0:25:49.482,0:25:52.262
Mas não temos realmente [br]uma forma de indicar porquê.
0:25:52.262,0:25:53.596
Qual foi a fonte disto
0:25:53.596,0:25:55.561
e por que razão isto está melhor[br]do que estava.
0:25:55.561,0:25:57.150
Fui apenas eu, como uma pessoa[br]ao acaso,
0:25:57.150,0:25:59.615
a mudar isto [br]para quem quer que o veja.
0:25:59.615,0:26:02.520
Então, há um plano[br]para isto ser possível de qualquer forma,
0:26:02.520,0:26:06.355
de modo a que possamos realmente ter[br]fontes confiáveis para dados de linguagem?
0:26:07.045,0:26:11.358
Isso é parcialmente possível.
0:26:11.358,0:26:15.958
Por exemplo, quando há[br]um item para uma pessoa,
0:26:15.968,0:26:22.720
pode ter as declarações: primeiro nome,[br]último nome, e por aí em diante.
0:26:22.720,0:26:26.226
E, nessa altura, pode-se providenciar[br]referências para isso.
0:26:28.061,0:26:32.544
Tenho algumas reticências em [br]adicionar mais complexidade
0:26:32.544,0:26:35.557
para referências [br]em etiquetas e descrições,
0:26:35.557,0:26:38.624
mas se as pessoas realmente pensam
0:26:38.624,0:26:44.939
que isto é algo que não está coberto[br]por qualquer referência na declaração,
0:26:44.939,0:26:46.803
então falamos sobre isso.
0:26:48.809,0:26:53.303
Mas temo que [br]vá adicionar muita complexidade
0:26:53.303,0:26:56.523
para o que espero serem poucos casos.
0:26:57.393,0:27:00.188
Mas estou disposta [br]a ser convencida do contrário
0:27:00.188,0:27:04.017
se as pessoas realmente sentem[br]que isto tem relevãncia.
0:27:04.017,0:27:07.737
(plateia 6) Se for adicionado[br]provavelmente não deveria ser o padrão,
0:27:07.737,0:27:12.182
mostrado a todos os utilizadores [br]iniciados na interface, em todos os casos.
0:27:12.182,0:27:16.190
Podia ser mais, "Clica aqui se queres [br]adicionar algo específico sobre isto."
0:27:17.632,0:27:23.368
Temos alguma ideia de quantas vezes[br]isso teria importância?
0:27:24.340,0:27:26.423
(plateia 6) Em estónio, por exemplo--
0:27:26.423,0:27:29.034
eu imagino que seja assim[br]noutras línguas também--
0:27:29.034,0:27:34.113
por exemplo, há um nome oficial[br]que é a legítima tradução
0:27:34.113,0:27:36.726
para inglês de,
0:27:36.726,0:27:40.314
digamos, um tipo específico [br]de municipalidade.
0:27:40.314,0:27:42.182
Este foi o meu caso[br]de utilizador, por exemplo,
0:27:42.182,0:27:44.409
onde estávamos a usar a palavra "paróquia"
0:27:45.159,0:27:50.615
na qual a palavra estónia original[br]significava paróquia de igreja
0:27:50.615,0:27:51.779
e essa foi a sua origem,
0:27:51.779,0:27:54.809
mas não é agora a tradução oficial [br]que a Estónia recebe atualmente.
0:27:54.809,0:27:58.853
Neste caso, eu juntaria-a apenas como [br]declarações de nome oficial
0:27:58.853,0:28:00.817
e juntaria a referência aí.
0:28:02.032,0:28:03.158
(plateia 6) Certo.
0:28:05.026,0:28:06.572
Mais questões, sim?
0:28:07.682,0:28:09.944
(Asaf) Dois comentários rápidos.
0:28:09.944,0:28:13.934
Falou especificamente do asturiano[br]como uma linguagem que está em alta
0:28:13.934,0:28:16.385
e eu acho que isso é falso.
0:28:16.385,0:28:17.644
Conte-me.
0:28:17.644,0:28:19.748
(Asaf) Eu penso que é apenas um bot
0:28:19.748,0:28:24.068
que colou nomes de pessoas,[br]nomes apropriados para pessoas,
0:28:24.068,0:28:27.172
e disse "Bem, isto é exatamente [br]como em francês ou espanhol"
0:28:27.172,0:28:28.558
e copiou-o massivamente.
0:28:28.558,0:28:33.316
Uma prova é que [br]não se vê essa energia no asturiano,
0:28:33.316,0:28:37.205
em coisas que realmente requerem tradução,[br]como nomes de propriedades,
0:28:37.205,0:28:39.568
ou nomes de itens [br]que não são nomes próprios.
0:28:39.568,0:28:41.119
Asaf, partes-me o coração.
0:28:41.119,0:28:43.108
(Asaf) Eu sei, [br]costumo estragar as festas,
0:28:43.108,0:28:48.458
mas tenho boas notícias também,[br]sobre os números das pronunciações.
0:28:49.408,0:28:53.515
Como saberão, o Commons está cheio[br]de ficheiros de pronunciação
0:28:53.515,0:28:54.668
e, por exemplo,
0:28:54.668,0:29:01.102
o holandês tem, nada mais nada menos, que[br]300 000 ficheiros desses introduzidos
0:29:01.802,0:29:05.051
que necessitam de ser "ingeridos"[br]de alguma forma.
0:29:05.051,0:29:07.697
Então, se alguém está à procura[br]de um projeto para as horas vagas,
0:29:07.697,0:29:08.807
há imensos
0:29:08.807,0:29:13.210
ficheiros de pronunciação, classificados [br]e categorizados no Commons
0:29:13.210,0:29:16.763
na categoria "Pronunciação" por linguagem.
0:29:16.763,0:29:22.840
Estão à espera de ser combinados [br]com os lexemas e postos no lexema.
0:29:23.030,0:29:25.484
E estava a pensar [br]se me poderia dizer alguma coisa
0:29:25.484,0:29:26.585
sobre o quadro referência,
0:29:26.585,0:29:28.757
algo sobre quanto investimento
0:29:28.757,0:29:31.995
ou o que podemos esperar[br]relativo ao lexema no próximo ano,
0:29:31.995,0:29:34.020
porque eu, pessoalmente, [br]mal posso esperar.
0:29:34.839,0:29:37.044
Não pode? (risos)
0:29:37.044,0:29:39.118
- (Asaf) Por mais.[br]- Sim. (risos)
0:29:40.339,0:29:42.329
Penso que ...
0:29:44.401,0:29:49.523
Neste momento, estamos concentrados[br]mais na Wikibase e na qualidade de dados
0:29:51.283,0:29:55.087
para ver quanta tração isto tem
0:29:55.087,0:30:01.516
e para obter mais para descobrir[br]onde os próximos pontos críticos estão
0:30:01.516,0:30:06.003
e depois voltar atrás e melhorar[br]mais os dados lexicográficos.
0:30:06.903,0:30:09.790
E uma das coisas [br]que adoraria ouvir de vocês
0:30:09.790,0:30:14.136
é onde exatamente vocês vêm[br]que poderão ser dados os próximos passos,
0:30:14.136,0:30:15.966
onde querem melhorias
0:30:15.966,0:30:20.340
para que nós possamos descobrir[br]como fazer isso acontecer.
0:30:21.065,0:30:22.810
Mas claro que está certo,
0:30:22.810,0:30:25.712
ainda há muito a fazer[br]também do lado técnico.
0:30:30.363,0:30:35.848
(plateia 7) Ao carregarmos[br]as palavras bascas com formas,
0:30:35.848,0:30:38.259
e verão alguns destes tipos de coisas,[br]estávamos todos...
0:30:38.259,0:30:41.329
Na semana passada[br]dissemos "Somos os primeiros em algo."
0:30:41.329,0:30:42.919
[inaudível]
0:30:42.919,0:30:44.928
Apareceu na imprensa e foi tipo:
0:30:44.928,0:30:49.208
"O basco foi o primeiro em algo,[br]foram os primeiros."
0:30:49.208,0:30:50.466
(risos)
0:30:50.466,0:30:53.318
E depois as pessoas perguntaram[br]"Mas para que serve isto?"
0:30:54.538,0:30:56.749
Nós não temos uma boa resposta.
0:30:56.749,0:30:57.888
Quer dizer, certo,
0:30:57.888,0:31:01.841
isto vai ajudar computadores[br]a entender mais a nossa linguagem, sim.
0:31:01.841,0:31:05.279
Mas que tipo de ferramentas[br]podemos fazer no futuro?
0:31:05.279,0:31:07.407
E ainda não temos uma boa resposta.
0:31:07.407,0:31:10.625
Portanto eu não sei[br]se vocês têm uma boa resposta para isto.
0:31:10.625,0:31:12.742
(risos) Eu não sei [br]se eu tenho uma boa resposta,
0:31:12.742,0:31:14.746
mas tenho uma resposta.
0:31:15.380,0:31:20.225
Então, eu penso, neste momento,[br]como estava a dizer [inaudível],
0:31:20.225,0:31:21.924
que ainda não chegámos à massa crítica
0:31:21.924,0:31:25.529
onde podemos construir um monte [br]de ferramentas realmente interessantes.
0:31:25.529,0:31:27.707
Mas já existem algumas ferramentas.
0:31:28.157,0:31:31.692
No outro dia,[br]a Esther Pandalia, por exemplo,
0:31:31.692,0:31:33.817
lançou uma ferramenta onde podemos ver,
0:31:35.587,0:31:38.889
penso que eram as palavras num globo,
0:31:38.889,0:31:41.901
onde eram faladas,[br]de onde tinham vindo.
0:31:42.461,0:31:44.090
Posso estar errada sobre isto.
0:31:44.090,0:31:46.286
Mas ela respondeu no chat [br]do projeto na Wikidata.
0:31:46.286,0:31:48.984
Podem vê-lo ali.
0:31:49.574,0:31:51.805
Então já vimos as primeiras ferramentas,
0:31:51.805,0:31:55.696
tal como já vimos, no passado,[br]quando a Wikidata começou.
0:31:56.846,0:31:59.602
Primeiro algumas... Como uma rede
0:31:59.602,0:32:03.424
e depois "Olha, há aqui esta coisa [br]que liga a esta outra coisa."
0:32:04.734,0:32:07.059
E à medida que temos mais dados
0:32:07.059,0:32:10.352
e chegamos mais perto da massa crítica,
0:32:11.702,0:32:14.747
tornam-se possíveis[br]aplicações mais poderosas.
0:32:15.607,0:32:17.516
Coisas como a Histropedia,
0:32:19.036,0:32:21.988
coisas como perguntas e respostas
0:32:21.988,0:32:26.463
no vosso assistente pessoal digital,[br]Platypus e assim por diante.
0:32:26.463,0:32:30.228
E estamos a ver [br]coisas semelhantes com os lexemas.
0:32:31.048,0:32:34.650
Estamos num estágio em que[br]podemos construir estes pequenos:
0:32:34.650,0:32:37.654
"Olha, há uma ligação [br]entre duas coisas
0:32:37.654,0:32:42.618
e há uma tradução dessa palavra[br]para esse estágio de linguagem."
0:32:42.618,0:32:47.687
E, à medida que construimos[br]e à medida que descrevemos mais palavras,
0:32:47.687,0:32:49.443
mais se torna possível.
0:32:49.443,0:32:51.795
Agora, o que é que isso torna possível?
0:32:53.322,0:33:00.103
Como o Ben, o nosso orador de antes,[br]estava a dizer acerca de traduções,
0:33:00.103,0:33:03.315
ser capaz de traduzir[br]de uma língua para outra.
0:33:03.315,0:33:07.839
E Jens, outro colega, [br]que está sempre a falar sobre
0:33:07.839,0:33:11.452
a União Europeia [br]andar sempre à procura de um tradutor
0:33:11.452,0:33:17.319
que possa fazê-lo de,[br]penso que era maltês para sueco.
0:33:17.319,0:33:19.027
- (plateia 8) Estónio.[br]- Estónio.
0:33:19.027,0:33:20.027
(risos)
0:33:22.016,0:33:26.211
E essa não é uma combinação usual.
0:33:27.111,0:33:31.735
Mas assim que temos todas essas linguagens[br]num lugar passível de ser lido por máquina
0:33:31.735,0:33:33.063
podemos fazer isso.
0:33:33.063,0:33:36.857
Podemos obter um dicionário
0:33:36.857,0:33:41.735
de estónio para maltês e vice-versa.
0:33:42.935,0:33:45.607
Então, incluir combinações[br]de linguagens em dicionários
0:33:45.607,0:33:47.791
que não foram incluídas antes
0:33:47.791,0:33:51.050
porque não havia [br]procura suficiente para elas, por exemplo,
0:33:51.050,0:33:55.380
para fazê-lo de forma financeiramente[br]viável e para justificar o trabalho.
0:33:55.380,0:33:57.147
Agora podemos fazer isso.
0:33:59.607,0:34:02.088
E depois a geração de texto.
0:34:02.088,0:34:03.653
A Lucie estava a falar
0:34:03.653,0:34:10.136
acerca de como ela está a trabalhar[br]com a Hattie em gerar textos
0:34:10.136,0:34:14.673
para iniciar artigos na Wikipedia[br]em línguas minoritárias.
0:34:15.423,0:34:19.382
Isso precisa de dados sobre palavras
0:34:19.382,0:34:22.589
e precisamos perceber a língua[br]para fazer isso.
0:34:23.469,0:34:28.133
Sim, e isto é só[br]o que me vem à cabeça agora.
0:34:28.573,0:34:30.494
Talvez a nossa audiência tenha mais ideias
0:34:30.494,0:34:34.353
do que querem fazer quando tivermos [br]todos esses gloriosos dados.
0:34:37.693,0:34:40.772
(plateia 9) Vou-nos desviar [br]do tópico dos lexemas.
0:34:40.772,0:34:42.536
Quero perguntar-vos algo.
0:34:42.536,0:34:45.514
Como posso eu, como membro da comunidade
0:34:45.514,0:34:49.925
influenciar que a prioridade [br]seja colocada na tarefa,
0:34:49.925,0:34:56.644
que um utilizador novo venha, e possa [br]indicar que línguas quer ver e editar
0:34:56.644,0:35:02.115
sem um qualquer conhecimento padrão[br]verbal secreto.
0:35:02.115,0:35:04.893
Talvez haja, este ano,[br]uma lista técnica de desejos
0:35:04.893,0:35:06.820
sem tópicos da Wikipedia.
0:35:06.820,0:35:10.119
Talvez haja esperança[br]de que possamos votar acerca
0:35:10.119,0:35:13.928
daquela coisa [br]que não arranjamos há sete anos.
0:35:13.928,0:35:17.607
Tem alguma ideia [br]ou comentário sobre isso?
0:35:18.217,0:35:20.198
Então, está a falar sobre o facto
0:35:20.198,0:35:23.258
de alguém que não esteja ligado [br]à Wikidata
0:35:23.258,0:35:25.391
não poder mudar[br]a sua linguagem facilmente?
0:35:25.391,0:35:27.839
(plateia 9) Não, para novos utilizadores.
0:35:28.309,0:35:30.689
Então, se estiverem ligados,
0:35:30.689,0:35:34.871
eles podem mudar a sua língua [br]no topo da página.
0:35:35.891,0:35:39.589
Depois, aparece onde...
0:35:39.599,0:35:42.013
onde as descrições das etiquetas estão
0:35:42.013,0:35:43.483
e podem editá-las.
0:35:45.507,0:35:49.009
(plateia 9) Bem, na verdade, muitas vezes[br]o fluxo de trabalho é,
0:35:49.009,0:35:52.217
se queremos ter [br]múltiplas línguas elas estão disponíveis,
0:35:52.217,0:35:55.419
e nem sempre acontece.
0:35:55.419,0:35:58.584
Talvez devamos sentar-nos[br]depois desta apresentação e mostra-me.
0:36:01.312,0:36:04.089
Fixe. Mais questões?
0:36:05.394,0:36:06.536
Sim.
0:36:11.415,0:36:13.196
(plateia 10) Obrigado pela apresentação.
0:36:13.896,0:36:15.127
Pode comentar
0:36:15.127,0:36:19.307
acerca do estado da correlação [br]com a comunidade do Wiktionary.
0:36:19.307,0:36:22.146
Do que eu tenho conseguido ver,[br]tem havido algumas discussões
0:36:22.146,0:36:26.051
acerca de importar [br]alguns elementos do trabalho,
0:36:26.051,0:36:30.333
mas parece haver algumas questões [br]de licenciamento e desentendimentos, etc.
0:36:30.333,0:36:31.438
Certo.
0:36:31.438,0:36:36.970
Então, as comunidades do Wiktionary[br]passaram muito tempo
0:36:36.970,0:36:38.973
a construir o Wiktionary.
0:36:38.973,0:36:42.643
Construiram
0:36:42.883,0:36:47.304
padrões extremamente complicados[br]e complexos
0:36:47.304,0:36:53.404
para construir as bonitas tabelas [br]que geram formulários para vocês
0:36:53.404,0:36:56.392
e é tudo realmente impressionante,
0:36:56.392,0:37:00.683
e um pouco louco,[br]se pensarmos bem nisso.
0:37:02.081,0:37:07.994
E, é claro, investiram [br]muito tempo e esforço a fazê-lo.
0:37:09.204,0:37:11.671
E, compreensivelmente,
0:37:11.671,0:37:17.116
não querem que isso seja agarrado
0:37:17.936,0:37:18.982
de qualquer maneira.
0:37:18.982,0:37:21.791
Então, há um pouco disso, vindo daí.
0:37:21.791,0:37:25.137
E está certo, tudo bem.
0:37:25.137,0:37:31.782
Agora, as primeiras comunidades Wiktionary[br]estão a falar de mudar isso
0:37:31.782,0:37:34.329
e importar alguns [br]dos dados deles para a Wikidata.
0:37:34.329,0:37:39.095
O russo, por exemplo, como já viram,[br]é um desses casos
0:37:39.785,0:37:42.355
e espero que mais aconteçam.
0:37:43.425,0:37:46.640
Mas vai ser um processo lento,
0:37:46.640,0:37:49.383
tal como a adopção[br]dos dados da Wikidata pela Wikipedia
0:37:49.383,0:37:51.909
está a ser um processo bem lento.
0:37:52.699,0:37:56.183
O outro lado é tentar que seja mais fácil
0:37:56.183,0:37:59.132
usar os dados que estão nos lexemas,
0:37:59.132,0:38:02.209
no Wiktionary, para que [br]possam fazer uso deles
0:38:02.209,0:38:05.531
e partilhar dados entre [br]as Wiktionaries de linguagens.
0:38:05.531,0:38:08.753
O que é super difícil neste momento,
0:38:08.753,0:38:11.560
o que é de doidos,[br]tal como foi na Wikipedia.
0:38:13.720,0:38:16.325
Esperem pelo presente de aniversário. [br](risos)
0:38:19.918,0:38:21.182
Sim.
0:38:22.519,0:38:24.777
(plateia 11) Quando estava a pensar [br]sobre a outra forma,
0:38:24.777,0:38:28.038
eu, na verdade, não o quis dizer[br]porque penso que pode ser super tolo.
0:38:28.038,0:38:31.833
Mas acho que o Wiktionary [br]já tem algum conteúdo
0:38:31.833,0:38:34.978
e eu sei que [br]não pode ser transferido para a Wikidata
0:38:34.978,0:38:37.048
por causa das diferenças de licenças.
0:38:37.048,0:38:39.631
Mas estava a pensar que talvez[br]possamos fazer algo acerca disso.
0:38:40.161,0:38:45.473
Talvez obter permissão das comunidades
0:38:45.473,0:38:51.205
depois de, não sei,[br]haver uma votação pública
0:38:51.825,0:38:55.642
de forma a que comunidade, [br]os seus membros ativos,
0:38:55.642,0:39:02.523
votem e digam se querem [br]ou não aceitar a transferência de conteúdo
0:39:02.523,0:39:05.528
para a qual podem fazer[br]os lexemas da Wikidata.
0:39:06.148,0:39:08.537
Porque penso que é um desperdício.
0:39:09.528,0:39:14.273
Então, isso é definitivamente [br]uma conversa que essas pessoas,
0:39:14.273,0:39:18.249
que estão nas comunidades Wiktionary,[br]podem ter lá.
0:39:18.249,0:39:24.647
Penso que seria um pouco presunçoso[br]da nossa parte forçarmos isso.
0:39:25.767,0:39:31.032
Mas sim, penso que, definitivamente,[br]vale a pena ter essa conversa.
0:39:31.032,0:39:33.898
Mas eu penso que também[br]é importante entender
0:39:33.898,0:39:38.962
que há uma distinção entre [br]o que é legalmente permitido
0:39:38.962,0:39:43.057
e o que devíamos estar a fazer
0:39:43.057,0:39:45.426
e o que as essas pessoas querem ou não.
0:39:45.736,0:39:47.329
Portanto, mesmo se for legal,
0:39:47.329,0:39:50.640
se algumas das comunidades Wiktionary[br]não o quiserem,
0:39:50.640,0:39:53.537
eu teria cuidado, no mínimo.
0:39:58.766,0:40:02.489
Penso que precisamos do microfone[br]para o vídeo.
0:40:04.380,0:40:07.299
(plateia 12) Obviamente,[br]isto é tudo muito excitante
0:40:07.849,0:40:12.169
e penso imediatamente em como [br]levar isto aos meus estudantes,
0:40:12.169,0:40:15.288
como posso incorporar isto nos cursos,
0:40:15.288,0:40:18.531
no trabalho que estamos a fazer,[br]ambientes educacionais.
0:40:18.531,0:40:22.271
E não tenho, neste momento,
0:40:22.791,0:40:24.116
primeiro, conhecimento,
0:40:24.116,0:40:27.278
mas acho que a documentação[br]que temos
0:40:27.768,0:40:29.992
pode ser melhorada.
0:40:29.992,0:40:33.437
Portanto, isto é um pedido[br]para fazerem vídeos fixes
0:40:33.437,0:40:35.898
que expliquem como funciona.
0:40:35.898,0:40:39.948
Porque, se os tivermos, podemos usá-los,
0:40:39.948,0:40:41.985
podemos ter estudantes a bordo
0:40:41.985,0:40:46.952
e podemos fazer as pessoas entender[br]quão espetacular é.
0:40:46.952,0:40:51.891
Sim, pensem na documentação[br]e pensem na educação, por favor.
0:40:51.891,0:40:54.440
Porque penso que muito pode ser feito.
0:40:54.440,0:40:58.585
Estas são pequenas tarefas[br]que podem ser feitas mesmo com...
0:41:00.125,0:41:02.033
bem, não direi escolas primárias,
0:41:02.033,0:41:05.495
mas certamente até com estudantes jovens.
0:41:05.765,0:41:10.646
E, portanto, gostaria mesmo de ver[br]esse potencial a ser aproveitado
0:41:10.646,0:41:15.172
e, neste momento, eu, pessoalmente,[br]não entendo o suficiente
0:41:15.172,0:41:19.500
para conseguir criar tarefas[br]ou para criar tipo...
0:41:20.200,0:41:22.155
para fazer algo prático com isto.
0:41:22.155,0:41:25.772
Portanto, qualquer ajuda, ideias [br]que alguém tenha acerca disso,
0:41:25.772,0:41:29.648
estou completamente disponível para ouvir[br]tudo o que tenham em mente.
0:41:30.328,0:41:32.129
Sim, vamos falar sobre isso.
0:41:35.273,0:41:37.139
Mais questões?
0:41:37.569,0:41:39.065
Mais alguém tinha levantado a mão.
0:41:39.065,0:41:40.495
Esqueci-me de quem foi.
0:41:45.739,0:41:49.866
(plateia 13) Então, se não conseguimos [br]importar a partir do Wiktionary,
0:41:49.866,0:41:55.772
há algum esforço concertado para [br]achar outras fontes de domínio público,
0:41:55.772,0:41:57.459
talvez dados mais antigos,
0:41:58.769,0:42:03.167
e filtrá-los previamente, organizá-los
0:42:03.167,0:42:08.470
para que seja fácil a sua verificação,[br]por pessoas, para importação?
0:42:08.993,0:42:11.131
Então, foram feitos esforços iniciais.
0:42:11.131,0:42:14.649
Penso que o basco é um desses esforços.
0:42:14.649,0:42:17.474
Talvez queiras dizer[br]algo sobre isso?
0:42:18.426,0:42:20.130
(plateia 14) [inaudível]
0:42:23.026,0:42:27.148
Certo, a resposta é [br]pagando por isso...
0:42:28.204,0:42:33.381
Temos um acordo[br]com um fornecedor com quem trabalhamos.
0:42:34.661,0:42:38.725
Eles fazem dicionários, outros...
0:42:40.315,0:42:42.458
montes de coisas, mas fazem dicionários.
0:42:42.458,0:42:47.473
Temos um acordo com eles para[br]tornar grátis os dicionários estudantis.
0:42:47.473,0:42:52.622
Nós transmitiríamos as palavras [br]mais comuns e começaríamos a carregá-las
0:42:52.622,0:42:55.590
com um identificador externo[br]e esse tipo de coisas.
0:42:56.090,0:43:02.702
Mas houve alguma discussão [br]acerca de deixá-lo no CC0,
0:43:02.702,0:43:05.322
porque eles têm [br]um dicionário com CC por ele,
0:43:05.947,0:43:10.066
e perceberam qual era a diferença.
0:43:10.066,0:43:13.726
Portanto, houve alguma discussão.
0:43:13.726,0:43:19.499
Mas penso que podemos providenciar algumas[br]ferramentas ou exemplos, no futuro,
0:43:19.499,0:43:21.761
e penso que haverá outros dicionários
0:43:21.761,0:43:23.826
que podemos gerir.
0:43:23.826,0:43:29.274
E também penso que o Wiktionary[br]deveria ir nessa direção,
0:43:29.274,0:43:32.260
mas isso é outra grande discussão.
0:43:33.015,0:43:34.447
E, para além disso,
0:43:34.447,0:43:38.699
a Lea está também em contacto[br]com pessoas da Occitan,
0:43:38.699,0:43:41.767
que trabalham nos dicionários Occitan,
0:43:41.767,0:43:45.138
e eles estão atualmente a trabalhar[br]numa colaboração suméria.
0:43:51.374,0:43:53.363
Mais questões?
0:44:01.307,0:44:05.179
(plateia 15) Olá. Nós somos as pessoas[br]que querem importar dados da Occitan.
0:44:05.179,0:44:06.405
Perfeito!
0:44:06.405,0:44:09.188
(plateia 15) E temos[br]um pequeno problema para...
0:44:09.188,0:44:14.135
Nós não sabemos como representar [br]toda a variedade de lexemas.
0:44:14.135,0:44:17.493
Temos seis dialetos
0:44:17.493,0:44:23.904
e queremos indicar, para o lexema,[br]em que dialeto é usado
0:44:23.904,0:44:27.175
e não temos a declaração CO[br]apropriada para isso.
0:44:27.175,0:44:31.105
Portanto, enquanto o segmento não existir,
0:44:31.525,0:44:34.365
não conseguimos [inaudível]
0:44:34.365,0:44:37.603
porque vamos precisar de fazê-lo outra vez
0:44:37.603,0:44:41.946
quando estivermos em condições[br]de exportar a declaração.
0:44:41.946,0:44:44.471
E é complicado [br]porque é uma declaração
0:44:44.471,0:44:47.802
que não vai ser pedida por muita gente
0:44:47.802,0:44:53.444
porque é uma declaração que diz respeito[br]principalmente a línguas minoritárias.
0:44:53.444,0:44:56.803
Então teremos uma pessoa a pedir isto.
0:44:56.803,0:44:59.962
Mas, como no caso[br]dos nossos colegas Bascos,
0:44:59.962,0:45:06.082
pode ser uma pessoa [br]que ajudará milhares de outros.
0:45:06.082,0:45:10.884
Portanto, pode não parecer importante,
0:45:10.884,0:45:14.136
mas será muito importante para nós.
0:45:14.524,0:45:17.600
Vocês já têm a nova proposta [br]de propriedade a funcionar,
0:45:17.600,0:45:19.470
ou precisam de ajuda para criá-la?
0:45:21.244,0:45:24.300
(plateia 15) Fizemos o pedido[br]há quatro meses.
0:45:24.300,0:45:28.755
Certo, então vamos arranjar pessoal[br]para ajudar com essa proposta.
0:45:29.959,0:45:33.092
De certeza que há pessoas suficentes[br]nesta sala para isso se realizar.
0:45:33.092,0:45:35.992
(plateia 15) Proposta de propriedade[br][em francês].
0:45:35.992,0:45:39.479
Nós não tivemos resposta[br]e não sabemos fazê-lo
0:45:39.479,0:45:42.953
porque não somos da comunidade Wikidata.
0:45:44.514,0:45:48.697
Sim, então há aqui pessoas[br]que vos podem ajudar.
0:45:48.697,0:45:52.134
Talvez alguém levante a mão [br]para ficar...
0:45:52.134,0:45:53.454
(plateia 14) Sou a favor.
0:45:53.454,0:45:55.512
Mas penso que é muito interessante
0:45:55.512,0:45:58.939
que apenas a variante de forma
0:45:58.939,0:46:02.607
também o possa gerir geograficamente,
0:46:02.607,0:46:04.995
com coordenadas [br]ou algum tipo de mapeamento.
0:46:05.485,0:46:07.815
Também tendo diferentes pronúncias
0:46:07.815,0:46:11.837
e penso que é algo[br]que acontece em muitas línguas.
0:46:12.517,0:46:16.112
Deveríamos trabalhar para isso[br]acontecer de alguma forma
0:46:16.112,0:46:18.865
e eu vou procurar a propriedade.
0:46:19.652,0:46:20.773
Fixe.
0:46:20.773,0:46:24.446
Então, vocês terão apoio[br]para a vossa proposta de propriedade.
0:46:25.996,0:46:27.297
Obrigado.
0:46:27.962,0:46:30.261
Mais alguma questão?
0:46:32.210,0:46:33.474
Finn.
0:46:33.784,0:46:35.055
O Finn é uma daquelas pessoas
0:46:35.055,0:46:37.531
que constrói coisas[br]tendo como base dados lexicográficos.
0:46:37.531,0:46:40.285
(Finn) É só uma pequena questão,
0:46:40.285,0:46:44.226
e é sobre variações de ortografia.
0:46:44.896,0:46:48.242
Parece difícil pô-las em...
0:46:48.242,0:46:53.838
Poderíamos, claro,[br]ter múltiplas formas para a mesma palavra.
0:46:55.627,0:46:58.448
Não sei, parece ser...
0:46:59.328,0:47:03.535
Se não o fizeres dessa forma,[br]parece ser difícil especificar...
0:47:04.521,0:47:05.888
ou, não sei se
0:47:05.888,0:47:09.591
é apenas um problema técnico menor[br]ou se...
0:47:09.591,0:47:11.332
Vamos olhar para isso juntos.
0:47:11.332,0:47:15.230
Adoraria ver um exemplo.
0:47:17.248,0:47:18.478
Asaf.
0:47:26.666,0:47:28.396
(Asaf) Obrigado.
0:47:29.216,0:47:33.685
Posso dar um exemplo concreto[br]da minha língua, o hebreu.
0:47:34.125,0:47:38.685
O Hebreu tem duas variantes principais
0:47:38.685,0:47:42.646
para expressar quase todas as palavras,
0:47:42.646,0:47:47.520
porque a ortografia tradicional
0:47:47.520,0:47:50.044
deixa de parte muitas vogais.
0:47:50.814,0:47:54.987
E, assim sendo, nas edições modernas[br]da Bíblia e de poesia,
0:47:54.987,0:47:57.265
são usados os diacríticos.
0:47:57.265,0:48:02.560
Por outro lado, os diacríticos[br]nunca são usados na prosa moderna
0:48:02.560,0:48:05.734
ou imprensa escrita ou toponímia.
0:48:05.734,0:48:11.209
Então, a utilização casual diária[br]usa as vogais extra
0:48:12.049,0:48:13.519
e não usa os diacríticos.
0:48:13.519,0:48:15.607
Porque eles são,[br]obviamente, mais complicados
0:48:15.607,0:48:17.893
e têm todo o tipo de regras[br]e ninguém sabe as regras.
0:48:18.393,0:48:20.531
- (risos)[br]- Então, há duas variantes.
0:48:20.531,0:48:25.222
Há a variante casual para prosa
0:48:25.222,0:48:27.827
e há a da Bíblia e da poesia.
0:48:27.827,0:48:32.200
que vem sempre [br]no tradicional texto diacriticizado.
0:48:32.200,0:48:33.302
Para ser útil,
0:48:33.302,0:48:37.428
o lexema teria que reconhecer [br]ambas as variantes de cada palavra
0:48:37.428,0:48:39.747
e cada forma[br]de cada palavra.
0:48:40.477,0:48:43.391
Portanto, esse é um caso de utilização[br]muito abrangente
0:48:43.391,0:48:46.250
para variantes oficiais estáveis.
0:48:46.250,0:48:49.262
Não é dialeto, não é regional,
0:48:49.262,0:48:53.627
são, basicamente, dois sistemas[br]morfológicos coexistentes.
0:48:54.427,0:48:58.786
E eu também não sei exatamente[br]como expressar isso no lexema, agora,
0:48:58.786,0:49:02.800
o que é uma das coisas que me impede,[br]em resposta parcial à pergunta do Magnus,
0:49:02.800,0:49:05.238
de carregar as partes que estão prontas
0:49:05.238,0:49:09.394
do maior dicionário Hebreu,[br]que é de domínio público
0:49:09.394,0:49:12.927
e que tenho andar a digitalizar[br]há vários anos.
0:49:12.927,0:49:14.723
Uma grande porção está pronta,
0:49:14.723,0:49:16.459
mas não o ponho no lexema agora
0:49:16.459,0:49:20.115
porque, basicamente, não sei[br]como resolver este problema.
0:49:20.115,0:49:23.387
Está bem, vamos resolver [br]este problema aqui. (risos)
0:49:24.303,0:49:26.021
Tem de ser possível.
0:49:29.875,0:49:32.047
Mais perguntas?
0:49:37.003,0:49:39.735
Se não, então muito obrigada.
0:49:40.435,0:49:44.915
(aplausos)