0:00:06.303,0:00:07.362 (Lydia) Muito obrigada. 0:00:07.362,0:00:11.244 Então, nesta conferência,[br]um dos grandes temas são as linguagens. 0:00:11.244,0:00:13.710 Então... 0:00:13.710,0:00:18.368 Quero dar-vos uma visão geral [br]de onde estamos atualmente 0:00:18.368,0:00:19.734 no que diz respeito a linguagens 0:00:19.734,0:00:22.167 e para onde podemos ir daqui. 0:00:28.956,0:00:32.580 A Wikidada pretende dar a mais pessoas[br]mais acesso a mais conhecimento 0:00:32.580,0:00:37.168 e a linguagem é uma parte muito importante[br]para tornar isso realidade. 0:00:38.115,0:00:43.291 Especialmente, porque cada vez mais [br]as nossas vidas dependem da tecnologia. 0:00:44.114,0:00:48.873 E, como um dos palestrantes [br]mencionou há pouco, 0:00:49.613,0:00:51.588 alguma da tecnologia [br]deixa as pessoas para trás 0:00:51.588,0:00:55.020 simplesmente porque[br]não falam determinada linguagem, 0:00:55.320,0:00:57.573 o que não está correto. 0:00:58.473,0:01:02.097 Então, nós queremos fazer algo[br]em relação a isso. 0:01:02.927,0:01:05.841 E, de forma a mudar isso, [br]precisamos de pelos menos duas coisas. 0:01:06.321,0:01:11.270 Primeiro, providenciar conteúdo[br]na língua nativa das pessoas 0:01:11.270,0:01:12.955 e, segundo, 0:01:12.955,0:01:15.770 providenciar [br]interação na sua língua, 0:01:15.770,0:01:19.189 nas aplicações[br]ou seja no que for que tenham. 0:01:20.367,0:01:25.277 A Wikidata ajuda em ambas as coisas. 0:01:25.277,0:01:28.408 Em relação à primeira,[br]conteúdo na sua língua, 0:01:28.408,0:01:30.879 isso é basicamente o que temos[br]nos itens e propriedades, 0:01:31.319,0:01:33.082 como descrevemos o mundo. 0:01:33.082,0:01:35.085 Isto não é, certamente,[br]tudo o que é preciso, 0:01:35.085,0:01:39.294 mas já dá uma ajuda considerável. 0:01:39.614,0:01:41.847 A outra coisa,[br]interação na sua língua, 0:01:41.847,0:01:46.389 é onde os lexemas entram em jogo 0:01:46.389,0:01:49.382 se quiserem falar[br]com o vosso assistente pessoal digital, 0:01:49.382,0:01:54.918 ou se quiserem que o vosso dispositivo[br]traduza um texto e afins. 0:01:56.404,0:01:59.254 Tudo bem, vamos olhar para [br]conteúdo na sua língua. 0:01:59.254,0:02:03.396 O que temos em itens e propriedades? 0:02:05.406,0:02:09.696 Para isto, as etiquetas nesses itens[br]e propriedades são cruciais. 0:02:10.236,0:02:14.866 Precisamos de saber como se chama [br]esta entidade de que estamos a falar. 0:02:15.656,0:02:19.847 E, em vez de falarmos sobre Q5... 0:02:19.847,0:02:22.180 Alguém que fale inglês[br]sabe que isso é um "humano", 0:02:22.180,0:02:24.706 alguém que fale alemão[br]sabe que é um "mensch", 0:02:24.706,0:02:26.374 e por aí adiante. 0:02:26.374,0:02:29.742 Então, estas etiquetas [br]nos itens e propriedades 0:02:29.742,0:02:33.619 estão a fechar as brechas[br]entre humanos e máquinas 0:02:33.619,0:02:35.439 e entre humanos e humanos. 0:02:35.439,0:02:40.115 Fazendo com que mais conhecimento[br]esteja acessível para eles. 0:02:43.270,0:02:46.290 Isso é um bom objetivo. 0:02:46.290,0:02:48.342 Mas qual é o aspeto disso? 0:02:48.342,0:02:49.607 Bem, é este. 0:02:50.947,0:02:52.416 O que estão a ver aqui 0:02:52.416,0:02:58.496 é que a maioria dos items[br]na Wikidata tem duas etiquetas, 0:02:58.496,0:03:00.767 portanto, são etiquetados em duas línguas. 0:03:01.697,0:03:03.851 Depois disso, é um, e depois três 0:03:03.851,0:03:06.115 e depois fica muito triste. 0:03:06.781,0:03:08.581 (riso tímido) 0:03:10.047,0:03:12.713 Eu penso que temos que fazer melhor. 0:03:14.185,0:03:15.319 Mas, por outro lado, 0:03:15.319,0:03:17.478 eu, na verdade, estava à espera[br]de muito pior. 0:03:17.478,0:03:19.560 Estava à espera que a média fosse um. 0:03:19.560,0:03:22.503 Portanto, fiquei[br]bastante contente em ver dois. (risos) 0:03:24.921,0:03:26.186 Certo. 0:03:27.156,0:03:29.527 Mas, o interessante não é só saber 0:03:29.527,0:03:33.742 quantas etiquetas os nossos items[br]e propriedades têm, 0:03:33.742,0:03:36.565 também é interessante ver[br]em que línguas. 0:03:38.045,0:03:43.764 Aqui têm um gráfico das línguas 0:03:43.764,0:03:46.838 que têm etiquetas para itens. 0:03:46.838,0:03:50.669 A maior parte é Outra. 0:03:51.229,0:03:53.863 Então, peguei nas 100 maiores línguas 0:03:54.483,0:03:58.902 e tudo o resto são Outras,[br]para que o gráfico se perceba. 0:03:59.542,0:04:02.142 Depois, há inglês e holandês, 0:04:03.002,0:04:04.254 francês, 0:04:05.924,0:04:09.129 e não nos esqueçamos do... asturiano. 0:04:09.659,0:04:11.889 - (plateia 1) (grito de entusiasmo)[br]- De facto! 0:04:13.899,0:04:16.954 Então, podem ver que há aqui [br]um considerável desequilíbrio 0:04:16.954,0:04:20.114 e o foco ainda se mantém muito no inglês. 0:04:21.236,0:04:24.367 Outra coisa que notamos [br]é que nas Propriedades, 0:04:24.367,0:04:25.999 as coisas estão bem melhores. 0:04:27.399,0:04:32.750 E penso que, em parte, isso deve-se[br]a haver muito menos propriedades. 0:04:32.750,0:04:36.770 Então, mesmo comunidades menores[br]têm hipótese de se manter a par. 0:04:36.770,0:04:39.173 Mas também é uma parte importante[br]da Wikidata, 0:04:39.173,0:04:41.159 a localização na tua própria língua. 0:04:41.159,0:04:42.384 Portanto, isso é bom. 0:04:45.752,0:04:47.842 O que quero salientar aqui [br]com o asturiano 0:04:47.842,0:04:53.698 é que uma comunidade pequena[br]pode realmente fazer uma enorme diferença 0:04:54.448,0:04:57.085 com alguma dedicação e trabalho, 0:04:57.085,0:04:58.420 o que é muito fixe. 0:05:01.846,0:05:03.530 Uma pequena pergunta para vocês. 0:05:03.530,0:05:05.493 Se pegarmos em todas as propriedades [br]na Wikidata, 0:05:05.493,0:05:07.687 que não são indentificadores externos, 0:05:07.687,0:05:10.358 qual é o que tem mais etiquetas,[br]o maior número de linguagens? 0:05:10.767,0:05:13.717 (plateia) [inaudível] 0:05:13.717,0:05:16.786 Ouço algum acordo em instância de? 0:05:17.316,0:05:19.443 Estariam errados. 0:05:19.873,0:05:22.210 É imagem. (risos) 0:05:23.160,0:05:26.366 Então, sim, isso diz-vos,[br]se falarem uma destas línguas 0:05:26.366,0:05:28.621 nas quais instância de[br]ainda não tem etiqueta, 0:05:28.621,0:05:30.190 que poderão querer adicioná-la. 0:05:31.642,0:05:35.676 Tem, neste momento, 148 etiquetas. 0:05:37.688,0:05:41.249 Mas isso é outro slide. 0:05:42.631,0:05:44.162 Este gráfico diz-nos algo 0:05:44.162,0:05:49.321 sobre quanto conteúdo estamos a tornar[br]disponível numa certa língua 0:05:49.321,0:05:52.042 e quanto conteúdo [br]é realmente utilizado. 0:05:52.042,0:05:55.448 Então, o que temos aqui [br]é basicamente uma curva 0:05:55.448,0:06:00.987 com a maior parte do conteúdo com[br]etiquetas em inglês, disponível em inglês 0:06:01.507,0:06:04.295 e a ser muito usado. 0:06:04.295,0:06:06.449 E depois, isto meio que baixa. 0:06:06.449,0:06:09.436 Mas, novamente, o que podem ver[br]são os valores atípicos 0:06:09.436,0:06:15.333 que têm muito mais conteúdo[br]do que seria de esperar 0:06:16.663,0:06:19.539 e isso é mesmo muito bom. 0:06:20.739,0:06:24.945 O problema é que não é tão utilizado. 0:06:25.565,0:06:28.742 Asturiano e holandês[br]deveriam ser mais altos. 0:06:28.742,0:06:31.994 Acho que, ajudar essas comunidades 0:06:33.266,0:06:35.493 a aumentar o uso [br]dos dados que coletaram, 0:06:35.493,0:06:37.682 é uma coisa realmente útil de se fazer. 0:06:42.910,0:06:46.801 O que esta análise e outras[br]nos mostraram é uma coisa boa, 0:06:46.801,0:06:51.378 embora estejamos a ver que os itens[br]que são mais utilizados 0:06:51.378,0:06:55.295 também tendem a ter mais etiquetas 0:06:55.295,0:06:58.188 ou ao contrário.[br]Não é completamente claro. 0:07:02.513,0:07:04.376 E então, a questão é: 0:07:04.806,0:07:07.009 estamos a servir[br]apenas as linguagens poderosas? 0:07:07.899,0:07:11.147 Ou conseguimos fazê-lo para todos? 0:07:12.757,0:07:17.743 O que vêm aqui [br]é um agrupamento das linguagens. 0:07:17.743,0:07:21.832 As linguagens que estão agrupadas[br]tendem a ter etiquetas juntas. 0:07:26.042,0:07:28.599 E conseguimos vê-las a aglomerarem-se. 0:07:28.599,0:07:34.065 Agora, temos aqui[br]um aglomerado similar, colorido, 0:07:34.065,0:07:39.475 baseado em quão viva, quão usada, 0:07:40.455,0:07:43.156 quão ameaçada a linguagem está. 0:07:43.156,0:07:44.642 E uma coisa boa que vemos aqui, 0:07:44.642,0:07:49.566 é que linguagens seguras[br]e ameaçadas 0:07:49.566,0:07:53.773 não formam dois aglomerados diferentes. 0:07:53.773,0:07:58.872 Elas misturam-se, 0:08:00.262,0:08:04.545 o que é muito melhor do que seria [br]se fosse ao contrário 0:08:04.545,0:08:09.377 onde as linguagens seguras,[br]as linguagens poderosas, 0:08:10.197,0:08:12.164 estariam apenas a ajudar-se entre elas. 0:08:12.594,0:08:14.356 Não, não é esse o caso. 0:08:14.356,0:08:17.417 E isso é uma coisa ótima. 0:08:17.417,0:08:20.042 Quando vi isto,[br]pensei que isto era muito bom. 0:08:23.474,0:08:25.169 Aqui está uma coisa similar, 0:08:26.239,0:08:28.800 onde olhamos para 0:08:30.230,0:08:34.222 os estados das linguagens, 0:08:34.222,0:08:36.225 para quantas etiquetas têm. 0:08:39.367,0:08:42.937 O que estão a ver é uma clara vantagem[br]para as linguagens seguras, 0:08:42.937,0:08:44.248 como seria de esperar. 0:08:45.508,0:08:46.693 Mas também estão a ver 0:08:46.693,0:08:54.407 que as linguagens na categoria dois,[br]e três e até mesmo quatro 0:08:54.407,0:08:59.280 não estão, na verdade, nada mal 0:08:59.280,0:09:02.367 em termos de representação[br]na Wikidata e em outros. 0:09:03.287,0:09:06.408 É uma coisa muito boa de se encontrar. 0:09:07.646,0:09:09.129 Agora, se olharmos para a mesma coisa 0:09:09.129,0:09:12.418 para quanto do conteúdo[br]dessas etiquetas 0:09:12.418,0:09:15.495 é atualmente usado [br]na Wikipedia, por exemplo, 0:09:17.455,0:09:22.563 emerge uma imagem semelhante. 0:09:23.603,0:09:29.813 E diz-nos que estas comunidades[br]estão a fazer um bom uso do tempo 0:09:29.813,0:09:34.504 preenchendo as etiquetas[br]para os itens mais usados, por exemplo. 0:09:36.410,0:09:40.493 Há valores atípicos[br]onde penso que podemos ajudar... 0:09:41.683,0:09:48.202 Ajudar as comunidades a encontrar sítios[br]onde o seu trabalho será mais valioso. 0:09:49.312,0:09:52.663 Mas, no geral, estou contente [br]com este panorama. 0:09:54.823,0:09:59.844 Agora, isto foram os itens[br]e as propriedades da Wikidata. 0:10:00.714,0:10:03.033 Agora vamos olhar para a interação[br]nas vossas línguas. 0:10:03.033,0:10:05.203 Portanto as porções do lexema [br]da Wikidata 0:10:05.203,0:10:09.394 onde nós descrevemos palavras[br]e as suas formas e significados. 0:10:10.167,0:10:13.301 Andamos a fazer isso [br]desde Maio do ano passado 0:10:16.391,0:10:19.127 e o conteúdo tem aumentado. 0:10:19.434,0:10:22.149 Podem ver aqui em azul os lexemas 0:10:22.149,0:10:25.938 e a vermelho,[br]as formas nesses lexemas 0:10:25.938,0:10:29.910 e a amarelo, os sentidos[br]nesses lexemas. 0:10:30.991,0:10:34.451 Então algumas comunidades--[br]já voltaremos a isso mais tarde-- 0:10:34.451,0:10:39.793 dispenderam muito tempo a criar formas[br]e sentidos para os seus lexemas, 0:10:39.793,0:10:42.753 o que é muito útil 0:10:42.753,0:10:48.243 porque constrói o núcleo[br]dos conjuntos de dados que precisamos. 0:10:50.562,0:10:55.133 Agora, olhamos para todas as línguas 0:10:55.133,0:10:57.906 que têm lexemas na Wikidata. 0:10:57.906,0:11:01.003 Portanto, palavras que nós temos. 0:11:01.713,0:11:04.404 Há, agora, 310 línguas. 0:11:04.884,0:11:08.290 Agora, qual é que acham que é [br]a língua que está no topo 0:11:08.290,0:11:11.949 quando falamos em número de lexemas[br]neste momento na Wikidata? 0:11:12.813,0:11:19.073 (Plateia) [inaudível] 0:11:19.073,0:11:20.146 O quê? 0:11:20.146,0:11:21.741 (Plateia 2) Alemão. 0:11:21.741,0:11:24.142 Desculpe, já o tinha ouvido antes. 0:11:24.142,0:11:25.651 É Russo. 0:11:27.691,0:11:29.754 O Russo está bastante à frente. 0:11:31.647,0:11:33.832 E, para vos dar alguma perspetiva, 0:11:35.652,0:11:36.816 há diferentes opiniões 0:11:36.816,0:11:42.231 mas li, por exemplo,[br]que entre 1 000 e 3 000 palavras 0:11:42.231,0:11:45.450 chegam para chegar[br]ao nível conversacional noutra língua 0:11:45.450,0:11:49.461 e que entre 4 000 a 10 000 palavras[br]chegam para o nível avançado. 0:11:51.591,0:11:55.282 Então, ainda temos um pouco[br]para pôr em dia. 0:11:58.483,0:12:03.279 Uma coisa à qual quero[br]que prestem atenção é ao basco 0:12:03.279,0:12:07.744 com, aproximadamente, 10 000 lexemas. 0:12:09.244,0:12:13.003 Agora, se olharem para o número de formas [br]nesses lexemas, 0:12:14.013,0:12:16.497 o basco está lá em cima, 0:12:18.137,0:12:20.006 o que é bastante fixe. 0:12:20.006,0:12:24.930 Deviam ir a uma palestra que vos explique[br]o porquê desta situação. 0:12:27.181,0:12:31.175 Agora, olhando para o número de sentidos,[br]para o que as palavras querem dizer, 0:12:32.015,0:12:35.081 o basco chega mesmo ao topo da lista. 0:12:35.081,0:12:37.102 Eu acho que merece um aplauso. 0:12:37.102,0:12:40.861 (aplausos) 0:12:45.678,0:12:47.118 Outra pequena pergunta. 0:12:47.118,0:12:50.181 Qual é o lexema com o maior número[br]de traduções neste momento? 0:12:50.651,0:12:56.676 (Plateia) Gatos, gatos, [inaudível],[br]Douglas Adams, [inaudível]. 0:12:56.676,0:13:00.014 Todos bons palpites, mas não. 0:13:00.882,0:13:04.137 É esta, a palavra para "água", em russo. 0:13:09.571,0:13:12.253 Já falámos muito 0:13:12.253,0:13:16.412 sobre quantos lexemas, [br]formas e sentidos temos, 0:13:16.412,0:13:20.493 mas isso é apenas uma parte [br]do que precisamos. 0:13:20.493,0:13:21.515 A outra parte 0:13:21.515,0:13:25.161 é descrever os lexemas, [br]formas e sentidos, 0:13:25.161,0:13:27.647 de uma forma que as máquinas possam ler. 0:13:27.647,0:13:30.039 E para isso temos declarações,[br]tal como nos itens. 0:13:31.479,0:13:36.362 E uma das propriedades[br]que usamos é o exemplo de utilização. 0:13:36.362,0:13:38.582 Portanto quem quer que esteja[br]a usar os dados 0:13:38.582,0:13:42.089 pode entender como usar [br]a palavra no contexto, 0:13:42.089,0:13:44.158 pode ser uma citação, por exemplo. 0:13:45.396,0:13:47.113 E aqui, o polaco reina. 0:13:47.900,0:13:49.764 Bom trabalho falantes de polaco. 0:13:54.219,0:13:57.680 Outra propriedade [br]que é mesmo útil é IPA, 0:13:57.680,0:14:00.186 logo, como é que se pronuncia uma palavra. 0:14:00.876,0:14:07.497 O russo, aparentemente, precisa[br]imenso de declarações IPA. 0:14:10.219,0:14:13.314 Mas, novamente, polaco em segundo. 0:14:17.148,0:14:20.753 E, por último, mas não menos importante, [br]temos a pronunciação áudio. 0:14:20.753,0:14:23.372 Isto corresponde a ligações [br]a ficheiros nos Commons 0:14:23.372,0:14:25.959 onde alguém diz a palavra, 0:14:25.959,0:14:29.913 de forma a que possamos ouvir [br]como um nativo a pronuncia 0:14:29.913,0:14:32.871 para o caso de não conseguires ler IPA, [br]por exemplo. 0:14:34.959,0:14:39.205 E há um projeto muito porreiro[br]baseado na Wiki, 0:14:39.205,0:14:40.474 chamado Lingua Libre, 0:14:40.884,0:14:45.173 onde podemos ir e ajudar a gravar[br]palavras na nossa língua 0:14:45.173,0:14:47.836 que pode ser depois adicionadas[br]a lexemas na Wikidata, 0:14:48.446,0:14:52.103 para que outras pessoas possam entender[br]como pronunciar as palavras. 0:14:53.663,0:14:55.694 (plateia 3) Há alguma ligação para isso? 0:14:55.694,0:14:57.485 Se procurarem por "Lingua Libre"... 0:14:57.485,0:15:00.981 Tenho a certeza de que alguém pode[br]publicá-la no nosso canal do Telegram. 0:15:03.138,0:15:04.621 Aqueles tipos são os maiores. 0:15:04.621,0:15:06.726 Fizeram uma coisa mesmo fixe[br]com a Wikibase. 0:15:09.416,0:15:10.617 Certo. 0:15:12.556,0:15:17.285 Então, a questão é,[br]para onde seguimos daqui? 0:15:19.165,0:15:22.010 A julgar pelos números que vos mostrei, 0:15:23.030,0:15:25.172 já fizemos um longo caminho 0:15:25.172,0:15:28.430 na direção de dar a mais pessoas[br]mais acesso a mais conhecimento 0:15:28.430,0:15:31.240 quando procuram línguas na Wikidata. 0:15:32.530,0:15:36.392 Mas ainda há muito trabalho pela frente. 0:15:38.992,0:15:42.341 Algumas coisas que podem fazer [br]para ajudar, por exemplo, 0:15:42.341,0:15:44.921 é organizar maratonas de etiquetagem, 0:15:44.921,0:15:50.124 como juntar pessoas[br]para etiquetar items na Wikidata. 0:15:50.914,0:15:55.121 Ou fazer uma maratona de etiquetagem[br]para lexemas na vossa língua, 0:15:55.121,0:15:59.212 para introduzir as palavras mais usadas[br]na vossa língua na Wikidata. 0:16:00.773,0:16:03.285 Ou podem usar uma ferramenta [br]como o Terminator, 0:16:03.285,0:16:08.493 que vos ajuda a encontrar os itens [br]mais importantes na vossa língua 0:16:08.493,0:16:11.549 a que ainda falte alguma etiqueta. 0:16:13.274,0:16:18.359 Sendo que mais importante é medido[br]por quantas vezes é usado 0:16:18.359,0:16:22.553 em outros items da Wikidata[br]como ligações ou declarações. 0:16:25.768,0:16:30.022 E, claro, para a porção do lexema, 0:16:31.342,0:16:35.169 agora que temos uma cobertura básica[br]desses lexemas, 0:16:35.169,0:16:41.163 queremos também construí-los,[br]adicionar-lhes mais declarações 0:16:41.163,0:16:44.401 para que eles possam, realmente, [br]construir a base 0:16:44.401,0:16:47.421 para construir aplicações significativas [br]a partir deles. 0:16:48.141,0:16:50.795 Porque estamos a aproximarmo-nos[br]dessa massa crítica, 0:16:50.795,0:16:53.496 mas ainda estamos longe disso, 0:16:53.496,0:16:56.624 de podermos construir aplicações[br]sérias sobre isto. 0:16:58.097,0:17:01.680 E espero que todos vocês[br]se juntem a nós para fazermos isso. 0:17:02.583,0:17:07.103 E isso já me leva 0:17:07.103,0:17:09.843 a uma pequena ajuda dos nossos amigos. 0:17:09.843,0:17:12.812 Bruno, queres vir até aqui 0:17:13.882,0:17:16.854 para nos falares [br]sobre as máscaras lexicais? 0:17:17.541,0:17:18.567 (Bruno) Obrigado, Lydia, 0:17:18.567,0:17:21.519 por me cederes este bocadinho de tempo 0:17:21.519,0:17:24.150 para apresentar o trabalho[br]que estamos a fazer na Google 0:17:24.150,0:17:29.635 com o Denny, que a maior parte de vocês[br]já deve ter ouvido falar ou conhece. 0:17:30.126,0:17:32.030 Porque na Google-- eu sou linguista, 0:17:32.030,0:17:36.150 portanto estou muito feliz de estar aqui[br]entre outros entusiastas de linguagens-- 0:17:36.620,0:17:39.278 nós também estamos a construir [br]alguns léxicos 0:17:39.278,0:17:41.766 e construimos esta tecnologia, 0:17:41.766,0:17:45.589 ou esta abordagem, que pensamos [br]poderá ser útil para vocês. 0:17:46.369,0:17:48.455 Só para vos situar, 0:17:48.455,0:17:52.068 isto é a minha experiência[br]lexicográfica a falar. 0:17:52.788,0:17:54.347 Quando criamos bases de dados[br]de léxico, 0:17:54.347,0:17:58.623 é preciso muito tempo para a manter,[br]mantê-la consistente 0:17:58.623,0:18:00.125 e para trocar dados, 0:18:00.125,0:18:02.027 como vocês provavelmente sabem. 0:18:02.517,0:18:05.927 Houve várias tentativas para unificar[br]as características e propriedades 0:18:05.927,0:18:09.184 que descrevem os lexemas[br]e as formas. 0:18:09.184,0:18:10.936 Ainda não é um problema resolvido, 0:18:10.936,0:18:13.958 mas há ainda algumas tentativas [br]de unificação nesse sentido. 0:18:13.958,0:18:15.209 Mas o que está mesmo a faltar-- 0:18:15.209,0:18:18.732 e isto é um problema que tivemos[br]no início do nosso projeto na Google-- 0:18:18.732,0:18:21.607 é tentar ter uma estrutura interna 0:18:22.197,0:18:25.910 que descreva como [br]uma entrada lexical se deverá parecer, 0:18:25.910,0:18:28.581 que tipo de dados[br]ou que tipo de informação temos 0:18:28.581,0:18:32.237 e a especificação pretendida. 0:18:32.237,0:18:38.187 Assim, isto foi o que inventámos,[br]esta coisa chamada máscara lexical. 0:18:38.897,0:18:44.841 Uma máscara lexical descreve[br]o que é expectável de uma entrada, 0:18:44.841,0:18:47.329 de uma entrada lexicográfica, [br]para estar completa, 0:18:47.329,0:18:51.436 tanto em termos de número de formas[br]que se esperam de um lexema 0:18:51.436,0:18:55.607 como do número de características[br]que se esperam em cada forma. 0:18:56.397,0:18:58.329 Aqui está um exemplo [br]para adjetivos italianos. 0:18:58.329,0:19:02.002 Seria de esperar, em italiano, termos[br]quatro formas para os adjetivos 0:19:02.002,0:19:05.383 e cada uma dessas formas[br]ter uma combinação específica 0:19:05.383,0:19:07.946 de género e número de características. 0:19:08.606,0:19:12.672 Isto é o que esperamos[br]de adjetivos italianos. 0:19:12.672,0:19:16.176 Claro que, podemos ter[br]máscaras extremamente complexas, 0:19:16.176,0:19:20.783 como a conjugação dos verbos em francês,[br]que é bastante extensa. 0:19:20.783,0:19:23.487 E não vos quero mostrar [br]nenhuma máscara russa 0:19:23.487,0:19:25.378 porque não cabe no ecrã.[br](risos) 0:19:26.308,0:19:29.531 E também temos especificações[br]detalhadas, 0:19:29.531,0:19:33.421 porque distinguimos[br]o que está ao nível da forma. 0:19:33.421,0:19:37.544 Então, aqui temos nomes russos[br]que têm três números 0:19:37.544,0:19:40.048 e alguns casos [br]com diferentes formas. 0:19:40.048,0:19:43.086 Mas, eles também têm [br]uma especificação de entrada de gama 0:19:43.086,0:19:45.590 que diz que o nome em particular tem 0:19:45.590,0:19:50.133 um género inerente e uma característica [br]de animação inerente 0:19:50.133,0:19:52.488 que também são especificados na máscara. 0:19:54.518,0:19:58.779 Também queremos salientar[br]que uma máscara fornece uma especificação 0:19:58.779,0:20:01.874 para qual deve ser[br]o aspeto de uma entrada. 0:20:01.874,0:20:07.158 Mas, podemos ter máscaras mais pequenas,[br]para aspetos defeituosos da forma 0:20:07.158,0:20:11.282 ou aspetos defeituosos do lexema[br]que acontecem na linguagem. 0:20:11.282,0:20:14.537 Aqui podem ver a forma mais simples[br]dos verbos franceses 0:20:14.537,0:20:19.729 que só têm a terceira pessoa do singular[br]para todos os verbos metereológicos, 0:20:19.729,0:20:23.969 como "chove" ou "neva",[br]em português. 0:20:24.537,0:20:26.493 Distinguimos estes dois níveis. 0:20:26.923,0:20:29.962 E como é que usamos isto na Google? 0:20:29.962,0:20:32.643 Quando temos um léxico[br]que queremos usar, 0:20:33.063,0:20:38.309 usamos a máscara para[br]literalmente atirar os léxicos, 0:20:38.309,0:20:40.163 todas as entradas, através da máscara 0:20:40.163,0:20:44.303 e ver que entrada tem problemas[br]em termos de estrutura. 0:20:44.303,0:20:46.523 Está a faltar uma forma?[br]Falta uma característica? 0:20:46.523,0:20:51.497 E, quando surge um problema,[br]fazemos validação humana 0:20:51.497,0:20:53.751 ou só para ver se passa na máscara. 0:20:53.751,0:20:57.924 É uma ferramenta extremamente poderosa [br]para conferir a qualidade da estrutura. 0:20:59.427,0:21:01.964 Portanto, estamos felizes em anunciar hoje 0:21:01.964,0:21:05.408 que recebemos luz verde [br]para disponibilizarmos o código fonte. 0:21:05.948,0:21:07.573 Portanto este é o esquema. 0:21:07.573,0:21:09.477 Se quiserem isto, podemos lançar 0:21:09.477,0:21:13.483 e pode ser providenciado[br]à Wikidata em ficheiros ShEx. 0:21:13.483,0:21:16.688 Este é o ficheiro ShEx para nomes [br]em alemão, 0:21:16.688,0:21:20.428 e o Denny está a trabalhar na conversão[br]da nossa especificação interna 0:21:20.428,0:21:23.666 para uma mais de código aberto. 0:21:23.666,0:21:27.522 Atualmente temos mais de 25 linguagens, 0:21:27.522,0:21:29.225 portanto esperamos crescer do nosso lado, 0:21:29.225,0:21:34.350 mas também fazer disto uma oportunidade [br]para colaborar noutras línguas. 0:21:34.350,0:21:40.728 E uma dessas colaborações [br]é a que o Denny tem com o Lukas. 0:21:40.728,0:21:45.052 O Lukas tem umas ferramentas ótimas [br]para ter uma interface com o utilizador 0:21:45.052,0:21:51.061 que ajuda o utilizador ou contribuidor[br]a adicionar mais formas. 0:21:51.061,0:21:54.151 Portanto, se quiserem adicionar[br]um adjetivo em francês, 0:21:54.151,0:21:59.057 a interface diz-vos[br]quantas formas são expetáveis 0:21:59.057,0:22:01.562 e e quantas características[br]essa forma deverá ter. 0:22:01.562,0:22:06.268 Então a nossa máscara ajudará a ferramenta[br]a ser definida e expandida. 0:22:07.048,0:22:08.385 É isto. 0:22:08.591,0:22:10.358 (Lydia) Muito obrigado. 0:22:10.358,0:22:13.523 (aplausos) 0:22:14.249,0:22:16.891 Certo. Há questões? 0:22:16.891,0:22:19.381 Querem falar mais sobre os lexemas? 0:22:19.697,0:22:21.475 - (plateia 4) Sim.[br]- Sim. (risos) 0:22:33.055,0:22:35.380 (plateia 4) A minha questão,[br]porque estava a falar 0:22:35.380,0:22:38.996 acerca de dar mais acesso[br]a mais pessoas em mais línguas, 0:22:38.996,0:22:42.444 mas há muitas línguas [br]que não podem ser usadas na Wikidata. 0:22:42.444,0:22:44.588 Então que solução é que têm para isso? 0:22:45.739,0:22:47.686 Quando diz que não podem ser usadas, 0:22:47.686,0:22:50.308 está a referir-se à entrada de etiquetas? 0:22:50.308,0:22:52.578 - (plateia 4) Etiquetas, descrições.[br]- Certo. 0:22:52.578,0:22:55.498 Para lexemas, é um pouco diferente 0:22:55.498,0:22:57.793 porque aí não temos [br]essa restrição. 0:22:58.923,0:23:05.425 Para etiquetas nos itens e propriedades,[br]há realmente alguma restrição 0:23:05.433,0:23:12.411 porque quisemos ter a certeza[br]que não é completamente-- 0:23:12.411,0:23:14.229 qualquer um faz o que quiser 0:23:14.229,0:23:17.769 e torna-se ingerível. 0:23:17.769,0:23:23.898 Até uma comunidade pequena que queira[br]uma língua e que queira trabalhar nisso: 0:23:23.898,0:23:26.657 venham ter connosco e fazemos acontecer. 0:23:26.657,0:23:29.202 (plateia 4) Nós fizemos isso[br]no Hackathon de Praga em Maio 0:23:29.202,0:23:32.359 e demorou quase até Agosto[br]até conseguirmos usar a nossa linguagem. 0:23:32.359,0:23:34.935 - Sim.[br]- (plateia 4) Portanto, é muito lento. 0:23:34.935,0:23:37.854 Sim, infelizmente é muito lento. 0:23:37.854,0:23:39.883 Estamos a trabalhar[br]com o Comité de Linguagem 0:23:39.883,0:23:46.048 a tentar resolver os mais básicos... 0:23:49.537,0:23:55.447 Ter o acordo sobre que tipo [br]de linguagens são realmente "permitidas" 0:23:56.047,0:23:59.838 e isso tem demorado tempo demais, 0:23:59.838,0:24:04.178 o que pode ser a razão para o vosso pedido[br]ter demorado mais do que devia. 0:24:04.778,0:24:06.213 (plateia 4) Obrigada. 0:24:06.555,0:24:07.610 (plateia 5) Obrigado. 0:24:07.610,0:24:10.788 Lydia, se se lembra das estatísticas[br]que mostrou, 0:24:10.788,0:24:12.886 o número de lexemas por linguagem.[br]- Sim. 0:24:12.886,0:24:17.599 (plateia 5) Então, contaram todos [br]as formas como pontos de dados 0:24:17.599,0:24:20.034 ou apenas os lexemas? 0:24:20.909,0:24:22.621 (Lydia) Está a falar disto? 0:24:22.621,0:24:24.053 A qual é que se refere? 0:24:24.053,0:24:25.529 (plateia 5) Sim, exatamente. 0:24:25.797,0:24:28.341 Se se lembrar, este número é [inaudível] 0:24:28.341,0:24:31.514 todas as formas, todos os lexemas[br]ou apenas quantos lexemas há? 0:24:31.514,0:24:33.915 Não, isto é apenas o número de lexemas. 0:24:33.915,0:24:35.395 (plateia 5) Só o número de lexemas. 0:24:35.395,0:24:36.797 Então é apenas uma estatística 0:24:36.797,0:24:39.310 porque, se depois[br]contássemos com as formas-- 0:24:39.310,0:24:40.614 por isso pergunto-- 0:24:40.614,0:24:42.637 então, todas as línguas[br]com morfologia de inflexão, 0:24:42.637,0:24:44.927 como russo, sérvio,[br]esloveno, etc, 0:24:44.927,0:24:47.616 têm uma vantagem natural,[br]porque têm tantas. 0:24:47.616,0:24:51.630 Daí, este tipo de saltos aqui[br]no número de formulários. 0:24:51.630,0:24:53.851 (plateia 5) Sim, era esse mesmo.[br]Obrigado. 0:24:56.386,0:25:00.224 (plateia 6) Tenho só uma [br]pergunta rápida acerca de... 0:25:00.524,0:25:06.824 Quando estávamos a falar sobre [br]os itens e propriedades. 0:25:07.124,0:25:09.921 Até onde eu consigo entender,[br]não há, atualmente, forma 0:25:09.921,0:25:12.746 de dar uma fonte definida[br]a qualquer das etiquetas 0:25:12.746,0:25:14.606 e descrições que foram dadas.[br]- Sim. 0:25:14.606,0:25:18.047 (plateia 6) Então, não há nada[br]porque, quando estás a falar 0:25:18.047,0:25:20.920 acerca de uma propriedade de um item, 0:25:20.920,0:25:24.339 podes ter, por exemplo,[br]etiquetas conflituosas. 0:25:24.339,0:25:27.999 - Sim.[br]- (Plateia 6) Então, esta pessoa é como... 0:25:28.302,0:25:30.432 Falamos à pouco sobre [br]coisas indígenas, por exemplo. 0:25:30.432,0:25:35.965 Então esta pessoa é um artista norueguês,[br]de acordo com uma fonte, 0:25:35.965,0:25:38.750 e um artista sami,[br]de acordo com outra fonte. 0:25:39.230,0:25:42.633 Ou, por exemplo, em estoniano,[br]tivemos um problema 0:25:42.633,0:25:47.729 onde tivemos que mudar uma terminologia[br]para a terminologia oficial usada 0:25:47.729,0:25:49.482 nos léxicos oficiais. 0:25:49.482,0:25:52.262 Mas não temos realmente [br]uma forma de indicar porquê. 0:25:52.262,0:25:53.596 Qual foi a fonte disto 0:25:53.596,0:25:55.561 e por que razão isto está melhor[br]do que estava. 0:25:55.561,0:25:57.150 Fui apenas eu, como uma pessoa[br]ao acaso, 0:25:57.150,0:25:59.615 a mudar isto [br]para quem quer que o veja. 0:25:59.615,0:26:02.520 Então, há um plano[br]para isto ser possível de qualquer forma, 0:26:02.520,0:26:06.355 de modo a que possamos realmente ter[br]fontes confiáveis para dados de linguagem? 0:26:07.045,0:26:11.358 Isso é parcialmente possível. 0:26:11.358,0:26:15.958 Por exemplo, quando há[br]um item para uma pessoa, 0:26:15.968,0:26:22.720 pode ter as declarações: primeiro nome,[br]último nome, e por aí em diante. 0:26:22.720,0:26:26.226 E, nessa altura, pode-se providenciar[br]referências para isso. 0:26:28.061,0:26:32.544 Tenho algumas reticências em [br]adicionar mais complexidade 0:26:32.544,0:26:35.557 para referências [br]em etiquetas e descrições, 0:26:35.557,0:26:38.624 mas se as pessoas realmente pensam 0:26:38.624,0:26:44.939 que isto é algo que não está coberto[br]por qualquer referência na declaração, 0:26:44.939,0:26:46.803 então falamos sobre isso. 0:26:48.809,0:26:53.303 Mas temo que [br]vá adicionar muita complexidade 0:26:53.303,0:26:56.523 para o que espero serem poucos casos. 0:26:57.393,0:27:00.188 Mas estou disposta [br]a ser convencida do contrário 0:27:00.188,0:27:04.017 se as pessoas realmente sentem[br]que isto tem relevãncia. 0:27:04.017,0:27:07.737 (plateia 6) Se for adicionado[br]provavelmente não deveria ser o padrão, 0:27:07.737,0:27:12.182 mostrado a todos os utilizadores [br]iniciados na interface, em todos os casos. 0:27:12.182,0:27:16.190 Podia ser mais, "Clica aqui se queres [br]adicionar algo específico sobre isto." 0:27:17.632,0:27:23.368 Temos alguma ideia de quantas vezes[br]isso teria importância? 0:27:24.340,0:27:26.423 (plateia 6) Em estónio, por exemplo-- 0:27:26.423,0:27:29.034 eu imagino que seja assim[br]noutras línguas também-- 0:27:29.034,0:27:34.113 por exemplo, há um nome oficial[br]que é a legítima tradução 0:27:34.113,0:27:36.726 para inglês de, 0:27:36.726,0:27:40.314 digamos, um tipo específico [br]de municipalidade. 0:27:40.314,0:27:42.182 Este foi o meu caso[br]de utilizador, por exemplo, 0:27:42.182,0:27:44.409 onde estávamos a usar a palavra "paróquia" 0:27:45.159,0:27:50.615 na qual a palavra estónia original[br]significava paróquia de igreja 0:27:50.615,0:27:51.779 e essa foi a sua origem, 0:27:51.779,0:27:54.809 mas não é agora a tradução oficial [br]que a Estónia recebe atualmente. 0:27:54.809,0:27:58.853 Neste caso, eu juntaria-a apenas como [br]declarações de nome oficial 0:27:58.853,0:28:00.817 e juntaria a referência aí. 0:28:02.032,0:28:03.158 (plateia 6) Certo. 0:28:05.026,0:28:06.572 Mais questões, sim? 0:28:07.682,0:28:09.944 (Asaf) Dois comentários rápidos. 0:28:09.944,0:28:13.934 Falou especificamente do asturiano[br]como uma linguagem que está em alta 0:28:13.934,0:28:16.385 e eu acho que isso é falso. 0:28:16.385,0:28:17.644 Conte-me. 0:28:17.644,0:28:19.748 (Asaf) Eu penso que é apenas um bot 0:28:19.748,0:28:24.068 que colou nomes de pessoas,[br]nomes apropriados para pessoas, 0:28:24.068,0:28:27.172 e disse "Bem, isto é exatamente [br]como em francês ou espanhol" 0:28:27.172,0:28:28.558 e copiou-o massivamente. 0:28:28.558,0:28:33.316 Uma prova é que [br]não se vê essa energia no asturiano, 0:28:33.316,0:28:37.205 em coisas que realmente requerem tradução,[br]como nomes de propriedades, 0:28:37.205,0:28:39.568 ou nomes de itens [br]que não são nomes próprios. 0:28:39.568,0:28:41.119 Asaf, partes-me o coração. 0:28:41.119,0:28:43.108 (Asaf) Eu sei, [br]costumo estragar as festas, 0:28:43.108,0:28:48.458 mas tenho boas notícias também,[br]sobre os números das pronunciações. 0:28:49.408,0:28:53.515 Como saberão, o Commons está cheio[br]de ficheiros de pronunciação 0:28:53.515,0:28:54.668 e, por exemplo, 0:28:54.668,0:29:01.102 o holandês tem, nada mais nada menos, que[br]300 000 ficheiros desses introduzidos 0:29:01.802,0:29:05.051 que necessitam de ser "ingeridos"[br]de alguma forma. 0:29:05.051,0:29:07.697 Então, se alguém está à procura[br]de um projeto para as horas vagas, 0:29:07.697,0:29:08.807 há imensos 0:29:08.807,0:29:13.210 ficheiros de pronunciação, classificados [br]e categorizados no Commons 0:29:13.210,0:29:16.763 na categoria "Pronunciação" por linguagem. 0:29:16.763,0:29:22.840 Estão à espera de ser combinados [br]com os lexemas e postos no lexema. 0:29:23.030,0:29:25.484 E estava a pensar [br]se me poderia dizer alguma coisa 0:29:25.484,0:29:26.585 sobre o quadro referência, 0:29:26.585,0:29:28.757 algo sobre quanto investimento 0:29:28.757,0:29:31.995 ou o que podemos esperar[br]relativo ao lexema no próximo ano, 0:29:31.995,0:29:34.020 porque eu, pessoalmente, [br]mal posso esperar. 0:29:34.839,0:29:37.044 Não pode? (risos) 0:29:37.044,0:29:39.118 - (Asaf) Por mais.[br]- Sim. (risos) 0:29:40.339,0:29:42.329 Penso que ... 0:29:44.401,0:29:49.523 Neste momento, estamos concentrados[br]mais na Wikibase e na qualidade de dados 0:29:51.283,0:29:55.087 para ver quanta tração isto tem 0:29:55.087,0:30:01.516 e para obter mais para descobrir[br]onde os próximos pontos críticos estão 0:30:01.516,0:30:06.003 e depois voltar atrás e melhorar[br]mais os dados lexicográficos. 0:30:06.903,0:30:09.790 E uma das coisas [br]que adoraria ouvir de vocês 0:30:09.790,0:30:14.136 é onde exatamente vocês vêm[br]que poderão ser dados os próximos passos, 0:30:14.136,0:30:15.966 onde querem melhorias 0:30:15.966,0:30:20.340 para que nós possamos descobrir[br]como fazer isso acontecer. 0:30:21.065,0:30:22.810 Mas claro que está certo, 0:30:22.810,0:30:25.712 ainda há muito a fazer[br]também do lado técnico. 0:30:30.363,0:30:35.848 (plateia 7) Ao carregarmos[br]as palavras bascas com formas, 0:30:35.848,0:30:38.259 e verão alguns destes tipos de coisas,[br]estávamos todos... 0:30:38.259,0:30:41.329 Na semana passada[br]dissemos "Somos os primeiros em algo." 0:30:41.329,0:30:42.919 [inaudível] 0:30:42.919,0:30:44.928 Apareceu na imprensa e foi tipo: 0:30:44.928,0:30:49.208 "O basco foi o primeiro em algo,[br]foram os primeiros." 0:30:49.208,0:30:50.466 (risos) 0:30:50.466,0:30:53.318 E depois as pessoas perguntaram[br]"Mas para que serve isto?" 0:30:54.538,0:30:56.749 Nós não temos uma boa resposta. 0:30:56.749,0:30:57.888 Quer dizer, certo, 0:30:57.888,0:31:01.841 isto vai ajudar computadores[br]a entender mais a nossa linguagem, sim. 0:31:01.841,0:31:05.279 Mas que tipo de ferramentas[br]podemos fazer no futuro? 0:31:05.279,0:31:07.407 E ainda não temos uma boa resposta. 0:31:07.407,0:31:10.625 Portanto eu não sei[br]se vocês têm uma boa resposta para isto. 0:31:10.625,0:31:12.742 (risos) Eu não sei [br]se eu tenho uma boa resposta, 0:31:12.742,0:31:14.746 mas tenho uma resposta. 0:31:15.380,0:31:20.225 Então, eu penso, neste momento,[br]como estava a dizer [inaudível], 0:31:20.225,0:31:21.924 que ainda não chegámos à massa crítica 0:31:21.924,0:31:25.529 onde podemos construir um monte [br]de ferramentas realmente interessantes. 0:31:25.529,0:31:27.707 Mas já existem algumas ferramentas. 0:31:28.157,0:31:31.692 No outro dia,[br]a Esther Pandalia, por exemplo, 0:31:31.692,0:31:33.817 lançou uma ferramenta onde podemos ver, 0:31:35.587,0:31:38.889 penso que eram as palavras num globo, 0:31:38.889,0:31:41.901 onde eram faladas,[br]de onde tinham vindo. 0:31:42.461,0:31:44.090 Posso estar errada sobre isto. 0:31:44.090,0:31:46.286 Mas ela respondeu no chat [br]do projeto na Wikidata. 0:31:46.286,0:31:48.984 Podem vê-lo ali. 0:31:49.574,0:31:51.805 Então já vimos as primeiras ferramentas, 0:31:51.805,0:31:55.696 tal como já vimos, no passado,[br]quando a Wikidata começou. 0:31:56.846,0:31:59.602 Primeiro algumas... Como uma rede 0:31:59.602,0:32:03.424 e depois "Olha, há aqui esta coisa [br]que liga a esta outra coisa." 0:32:04.734,0:32:07.059 E à medida que temos mais dados 0:32:07.059,0:32:10.352 e chegamos mais perto da massa crítica, 0:32:11.702,0:32:14.747 tornam-se possíveis[br]aplicações mais poderosas. 0:32:15.607,0:32:17.516 Coisas como a Histropedia, 0:32:19.036,0:32:21.988 coisas como perguntas e respostas 0:32:21.988,0:32:26.463 no vosso assistente pessoal digital,[br]Platypus e assim por diante. 0:32:26.463,0:32:30.228 E estamos a ver [br]coisas semelhantes com os lexemas. 0:32:31.048,0:32:34.650 Estamos num estágio em que[br]podemos construir estes pequenos: 0:32:34.650,0:32:37.654 "Olha, há uma ligação [br]entre duas coisas 0:32:37.654,0:32:42.618 e há uma tradução dessa palavra[br]para esse estágio de linguagem." 0:32:42.618,0:32:47.687 E, à medida que construimos[br]e à medida que descrevemos mais palavras, 0:32:47.687,0:32:49.443 mais se torna possível. 0:32:49.443,0:32:51.795 Agora, o que é que isso torna possível? 0:32:53.322,0:33:00.103 Como o Ben, o nosso orador de antes,[br]estava a dizer acerca de traduções, 0:33:00.103,0:33:03.315 ser capaz de traduzir[br]de uma língua para outra. 0:33:03.315,0:33:07.839 E Jens, outro colega, [br]que está sempre a falar sobre 0:33:07.839,0:33:11.452 a União Europeia [br]andar sempre à procura de um tradutor 0:33:11.452,0:33:17.319 que possa fazê-lo de,[br]penso que era maltês para sueco. 0:33:17.319,0:33:19.027 - (plateia 8) Estónio.[br]- Estónio. 0:33:19.027,0:33:20.027 (risos) 0:33:22.016,0:33:26.211 E essa não é uma combinação usual. 0:33:27.111,0:33:31.735 Mas assim que temos todas essas linguagens[br]num lugar passível de ser lido por máquina 0:33:31.735,0:33:33.063 podemos fazer isso. 0:33:33.063,0:33:36.857 Podemos obter um dicionário 0:33:36.857,0:33:41.735 de estónio para maltês e vice-versa. 0:33:42.935,0:33:45.607 Então, incluir combinações[br]de linguagens em dicionários 0:33:45.607,0:33:47.791 que não foram incluídas antes 0:33:47.791,0:33:51.050 porque não havia [br]procura suficiente para elas, por exemplo, 0:33:51.050,0:33:55.380 para fazê-lo de forma financeiramente[br]viável e para justificar o trabalho. 0:33:55.380,0:33:57.147 Agora podemos fazer isso. 0:33:59.607,0:34:02.088 E depois a geração de texto. 0:34:02.088,0:34:03.653 A Lucie estava a falar 0:34:03.653,0:34:10.136 acerca de como ela está a trabalhar[br]com a Hattie em gerar textos 0:34:10.136,0:34:14.673 para iniciar artigos na Wikipedia[br]em línguas minoritárias. 0:34:15.423,0:34:19.382 Isso precisa de dados sobre palavras 0:34:19.382,0:34:22.589 e precisamos perceber a língua[br]para fazer isso. 0:34:23.469,0:34:28.133 Sim, e isto é só[br]o que me vem à cabeça agora. 0:34:28.573,0:34:30.494 Talvez a nossa audiência tenha mais ideias 0:34:30.494,0:34:34.353 do que querem fazer quando tivermos [br]todos esses gloriosos dados. 0:34:37.693,0:34:40.772 (plateia 9) Vou-nos desviar [br]do tópico dos lexemas. 0:34:40.772,0:34:42.536 Quero perguntar-vos algo. 0:34:42.536,0:34:45.514 Como posso eu, como membro da comunidade 0:34:45.514,0:34:49.925 influenciar que a prioridade [br]seja colocada na tarefa, 0:34:49.925,0:34:56.644 que um utilizador novo venha, e possa [br]indicar que línguas quer ver e editar 0:34:56.644,0:35:02.115 sem um qualquer conhecimento padrão[br]verbal secreto. 0:35:02.115,0:35:04.893 Talvez haja, este ano,[br]uma lista técnica de desejos 0:35:04.893,0:35:06.820 sem tópicos da Wikipedia. 0:35:06.820,0:35:10.119 Talvez haja esperança[br]de que possamos votar acerca 0:35:10.119,0:35:13.928 daquela coisa [br]que não arranjamos há sete anos. 0:35:13.928,0:35:17.607 Tem alguma ideia [br]ou comentário sobre isso? 0:35:18.217,0:35:20.198 Então, está a falar sobre o facto 0:35:20.198,0:35:23.258 de alguém que não esteja ligado [br]à Wikidata 0:35:23.258,0:35:25.391 não poder mudar[br]a sua linguagem facilmente? 0:35:25.391,0:35:27.839 (plateia 9) Não, para novos utilizadores. 0:35:28.309,0:35:30.689 Então, se estiverem ligados, 0:35:30.689,0:35:34.871 eles podem mudar a sua língua [br]no topo da página. 0:35:35.891,0:35:39.589 Depois, aparece onde... 0:35:39.599,0:35:42.013 onde as descrições das etiquetas estão 0:35:42.013,0:35:43.483 e podem editá-las. 0:35:45.507,0:35:49.009 (plateia 9) Bem, na verdade, muitas vezes[br]o fluxo de trabalho é, 0:35:49.009,0:35:52.217 se queremos ter [br]múltiplas línguas elas estão disponíveis, 0:35:52.217,0:35:55.419 e nem sempre acontece. 0:35:55.419,0:35:58.584 Talvez devamos sentar-nos[br]depois desta apresentação e mostra-me. 0:36:01.312,0:36:04.089 Fixe. Mais questões? 0:36:05.394,0:36:06.536 Sim. 0:36:11.415,0:36:13.196 (plateia 10) Obrigado pela apresentação. 0:36:13.896,0:36:15.127 Pode comentar 0:36:15.127,0:36:19.307 acerca do estado da correlação [br]com a comunidade do Wiktionary. 0:36:19.307,0:36:22.146 Do que eu tenho conseguido ver,[br]tem havido algumas discussões 0:36:22.146,0:36:26.051 acerca de importar [br]alguns elementos do trabalho, 0:36:26.051,0:36:30.333 mas parece haver algumas questões [br]de licenciamento e desentendimentos, etc. 0:36:30.333,0:36:31.438 Certo. 0:36:31.438,0:36:36.970 Então, as comunidades do Wiktionary[br]passaram muito tempo 0:36:36.970,0:36:38.973 a construir o Wiktionary. 0:36:38.973,0:36:42.643 Construiram 0:36:42.883,0:36:47.304 padrões extremamente complicados[br]e complexos 0:36:47.304,0:36:53.404 para construir as bonitas tabelas [br]que geram formulários para vocês 0:36:53.404,0:36:56.392 e é tudo realmente impressionante, 0:36:56.392,0:37:00.683 e um pouco louco,[br]se pensarmos bem nisso. 0:37:02.081,0:37:07.994 E, é claro, investiram [br]muito tempo e esforço a fazê-lo. 0:37:09.204,0:37:11.671 E, compreensivelmente, 0:37:11.671,0:37:17.116 não querem que isso seja agarrado 0:37:17.936,0:37:18.982 de qualquer maneira. 0:37:18.982,0:37:21.791 Então, há um pouco disso, vindo daí. 0:37:21.791,0:37:25.137 E está certo, tudo bem. 0:37:25.137,0:37:31.782 Agora, as primeiras comunidades Wiktionary[br]estão a falar de mudar isso 0:37:31.782,0:37:34.329 e importar alguns [br]dos dados deles para a Wikidata. 0:37:34.329,0:37:39.095 O russo, por exemplo, como já viram,[br]é um desses casos 0:37:39.785,0:37:42.355 e espero que mais aconteçam. 0:37:43.425,0:37:46.640 Mas vai ser um processo lento, 0:37:46.640,0:37:49.383 tal como a adopção[br]dos dados da Wikidata pela Wikipedia 0:37:49.383,0:37:51.909 está a ser um processo bem lento. 0:37:52.699,0:37:56.183 O outro lado é tentar que seja mais fácil 0:37:56.183,0:37:59.132 usar os dados que estão nos lexemas, 0:37:59.132,0:38:02.209 no Wiktionary, para que [br]possam fazer uso deles 0:38:02.209,0:38:05.531 e partilhar dados entre [br]as Wiktionaries de linguagens. 0:38:05.531,0:38:08.753 O que é super difícil neste momento, 0:38:08.753,0:38:11.560 o que é de doidos,[br]tal como foi na Wikipedia. 0:38:13.720,0:38:16.325 Esperem pelo presente de aniversário. [br](risos) 0:38:19.918,0:38:21.182 Sim. 0:38:22.519,0:38:24.777 (plateia 11) Quando estava a pensar [br]sobre a outra forma, 0:38:24.777,0:38:28.038 eu, na verdade, não o quis dizer[br]porque penso que pode ser super tolo. 0:38:28.038,0:38:31.833 Mas acho que o Wiktionary [br]já tem algum conteúdo 0:38:31.833,0:38:34.978 e eu sei que [br]não pode ser transferido para a Wikidata 0:38:34.978,0:38:37.048 por causa das diferenças de licenças. 0:38:37.048,0:38:39.631 Mas estava a pensar que talvez[br]possamos fazer algo acerca disso. 0:38:40.161,0:38:45.473 Talvez obter permissão das comunidades 0:38:45.473,0:38:51.205 depois de, não sei,[br]haver uma votação pública 0:38:51.825,0:38:55.642 de forma a que comunidade, [br]os seus membros ativos, 0:38:55.642,0:39:02.523 votem e digam se querem [br]ou não aceitar a transferência de conteúdo 0:39:02.523,0:39:05.528 para a qual podem fazer[br]os lexemas da Wikidata. 0:39:06.148,0:39:08.537 Porque penso que é um desperdício. 0:39:09.528,0:39:14.273 Então, isso é definitivamente [br]uma conversa que essas pessoas, 0:39:14.273,0:39:18.249 que estão nas comunidades Wiktionary,[br]podem ter lá. 0:39:18.249,0:39:24.647 Penso que seria um pouco presunçoso[br]da nossa parte forçarmos isso. 0:39:25.767,0:39:31.032 Mas sim, penso que, definitivamente,[br]vale a pena ter essa conversa. 0:39:31.032,0:39:33.898 Mas eu penso que também[br]é importante entender 0:39:33.898,0:39:38.962 que há uma distinção entre [br]o que é legalmente permitido 0:39:38.962,0:39:43.057 e o que devíamos estar a fazer 0:39:43.057,0:39:45.426 e o que as essas pessoas querem ou não. 0:39:45.736,0:39:47.329 Portanto, mesmo se for legal, 0:39:47.329,0:39:50.640 se algumas das comunidades Wiktionary[br]não o quiserem, 0:39:50.640,0:39:53.537 eu teria cuidado, no mínimo. 0:39:58.766,0:40:02.489 Penso que precisamos do microfone[br]para o vídeo. 0:40:04.380,0:40:07.299 (plateia 12) Obviamente,[br]isto é tudo muito excitante 0:40:07.849,0:40:12.169 e penso imediatamente em como [br]levar isto aos meus estudantes, 0:40:12.169,0:40:15.288 como posso incorporar isto nos cursos, 0:40:15.288,0:40:18.531 no trabalho que estamos a fazer,[br]ambientes educacionais. 0:40:18.531,0:40:22.271 E não tenho, neste momento, 0:40:22.791,0:40:24.116 primeiro, conhecimento, 0:40:24.116,0:40:27.278 mas acho que a documentação[br]que temos 0:40:27.768,0:40:29.992 pode ser melhorada. 0:40:29.992,0:40:33.437 Portanto, isto é um pedido[br]para fazerem vídeos fixes 0:40:33.437,0:40:35.898 que expliquem como funciona. 0:40:35.898,0:40:39.948 Porque, se os tivermos, podemos usá-los, 0:40:39.948,0:40:41.985 podemos ter estudantes a bordo 0:40:41.985,0:40:46.952 e podemos fazer as pessoas entender[br]quão espetacular é. 0:40:46.952,0:40:51.891 Sim, pensem na documentação[br]e pensem na educação, por favor. 0:40:51.891,0:40:54.440 Porque penso que muito pode ser feito. 0:40:54.440,0:40:58.585 Estas são pequenas tarefas[br]que podem ser feitas mesmo com... 0:41:00.125,0:41:02.033 bem, não direi escolas primárias, 0:41:02.033,0:41:05.495 mas certamente até com estudantes jovens. 0:41:05.765,0:41:10.646 E, portanto, gostaria mesmo de ver[br]esse potencial a ser aproveitado 0:41:10.646,0:41:15.172 e, neste momento, eu, pessoalmente,[br]não entendo o suficiente 0:41:15.172,0:41:19.500 para conseguir criar tarefas[br]ou para criar tipo... 0:41:20.200,0:41:22.155 para fazer algo prático com isto. 0:41:22.155,0:41:25.772 Portanto, qualquer ajuda, ideias [br]que alguém tenha acerca disso, 0:41:25.772,0:41:29.648 estou completamente disponível para ouvir[br]tudo o que tenham em mente. 0:41:30.328,0:41:32.129 Sim, vamos falar sobre isso. 0:41:35.273,0:41:37.139 Mais questões? 0:41:37.569,0:41:39.065 Mais alguém tinha levantado a mão. 0:41:39.065,0:41:40.495 Esqueci-me de quem foi. 0:41:45.739,0:41:49.866 (plateia 13) Então, se não conseguimos [br]importar a partir do Wiktionary, 0:41:49.866,0:41:55.772 há algum esforço concertado para [br]achar outras fontes de domínio público, 0:41:55.772,0:41:57.459 talvez dados mais antigos, 0:41:58.769,0:42:03.167 e filtrá-los previamente, organizá-los 0:42:03.167,0:42:08.470 para que seja fácil a sua verificação,[br]por pessoas, para importação? 0:42:08.993,0:42:11.131 Então, foram feitos esforços iniciais. 0:42:11.131,0:42:14.649 Penso que o basco é um desses esforços. 0:42:14.649,0:42:17.474 Talvez queiras dizer[br]algo sobre isso? 0:42:18.426,0:42:20.130 (plateia 14) [inaudível] 0:42:23.026,0:42:27.148 Certo, a resposta é [br]pagando por isso... 0:42:28.204,0:42:33.381 Temos um acordo[br]com um fornecedor com quem trabalhamos. 0:42:34.661,0:42:38.725 Eles fazem dicionários, outros... 0:42:40.315,0:42:42.458 montes de coisas, mas fazem dicionários. 0:42:42.458,0:42:47.473 Temos um acordo com eles para[br]tornar grátis os dicionários estudantis. 0:42:47.473,0:42:52.622 Nós transmitiríamos as palavras [br]mais comuns e começaríamos a carregá-las 0:42:52.622,0:42:55.590 com um identificador externo[br]e esse tipo de coisas. 0:42:56.090,0:43:02.702 Mas houve alguma discussão [br]acerca de deixá-lo no CC0, 0:43:02.702,0:43:05.322 porque eles têm [br]um dicionário com CC por ele, 0:43:05.947,0:43:10.066 e perceberam qual era a diferença. 0:43:10.066,0:43:13.726 Portanto, houve alguma discussão. 0:43:13.726,0:43:19.499 Mas penso que podemos providenciar algumas[br]ferramentas ou exemplos, no futuro, 0:43:19.499,0:43:21.761 e penso que haverá outros dicionários 0:43:21.761,0:43:23.826 que podemos gerir. 0:43:23.826,0:43:29.274 E também penso que o Wiktionary[br]deveria ir nessa direção, 0:43:29.274,0:43:32.260 mas isso é outra grande discussão. 0:43:33.015,0:43:34.447 E, para além disso, 0:43:34.447,0:43:38.699 a Lea está também em contacto[br]com pessoas da Occitan, 0:43:38.699,0:43:41.767 que trabalham nos dicionários Occitan, 0:43:41.767,0:43:45.138 e eles estão atualmente a trabalhar[br]numa colaboração suméria. 0:43:51.374,0:43:53.363 Mais questões? 0:44:01.307,0:44:05.179 (plateia 15) Olá. Nós somos as pessoas[br]que querem importar dados da Occitan. 0:44:05.179,0:44:06.405 Perfeito! 0:44:06.405,0:44:09.188 (plateia 15) E temos[br]um pequeno problema para... 0:44:09.188,0:44:14.135 Nós não sabemos como representar [br]toda a variedade de lexemas. 0:44:14.135,0:44:17.493 Temos seis dialetos 0:44:17.493,0:44:23.904 e queremos indicar, para o lexema,[br]em que dialeto é usado 0:44:23.904,0:44:27.175 e não temos a declaração CO[br]apropriada para isso. 0:44:27.175,0:44:31.105 Portanto, enquanto o segmento não existir, 0:44:31.525,0:44:34.365 não conseguimos [inaudível] 0:44:34.365,0:44:37.603 porque vamos precisar de fazê-lo outra vez 0:44:37.603,0:44:41.946 quando estivermos em condições[br]de exportar a declaração. 0:44:41.946,0:44:44.471 E é complicado [br]porque é uma declaração 0:44:44.471,0:44:47.802 que não vai ser pedida por muita gente 0:44:47.802,0:44:53.444 porque é uma declaração que diz respeito[br]principalmente a línguas minoritárias. 0:44:53.444,0:44:56.803 Então teremos uma pessoa a pedir isto. 0:44:56.803,0:44:59.962 Mas, como no caso[br]dos nossos colegas Bascos, 0:44:59.962,0:45:06.082 pode ser uma pessoa [br]que ajudará milhares de outros. 0:45:06.082,0:45:10.884 Portanto, pode não parecer importante, 0:45:10.884,0:45:14.136 mas será muito importante para nós. 0:45:14.524,0:45:17.600 Vocês já têm a nova proposta [br]de propriedade a funcionar, 0:45:17.600,0:45:19.470 ou precisam de ajuda para criá-la? 0:45:21.244,0:45:24.300 (plateia 15) Fizemos o pedido[br]há quatro meses. 0:45:24.300,0:45:28.755 Certo, então vamos arranjar pessoal[br]para ajudar com essa proposta. 0:45:29.959,0:45:33.092 De certeza que há pessoas suficentes[br]nesta sala para isso se realizar. 0:45:33.092,0:45:35.992 (plateia 15) Proposta de propriedade[br][em francês]. 0:45:35.992,0:45:39.479 Nós não tivemos resposta[br]e não sabemos fazê-lo 0:45:39.479,0:45:42.953 porque não somos da comunidade Wikidata. 0:45:44.514,0:45:48.697 Sim, então há aqui pessoas[br]que vos podem ajudar. 0:45:48.697,0:45:52.134 Talvez alguém levante a mão [br]para ficar... 0:45:52.134,0:45:53.454 (plateia 14) Sou a favor. 0:45:53.454,0:45:55.512 Mas penso que é muito interessante 0:45:55.512,0:45:58.939 que apenas a variante de forma 0:45:58.939,0:46:02.607 também o possa gerir geograficamente, 0:46:02.607,0:46:04.995 com coordenadas [br]ou algum tipo de mapeamento. 0:46:05.485,0:46:07.815 Também tendo diferentes pronúncias 0:46:07.815,0:46:11.837 e penso que é algo[br]que acontece em muitas línguas. 0:46:12.517,0:46:16.112 Deveríamos trabalhar para isso[br]acontecer de alguma forma 0:46:16.112,0:46:18.865 e eu vou procurar a propriedade. 0:46:19.652,0:46:20.773 Fixe. 0:46:20.773,0:46:24.446 Então, vocês terão apoio[br]para a vossa proposta de propriedade. 0:46:25.996,0:46:27.297 Obrigado. 0:46:27.962,0:46:30.261 Mais alguma questão? 0:46:32.210,0:46:33.474 Finn. 0:46:33.784,0:46:35.055 O Finn é uma daquelas pessoas 0:46:35.055,0:46:37.531 que constrói coisas[br]tendo como base dados lexicográficos. 0:46:37.531,0:46:40.285 (Finn) É só uma pequena questão, 0:46:40.285,0:46:44.226 e é sobre variações de ortografia. 0:46:44.896,0:46:48.242 Parece difícil pô-las em... 0:46:48.242,0:46:53.838 Poderíamos, claro,[br]ter múltiplas formas para a mesma palavra. 0:46:55.627,0:46:58.448 Não sei, parece ser... 0:46:59.328,0:47:03.535 Se não o fizeres dessa forma,[br]parece ser difícil especificar... 0:47:04.521,0:47:05.888 ou, não sei se 0:47:05.888,0:47:09.591 é apenas um problema técnico menor[br]ou se... 0:47:09.591,0:47:11.332 Vamos olhar para isso juntos. 0:47:11.332,0:47:15.230 Adoraria ver um exemplo. 0:47:17.248,0:47:18.478 Asaf. 0:47:26.666,0:47:28.396 (Asaf) Obrigado. 0:47:29.216,0:47:33.685 Posso dar um exemplo concreto[br]da minha língua, o hebreu. 0:47:34.125,0:47:38.685 O Hebreu tem duas variantes principais 0:47:38.685,0:47:42.646 para expressar quase todas as palavras, 0:47:42.646,0:47:47.520 porque a ortografia tradicional 0:47:47.520,0:47:50.044 deixa de parte muitas vogais. 0:47:50.814,0:47:54.987 E, assim sendo, nas edições modernas[br]da Bíblia e de poesia, 0:47:54.987,0:47:57.265 são usados os diacríticos. 0:47:57.265,0:48:02.560 Por outro lado, os diacríticos[br]nunca são usados na prosa moderna 0:48:02.560,0:48:05.734 ou imprensa escrita ou toponímia. 0:48:05.734,0:48:11.209 Então, a utilização casual diária[br]usa as vogais extra 0:48:12.049,0:48:13.519 e não usa os diacríticos. 0:48:13.519,0:48:15.607 Porque eles são,[br]obviamente, mais complicados 0:48:15.607,0:48:17.893 e têm todo o tipo de regras[br]e ninguém sabe as regras. 0:48:18.393,0:48:20.531 - (risos)[br]- Então, há duas variantes. 0:48:20.531,0:48:25.222 Há a variante casual para prosa 0:48:25.222,0:48:27.827 e há a da Bíblia e da poesia. 0:48:27.827,0:48:32.200 que vem sempre [br]no tradicional texto diacriticizado. 0:48:32.200,0:48:33.302 Para ser útil, 0:48:33.302,0:48:37.428 o lexema teria que reconhecer [br]ambas as variantes de cada palavra 0:48:37.428,0:48:39.747 e cada forma[br]de cada palavra. 0:48:40.477,0:48:43.391 Portanto, esse é um caso de utilização[br]muito abrangente 0:48:43.391,0:48:46.250 para variantes oficiais estáveis. 0:48:46.250,0:48:49.262 Não é dialeto, não é regional, 0:48:49.262,0:48:53.627 são, basicamente, dois sistemas[br]morfológicos coexistentes. 0:48:54.427,0:48:58.786 E eu também não sei exatamente[br]como expressar isso no lexema, agora, 0:48:58.786,0:49:02.800 o que é uma das coisas que me impede,[br]em resposta parcial à pergunta do Magnus, 0:49:02.800,0:49:05.238 de carregar as partes que estão prontas 0:49:05.238,0:49:09.394 do maior dicionário Hebreu,[br]que é de domínio público 0:49:09.394,0:49:12.927 e que tenho andar a digitalizar[br]há vários anos. 0:49:12.927,0:49:14.723 Uma grande porção está pronta, 0:49:14.723,0:49:16.459 mas não o ponho no lexema agora 0:49:16.459,0:49:20.115 porque, basicamente, não sei[br]como resolver este problema. 0:49:20.115,0:49:23.387 Está bem, vamos resolver [br]este problema aqui. (risos) 0:49:24.303,0:49:26.021 Tem de ser possível. 0:49:29.875,0:49:32.047 Mais perguntas? 0:49:37.003,0:49:39.735 Se não, então muito obrigada. 0:49:40.435,0:49:44.915 (aplausos)