WEBVTT 00:00:06.303 --> 00:00:07.362 (Lydia) Muito obrigada. 00:00:07.362 --> 00:00:11.244 Então, nesta conferência, um dos grandes temas são as linguagens. 00:00:11.244 --> 00:00:13.710 Então... 00:00:13.710 --> 00:00:18.368 Quero dar-vos uma visão geral de onde estamos atualmente 00:00:18.368 --> 00:00:19.734 no que diz respeito a linguagens 00:00:19.734 --> 00:00:22.167 e para onde podemos ir daqui. 00:00:28.956 --> 00:00:32.580 A Wikidada pretende dar a mais pessoas mais acesso a mais conhecimento 00:00:32.580 --> 00:00:37.168 e a linguagem é uma parte muito importante para tornar isso realidade. 00:00:38.115 --> 00:00:43.291 Especialmente, porque cada vez mais as nossas vidas dependem da tecnologia. 00:00:44.114 --> 00:00:48.873 E, como um dos palestrantes mencionou há pouco, 00:00:49.613 --> 00:00:51.588 alguma da tecnologia deixa as pessoas para trás 00:00:51.588 --> 00:00:55.020 simplesmente porque não falam determinada linguagem, 00:00:55.320 --> 00:00:57.573 o que não está correto. 00:00:58.473 --> 00:01:02.097 Então, nós queremos fazer algo em relação a isso. 00:01:02.927 --> 00:01:05.841 E, de forma a mudar isso, precisamos de pelos menos duas coisas. 00:01:06.321 --> 00:01:11.270 Primeiro, providenciar conteúdo na língua nativa das pessoas 00:01:11.270 --> 00:01:12.955 e, segundo, 00:01:12.955 --> 00:01:15.770 providenciar interação na sua língua, 00:01:15.770 --> 00:01:19.189 nas aplicações ou seja no que for que tenham. 00:01:20.367 --> 00:01:25.277 A Wikidata ajuda em ambas as coisas. 00:01:25.277 --> 00:01:28.408 Em relação à primeira, conteúdo na sua língua, 00:01:28.408 --> 00:01:30.879 isso é basicamente o que temos nos itens e propriedades, 00:01:31.319 --> 00:01:33.082 como descrevemos o mundo. 00:01:33.082 --> 00:01:35.085 Isto não é, certamente, tudo o que é preciso, 00:01:35.085 --> 00:01:39.294 mas já dá uma ajuda considerável. 00:01:39.614 --> 00:01:41.847 A outra coisa, interação na sua língua, 00:01:41.847 --> 00:01:46.389 é onde os lexemas entram em jogo 00:01:46.389 --> 00:01:49.382 se quiserem falar com o vosso assistente pessoal digital, 00:01:49.382 --> 00:01:54.918 ou se quiserem que o vosso dispositivo traduza um texto e afins. 00:01:56.404 --> 00:01:59.254 Tudo bem, vamos olhar para conteúdo na sua língua. 00:01:59.254 --> 00:02:03.396 O que temos em itens e propriedades? 00:02:05.406 --> 00:02:09.696 Para isto, as etiquetas nesses itens e propriedades são cruciais. 00:02:10.236 --> 00:02:14.866 Precisamos de saber como se chama esta entidade de que estamos a falar. 00:02:15.656 --> 00:02:19.847 E, em vez de falarmos sobre Q5... 00:02:19.847 --> 00:02:22.180 Alguém que fale inglês sabe que isso é um "humano", 00:02:22.180 --> 00:02:24.706 alguém que fale alemão sabe que é um "mensch", 00:02:24.706 --> 00:02:26.374 e por aí adiante. 00:02:26.374 --> 00:02:29.742 Então, estas etiquetas nos itens e propriedades 00:02:29.742 --> 00:02:33.619 estão a fechar as brechas entre humanos e máquinas 00:02:33.619 --> 00:02:35.439 e entre humanos e humanos. 00:02:35.439 --> 00:02:40.115 Fazendo com que mais conhecimento esteja acessível para eles. 00:02:43.270 --> 00:02:46.290 Isso é um bom objetivo. 00:02:46.290 --> 00:02:48.342 Mas qual é o aspeto disso? 00:02:48.342 --> 00:02:49.607 Bem, é este. 00:02:50.947 --> 00:02:52.416 O que estão a ver aqui 00:02:52.416 --> 00:02:58.496 é que a maioria dos items na Wikidata tem duas etiquetas, 00:02:58.496 --> 00:03:00.767 portanto, são etiquetados em duas línguas. 00:03:01.697 --> 00:03:03.851 Depois disso, é um, e depois três 00:03:03.851 --> 00:03:06.115 e depois fica muito triste. 00:03:06.781 --> 00:03:08.581 (riso tímido) 00:03:10.047 --> 00:03:12.713 Eu penso que temos que fazer melhor. 00:03:14.185 --> 00:03:15.319 Mas, por outro lado, 00:03:15.319 --> 00:03:17.478 eu, na verdade, estava à espera de muito pior. 00:03:17.478 --> 00:03:19.560 Estava à espera que a média fosse um. 00:03:19.560 --> 00:03:22.503 Portanto, fiquei bastante contente em ver dois. (risos) 00:03:24.921 --> 00:03:26.186 Certo. 00:03:27.156 --> 00:03:29.527 Mas, o interessante não é só saber 00:03:29.527 --> 00:03:33.742 quantas etiquetas os nossos items e propriedades têm, 00:03:33.742 --> 00:03:36.565 também é interessante ver em que línguas. 00:03:38.045 --> 00:03:43.764 Aqui têm um gráfico das línguas 00:03:43.764 --> 00:03:46.838 que têm etiquetas para itens. 00:03:46.838 --> 00:03:50.669 A maior parte é Outra. 00:03:51.229 --> 00:03:53.863 Então, peguei nas 100 maiores línguas 00:03:54.483 --> 00:03:58.902 e tudo o resto são Outras, para que o gráfico se perceba. 00:03:59.542 --> 00:04:02.142 Depois, há inglês e holandês, 00:04:03.002 --> 00:04:04.254 francês, 00:04:05.924 --> 00:04:09.129 e não nos esqueçamos do... asturiano. 00:04:09.659 --> 00:04:11.889 - (plateia 1) (grito de entusiasmo) - De facto! 00:04:13.899 --> 00:04:16.954 Então, podem ver que há aqui um considerável desequilíbrio 00:04:16.954 --> 00:04:20.114 e o foco ainda se mantém muito no inglês. 00:04:21.236 --> 00:04:24.367 Outra coisa que notamos é que nas Propriedades, 00:04:24.367 --> 00:04:25.999 as coisas estão bem melhores. 00:04:27.399 --> 00:04:32.750 E penso que, em parte, isso deve-se a haver muito menos propriedades. 00:04:32.750 --> 00:04:36.770 Então, mesmo comunidades menores têm hipótese de se manter a par. 00:04:36.770 --> 00:04:39.173 Mas também é uma parte importante da Wikidata, 00:04:39.173 --> 00:04:41.159 a localização na tua própria língua. 00:04:41.159 --> 00:04:42.384 Portanto, isso é bom. 00:04:45.752 --> 00:04:47.842 O que quero salientar aqui com o asturiano 00:04:47.842 --> 00:04:53.698 é que uma comunidade pequena pode realmente fazer uma enorme diferença 00:04:54.448 --> 00:04:57.085 com alguma dedicação e trabalho, 00:04:57.085 --> 00:04:58.420 o que é muito fixe. 00:05:01.846 --> 00:05:03.530 Uma pequena pergunta para vocês. 00:05:03.530 --> 00:05:05.493 Se pegarmos em todas as propriedades na Wikidata, 00:05:05.493 --> 00:05:07.687 que não são indentificadores externos, 00:05:07.687 --> 00:05:10.358 qual é o que tem mais etiquetas, o maior número de linguagens? 00:05:10.767 --> 00:05:13.717 (plateia) [inaudível] 00:05:13.717 --> 00:05:16.786 Ouço algum acordo em instância de? 00:05:17.316 --> 00:05:19.443 Estariam errados. 00:05:19.873 --> 00:05:22.210 É imagem. (risos) 00:05:23.160 --> 00:05:26.366 Então, sim, isso diz-vos, se falarem uma destas línguas 00:05:26.366 --> 00:05:28.621 nas quais instância de ainda não tem etiqueta, 00:05:28.621 --> 00:05:30.190 que poderão querer adicioná-la. 00:05:31.642 --> 00:05:35.676 Tem, neste momento, 148 etiquetas. 00:05:37.688 --> 00:05:41.249 Mas isso é outro slide. 00:05:42.631 --> 00:05:44.162 Este gráfico diz-nos algo 00:05:44.162 --> 00:05:49.321 sobre quanto conteúdo estamos a tornar disponível numa certa língua 00:05:49.321 --> 00:05:52.042 e quanto conteúdo é realmente utilizado. 00:05:52.042 --> 00:05:55.448 Então, o que temos aqui é basicamente uma curva 00:05:55.448 --> 00:06:00.987 com a maior parte do conteúdo com etiquetas em inglês, disponível em inglês 00:06:01.507 --> 00:06:04.295 e a ser muito usado. 00:06:04.295 --> 00:06:06.449 E depois, isto meio que baixa. 00:06:06.449 --> 00:06:09.436 Mas, novamente, o que podem ver são os valores atípicos 00:06:09.436 --> 00:06:15.333 que têm muito mais conteúdo do que seria de esperar 00:06:16.663 --> 00:06:19.539 e isso é mesmo muito bom. 00:06:20.739 --> 00:06:24.945 O problema é que não é tão utilizado. 00:06:25.565 --> 00:06:28.742 Asturiano e holandês deveriam ser mais altos. 00:06:28.742 --> 00:06:31.994 Acho que, ajudar essas comunidades 00:06:33.266 --> 00:06:35.493 a aumentar o uso dos dados que coletaram, 00:06:35.493 --> 00:06:37.682 é uma coisa realmente útil de se fazer. 00:06:42.910 --> 00:06:46.801 O que esta análise e outras nos mostraram é uma coisa boa, 00:06:46.801 --> 00:06:51.378 embora estejamos a ver que os itens que são mais utilizados 00:06:51.378 --> 00:06:55.295 também tendem a ter mais etiquetas 00:06:55.295 --> 00:06:58.188 ou ao contrário. Não é completamente claro. 00:07:02.513 --> 00:07:04.376 E então, a questão é: 00:07:04.806 --> 00:07:07.009 estamos a servir apenas as linguagens poderosas? 00:07:07.899 --> 00:07:11.147 Ou conseguimos fazê-lo para todos? 00:07:12.757 --> 00:07:17.743 O que vêm aqui é um agrupamento das linguagens. 00:07:17.743 --> 00:07:21.832 As linguagens que estão agrupadas tendem a ter etiquetas juntas. 00:07:26.042 --> 00:07:28.599 E conseguimos vê-las a aglomerarem-se. 00:07:28.599 --> 00:07:34.065 Agora, temos aqui um aglomerado similar, colorido, 00:07:34.065 --> 00:07:39.475 baseado em quão viva, quão usada, 00:07:40.455 --> 00:07:43.156 quão ameaçada a linguagem está. 00:07:43.156 --> 00:07:44.642 E uma coisa boa que vemos aqui, 00:07:44.642 --> 00:07:49.566 é que linguagens seguras e ameaçadas 00:07:49.566 --> 00:07:53.773 não formam dois aglomerados diferentes. 00:07:53.773 --> 00:07:58.872 Elas misturam-se, 00:08:00.262 --> 00:08:04.545 o que é muito melhor do que seria se fosse ao contrário 00:08:04.545 --> 00:08:09.377 onde as linguagens seguras, as linguagens poderosas, 00:08:10.197 --> 00:08:12.164 estariam apenas a ajudar-se entre elas. 00:08:12.594 --> 00:08:14.356 Não, não é esse o caso. 00:08:14.356 --> 00:08:17.417 E isso é uma coisa ótima. 00:08:17.417 --> 00:08:20.042 Quando vi isto, pensei que isto era muito bom. 00:08:23.474 --> 00:08:25.169 Aqui está uma coisa similar, 00:08:26.239 --> 00:08:28.800 onde olhamos para 00:08:30.230 --> 00:08:34.222 os estados das linguagens, 00:08:34.222 --> 00:08:36.225 para quantas etiquetas têm. 00:08:39.367 --> 00:08:42.937 O que estão a ver é uma clara vantagem para as linguagens seguras, 00:08:42.937 --> 00:08:44.248 como seria de esperar. 00:08:45.508 --> 00:08:46.693 Mas também estão a ver 00:08:46.693 --> 00:08:54.407 que as linguagens na categoria dois, e três e até mesmo quatro 00:08:54.407 --> 00:08:59.280 não estão, na verdade, nada mal 00:08:59.280 --> 00:09:02.367 em termos de representação na Wikidata e em outros. 00:09:03.287 --> 00:09:06.408 É uma coisa muito boa de se encontrar. 00:09:07.646 --> 00:09:09.129 Agora, se olharmos para a mesma coisa 00:09:09.129 --> 00:09:12.418 para quanto do conteúdo dessas etiquetas 00:09:12.418 --> 00:09:15.495 é atualmente usado na Wikipedia, por exemplo, 00:09:17.455 --> 00:09:22.563 emerge uma imagem semelhante. 00:09:23.603 --> 00:09:29.813 E diz-nos que estas comunidades estão a fazer um bom uso do tempo 00:09:29.813 --> 00:09:34.504 preenchendo as etiquetas para os itens mais usados, por exemplo. 00:09:36.410 --> 00:09:40.493 Há valores atípicos onde penso que podemos ajudar... 00:09:41.683 --> 00:09:48.202 Ajudar as comunidades a encontrar sítios onde o seu trabalho será mais valioso. 00:09:49.312 --> 00:09:52.663 Mas, no geral, estou contente com este panorama. 00:09:54.823 --> 00:09:59.844 Agora, isto foram os itens e as propriedades da Wikidata. 00:10:00.714 --> 00:10:03.033 Agora vamos olhar para a interação nas vossas línguas. 00:10:03.033 --> 00:10:05.203 Portanto as porções do lexema da Wikidata 00:10:05.203 --> 00:10:09.394 onde nós descrevemos palavras e as suas formas e significados. 00:10:10.167 --> 00:10:13.301 Andamos a fazer isso desde Maio do ano passado 00:10:16.391 --> 00:10:19.127 e o conteúdo tem aumentado. 00:10:19.434 --> 00:10:22.149 Podem ver aqui em azul os lexemas 00:10:22.149 --> 00:10:25.938 e a vermelho, as formas nesses lexemas 00:10:25.938 --> 00:10:29.910 e a amarelo, os sentidos nesses lexemas. 00:10:30.991 --> 00:10:34.451 Então algumas comunidades-- já voltaremos a isso mais tarde-- 00:10:34.451 --> 00:10:39.793 dispenderam muito tempo a criar formas e sentidos para os seus lexemas, 00:10:39.793 --> 00:10:42.753 o que é muito útil 00:10:42.753 --> 00:10:48.243 porque constrói o núcleo dos conjuntos de dados que precisamos. 00:10:50.562 --> 00:10:55.133 Agora, olhamos para todas as línguas 00:10:55.133 --> 00:10:57.906 que têm lexemas na Wikidata. 00:10:57.906 --> 00:11:01.003 Portanto, palavras que nós temos. 00:11:01.713 --> 00:11:04.404 Há, agora, 310 línguas. 00:11:04.884 --> 00:11:08.290 Agora, qual é que acham que é a língua que está no topo 00:11:08.290 --> 00:11:11.949 quando falamos em número de lexemas neste momento na Wikidata? 00:11:12.813 --> 00:11:19.073 (Plateia) [inaudível] 00:11:19.073 --> 00:11:20.146 O quê? 00:11:20.146 --> 00:11:21.741 (Plateia 2) Alemão. 00:11:21.741 --> 00:11:24.142 Desculpe, já o tinha ouvido antes. 00:11:24.142 --> 00:11:25.651 É Russo. 00:11:27.691 --> 00:11:29.754 O Russo está bastante à frente. 00:11:31.647 --> 00:11:33.832 E, para vos dar alguma perspetiva, 00:11:35.652 --> 00:11:36.816 há diferentes opiniões 00:11:36.816 --> 00:11:42.231 mas li, por exemplo, que entre 1 000 e 3 000 palavras 00:11:42.231 --> 00:11:45.450 chegam para chegar ao nível conversacional noutra língua 00:11:45.450 --> 00:11:49.461 e que entre 4 000 a 10 000 palavras chegam para o nível avançado. 00:11:51.591 --> 00:11:55.282 Então, ainda temos um pouco para pôr em dia. 00:11:58.483 --> 00:12:03.279 Uma coisa à qual quero que prestem atenção é ao basco 00:12:03.279 --> 00:12:07.744 com, aproximadamente, 10 000 lexemas. 00:12:09.244 --> 00:12:13.003 Agora, se olharem para o número de formas nesses lexemas, 00:12:14.013 --> 00:12:16.497 o basco está lá em cima, 00:12:18.137 --> 00:12:20.006 o que é bastante fixe. 00:12:20.006 --> 00:12:24.930 Deviam ir a uma palestra que vos explique o porquê desta situação. 00:12:27.181 --> 00:12:31.175 Agora, olhando para o número de sentidos, para o que as palavras querem dizer, 00:12:32.015 --> 00:12:35.081 o basco chega mesmo ao topo da lista. 00:12:35.081 --> 00:12:37.102 Eu acho que merece um aplauso. 00:12:37.102 --> 00:12:40.861 (aplausos) 00:12:45.678 --> 00:12:47.118 Outra pequena pergunta. 00:12:47.118 --> 00:12:50.181 Qual é o lexema com o maior número de traduções neste momento? 00:12:50.651 --> 00:12:56.676 (Plateia) Gatos, gatos, [inaudível], Douglas Adams, [inaudível]. 00:12:56.676 --> 00:13:00.014 Todos bons palpites, mas não. 00:13:00.882 --> 00:13:04.137 É esta, a palavra para "água", em russo. 00:13:09.571 --> 00:13:12.253 Já falámos muito 00:13:12.253 --> 00:13:16.412 sobre quantos lexemas, formas e sentidos temos, 00:13:16.412 --> 00:13:20.493 mas isso é apenas uma parte do que precisamos. 00:13:20.493 --> 00:13:21.515 A outra parte 00:13:21.515 --> 00:13:25.161 é descrever os lexemas, formas e sentidos, 00:13:25.161 --> 00:13:27.647 de uma forma que as máquinas possam ler. 00:13:27.647 --> 00:13:30.039 E para isso temos declarações, tal como nos itens. 00:13:31.479 --> 00:13:36.362 E uma das propriedades que usamos é o exemplo de utilização. 00:13:36.362 --> 00:13:38.582 Portanto quem quer que esteja a usar os dados 00:13:38.582 --> 00:13:42.089 pode entender como usar a palavra no contexto, 00:13:42.089 --> 00:13:44.158 pode ser uma citação, por exemplo. 00:13:45.396 --> 00:13:47.113 E aqui, o polaco reina. 00:13:47.900 --> 00:13:49.764 Bom trabalho falantes de polaco. 00:13:54.219 --> 00:13:57.680 Outra propriedade que é mesmo útil é IPA, 00:13:57.680 --> 00:14:00.186 logo, como é que se pronuncia uma palavra. 00:14:00.876 --> 00:14:07.497 O russo, aparentemente, precisa imenso de declarações IPA. 00:14:10.219 --> 00:14:13.314 Mas, novamente, polaco em segundo. 00:14:17.148 --> 00:14:20.753 E, por último, mas não menos importante, temos a pronunciação áudio. 00:14:20.753 --> 00:14:23.372 Isto corresponde a ligações a ficheiros nos Commons 00:14:23.372 --> 00:14:25.959 onde alguém diz a palavra, 00:14:25.959 --> 00:14:29.913 de forma a que possamos ouvir como um nativo a pronuncia 00:14:29.913 --> 00:14:32.871 para o caso de não conseguires ler IPA, por exemplo. 00:14:34.959 --> 00:14:39.205 E há um projeto muito porreiro baseado na Wiki, 00:14:39.205 --> 00:14:40.474 chamado Lingua Libre, 00:14:40.884 --> 00:14:45.173 onde podemos ir e ajudar a gravar palavras na nossa língua 00:14:45.173 --> 00:14:47.836 que pode ser depois adicionadas a lexemas na Wikidata, 00:14:48.446 --> 00:14:52.103 para que outras pessoas possam entender como pronunciar as palavras. 00:14:53.663 --> 00:14:55.694 (plateia 3) Há alguma ligação para isso? 00:14:55.694 --> 00:14:57.485 Se procurarem por "Lingua Libre"... 00:14:57.485 --> 00:15:00.981 Tenho a certeza de que alguém pode publicá-la no nosso canal do Telegram. 00:15:03.138 --> 00:15:04.621 Aqueles tipos são os maiores. 00:15:04.621 --> 00:15:06.726 Fizeram uma coisa mesmo fixe com a Wikibase. 00:15:09.416 --> 00:15:10.617 Certo. 00:15:12.556 --> 00:15:17.285 Então, a questão é, para onde seguimos daqui? 00:15:19.165 --> 00:15:22.010 A julgar pelos números que vos mostrei, 00:15:23.030 --> 00:15:25.172 já fizemos um longo caminho 00:15:25.172 --> 00:15:28.430 na direção de dar a mais pessoas mais acesso a mais conhecimento 00:15:28.430 --> 00:15:31.240 quando procuram línguas na Wikidata. 00:15:32.530 --> 00:15:36.392 Mas ainda há muito trabalho pela frente. 00:15:38.992 --> 00:15:42.341 Algumas coisas que podem fazer para ajudar, por exemplo, 00:15:42.341 --> 00:15:44.921 é organizar maratonas de etiquetagem, 00:15:44.921 --> 00:15:50.124 como juntar pessoas para etiquetar items na Wikidata. 00:15:50.914 --> 00:15:55.121 Ou fazer uma maratona de etiquetagem para lexemas na vossa língua, 00:15:55.121 --> 00:15:59.212 para introduzir as palavras mais usadas na vossa língua na Wikidata. 00:16:00.773 --> 00:16:03.285 Ou podem usar uma ferramenta como o Terminator, 00:16:03.285 --> 00:16:08.493 que vos ajuda a encontrar os itens mais importantes na vossa língua 00:16:08.493 --> 00:16:11.549 a que ainda falte alguma etiqueta. 00:16:13.274 --> 00:16:18.359 Sendo que mais importante é medido por quantas vezes é usado 00:16:18.359 --> 00:16:22.553 em outros items da Wikidata como ligações ou declarações. 00:16:25.768 --> 00:16:30.022 E, claro, para a porção do lexema, 00:16:31.342 --> 00:16:35.169 agora que temos uma cobertura básica desses lexemas, 00:16:35.169 --> 00:16:41.163 queremos também construí-los, adicionar-lhes mais declarações 00:16:41.163 --> 00:16:44.401 para que eles possam, realmente, construir a base 00:16:44.401 --> 00:16:47.421 para construir aplicações significativas a partir deles. 00:16:48.141 --> 00:16:50.795 Porque estamos a aproximarmo-nos dessa massa crítica, 00:16:50.795 --> 00:16:53.496 mas ainda estamos longe disso, 00:16:53.496 --> 00:16:56.624 de podermos construir aplicações sérias sobre isto. 00:16:58.097 --> 00:17:01.680 E espero que todos vocês se juntem a nós para fazermos isso. 00:17:02.583 --> 00:17:07.103 E isso já me leva 00:17:07.103 --> 00:17:09.843 a uma pequena ajuda dos nossos amigos. 00:17:09.843 --> 00:17:12.812 Bruno, queres vir até aqui 00:17:13.882 --> 00:17:16.854 para nos falares sobre as máscaras lexicais? 00:17:17.541 --> 00:17:18.567 (Bruno) Obrigado, Lydia, 00:17:18.567 --> 00:17:21.519 por me cederes este bocadinho de tempo 00:17:21.519 --> 00:17:24.150 para apresentar o trabalho que estamos a fazer na Google 00:17:24.150 --> 00:17:29.635 com o Denny, que a maior parte de vocês já deve ter ouvido falar ou conhece. 00:17:30.126 --> 00:17:32.030 Porque na Google-- eu sou linguista, 00:17:32.030 --> 00:17:36.150 portanto estou muito feliz de estar aqui entre outros entusiastas de linguagens-- 00:17:36.620 --> 00:17:39.278 nós também estamos a construir alguns léxicos 00:17:39.278 --> 00:17:41.766 e construimos esta tecnologia, 00:17:41.766 --> 00:17:45.589 ou esta abordagem, que pensamos poderá ser útil para vocês. 00:17:46.369 --> 00:17:48.455 Só para vos situar, 00:17:48.455 --> 00:17:52.068 isto é a minha experiência lexicográfica a falar. 00:17:52.788 --> 00:17:54.347 Quando criamos bases de dados de léxico, 00:17:54.347 --> 00:17:58.623 é preciso muito tempo para a manter, mantê-la consistente 00:17:58.623 --> 00:18:00.125 e para trocar dados, 00:18:00.125 --> 00:18:02.027 como vocês provavelmente sabem. 00:18:02.517 --> 00:18:05.927 Houve várias tentativas para unificar as características e propriedades 00:18:05.927 --> 00:18:09.184 que descrevem os lexemas e as formas. 00:18:09.184 --> 00:18:10.936 Ainda não é um problema resolvido, 00:18:10.936 --> 00:18:13.958 mas há ainda algumas tentativas de unificação nesse sentido. 00:18:13.958 --> 00:18:15.209 Mas o que está mesmo a faltar-- 00:18:15.209 --> 00:18:18.732 e isto é um problema que tivemos no início do nosso projeto na Google-- 00:18:18.732 --> 00:18:21.607 é tentar ter uma estrutura interna 00:18:22.197 --> 00:18:25.910 que descreva como uma entrada lexical se deverá parecer, 00:18:25.910 --> 00:18:28.581 que tipo de dados ou que tipo de informação temos 00:18:28.581 --> 00:18:32.237 e a especificação pretendida. 00:18:32.237 --> 00:18:38.187 Assim, isto foi o que inventámos, esta coisa chamada máscara lexical. 00:18:38.897 --> 00:18:44.841 Uma máscara lexical descreve o que é expectável de uma entrada, 00:18:44.841 --> 00:18:47.329 de uma entrada lexicográfica, para estar completa, 00:18:47.329 --> 00:18:51.436 tanto em termos de número de formas que se esperam de um lexema 00:18:51.436 --> 00:18:55.607 como do número de características que se esperam em cada forma. 00:18:56.397 --> 00:18:58.329 Aqui está um exemplo para adjetivos italianos. 00:18:58.329 --> 00:19:02.002 Seria de esperar, em italiano, termos quatro formas para os adjetivos 00:19:02.002 --> 00:19:05.383 e cada uma dessas formas ter uma combinação específica 00:19:05.383 --> 00:19:07.946 de género e número de características. 00:19:08.606 --> 00:19:12.672 Isto é o que esperamos de adjetivos italianos. 00:19:12.672 --> 00:19:16.176 Claro que, podemos ter máscaras extremamente complexas, 00:19:16.176 --> 00:19:20.783 como a conjugação dos verbos em francês, que é bastante extensa. 00:19:20.783 --> 00:19:23.487 E não vos quero mostrar nenhuma máscara russa 00:19:23.487 --> 00:19:25.378 porque não cabe no ecrã. (risos) 00:19:26.308 --> 00:19:29.531 E também temos especificações detalhadas, 00:19:29.531 --> 00:19:33.421 porque distinguimos o que está ao nível da forma. 00:19:33.421 --> 00:19:37.544 Então, aqui temos nomes russos que têm três números 00:19:37.544 --> 00:19:40.048 e alguns casos com diferentes formas. 00:19:40.048 --> 00:19:43.086 Mas, eles também têm uma especificação de entrada de gama 00:19:43.086 --> 00:19:45.590 que diz que o nome em particular tem 00:19:45.590 --> 00:19:50.133 um género inerente e uma característica de animação inerente 00:19:50.133 --> 00:19:52.488 que também são especificados na máscara. 00:19:54.518 --> 00:19:58.779 Também queremos salientar que uma máscara fornece uma especificação 00:19:58.779 --> 00:20:01.874 para qual deve ser o aspeto de uma entrada. 00:20:01.874 --> 00:20:07.158 Mas, podemos ter máscaras mais pequenas, para aspetos defeituosos da forma 00:20:07.158 --> 00:20:11.282 ou aspetos defeituosos do lexema que acontecem na linguagem. 00:20:11.282 --> 00:20:14.537 Aqui podem ver a forma mais simples dos verbos franceses 00:20:14.537 --> 00:20:19.729 que só têm a terceira pessoa do singular para todos os verbos metereológicos, 00:20:19.729 --> 00:20:23.969 como "chove" ou "neva", em português. 00:20:24.537 --> 00:20:26.493 Distinguimos estes dois níveis. 00:20:26.923 --> 00:20:29.962 E como é que usamos isto na Google? 00:20:29.962 --> 00:20:32.643 Quando temos um léxico que queremos usar, 00:20:33.063 --> 00:20:38.309 usamos a máscara para literalmente atirar os léxicos, 00:20:38.309 --> 00:20:40.163 todas as entradas, através da máscara 00:20:40.163 --> 00:20:44.303 e ver que entrada tem problemas em termos de estrutura. 00:20:44.303 --> 00:20:46.523 Está a faltar uma forma? Falta uma característica? 00:20:46.523 --> 00:20:51.497 E, quando surge um problema, fazemos validação humana 00:20:51.497 --> 00:20:53.751 ou só para ver se passa na máscara. 00:20:53.751 --> 00:20:57.924 É uma ferramenta extremamente poderosa para conferir a qualidade da estrutura. 00:20:59.427 --> 00:21:01.964 Portanto, estamos felizes em anunciar hoje 00:21:01.964 --> 00:21:05.408 que recebemos luz verde para disponibilizarmos o código fonte. 00:21:05.948 --> 00:21:07.573 Portanto este é o esquema. 00:21:07.573 --> 00:21:09.477 Se quiserem isto, podemos lançar 00:21:09.477 --> 00:21:13.483 e pode ser providenciado à Wikidata em ficheiros ShEx. 00:21:13.483 --> 00:21:16.688 Este é o ficheiro ShEx para nomes em alemão, 00:21:16.688 --> 00:21:20.428 e o Denny está a trabalhar na conversão da nossa especificação interna 00:21:20.428 --> 00:21:23.666 para uma mais de código aberto. 00:21:23.666 --> 00:21:27.522 Atualmente temos mais de 25 linguagens, 00:21:27.522 --> 00:21:29.225 portanto esperamos crescer do nosso lado, 00:21:29.225 --> 00:21:34.350 mas também fazer disto uma oportunidade para colaborar noutras línguas. 00:21:34.350 --> 00:21:40.728 E uma dessas colaborações é a que o Denny tem com o Lukas. 00:21:40.728 --> 00:21:45.052 O Lukas tem umas ferramentas ótimas para ter uma interface com o utilizador 00:21:45.052 --> 00:21:51.061 que ajuda o utilizador ou contribuidor a adicionar mais formas. 00:21:51.061 --> 00:21:54.151 Portanto, se quiserem adicionar um adjetivo em francês, 00:21:54.151 --> 00:21:59.057 a interface diz-vos quantas formas são expetáveis 00:21:59.057 --> 00:22:01.562 e e quantas características essa forma deverá ter. 00:22:01.562 --> 00:22:06.268 Então a nossa máscara ajudará a ferramenta a ser definida e expandida. 00:22:07.048 --> 00:22:08.385 É isto. 00:22:08.591 --> 00:22:10.358 (Lydia) Muito obrigado. 00:22:10.358 --> 00:22:13.523 (aplausos) 00:22:14.249 --> 00:22:16.891 Certo. Há questões? 00:22:16.891 --> 00:22:19.381 Querem falar mais sobre os lexemas? 00:22:19.697 --> 00:22:21.475 - (plateia 4) Sim. - Sim. (risos) 00:22:33.055 --> 00:22:35.380 (plateia 4) A minha questão, porque estava a falar 00:22:35.380 --> 00:22:38.996 acerca de dar mais acesso a mais pessoas em mais línguas, 00:22:38.996 --> 00:22:42.444 mas há muitas línguas que não podem ser usadas na Wikidata. 00:22:42.444 --> 00:22:44.588 Então que solução é que têm para isso? 00:22:45.739 --> 00:22:47.686 Quando diz que não podem ser usadas, 00:22:47.686 --> 00:22:50.308 está a referir-se à entrada de etiquetas? 00:22:50.308 --> 00:22:52.578 - (plateia 4) Etiquetas, descrições. - Certo. 00:22:52.578 --> 00:22:55.498 Para lexemas, é um pouco diferente 00:22:55.498 --> 00:22:57.793 porque aí não temos essa restrição. 00:22:58.923 --> 00:23:05.425 Para etiquetas nos itens e propriedades, há realmente alguma restrição 00:23:05.433 --> 00:23:12.411 porque quisemos ter a certeza que não é completamente-- 00:23:12.411 --> 00:23:14.229 qualquer um faz o que quiser 00:23:14.229 --> 00:23:17.769 e torna-se ingerível. 00:23:17.769 --> 00:23:23.898 Até uma comunidade pequena que queira uma língua e que queira trabalhar nisso: 00:23:23.898 --> 00:23:26.657 venham ter connosco e fazemos acontecer. 00:23:26.657 --> 00:23:29.202 (plateia 4) Nós fizemos isso no Hackathon de Praga em Maio 00:23:29.202 --> 00:23:32.359 e demorou quase até Agosto até conseguirmos usar a nossa linguagem. 00:23:32.359 --> 00:23:34.935 - Sim. - (plateia 4) Portanto, é muito lento. 00:23:34.935 --> 00:23:37.854 Sim, infelizmente é muito lento. 00:23:37.854 --> 00:23:39.883 Estamos a trabalhar com o Comité de Linguagem 00:23:39.883 --> 00:23:46.048 a tentar resolver os mais básicos... 00:23:49.537 --> 00:23:55.447 Ter o acordo sobre que tipo de linguagens são realmente "permitidas" 00:23:56.047 --> 00:23:59.838 e isso tem demorado tempo demais, 00:23:59.838 --> 00:24:04.178 o que pode ser a razão para o vosso pedido ter demorado mais do que devia. 00:24:04.778 --> 00:24:06.213 (plateia 4) Obrigada. 00:24:06.555 --> 00:24:07.610 (plateia 5) Obrigado. 00:24:07.610 --> 00:24:10.788 Lydia, se se lembra das estatísticas que mostrou, 00:24:10.788 --> 00:24:12.886 o número de lexemas por linguagem. - Sim. 00:24:12.886 --> 00:24:17.599 (plateia 5) Então, contaram todos as formas como pontos de dados 00:24:17.599 --> 00:24:20.034 ou apenas os lexemas? 00:24:20.909 --> 00:24:22.621 (Lydia) Está a falar disto? 00:24:22.621 --> 00:24:24.053 A qual é que se refere? 00:24:24.053 --> 00:24:25.529 (plateia 5) Sim, exatamente. 00:24:25.797 --> 00:24:28.341 Se se lembrar, este número é [inaudível] 00:24:28.341 --> 00:24:31.514 todas as formas, todos os lexemas ou apenas quantos lexemas há? 00:24:31.514 --> 00:24:33.915 Não, isto é apenas o número de lexemas. 00:24:33.915 --> 00:24:35.395 (plateia 5) Só o número de lexemas. 00:24:35.395 --> 00:24:36.797 Então é apenas uma estatística 00:24:36.797 --> 00:24:39.310 porque, se depois contássemos com as formas-- 00:24:39.310 --> 00:24:40.614 por isso pergunto-- 00:24:40.614 --> 00:24:42.637 então, todas as línguas com morfologia de inflexão, 00:24:42.637 --> 00:24:44.927 como russo, sérvio, esloveno, etc, 00:24:44.927 --> 00:24:47.616 têm uma vantagem natural, porque têm tantas. 00:24:47.616 --> 00:24:51.630 Daí, este tipo de saltos aqui no número de formulários. 00:24:51.630 --> 00:24:53.851 (plateia 5) Sim, era esse mesmo. Obrigado. 00:24:56.386 --> 00:25:00.224 (plateia 6) Tenho só uma pergunta rápida acerca de... 00:25:00.524 --> 00:25:06.824 Quando estávamos a falar sobre os itens e propriedades. 00:25:07.124 --> 00:25:09.921 Até onde eu consigo entender, não há, atualmente, forma 00:25:09.921 --> 00:25:12.746 de dar uma fonte definida a qualquer das etiquetas 00:25:12.746 --> 00:25:14.606 e descrições que foram dadas. - Sim. 00:25:14.606 --> 00:25:18.047 (plateia 6) Então, não há nada porque, quando estás a falar 00:25:18.047 --> 00:25:20.920 acerca de uma propriedade de um item, 00:25:20.920 --> 00:25:24.339 podes ter, por exemplo, etiquetas conflituosas. 00:25:24.339 --> 00:25:27.999 - Sim. - (Plateia 6) Então, esta pessoa é como... 00:25:28.302 --> 00:25:30.432 Falamos à pouco sobre coisas indígenas, por exemplo. 00:25:30.432 --> 00:25:35.965 Então esta pessoa é um artista norueguês, de acordo com uma fonte, 00:25:35.965 --> 00:25:38.750 e um artista sami, de acordo com outra fonte. 00:25:39.230 --> 00:25:42.633 Ou, por exemplo, em estoniano, tivemos um problema 00:25:42.633 --> 00:25:47.729 onde tivemos que mudar uma terminologia para a terminologia oficial usada 00:25:47.729 --> 00:25:49.482 nos léxicos oficiais. 00:25:49.482 --> 00:25:52.262 Mas não temos realmente uma forma de indicar porquê. 00:25:52.262 --> 00:25:53.596 Qual foi a fonte disto 00:25:53.596 --> 00:25:55.561 e por que razão isto está melhor do que estava. 00:25:55.561 --> 00:25:57.150 Fui apenas eu, como uma pessoa ao acaso, 00:25:57.150 --> 00:25:59.615 a mudar isto para quem quer que o veja. 00:25:59.615 --> 00:26:02.520 Então, há um plano para isto ser possível de qualquer forma, 00:26:02.520 --> 00:26:06.355 de modo a que possamos realmente ter fontes confiáveis para dados de linguagem? 00:26:07.045 --> 00:26:11.358 Isso é parcialmente possível. 00:26:11.358 --> 00:26:15.958 Por exemplo, quando há um item para uma pessoa, 00:26:15.968 --> 00:26:22.720 pode ter as declarações: primeiro nome, último nome, e por aí em diante. 00:26:22.720 --> 00:26:26.226 E, nessa altura, pode-se providenciar referências para isso. 00:26:28.061 --> 00:26:32.544 Tenho algumas reticências em adicionar mais complexidade 00:26:32.544 --> 00:26:35.557 para referências em etiquetas e descrições, 00:26:35.557 --> 00:26:38.624 mas se as pessoas realmente pensam 00:26:38.624 --> 00:26:44.939 que isto é algo que não está coberto por qualquer referência na declaração, 00:26:44.939 --> 00:26:46.803 então falamos sobre isso. 00:26:48.809 --> 00:26:53.303 Mas temo que vá adicionar muita complexidade 00:26:53.303 --> 00:26:56.523 para o que espero serem poucos casos. 00:26:57.393 --> 00:27:00.188 Mas estou disposta a ser convencida do contrário 00:27:00.188 --> 00:27:04.017 se as pessoas realmente sentem que isto tem relevãncia. 00:27:04.017 --> 00:27:07.737 (plateia 6) Se for adicionado provavelmente não deveria ser o padrão, 00:27:07.737 --> 00:27:12.182 mostrado a todos os utilizadores iniciados na interface, em todos os casos. 00:27:12.182 --> 00:27:16.190 Podia ser mais, "Clica aqui se queres adicionar algo específico sobre isto." 00:27:17.632 --> 00:27:23.368 Temos alguma ideia de quantas vezes isso teria importância? 00:27:24.340 --> 00:27:26.423 (plateia 6) Em estónio, por exemplo-- 00:27:26.423 --> 00:27:29.034 eu imagino que seja assim noutras línguas também-- 00:27:29.034 --> 00:27:34.113 por exemplo, há um nome oficial que é a legítima tradução 00:27:34.113 --> 00:27:36.726 para inglês de, 00:27:36.726 --> 00:27:40.314 digamos, um tipo específico de municipalidade. 00:27:40.314 --> 00:27:42.182 Este foi o meu caso de utilizador, por exemplo, 00:27:42.182 --> 00:27:44.409 onde estávamos a usar a palavra "paróquia" 00:27:45.159 --> 00:27:50.615 na qual a palavra estónia original significava paróquia de igreja 00:27:50.615 --> 00:27:51.779 e essa foi a sua origem, 00:27:51.779 --> 00:27:54.809 mas não é agora a tradução oficial que a Estónia recebe atualmente. 00:27:54.809 --> 00:27:58.853 Neste caso, eu juntaria-a apenas como declarações de nome oficial 00:27:58.853 --> 00:28:00.817 e juntaria a referência aí. 00:28:02.032 --> 00:28:03.158 (plateia 6) Certo. 00:28:05.026 --> 00:28:06.572 Mais questões, sim? 00:28:07.682 --> 00:28:09.944 (Asaf) Dois comentários rápidos. 00:28:09.944 --> 00:28:13.934 Falou especificamente do asturiano como uma linguagem que está em alta 00:28:13.934 --> 00:28:16.385 e eu acho que isso é falso. 00:28:16.385 --> 00:28:17.644 Conte-me. 00:28:17.644 --> 00:28:19.748 (Asaf) Eu penso que é apenas um bot 00:28:19.748 --> 00:28:24.068 que colou nomes de pessoas, nomes apropriados para pessoas, 00:28:24.068 --> 00:28:27.172 e disse "Bem, isto é exatamente como em francês ou espanhol" 00:28:27.172 --> 00:28:28.558 e copiou-o massivamente. 00:28:28.558 --> 00:28:33.316 Uma prova é que não se vê essa energia no asturiano, 00:28:33.316 --> 00:28:37.205 em coisas que realmente requerem tradução, como nomes de propriedades, 00:28:37.205 --> 00:28:39.568 ou nomes de itens que não são nomes próprios. 00:28:39.568 --> 00:28:41.119 Asaf, partes-me o coração. 00:28:41.119 --> 00:28:43.108 (Asaf) Eu sei, costumo estragar as festas, 00:28:43.108 --> 00:28:48.458 mas tenho boas notícias também, sobre os números das pronunciações. 00:28:49.408 --> 00:28:53.515 Como saberão, o Commons está cheio de ficheiros de pronunciação 00:28:53.515 --> 00:28:54.668 e, por exemplo, 00:28:54.668 --> 00:29:01.102 o holandês tem, nada mais nada menos, que 300 000 ficheiros desses introduzidos 00:29:01.802 --> 00:29:05.051 que necessitam de ser "ingeridos" de alguma forma. 00:29:05.051 --> 00:29:07.697 Então, se alguém está à procura de um projeto para as horas vagas, 00:29:07.697 --> 00:29:08.807 há imensos 00:29:08.807 --> 00:29:13.210 ficheiros de pronunciação, classificados e categorizados no Commons 00:29:13.210 --> 00:29:16.763 na categoria "Pronunciação" por linguagem. 00:29:16.763 --> 00:29:22.840 Estão à espera de ser combinados com os lexemas e postos no lexema. 00:29:23.030 --> 00:29:25.484 E estava a pensar se me poderia dizer alguma coisa 00:29:25.484 --> 00:29:26.585 sobre o quadro referência, 00:29:26.585 --> 00:29:28.757 algo sobre quanto investimento 00:29:28.757 --> 00:29:31.995 ou o que podemos esperar relativo ao lexema no próximo ano, 00:29:31.995 --> 00:29:34.020 porque eu, pessoalmente, mal posso esperar. 00:29:34.839 --> 00:29:37.044 Não pode? (risos) 00:29:37.044 --> 00:29:39.118 - (Asaf) Por mais. - Sim. (risos) 00:29:40.339 --> 00:29:42.329 Penso que ... 00:29:44.401 --> 00:29:49.523 Neste momento, estamos concentrados mais na Wikibase e na qualidade de dados 00:29:51.283 --> 00:29:55.087 para ver quanta tração isto tem 00:29:55.087 --> 00:30:01.516 e para obter mais para descobrir onde os próximos pontos críticos estão 00:30:01.516 --> 00:30:06.003 e depois voltar atrás e melhorar mais os dados lexicográficos. 00:30:06.903 --> 00:30:09.790 E uma das coisas que adoraria ouvir de vocês 00:30:09.790 --> 00:30:14.136 é onde exatamente vocês vêm que poderão ser dados os próximos passos, 00:30:14.136 --> 00:30:15.966 onde querem melhorias 00:30:15.966 --> 00:30:20.340 para que nós possamos descobrir como fazer isso acontecer. 00:30:21.065 --> 00:30:22.810 Mas claro que está certo, 00:30:22.810 --> 00:30:25.712 ainda há muito a fazer também do lado técnico. 00:30:30.363 --> 00:30:35.848 (plateia 7) Ao carregarmos as palavras bascas com formas, 00:30:35.848 --> 00:30:38.259 e verão alguns destes tipos de coisas, estávamos todos... 00:30:38.259 --> 00:30:41.329 Na semana passada dissemos "Somos os primeiros em algo." 00:30:41.329 --> 00:30:42.919 [inaudível] 00:30:42.919 --> 00:30:44.928 Apareceu na imprensa e foi tipo: 00:30:44.928 --> 00:30:49.208 "O basco foi o primeiro em algo, foram os primeiros." 00:30:49.208 --> 00:30:50.466 (risos) 00:30:50.466 --> 00:30:53.318 E depois as pessoas perguntaram "Mas para que serve isto?" 00:30:54.538 --> 00:30:56.749 Nós não temos uma boa resposta. 00:30:56.749 --> 00:30:57.888 Quer dizer, certo, 00:30:57.888 --> 00:31:01.841 isto vai ajudar computadores a entender mais a nossa linguagem, sim. 00:31:01.841 --> 00:31:05.279 Mas que tipo de ferramentas podemos fazer no futuro? 00:31:05.279 --> 00:31:07.407 E ainda não temos uma boa resposta. 00:31:07.407 --> 00:31:10.625 Portanto eu não sei se vocês têm uma boa resposta para isto. 00:31:10.625 --> 00:31:12.742 (risos) Eu não sei se eu tenho uma boa resposta, 00:31:12.742 --> 00:31:14.746 mas tenho uma resposta. 00:31:15.380 --> 00:31:20.225 Então, eu penso, neste momento, como estava a dizer [inaudível], 00:31:20.225 --> 00:31:21.924 que ainda não chegámos à massa crítica 00:31:21.924 --> 00:31:25.529 onde podemos construir um monte de ferramentas realmente interessantes. 00:31:25.529 --> 00:31:27.707 Mas já existem algumas ferramentas. 00:31:28.157 --> 00:31:31.692 No outro dia, a Esther Pandalia, por exemplo, 00:31:31.692 --> 00:31:33.817 lançou uma ferramenta onde podemos ver, 00:31:35.587 --> 00:31:38.889 penso que eram as palavras num globo, 00:31:38.889 --> 00:31:41.901 onde eram faladas, de onde tinham vindo. 00:31:42.461 --> 00:31:44.090 Posso estar errada sobre isto. 00:31:44.090 --> 00:31:46.286 Mas ela respondeu no chat do projeto na Wikidata. 00:31:46.286 --> 00:31:48.984 Podem vê-lo ali. 00:31:49.574 --> 00:31:51.805 Então já vimos as primeiras ferramentas, 00:31:51.805 --> 00:31:55.696 tal como já vimos, no passado, quando a Wikidata começou. 00:31:56.846 --> 00:31:59.602 Primeiro algumas... Como uma rede 00:31:59.602 --> 00:32:03.424 e depois "Olha, há aqui esta coisa que liga a esta outra coisa." 00:32:04.734 --> 00:32:07.059 E à medida que temos mais dados 00:32:07.059 --> 00:32:10.352 e chegamos mais perto da massa crítica, 00:32:11.702 --> 00:32:14.747 tornam-se possíveis aplicações mais poderosas. 00:32:15.607 --> 00:32:17.516 Coisas como a Histropedia, 00:32:19.036 --> 00:32:21.988 coisas como perguntas e respostas 00:32:21.988 --> 00:32:26.463 no vosso assistente pessoal digital, Platypus e assim por diante. 00:32:26.463 --> 00:32:30.228 E estamos a ver coisas semelhantes com os lexemas. 00:32:31.048 --> 00:32:34.650 Estamos num estágio em que podemos construir estes pequenos: 00:32:34.650 --> 00:32:37.654 "Olha, há uma ligação entre duas coisas 00:32:37.654 --> 00:32:42.618 e há uma tradução dessa palavra para esse estágio de linguagem." 00:32:42.618 --> 00:32:47.687 E, à medida que construimos e à medida que descrevemos mais palavras, 00:32:47.687 --> 00:32:49.443 mais se torna possível. 00:32:49.443 --> 00:32:51.795 Agora, o que é que isso torna possível? 00:32:53.322 --> 00:33:00.103 Como o Ben, o nosso orador de antes, estava a dizer acerca de traduções, 00:33:00.103 --> 00:33:03.315 ser capaz de traduzir de uma língua para outra. 00:33:03.315 --> 00:33:07.839 E Jens, outro colega, que está sempre a falar sobre 00:33:07.839 --> 00:33:11.452 a União Europeia andar sempre à procura de um tradutor 00:33:11.452 --> 00:33:17.319 que possa fazê-lo de, penso que era maltês para sueco. 00:33:17.319 --> 00:33:19.027 - (plateia 8) Estónio. - Estónio. 00:33:19.027 --> 00:33:20.027 (risos) 00:33:22.016 --> 00:33:26.211 E essa não é uma combinação usual. 00:33:27.111 --> 00:33:31.735 Mas assim que temos todas essas linguagens num lugar passível de ser lido por máquina 00:33:31.735 --> 00:33:33.063 podemos fazer isso. 00:33:33.063 --> 00:33:36.857 Podemos obter um dicionário 00:33:36.857 --> 00:33:41.735 de estónio para maltês e vice-versa. 00:33:42.935 --> 00:33:45.607 Então, incluir combinações de linguagens em dicionários 00:33:45.607 --> 00:33:47.791 que não foram incluídas antes 00:33:47.791 --> 00:33:51.050 porque não havia procura suficiente para elas, por exemplo, 00:33:51.050 --> 00:33:55.380 para fazê-lo de forma financeiramente viável e para justificar o trabalho. 00:33:55.380 --> 00:33:57.147 Agora podemos fazer isso. 00:33:59.607 --> 00:34:02.088 E depois a geração de texto. 00:34:02.088 --> 00:34:03.653 A Lucie estava a falar 00:34:03.653 --> 00:34:10.136 acerca de como ela está a trabalhar com a Hattie em gerar textos 00:34:10.136 --> 00:34:14.673 para iniciar artigos na Wikipedia em línguas minoritárias. 00:34:15.423 --> 00:34:19.382 Isso precisa de dados sobre palavras 00:34:19.382 --> 00:34:22.589 e precisamos perceber a língua para fazer isso. 00:34:23.469 --> 00:34:28.133 Sim, e isto é só o que me vem à cabeça agora. 00:34:28.573 --> 00:34:30.494 Talvez a nossa audiência tenha mais ideias 00:34:30.494 --> 00:34:34.353 do que querem fazer quando tivermos todos esses gloriosos dados. 00:34:37.693 --> 00:34:40.772 (plateia 9) Vou-nos desviar do tópico dos lexemas. 00:34:40.772 --> 00:34:42.536 Quero perguntar-vos algo. 00:34:42.536 --> 00:34:45.514 Como posso eu, como membro da comunidade 00:34:45.514 --> 00:34:49.925 influenciar que a prioridade seja colocada na tarefa, 00:34:49.925 --> 00:34:56.644 que um utilizador novo venha, e possa indicar que línguas quer ver e editar 00:34:56.644 --> 00:35:02.115 sem um qualquer conhecimento padrão verbal secreto. 00:35:02.115 --> 00:35:04.893 Talvez haja, este ano, uma lista técnica de desejos 00:35:04.893 --> 00:35:06.820 sem tópicos da Wikipedia. 00:35:06.820 --> 00:35:10.119 Talvez haja esperança de que possamos votar acerca 00:35:10.119 --> 00:35:13.928 daquela coisa que não arranjamos há sete anos. 00:35:13.928 --> 00:35:17.607 Tem alguma ideia ou comentário sobre isso? 00:35:18.217 --> 00:35:20.198 Então, está a falar sobre o facto 00:35:20.198 --> 00:35:23.258 de alguém que não esteja ligado à Wikidata 00:35:23.258 --> 00:35:25.391 não poder mudar a sua linguagem facilmente? 00:35:25.391 --> 00:35:27.839 (plateia 9) Não, para novos utilizadores. 00:35:28.309 --> 00:35:30.689 Então, se estiverem ligados, 00:35:30.689 --> 00:35:34.871 eles podem mudar a sua língua no topo da página. 00:35:35.891 --> 00:35:39.589 Depois, aparece onde... 00:35:39.599 --> 00:35:42.013 onde as descrições das etiquetas estão 00:35:42.013 --> 00:35:43.483 e podem editá-las. 00:35:45.507 --> 00:35:49.009 (plateia 9) Bem, na verdade, muitas vezes o fluxo de trabalho é, 00:35:49.009 --> 00:35:52.217 se queremos ter múltiplas línguas elas estão disponíveis, 00:35:52.217 --> 00:35:55.419 e nem sempre acontece. 00:35:55.419 --> 00:35:58.584 Talvez devamos sentar-nos depois desta apresentação e mostra-me. 00:36:01.312 --> 00:36:04.089 Fixe. Mais questões? 00:36:05.394 --> 00:36:06.536 Sim. 00:36:11.415 --> 00:36:13.196 (plateia 10) Obrigado pela apresentação. 00:36:13.896 --> 00:36:15.127 Pode comentar 00:36:15.127 --> 00:36:19.307 acerca do estado da correlação com a comunidade do Wiktionary. 00:36:19.307 --> 00:36:22.146 Do que eu tenho conseguido ver, tem havido algumas discussões 00:36:22.146 --> 00:36:26.051 acerca de importar alguns elementos do trabalho, 00:36:26.051 --> 00:36:30.333 mas parece haver algumas questões de licenciamento e desentendimentos, etc. 00:36:30.333 --> 00:36:31.438 Certo. 00:36:31.438 --> 00:36:36.970 Então, as comunidades do Wiktionary passaram muito tempo 00:36:36.970 --> 00:36:38.973 a construir o Wiktionary. 00:36:38.973 --> 00:36:42.643 Construiram 00:36:42.883 --> 00:36:47.304 padrões extremamente complicados e complexos 00:36:47.304 --> 00:36:53.404 para construir as bonitas tabelas que geram formulários para vocês 00:36:53.404 --> 00:36:56.392 e é tudo realmente impressionante, 00:36:56.392 --> 00:37:00.683 e um pouco louco, se pensarmos bem nisso. 00:37:02.081 --> 00:37:07.994 E, é claro, investiram muito tempo e esforço a fazê-lo. 00:37:09.204 --> 00:37:11.671 E, compreensivelmente, 00:37:11.671 --> 00:37:17.116 não querem que isso seja agarrado 00:37:17.936 --> 00:37:18.982 de qualquer maneira. 00:37:18.982 --> 00:37:21.791 Então, há um pouco disso, vindo daí. 00:37:21.791 --> 00:37:25.137 E está certo, tudo bem. 00:37:25.137 --> 00:37:31.782 Agora, as primeiras comunidades Wiktionary estão a falar de mudar isso 00:37:31.782 --> 00:37:34.329 e importar alguns dos dados deles para a Wikidata. 00:37:34.329 --> 00:37:39.095 O russo, por exemplo, como já viram, é um desses casos 00:37:39.785 --> 00:37:42.355 e espero que mais aconteçam. 00:37:43.425 --> 00:37:46.640 Mas vai ser um processo lento, 00:37:46.640 --> 00:37:49.383 tal como a adopção dos dados da Wikidata pela Wikipedia 00:37:49.383 --> 00:37:51.909 está a ser um processo bem lento. 00:37:52.699 --> 00:37:56.183 O outro lado é tentar que seja mais fácil 00:37:56.183 --> 00:37:59.132 usar os dados que estão nos lexemas, 00:37:59.132 --> 00:38:02.209 no Wiktionary, para que possam fazer uso deles 00:38:02.209 --> 00:38:05.531 e partilhar dados entre as Wiktionaries de linguagens. 00:38:05.531 --> 00:38:08.753 O que é super difícil neste momento, 00:38:08.753 --> 00:38:11.560 o que é de doidos, tal como foi na Wikipedia. 00:38:13.720 --> 00:38:16.325 Esperem pelo presente de aniversário. (risos) 00:38:19.918 --> 00:38:21.182 Sim. 00:38:22.519 --> 00:38:24.777 (plateia 11) Quando estava a pensar sobre a outra forma, 00:38:24.777 --> 00:38:28.038 eu, na verdade, não o quis dizer porque penso que pode ser super tolo. 00:38:28.038 --> 00:38:31.833 Mas acho que o Wiktionary já tem algum conteúdo 00:38:31.833 --> 00:38:34.978 e eu sei que não pode ser transferido para a Wikidata 00:38:34.978 --> 00:38:37.048 por causa das diferenças de licenças. 00:38:37.048 --> 00:38:39.631 Mas estava a pensar que talvez possamos fazer algo acerca disso. 00:38:40.161 --> 00:38:45.473 Talvez obter permissão das comunidades 00:38:45.473 --> 00:38:51.205 depois de, não sei, haver uma votação pública 00:38:51.825 --> 00:38:55.642 de forma a que comunidade, os seus membros ativos, 00:38:55.642 --> 00:39:02.523 votem e digam se querem ou não aceitar a transferência de conteúdo 00:39:02.523 --> 00:39:05.528 para a qual podem fazer os lexemas da Wikidata. 00:39:06.148 --> 00:39:08.537 Porque penso que é um desperdício. 00:39:09.528 --> 00:39:14.273 Então, isso é definitivamente uma conversa que essas pessoas, 00:39:14.273 --> 00:39:18.249 que estão nas comunidades Wiktionary, podem ter lá. 00:39:18.249 --> 00:39:24.647 Penso que seria um pouco presunçoso da nossa parte forçarmos isso. 00:39:25.767 --> 00:39:31.032 Mas sim, penso que, definitivamente, vale a pena ter essa conversa. 00:39:31.032 --> 00:39:33.898 Mas eu penso que também é importante entender 00:39:33.898 --> 00:39:38.962 que há uma distinção entre o que é legalmente permitido 00:39:38.962 --> 00:39:43.057 e o que devíamos estar a fazer 00:39:43.057 --> 00:39:45.426 e o que as essas pessoas querem ou não. 00:39:45.736 --> 00:39:47.329 Portanto, mesmo se for legal, 00:39:47.329 --> 00:39:50.640 se algumas das comunidades Wiktionary não o quiserem, 00:39:50.640 --> 00:39:53.537 eu teria cuidado, no mínimo. 00:39:58.766 --> 00:40:02.489 Penso que precisamos do microfone para o vídeo. 00:40:04.380 --> 00:40:07.299 (plateia 12) Obviamente, isto é tudo muito excitante 00:40:07.849 --> 00:40:12.169 e penso imediatamente em como levar isto aos meus estudantes, 00:40:12.169 --> 00:40:15.288 como posso incorporar isto nos cursos, 00:40:15.288 --> 00:40:18.531 no trabalho que estamos a fazer, ambientes educacionais. 00:40:18.531 --> 00:40:22.271 E não tenho, neste momento, 00:40:22.791 --> 00:40:24.116 primeiro, conhecimento, 00:40:24.116 --> 00:40:27.278 mas acho que a documentação que temos 00:40:27.768 --> 00:40:29.992 pode ser melhorada. 00:40:29.992 --> 00:40:33.437 Portanto, isto é um pedido para fazerem vídeos fixes 00:40:33.437 --> 00:40:35.898 que expliquem como funciona. 00:40:35.898 --> 00:40:39.948 Porque, se os tivermos, podemos usá-los, 00:40:39.948 --> 00:40:41.985 podemos ter estudantes a bordo 00:40:41.985 --> 00:40:46.952 e podemos fazer as pessoas entender quão espetacular é. 00:40:46.952 --> 00:40:51.891 Sim, pensem na documentação e pensem na educação, por favor. 00:40:51.891 --> 00:40:54.440 Porque penso que muito pode ser feito. 00:40:54.440 --> 00:40:58.585 Estas são pequenas tarefas que podem ser feitas mesmo com... 00:41:00.125 --> 00:41:02.033 bem, não direi escolas primárias, 00:41:02.033 --> 00:41:05.495 mas certamente até com estudantes jovens. 00:41:05.765 --> 00:41:10.646 E, portanto, gostaria mesmo de ver esse potencial a ser aproveitado 00:41:10.646 --> 00:41:15.172 e, neste momento, eu, pessoalmente, não entendo o suficiente 00:41:15.172 --> 00:41:19.500 para conseguir criar tarefas ou para criar tipo... 00:41:20.200 --> 00:41:22.155 para fazer algo prático com isto. 00:41:22.155 --> 00:41:25.772 Portanto, qualquer ajuda, ideias que alguém tenha acerca disso, 00:41:25.772 --> 00:41:29.648 estou completamente disponível para ouvir tudo o que tenham em mente. 00:41:30.328 --> 00:41:32.129 Sim, vamos falar sobre isso. 00:41:35.273 --> 00:41:37.139 Mais questões? 00:41:37.569 --> 00:41:39.065 Mais alguém tinha levantado a mão. 00:41:39.065 --> 00:41:40.495 Esqueci-me de quem foi. 00:41:45.739 --> 00:41:49.866 (plateia 13) Então, se não conseguimos importar a partir do Wiktionary, 00:41:49.866 --> 00:41:55.772 há algum esforço concertado para achar outras fontes de domínio público, 00:41:55.772 --> 00:41:57.459 talvez dados mais antigos, 00:41:58.769 --> 00:42:03.167 e filtrá-los previamente, organizá-los 00:42:03.167 --> 00:42:08.470 para que seja fácil a sua verificação, por pessoas, para importação? 00:42:08.993 --> 00:42:11.131 Então, foram feitos esforços iniciais. 00:42:11.131 --> 00:42:14.649 Penso que o basco é um desses esforços. 00:42:14.649 --> 00:42:17.474 Talvez queiras dizer algo sobre isso? 00:42:18.426 --> 00:42:20.130 (plateia 14) [inaudível] 00:42:23.026 --> 00:42:27.148 Certo, a resposta é pagando por isso... 00:42:28.204 --> 00:42:33.381 Temos um acordo com um fornecedor com quem trabalhamos. 00:42:34.661 --> 00:42:38.725 Eles fazem dicionários, outros... 00:42:40.315 --> 00:42:42.458 montes de coisas, mas fazem dicionários. 00:42:42.458 --> 00:42:47.473 Temos um acordo com eles para tornar grátis os dicionários estudantis. 00:42:47.473 --> 00:42:52.622 Nós transmitiríamos as palavras mais comuns e começaríamos a carregá-las 00:42:52.622 --> 00:42:55.590 com um identificador externo e esse tipo de coisas. 00:42:56.090 --> 00:43:02.702 Mas houve alguma discussão acerca de deixá-lo no CC0, 00:43:02.702 --> 00:43:05.322 porque eles têm um dicionário com CC por ele, 00:43:05.947 --> 00:43:10.066 e perceberam qual era a diferença. 00:43:10.066 --> 00:43:13.726 Portanto, houve alguma discussão. 00:43:13.726 --> 00:43:19.499 Mas penso que podemos providenciar algumas ferramentas ou exemplos, no futuro, 00:43:19.499 --> 00:43:21.761 e penso que haverá outros dicionários 00:43:21.761 --> 00:43:23.826 que podemos gerir. 00:43:23.826 --> 00:43:29.274 E também penso que o Wiktionary deveria ir nessa direção, 00:43:29.274 --> 00:43:32.260 mas isso é outra grande discussão. 00:43:33.015 --> 00:43:34.447 E, para além disso, 00:43:34.447 --> 00:43:38.699 a Lea está também em contacto com pessoas da Occitan, 00:43:38.699 --> 00:43:41.767 que trabalham nos dicionários Occitan, 00:43:41.767 --> 00:43:45.138 e eles estão atualmente a trabalhar numa colaboração suméria. 00:43:51.374 --> 00:43:53.363 Mais questões? 00:44:01.307 --> 00:44:05.179 (plateia 15) Olá. Nós somos as pessoas que querem importar dados da Occitan. 00:44:05.179 --> 00:44:06.405 Perfeito! 00:44:06.405 --> 00:44:09.188 (plateia 15) E temos um pequeno problema para... 00:44:09.188 --> 00:44:14.135 Nós não sabemos como representar toda a variedade de lexemas. 00:44:14.135 --> 00:44:17.493 Temos seis dialetos 00:44:17.493 --> 00:44:23.904 e queremos indicar, para o lexema, em que dialeto é usado 00:44:23.904 --> 00:44:27.175 e não temos a declaração CO apropriada para isso. 00:44:27.175 --> 00:44:31.105 Portanto, enquanto o segmento não existir, 00:44:31.525 --> 00:44:34.365 não conseguimos [inaudível] 00:44:34.365 --> 00:44:37.603 porque vamos precisar de fazê-lo outra vez 00:44:37.603 --> 00:44:41.946 quando estivermos em condições de exportar a declaração. 00:44:41.946 --> 00:44:44.471 E é complicado porque é uma declaração 00:44:44.471 --> 00:44:47.802 que não vai ser pedida por muita gente 00:44:47.802 --> 00:44:53.444 porque é uma declaração que diz respeito principalmente a línguas minoritárias. 00:44:53.444 --> 00:44:56.803 Então teremos uma pessoa a pedir isto. 00:44:56.803 --> 00:44:59.962 Mas, como no caso dos nossos colegas Bascos, 00:44:59.962 --> 00:45:06.082 pode ser uma pessoa que ajudará milhares de outros. 00:45:06.082 --> 00:45:10.884 Portanto, pode não parecer importante, 00:45:10.884 --> 00:45:14.136 mas será muito importante para nós. 00:45:14.524 --> 00:45:17.600 Vocês já têm a nova proposta de propriedade a funcionar, 00:45:17.600 --> 00:45:19.470 ou precisam de ajuda para criá-la? 00:45:21.244 --> 00:45:24.300 (plateia 15) Fizemos o pedido há quatro meses. 00:45:24.300 --> 00:45:28.755 Certo, então vamos arranjar pessoal para ajudar com essa proposta. 00:45:29.959 --> 00:45:33.092 De certeza que há pessoas suficentes nesta sala para isso se realizar. 00:45:33.092 --> 00:45:35.992 (plateia 15) Proposta de propriedade [em francês]. 00:45:35.992 --> 00:45:39.479 Nós não tivemos resposta e não sabemos fazê-lo 00:45:39.479 --> 00:45:42.953 porque não somos da comunidade Wikidata. 00:45:44.514 --> 00:45:48.697 Sim, então há aqui pessoas que vos podem ajudar. 00:45:48.697 --> 00:45:52.134 Talvez alguém levante a mão para ficar... 00:45:52.134 --> 00:45:53.454 (plateia 14) Sou a favor. 00:45:53.454 --> 00:45:55.512 Mas penso que é muito interessante 00:45:55.512 --> 00:45:58.939 que apenas a variante de forma 00:45:58.939 --> 00:46:02.607 também o possa gerir geograficamente, 00:46:02.607 --> 00:46:04.995 com coordenadas ou algum tipo de mapeamento. 00:46:05.485 --> 00:46:07.815 Também tendo diferentes pronúncias 00:46:07.815 --> 00:46:11.837 e penso que é algo que acontece em muitas línguas. 00:46:12.517 --> 00:46:16.112 Deveríamos trabalhar para isso acontecer de alguma forma 00:46:16.112 --> 00:46:18.865 e eu vou procurar a propriedade. 00:46:19.652 --> 00:46:20.773 Fixe. 00:46:20.773 --> 00:46:24.446 Então, vocês terão apoio para a vossa proposta de propriedade. 00:46:25.996 --> 00:46:27.297 Obrigado. 00:46:27.962 --> 00:46:30.261 Mais alguma questão? 00:46:32.210 --> 00:46:33.474 Finn. 00:46:33.784 --> 00:46:35.055 O Finn é uma daquelas pessoas 00:46:35.055 --> 00:46:37.531 que constrói coisas tendo como base dados lexicográficos. 00:46:37.531 --> 00:46:40.285 (Finn) É só uma pequena questão, 00:46:40.285 --> 00:46:44.226 e é sobre variações de ortografia. 00:46:44.896 --> 00:46:48.242 Parece difícil pô-las em... 00:46:48.242 --> 00:46:53.838 Poderíamos, claro, ter múltiplas formas para a mesma palavra. 00:46:55.627 --> 00:46:58.448 Não sei, parece ser... 00:46:59.328 --> 00:47:03.535 Se não o fizeres dessa forma, parece ser difícil especificar... 00:47:04.521 --> 00:47:05.888 ou, não sei se 00:47:05.888 --> 00:47:09.591 é apenas um problema técnico menor ou se... 00:47:09.591 --> 00:47:11.332 Vamos olhar para isso juntos. 00:47:11.332 --> 00:47:15.230 Adoraria ver um exemplo. 00:47:17.248 --> 00:47:18.478 Asaf. 00:47:26.666 --> 00:47:28.396 (Asaf) Obrigado. 00:47:29.216 --> 00:47:33.685 Posso dar um exemplo concreto da minha língua, o hebreu. 00:47:34.125 --> 00:47:38.685 O Hebreu tem duas variantes principais 00:47:38.685 --> 00:47:42.646 para expressar quase todas as palavras, 00:47:42.646 --> 00:47:47.520 porque a ortografia tradicional 00:47:47.520 --> 00:47:50.044 deixa de parte muitas vogais. 00:47:50.814 --> 00:47:54.987 E, assim sendo, nas edições modernas da Bíblia e de poesia, 00:47:54.987 --> 00:47:57.265 são usados os diacríticos. 00:47:57.265 --> 00:48:02.560 Por outro lado, os diacríticos nunca são usados na prosa moderna 00:48:02.560 --> 00:48:05.734 ou imprensa escrita ou toponímia. 00:48:05.734 --> 00:48:11.209 Então, a utilização casual diária usa as vogais extra 00:48:12.049 --> 00:48:13.519 e não usa os diacríticos. 00:48:13.519 --> 00:48:15.607 Porque eles são, obviamente, mais complicados 00:48:15.607 --> 00:48:17.893 e têm todo o tipo de regras e ninguém sabe as regras. 00:48:18.393 --> 00:48:20.531 - (risos) - Então, há duas variantes. 00:48:20.531 --> 00:48:25.222 Há a variante casual para prosa 00:48:25.222 --> 00:48:27.827 e há a da Bíblia e da poesia. 00:48:27.827 --> 00:48:32.200 que vem sempre no tradicional texto diacriticizado. 00:48:32.200 --> 00:48:33.302 Para ser útil, 00:48:33.302 --> 00:48:37.428 o lexema teria que reconhecer ambas as variantes de cada palavra 00:48:37.428 --> 00:48:39.747 e cada forma de cada palavra. 00:48:40.477 --> 00:48:43.391 Portanto, esse é um caso de utilização muito abrangente 00:48:43.391 --> 00:48:46.250 para variantes oficiais estáveis. 00:48:46.250 --> 00:48:49.262 Não é dialeto, não é regional, 00:48:49.262 --> 00:48:53.627 são, basicamente, dois sistemas morfológicos coexistentes. 00:48:54.427 --> 00:48:58.786 E eu também não sei exatamente como expressar isso no lexema, agora, 00:48:58.786 --> 00:49:02.800 o que é uma das coisas que me impede, em resposta parcial à pergunta do Magnus, 00:49:02.800 --> 00:49:05.238 de carregar as partes que estão prontas 00:49:05.238 --> 00:49:09.394 do maior dicionário Hebreu, que é de domínio público 00:49:09.394 --> 00:49:12.927 e que tenho andar a digitalizar há vários anos. 00:49:12.927 --> 00:49:14.723 Uma grande porção está pronta, 00:49:14.723 --> 00:49:16.459 mas não o ponho no lexema agora 00:49:16.459 --> 00:49:20.115 porque, basicamente, não sei como resolver este problema. 00:49:20.115 --> 00:49:23.387 Está bem, vamos resolver este problema aqui. (risos) 00:49:24.303 --> 00:49:26.021 Tem de ser possível. 00:49:29.875 --> 00:49:32.047 Mais perguntas? 00:49:37.003 --> 00:49:39.735 Se não, então muito obrigada. 00:49:40.435 --> 00:49:44.915 (aplausos)