(Lydia) Muito obrigada. Então, nesta conferência, um dos grandes temas são as linguagens. Então... Quero dar-vos uma visão geral de onde estamos atualmente no que diz respeito a linguagens e para onde podemos ir daqui. A Wikidada pretende dar a mais pessoas mais acesso a mais conhecimento e a linguagem é uma parte muito importante para tornar isso realidade. Especialmente, porque cada vez mais as nossas vidas dependem da tecnologia. E, como um dos palestrantes mencionou há pouco, alguma da tecnologia deixa as pessoas para trás simplesmente porque não falam determinada linguagem, o que não está correto. Então, nós queremos fazer algo em relação a isso. E, de forma a mudar isso, precisamos de pelos menos duas coisas. Primeiro, providenciar conteúdo na língua nativa das pessoas e, segundo, providenciar interação na sua língua, nas aplicações ou seja no que for que tenham. A Wikidata ajuda em ambas as coisas. Em relação à primeira, conteúdo na sua língua, isso é basicamente o que temos nos itens e propriedades, como descrevemos o mundo. Isto não é, certamente, tudo o que é preciso, mas já dá uma ajuda considerável. A outra coisa, interação na sua língua, é onde os lexemas entram em jogo se quiserem falar com o vosso assistente pessoal digital, ou se quiserem que o vosso dispositivo traduza um texto e afins. Tudo bem, vamos olhar para conteúdo na sua língua. O que temos em itens e propriedades? Para isto, as etiquetas nesses itens e propriedades são cruciais. Precisamos de saber como se chama esta entidade de que estamos a falar. E, em vez de falarmos sobre Q5... Alguém que fale inglês sabe que isso é um "humano", alguém que fale alemão sabe que é um "mensch", e por aí adiante. Então, estas etiquetas nos itens e propriedades estão a fechar as brechas entre humanos e máquinas e entre humanos e humanos. Fazendo com que mais conhecimento esteja acessível para eles. Isso é um bom objetivo. Mas qual é o aspeto disso? Bem, é este. O que estão a ver aqui é que a maioria dos items na Wikidata tem duas etiquetas, portanto, são etiquetados em duas línguas. Depois disso, é um, e depois três e depois fica muito triste. (riso tímido) Eu penso que temos que fazer melhor. Mas, por outro lado, eu, na verdade, estava à espera de muito pior. Estava à espera que a média fosse um. Portanto, fiquei bastante contente em ver dois. (risos) Certo. Mas, o interessante não é só saber quantas etiquetas os nossos items e propriedades têm, também é interessante ver em que línguas. Aqui têm um gráfico das línguas que têm etiquetas para itens. A maior parte é Outra. Então, peguei nas 100 maiores línguas e tudo o resto são Outras, para que o gráfico se perceba. Depois, há inglês e holandês, francês, e não nos esqueçamos do... asturiano. - (plateia 1) (grito de entusiasmo) - De facto! Então, podem ver que há aqui um considerável desequilíbrio e o foco ainda se mantém muito no inglês. Outra coisa que notamos é que nas Propriedades, as coisas estão bem melhores. E penso que, em parte, isso deve-se a haver muito menos propriedades. Então, mesmo comunidades menores têm hipótese de se manter a par. Mas também é uma parte importante da Wikidata, a localização na tua própria língua. Portanto, isso é bom. O que quero salientar aqui com o asturiano é que uma comunidade pequena pode realmente fazer uma enorme diferença com alguma dedicação e trabalho, o que é muito fixe. Uma pequena pergunta para vocês. Se pegarmos em todas as propriedades na Wikidata, que não são indentificadores externos, qual é o que tem mais etiquetas, o maior número de linguagens? (plateia) [inaudível] Ouço algum acordo em instância de? Estariam errados. É imagem. (risos) Então, sim, isso diz-vos, se falarem uma destas línguas nas quais instância de ainda não tem etiqueta, que poderão querer adicioná-la. Tem, neste momento, 148 etiquetas. Mas isso é outro slide. Este gráfico diz-nos algo sobre quanto conteúdo estamos a tornar disponível numa certa língua e quanto conteúdo é realmente utilizado. Então, o que temos aqui é basicamente uma curva com a maior parte do conteúdo com etiquetas em inglês, disponível em inglês e a ser muito usado. E depois, isto meio que baixa. Mas, novamente, o que podem ver são os valores atípicos que têm muito mais conteúdo do que seria de esperar e isso é mesmo muito bom. O problema é que não é tão utilizado. Asturiano e holandês deveriam ser mais altos. Acho que, ajudar essas comunidades a aumentar o uso dos dados que coletaram, é uma coisa realmente útil de se fazer. O que esta análise e outras nos mostraram é uma coisa boa, embora estejamos a ver que os itens que são mais utilizados também tendem a ter mais etiquetas ou ao contrário. Não é completamente claro. E então, a questão é: estamos a servir apenas as linguagens poderosas? Ou conseguimos fazê-lo para todos? O que vêm aqui é um agrupamento das linguagens. As linguagens que estão agrupadas tendem a ter etiquetas juntas. E conseguimos vê-las a aglomerarem-se. Agora, temos aqui um aglomerado similar, colorido, baseado em quão viva, quão usada, quão ameaçada a linguagem está. E uma coisa boa que vemos aqui, é que linguagens seguras e ameaçadas não formam dois aglomerados diferentes. Elas misturam-se, o que é muito melhor do que seria se fosse ao contrário onde as linguagens seguras, as linguagens poderosas, estariam apenas a ajudar-se entre elas. Não, não é esse o caso. E isso é uma coisa ótima. Quando vi isto, pensei que isto era muito bom. Aqui está uma coisa similar, onde olhamos para os estados das linguagens, para quantas etiquetas têm. O que estão a ver é uma clara vantagem para as linguagens seguras, como seria de esperar. Mas também estão a ver que as linguagens na categoria dois, e três e até mesmo quatro não estão, na verdade, nada mal em termos de representação na Wikidata e em outros. É uma coisa muito boa de se encontrar. Agora, se olharmos para a mesma coisa para quanto do conteúdo dessas etiquetas é atualmente usado na Wikipedia, por exemplo, emerge uma imagem semelhante. E diz-nos que estas comunidades estão a fazer um bom uso do tempo preenchendo as etiquetas para os itens mais usados, por exemplo. Há valores atípicos onde penso que podemos ajudar... Ajudar as comunidades a encontrar sítios onde o seu trabalho será mais valioso. Mas, no geral, estou contente com este panorama. Agora, isto foram os itens e as propriedades da Wikidata. Agora vamos olhar para a interação nas vossas línguas. Portanto as porções do lexema da Wikidata onde nós descrevemos palavras e as suas formas e significados. Andamos a fazer isso desde Maio do ano passado e o conteúdo tem aumentado. Podem ver aqui em azul os lexemas e a vermelho, as formas nesses lexemas e a amarelo, os sentidos nesses lexemas. Então algumas comunidades-- já voltaremos a isso mais tarde-- dispenderam muito tempo a criar formas e sentidos para os seus lexemas, o que é muito útil porque constrói o núcleo dos conjuntos de dados que precisamos. Agora, olhamos para todas as línguas que têm lexemas na Wikidata. Portanto, palavras que nós temos. Há, agora, 310 línguas. Agora, qual é que acham que é a língua que está no topo quando falamos em número de lexemas neste momento na Wikidata? (Plateia) [inaudível] O quê? (Plateia 2) Alemão. Desculpe, já o tinha ouvido antes. É Russo. O Russo está bastante à frente. E, para vos dar alguma perspetiva, há diferentes opiniões mas li, por exemplo, que entre 1 000 e 3 000 palavras chegam para chegar ao nível conversacional noutra língua e que entre 4 000 a 10 000 palavras chegam para o nível avançado. Então, ainda temos um pouco para pôr em dia. Uma coisa à qual quero que prestem atenção é ao basco com, aproximadamente, 10 000 lexemas. Agora, se olharem para o número de formas nesses lexemas, o basco está lá em cima, o que é bastante fixe. Deviam ir a uma palestra que vos explique o porquê desta situação. Agora, olhando para o número de sentidos, para o que as palavras querem dizer, o basco chega mesmo ao topo da lista. Eu acho que merece um aplauso. (aplausos) Outra pequena pergunta. Qual é o lexema com o maior número de traduções neste momento? (Plateia) Gatos, gatos, [inaudível], Douglas Adams, [inaudível]. Todos bons palpites, mas não. É esta, a palavra para "água", em russo. Já falámos muito sobre quantos lexemas, formas e sentidos temos, mas isso é apenas uma parte do que precisamos. A outra parte é descrever os lexemas, formas e sentidos, de uma forma que as máquinas possam ler. E para isso temos declarações, tal como nos itens. E uma das propriedades que usamos é o exemplo de utilização. Portanto quem quer que esteja a usar os dados pode entender como usar a palavra no contexto, pode ser uma citação, por exemplo. E aqui, o polaco reina. Bom trabalho falantes de polaco. Outra propriedade que é mesmo útil é IPA, logo, como é que se pronuncia uma palavra. O russo, aparentemente, precisa imenso de declarações IPA. Mas, novamente, polaco em segundo. E, por último, mas não menos importante, temos a pronunciação áudio. Isto corresponde a ligações a ficheiros nos Commons onde alguém diz a palavra, de forma a que possamos ouvir como um nativo a pronuncia para o caso de não conseguires ler IPA, por exemplo. E há um projeto muito porreiro baseado na Wiki, chamado Lingua Libre, onde podemos ir e ajudar a gravar palavras na nossa língua que pode ser depois adicionadas a lexemas na Wikidata, para que outras pessoas possam entender como pronunciar as palavras. (plateia 3) Há alguma ligação para isso? Se procurarem por "Lingua Libre"... Tenho a certeza de que alguém pode publicá-la no nosso canal do Telegram. Aqueles tipos são os maiores. Fizeram uma coisa mesmo fixe com a Wikibase. Certo. Então, a questão é, para onde seguimos daqui? A julgar pelos números que vos mostrei, já fizemos um longo caminho na direção de dar a mais pessoas mais acesso a mais conhecimento quando procuram línguas na Wikidata. Mas ainda há muito trabalho pela frente. Algumas coisas que podem fazer para ajudar, por exemplo, é organizar maratonas de etiquetagem, como juntar pessoas para etiquetar items na Wikidata. Ou fazer uma maratona de etiquetagem para lexemas na vossa língua, para introduzir as palavras mais usadas na vossa língua na Wikidata. Ou podem usar uma ferramenta como o Terminator, que vos ajuda a encontrar os itens mais importantes na vossa língua a que ainda falte alguma etiqueta. Sendo que mais importante é medido por quantas vezes é usado em outros items da Wikidata como ligações ou declarações. E, claro, para a porção do lexema, agora que temos uma cobertura básica desses lexemas, queremos também construí-los, adicionar-lhes mais declarações para que eles possam, realmente, construir a base para construir aplicações significativas a partir deles. Porque estamos a aproximarmo-nos dessa massa crítica, mas ainda estamos longe disso, de podermos construir aplicações sérias sobre isto. E espero que todos vocês se juntem a nós para fazermos isso. E isso já me leva a uma pequena ajuda dos nossos amigos. Bruno, queres vir até aqui para nos falares sobre as máscaras lexicais? (Bruno) Obrigado, Lydia, por me cederes este bocadinho de tempo para apresentar o trabalho que estamos a fazer na Google com o Denny, que a maior parte de vocês já deve ter ouvido falar ou conhece. Porque na Google-- eu sou linguista, portanto estou muito feliz de estar aqui entre outros entusiastas de linguagens-- nós também estamos a construir alguns léxicos e construimos esta tecnologia, ou esta abordagem, que pensamos poderá ser útil para vocês. Só para vos situar, isto é a minha experiência lexicográfica a falar. Quando criamos bases de dados de léxico, é preciso muito tempo para a manter, mantê-la consistente e para trocar dados, como vocês provavelmente sabem. Houve várias tentativas para unificar as características e propriedades que descrevem os lexemas e as formas. Ainda não é um problema resolvido, mas há ainda algumas tentativas de unificação nesse sentido. Mas o que está mesmo a faltar-- e isto é um problema que tivemos no início do nosso projeto na Google-- é tentar ter uma estrutura interna que descreva como uma entrada lexical se deverá parecer, que tipo de dados ou que tipo de informação temos e a especificação pretendida. Assim, isto foi o que inventámos, esta coisa chamada máscara lexical. Uma máscara lexical descreve o que é expectável de uma entrada, de uma entrada lexicográfica, para estar completa, tanto em termos de número de formas que se esperam de um lexema como do número de características que se esperam em cada forma. Aqui está um exemplo para adjetivos italianos. Seria de esperar, em italiano, termos quatro formas para os adjetivos e cada uma dessas formas ter uma combinação específica de género e número de características. Isto é o que esperamos de adjetivos italianos. Claro que, podemos ter máscaras extremamente complexas, como a conjugação dos verbos em francês, que é bastante extensa. E não vos quero mostrar nenhuma máscara russa porque não cabe no ecrã. (risos) E também temos especificações detalhadas, porque distinguimos o que está ao nível da forma. Então, aqui temos nomes russos que têm três números e alguns casos com diferentes formas. Mas, eles também têm uma especificação de entrada de gama que diz que o nome em particular tem um género inerente e uma característica de animação inerente que também são especificados na máscara. Também queremos salientar que uma máscara fornece uma especificação para qual deve ser o aspeto de uma entrada. Mas, podemos ter máscaras mais pequenas, para aspetos defeituosos da forma ou aspetos defeituosos do lexema que acontecem na linguagem. Aqui podem ver a forma mais simples dos verbos franceses que só têm a terceira pessoa do singular para todos os verbos metereológicos, como "chove" ou "neva", em português. Distinguimos estes dois níveis. E como é que usamos isto na Google? Quando temos um léxico que queremos usar, usamos a máscara para literalmente atirar os léxicos, todas as entradas, através da máscara e ver que entrada tem problemas em termos de estrutura. Está a faltar uma forma? Falta uma característica? E, quando surge um problema, fazemos validação humana ou só para ver se passa na máscara. É uma ferramenta extremamente poderosa para conferir a qualidade da estrutura. Portanto, estamos felizes em anunciar hoje que recebemos luz verde para disponibilizarmos o código fonte. Portanto este é o esquema. Se quiserem isto, podemos lançar e pode ser providenciado à Wikidata em ficheiros ShEx. Este é o ficheiro ShEx para nomes em alemão, e o Denny está a trabalhar na conversão da nossa especificação interna para uma mais de código aberto. Atualmente temos mais de 25 linguagens, portanto esperamos crescer do nosso lado, mas também fazer disto uma oportunidade para colaborar noutras línguas. E uma dessas colaborações é a que o Denny tem com o Lukas. O Lukas tem umas ferramentas ótimas para ter uma interface com o utilizador que ajuda o utilizador ou contribuidor a adicionar mais formas. Portanto, se quiserem adicionar um adjetivo em francês, a interface diz-vos quantas formas são expetáveis e e quantas características essa forma deverá ter. Então a nossa máscara ajudará a ferramenta a ser definida e expandida. É isto. (Lydia) Muito obrigado. (aplausos) Certo. Há questões? Querem falar mais sobre os lexemas? - (plateia 4) Sim. - Sim. (risos) (plateia 4) A minha questão, porque estava a falar acerca de dar mais acesso a mais pessoas em mais línguas, mas há muitas línguas que não podem ser usadas na Wikidata. Então que solução é que têm para isso? Quando diz que não podem ser usadas, está a referir-se à entrada de etiquetas? - (plateia 4) Etiquetas, descrições. - Certo. Para lexemas, é um pouco diferente porque aí não temos essa restrição. Para etiquetas nos itens e propriedades, há realmente alguma restrição porque quisemos ter a certeza que não é completamente-- qualquer um faz o que quiser e torna-se ingerível. Até uma comunidade pequena que queira uma língua e que queira trabalhar nisso: venham ter connosco e fazemos acontecer. (plateia 4) Nós fizemos isso no Hackathon de Praga em Maio e demorou quase até Agosto até conseguirmos usar a nossa linguagem. - Sim. - (plateia 4) Portanto, é muito lento. Sim, infelizmente é muito lento. Estamos a trabalhar com o Comité de Linguagem a tentar resolver os mais básicos... Ter o acordo sobre que tipo de linguagens são realmente "permitidas" e isso tem demorado tempo demais, o que pode ser a razão para o vosso pedido ter demorado mais do que devia. (plateia 4) Obrigada. (plateia 5) Obrigado. Lydia, se se lembra das estatísticas que mostrou, o número de lexemas por linguagem. - Sim. (plateia 5) Então, contaram todos as formas como pontos de dados ou apenas os lexemas? (Lydia) Está a falar disto? A qual é que se refere? (plateia 5) Sim, exatamente. Se se lembrar, este número é [inaudível] todas as formas, todos os lexemas ou apenas quantos lexemas há? Não, isto é apenas o número de lexemas. (plateia 5) Só o número de lexemas. Então é apenas uma estatística porque, se depois contássemos com as formas-- por isso pergunto-- então, todas as línguas com morfologia de inflexão, como russo, sérvio, esloveno, etc, têm uma vantagem natural, porque têm tantas. Daí, este tipo de saltos aqui no número de formulários. (plateia 5) Sim, era esse mesmo. Obrigado. (plateia 6) Tenho só uma pergunta rápida acerca de... Quando estávamos a falar sobre os itens e propriedades. Até onde eu consigo entender, não há, atualmente, forma de dar uma fonte definida a qualquer das etiquetas e descrições que foram dadas. - Sim. (plateia 6) Então, não há nada porque, quando estás a falar acerca de uma propriedade de um item, podes ter, por exemplo, etiquetas conflituosas. - Sim. - (Plateia 6) Então, esta pessoa é como... Falamos à pouco sobre coisas indígenas, por exemplo. Então esta pessoa é um artista norueguês, de acordo com uma fonte, e um artista sami, de acordo com outra fonte. Ou, por exemplo, em estoniano, tivemos um problema onde tivemos que mudar uma terminologia para a terminologia oficial usada nos léxicos oficiais. Mas não temos realmente uma forma de indicar porquê. Qual foi a fonte disto e por que razão isto está melhor do que estava. Fui apenas eu, como uma pessoa ao acaso, a mudar isto para quem quer que o veja. Então, há um plano para isto ser possível de qualquer forma, de modo a que possamos realmente ter fontes confiáveis para dados de linguagem? Isso é parcialmente possível. Por exemplo, quando há um item para uma pessoa, pode ter as declarações: primeiro nome, último nome, e por aí em diante. E, nessa altura, pode-se providenciar referências para isso. Tenho algumas reticências em adicionar mais complexidade para referências em etiquetas e descrições, mas se as pessoas realmente pensam que isto é algo que não está coberto por qualquer referência na declaração, então falamos sobre isso. Mas temo que vá adicionar muita complexidade para o que espero serem poucos casos. Mas estou disposta a ser convencida do contrário se as pessoas realmente sentem que isto tem relevãncia. (plateia 6) Se for adicionado provavelmente não deveria ser o padrão, mostrado a todos os utilizadores iniciados na interface, em todos os casos. Podia ser mais, "Clica aqui se queres adicionar algo específico sobre isto." Temos alguma ideia de quantas vezes isso teria importância? (plateia 6) Em estónio, por exemplo-- eu imagino que seja assim noutras línguas também-- por exemplo, há um nome oficial que é a legítima tradução para inglês de, digamos, um tipo específico de municipalidade. Este foi o meu caso de utilizador, por exemplo, onde estávamos a usar a palavra "paróquia" na qual a palavra estónia original significava paróquia de igreja e essa foi a sua origem, mas não é agora a tradução oficial que a Estónia recebe atualmente. Neste caso, eu juntaria-a apenas como declarações de nome oficial e juntaria a referência aí. (plateia 6) Certo. Mais questões, sim? (Asaf) Dois comentários rápidos. Falou especificamente do asturiano como uma linguagem que está em alta e eu acho que isso é falso. Conte-me. (Asaf) Eu penso que é apenas um bot que colou nomes de pessoas, nomes apropriados para pessoas, e disse "Bem, isto é exatamente como em francês ou espanhol" e copiou-o massivamente. Uma prova é que não se vê essa energia no asturiano, em coisas que realmente requerem tradução, como nomes de propriedades, ou nomes de itens que não são nomes próprios. Asaf, partes-me o coração. (Asaf) Eu sei, costumo estragar as festas, mas tenho boas notícias também, sobre os números das pronunciações. Como saberão, o Commons está cheio de ficheiros de pronunciação e, por exemplo, o holandês tem, nada mais nada menos, que 300 000 ficheiros desses introduzidos que necessitam de ser "ingeridos" de alguma forma. Então, se alguém está à procura de um projeto para as horas vagas, há imensos ficheiros de pronunciação, classificados e categorizados no Commons na categoria "Pronunciação" por linguagem. Estão à espera de ser combinados com os lexemas e postos no lexema. E estava a pensar se me poderia dizer alguma coisa sobre o quadro referência, algo sobre quanto investimento ou o que podemos esperar relativo ao lexema no próximo ano, porque eu, pessoalmente, mal posso esperar. Não pode? (risos) - (Asaf) Por mais. - Sim. (risos) Penso que ... Neste momento, estamos concentrados mais na Wikibase e na qualidade de dados para ver quanta tração isto tem e para obter mais para descobrir onde os próximos pontos críticos estão e depois voltar atrás e melhorar mais os dados lexicográficos. E uma das coisas que adoraria ouvir de vocês é onde exatamente vocês vêm que poderão ser dados os próximos passos, onde querem melhorias para que nós possamos descobrir como fazer isso acontecer. Mas claro que está certo, ainda há muito a fazer também do lado técnico. (plateia 7) Ao carregarmos as palavras bascas com formas, e verão alguns destes tipos de coisas, estávamos todos... Na semana passada dissemos "Somos os primeiros em algo." [inaudível] Apareceu na imprensa e foi tipo: "O basco foi o primeiro em algo, foram os primeiros." (risos) E depois as pessoas perguntaram "Mas para que serve isto?" Nós não temos uma boa resposta. Quer dizer, certo, isto vai ajudar computadores a entender mais a nossa linguagem, sim. Mas que tipo de ferramentas podemos fazer no futuro? E ainda não temos uma boa resposta. Portanto eu não sei se vocês têm uma boa resposta para isto. (risos) Eu não sei se eu tenho uma boa resposta, mas tenho uma resposta. Então, eu penso, neste momento, como estava a dizer [inaudível], que ainda não chegámos à massa crítica onde podemos construir um monte de ferramentas realmente interessantes. Mas já existem algumas ferramentas. No outro dia, a Esther Pandalia, por exemplo, lançou uma ferramenta onde podemos ver, penso que eram as palavras num globo, onde eram faladas, de onde tinham vindo. Posso estar errada sobre isto. Mas ela respondeu no chat do projeto na Wikidata. Podem vê-lo ali. Então já vimos as primeiras ferramentas, tal como já vimos, no passado, quando a Wikidata começou. Primeiro algumas... Como uma rede e depois "Olha, há aqui esta coisa que liga a esta outra coisa." E à medida que temos mais dados e chegamos mais perto da massa crítica, tornam-se possíveis aplicações mais poderosas. Coisas como a Histropedia, coisas como perguntas e respostas no vosso assistente pessoal digital, Platypus e assim por diante. E estamos a ver coisas semelhantes com os lexemas. Estamos num estágio em que podemos construir estes pequenos: "Olha, há uma ligação entre duas coisas e há uma tradução dessa palavra para esse estágio de linguagem." E, à medida que construimos e à medida que descrevemos mais palavras, mais se torna possível. Agora, o que é que isso torna possível? Como o Ben, o nosso orador de antes, estava a dizer acerca de traduções, ser capaz de traduzir de uma língua para outra. E Jens, outro colega, que está sempre a falar sobre a União Europeia andar sempre à procura de um tradutor que possa fazê-lo de, penso que era maltês para sueco. - (plateia 8) Estónio. - Estónio. (risos) E essa não é uma combinação usual. Mas assim que temos todas essas linguagens num lugar passível de ser lido por máquina podemos fazer isso. Podemos obter um dicionário de estónio para maltês e vice-versa. Então, incluir combinações de linguagens em dicionários que não foram incluídas antes porque não havia procura suficiente para elas, por exemplo, para fazê-lo de forma financeiramente viável e para justificar o trabalho. Agora podemos fazer isso. E depois a geração de texto. A Lucie estava a falar acerca de como ela está a trabalhar com a Hattie em gerar textos para iniciar artigos na Wikipedia em línguas minoritárias. Isso precisa de dados sobre palavras e precisamos perceber a língua para fazer isso. Sim, e isto é só o que me vem à cabeça agora. Talvez a nossa audiência tenha mais ideias do que querem fazer quando tivermos todos esses gloriosos dados. (plateia 9) Vou-nos desviar do tópico dos lexemas. Quero perguntar-vos algo. Como posso eu, como membro da comunidade influenciar que a prioridade seja colocada na tarefa, que um utilizador novo venha, e possa indicar que línguas quer ver e editar sem um qualquer conhecimento padrão verbal secreto. Talvez haja, este ano, uma lista técnica de desejos sem tópicos da Wikipedia. Talvez haja esperança de que possamos votar acerca daquela coisa que não arranjamos há sete anos. Tem alguma ideia ou comentário sobre isso? Então, está a falar sobre o facto de alguém que não esteja ligado à Wikidata não poder mudar a sua linguagem facilmente? (plateia 9) Não, para novos utilizadores. Então, se estiverem ligados, eles podem mudar a sua língua no topo da página. Depois, aparece onde... onde as descrições das etiquetas estão e podem editá-las. (plateia 9) Bem, na verdade, muitas vezes o fluxo de trabalho é, se queremos ter múltiplas línguas elas estão disponíveis, e nem sempre acontece. Talvez devamos sentar-nos depois desta apresentação e mostra-me. Fixe. Mais questões? Sim. (plateia 10) Obrigado pela apresentação. Pode comentar acerca do estado da correlação com a comunidade do Wiktionary. Do que eu tenho conseguido ver, tem havido algumas discussões acerca de importar alguns elementos do trabalho, mas parece haver algumas questões de licenciamento e desentendimentos, etc. Certo. Então, as comunidades do Wiktionary passaram muito tempo a construir o Wiktionary. Construiram padrões extremamente complicados e complexos para construir as bonitas tabelas que geram formulários para vocês e é tudo realmente impressionante, e um pouco louco, se pensarmos bem nisso. E, é claro, investiram muito tempo e esforço a fazê-lo. E, compreensivelmente, não querem que isso seja agarrado de qualquer maneira. Então, há um pouco disso, vindo daí. E está certo, tudo bem. Agora, as primeiras comunidades Wiktionary estão a falar de mudar isso e importar alguns dos dados deles para a Wikidata. O russo, por exemplo, como já viram, é um desses casos e espero que mais aconteçam. Mas vai ser um processo lento, tal como a adopção dos dados da Wikidata pela Wikipedia está a ser um processo bem lento. O outro lado é tentar que seja mais fácil usar os dados que estão nos lexemas, no Wiktionary, para que possam fazer uso deles e partilhar dados entre as Wiktionaries de linguagens. O que é super difícil neste momento, o que é de doidos, tal como foi na Wikipedia. Esperem pelo presente de aniversário. (risos) Sim. (plateia 11) Quando estava a pensar sobre a outra forma, eu, na verdade, não o quis dizer porque penso que pode ser super tolo. Mas acho que o Wiktionary já tem algum conteúdo e eu sei que não pode ser transferido para a Wikidata por causa das diferenças de licenças. Mas estava a pensar que talvez possamos fazer algo acerca disso. Talvez obter permissão das comunidades depois de, não sei, haver uma votação pública de forma a que comunidade, os seus membros ativos, votem e digam se querem ou não aceitar a transferência de conteúdo para a qual podem fazer os lexemas da Wikidata. Porque penso que é um desperdício. Então, isso é definitivamente uma conversa que essas pessoas, que estão nas comunidades Wiktionary, podem ter lá. Penso que seria um pouco presunçoso da nossa parte forçarmos isso. Mas sim, penso que, definitivamente, vale a pena ter essa conversa. Mas eu penso que também é importante entender que há uma distinção entre o que é legalmente permitido e o que devíamos estar a fazer e o que as essas pessoas querem ou não. Portanto, mesmo se for legal, se algumas das comunidades Wiktionary não o quiserem, eu teria cuidado, no mínimo. Penso que precisamos do microfone para o vídeo. (plateia 12) Obviamente, isto é tudo muito excitante e penso imediatamente em como levar isto aos meus estudantes, como posso incorporar isto nos cursos, no trabalho que estamos a fazer, ambientes educacionais. E não tenho, neste momento, primeiro, conhecimento, mas acho que a documentação que temos pode ser melhorada. Portanto, isto é um pedido para fazerem vídeos fixes que expliquem como funciona. Porque, se os tivermos, podemos usá-los, podemos ter estudantes a bordo e podemos fazer as pessoas entender quão espetacular é. Sim, pensem na documentação e pensem na educação, por favor. Porque penso que muito pode ser feito. Estas são pequenas tarefas que podem ser feitas mesmo com... bem, não direi escolas primárias, mas certamente até com estudantes jovens. E, portanto, gostaria mesmo de ver esse potencial a ser aproveitado e, neste momento, eu, pessoalmente, não entendo o suficiente para conseguir criar tarefas ou para criar tipo... para fazer algo prático com isto. Portanto, qualquer ajuda, ideias que alguém tenha acerca disso, estou completamente disponível para ouvir tudo o que tenham em mente. Sim, vamos falar sobre isso. Mais questões? Mais alguém tinha levantado a mão. Esqueci-me de quem foi. (plateia 13) Então, se não conseguimos importar a partir do Wiktionary, há algum esforço concertado para achar outras fontes de domínio público, talvez dados mais antigos, e filtrá-los previamente, organizá-los para que seja fácil a sua verificação, por pessoas, para importação? Então, foram feitos esforços iniciais. Penso que o basco é um desses esforços. Talvez queiras dizer algo sobre isso? (plateia 14) [inaudível] Certo, a resposta é pagando por isso... Temos um acordo com um fornecedor com quem trabalhamos. Eles fazem dicionários, outros... montes de coisas, mas fazem dicionários. Temos um acordo com eles para tornar grátis os dicionários estudantis. Nós transmitiríamos as palavras mais comuns e começaríamos a carregá-las com um identificador externo e esse tipo de coisas. Mas houve alguma discussão acerca de deixá-lo no CC0, porque eles têm um dicionário com CC por ele, e perceberam qual era a diferença. Portanto, houve alguma discussão. Mas penso que podemos providenciar algumas ferramentas ou exemplos, no futuro, e penso que haverá outros dicionários que podemos gerir. E também penso que o Wiktionary deveria ir nessa direção, mas isso é outra grande discussão. E, para além disso, a Lea está também em contacto com pessoas da Occitan, que trabalham nos dicionários Occitan, e eles estão atualmente a trabalhar numa colaboração suméria. Mais questões? (plateia 15) Olá. Nós somos as pessoas que querem importar dados da Occitan. Perfeito! (plateia 15) E temos um pequeno problema para... Nós não sabemos como representar toda a variedade de lexemas. Temos seis dialetos e queremos indicar, para o lexema, em que dialeto é usado e não temos a declaração CO apropriada para isso. Portanto, enquanto o segmento não existir, não conseguimos [inaudível] porque vamos precisar de fazê-lo outra vez quando estivermos em condições de exportar a declaração. E é complicado porque é uma declaração que não vai ser pedida por muita gente porque é uma declaração que diz respeito principalmente a línguas minoritárias. Então teremos uma pessoa a pedir isto. Mas, como no caso dos nossos colegas Bascos, pode ser uma pessoa que ajudará milhares de outros. Portanto, pode não parecer importante, mas será muito importante para nós. Vocês já têm a nova proposta de propriedade a funcionar, ou precisam de ajuda para criá-la? (plateia 15) Fizemos o pedido há quatro meses. Certo, então vamos arranjar pessoal para ajudar com essa proposta. De certeza que há pessoas suficentes nesta sala para isso se realizar. (plateia 15) Proposta de propriedade [em francês]. Nós não tivemos resposta e não sabemos fazê-lo porque não somos da comunidade Wikidata. Sim, então há aqui pessoas que vos podem ajudar. Talvez alguém levante a mão para ficar... (plateia 14) Sou a favor. Mas penso que é muito interessante que apenas a variante de forma também o possa gerir geograficamente, com coordenadas ou algum tipo de mapeamento. Também tendo diferentes pronúncias e penso que é algo que acontece em muitas línguas. Deveríamos trabalhar para isso acontecer de alguma forma e eu vou procurar a propriedade. Fixe. Então, vocês terão apoio para a vossa proposta de propriedade. Obrigado. Mais alguma questão? Finn. O Finn é uma daquelas pessoas que constrói coisas tendo como base dados lexicográficos. (Finn) É só uma pequena questão, e é sobre variações de ortografia. Parece difícil pô-las em... Poderíamos, claro, ter múltiplas formas para a mesma palavra. Não sei, parece ser... Se não o fizeres dessa forma, parece ser difícil especificar... ou, não sei se é apenas um problema técnico menor ou se... Vamos olhar para isso juntos. Adoraria ver um exemplo. Asaf. (Asaf) Obrigado. Posso dar um exemplo concreto da minha língua, o hebreu. O Hebreu tem duas variantes principais para expressar quase todas as palavras, porque a ortografia tradicional deixa de parte muitas vogais. E, assim sendo, nas edições modernas da Bíblia e de poesia, são usados os diacríticos. Por outro lado, os diacríticos nunca são usados na prosa moderna ou imprensa escrita ou toponímia. Então, a utilização casual diária usa as vogais extra e não usa os diacríticos. Porque eles são, obviamente, mais complicados e têm todo o tipo de regras e ninguém sabe as regras. - (risos) - Então, há duas variantes. Há a variante casual para prosa e há a da Bíblia e da poesia. que vem sempre no tradicional texto diacriticizado. Para ser útil, o lexema teria que reconhecer ambas as variantes de cada palavra e cada forma de cada palavra. Portanto, esse é um caso de utilização muito abrangente para variantes oficiais estáveis. Não é dialeto, não é regional, são, basicamente, dois sistemas morfológicos coexistentes. E eu também não sei exatamente como expressar isso no lexema, agora, o que é uma das coisas que me impede, em resposta parcial à pergunta do Magnus, de carregar as partes que estão prontas do maior dicionário Hebreu, que é de domínio público e que tenho andar a digitalizar há vários anos. Uma grande porção está pronta, mas não o ponho no lexema agora porque, basicamente, não sei como resolver este problema. Está bem, vamos resolver este problema aqui. (risos) Tem de ser possível. Mais perguntas? Se não, então muito obrigada. (aplausos)