(Lydia) Muito obrigada.

Então, nesta conferência,
um dos grandes temas são as linguagens.

Então...

Quero dar-vos uma visão geral 
de onde estamos atualmente

no que diz respeito a linguagens

e para onde podemos ir daqui.

A Wikidada pretende dar a mais pessoas
mais acesso a mais conhecimento

e a linguagem é uma parte muito importante
para tornar isso realidade.

Especialmente, porque cada vez mais 
as nossas vidas dependem da tecnologia.

E, como um dos palestrantes 
mencionou há pouco,

alguma da tecnologia 
deixa as pessoas para trás

simplesmente porque
não falam determinada linguagem,

o que não está correto.

Então, nós queremos fazer algo
em relação a isso.

E, de forma a mudar isso, 
precisamos de pelos menos duas coisas.

Primeiro, providenciar conteúdo
na língua nativa das pessoas

e, segundo,

providenciar 
interação na sua língua,

nas aplicações
ou seja no que for que tenham.

A Wikidata ajuda em ambas as coisas.

Em relação à primeira,
<i>conteúdo na sua língua</i>,

isso é basicamente o que temos
nos itens e propriedades,

como descrevemos o mundo.

Isto não é, certamente,
tudo o que é preciso,

mas já dá uma ajuda considerável.

A outra coisa,
<i>interação na sua língua</i>,

é onde os lexemas entram em jogo

se quiserem falar
com o vosso assistente pessoal digital,

ou se quiserem que o vosso dispositivo
traduza um texto e afins.

Tudo bem, vamos olhar para 
<i>conteúdo na sua língua</i>.

O que temos em <i>itens</i> e <i>propriedades</i>?

Para isto, as etiquetas nesses itens
e propriedades são cruciais.

Precisamos de saber como se chama 
esta entidade de que estamos a falar.

E, em vez de falarmos sobre Q5...

Alguém que fale inglês
sabe que isso é um "humano",

alguém que fale alemão
sabe que é um "mensch",

e por aí adiante.

Então, estas etiquetas 
nos itens e propriedades

estão a fechar as brechas
entre humanos e máquinas

e entre humanos e humanos.

Fazendo com que mais conhecimento
esteja acessível para eles.

Isso é um bom objetivo.

Mas qual é o aspeto disso?

Bem, é este.

O que estão a ver aqui

é que a maioria dos items
na Wikidata tem duas etiquetas,

portanto, são etiquetados em duas línguas.

Depois disso, é um, e depois três

e depois fica muito triste.

(riso tímido)

Eu penso que temos que fazer melhor.

Mas, por outro lado,

eu, na verdade, estava à espera
de muito pior.

Estava à espera que a média fosse um.

Portanto, fiquei
bastante contente em ver dois. (risos)

Certo.

Mas, o interessante não é só saber

quantas etiquetas os nossos items
e propriedades têm,

também é interessante ver
em que línguas.

Aqui têm um gráfico das línguas

que têm etiquetas para <i>itens</i>.

A maior parte é <i>Outra</i>.

Então, peguei nas 100 maiores línguas

e tudo o resto são <i>Outras</i>,
para que o gráfico se perceba.

Depois, há inglês e holandês,

francês,

e não nos esqueçamos do... asturiano.

- (plateia 1) (grito de entusiasmo)
- De facto!

Então, podem ver que há aqui 
um considerável desequilíbrio

e o foco ainda se mantém muito no inglês.

Outra coisa que notamos 
é que nas <i>Propriedades</i>,

as coisas estão bem melhores.

E penso que, em parte, isso deve-se
a haver muito menos propriedades.

Então, mesmo comunidades menores
têm hipótese de se manter a par.

Mas também é uma parte importante
da Wikidata,

a localização na tua própria língua.

Portanto, isso é bom.

O que quero salientar aqui 
com o asturiano

é que uma comunidade pequena
pode realmente fazer uma enorme diferença

com alguma dedicação e trabalho,

o que é muito fixe.

Uma pequena pergunta para vocês.

Se pegarmos em todas as propriedades 
na Wikidata,

que não são indentificadores externos,

qual é o que tem mais etiquetas,
o maior número de linguagens?

(plateia) [inaudível]

Ouço algum acordo em <i>instância de</i>?

Estariam errados.

É <i>imagem</i>. (risos)

Então, sim, isso diz-vos,
se falarem uma destas línguas

nas quais <i>instância de</i>
ainda não tem etiqueta,

que poderão querer adicioná-la.

Tem, neste momento, 148 etiquetas.

Mas isso é outro slide.

Este gráfico diz-nos algo

sobre quanto conteúdo estamos a tornar
disponível numa certa língua

e quanto conteúdo 
é realmente utilizado.

Então, o que temos aqui 
é basicamente uma curva

com a maior parte do conteúdo com
etiquetas em inglês, disponível em inglês

e a ser muito usado.

E depois, isto meio que baixa.

Mas, novamente, o que podem ver
são os valores atípicos

que têm muito mais conteúdo
do que seria de esperar

e isso é mesmo muito bom.

O problema é que não é tão utilizado.

Asturiano e holandês
deveriam ser mais altos.

Acho que, ajudar essas comunidades

a aumentar o uso 
dos dados que coletaram,

é uma coisa realmente útil de se fazer.

O que esta análise e outras
nos mostraram é uma coisa boa,

embora estejamos a ver que os itens
que são mais utilizados

também tendem a ter mais etiquetas

ou ao contrário.
Não é completamente claro.

E então, a questão é:

estamos a servir
apenas as linguagens poderosas?

Ou conseguimos fazê-lo para todos?

O que vêm aqui 
é um agrupamento das linguagens.

As linguagens que estão agrupadas
tendem a ter etiquetas juntas.

E conseguimos vê-las a aglomerarem-se.

Agora, temos aqui
um aglomerado similar, colorido,

baseado em quão viva, quão usada,

quão ameaçada a linguagem está.

E uma coisa boa que vemos aqui,

é que linguagens seguras
e ameaçadas

não formam dois aglomerados diferentes.

Elas misturam-se,

o que é muito melhor do que seria 
se fosse ao contrário

onde as linguagens seguras,
as linguagens poderosas,

estariam apenas a ajudar-se entre elas.

Não, não é esse o caso.

E isso é uma coisa ótima.

Quando vi isto,
pensei que isto era muito bom.

Aqui está uma coisa similar,

onde olhamos para

os estados das linguagens,

para quantas etiquetas têm.

O que estão a ver é uma clara vantagem
para as linguagens seguras,

como seria de esperar.

Mas também estão a ver

que as linguagens na categoria dois,
e três e até mesmo quatro

não estão, na verdade, nada mal

em termos de representação
na Wikidata e em outros.

É uma coisa muito boa de se encontrar.

Agora, se olharmos para a mesma coisa

para quanto do conteúdo
dessas etiquetas

é atualmente usado 
na Wikipedia, por exemplo,

emerge uma imagem semelhante.

E diz-nos que estas comunidades
estão a fazer um bom uso do tempo

preenchendo as etiquetas
para os itens mais usados, por exemplo.

Há valores atípicos
onde penso que podemos ajudar...

Ajudar as comunidades a encontrar sítios
onde o seu trabalho será mais valioso.

Mas, no geral, estou contente 
com este panorama.

Agora, isto foram os itens
e as propriedades da Wikidata.

Agora vamos olhar para a interação
nas vossas línguas.

Portanto as porções do lexema 
da Wikidata

onde nós descrevemos palavras
e as suas formas e significados.

Andamos a fazer isso 
desde Maio do ano passado

e o conteúdo tem aumentado.

Podem ver aqui em azul os lexemas

e a vermelho,
as formas nesses lexemas

e a amarelo, os sentidos
nesses lexemas.

Então algumas comunidades--
já voltaremos a isso mais tarde--

dispenderam muito tempo a criar formas
e sentidos para os seus lexemas,

o que é muito útil

porque constrói o núcleo
dos conjuntos de dados que precisamos.

Agora, olhamos para todas as línguas

que têm lexemas na Wikidata.

Portanto, palavras que nós temos.

Há, agora, 310 línguas.

Agora, qual é que acham que é 
a língua que está no topo

quando falamos em número de lexemas
neste momento na Wikidata?

(Plateia) [inaudível]

O quê?

(Plateia 2) Alemão.

Desculpe, já o tinha ouvido antes.

É Russo.

O Russo está bastante à frente.

E, para vos dar alguma perspetiva,

há diferentes opiniões

mas li, por exemplo,
que entre 1 000 e 3 000 palavras

chegam para chegar
ao nível conversacional noutra língua

e que entre 4 000 a 10 000 palavras
chegam para o nível avançado.

Então, ainda temos um pouco
para pôr em dia.

Uma coisa à qual quero
que prestem atenção é ao basco

com, aproximadamente, 10 000 lexemas.

Agora, se olharem para o número de formas 
nesses lexemas,

o basco está lá em cima,

o que é bastante fixe.

Deviam ir a uma palestra que vos explique
o porquê desta situação.

Agora, olhando para o número de sentidos,
para o que as palavras querem dizer,

o basco chega mesmo ao topo da lista.

Eu acho que merece um aplauso.

(aplausos)

Outra pequena pergunta.

Qual é o lexema com o maior número
de traduções neste momento?

(Plateia) Gatos, gatos, [inaudível],
Douglas Adams, [inaudível].

Todos bons palpites, mas não.

É esta, a palavra para "água", em russo.

Já falámos muito

sobre quantos lexemas, 
formas e sentidos temos,

mas isso é apenas uma parte 
do que precisamos.

A outra parte

é descrever os lexemas, 
formas e sentidos,

de uma forma que as máquinas possam ler.

E para isso temos declarações,
tal como nos itens.

E uma das propriedades
que usamos é o exemplo de utilização.

Portanto quem quer que esteja
a usar os dados

pode entender como usar 
a palavra no contexto,

pode ser uma citação, por exemplo.

E aqui, o polaco reina.

Bom trabalho falantes de polaco.

Outra propriedade 
que é mesmo útil é IPA,

logo, como é que se pronuncia uma palavra.

O russo, aparentemente, precisa
imenso de declarações IPA.

Mas, novamente, polaco em segundo.

E, por último, mas não menos importante, 
temos a pronunciação áudio.

Isto corresponde a ligações 
a ficheiros nos <i>Commons</i>

onde alguém diz a palavra,

de forma a que possamos ouvir 
como um nativo a pronuncia

para o caso de não conseguires ler IPA, 
por exemplo.

E há um projeto muito porreiro
baseado na Wiki,

chamado Lingua Libre,

onde podemos ir e ajudar a gravar
palavras na nossa língua

que pode ser depois adicionadas
a lexemas na Wikidata,

para que outras pessoas possam entender
como pronunciar as palavras.

(plateia 3) Há alguma ligação para isso?

Se procurarem por "Lingua Libre"...

Tenho a certeza de que alguém pode
publicá-la no nosso canal do Telegram.

Aqueles tipos são os maiores.

Fizeram uma coisa mesmo fixe
com a Wikibase.

Certo.

Então, a questão é,
para onde seguimos daqui?

A julgar pelos números que vos mostrei,

já fizemos um longo caminho

na direção de dar a mais pessoas
mais acesso a mais conhecimento

quando procuram línguas na Wikidata.

Mas ainda há muito trabalho pela frente.

Algumas coisas que podem fazer 
para ajudar, por exemplo,

é organizar maratonas de etiquetagem,

como juntar pessoas
para etiquetar items na Wikidata.

Ou fazer uma maratona de etiquetagem
para lexemas na vossa língua,

para introduzir as palavras mais usadas
na vossa língua na Wikidata.

Ou podem usar uma ferramenta 
como o Terminator,

que vos ajuda a encontrar os itens 
mais importantes na vossa língua

a que ainda falte alguma etiqueta.

Sendo que mais importante é medido
por quantas vezes é usado

em outros items da Wikidata
como ligações ou declarações.

E, claro, para a porção do lexema,

agora que temos uma cobertura básica
desses lexemas,

queremos também construí-los,
adicionar-lhes mais declarações

para que eles possam, realmente, 
construir a base

para construir aplicações significativas 
a partir deles.

Porque estamos a aproximarmo-nos
dessa massa crítica,

mas ainda estamos longe disso,

de podermos construir aplicações
sérias sobre isto.

E espero que todos vocês
se juntem a nós para fazermos isso.

E isso já me leva

a uma pequena ajuda dos nossos amigos.

Bruno, queres vir até aqui

para nos falares 
sobre as máscaras lexicais?

(Bruno) Obrigado, Lydia,

por me cederes este bocadinho de tempo

para apresentar o trabalho
que estamos a fazer na Google

com o Denny, que a maior parte de vocês
já deve ter ouvido falar ou conhece.

Porque na Google-- eu sou linguista,

portanto estou muito feliz de estar aqui
entre outros entusiastas de linguagens--

nós também estamos a construir 
alguns léxicos

e construimos esta tecnologia,

ou esta abordagem, que pensamos 
poderá ser útil para vocês.

Só para vos situar,

isto é a minha experiência
lexicográfica a falar.

Quando criamos bases de dados
de léxico,

é preciso muito tempo para a manter,
mantê-la consistente

e para trocar dados,

como vocês provavelmente sabem.

Houve várias tentativas para unificar
as características e propriedades

que descrevem os lexemas
e as formas.

Ainda não é um problema resolvido,

mas há ainda algumas tentativas 
de unificação nesse sentido.

Mas o que está mesmo a faltar--

e isto é um problema que tivemos
no início do nosso projeto na Google--

é tentar ter uma estrutura interna

que descreva como 
uma entrada lexical se deverá parecer,

que tipo de dados
ou que tipo de informação temos

e a especificação pretendida.

Assim, isto foi o que inventámos,
esta coisa chamada máscara lexical.

Uma máscara lexical descreve
o que é expectável de uma entrada,

de uma entrada lexicográfica, 
para estar completa,

tanto em termos de número de formas
que se esperam de um lexema

como do número de características
que se esperam em cada forma.

Aqui está um exemplo 
para adjetivos italianos.

Seria de esperar, em italiano, termos
quatro formas para os adjetivos

e cada uma dessas formas
ter uma combinação específica

de género e número de características.

Isto é o que esperamos
de adjetivos italianos.

Claro que, podemos ter
máscaras extremamente complexas,

como a conjugação dos verbos em francês,
que é bastante extensa.

E não vos quero mostrar 
nenhuma máscara russa

porque não cabe no ecrã.
(risos)

E também temos especificações
detalhadas,

porque distinguimos
o que está ao nível da forma.

Então, aqui temos nomes russos
que têm três números

e alguns casos 
com diferentes formas.

Mas, eles também têm 
uma especificação de entrada de gama

que diz que o nome em particular tem

um género inerente e uma característica 
de animação inerente

que também são especificados na máscara.

Também queremos salientar
que uma máscara fornece uma especificação

para qual deve ser
o aspeto de uma entrada.

Mas, podemos ter máscaras mais pequenas,
para aspetos defeituosos da forma

ou aspetos defeituosos do lexema
que acontecem na linguagem.

Aqui podem ver a forma mais simples
dos verbos franceses

que só têm a terceira pessoa do singular
para todos os verbos metereológicos,

como "chove" ou "neva",
em português.

Distinguimos estes dois níveis.

E como é que usamos isto na Google?

Quando temos um léxico
que queremos usar,

usamos a máscara para
literalmente atirar os léxicos,

todas as entradas, através da máscara

e ver que entrada tem problemas
em termos de estrutura.

Está a faltar uma forma?
Falta uma característica?

E, quando surge um problema,
fazemos validação humana

ou só para ver se passa na máscara.

É uma ferramenta extremamente poderosa 
para conferir a qualidade da estrutura.

Portanto, estamos felizes em anunciar hoje

que recebemos luz verde 
para disponibilizarmos o código fonte.

Portanto este é o esquema.

Se quiserem isto, podemos lançar

e pode ser providenciado
à Wikidata em ficheiros ShEx.

Este é o ficheiro ShEx para nomes 
em alemão,

e o Denny está a trabalhar na conversão
da nossa especificação interna

para uma mais de código aberto.

Atualmente temos mais de 25 linguagens,

portanto esperamos crescer do nosso lado,

mas também fazer disto uma oportunidade 
para colaborar noutras línguas.

E uma dessas colaborações 
é a que o Denny tem com o Lukas.

O Lukas tem umas ferramentas ótimas 
para ter uma interface com o utilizador

que ajuda o utilizador ou contribuidor
a adicionar mais formas.

Portanto, se quiserem adicionar
um adjetivo em francês,

a interface diz-vos
quantas formas são expetáveis

e e quantas características
essa forma deverá ter.

Então a nossa máscara ajudará a ferramenta
a ser definida e expandida.

É isto.

(Lydia) Muito obrigado.

(aplausos)

Certo. Há questões?

Querem falar mais sobre os lexemas?

- (plateia 4) Sim.
- Sim. (risos)

(plateia 4) A minha questão,
porque estava a falar

acerca de dar mais acesso
a mais pessoas em mais línguas,

mas há muitas línguas 
que não podem ser usadas na Wikidata.

Então que solução é que têm para isso?

Quando diz que não podem ser usadas,

está a referir-se à entrada de etiquetas?

- (plateia 4) Etiquetas, descrições.
- Certo.

Para lexemas, é um pouco diferente

porque aí não temos 
essa restrição.

Para etiquetas nos itens e propriedades,
há realmente alguma restrição

porque quisemos ter a certeza
que não é completamente--

qualquer um faz o que quiser

e torna-se ingerível.

Até uma comunidade pequena que queira
uma língua e que queira trabalhar nisso:

venham ter connosco e fazemos acontecer.

(plateia 4) Nós fizemos isso
no <i>Hackathon</i> de Praga em Maio

e demorou quase até Agosto
até conseguirmos usar a nossa linguagem.

- Sim.
- (plateia 4) Portanto, é muito lento.

Sim, infelizmente é muito lento.

Estamos a trabalhar
com o Comité de Linguagem

a tentar resolver os mais básicos...

Ter o acordo sobre que tipo 
de linguagens são realmente "permitidas"

e isso tem demorado tempo demais,

o que pode ser a razão para o vosso pedido
ter demorado mais do que devia.

(plateia 4) Obrigada.

(plateia 5) Obrigado.

Lydia, se se lembra das estatísticas
que mostrou,

o número de lexemas por linguagem.
- Sim.

(plateia 5) Então, contaram todos 
as formas como pontos de dados

ou apenas os lexemas?

(Lydia) Está a falar disto?

A qual é que se refere?

(plateia 5) Sim, exatamente.

Se se lembrar, este número é [inaudível]

todas as formas, todos os lexemas
ou apenas quantos lexemas há?

Não, isto é apenas o número de lexemas.

(plateia 5) Só o número de lexemas.

Então é apenas uma estatística

porque, se depois
contássemos com as formas--

por isso pergunto--

então, todas as línguas
com morfologia de inflexão,

como russo, sérvio,
esloveno, etc,

têm uma vantagem natural,
porque têm tantas.

Daí, este tipo de saltos aqui
no número de formulários.

(plateia 5) Sim, era esse mesmo.
Obrigado.

(plateia 6) Tenho só uma 
pergunta rápida acerca de...

Quando estávamos a falar sobre 
os itens e propriedades.

Até onde eu consigo entender,
não há, atualmente, forma

de dar uma fonte definida
a qualquer das etiquetas

e descrições que foram dadas.
- Sim.

(plateia 6) Então, não há nada
porque, quando estás a falar

acerca de uma propriedade de um item,

podes ter, por exemplo,
etiquetas conflituosas.

- Sim.
- (Plateia 6) Então, esta pessoa é como...

Falamos à pouco sobre 
coisas indígenas, por exemplo.

Então esta pessoa é um artista norueguês,
de acordo com uma fonte,

e um artista sami,
de acordo com outra fonte.

Ou, por exemplo, em estoniano,
tivemos um problema

onde tivemos que mudar uma terminologia
para a terminologia oficial usada

nos léxicos oficiais.

Mas não temos realmente 
uma forma de indicar porquê.

Qual foi a fonte disto

e por que razão isto está melhor
do que estava.

Fui apenas eu, como uma pessoa
ao acaso,

a mudar isto 
para quem quer que o veja.

Então, há um plano
para isto ser possível de qualquer forma,

de modo a que possamos realmente ter
fontes confiáveis para dados de linguagem?

Isso é parcialmente possível.

Por exemplo, quando há
um item para uma pessoa,

pode ter as declarações: primeiro nome,
último nome, e por aí em diante.

E, nessa altura, pode-se providenciar
referências para isso.

Tenho algumas reticências em 
adicionar mais complexidade

para referências 
em etiquetas e descrições,

mas se as pessoas realmente pensam

que isto é algo que não está coberto
por qualquer referência na declaração,

então falamos sobre isso.

Mas temo que 
vá adicionar muita complexidade

para o que espero serem poucos casos.

Mas estou disposta 
a ser convencida do contrário

se as pessoas realmente sentem
que isto tem relevãncia.

(plateia 6) Se for adicionado
provavelmente não deveria ser o padrão,

mostrado a todos os utilizadores 
iniciados na interface, em todos os casos.

Podia ser mais, "Clica aqui se queres 
adicionar algo específico sobre isto."

Temos alguma ideia de quantas vezes
isso teria importância?

(plateia 6) Em estónio, por exemplo--

eu imagino que seja assim
noutras línguas também--

por exemplo, há um nome oficial
que é a legítima tradução

para inglês de,

digamos, um tipo específico 
de municipalidade.

Este foi o meu caso
de utilizador, por exemplo,

onde estávamos a usar a palavra "paróquia"

na qual a palavra estónia original
significava paróquia de igreja

e essa foi a sua origem,

mas não é agora a tradução oficial 
que a Estónia recebe atualmente.

Neste caso, eu juntaria-a apenas como 
declarações de nome oficial

e juntaria a referência aí.

(plateia 6) Certo.

Mais questões, sim?

(Asaf) Dois comentários rápidos.

Falou especificamente do asturiano
como uma linguagem que está em alta

e eu acho que isso é falso.

Conte-me.

(Asaf) Eu penso que é apenas um bot

que colou nomes de pessoas,
nomes apropriados para pessoas,

e disse "Bem, isto é exatamente 
como em francês ou espanhol"

e copiou-o massivamente.

Uma prova é que 
não se vê essa energia no asturiano,

em coisas que realmente requerem tradução,
como nomes de propriedades,

ou nomes de itens 
que não são nomes próprios.

Asaf, partes-me o coração.

(Asaf) Eu sei, 
costumo estragar as festas,

mas tenho boas notícias também,
sobre os números das pronunciações.

Como saberão, o <i>Commons</i> está cheio
de ficheiros de pronunciação

e, por exemplo,

o holandês tem, nada mais nada menos, que
300 000 ficheiros desses introduzidos

que necessitam de ser "ingeridos"
de alguma forma.

Então, se alguém está à procura
de um projeto para as horas vagas,

há imensos

ficheiros de pronunciação, classificados 
e categorizados no <i>Commons</i>

na categoria "Pronunciação" por linguagem.

Estão à espera de ser combinados 
com os lexemas e postos no lexema.

E estava a pensar 
se me poderia dizer alguma coisa

sobre o quadro referência,

algo sobre quanto investimento

ou o que podemos esperar
relativo ao lexema no próximo ano,

porque eu, pessoalmente, 
mal posso esperar.

Não pode? (risos)

- (Asaf) Por mais.
- Sim. (risos)

Penso que ...

Neste momento, estamos concentrados
mais na Wikibase e na qualidade de dados

para ver quanta tração isto tem

e para obter mais para descobrir
onde os próximos pontos críticos estão

e depois voltar atrás e melhorar
mais os dados lexicográficos.

E uma das coisas 
que adoraria ouvir de vocês

é onde exatamente vocês vêm
que poderão ser dados os próximos passos,

onde querem melhorias

para que nós possamos descobrir
como fazer isso acontecer.

Mas claro que está certo,

ainda há muito a fazer
também do lado técnico.

(plateia 7) Ao carregarmos
as palavras bascas com formas,

e verão alguns destes tipos de coisas,
estávamos todos...

Na semana passada
dissemos "Somos os primeiros em algo."

[inaudível]

Apareceu na imprensa e foi tipo:

"O basco foi o primeiro em algo,
foram os primeiros."

(risos)

E depois as pessoas perguntaram
"Mas para que serve isto?"

Nós não temos uma boa resposta.

Quer dizer, certo,

isto vai ajudar computadores
a entender mais a nossa linguagem, sim.

Mas que tipo de ferramentas
podemos fazer no futuro?

E ainda não temos uma boa resposta.

Portanto eu não sei
se vocês têm uma boa resposta para isto.

(risos) Eu não sei 
se eu tenho uma boa resposta,

mas tenho uma resposta.

Então, eu penso, neste momento,
como estava a dizer [inaudível],

que ainda não chegámos à massa crítica

onde podemos construir um monte 
de ferramentas realmente interessantes.

Mas já existem algumas ferramentas.

No outro dia,
a Esther Pandalia, por exemplo,

lançou uma ferramenta onde podemos ver,

penso que eram as palavras num globo,

onde eram faladas,
de onde tinham vindo.

Posso estar errada sobre isto.

Mas ela respondeu no chat 
do projeto na Wikidata.

Podem vê-lo ali.

Então já vimos as primeiras ferramentas,

tal como já vimos, no passado,
quando a Wikidata começou.

Primeiro algumas... Como uma rede

e depois "Olha, há aqui esta coisa 
que liga a esta outra coisa."

E à medida que temos mais dados

e chegamos mais perto da massa crítica,

tornam-se possíveis
aplicações mais poderosas.

Coisas como a Histropedia,

coisas como perguntas e respostas

no vosso assistente pessoal digital,
Platypus e assim por diante.

E estamos a ver 
coisas semelhantes com os lexemas.

Estamos num estágio em que
podemos construir estes pequenos:

"Olha, há uma ligação 
entre duas coisas

e há uma tradução dessa palavra
para esse estágio de linguagem."

E, à medida que construimos
e à medida que descrevemos mais palavras,

mais se torna possível.

Agora, o que é que isso torna possível?

Como o Ben, o nosso orador de antes,
estava a dizer acerca de traduções,

ser capaz de traduzir
de uma língua para outra.

E Jens, outro colega, 
que está sempre a falar sobre

a União Europeia 
andar sempre à procura de um tradutor

que possa fazê-lo de,
penso que era maltês para sueco.

- (plateia 8) Estónio.
- Estónio.

(risos)

E essa não é uma combinação usual.

Mas assim que temos todas essas linguagens
num lugar passível de ser lido por máquina

podemos fazer isso.

Podemos obter um dicionário

de estónio para maltês e vice-versa.

Então, incluir combinações
de linguagens em dicionários

que não foram incluídas antes

porque não havia 
procura suficiente para elas, por exemplo,

para fazê-lo de forma financeiramente
viável e para justificar o trabalho.

Agora podemos fazer isso.

E depois a geração de texto.

A Lucie estava a falar

acerca de como ela está a trabalhar
com a Hattie em gerar textos

para iniciar artigos na Wikipedia
em línguas minoritárias.

Isso precisa de dados sobre palavras

e precisamos perceber a língua
para fazer isso.

Sim, e isto é só
o que me vem à cabeça agora.

Talvez a nossa audiência tenha mais ideias

do que querem fazer quando tivermos 
todos esses gloriosos dados.

(plateia 9) Vou-nos desviar 
do tópico dos lexemas.

Quero perguntar-vos algo.

Como posso eu, como membro da comunidade

influenciar que a prioridade 
seja colocada na tarefa,

que um utilizador novo venha, e possa 
indicar que línguas quer ver e editar

sem um qualquer conhecimento padrão
verbal secreto.

Talvez haja, este ano,
uma lista técnica de desejos

sem tópicos da Wikipedia.

Talvez haja esperança
de que possamos votar acerca

daquela coisa 
que não arranjamos há sete anos.

Tem alguma ideia 
ou comentário sobre isso?

Então, está a falar sobre o facto

de alguém que não esteja ligado 
à Wikidata

não poder mudar
a sua linguagem facilmente?

(plateia 9) Não, para novos utilizadores.

Então, se estiverem ligados,

eles podem mudar a sua língua 
no topo da página.

Depois, aparece onde...

onde as descrições das etiquetas estão

e podem editá-las.

(plateia 9) Bem, na verdade, muitas vezes
o fluxo de trabalho é,

se queremos ter 
múltiplas línguas elas estão disponíveis,

e nem sempre acontece.

Talvez devamos sentar-nos
depois desta apresentação e mostra-me.

Fixe. Mais questões?

Sim.

(plateia 10) Obrigado pela apresentação.

Pode comentar

acerca do estado da correlação 
com a comunidade do Wiktionary.

Do que eu tenho conseguido ver,
tem havido algumas discussões

acerca de importar 
alguns elementos do trabalho,

mas parece haver algumas questões 
de licenciamento e desentendimentos, etc.

Certo.

Então, as comunidades do Wiktionary
passaram muito tempo

a construir o Wiktionary.

Construiram

padrões extremamente complicados
e complexos

para construir as bonitas tabelas 
que geram formulários para vocês

e é tudo realmente impressionante,

e um pouco louco,
se pensarmos bem nisso.

E, é claro, investiram 
muito tempo e esforço a fazê-lo.

E, compreensivelmente,

não querem que isso seja agarrado

de qualquer maneira.

Então, há um pouco disso, vindo daí.

E está certo, tudo bem.

Agora, as primeiras comunidades Wiktionary
estão a falar de mudar isso

e importar alguns 
dos dados deles para a Wikidata.

O russo, por exemplo, como já viram,
é um desses casos

e espero que mais aconteçam.

Mas vai ser um processo lento,

tal como a adopção
dos dados da Wikidata pela Wikipedia

está a ser um processo bem lento.

O outro lado é tentar que seja mais fácil

usar os dados que estão nos lexemas,

no Wiktionary, para que 
possam fazer uso deles

e partilhar dados entre 
as Wiktionaries de linguagens.

O que é super difícil neste momento,

o que é de doidos,
tal como foi na Wikipedia.

Esperem pelo presente de aniversário. 
(risos)

Sim.

(plateia 11) Quando estava a pensar 
sobre a outra forma,

eu, na verdade, não o quis dizer
porque penso que pode ser super tolo.

Mas acho que o Wiktionary 
já tem algum conteúdo

e eu sei que 
não pode ser transferido para a Wikidata

por causa das diferenças de licenças.

Mas estava a pensar que talvez
possamos fazer algo acerca disso.

Talvez obter permissão das comunidades

depois de, não sei,
haver uma votação pública

de forma a que comunidade, 
os seus membros ativos,

votem e digam se querem 
ou não aceitar a transferência de conteúdo

para a qual podem fazer
os lexemas da Wikidata.

Porque penso que é um desperdício.

Então, isso é definitivamente 
uma conversa que essas pessoas,

que estão nas comunidades Wiktionary,
podem ter lá.

Penso que seria um pouco presunçoso
da nossa parte forçarmos isso.

Mas sim, penso que, definitivamente,
vale a pena ter essa conversa.

Mas eu penso que também
é importante entender

que há uma distinção entre 
o que é legalmente permitido

e o que devíamos estar a fazer

e o que as essas pessoas querem ou não.

Portanto, mesmo se for legal,

se algumas das comunidades Wiktionary
não o quiserem,

eu teria cuidado, no mínimo.

Penso que precisamos do microfone
para o vídeo.

(plateia 12) Obviamente,
isto é tudo muito excitante

e penso imediatamente em como 
levar isto aos meus estudantes,

como posso incorporar isto nos cursos,

no trabalho que estamos a fazer,
ambientes educacionais.

E não tenho, neste momento,

primeiro, conhecimento,

mas acho que a documentação
que temos

pode ser melhorada.

Portanto, isto é um pedido
para fazerem vídeos fixes

que expliquem como funciona.

Porque, se os tivermos, podemos usá-los,

podemos ter estudantes a bordo

e podemos fazer as pessoas entender
quão espetacular é.

Sim, pensem na documentação
e pensem na educação, por favor.

Porque penso que muito pode ser feito.

Estas são pequenas tarefas
que podem ser feitas mesmo com...

bem, não direi escolas primárias,

mas certamente até com estudantes jovens.

E, portanto, gostaria mesmo de ver
esse potencial a ser aproveitado

e, neste momento, eu, pessoalmente,
não entendo o suficiente

para conseguir criar tarefas
ou para criar tipo...

para fazer algo prático com isto.

Portanto, qualquer ajuda, ideias 
que alguém tenha acerca disso,

estou completamente disponível para ouvir
tudo o que tenham em mente.

Sim, vamos falar sobre isso.

Mais questões?

Mais alguém tinha levantado a mão.

Esqueci-me de quem foi.

(plateia 13) Então, se não conseguimos 
importar a partir do Wiktionary,

há algum esforço concertado para 
achar outras fontes de domínio público,

talvez dados mais antigos,

e filtrá-los previamente, organizá-los

para que seja fácil a sua verificação,
por pessoas, para importação?

Então, foram feitos esforços iniciais.

Penso que o basco é um desses esforços.

Talvez queiras dizer
algo sobre isso?

(plateia 14) [inaudível]

Certo, a resposta é 
pagando por isso...

Temos um acordo
com um fornecedor com quem trabalhamos.

Eles fazem dicionários, outros...

montes de coisas, mas fazem dicionários.

Temos um acordo com eles para
tornar grátis os dicionários estudantis.

Nós transmitiríamos as palavras 
mais comuns e começaríamos a carregá-las

com um identificador externo
e esse tipo de coisas.

Mas houve alguma discussão 
acerca de deixá-lo no CC0,

porque eles têm 
um dicionário com CC por ele,

e perceberam qual era a diferença.

Portanto, houve alguma discussão.

Mas penso que podemos providenciar algumas
ferramentas ou exemplos, no futuro,

e penso que haverá outros dicionários

que podemos gerir.

E também penso que o Wiktionary
deveria ir nessa direção,

mas isso é outra grande discussão.

E, para além disso,

a Lea está também em contacto
com pessoas da Occitan,

que trabalham nos dicionários Occitan,

e eles estão atualmente a trabalhar
numa colaboração suméria.

Mais questões?

(plateia 15) Olá. Nós somos as pessoas
que querem importar dados da Occitan.

Perfeito!

(plateia 15) E temos
um pequeno problema para...

Nós não sabemos como representar 
toda a variedade de lexemas.

Temos seis dialetos

e queremos indicar, para o lexema,
em que dialeto é usado

e não temos a declaração CO
apropriada para isso.

Portanto, enquanto o segmento não existir,

não conseguimos [inaudível]

porque vamos precisar de fazê-lo outra vez

quando estivermos em condições
de exportar a declaração.

E é complicado 
porque é uma declaração

que não vai ser pedida por muita gente

porque é uma declaração que diz respeito
principalmente a línguas minoritárias.

Então teremos uma pessoa a pedir isto.

Mas, como no caso
dos nossos colegas Bascos,

pode ser uma pessoa 
que ajudará milhares de outros.

Portanto, pode não parecer importante,

mas será muito importante para nós.

Vocês já têm a nova proposta 
de propriedade a funcionar,

ou precisam de ajuda para criá-la?

(plateia 15) Fizemos o pedido
há quatro meses.

Certo, então vamos arranjar pessoal
para ajudar com essa proposta.

De certeza que há pessoas suficentes
nesta sala para isso se realizar.

(plateia 15) Proposta de propriedade
[em francês].

Nós não tivemos resposta
e não sabemos fazê-lo

porque não somos da comunidade Wikidata.

Sim, então há aqui pessoas
que vos podem ajudar.

Talvez alguém levante a mão 
para ficar...

(plateia 14) Sou a favor.

Mas penso que é muito interessante

que apenas a variante de forma

também o possa gerir geograficamente,

com coordenadas 
ou algum tipo de mapeamento.

Também tendo diferentes pronúncias

e penso que é algo
que acontece em muitas línguas.

Deveríamos trabalhar para isso
acontecer de alguma forma

e eu vou procurar a propriedade.

Fixe.

Então, vocês terão apoio
para a vossa proposta de propriedade.

Obrigado.

Mais alguma questão?

Finn.

O Finn é uma daquelas pessoas

que constrói coisas
tendo como base dados lexicográficos.

(Finn) É só uma pequena questão,

e é sobre variações de ortografia.

Parece difícil pô-las em...

Poderíamos, claro,
ter múltiplas formas para a mesma palavra.

Não sei, parece ser...

Se não o fizeres dessa forma,
parece ser difícil especificar...

ou, não sei se

é apenas um problema técnico menor
ou se...

Vamos olhar para isso juntos.

Adoraria ver um exemplo.

Asaf.

(Asaf) Obrigado.

Posso dar um exemplo concreto
da minha língua, o hebreu.

O Hebreu tem duas variantes principais

para expressar quase todas as palavras,

porque a ortografia tradicional

deixa de parte muitas vogais.

E, assim sendo, nas edições modernas
da Bíblia e de poesia,

são usados os diacríticos.

Por outro lado, os diacríticos
nunca são usados na prosa moderna

ou imprensa escrita ou toponímia.

Então, a utilização casual diária
usa as vogais extra

e não usa os diacríticos.

Porque eles são,
obviamente, mais complicados

e têm todo o tipo de regras
e ninguém sabe as regras.

- (risos)
- Então, há duas variantes.

Há a variante casual para prosa

e há a da Bíblia e da poesia.

que vem sempre 
no tradicional texto diacriticizado.

Para ser útil,

o lexema teria que reconhecer 
ambas as variantes de cada palavra

e cada forma
de cada palavra.

Portanto, esse é um caso de utilização
muito abrangente

para variantes oficiais estáveis.

Não é dialeto, não é regional,

são, basicamente, dois sistemas
morfológicos coexistentes.

E eu também não sei exatamente
como expressar isso no lexema, agora,

o que é uma das coisas que me impede,
em resposta parcial à pergunta do Magnus,

de carregar as partes que estão prontas

do maior dicionário Hebreu,
que é de domínio público

e que tenho andar a digitalizar
há vários anos.

Uma grande porção está pronta,

mas não o ponho no lexema agora

porque, basicamente, não sei
como resolver este problema.

Está bem, vamos resolver 
este problema aqui. (risos)

Tem de ser possível.

Mais perguntas?

Se não, então muito obrigada.

(aplausos)