(Lydia) Muito obrigada.
Então, nesta conferência,
um dos grandes temas são as linguagens.
Então...
Quero dar-vos uma visão geral
de onde estamos atualmente
no que diz respeito a linguagens
e para onde podemos ir daqui.
A Wikidada pretende dar a mais pessoas
mais acesso a mais conhecimento
e a linguagem é uma parte muito importante
para tornar isso realidade.
Especialmente, porque cada vez mais
as nossas vidas dependem da tecnologia.
E, como um dos palestrantes
mencionou há pouco,
alguma da tecnologia
deixa as pessoas para trás
simplesmente porque
não falam determinada linguagem,
o que não está correto.
Então, nós queremos fazer algo
em relação a isso.
E, de forma a mudar isso,
precisamos de pelos menos duas coisas.
Primeiro, providenciar conteúdo
na língua nativa das pessoas
e, segundo,
providenciar
interação na sua língua,
nas aplicações
ou seja no que for que tenham.
A Wikidata ajuda em ambas as coisas.
Em relação à primeira,
conteúdo na sua língua,
isso é basicamente o que temos
nos itens e propriedades,
como descrevemos o mundo.
Isto não é, certamente,
tudo o que é preciso,
mas já dá uma ajuda considerável.
A outra coisa,
interação na sua língua,
é onde os lexemas entram em jogo
se quiserem falar
com o vosso assistente pessoal digital,
ou se quiserem que o vosso dispositivo
traduza um texto e afins.
Tudo bem, vamos olhar para
conteúdo na sua língua.
O que temos em itens e propriedades?
Para isto, as etiquetas nesses itens
e propriedades são cruciais.
Precisamos de saber como se chama
esta entidade de que estamos a falar.
E, em vez de falarmos sobre Q5...
Alguém que fale inglês
sabe que isso é um "humano",
alguém que fale alemão
sabe que é um "mensch",
e por aí adiante.
Então, estas etiquetas
nos itens e propriedades
estão a fechar as brechas
entre humanos e máquinas
e entre humanos e humanos.
Fazendo com que mais conhecimento
esteja acessível para eles.
Isso é um bom objetivo.
Mas qual é o aspeto disso?
Bem, é este.
O que estão a ver aqui
é que a maioria dos items
na Wikidata tem duas etiquetas,
portanto, são etiquetados em duas línguas.
Depois disso, é um, e depois três
e depois fica muito triste.
(riso tímido)
Eu penso que temos que fazer melhor.
Mas, por outro lado,
eu, na verdade, estava à espera
de muito pior.
Estava à espera que a média fosse um.
Portanto, fiquei
bastante contente em ver dois. (risos)
Certo.
Mas, o interessante não é só saber
quantas etiquetas os nossos items
e propriedades têm,
também é interessante ver
em que línguas.
Aqui têm um gráfico das línguas
que têm etiquetas para itens.
A maior parte é Outra.
Então, peguei nas 100 maiores línguas
e tudo o resto são Outras,
para que o gráfico se perceba.
Depois, há inglês e holandês,
francês,
e não nos esqueçamos do... asturiano.
- (plateia 1) (grito de entusiasmo)
- De facto!
Então, podem ver que há aqui
um considerável desequilíbrio
e o foco ainda se mantém muito no inglês.
Outra coisa que notamos
é que nas Propriedades,
as coisas estão bem melhores.
E penso que, em parte, isso deve-se
a haver muito menos propriedades.
Então, mesmo comunidades menores
têm hipótese de se manter a par.
Mas também é uma parte importante
da Wikidata,
a localização na tua própria língua.
Portanto, isso é bom.
O que quero salientar aqui
com o asturiano
é que uma comunidade pequena
pode realmente fazer uma enorme diferença
com alguma dedicação e trabalho,
o que é muito fixe.
Uma pequena pergunta para vocês.
Se pegarmos em todas as propriedades
na Wikidata,
que não são indentificadores externos,
qual é o que tem mais etiquetas,
o maior número de linguagens?
(plateia) [inaudível]
Ouço algum acordo em instância de?
Estariam errados.
É imagem. (risos)
Então, sim, isso diz-vos,
se falarem uma destas línguas
nas quais instância de
ainda não tem etiqueta,
que poderão querer adicioná-la.
Tem, neste momento, 148 etiquetas.
Mas isso é outro slide.
Este gráfico diz-nos algo
sobre quanto conteúdo estamos a tornar
disponível numa certa língua
e quanto conteúdo
é realmente utilizado.
Então, o que temos aqui
é basicamente uma curva
com a maior parte do conteúdo com
etiquetas em inglês, disponível em inglês
e a ser muito usado.
E depois, isto meio que baixa.
Mas, novamente, o que podem ver
são os valores atípicos
que têm muito mais conteúdo
do que seria de esperar
e isso é mesmo muito bom.
O problema é que não é tão utilizado.
Asturiano e holandês
deveriam ser mais altos.
Acho que, ajudar essas comunidades
a aumentar o uso
dos dados que coletaram,
é uma coisa realmente útil de se fazer.
O que esta análise e outras
nos mostraram é uma coisa boa,
embora estejamos a ver que os itens
que são mais utilizados
também tendem a ter mais etiquetas
ou ao contrário.
Não é completamente claro.
E então, a questão é:
estamos a servir
apenas as linguagens poderosas?
Ou conseguimos fazê-lo para todos?
O que vêm aqui
é um agrupamento das linguagens.
As linguagens que estão agrupadas
tendem a ter etiquetas juntas.
E conseguimos vê-las a aglomerarem-se.
Agora, temos aqui
um aglomerado similar, colorido,
baseado em quão viva, quão usada,
quão ameaçada a linguagem está.
E uma coisa boa que vemos aqui,
é que linguagens seguras
e ameaçadas
não formam dois aglomerados diferentes.
Elas misturam-se,
o que é muito melhor do que seria
se fosse ao contrário
onde as linguagens seguras,
as linguagens poderosas,
estariam apenas a ajudar-se entre elas.
Não, não é esse o caso.
E isso é uma coisa ótima.
Quando vi isto,
pensei que isto era muito bom.
Aqui está uma coisa similar,
onde olhamos para
os estados das linguagens,
para quantas etiquetas têm.
O que estão a ver é uma clara vantagem
para as linguagens seguras,
como seria de esperar.
Mas também estão a ver
que as linguagens na categoria dois,
e três e até mesmo quatro
não estão, na verdade, nada mal
em termos de representação
na Wikidata e em outros.
É uma coisa muito boa de se encontrar.
Agora, se olharmos para a mesma coisa
para quanto do conteúdo
dessas etiquetas
é atualmente usado
na Wikipedia, por exemplo,
emerge uma imagem semelhante.
E diz-nos que estas comunidades
estão a fazer um bom uso do tempo
preenchendo as etiquetas
para os itens mais usados, por exemplo.
Há valores atípicos
onde penso que podemos ajudar...
Ajudar as comunidades a encontrar sítios
onde o seu trabalho será mais valioso.
Mas, no geral, estou contente
com este panorama.
Agora, isto foram os itens
e as propriedades da Wikidata.
Agora vamos olhar para a interação
nas vossas línguas.
Portanto as porções do lexema
da Wikidata
onde nós descrevemos palavras
e as suas formas e significados.
Andamos a fazer isso
desde Maio do ano passado
e o conteúdo tem aumentado.
Podem ver aqui em azul os lexemas
e a vermelho,
as formas nesses lexemas
e a amarelo, os sentidos
nesses lexemas.
Então algumas comunidades--
já voltaremos a isso mais tarde--
dispenderam muito tempo a criar formas
e sentidos para os seus lexemas,
o que é muito útil
porque constrói o núcleo
dos conjuntos de dados que precisamos.
Agora, olhamos para todas as línguas
que têm lexemas na Wikidata.
Portanto, palavras que nós temos.
Há, agora, 310 línguas.
Agora, qual é que acham que é
a língua que está no topo
quando falamos em número de lexemas
neste momento na Wikidata?
(Plateia) [inaudível]
O quê?
(Plateia 2) Alemão.
Desculpe, já o tinha ouvido antes.
É Russo.
O Russo está bastante à frente.
E, para vos dar alguma perspetiva,
há diferentes opiniões
mas li, por exemplo,
que entre 1 000 e 3 000 palavras
chegam para chegar
ao nível conversacional noutra língua
e que entre 4 000 a 10 000 palavras
chegam para o nível avançado.
Então, ainda temos um pouco
para pôr em dia.
Uma coisa à qual quero
que prestem atenção é ao basco
com, aproximadamente, 10 000 lexemas.
Agora, se olharem para o número de formas
nesses lexemas,
o basco está lá em cima,
o que é bastante fixe.
Deviam ir a uma palestra que vos explique
o porquê desta situação.
Agora, olhando para o número de sentidos,
para o que as palavras querem dizer,
o basco chega mesmo ao topo da lista.
Eu acho que merece um aplauso.
(aplausos)
Outra pequena pergunta.
Qual é o lexema com o maior número
de traduções neste momento?
(Plateia) Gatos, gatos, [inaudível],
Douglas Adams, [inaudível].
Todos bons palpites, mas não.
É esta, a palavra para "água", em russo.
Já falámos muito
sobre quantos lexemas,
formas e sentidos temos,
mas isso é apenas uma parte
do que precisamos.
A outra parte
é descrever os lexemas,
formas e sentidos,
de uma forma que as máquinas possam ler.
E para isso temos declarações,
tal como nos itens.
E uma das propriedades
que usamos é o exemplo de utilização.
Portanto quem quer que esteja
a usar os dados
pode entender como usar
a palavra no contexto,
pode ser uma citação, por exemplo.
E aqui, o polaco reina.
Bom trabalho falantes de polaco.
Outra propriedade
que é mesmo útil é IPA,
logo, como é que se pronuncia uma palavra.
O russo, aparentemente, precisa
imenso de declarações IPA.
Mas, novamente, polaco em segundo.
E, por último, mas não menos importante,
temos a pronunciação áudio.
Isto corresponde a ligações
a ficheiros nos Commons
onde alguém diz a palavra,
de forma a que possamos ouvir
como um nativo a pronuncia
para o caso de não conseguires ler IPA,
por exemplo.
E há um projeto muito porreiro
baseado na Wiki,
chamado Lingua Libre,
onde podemos ir e ajudar a gravar
palavras na nossa língua
que pode ser depois adicionadas
a lexemas na Wikidata,
para que outras pessoas possam entender
como pronunciar as palavras.
(plateia 3) Há alguma ligação para isso?
Se procurarem por "Lingua Libre"...
Tenho a certeza de que alguém pode
publicá-la no nosso canal do Telegram.
Aqueles tipos são os maiores.
Fizeram uma coisa mesmo fixe
com a Wikibase.
Certo.
Então, a questão é,
para onde seguimos daqui?
A julgar pelos números que vos mostrei,
já fizemos um longo caminho
na direção de dar a mais pessoas
mais acesso a mais conhecimento
quando procuram línguas na Wikidata.
Mas ainda há muito trabalho pela frente.
Algumas coisas que podem fazer
para ajudar, por exemplo,
é organizar maratonas de etiquetagem,
como juntar pessoas
para etiquetar items na Wikidata.
Ou fazer uma maratona de etiquetagem
para lexemas na vossa língua,
para introduzir as palavras mais usadas
na vossa língua na Wikidata.
Ou podem usar uma ferramenta
como o Terminator,
que vos ajuda a encontrar os itens
mais importantes na vossa língua
a que ainda falte alguma etiqueta.
Sendo que mais importante é medido
por quantas vezes é usado
em outros items da Wikidata
como ligações ou declarações.
E, claro, para a porção do lexema,
agora que temos uma cobertura básica
desses lexemas,
queremos também construí-los,
adicionar-lhes mais declarações
para que eles possam, realmente,
construir a base
para construir aplicações significativas
a partir deles.
Porque estamos a aproximarmo-nos
dessa massa crítica,
mas ainda estamos longe disso,
de podermos construir aplicações
sérias sobre isto.
E espero que todos vocês
se juntem a nós para fazermos isso.
E isso já me leva
a uma pequena ajuda dos nossos amigos.
Bruno, queres vir até aqui
para nos falares
sobre as máscaras lexicais?
(Bruno) Obrigado, Lydia,
por me cederes este bocadinho de tempo
para apresentar o trabalho
que estamos a fazer na Google
com o Denny, que a maior parte de vocês
já deve ter ouvido falar ou conhece.
Porque na Google-- eu sou linguista,
portanto estou muito feliz de estar aqui
entre outros entusiastas de linguagens--
nós também estamos a construir
alguns léxicos
e construimos esta tecnologia,
ou esta abordagem, que pensamos
poderá ser útil para vocês.
Só para vos situar,
isto é a minha experiência
lexicográfica a falar.
Quando criamos bases de dados
de léxico,
é preciso muito tempo para a manter,
mantê-la consistente
e para trocar dados,
como vocês provavelmente sabem.
Houve várias tentativas para unificar
as características e propriedades
que descrevem os lexemas
e as formas.
Ainda não é um problema resolvido,
mas há ainda algumas tentativas
de unificação nesse sentido.
Mas o que está mesmo a faltar--
e isto é um problema que tivemos
no início do nosso projeto na Google--
é tentar ter uma estrutura interna
que descreva como
uma entrada lexical se deverá parecer,
que tipo de dados
ou que tipo de informação temos
e a especificação pretendida.
Assim, isto foi o que inventámos,
esta coisa chamada máscara lexical.
Uma máscara lexical descreve
o que é expectável de uma entrada,
de uma entrada lexicográfica,
para estar completa,
tanto em termos de número de formas
que se esperam de um lexema
como do número de características
que se esperam em cada forma.
Aqui está um exemplo
para adjetivos italianos.
Seria de esperar, em italiano, termos
quatro formas para os adjetivos
e cada uma dessas formas
ter uma combinação específica
de género e número de características.
Isto é o que esperamos
de adjetivos italianos.
Claro que, podemos ter
máscaras extremamente complexas,
como a conjugação dos verbos em francês,
que é bastante extensa.
E não vos quero mostrar
nenhuma máscara russa
porque não cabe no ecrã.
(risos)
E também temos especificações
detalhadas,
porque distinguimos
o que está ao nível da forma.
Então, aqui temos nomes russos
que têm três números
e alguns casos
com diferentes formas.
Mas, eles também têm
uma especificação de entrada de gama
que diz que o nome em particular tem
um género inerente e uma característica
de animação inerente
que também são especificados na máscara.
Também queremos salientar
que uma máscara fornece uma especificação
para qual deve ser
o aspeto de uma entrada.
Mas, podemos ter máscaras mais pequenas,
para aspetos defeituosos da forma
ou aspetos defeituosos do lexema
que acontecem na linguagem.
Aqui podem ver a forma mais simples
dos verbos franceses
que só têm a terceira pessoa do singular
para todos os verbos metereológicos,
como "chove" ou "neva",
em português.
Distinguimos estes dois níveis.
E como é que usamos isto na Google?
Quando temos um léxico
que queremos usar,
usamos a máscara para
literalmente atirar os léxicos,
todas as entradas, através da máscara
e ver que entrada tem problemas
em termos de estrutura.
Está a faltar uma forma?
Falta uma característica?
E, quando surge um problema,
fazemos validação humana
ou só para ver se passa na máscara.
É uma ferramenta extremamente poderosa
para conferir a qualidade da estrutura.
Portanto, estamos felizes em anunciar hoje
que recebemos luz verde
para disponibilizarmos o código fonte.
Portanto este é o esquema.
Se quiserem isto, podemos lançar
e pode ser providenciado
à Wikidata em ficheiros ShEx.
Este é o ficheiro ShEx para nomes
em alemão,
e o Denny está a trabalhar na conversão
da nossa especificação interna
para uma mais de código aberto.
Atualmente temos mais de 25 linguagens,
portanto esperamos crescer do nosso lado,
mas também fazer disto uma oportunidade
para colaborar noutras línguas.
E uma dessas colaborações
é a que o Denny tem com o Lukas.
O Lukas tem umas ferramentas ótimas
para ter uma interface com o utilizador
que ajuda o utilizador ou contribuidor
a adicionar mais formas.
Portanto, se quiserem adicionar
um adjetivo em francês,
a interface diz-vos
quantas formas são expetáveis
e e quantas características
essa forma deverá ter.
Então a nossa máscara ajudará a ferramenta
a ser definida e expandida.
É isto.
(Lydia) Muito obrigado.
(aplausos)
Certo. Há questões?
Querem falar mais sobre os lexemas?
- (plateia 4) Sim.
- Sim. (risos)
(plateia 4) A minha questão,
porque estava a falar
acerca de dar mais acesso
a mais pessoas em mais línguas,
mas há muitas línguas
que não podem ser usadas na Wikidata.
Então que solução é que têm para isso?
Quando diz que não podem ser usadas,
está a referir-se à entrada de etiquetas?
- (plateia 4) Etiquetas, descrições.
- Certo.
Para lexemas, é um pouco diferente
porque aí não temos
essa restrição.
Para etiquetas nos itens e propriedades,
há realmente alguma restrição
porque quisemos ter a certeza
que não é completamente--
qualquer um faz o que quiser
e torna-se ingerível.
Até uma comunidade pequena que queira
uma língua e que queira trabalhar nisso:
venham ter connosco e fazemos acontecer.
(plateia 4) Nós fizemos isso
no Hackathon de Praga em Maio
e demorou quase até Agosto
até conseguirmos usar a nossa linguagem.
- Sim.
- (plateia 4) Portanto, é muito lento.
Sim, infelizmente é muito lento.
Estamos a trabalhar
com o Comité de Linguagem
a tentar resolver os mais básicos...
Ter o acordo sobre que tipo
de linguagens são realmente "permitidas"
e isso tem demorado tempo demais,
o que pode ser a razão para o vosso pedido
ter demorado mais do que devia.
(plateia 4) Obrigada.
(plateia 5) Obrigado.
Lydia, se se lembra das estatísticas
que mostrou,
o número de lexemas por linguagem.
- Sim.
(plateia 5) Então, contaram todos
as formas como pontos de dados
ou apenas os lexemas?
(Lydia) Está a falar disto?
A qual é que se refere?
(plateia 5) Sim, exatamente.
Se se lembrar, este número é [inaudível]
todas as formas, todos os lexemas
ou apenas quantos lexemas há?
Não, isto é apenas o número de lexemas.
(plateia 5) Só o número de lexemas.
Então é apenas uma estatística
porque, se depois
contássemos com as formas--
por isso pergunto--
então, todas as línguas
com morfologia de inflexão,
como russo, sérvio,
esloveno, etc,
têm uma vantagem natural,
porque têm tantas.
Daí, este tipo de saltos aqui
no número de formulários.
(plateia 5) Sim, era esse mesmo.
Obrigado.
(plateia 6) Tenho só uma
pergunta rápida acerca de...
Quando estávamos a falar sobre
os itens e propriedades.
Até onde eu consigo entender,
não há, atualmente, forma
de dar uma fonte definida
a qualquer das etiquetas
e descrições que foram dadas.
- Sim.
(plateia 6) Então, não há nada
porque, quando estás a falar
acerca de uma propriedade de um item,
podes ter, por exemplo,
etiquetas conflituosas.
- Sim.
- (Plateia 6) Então, esta pessoa é como...
Falamos à pouco sobre
coisas indígenas, por exemplo.
Então esta pessoa é um artista norueguês,
de acordo com uma fonte,
e um artista sami,
de acordo com outra fonte.
Ou, por exemplo, em estoniano,
tivemos um problema
onde tivemos que mudar uma terminologia
para a terminologia oficial usada
nos léxicos oficiais.
Mas não temos realmente
uma forma de indicar porquê.
Qual foi a fonte disto
e por que razão isto está melhor
do que estava.
Fui apenas eu, como uma pessoa
ao acaso,
a mudar isto
para quem quer que o veja.
Então, há um plano
para isto ser possível de qualquer forma,
de modo a que possamos realmente ter
fontes confiáveis para dados de linguagem?
Isso é parcialmente possível.
Por exemplo, quando há
um item para uma pessoa,
pode ter as declarações: primeiro nome,
último nome, e por aí em diante.
E, nessa altura, pode-se providenciar
referências para isso.
Tenho algumas reticências em
adicionar mais complexidade
para referências
em etiquetas e descrições,
mas se as pessoas realmente pensam
que isto é algo que não está coberto
por qualquer referência na declaração,
então falamos sobre isso.
Mas temo que
vá adicionar muita complexidade
para o que espero serem poucos casos.
Mas estou disposta
a ser convencida do contrário
se as pessoas realmente sentem
que isto tem relevãncia.
(plateia 6) Se for adicionado
provavelmente não deveria ser o padrão,
mostrado a todos os utilizadores
iniciados na interface, em todos os casos.
Podia ser mais, "Clica aqui se queres
adicionar algo específico sobre isto."
Temos alguma ideia de quantas vezes
isso teria importância?
(plateia 6) Em estónio, por exemplo--
eu imagino que seja assim
noutras línguas também--
por exemplo, há um nome oficial
que é a legítima tradução
para inglês de,
digamos, um tipo específico
de municipalidade.
Este foi o meu caso
de utilizador, por exemplo,
onde estávamos a usar a palavra "paróquia"
na qual a palavra estónia original
significava paróquia de igreja
e essa foi a sua origem,
mas não é agora a tradução oficial
que a Estónia recebe atualmente.
Neste caso, eu juntaria-a apenas como
declarações de nome oficial
e juntaria a referência aí.
(plateia 6) Certo.
Mais questões, sim?
(Asaf) Dois comentários rápidos.
Falou especificamente do asturiano
como uma linguagem que está em alta
e eu acho que isso é falso.
Conte-me.
(Asaf) Eu penso que é apenas um bot
que colou nomes de pessoas,
nomes apropriados para pessoas,
e disse "Bem, isto é exatamente
como em francês ou espanhol"
e copiou-o massivamente.
Uma prova é que
não se vê essa energia no asturiano,
em coisas que realmente requerem tradução,
como nomes de propriedades,
ou nomes de itens
que não são nomes próprios.
Asaf, partes-me o coração.
(Asaf) Eu sei,
costumo estragar as festas,
mas tenho boas notícias também,
sobre os números das pronunciações.
Como saberão, o Commons está cheio
de ficheiros de pronunciação
e, por exemplo,
o holandês tem, nada mais nada menos, que
300 000 ficheiros desses introduzidos
que necessitam de ser "ingeridos"
de alguma forma.
Então, se alguém está à procura
de um projeto para as horas vagas,
há imensos
ficheiros de pronunciação, classificados
e categorizados no Commons
na categoria "Pronunciação" por linguagem.
Estão à espera de ser combinados
com os lexemas e postos no lexema.
E estava a pensar
se me poderia dizer alguma coisa
sobre o quadro referência,
algo sobre quanto investimento
ou o que podemos esperar
relativo ao lexema no próximo ano,
porque eu, pessoalmente,
mal posso esperar.
Não pode? (risos)
- (Asaf) Por mais.
- Sim. (risos)
Penso que ...
Neste momento, estamos concentrados
mais na Wikibase e na qualidade de dados
para ver quanta tração isto tem
e para obter mais para descobrir
onde os próximos pontos críticos estão
e depois voltar atrás e melhorar
mais os dados lexicográficos.
E uma das coisas
que adoraria ouvir de vocês
é onde exatamente vocês vêm
que poderão ser dados os próximos passos,
onde querem melhorias
para que nós possamos descobrir
como fazer isso acontecer.
Mas claro que está certo,
ainda há muito a fazer
também do lado técnico.
(plateia 7) Ao carregarmos
as palavras bascas com formas,
e verão alguns destes tipos de coisas,
estávamos todos...
Na semana passada
dissemos "Somos os primeiros em algo."
[inaudível]
Apareceu na imprensa e foi tipo:
"O basco foi o primeiro em algo,
foram os primeiros."
(risos)
E depois as pessoas perguntaram
"Mas para que serve isto?"
Nós não temos uma boa resposta.
Quer dizer, certo,
isto vai ajudar computadores
a entender mais a nossa linguagem, sim.
Mas que tipo de ferramentas
podemos fazer no futuro?
E ainda não temos uma boa resposta.
Portanto eu não sei
se vocês têm uma boa resposta para isto.
(risos) Eu não sei
se eu tenho uma boa resposta,
mas tenho uma resposta.
Então, eu penso, neste momento,
como estava a dizer [inaudível],
que ainda não chegámos à massa crítica
onde podemos construir um monte
de ferramentas realmente interessantes.
Mas já existem algumas ferramentas.
No outro dia,
a Esther Pandalia, por exemplo,
lançou uma ferramenta onde podemos ver,
penso que eram as palavras num globo,
onde eram faladas,
de onde tinham vindo.
Posso estar errada sobre isto.
Mas ela respondeu no chat
do projeto na Wikidata.
Podem vê-lo ali.
Então já vimos as primeiras ferramentas,
tal como já vimos, no passado,
quando a Wikidata começou.
Primeiro algumas... Como uma rede
e depois "Olha, há aqui esta coisa
que liga a esta outra coisa."
E à medida que temos mais dados
e chegamos mais perto da massa crítica,
tornam-se possíveis
aplicações mais poderosas.
Coisas como a Histropedia,
coisas como perguntas e respostas
no vosso assistente pessoal digital,
Platypus e assim por diante.
E estamos a ver
coisas semelhantes com os lexemas.
Estamos num estágio em que
podemos construir estes pequenos:
"Olha, há uma ligação
entre duas coisas
e há uma tradução dessa palavra
para esse estágio de linguagem."
E, à medida que construimos
e à medida que descrevemos mais palavras,
mais se torna possível.
Agora, o que é que isso torna possível?
Como o Ben, o nosso orador de antes,
estava a dizer acerca de traduções,
ser capaz de traduzir
de uma língua para outra.
E Jens, outro colega,
que está sempre a falar sobre
a União Europeia
andar sempre à procura de um tradutor
que possa fazê-lo de,
penso que era maltês para sueco.
- (plateia 8) Estónio.
- Estónio.
(risos)
E essa não é uma combinação usual.
Mas assim que temos todas essas linguagens
num lugar passível de ser lido por máquina
podemos fazer isso.
Podemos obter um dicionário
de estónio para maltês e vice-versa.
Então, incluir combinações
de linguagens em dicionários
que não foram incluídas antes
porque não havia
procura suficiente para elas, por exemplo,
para fazê-lo de forma financeiramente
viável e para justificar o trabalho.
Agora podemos fazer isso.
E depois a geração de texto.
A Lucie estava a falar
acerca de como ela está a trabalhar
com a Hattie em gerar textos
para iniciar artigos na Wikipedia
em línguas minoritárias.
Isso precisa de dados sobre palavras
e precisamos perceber a língua
para fazer isso.
Sim, e isto é só
o que me vem à cabeça agora.
Talvez a nossa audiência tenha mais ideias
do que querem fazer quando tivermos
todos esses gloriosos dados.
(plateia 9) Vou-nos desviar
do tópico dos lexemas.
Quero perguntar-vos algo.
Como posso eu, como membro da comunidade
influenciar que a prioridade
seja colocada na tarefa,
que um utilizador novo venha, e possa
indicar que línguas quer ver e editar
sem um qualquer conhecimento padrão
verbal secreto.
Talvez haja, este ano,
uma lista técnica de desejos
sem tópicos da Wikipedia.
Talvez haja esperança
de que possamos votar acerca
daquela coisa
que não arranjamos há sete anos.
Tem alguma ideia
ou comentário sobre isso?
Então, está a falar sobre o facto
de alguém que não esteja ligado
à Wikidata
não poder mudar
a sua linguagem facilmente?
(plateia 9) Não, para novos utilizadores.
Então, se estiverem ligados,
eles podem mudar a sua língua
no topo da página.
Depois, aparece onde...
onde as descrições das etiquetas estão
e podem editá-las.
(plateia 9) Bem, na verdade, muitas vezes
o fluxo de trabalho é,
se queremos ter
múltiplas línguas elas estão disponíveis,
e nem sempre acontece.
Talvez devamos sentar-nos
depois desta apresentação e mostra-me.
Fixe. Mais questões?
Sim.
(plateia 10) Obrigado pela apresentação.
Pode comentar
acerca do estado da correlação
com a comunidade do Wiktionary.
Do que eu tenho conseguido ver,
tem havido algumas discussões
acerca de importar
alguns elementos do trabalho,
mas parece haver algumas questões
de licenciamento e desentendimentos, etc.
Certo.
Então, as comunidades do Wiktionary
passaram muito tempo
a construir o Wiktionary.
Construiram
padrões extremamente complicados
e complexos
para construir as bonitas tabelas
que geram formulários para vocês
e é tudo realmente impressionante,
e um pouco louco,
se pensarmos bem nisso.
E, é claro, investiram
muito tempo e esforço a fazê-lo.
E, compreensivelmente,
não querem que isso seja agarrado
de qualquer maneira.
Então, há um pouco disso, vindo daí.
E está certo, tudo bem.
Agora, as primeiras comunidades Wiktionary
estão a falar de mudar isso
e importar alguns
dos dados deles para a Wikidata.
O russo, por exemplo, como já viram,
é um desses casos
e espero que mais aconteçam.
Mas vai ser um processo lento,
tal como a adopção
dos dados da Wikidata pela Wikipedia
está a ser um processo bem lento.
O outro lado é tentar que seja mais fácil
usar os dados que estão nos lexemas,
no Wiktionary, para que
possam fazer uso deles
e partilhar dados entre
as Wiktionaries de linguagens.
O que é super difícil neste momento,
o que é de doidos,
tal como foi na Wikipedia.
Esperem pelo presente de aniversário.
(risos)
Sim.
(plateia 11) Quando estava a pensar
sobre a outra forma,
eu, na verdade, não o quis dizer
porque penso que pode ser super tolo.
Mas acho que o Wiktionary
já tem algum conteúdo
e eu sei que
não pode ser transferido para a Wikidata
por causa das diferenças de licenças.
Mas estava a pensar que talvez
possamos fazer algo acerca disso.
Talvez obter permissão das comunidades
depois de, não sei,
haver uma votação pública
de forma a que comunidade,
os seus membros ativos,
votem e digam se querem
ou não aceitar a transferência de conteúdo
para a qual podem fazer
os lexemas da Wikidata.
Porque penso que é um desperdício.
Então, isso é definitivamente
uma conversa que essas pessoas,
que estão nas comunidades Wiktionary,
podem ter lá.
Penso que seria um pouco presunçoso
da nossa parte forçarmos isso.
Mas sim, penso que, definitivamente,
vale a pena ter essa conversa.
Mas eu penso que também
é importante entender
que há uma distinção entre
o que é legalmente permitido
e o que devíamos estar a fazer
e o que as essas pessoas querem ou não.
Portanto, mesmo se for legal,
se algumas das comunidades Wiktionary
não o quiserem,
eu teria cuidado, no mínimo.
Penso que precisamos do microfone
para o vídeo.
(plateia 12) Obviamente,
isto é tudo muito excitante
e penso imediatamente em como
levar isto aos meus estudantes,
como posso incorporar isto nos cursos,
no trabalho que estamos a fazer,
ambientes educacionais.
E não tenho, neste momento,
primeiro, conhecimento,
mas acho que a documentação
que temos
pode ser melhorada.
Portanto, isto é um pedido
para fazerem vídeos fixes
que expliquem como funciona.
Porque, se os tivermos, podemos usá-los,
podemos ter estudantes a bordo
e podemos fazer as pessoas entender
quão espetacular é.
Sim, pensem na documentação
e pensem na educação, por favor.
Porque penso que muito pode ser feito.
Estas são pequenas tarefas
que podem ser feitas mesmo com...
bem, não direi escolas primárias,
mas certamente até com estudantes jovens.
E, portanto, gostaria mesmo de ver
esse potencial a ser aproveitado
e, neste momento, eu, pessoalmente,
não entendo o suficiente
para conseguir criar tarefas
ou para criar tipo...
para fazer algo prático com isto.
Portanto, qualquer ajuda, ideias
que alguém tenha acerca disso,
estou completamente disponível para ouvir
tudo o que tenham em mente.
Sim, vamos falar sobre isso.
Mais questões?
Mais alguém tinha levantado a mão.
Esqueci-me de quem foi.
(plateia 13) Então, se não conseguimos
importar a partir do Wiktionary,
há algum esforço concertado para
achar outras fontes de domínio público,
talvez dados mais antigos,
e filtrá-los previamente, organizá-los
para que seja fácil a sua verificação,
por pessoas, para importação?
Então, foram feitos esforços iniciais.
Penso que o basco é um desses esforços.
Talvez queiras dizer
algo sobre isso?
(plateia 14) [inaudível]
Certo, a resposta é
pagando por isso...
Temos um acordo
com um fornecedor com quem trabalhamos.
Eles fazem dicionários, outros...
montes de coisas, mas fazem dicionários.
Temos um acordo com eles para
tornar grátis os dicionários estudantis.
Nós transmitiríamos as palavras
mais comuns e começaríamos a carregá-las
com um identificador externo
e esse tipo de coisas.
Mas houve alguma discussão
acerca de deixá-lo no CC0,
porque eles têm
um dicionário com CC por ele,
e perceberam qual era a diferença.
Portanto, houve alguma discussão.
Mas penso que podemos providenciar algumas
ferramentas ou exemplos, no futuro,
e penso que haverá outros dicionários
que podemos gerir.
E também penso que o Wiktionary
deveria ir nessa direção,
mas isso é outra grande discussão.
E, para além disso,
a Lea está também em contacto
com pessoas da Occitan,
que trabalham nos dicionários Occitan,
e eles estão atualmente a trabalhar
numa colaboração suméria.
Mais questões?
(plateia 15) Olá. Nós somos as pessoas
que querem importar dados da Occitan.
Perfeito!
(plateia 15) E temos
um pequeno problema para...
Nós não sabemos como representar
toda a variedade de lexemas.
Temos seis dialetos
e queremos indicar, para o lexema,
em que dialeto é usado
e não temos a declaração CO
apropriada para isso.
Portanto, enquanto o segmento não existir,
não conseguimos [inaudível]
porque vamos precisar de fazê-lo outra vez
quando estivermos em condições
de exportar a declaração.
E é complicado
porque é uma declaração
que não vai ser pedida por muita gente
porque é uma declaração que diz respeito
principalmente a línguas minoritárias.
Então teremos uma pessoa a pedir isto.
Mas, como no caso
dos nossos colegas Bascos,
pode ser uma pessoa
que ajudará milhares de outros.
Portanto, pode não parecer importante,
mas será muito importante para nós.
Vocês já têm a nova proposta
de propriedade a funcionar,
ou precisam de ajuda para criá-la?
(plateia 15) Fizemos o pedido
há quatro meses.
Certo, então vamos arranjar pessoal
para ajudar com essa proposta.
De certeza que há pessoas suficentes
nesta sala para isso se realizar.
(plateia 15) Proposta de propriedade
[em francês].
Nós não tivemos resposta
e não sabemos fazê-lo
porque não somos da comunidade Wikidata.
Sim, então há aqui pessoas
que vos podem ajudar.
Talvez alguém levante a mão
para ficar...
(plateia 14) Sou a favor.
Mas penso que é muito interessante
que apenas a variante de forma
também o possa gerir geograficamente,
com coordenadas
ou algum tipo de mapeamento.
Também tendo diferentes pronúncias
e penso que é algo
que acontece em muitas línguas.
Deveríamos trabalhar para isso
acontecer de alguma forma
e eu vou procurar a propriedade.
Fixe.
Então, vocês terão apoio
para a vossa proposta de propriedade.
Obrigado.
Mais alguma questão?
Finn.
O Finn é uma daquelas pessoas
que constrói coisas
tendo como base dados lexicográficos.
(Finn) É só uma pequena questão,
e é sobre variações de ortografia.
Parece difícil pô-las em...
Poderíamos, claro,
ter múltiplas formas para a mesma palavra.
Não sei, parece ser...
Se não o fizeres dessa forma,
parece ser difícil especificar...
ou, não sei se
é apenas um problema técnico menor
ou se...
Vamos olhar para isso juntos.
Adoraria ver um exemplo.
Asaf.
(Asaf) Obrigado.
Posso dar um exemplo concreto
da minha língua, o hebreu.
O Hebreu tem duas variantes principais
para expressar quase todas as palavras,
porque a ortografia tradicional
deixa de parte muitas vogais.
E, assim sendo, nas edições modernas
da Bíblia e de poesia,
são usados os diacríticos.
Por outro lado, os diacríticos
nunca são usados na prosa moderna
ou imprensa escrita ou toponímia.
Então, a utilização casual diária
usa as vogais extra
e não usa os diacríticos.
Porque eles são,
obviamente, mais complicados
e têm todo o tipo de regras
e ninguém sabe as regras.
- (risos)
- Então, há duas variantes.
Há a variante casual para prosa
e há a da Bíblia e da poesia.
que vem sempre
no tradicional texto diacriticizado.
Para ser útil,
o lexema teria que reconhecer
ambas as variantes de cada palavra
e cada forma
de cada palavra.
Portanto, esse é um caso de utilização
muito abrangente
para variantes oficiais estáveis.
Não é dialeto, não é regional,
são, basicamente, dois sistemas
morfológicos coexistentes.
E eu também não sei exatamente
como expressar isso no lexema, agora,
o que é uma das coisas que me impede,
em resposta parcial à pergunta do Magnus,
de carregar as partes que estão prontas
do maior dicionário Hebreu,
que é de domínio público
e que tenho andar a digitalizar
há vários anos.
Uma grande porção está pronta,
mas não o ponho no lexema agora
porque, basicamente, não sei
como resolver este problema.
Está bem, vamos resolver
este problema aqui. (risos)
Tem de ser possível.
Mais perguntas?
Se não, então muito obrigada.
(aplausos)