-
(Lydia) Muito obrigada.
-
Então, nesta conferência,
um dos grandes temas são as linguagens.
-
Então...
-
Quero dar-vos uma visão geral
de onde estamos atualmente
-
no que diz respeito a linguagens
-
e para onde podemos ir daqui.
-
A Wikidada pretende dar a mais pessoas
mais acesso a mais conhecimento
-
e a linguagem é uma parte muito importante
para tornar isso realidade.
-
Especialmente, porque cada vez mais
as nossas vidas dependem da tecnologia.
-
E, como um dos palestrantes
mencionou há pouco,
-
alguma da tecnologia
deixa as pessoas para trás
-
simplesmente porque
não falam determinada linguagem,
-
o que não está correto.
-
Então, nós queremos fazer algo
em relação a isso.
-
E, de forma a mudar isso,
precisamos de pelos menos duas coisas.
-
Primeiro, providenciar conteúdo
na língua nativa das pessoas
-
e, segundo,
-
providenciar
interação na sua língua,
-
nas aplicações
ou seja no que for que tenham.
-
A Wikidata ajuda em ambas as coisas.
-
Em relação à primeira,
conteúdo na sua língua,
-
isso é basicamente o que temos
nos itens e propriedades,
-
como descrevemos o mundo.
-
Isto não é, certamente,
tudo o que é preciso,
-
mas já dá uma ajuda considerável.
-
A outra coisa,
interação na sua língua,
-
é onde os lexemas entram em jogo
-
se quiserem falar
com o vosso assistente pessoal digital,
-
ou se quiserem que o vosso dispositivo
traduza um texto e afins.
-
Tudo bem, vamos olhar para
conteúdo na sua língua.
-
O que temos em itens e propriedades?
-
Para isto, as etiquetas nesses itens
e propriedades são cruciais.
-
Precisamos de saber como se chama
esta entidade de que estamos a falar.
-
E, em vez de falarmos sobre Q5...
-
Alguém que fale inglês
sabe que isso é um "humano",
-
alguém que fale alemão
sabe que é um "mensch",
-
e por aí adiante.
-
Então, estas etiquetas
nos itens e propriedades
-
estão a fechar as brechas
entre humanos e máquinas
-
e entre humanos e humanos.
-
Fazendo com que mais conhecimento
esteja acessível para eles.
-
Isso é um bom objetivo.
-
Mas qual é o aspeto disso?
-
Bem, é este.
-
O que estão a ver aqui
-
é que a maioria dos items
na Wikidata tem duas etiquetas,
-
portanto, são etiquetados em duas línguas.
-
Depois disso, é um, e depois três
-
e depois fica muito triste.
-
(riso tímido)
-
Eu penso que temos que fazer melhor.
-
Mas, por outro lado,
-
eu, na verdade, estava à espera
de muito pior.
-
Estava à espera que a média fosse um.
-
Portanto, fiquei
bastante contente em ver dois. (risos)
-
Certo.
-
Mas, o interessante não é só saber
-
quantas etiquetas os nossos items
e propriedades têm,
-
também é interessante ver
em que línguas.
-
Aqui têm um gráfico das línguas
-
que têm etiquetas para itens.
-
A maior parte é Outra.
-
Então, peguei nas 100 maiores línguas
-
e tudo o resto são Outras,
para que o gráfico se perceba.
-
Depois, há inglês e holandês,
-
francês,
-
e não nos esqueçamos do... asturiano.
-
- (plateia 1) (grito de entusiasmo)
- De facto!
-
Então, podem ver que há aqui
um considerável desequilíbrio
-
e o foco ainda se mantém muito no inglês.
-
Outra coisa que notamos
é que nas Propriedades,
-
as coisas estão bem melhores.
-
E penso que, em parte, isso deve-se
a haver muito menos propriedades.
-
Então, mesmo comunidades menores
têm hipótese de se manter a par.
-
Mas também é uma parte importante
da Wikidata,
-
a localização na tua própria língua.
-
Portanto, isso é bom.
-
O que quero salientar aqui
com o asturiano
-
é que uma comunidade pequena
pode realmente fazer uma enorme diferença
-
com alguma dedicação e trabalho,
-
o que é muito fixe.
-
Uma pequena pergunta para vocês.
-
Se pegarmos em todas as propriedades
na Wikidata,
-
que não são indentificadores externos,
-
qual é o que tem mais etiquetas,
o maior número de linguagens?
-
(plateia) [inaudível]
-
Ouço algum acordo em instância de?
-
Estariam errados.
-
É imagem. (risos)
-
Então, sim, isso diz-vos,
se falarem uma destas línguas
-
nas quais instância de
ainda não tem etiqueta,
-
que poderão querer adicioná-la.
-
Tem, neste momento, 148 etiquetas.
-
Mas isso é outro slide.
-
Este gráfico diz-nos algo
-
sobre quanto conteúdo estamos a tornar
disponível numa certa língua
-
e quanto conteúdo
é realmente utilizado.
-
Então, o que temos aqui
é basicamente uma curva
-
com a maior parte do conteúdo com
etiquetas em inglês, disponível em inglês
-
e a ser muito usado.
-
E depois, isto meio que baixa.
-
Mas, novamente, o que podem ver
são os valores atípicos
-
que têm muito mais conteúdo
do que seria de esperar
-
e isso é mesmo muito bom.
-
O problema é que não é tão utilizado.
-
Asturiano e holandês
deveriam ser mais altos.
-
Acho que, ajudar essas comunidades
-
a aumentar o uso
dos dados que coletaram,
-
é uma coisa realmente útil de se fazer.
-
O que esta análise e outras
nos mostraram é uma coisa boa,
-
embora estejamos a ver que os itens
que são mais utilizados
-
também tendem a ter mais etiquetas
-
ou ao contrário.
Não é completamente claro.
-
E então, a questão é:
-
estamos a servir
apenas as linguagens poderosas?
-
Ou conseguimos fazê-lo para todos?
-
O que vêm aqui
é um agrupamento das linguagens.
-
As linguagens que estão agrupadas
tendem a ter etiquetas juntas.
-
E conseguimos vê-las a aglomerarem-se.
-
Agora, temos aqui
um aglomerado similar, colorido,
-
baseado em quão viva, quão usada,
-
quão ameaçada a linguagem está.
-
E uma coisa boa que vemos aqui,
-
é que linguagens seguras
e ameaçadas
-
não formam dois aglomerados diferentes.
-
Elas misturam-se,
-
o que é muito melhor do que seria
se fosse ao contrário
-
onde as linguagens seguras,
as linguagens poderosas,
-
estariam apenas a ajudar-se entre elas.
-
Não, não é esse o caso.
-
E isso é uma coisa ótima.
-
Quando vi isto,
pensei que isto era muito bom.
-
Aqui está uma coisa similar,
-
onde olhamos para
-
os estados das linguagens,
-
para quantas etiquetas têm.
-
O que estão a ver é uma clara vantagem
para as linguagens seguras,
-
como seria de esperar.
-
Mas também estão a ver
-
que as linguagens na categoria dois,
e três e até mesmo quatro
-
não estão, na verdade, nada mal
-
em termos de representação
na Wikidata e em outros.
-
É uma coisa muito boa de se encontrar.
-
Agora, se olharmos para a mesma coisa
-
para quanto do conteúdo
dessas etiquetas
-
é atualmente usado
na Wikipedia, por exemplo,
-
emerge uma imagem semelhante.
-
E diz-nos que estas comunidades
estão a fazer um bom uso do tempo
-
preenchendo as etiquetas
para os itens mais usados, por exemplo.
-
Há valores atípicos
onde penso que podemos ajudar...
-
Ajudar as comunidades a encontrar sítios
onde o seu trabalho será mais valioso.
-
Mas, no geral, estou contente
com este panorama.
-
Agora, isto foram os itens
e as propriedades da Wikidata.
-
Agora vamos olhar para a interação
nas vossas línguas.
-
Portanto as porções do lexema
da Wikidata
-
onde nós descrevemos palavras
e as suas formas e significados.
-
Andamos a fazer isso
desde Maio do ano passado
-
e o conteúdo tem aumentado.
-
Podem ver aqui em azul os lexemas
-
e a vermelho,
as formas nesses lexemas
-
e a amarelo, os sentidos
nesses lexemas.
-
Então algumas comunidades--
já voltaremos a isso mais tarde--
-
dispenderam muito tempo a criar formas
e sentidos para os seus lexemas,
-
o que é muito útil
-
porque constrói o núcleo
dos conjuntos de dados que precisamos.
-
Agora, olhamos para todas as línguas
-
que têm lexemas na Wikidata.
-
Portanto, palavras que nós temos.
-
Há, agora, 310 línguas.
-
Agora, qual é que acham que é
a língua que está no topo
-
quando falamos em número de lexemas
neste momento na Wikidata?
-
(Plateia) [inaudível]
-
O quê?
-
(Plateia 2) Alemão.
-
Desculpe, já o tinha ouvido antes.
-
É Russo.
-
O Russo está bastante à frente.
-
E, para vos dar alguma perspetiva,
-
há diferentes opiniões
-
mas li, por exemplo,
que entre 1 000 e 3 000 palavras
-
chegam para chegar
ao nível conversacional noutra língua
-
e que entre 4 000 a 10 000 palavras
chegam para o nível avançado.
-
Então, ainda temos um pouco
para pôr em dia.
-
Uma coisa à qual quero
que prestem atenção é ao basco
-
com, aproximadamente, 10 000 lexemas.
-
Agora, se olharem para o número de formas
nesses lexemas,
-
o basco está lá em cima,
-
o que é bastante fixe.
-
Deviam ir a uma palestra que vos explique
o porquê desta situação.
-
Agora, olhando para o número de sentidos,
para o que as palavras querem dizer,
-
o basco chega mesmo ao topo da lista.
-
Eu acho que merece um aplauso.
-
(aplausos)
-
Outra pequena pergunta.
-
Qual é o lexema com o maior número
de traduções neste momento?
-
(Plateia) Gatos, gatos, [inaudível],
Douglas Adams, [inaudível].
-
Todos bons palpites, mas não.
-
É esta, a palavra para "água", em russo.
-
Já falámos muito
-
sobre quantos lexemas,
formas e sentidos temos,
-
mas isso é apenas uma parte
do que precisamos.
-
A outra parte
-
é descrever os lexemas,
formas e sentidos,
-
de uma forma que as máquinas possam ler.
-
E para isso temos declarações,
tal como nos itens.
-
E uma das propriedades
que usamos é o exemplo de utilização.
-
Portanto quem quer que esteja
a usar os dados
-
pode entender como usar
a palavra no contexto,
-
pode ser uma citação, por exemplo.
-
E aqui, o polaco reina.
-
Bom trabalho falantes de polaco.
-
Outra propriedade
que é mesmo útil é IPA,
-
logo, como é que se pronuncia uma palavra.
-
O russo, aparentemente, precisa
imenso de declarações IPA.
-
Mas, novamente, polaco em segundo.
-
E, por último, mas não menos importante,
temos a pronunciação áudio.
-
Isto corresponde a ligações
a ficheiros nos Commons
-
onde alguém diz a palavra,
-
de forma a que possamos ouvir
como um nativo a pronuncia
-
para o caso de não conseguires ler IPA,
por exemplo.
-
E há um projeto muito porreiro
baseado na Wiki,
-
chamado Lingua Libre,
-
onde podemos ir e ajudar a gravar
palavras na nossa língua
-
que pode ser depois adicionadas
a lexemas na Wikidata,
-
para que outras pessoas possam entender
como pronunciar as palavras.
-
(plateia 3) Há alguma ligação para isso?
-
Se procurarem por "Lingua Libre"...
-
Tenho a certeza de que alguém pode
publicá-la no nosso canal do Telegram.
-
Aqueles tipos são os maiores.
-
Fizeram uma coisa mesmo fixe
com a Wikibase.
-
Certo.
-
Então, a questão é,
para onde seguimos daqui?
-
A julgar pelos números que vos mostrei,
-
já fizemos um longo caminho
-
na direção de dar a mais pessoas
mais acesso a mais conhecimento
-
quando procuram línguas na Wikidata.
-
Mas ainda há muito trabalho pela frente.
-
Algumas coisas que podem fazer
para ajudar, por exemplo,
-
é organizar maratonas de etiquetagem,
-
como juntar pessoas
para etiquetar items na Wikidata.
-
Ou fazer uma maratona de etiquetagem
para lexemas na vossa língua,
-
para introduzir as palavras mais usadas
na vossa língua na Wikidata.
-
Ou podem usar uma ferramenta
como o Terminator,
-
que vos ajuda a encontrar os itens
mais importantes na vossa língua
-
a que ainda falte alguma etiqueta.
-
Sendo que mais importante é medido
por quantas vezes é usado
-
em outros items da Wikidata
como ligações ou declarações.
-
E, claro, para a porção do lexema,
-
agora que temos uma cobertura básica
desses lexemas,
-
queremos também construí-los,
adicionar-lhes mais declarações
-
para que eles possam, realmente,
construir a base
-
para construir aplicações significativas
a partir deles.
-
Porque estamos a aproximarmo-nos
dessa massa crítica,
-
mas ainda estamos longe disso,
-
de podermos construir aplicações
sérias sobre isto.
-
E espero que todos vocês
se juntem a nós para fazermos isso.
-
E isso já me leva
-
a uma pequena ajuda dos nossos amigos.
-
Bruno, queres vir até aqui
-
para nos falares
sobre as máscaras lexicais?
-
(Bruno) Obrigado, Lydia,
-
por me cederes este bocadinho de tempo
-
para apresentar o trabalho
que estamos a fazer na Google
-
com o Denny, que a maior parte de vocês
já deve ter ouvido falar ou conhece.
-
Porque na Google-- eu sou linguista,
-
portanto estou muito feliz de estar aqui
entre outros entusiastas de linguagens--
-
nós também estamos a construir
alguns léxicos
-
e construimos esta tecnologia,
-
ou esta abordagem, que pensamos
poderá ser útil para vocês.
-
Só para vos situar,
-
isto é a minha experiência
lexicográfica a falar.
-
Quando criamos bases de dados
de léxico,
-
é preciso muito tempo para a manter,
mantê-la consistente
-
e para trocar dados,
-
como vocês provavelmente sabem.
-
Houve várias tentativas para unificar
as características e propriedades
-
que descrevem os lexemas
e as formas.
-
Ainda não é um problema resolvido,
-
mas há ainda algumas tentativas
de unificação nesse sentido.
-
Mas o que está mesmo a faltar--
-
e isto é um problema que tivemos
no início do nosso projeto na Google--
-
é tentar ter uma estrutura interna
-
que descreva como
uma entrada lexical se deverá parecer,
-
que tipo de dados
ou que tipo de informação temos
-
e a especificação pretendida.
-
Assim, isto foi o que inventámos,
esta coisa chamada máscara lexical.
-
Uma máscara lexical descreve
o que é expectável de uma entrada,
-
de uma entrada lexicográfica,
para estar completa,
-
tanto em termos de número de formas
que se esperam de um lexema
-
como do número de características
que se esperam em cada forma.
-
Aqui está um exemplo
para adjetivos italianos.
-
Seria de esperar, em italiano, termos
quatro formas para os adjetivos
-
e cada uma dessas formas
ter uma combinação específica
-
de género e número de características.
-
Isto é o que esperamos
de adjetivos italianos.
-
Claro que, podemos ter
máscaras extremamente complexas,
-
como a conjugação dos verbos em francês,
que é bastante extensa.
-
E não vos quero mostrar
nenhuma máscara russa
-
porque não cabe no ecrã.
(risos)
-
E também temos especificações
detalhadas,
-
porque distinguimos
o que está ao nível da forma.
-
Então, aqui temos nomes russos
que têm três números
-
e alguns casos
com diferentes formas.
-
Mas, eles também têm
uma especificação de entrada de gama
-
que diz que o nome em particular tem
-
um género inerente e uma característica
de animação inerente
-
que também são especificados na máscara.
-
Também queremos salientar
que uma máscara fornece uma especificação
-
para qual deve ser
o aspeto de uma entrada.
-
Mas, podemos ter máscaras mais pequenas,
para aspetos defeituosos da forma
-
ou aspetos defeituosos do lexema
que acontecem na linguagem.
-
Aqui podem ver a forma mais simples
dos verbos franceses
-
que só têm a terceira pessoa do singular
para todos os verbos metereológicos,
-
como "chove" ou "neva",
em português.
-
Distinguimos estes dois níveis.
-
E como é que usamos isto na Google?
-
Quando temos um léxico
que queremos usar,
-
usamos a máscara para
literalmente atirar os léxicos,
-
todas as entradas, através da máscara
-
e ver que entrada tem problemas
em termos de estrutura.
-
Está a faltar uma forma?
Falta uma característica?
-
E, quando surge um problema,
fazemos validação humana
-
ou só para ver se passa na máscara.
-
É uma ferramenta extremamente poderosa
para conferir a qualidade da estrutura.
-
Portanto, estamos felizes em anunciar hoje
-
que recebemos luz verde
para disponibilizarmos o código fonte.
-
Portanto este é o esquema.
-
Se quiserem isto, podemos lançar
-
e pode ser providenciado
à Wikidata em ficheiros ShEx.
-
Este é o ficheiro ShEx para nomes
em alemão,
-
e o Denny está a trabalhar na conversão
da nossa especificação interna
-
para uma mais de código aberto.
-
Atualmente temos mais de 25 linguagens,
-
portanto esperamos crescer do nosso lado,
-
mas também fazer disto uma oportunidade
para colaborar noutras línguas.
-
E uma dessas colaborações
é a que o Denny tem com o Lukas.
-
O Lukas tem umas ferramentas ótimas
para ter uma interface com o utilizador
-
que ajuda o utilizador ou contribuidor
a adicionar mais formas.
-
Portanto, se quiserem adicionar
um adjetivo em francês,
-
a interface diz-vos
quantas formas são expetáveis
-
e e quantas características
essa forma deverá ter.
-
Então a nossa máscara ajudará a ferramenta
a ser definida e expandida.
-
É isto.
-
(Lydia) Muito obrigado.
-
(aplausos)
-
Certo. Há questões?
-
Querem falar mais sobre os lexemas?
-
- (plateia 4) Sim.
- Sim. (risos)
-
(plateia 4) A minha questão,
porque estava a falar
-
acerca de dar mais acesso
a mais pessoas em mais línguas,
-
mas há muitas línguas
que não podem ser usadas na Wikidata.
-
Então que solução é que têm para isso?
-
Quando diz que não podem ser usadas,
-
está a referir-se à entrada de etiquetas?
-
- (plateia 4) Etiquetas, descrições.
- Certo.
-
Para lexemas, é um pouco diferente
-
porque aí não temos
essa restrição.
-
Para etiquetas nos itens e propriedades,
há realmente alguma restrição
-
porque quisemos ter a certeza
que não é completamente--
-
qualquer um faz o que quiser
-
e torna-se ingerível.
-
Até uma comunidade pequena que queira
uma língua e que queira trabalhar nisso:
-
venham ter connosco e fazemos acontecer.
-
(plateia 4) Nós fizemos isso
no Hackathon de Praga em Maio
-
e demorou quase até Agosto
até conseguirmos usar a nossa linguagem.
-
- Sim.
- (plateia 4) Portanto, é muito lento.
-
Sim, infelizmente é muito lento.
-
Estamos a trabalhar
com o Comité de Linguagem
-
a tentar resolver os mais básicos...
-
Ter o acordo sobre que tipo
de linguagens são realmente "permitidas"
-
e isso tem demorado tempo demais,
-
o que pode ser a razão para o vosso pedido
ter demorado mais do que devia.
-
(plateia 4) Obrigada.
-
(plateia 5) Obrigado.
-
Lydia, se se lembra das estatísticas
que mostrou,
-
o número de lexemas por linguagem.
- Sim.
-
(plateia 5) Então, contaram todos
as formas como pontos de dados
-
ou apenas os lexemas?
-
(Lydia) Está a falar disto?
-
A qual é que se refere?
-
(plateia 5) Sim, exatamente.
-
Se se lembrar, este número é [inaudível]
-
todas as formas, todos os lexemas
ou apenas quantos lexemas há?
-
Não, isto é apenas o número de lexemas.
-
(plateia 5) Só o número de lexemas.
-
Então é apenas uma estatística
-
porque, se depois
contássemos com as formas--
-
por isso pergunto--
-
então, todas as línguas
com morfologia de inflexão,
-
como russo, sérvio,
esloveno, etc,
-
têm uma vantagem natural,
porque têm tantas.
-
Daí, este tipo de saltos aqui
no número de formulários.
-
(plateia 5) Sim, era esse mesmo.
Obrigado.
-
(plateia 6) Tenho só uma
pergunta rápida acerca de...
-
Quando estávamos a falar sobre
os itens e propriedades.
-
Até onde eu consigo entender,
não há, atualmente, forma
-
de dar uma fonte definida
a qualquer das etiquetas
-
e descrições que foram dadas.
- Sim.
-
(plateia 6) Então, não há nada
porque, quando estás a falar
-
acerca de uma propriedade de um item,
-
podes ter, por exemplo,
etiquetas conflituosas.
-
- Sim.
- (Plateia 6) Então, esta pessoa é como...
-
Falamos à pouco sobre
coisas indígenas, por exemplo.
-
Então esta pessoa é um artista norueguês,
de acordo com uma fonte,
-
e um artista sami,
de acordo com outra fonte.
-
Ou, por exemplo, em estoniano,
tivemos um problema
-
onde tivemos que mudar uma terminologia
para a terminologia oficial usada
-
nos léxicos oficiais.
-
Mas não temos realmente
uma forma de indicar porquê.
-
Qual foi a fonte disto
-
e por que razão isto está melhor
do que estava.
-
Fui apenas eu, como uma pessoa
ao acaso,
-
a mudar isto
para quem quer que o veja.
-
Então, há um plano
para isto ser possível de qualquer forma,
-
de modo a que possamos realmente ter
fontes confiáveis para dados de linguagem?
-
Isso é parcialmente possível.
-
Por exemplo, quando há
um item para uma pessoa,
-
pode ter as declarações: primeiro nome,
último nome, e por aí em diante.
-
E, nessa altura, pode-se providenciar
referências para isso.
-
Tenho algumas reticências em
adicionar mais complexidade
-
para referências
em etiquetas e descrições,
-
mas se as pessoas realmente pensam
-
que isto é algo que não está coberto
por qualquer referência na declaração,
-
então falamos sobre isso.
-
Mas temo que
vá adicionar muita complexidade
-
para o que espero serem poucos casos.
-
Mas estou disposta
a ser convencida do contrário
-
se as pessoas realmente sentem
que isto tem relevãncia.
-
(plateia 6) Se for adicionado
provavelmente não deveria ser o padrão,
-
mostrado a todos os utilizadores
iniciados na interface, em todos os casos.
-
Podia ser mais, "Clica aqui se queres
adicionar algo específico sobre isto."
-
Temos alguma ideia de quantas vezes
isso teria importância?
-
(plateia 6) Em estónio, por exemplo--
-
eu imagino que seja assim
noutras línguas também--
-
por exemplo, há um nome oficial
que é a legítima tradução
-
para inglês de,
-
digamos, um tipo específico
de municipalidade.
-
Este foi o meu caso
de utilizador, por exemplo,
-
onde estávamos a usar a palavra "paróquia"
-
na qual a palavra estónia original
significava paróquia de igreja
-
e essa foi a sua origem,
-
mas não é agora a tradução oficial
que a Estónia recebe atualmente.
-
Neste caso, eu juntaria-a apenas como
declarações de nome oficial
-
e juntaria a referência aí.
-
(plateia 6) Certo.
-
Mais questões, sim?
-
(Asaf) Dois comentários rápidos.
-
Falou especificamente do asturiano
como uma linguagem que está em alta
-
e eu acho que isso é falso.
-
Conte-me.
-
(Asaf) Eu penso que é apenas um bot
-
que colou nomes de pessoas,
nomes apropriados para pessoas,
-
e disse "Bem, isto é exatamente
como em francês ou espanhol"
-
e copiou-o massivamente.
-
Uma prova é que
não se vê essa energia no asturiano,
-
em coisas que realmente requerem tradução,
como nomes de propriedades,
-
ou nomes de itens
que não são nomes próprios.
-
Asaf, partes-me o coração.
-
(Asaf) Eu sei,
costumo estragar as festas,
-
mas tenho boas notícias também,
sobre os números das pronunciações.
-
Como saberão, o Commons está cheio
de ficheiros de pronunciação
-
e, por exemplo,
-
o holandês tem, nada mais nada menos, que
300 000 ficheiros desses introduzidos
-
que necessitam de ser "ingeridos"
de alguma forma.
-
Então, se alguém está à procura
de um projeto para as horas vagas,
-
há imensos
-
ficheiros de pronunciação, classificados
e categorizados no Commons
-
na categoria "Pronunciação" por linguagem.
-
Estão à espera de ser combinados
com os lexemas e postos no lexema.
-
E estava a pensar
se me poderia dizer alguma coisa
-
sobre o quadro referência,
-
algo sobre quanto investimento
-
ou o que podemos esperar
relativo ao lexema no próximo ano,
-
porque eu, pessoalmente,
mal posso esperar.
-
Não pode? (risos)
-
- (Asaf) Por mais.
- Sim. (risos)
-
Penso que ...
-
Neste momento, estamos concentrados
mais na Wikibase e na qualidade de dados
-
para ver quanta tração isto tem
-
e para obter mais para descobrir
onde os próximos pontos críticos estão
-
e depois voltar atrás e melhorar
mais os dados lexicográficos.
-
E uma das coisas
que adoraria ouvir de vocês
-
é onde exatamente vocês vêm
que poderão ser dados os próximos passos,
-
onde querem melhorias
-
para que nós possamos descobrir
como fazer isso acontecer.
-
Mas claro que está certo,
-
ainda há muito a fazer
também do lado técnico.
-
(plateia 7) Ao carregarmos
as palavras bascas com formas,
-
e verão alguns destes tipos de coisas,
estávamos todos...
-
Na semana passada
dissemos "Somos os primeiros em algo."
-
[inaudível]
-
Apareceu na imprensa e foi tipo:
-
"O basco foi o primeiro em algo,
foram os primeiros."
-
(risos)
-
E depois as pessoas perguntaram
"Mas para que serve isto?"
-
Nós não temos uma boa resposta.
-
Quer dizer, certo,
-
isto vai ajudar computadores
a entender mais a nossa linguagem, sim.
-
Mas que tipo de ferramentas
podemos fazer no futuro?
-
E ainda não temos uma boa resposta.
-
Portanto eu não sei
se vocês têm uma boa resposta para isto.
-
(risos) Eu não sei
se eu tenho uma boa resposta,
-
mas tenho uma resposta.
-
Então, eu penso, neste momento,
como estava a dizer [inaudível],
-
que ainda não chegámos à massa crítica
-
onde podemos construir um monte
de ferramentas realmente interessantes.
-
Mas já existem algumas ferramentas.
-
No outro dia,
a Esther Pandalia, por exemplo,
-
lançou uma ferramenta onde podemos ver,
-
penso que eram as palavras num globo,
-
onde eram faladas,
de onde tinham vindo.
-
Posso estar errada sobre isto.
-
Mas ela respondeu no chat
do projeto na Wikidata.
-
Podem vê-lo ali.
-
Então já vimos as primeiras ferramentas,
-
tal como já vimos, no passado,
quando a Wikidata começou.
-
Primeiro algumas... Como uma rede
-
e depois "Olha, há aqui esta coisa
que liga a esta outra coisa."
-
E à medida que temos mais dados
-
e chegamos mais perto da massa crítica,
-
tornam-se possíveis
aplicações mais poderosas.
-
Coisas como a Histropedia,
-
coisas como perguntas e respostas
-
no vosso assistente pessoal digital,
Platypus e assim por diante.
-
E estamos a ver
coisas semelhantes com os lexemas.
-
Estamos num estágio em que
podemos construir estes pequenos:
-
"Olha, há uma ligação
entre duas coisas
-
e há uma tradução dessa palavra
para esse estágio de linguagem."
-
E, à medida que construimos
e à medida que descrevemos mais palavras,
-
mais se torna possível.
-
Agora, o que é que isso torna possível?
-
Como o Ben, o nosso orador de antes,
estava a dizer acerca de traduções,
-
ser capaz de traduzir
de uma língua para outra.
-
E Jens, outro colega,
que está sempre a falar sobre
-
a União Europeia
andar sempre à procura de um tradutor
-
que possa fazê-lo de,
penso que era maltês para sueco.
-
- (plateia 8) Estónio.
- Estónio.
-
(risos)
-
E essa não é uma combinação usual.
-
Mas assim que temos todas essas linguagens
num lugar passível de ser lido por máquina
-
podemos fazer isso.
-
Podemos obter um dicionário
-
de estónio para maltês e vice-versa.
-
Então, incluir combinações
de linguagens em dicionários
-
que não foram incluídas antes
-
porque não havia
procura suficiente para elas, por exemplo,
-
para fazê-lo de forma financeiramente
viável e para justificar o trabalho.
-
Agora podemos fazer isso.
-
E depois a geração de texto.
-
A Lucie estava a falar
-
acerca de como ela está a trabalhar
com a Hattie em gerar textos
-
para iniciar artigos na Wikipedia
em línguas minoritárias.
-
Isso precisa de dados sobre palavras
-
e precisamos perceber a língua
para fazer isso.
-
Sim, e isto é só
o que me vem à cabeça agora.
-
Talvez a nossa audiência tenha mais ideias
-
do que querem fazer quando tivermos
todos esses gloriosos dados.
-
(plateia 9) Vou-nos desviar
do tópico dos lexemas.
-
Quero perguntar-vos algo.
-
Como posso eu, como membro da comunidade
-
influenciar que a prioridade
seja colocada na tarefa,
-
que um utilizador novo venha, e possa
indicar que línguas quer ver e editar
-
sem um qualquer conhecimento padrão
verbal secreto.
-
Talvez haja, este ano,
uma lista técnica de desejos
-
sem tópicos da Wikipedia.
-
Talvez haja esperança
de que possamos votar acerca
-
daquela coisa
que não arranjamos há sete anos.
-
Tem alguma ideia
ou comentário sobre isso?
-
Então, está a falar sobre o facto
-
de alguém que não esteja ligado
à Wikidata
-
não poder mudar
a sua linguagem facilmente?
-
(plateia 9) Não, para novos utilizadores.
-
Então, se estiverem ligados,
-
eles podem mudar a sua língua
no topo da página.
-
Depois, aparece onde...
-
onde as descrições das etiquetas estão
-
e podem editá-las.
-
(plateia 9) Bem, na verdade, muitas vezes
o fluxo de trabalho é,
-
se queremos ter
múltiplas línguas elas estão disponíveis,
-
e nem sempre acontece.
-
Talvez devamos sentar-nos
depois desta apresentação e mostra-me.
-
Fixe. Mais questões?
-
Sim.
-
(plateia 10) Obrigado pela apresentação.
-
Pode comentar
-
acerca do estado da correlação
com a comunidade do Wiktionary.
-
Do que eu tenho conseguido ver,
tem havido algumas discussões
-
acerca de importar
alguns elementos do trabalho,
-
mas parece haver algumas questões
de licenciamento e desentendimentos, etc.
-
Certo.
-
Então, as comunidades do Wiktionary
passaram muito tempo
-
a construir o Wiktionary.
-
Construiram
-
padrões extremamente complicados
e complexos
-
para construir as bonitas tabelas
que geram formulários para vocês
-
e é tudo realmente impressionante,
-
e um pouco louco,
se pensarmos bem nisso.
-
E, é claro, investiram
muito tempo e esforço a fazê-lo.
-
E, compreensivelmente,
-
não querem que isso seja agarrado
-
de qualquer maneira.
-
Então, há um pouco disso, vindo daí.
-
E está certo, tudo bem.
-
Agora, as primeiras comunidades Wiktionary
estão a falar de mudar isso
-
e importar alguns
dos dados deles para a Wikidata.
-
O russo, por exemplo, como já viram,
é um desses casos
-
e espero que mais aconteçam.
-
Mas vai ser um processo lento,
-
tal como a adopção
dos dados da Wikidata pela Wikipedia
-
está a ser um processo bem lento.
-
O outro lado é tentar que seja mais fácil
-
usar os dados que estão nos lexemas,
-
no Wiktionary, para que
possam fazer uso deles
-
e partilhar dados entre
as Wiktionaries de linguagens.
-
O que é super difícil neste momento,
-
o que é de doidos,
tal como foi na Wikipedia.
-
Esperem pelo presente de aniversário.
(risos)
-
Sim.
-
(plateia 11) Quando estava a pensar
sobre a outra forma,
-
eu, na verdade, não o quis dizer
porque penso que pode ser super tolo.
-
Mas acho que o Wiktionary
já tem algum conteúdo
-
e eu sei que
não pode ser transferido para a Wikidata
-
por causa das diferenças de licenças.
-
Mas estava a pensar que talvez
possamos fazer algo acerca disso.
-
Talvez obter permissão das comunidades
-
depois de, não sei,
haver uma votação pública
-
de forma a que comunidade,
os seus membros ativos,
-
votem e digam se querem
ou não aceitar a transferência de conteúdo
-
para a qual podem fazer
os lexemas da Wikidata.
-
Porque penso que é um desperdício.
-
Então, isso é definitivamente
uma conversa que essas pessoas,
-
que estão nas comunidades Wiktionary,
podem ter lá.
-
Penso que seria um pouco presunçoso
da nossa parte forçarmos isso.
-
Mas sim, penso que, definitivamente,
vale a pena ter essa conversa.
-
Mas eu penso que também
é importante entender
-
que há uma distinção entre
o que é legalmente permitido
-
e o que devíamos estar a fazer
-
e o que as essas pessoas querem ou não.
-
Portanto, mesmo se for legal,
-
se algumas das comunidades Wiktionary
não o quiserem,
-
eu teria cuidado, no mínimo.
-
Penso que precisamos do microfone
para o vídeo.
-
(plateia 12) Obviamente,
isto é tudo muito excitante
-
e penso imediatamente em como
levar isto aos meus estudantes,
-
como posso incorporar isto nos cursos,
-
no trabalho que estamos a fazer,
ambientes educacionais.
-
E não tenho, neste momento,
-
primeiro, conhecimento,
-
mas acho que a documentação
que temos
-
pode ser melhorada.
-
Portanto, isto é um pedido
para fazerem vídeos fixes
-
que expliquem como funciona.
-
Porque, se os tivermos, podemos usá-los,
-
podemos ter estudantes a bordo
-
e podemos fazer as pessoas entender
quão espetacular é.
-
Sim, pensem na documentação
e pensem na educação, por favor.
-
Porque penso que muito pode ser feito.
-
Estas são pequenas tarefas
que podem ser feitas mesmo com...
-
bem, não direi escolas primárias,
-
mas certamente até com estudantes jovens.
-
E, portanto, gostaria mesmo de ver
esse potencial a ser aproveitado
-
e, neste momento, eu, pessoalmente,
não entendo o suficiente
-
para conseguir criar tarefas
ou para criar tipo...
-
para fazer algo prático com isto.
-
Portanto, qualquer ajuda, ideias
que alguém tenha acerca disso,
-
estou completamente disponível para ouvir
tudo o que tenham em mente.
-
Sim, vamos falar sobre isso.
-
Mais questões?
-
Mais alguém tinha levantado a mão.
-
Esqueci-me de quem foi.
-
(plateia 13) Então, se não conseguimos
importar a partir do Wiktionary,
-
há algum esforço concertado para
achar outras fontes de domínio público,
-
talvez dados mais antigos,
-
e filtrá-los previamente, organizá-los
-
para que seja fácil a sua verificação,
por pessoas, para importação?
-
Então, foram feitos esforços iniciais.
-
Penso que o basco é um desses esforços.
-
Talvez queiras dizer
algo sobre isso?
-
(plateia 14) [inaudível]
-
Certo, a resposta é
pagando por isso...
-
Temos um acordo
com um fornecedor com quem trabalhamos.
-
Eles fazem dicionários, outros...
-
montes de coisas, mas fazem dicionários.
-
Temos um acordo com eles para
tornar grátis os dicionários estudantis.
-
Nós transmitiríamos as palavras
mais comuns e começaríamos a carregá-las
-
com um identificador externo
e esse tipo de coisas.
-
Mas houve alguma discussão
acerca de deixá-lo no CC0,
-
porque eles têm
um dicionário com CC por ele,
-
e perceberam qual era a diferença.
-
Portanto, houve alguma discussão.
-
Mas penso que podemos providenciar algumas
ferramentas ou exemplos, no futuro,
-
e penso que haverá outros dicionários
-
que podemos gerir.
-
E também penso que o Wiktionary
deveria ir nessa direção,
-
mas isso é outra grande discussão.
-
E, para além disso,
-
a Lea está também em contacto
com pessoas da Occitan,
-
que trabalham nos dicionários Occitan,
-
e eles estão atualmente a trabalhar
numa colaboração suméria.
-
Mais questões?
-
(plateia 15) Olá. Nós somos as pessoas
que querem importar dados da Occitan.
-
Perfeito!
-
(plateia 15) E temos
um pequeno problema para...
-
Nós não sabemos como representar
toda a variedade de lexemas.
-
Temos seis dialetos
-
e queremos indicar, para o lexema,
em que dialeto é usado
-
e não temos a declaração CO
apropriada para isso.
-
Portanto, enquanto o segmento não existir,
-
não conseguimos [inaudível]
-
porque vamos precisar de fazê-lo outra vez
-
quando estivermos em condições
de exportar a declaração.
-
E é complicado
porque é uma declaração
-
que não vai ser pedida por muita gente
-
porque é uma declaração que diz respeito
principalmente a línguas minoritárias.
-
Então teremos uma pessoa a pedir isto.
-
Mas, como no caso
dos nossos colegas Bascos,
-
pode ser uma pessoa
que ajudará milhares de outros.
-
Portanto, pode não parecer importante,
-
mas será muito importante para nós.
-
Vocês já têm a nova proposta
de propriedade a funcionar,
-
ou precisam de ajuda para criá-la?
-
(plateia 15) Fizemos o pedido
há quatro meses.
-
Certo, então vamos arranjar pessoal
para ajudar com essa proposta.
-
De certeza que há pessoas suficentes
nesta sala para isso se realizar.
-
(plateia 15) Proposta de propriedade
[em francês].
-
Nós não tivemos resposta
e não sabemos fazê-lo
-
porque não somos da comunidade Wikidata.
-
Sim, então há aqui pessoas
que vos podem ajudar.
-
Talvez alguém levante a mão
para ficar...
-
(plateia 14) Sou a favor.
-
Mas penso que é muito interessante
-
que apenas a variante de forma
-
também o possa gerir geograficamente,
-
com coordenadas
ou algum tipo de mapeamento.
-
Também tendo diferentes pronúncias
-
e penso que é algo
que acontece em muitas línguas.
-
Deveríamos trabalhar para isso
acontecer de alguma forma
-
e eu vou procurar a propriedade.
-
Fixe.
-
Então, vocês terão apoio
para a vossa proposta de propriedade.
-
Obrigado.
-
Mais alguma questão?
-
Finn.
-
O Finn é uma daquelas pessoas
-
que constrói coisas
tendo como base dados lexicográficos.
-
(Finn) É só uma pequena questão,
-
e é sobre variações de ortografia.
-
Parece difícil pô-las em...
-
Poderíamos, claro,
ter múltiplas formas para a mesma palavra.
-
Não sei, parece ser...
-
Se não o fizeres dessa forma,
parece ser difícil especificar...
-
ou, não sei se
-
é apenas um problema técnico menor
ou se...
-
Vamos olhar para isso juntos.
-
Adoraria ver um exemplo.
-
Asaf.
-
(Asaf) Obrigado.
-
Posso dar um exemplo concreto
da minha língua, o hebreu.
-
O Hebreu tem duas variantes principais
-
para expressar quase todas as palavras,
-
porque a ortografia tradicional
-
deixa de parte muitas vogais.
-
E, assim sendo, nas edições modernas
da Bíblia e de poesia,
-
são usados os diacríticos.
-
Por outro lado, os diacríticos
nunca são usados na prosa moderna
-
ou imprensa escrita ou toponímia.
-
Então, a utilização casual diária
usa as vogais extra
-
e não usa os diacríticos.
-
Porque eles são,
obviamente, mais complicados
-
e têm todo o tipo de regras
e ninguém sabe as regras.
-
- (risos)
- Então, há duas variantes.
-
Há a variante casual para prosa
-
e há a da Bíblia e da poesia.
-
que vem sempre
no tradicional texto diacriticizado.
-
Para ser útil,
-
o lexema teria que reconhecer
ambas as variantes de cada palavra
-
e cada forma
de cada palavra.
-
Portanto, esse é um caso de utilização
muito abrangente
-
para variantes oficiais estáveis.
-
Não é dialeto, não é regional,
-
são, basicamente, dois sistemas
morfológicos coexistentes.
-
E eu também não sei exatamente
como expressar isso no lexema, agora,
-
o que é uma das coisas que me impede,
em resposta parcial à pergunta do Magnus,
-
de carregar as partes que estão prontas
-
do maior dicionário Hebreu,
que é de domínio público
-
e que tenho andar a digitalizar
há vários anos.
-
Uma grande porção está pronta,
-
mas não o ponho no lexema agora
-
porque, basicamente, não sei
como resolver este problema.
-
Está bem, vamos resolver
este problema aqui. (risos)
-
Tem de ser possível.
-
Mais perguntas?
-
Se não, então muito obrigada.
-
(aplausos)