Olá a todos.
É espantoso ter-vos a todos aqui
e serem tantos.
É mesmo, mesmo ótimo.
Então, a Lea já falou muito
sobre este evento.
Eu vou falar um pouco
sobre a Wikidata propriamente dita
e o que lhe tem estado a acontecer
durante o último ano
e para onde estamos a ir.
Então... o que é isto? Desculpem.
Então... onde estamos?
Para onde estamos a ir?
Ao longo do último ano
houve muito para celebrar
e queria salientar algumas dessas coisas
porque às vezes passam despercebidas.
E, em primeiro lugar, quero rever convosco
algumas estatísticas de editores,
o nosso conteúdo
e como os nossos dados são usados.
Ao longo do último ano
a nossa comunidade cresceu
o que é espantoso.
Temos, aproximadamente, 3000 pessoas novas
que editam uma vez ou mais a cada 30 dias.
Portanto, isso são mais de
3000 Wikidatans novos!
(risos)
Agora, se olharem para os que fazem mais,
por exemplo cinco edições a cada 30 dias,
temos mais aproximadamente 1 200.
E se olharem para as pessoas
que fazem 100 edições ou mais--
espero que muitos dos que aqui estão--
temos mais 300.
Levantem a mão se estiverem neste grupo.
Vocês são demais!
E enquanto...
o número de edições
não é algo a que normalmente
prestemos muita atenção,
nós acabamos por ultrapassar a marca
dos mil milhões de edições este ano.
(aplausos)
Vamos, então, olhar para o conteúdo.
Então, estamos agora
com 65 milhões de items,
portanto, entidades para descrever o mundo
e estamos a fazê-lo com, aproximadamente,
6 700 propriedades.
Dessas, à volta de 4 300
são identificadores externos,
o que nos dá muitas ligações
a outros catálogos, bases de dados,
websites e mais
e realmente fazem da Wikidata
um lugar central
numa rede aberta ligada de dados.
Então, usando essas propriedades e items,
temos agora perto de
800 milhões de declarações
e comparado com o ano passado,
sabemos mais meia declaração
acerca de cada um dos items.
(risos)
Então, sim, a Wikidata ficou mais esperta.
Mas não temos apenas items
e propriedades,
também temos coisas novas
como os lexemas.
Temos agora 204 000 lexemas
que descrevem palavras
em muitas linguagens diferentes.
É muito fixe.
Vou falar mais sobre isto
numa outra sessão mais tarde.
Por último, a mais recente adição
são esquemas de entidades
que nos ajudam a descobrir como modelar,
consistentemente, modelos de dados
ao longo de determinadas áreas.
E, desses, temos aproximadamente 140.
Mas números não são tudo
em relação ao conteúdo, certo--
quantidade de conteúdo--
também nos importa a qualidade do mesmo.
E o que fizemos agora foi treinar um
sistema de aprendizagem máquina
para avaliar a qualidade de qualquer item.
Isto está longe de ser perfeito,
mas já vos dá uma ideia.
Portanto, cada item na Wikidata
recebe um resultado entre 1 e 5.
Um é mesmo terrível,
cinco é extraordinário.
E ele olha para coisas
como quantas declarações tem,
quantos identificadores externos tem,
quantas referências estão lá,
quantas etiquetas diferentes temos
em quantas línguas diferentes
e assim por diante.
E, depois, olhamos
para a Wikidata ao longo do tempo
e, como podem ver,
com base nestas medidas
fomos de verdadeiramente terríveis
a bem melhores.
(risos)
Logo, é bom.
Mas, o que também conseguimos ver
é que ainda falta muito para o cinco.
(risos)
Eu não penso que seja aqui
que chegaremos, certo?
Nem todos os items vão estar
absolutamente perfeitos
de acordo com o que temos medido.
Mas estou realmente contente por ver
que, consistentemente,
a qualidade dos dados está a melhorar.
Mas criar dados não é suficiente.
Queremos que isto...
fazemos isto por uma razão.
Queremos que sejam usados.
E, agora, olhámos
para a quantidade de artigos
noutros projetos da Wikmedia
que usam dados da Wikidata
e olhámos para a percentagem
de todos os artigos nesses projetos.
Se olharmos
para todo o espetro da Wikimedia
e para todos os artigos que existem,
então, hoje, 56,35% de todos
usam alguns dados da Wikidata.
O que eu considero muito bom,
mas claro que ainda há muito que andar
para chegarmos aos 100%.
E depois, eu olho para quais os projetos
que realmente estao a fazer maior uso
dos dados da Wikidata
e divido isto por versões de linguagem
e assim por diante.
E, agora, o que é que pensam que
os cinco primeiros projetos...
quais deles são todos?
A que família de projetos pertencem?
(algumas vozes na audiência) Commons.
Certo. Commons é mais ou menos geral.
Na verdade, estariam enganados.
Todos os cinco primeiros
são da Wikivoyage.
(plateia) Oh!
(risos)
Portanto, sim,
um aplauso para a Wikivoyage.
(aplausos)
Se querem saber onde os Commons estão
e onde estão todos os vossos projetos,
há um painel de controlo.
Venham comigo
e vamos dar uma vista de olhos.
Claro, os nossos dados não são usados
só dentro da Wikimedia.
Também são usados fora
e aconteceu tanto.
Eu não posso mencioná-los a todos,
mas para salientar alguns
que são os maiores utilizadores dos nossos
dados: o Met, o Fundo Wellcome,
a Livraria do Congresso,
o GeneWiki e muitos muitos mais.
E, se assistirem a algumas apresentações
que estão mais tarde no programa,
vão ouvir falar de alguns deles.
Certo, chega de estatísticas.
Vamos salientar aqui outros pontos.
Portanto, já falámos
sobre a melhoria da qualidade dos dados
e, quando vemos a qualidade dos dados,
há muitas dimensões
para onde podemos olhar
e podemos melhorar algumas delas,
tal como quão fiáveis são,
quão confiáveis são,
quão referenciados estão,
quão consistentemente são modelados,
quão completos estão e assim por diante.
Só para escolher um...
para a consistência por exemplo,
criámos a capacidade de guardar
esquemas de entidades na Wikidata
para que possam descrever
como certos domínios devem ser modelados.
Para que possam encontrar...
Podem criar um esquema de entidade,
digamos, pintores Holandeses
e depois podem verificar como...
que items que são para pintores Holandeses
não têm, por exemplo,
uma data de nascimento, mas que deviam
e coisas desse género.
E espero que muitos mais
projetos wiki e outros
possam fazer melhor uso
dos esquemas de entidades para tratarem
os seus dados.
Se quiserem aprender como fazê-lo,
vai haver também
uma sessão mais tarde
de pessoas que sabem tudo sobre isto
e que farão disto um
mistério menor.
Muito bem.
Outra coisa que realmente ganhou tração
no último ano
foi o ecossistema Wikibase, certo?
Esta ideia que nem todos os dados abertos
devem e têm que estar
na Wikidata mas que, em vez disso,
queremos ter um ecossistema vibrante
de diferentes lugares,
com diferentes agentes,
como instituições, companhias,
programas de voluntariado que divulguem
os seus dados da mesma forma
que a Wikidata faz
e depois ligarmos tudo isto,
trocando dados entre eles,
ligando esses dados.
E, ao longo do último ano,
o interesse nisto
e o interesse nas instituições
e nas pessoas que dirigem
as suas próprias instâncias baseadas
em Wiki, realmente explodiu,
especialmente no setor das bibliotecas.
Há muitos testes, avaliações,
e para ser honesta, pioneirismo
a acontecer neste momento,
quando instituições aventureiras
trabalham connosco para descobrir
como a Wikibase pode funcionar
para as suas coleções,
os seus catálogos e assim por diante.
Entre elas, a Biblioteca Nacional Alemã,
a Biblioteca Nacional Francesa,
OCLC e, claro, isso é muito entusiasmante.
Uma das razões porque penso isso
é que estamos a ajudar essas instituições
a abrir os seus dados de uma forma que
não é só colocá-los num site
onde alguém pode acessá-los
mas realmente a pensar sobre isto,
no próximo passo depois disto, certo?
Deixar que as pessoas ajudem a manter
os dados, melhorá-los,
enriquecê-los e isso é uma viragem
que eu espero
que traga muitas coisas boas.
E a outra coisa com a qual nos ajuda
é que deixa os especialistas
curarem os dados
no seu espaço, mantê-los em bom estado
para que possamos implementar
processos de sincronização
com a Wikidata, por exemplo.
Em vez de, permanentemente,
estarmos nós a fazermos isso.
E, no final do dia,
espero que tire alguma pressão
de cima da Wikidata, para ser aquele lugar
onde tudo tem que ir parar.
Dados lexicográficos.
Ao longo do último ano,
as pessoas começaram a descrever palavras,
na sua língua, na Wikidata
para que se possam construir coisas
como ferramentas automatizadas
de tradução.
E estamos num ponto
em que, em algumas línguas,
estamos a começar a chegar perto
de atingir essa massa crítica
que é precisa para realmente
construir uma aplicação séria.
Em muitas línguas
ainda temos um longo caminho a percorrer,
mas noutras
começamos mesmo a chegar lá
e isso é realmente ótimo de se ver.
Se quiserem saber mais,
venham à minha apresentação mais tarde.
E, obviamente, não podemos esquecer
dados estruturados nos Commons.
(membro da plateia assobia)
Sim! (risos)
(aplausos)
Os dados estruturados nos Commons
que vimos na fundação
realmente juntaram...
tudo e tornaram possível
adicionar declarações a ficheiros
nos Commons ao longo do último ano.
E as pessoas começaram a adicionar
essas declarações a imagens
para as tornarem mais fáceis de encontrar,
para se construirem melhores aplicações
com base nelas e muito mais.
É realmente excitante
ver como está a crescer.
O que é realmente importante
para a comunidade Wikidata
perceber aqui
é que, quando vemos "retratos"
ou "gato de casa" ou "sentar", "lagarto"
ou "parede", aqui,
isso são ligações a items da Wikidata
e propriedades.
Isso significa que quando criamos
items e propriedades,
eles já não estão só a providenciar
o vocabulário para a própria Wikidata.
Estão a providenciar o vocabulário
para os Commons também.
E isto irá ser cada vez mais assim.
Portanto, temos de prestar muita atenção
a como a nossa ontologia,
o nosso vocabulário
é na realidade usado em mais sítios
do que tínhamos antes.
E o último que tenho é que começamos a
construir pontes mais sólidas
para os outros projetos da Wikimedia.
A minha equipa e eu estamos a trabalhar
no projeto Wikidata Bridge
e vocês devem mesmo
vir à cabina da interface
e fazer uns teste do estado atual.
Teremos lá alguns editores de Wikipédia
a editar a Wikidata diretamente
a partir dos seus projetos,
sem terem de ir à Wikidata
e sem terem de perceber tudo sobre ela.
Espero que isto remova mais uma
das dificuldades que tornam difícil
que projetos da Wikimedia
adotem mais dados da Wikidata.
Muito bem, agora as estratégias
e para onde estamos a ir.
Desde Dezembro, a equipa da Wikidata
na Wikimedia Alemanha
e pessoal da Fundação Wikimedia
têm estado a trabalhar em estratégias,
papéis relacionados com a Wikidata.
É, basicamente, colocar no papel
o que muitos de nós
andamos a falar
ao longo dos últimos quatro ou cinco anos.
E não sei se leram esses trabalhos.
Eles estão publicados no Meta Commons
até ao final do mês.
Seria ótimo,
se ainda não os tiverem lido,
que os lessem,
deixassem os vossos comentários, etc.
Agora, uma muito rápida revisão
sobre o que está lá,
é que pensamos sobre a Wikidata
e a Wikibase em três partes.
Primeiro, a Wikidata como plataforma.
Podem vê-la no canto inferior.
Isso anda, na realidade, à volta
da Wikidata permitir a cada pessoa
aceder e partilhar informação
independentemente da sua linguagem
e tecnologia.
Fazemos isso providenciando
dados de interesse geral sobre o mundo.
Então, basicamente,
é o que vocês fazem todos os dias.
Em segundo, está a parte
do ecossistema Wikibase,
onde a Wikibase, o software
que suporta a Wikidata, alimenta
não apenas a Wikidata, mas uma vibrante
rede de dados abertos, a espinha dorsal
de um conhecimento aberto, livre e grátis.
Em terceiro e último está a Wikidata
para os projetos Wikimedia, no topo.
Onde a Wikidata está
para ajudar os projetos Wikimedia...
ajudá-los a estarem preparados
para o futuro.
Concretamente, o que isso significa
para o futuro próximo ou médio?
A Wikidata como plataforma.
Temos de ter melhor qualidade dos dados,
portanto continuaremos a trabalhar
em melhores ferramentas, em melhorar
as que temos e assim por diante.
Temos de tornar os nossos dados
mais acessíveis
através de melhores APIs,
parâmetros finais SPARQL mais robustos,
mas também coisas como modelar os dados
com mais consistência
para que, na realidade, seja mais fácil
reutilizá-los em aplicações.
E a última coisa
seria estabelecer processos de feedback
com os nossos parceiros.
Ao contrário da Wikipédia, a Wikidata não
é o que costumo
chamar um projeto destino, certo?
Alguém vai à Wikipédia e lê algo
enquanto, na Wikidata, o processo não é:
alguém vai à Wikidata e lê algo.
Seria ótimo,
mas, realisticamente,
não é isso a Wikidata é, certo?
As pessoas que estão expostas
aos nossos dados
não estão na Wikidata propriamente,
mas estão a ver o que querem através
da Wikipédia e de outros sítios.
Agora, esses outros sítios
recebem comentários sobre os dados, certo?
Os utilizadores dizem-lhes,
"Isto está errado".
Eu gostava de ter isso
para que pudessemos torná-lo disponível
às pessoas que realmente editam
na Wikidata, ou seja vocês.
E descobrir como fazer isso
de uma forma robusta,
sem sobrecarregar toda a gente,
será um dos objetivos a atingir
durante o próximo ano.
Ecossistema Wikibase.
Ali, continuaremos a trabalhar
com as bibliotecas,
mas também a olhar para as ciências,
por exemplo, e mais ainda.
Vai haver uma apresentação Wikibase
mais logo e vocês deviam todos ir
e ver o que já lá está
e o que as pessoas estão já a fazer
com a Wikibase.
Vale mesmo a pena.
E o que é preciso lá
é também montar
bons processos em torno disso.
Ajudar as pessoas a descobrir
com quem falar sobre o quê,
onde podem encontrar ajuda,
todo esses tipos de coisas.
E, claro, facilitar
a instalação e manutenção
da Wikibase, porque ainda é
uma séria dor de cabeça.
E, por último, temos federação,
que basicamente é
o que falamos para os Commons,
onde os Commons usam items e propriedades
da Wikidata
mas para outras instâncias da Wikibase
para que eles também possam usar
o vocabulário da Wikidata.
E isso, como estava a dizer anteriormente,
aumenta outra vez
a necessidade de ter consciência
de como o vocabulário é utilizado lá fora,
mais do que tivemos até agora.
E a Wikidata para projetos da Wikimedia.
Integração mais estreita
através da Wikidata Bridge
e ajudar pessoas a editar diretamente
a partir dos seus projetos.
E a outra questão em que todos precisamos
pensar juntos,
é descobrir como reduzir
as barreiras de linguagem.
Quanto mais a Wikidata estiver integrada
nos projetos Wikimedia,
mais as pessoas terão
necessidade de falar umas com as outras
acerca dos dados sem que a língua
seja a mesma.
Temos de arranjar forma
de lidar com isso.
Se alguém tem alguma boa ideia,
adoraria falar convosco.
E, com isso,
encerro a minha apresentação.
Obrigada a todos, por darem a mais pessoas
acesso a mais conhecimento,
todos os dias.
(aplausos)
Temos algum tempo para questões.
Portanto, se alguém na plateia
tiver alguma
ou mesmo os que estiverem remotamente
a ver a transmissão: Olá mãe.
Podem perguntar no EtherPad
ou no canal do Telegram
e faremos o nosso melhor.
Alguma coisa?
Ah.
(plateia 1) Olá a todos. Isto é mais
um meme que uma questão.
Então, quando é que a extensão de tempo
poderá ter também
horas e minutos e segundos?
Porque, até agora,
a posição é apenas de data.
- Eu sei... não é uma pergunta minha.
- (risos)
Por isso disse que era um meme.
É assim sempre,
mas vem sempre do remoto, por isso...
Eu não tenho uma boa resposta para isso.
Desculpa.
Mas talvez, no fundo,
as pessoas precisem ainda mais disso
para descrever imagens no Commons.
Portanto, até pode subir na longa lista
de coisas que precisam de ser feitas
com mais rapidez.
Mais alguma questão?
(plateia 2) Linda, da equipa de pesquisa
da Fundação Wikimedia.
Tenho uma pergunta acerca do que pensa
sobre patrulhamento e que poderá estar
relacionado com a qualidade do conteúdo,
mas pode falar sobre isso.
Como vê, a médio prazo,
os esforços de patrulhamento a mudar,
especialmente com o projeto Bridge,
o qual estou muito ansiosa
por ir testar.
- Sim, obrigada.
- Sim.
Portanto, como diz, com coisas
como as que fizemos no Bridge,
muito mais esforço terá que ser dispensado
em patrulhamento, penso.
Mas estamos agora com uma dimensão
em que, provavelmente, não é exequível
fazê-lo à mão, por humanos.
Portanto, precisamos de um maior
esforço em melhorias, por exemplo.
do ORES, o sistema de aprendizagem
máquina, para que nos ajude com isso.
Para ajudar-nos a perceber que edições
precisam de ser vistas por um humano
e quais são, provavelmente: "Certo,
são coisas normais,
não preciso olhar para isto."
Atualmente, o ORES não é muito bom
a avaliar o que...
se uma edição na Wikidata é boa ou não.
Existe, atualmente,
uma campanha a decorrer
para treinar o sistema de aprendizagem
máquina,
com a vossa ajuda.
Para lhe ensinar, basicamente,
o que uma boa edição é
e o que uma má edição é.
Ainda não chegámos ao patamar
de suficientes humanos o terem ensinado
para realmente o melhorarmos,
mas, se tiverem uns minutinhos,
seria bestial que ajudassem
a ensinar o ORES
a fazer melhores julgamentos
acerca de edições na Wikidata.
E é relativamente simples:
ele mostra uma edição
e vocês dizem: "É uma boa edição",
"É uma má edição" e mais nada.
Podem fazer isso sentados no sofá,
à noite, em frente da TV.
(plateia 3) Partilhe uma ligação.
Iremos partilhar uma ligação
no grupo do Telegram sim.
E, assim que tivermos chegado
ao patamar de que precisamos--
penso que é à volta de 7 000,
mas posso estar enganada--
então, podemos correr o programa de treino
novamente e nessa altura será,
esperemos, consideravelmente melhor
a julgar as edições na Wikidata.
E, depois, espero que mais de vocês
possam usar isso
para filtrar as alterações recentes,
por exemplo, na vossa lista
para edições que realmente
precisam da vossa atenção.
Sim.
Olá.
[inaudível]
(plateia 4) Estou um pouco curiosa
e esta é um pergunta que não é minha,
mas de colegas
com quem tenho trabalhado.
Quantos mais parceiros
se juntam à Wikidata
e começam a experimentar com consultas,
mais problemas temos
com tempos esgotados nas consultas.
Portanto, o que
se está a fazer sobre isso?
Então, algumas pessoas
na Fundação Wikimedia
estão a analisar isso
e-- pequena indiscrição--
estejam na sessão do presente
de aniversário.
(risos)
(Bart) Olá, sou Bart Magnus
do PACKED Bélgica.
Gostaria de saber se sabe
em que estado estão
as federações, ou seja, reutilizar
as tuas propriedades
na tua própria instância da Wikibase.
Há algo que queria mencionar
em relação a isso?
Então, ao longo do último ano,
muitas pessoas nos têm dito
que querem a federação, certo?
Mas o problema era que
muitas pessoas tinham
várias ideias diferentes
do que significava federação.
Algumas dessas coisas
eram facilmente executáveis.
Outras eram realmente
muito difíceis.
E a minha equipa e eu temos falado
com muitas pessoas, por exemplo,
os parceiros com quem trabalhamos
nas bibliotecas, para ver se concluíamos
precisamente o que precisavam.
E terminámos isso agora.
Embora, claro, esteja disponível
para receber mais comentários
se quiserem falar comigo sobre isso.
Estou agora numa fase
onde confortavelmente digo:
"Certo, vamos começar com isto."
E diria que nos próximos
dois ou três meses
vamos escrever
as primeiras linhas de código.
Depois, se tudo correr bem,
tê-lo-emos pronto para as pessoas
o testarem, diria que
no início do próximo ano.
(moderador) Últimas questões.
(Finn) Finn Årup Nielsen de Copenhaga,
Dinamarca.
Em relação à outra linguagem,
tem havido muita discussão, digamos,
na comunidade WikiCite
acerca de se devemos continuar
a colocar mais trabalhos científicos ali.
Isto está relacionado com quandos dados
podemos nós colocar na Wikidata.
Tempos esgotados no Wikidata
Query Service é uma das questões,
mas também a manutenção.
Portanto, o que pensa acerca...
O tamanho da Wikidata
está a começar a ser um problema,
no geral?
Devemos parar de colocar
dados nos lexemas?
Devemos parar de colocar
dados científicos
na Wikidata ou temos alguma
pesquisa sobre isto
ou estão a inflacionar
os problemas técnicos?
Sim...
A Wikidata está definitivamente
a chegar a algumas...
fronteiras de escalabilidade, digamos,
tanto técnica como socialmente.
E, para ambas,
precisamos de soluções, certo?
Socialmente, temos por exemplo
mais editores
e mudanças recentes, até ao ponto
em que é completamente inviável
a um humano patrulhar isso
porque é pura e simplesmente demais.
Mas também tecnicamente
e temos tentado resolver isso também.
Por exemplo, re-arquiteturando
a base de dados
à volta de tabelas de BD
viradas para a visualização,
se é que isto vos diz algo.
Mas isso só nos leva até determinado ponto
e uma das coisas que queremos
ver no próximo ano
é onde estão os outros
pontos difíceis e o que fazer com eles
no aspeto técnico.
Portanto, esse é o quadro geral.
Ao mesmo tempo, fico muito hesitante
em dizer a alguém, "Não, não,
não. Para de inserir dados na Wikidata."
(risos)
Isso vai um pouco contra
o propósito da coisa.
Mas, por exemplo, o ecosistema Wikibase
é uma forma de tentar resolver
isso
sem requerer nada da Wikidata.
Essa é a beleza de um sistema
aberto de dados ligados.
Não temos de ter tudo
no mesmo sítio.
Podemos ligar-nos a vários sítios.
É espantoso.
Portanto, de volta à WikiCites
em específico, sim...
Certo, a WikiCites em específico.
Eu penso que precisamos
de olhar para isso proporcionalmente.
Não tenho uma percentagem exata
de qual a quantidade
de items da Wikidata
que estão à volta de tópicos da WikiCites,
mas é uma grande percentagem.
E talvez seja isso que
precisamos de discutir...
Durante a pausa.
Muito obrigado!
(aplausos)