-
Olá a todos,
ao painel de Qualidade de Dados.
-
A qualidade dos dados é importante porque
cada vez mais pessoas
-
dependem do bom estado dos nossos dados.
-
Assim, vamos falar da qualidade dos dados.
-
Haverão quatro oradores que farão
breves introduções acerca de tópicos
-
relacionados com qualidade de dados.
Depois, responderemos a perguntas.
-
O primeiro é o Lucas.
-
Obrigado.
-
Olá. O meu nome é Lucas e vou começar
com uma síntese
-
das ferramentas de qualidade de dados
que já existem na Wikidata
-
e também de algumas coisas
que teremos em breve.
-
Agrupei-as em temas gerais
-
que são a maior visibilidade dos erros,
tornar os problemas accionáveis,
-
obter mais visibilidade sobre os dados
para que mais pessoas notem os problemas,
-
corrigir algumas fontes comuns de erros,
manter a qualidade dos dados existentes
-
e também a curadoria humana.
-
As que estão atualmente disponíveis
começam com as restrições de propriedades.
-
Já o devem ter visto se usam a Wikidata.
-
Podem, por vezes, obter estes ícones
-
que verificam
a consistência interna dos dados.
-
Por exemplo,
se um evento se seguir a outro,
-
então a este último deve seguir-se este.
-
O que estava aparentemente em falta
no item WikidataCon.
-
Não tenho a certeza, esta funcionalidade
existe há apenas uns dias.
-
Também existe... Se isto for
demasiado simples ou condicionante,
-
podem escrever quaisquer verificações
que queiram usando o Query Service
-
que é útil para várias coisas,
-
mas também pode ser usado
para encontrar erros.
-
Por exemplo, se descobrirem
uma ocorrência de um erro,
-
podem verificar se existem outros locais
-
onde as pessoas tenham feito
um erro parecido
-
e descobri-lo com o Query Service.
-
Também podem combinar os dois e procurar
violações de restrições no Query Service,
-
como por exemplo,
apenas violações que ocorram numa área
-
ou WikiProject que seja
relevantes para vocês.
-
Embora, atualmente, os resultados
não estejam completos. Infelizmente.
-
Existe a avaliação de revisões.
-
Penso que seja parte
das alterações recentes.
-
Podem também adicioná-la à vossa lista
de visualização: uma avaliação automática
-
da probabilidade desta edição
ter sido feita em boa ou má-fé
-
e da probabilidade de causar ou não danos.
-
Penso que sejam essas as duas dimensões.
-
Podem, se quiserem,
-
concentrar a busca apenas
nas edições danosas mas feitas com boa-fé.
-
Se se estiverem a sentir particularmente
amigáveis e acolhedores
-
podem dizer a estes editores:
"Obrigado pela contribuição.
-
Deviam tê-la feito desta maneira,
mas obrigado de qualquer forma."
-
E, se não estiverem com essa disposição,
-
podem rever as edições
danosas feitas com má-fé
-
e reverter o vandalismo.
-
Existe também algo semelhante:
avaliação de entidades.
-
Em vez de classificar uma edição,
a alteração que foi feita,
-
vão classificar toda a revisão.
-
Penso que seja a mesma medida de qualidade
-
mencionada pela Lydia
no início da conferência.
-
Isto fornece um script de utilizador aqui
em cima e uma pontuação de um a cinco,
-
penso eu, da qualidade do item corrente.
-
A ferramenta de fontes primárias é para
bases de dados que queiram importar,
-
mas que não têm qualidade suficiente
para entrar diretamente na Wikidata.
-
Ao invés, adicionam-nas à ferramenta
de fontes primárias e, depois,
-
as pessoas podem decidir
-
se devem adicionar
estas declarações individuais ou não.
-
Mostrar coordenadas como mapas:
é uma funcionalidade conveniente
-
mas também é útil
para controlo de qualidade.
-
Por exemplo, se virem que isto devia ser
o escritório da Wikimedia na Alemanha
-
e as coordenadas forem algures
no Oceano Índico,
-
saberão que algo está errado, aqui.
-
E podem vê-lo mais facilmente
do que se tivessem apenas os números.
-
Esta é uma engenhoca chamada
indicador de integridade relativa,
-
que apresenta este pequeno ícone
-
que vos mostra o quão completo
pensa que este item está
-
e que propriedades
é mais provável que estejam em falta.
-
O que é muito útil
se estiverem a editar um item,
-
estiverem numa área com a qual
não estejam muito familiarizados
-
e não saibam quais são
as propriedades certas a usar.
-
Nesse caso, esta é
uma miniaplicação muito útil.
-
Temos o Shape Expressions.
-
Penso que a Andra ou o Jose
vão falar mais sobre elas
-
mas são uma forma muito poderosa
de comparar os dados que têm
-
com o esquema.
-
Como, que declaração devem ter
certas entidades,
-
a que outras entidades devem estar ligadas
e como essas devem ser.
-
Podem detetar problemas dessa forma.
-
Penso que... Não. Ainda há mais.
-
O Integraality ou painel de propriedades.
-
Dá-vos uma visão geral
dos dados já existentes.
-
Por exemplo, isto é do
WikiProject Red Pandas.
-
Podem ver que temos
um sexo ou género
-
para quase todos os pandas-vermelhos.
-
A data de nascimento varia bastante
consoante o zoo de onde vêm
-
e quase não temos
pandas mortos, o que é maravilhoso
-
(risos)
-
porque são tão fofos.
-
Por isso, isto também é útil.
-
Cá está. Agora para o que está para vir.
-
Wikidata Bridge, anteriormente conhecida
como editor de clientes.
-
Ou seja, editar dados a partir
de caixas de informação da Wikipedia.
-
O que, por um lado, dará
mais visibilidade aos dados
-
pois mais pessoas os conseguirão ver ali.
-
E, assim se espera, encorajará uma maior
utilização da Wikidata nas Wikipedias.
-
Isto significa
que mais pessoas podem reparar
-
se, por exemplo, há dados desatualizados
que precisam de ser atualizados,
-
ao invés de só os verem
na própria Wikidata.
-
Existem também as referências corrompidas.
-
Aqui, a ideia é que, se editarem
uma declaração de valor,
-
pode ser preciso atualizar também
as referências,
-
a não ser
que seja apenas uma gralha, ou similar.
-
Estas referências corrompidas
dizem-no aos editores
-
e também que os outros editores
vêm as outras edições que foram feitas
-
que editaram uma declaração de valor
e não atualizaram a referência.
-
Depois, podem limpar
e decidir se isso deve...
-
Precisam de fazê-lo novamente
-
ou está tudo correto e
não é necessário atualizar a referência.
-
Tem relação com declarações assinadas.
Que têm origem numa preocupação, penso eu,
-
que alguns fornecedores de dados têm de...
-
Há uma declaração que é referenciada
através na UNESCO, ou similar.
-
Depois, de repente,
alguém vandaliza a declaração
-
e eles estão preocupados que parecerá que
-
essa organização, como a UNESCO,
ainda define este valor de vandalismo.
-
Assim, com declarações assinadas,
-
eles podem assinar
essa referência criptograficamente.
-
Isso não vai prevenir edições à referência
-
mas, se alguém vandalizar a declaração
-
ou se a editar de alguma forma
a assinatura deixa de ser válida.
-
E pode-se ver que isto não é exatamente
o que foi dito pela organização.
-
Pode ser que seja uma boa edição
e eles devam assinar a nova declaração,
-
mas também pode acontecer
que deva ser revertida.
-
E também... Isto vai ser
muito empolgante, penso eu.
-
O Citoid é um sistema fantástico
que existe na Wikipedia
-
no qual podem colar um URL,
um identificador, um ISBN,
-
um ID da Wikidata ou
outra coisa qualquer no Visual Editor,
-
e ele devolve uma referência
bem formatada.
-
Tem todos os dados que quiserem
e uma usabilidade excelente.
-
Por comparação, na Wikidata,
se eu quiser adicionar uma referência,
-
tenho, tipicamente, de adicionar o URL,
título, nome de autor,
-
data de publicação da referência,
-
recuperar as datas.
No mínimo, o que é aborrecido.
-
Espera-se que a integração do Citoid
na Wikibase ajude com isso.
-
Penso que é tudo o que tinha. Sim.
-
Vou agora passar à Cristina.
-
(aplausos)
-
Olá, eu sou a Cristina.
-
Sou uma cientista de investigação
da Universidade de Zurique
-
e também um membro ativo
da comunidade Suíça.
-
Quando eu e a Claudia Müller-Birn
submetemos isto à WikidataCon,
-
o que queríamos era continuar a discussão
que começámos no início do ano
-
numa workshop acerca de qualidade de dados
e também nalgumas sessões na Wikimania.
-
Então, o objetivo desta palestra
é apresentar algumas ideias
-
que estivemos a compilar,
nossas e da comunidade,
-
e continuar a discussão.
-
Gostaríamos de continuar
a interagir muito convosco.
-
O que pensamos ser muito importante,
-
é perguntarmos continuamente a todos
os tipos de utilizador na comunidade,
-
o que realmente precisam,
que problemas têm com qualidade de dados.
-
Não apenas os editores, mas também
as pessoas que estão a programar
-
ou a consumir os dados.
-
E também os investigadores que estão
a usar toda a história de edições
-
para analisar o que está a acontecer.
-
Assim, fizemos uma avaliação de cerca
de 80 ferramentas que existem na Wikidata
-
e alinhámo-las com as diferentes
dimensões de qualidade de dados.
-
O que vimos foi que, na realidade,
-
muitas delas estão a vigiar,
a monitorizar a integridade,
-
mas, na verdade... Algumas delas estão
também a capacitar interligações.
-
Mas, existe uma grande necessidade
de ferramentas que vejam a diversidade,
-
que é uma das coisas
que podemos ter na Wikidata.
-
Especialmente, este princípio
do design da Wikidata,
-
segundo o qual podemos ter pluralidade
-
e declarações diferentes
com valores diferentes
-
originárias de fontes diferentes.
-
Visto ser uma fonte secundária,
não temos realmente ferramentas
-
que nos digam
quantas declarações plurais existem,
-
quantas podemos melhorar e como.
-
Também não sabemos
-
quais são todas as razões
para pluralidade que podemos ter.
-
Assim, a partir destes
encontros da comunidade
-
o que discutimos foram os desafios
que ainda necessitam de atenção.
-
Por exemplo, que ter
todas estas comunidades de crowdsourcing
-
é muito bom, já que pessoas diferentes
atacam partes diferentes dos dados
-
ou do gráfico.
-
Temos também conhecimentos
de origem diferentes.
-
Mas, na realidade, é muito difícil alinhar
tudo em algo que seja homogéneo
-
pois pessoas diferentes usam propriedades
diferentes de forma diferente.
-
E estão também à espera de coisas
diferentes das descrições de entidade.
-
Foi também dito
que são necessárias mais ferramentas
-
que dêm uma melhor visão geral
do estado global das coisas.
-
Ou seja, que entidades estão em falta,
em termos de integridade,
-
mas também no que é que as pessoas
estão a trabalhar hoje em dia,
-
na maior parte do tempo.
-
Também foi mencionada com frequência
uma colaboração mais apertada
-
entre, não só as linguagens,
mas os WikiProjects
-
a as diferentes plataformas Wikimedia.
-
Publicámos todos
os comentários transcritos
-
de todas estas discussões
nestas ligações aqui, no Etherpads
-
e também na página wiki da Wikimania.
-
Algumas das soluções que apareceram
-
vão na direção da partilha
das melhores práticas
-
que estão a ser desenvolvidas
nos diferentes WikiProjects.
-
Mas, as pessoas também querem ferramentas
-
que ajudem a organizar
o trabalho em equipa
-
ou, pelo menos, a perceber
quem está a trabalhar em quê.
-
Também foi mencionada
a vontade de ter mais demonstrações
-
e mais modelos que os ajudem
a criar coisas de uma forma melhor.
-
E, pelo contacto que temos
-
com organizações
de dados governamentais abertas
-
e, em particular,
-
eu estou em contacto com o cantão
e a cidade de Zurique,
-
eles estão muito interessados
em trabalhar com a Wikidata
-
porque querem que os seus dados
estejam acessíveis para todos
-
no local onde as pessoas vão
e consultam ou acedem aos dados.
-
Assim, para eles, algo que
seria mesmo interessante
-
seria ter algum tipo
de indicador de qualidade
-
tanto na wiki,
o que já acontece atualmente,
-
como nos resultados SPARQL.
-
Para saber se podem ou não confiar
dos dados da comunidade.
-
Eles também querem saber que partes
dos seus próprios conjuntos de dados
-
são úteis para a Wikidata.
-
E adorariam ter uma ferramenta
que ajudasse a avaliar automaticamente.
-
Também precisam
de algum tipo de metodologia ou ferramenta
-
que os ajude a decidir se devem
ou não importar ou ligar os seus dados
-
pois, nalguns casos,eles também têm
-
os seus próprios conjuntos de dados
abertos ligados e não sabem
-
se devem apenas incorporar os dados
ou continuar a criar ligações
-
dos conjuntos de dados
à Wikidata e vice-versa.
-
Também querem saber se os seus websites
forem referidos na Wikidata.
-
E, quando correm essas consultas
no serviço de consultas
-
recebem, muitas vezes, timeouts.
-
Por isso, talvez devêssemos mesmo
criar mais ferramentas
-
que os ajudem a obter estas respostas
para as suas questões.
-
(ruído de fundo)
-
E, para além disso,
-
nós, investigadores da wiki, também
-
temos falta de alguma informação
nos sumários de edição.
-
Lembro-me que, quando
estávamos a trabalhar
-
para compreender os diferentes
comportamentos dos editores
-
com ferramentas ou bots,
ou utilizadores anónimos, etc,
-
faltava-nos realmente, por exemplo,
-
uma forma padrão de registar
que as ferramentas estavam a ser usadas.
-
Já existem algumas ferramentas
que fazem isso
-
como o PetScan e muitas outras
-
mas talvez devêssemos, na comunidade,
-
debater mais acerca de como
registar estes eventos
-
para obter uma origem otimizada.
-
E, no futuro,
-
precisamos de pensar em dimensões
de qualidade de dados mais concretas
-
que estão relacionadas com dados ligados
mas não com todos os tipos de dados.
-
Por isso, trabalhámos nalgumas medidas
para aceder ao aumento de informação
-
proporcionado pelas ligações.
O que queremos dizer com isso
-
é que, quando ligamos a Wikidata
a outros conjuntos de dados,
-
também deviamos estar a pensar
-
em quanto é que as entidades estão,
na realidade, a ganhar na classificação,
-
na descrição, mas também
nos vocabulários que usam.
-
Para dar um exemplo muito simples
do que quero dizer com isto,
-
podemos pensar... Neste caso,
seria a Wikidata
-
ou o centro de dados externo
que está a ligar à Wikidata.
-
Temos a entidade para uma pessoa
chamada Natasha Noy,
-
temos a afiliação e outras coisas.
-
E, depois dizemos: "Está bem, ligamos
a um local externo
-
e aquela entidade também tem aquele nome."
Mas, na realidade, temos o mesmo valor.
-
Então, seria melhor se ligássemos
a algo que tenha um nome diferente,
-
o que ainda é válido porque esta pessoa
tem duas formas de escrever o nome,
-
e também outras informações
que não temos na Wikidata
-
ou que não temos
no outro conjunto de dados.
-
Mas também, o que é ainda melhor
-
é que estamos a olhar
para o conjunto de dados alvo
-
e eles também têm novas formas
de classificar a informação.
-
Por isso, não só é uma pessoa,
mas, no outro conjunto de dados,
-
também diz que é do sexo feminino
-
ou qualquer outra classificação
que tenha sido usada.
-
Se, no outro conjunto de dados, estiverem
a usar muitos outros vocabulários
-
isso também está a ajudar
na recuperação de informação como um todo.
-
Também gostava de dizer
-
que pensamos que podemos
mostrar melhor as consultas federadas
-
porque, quando olhamos para o log
da consulta fornecido por Malyshev et al,
-
vemos que, das consultas orgânicas,
temos apenas algumas consultas federadas.
-
E, na realidade, a federação é uma
das vantagens chave de ter dados ligados.
-
Por isso, talvez a comunidade
ou as pessoas que usam a Wikidata
-
também precisem
de mais exemplos deste tipo.
-
Se olharmos para a lista
de parâmetros que estão a ser usados...
-
Esta não é uma lista completa
e temos muitos mais.
-
Estes dados foram analisados a partir
de consultas feitas até março de 2018,
-
mas deviamos olhar para a lista
de parâmetros federados que temos
-
e ver se os estamos realmente
a usar ou não.
-
Por isso, duas questões
que tenho para a audiência
-
e que talvez possamos usar
depois para a discussão, são:
-
que problemas de qualidade de dados
devem, na vossa opinião, ser abordados,
-
devido às vossas necessidades.
-
Mas também, onde é que é necessária
mais automação
-
para vos ajudar com as edições
ou patrulhamentos.
-
É tudo, muito obrigada.
-
(aplausos)
-
(Jose Emilio Labra) Vou falar-vos
de algumas ferramentas
-
que estamos a desenvolver,
relacionadas com o Shape Expressions.
-
É disto que quero falar...
Sou o Jose Emilio Labra,
-
mas há... Todas estas ferramentas
foram construídas por pessoas diferentes,
-
muitas relacionadas com o W3C ShEx,
Shape Expressions Community Group.
-
ShEx Community Group.
-
A primeira ferramenta que quero mencionar
é o RDFShape. Esta é uma ferramenta geral
-
porque o Shape Expressions
não é só para a Wikidata.
-
O Shape Expressions é uma linguagem
para validar RDF em geral.
-
Esta ferramenta foi desenvolvida
principalmente por mim
-
e é uma ferramenta para validar
RDF no geral.
-
Se quiserem aprender acerca de RDF
ou se quiserem validar parâmetros RDF
-
ou SPARQL, não só na Wikidata,
-
o meu conselho é
que podem usar esta ferramenta.
-
Também para ensinar.
-
Sou um professor universitário
-
e uso-a no meu curso de web semântica
para ensinar RDF.
-
Por isso, se quiserem aprender RDF,
penso que esta é uma boa ferramenta.
-
Por exemplo, esta é só uma visualização
de um gráfico RDF com essa ferramenta.
-
Mas, antes de vir cá, no último mês,
-
comecei um fork de rdfshape
especificamente para a Wikidata,
-
porque pensei...
-
Chama-se WikiShape e, ontem,
apresentei-a como presente à Wikidata.
-
Então, eu peguei...
-
O que eu fiz foi remover tudo
o que não tivesse relação com a Wikidata
-
e acrescentar várias coisas,
com codificação permanentemente,
-
como, por exemplo,
o parâmetro Wikidata SPARQL.
-
Agora, foi-me pedido
que fizesse isso também para a Wikibase.
-
E é muito fácil
fazê-lo também para a Wikibase.
-
Então, esta ferramenta,
a WikiShape, é muito recente.
-
Penso que funciona,
a maioria das funcionalidades,
-
mas há algumas funcionalidades
que podem não funcionar.
-
Se experimentarem e quiserem
melhorá-la, digam-me, por favor.
-
Isto é uma captura de ecrã,
mas penso que posso experimentar.
-
Por isso, vamos experimentar.
-
(risos)
-
Vamos ver se funciona.
-
Primeiro, tenho de sair do...
-
Aqui.
-
Esta é a ferramenta, aqui.
-
Coisas que podem fazer com a ferramenta:
-
por exemplo, podem
verificar esquemas, esquemas de entidades.
-
Sabem que há um novo namespace
que é "E" qualquer coisa".
-
Então, se começaram, por exemplo,
a escrever "humano",
-
à medida que escrevem,
o autocompletamento permite-vos verificar
-
que isto é o Shape Expressions
de um humano
-
e que isto é o Shape Expressions, aqui.
-
Como podem ver, este editor
tem realce de sintaxe.
-
Isto é... Bem, talvez seja
muito pequeno, o ecrã.
-
Posso tentar aumentá-lo.
-
Talvez o vejam melhor, agora.
-
Então, este é o editor, com realce
de sintaxe, e também tem...
-
Quero dizer, este editor
vem do mesmo código fonte
-
do editor de consultas da Wikidata.
-
Se pairarem com o rato aqui,
-
vai mostrar-vos as etiquetas
das diferentes propriedades.
-
Penso que é muito útil porque, agora,
-
o esquema de entidades
que está na Wikidata
-
é só uma ideia em texto simples.
-
Penso que este editor é muito melhor
porque tem autocompletamento
-
também tem...
-
Por exemplo, se quiserem adicionar
uma restrição
-
vão dizer: "wdt:".
-
Começam a escrever "author"
e depois clicam em Ctrl+Espaço
-
e vai sugerir-vos várias coisas.
-
Então, isto é semelhante
ao serviço de consultas da Wikidata,
-
mas para Shape Expressions,
especificamente.
-
Porque penso que, criar Shape Expressions
-
não é mais difícil do que
escrever consultas SPARQL.
-
Algumas pessoas pensam
que o nível de dificuldade é o mesmo.
-
É provavelmente mais fácil
porque o Shape Expressions era...
-
Quando o concebemos, fizemo-lo
para que fosse mais fácil trabalhar.
-
Esta é uma das primeiras coisas que têm.
Este editor para Shape Expressions.
-
Depois, também têm a possibilidade de,
por exemplo, visualizar.
-
Se tiverem uma Shape Expression,
usem, por exemplo...
-
Penso que "trabalho escrito" é
uma boa Shape Expression
-
porque tem algumas relações
entre diferentes coisas.
-
E isto é a visualização UML
do trabalho escrito.
-
Numa UML, isto é fácil de ver,
as diferentes propriedades.
-
Quando fazem isto, apercebi-me que,
quando o tentei com várias pessoas,
-
encontram alguns erros
nas suas Shape Expressions
-
porque é fácil detetar quais são
as propriedades em falta.
-
Depois, temos aqui outra possibilidade
que é a de poder também validar.
-
Penso que a temos aqui, a validação.
-
Pensava que a tinha nalguma etiqueta.
Talvez a tenha fechado.
-
Mas podem, por exemplo,
clicar aqui: Validar entidades.
-
Vocês, por exemplo,
-
"q42" com "e42", que é o autor.
-
Com "humano". Penso que o podemos fazer
com "humano".
-
E depois é...
-
Está a demorar um pouco a fazê-lo
porque está a realizar consultas SPARQL.
-
E agora, por exemplo, está a falhar
por causa da rede. Mas...
-
Podem tentá-lo.
-
Vamos continuar com a apresentação,
com outras ferramentas.
-
O meu conselho é, se o quiserem tentar
e se quiserem qualquer feedback, digam-me.
-
Então, para continuar
com a apresentação...
-
Isto é a WikiShape.
-
Já o disse,
-
o editor de Shape Expressions
é um projeto independente no GitHub.
-
Podem usá-lo no vosso próprio projeto.
-
Se quiserem construir
uma ferramenta de Shape Expressions,
-
podem integrá-lo
em qualquer outro projeto.
-
Está no GitHub e podem usá-lo.
-
O mesmo autor,
é um dos meus estudantes.
-
Ele também criou um editor
para Shape Expressions,
-
também inspirado pelo
serviço de consultas do Wikidata,
-
onde, numa coluna,
-
têm este editor mais visual
de consultas SPARQL
-
onde podem introduzir este tipo de coisas.
-
Esta é uma captura de ecrã.
-
Podem ver que isto
é Shape Expressions em texto,
-
mas isto é Shape Expressions
baseado em formas
-
onde, provavelmente,
demoraria um pouco mais,
-
onde podem pôr as diferentes colunas
nos diferentes campos.
-
Depois há o ShExEr.
-
Temos...Foi feito por um estudante
de doutoramento da Universidade de Oviedo.
-
E ele está cá,
por isso pode apresentar o ShExEr.
-
(Danny) Olá, eu sou o Danny Fernàndez.
-
Sou um estudante de doutoramento
na Universidade de Oviedo
-
a trabalhar com o Labra.
-
Já que estamos a ficar sem tempo,
vamos fazer isto rapidamente.
-
Não faremos uma demonstração,
mas veremos algumas capturas de ecrã.
-
A forma usual de trabalhar com
Shape Expressions,
-
ou com qualquer linguagem de formas,
é ter um perito no domínio
-
que define, a priori,
como se deve parecer o gráfico,
-
define algumas estruturas.
-
Depois usam essas estruturas
para comparar os dados e validá-los.
-
Esta ferramenta, que é, tal como aquelas
que o Labra esteve a apresentar,
-
uma ferramenta polivalente
para qualquer fonte RDF,
-
está concebida para fazer o contrário.
-
Já têm alguns dados,
-
selecionam que nodos
querem usar para formar a forma
-
e depois extraem ou inferem
a forma automaticamente.
-
Então, mesmo sendo
uma ferramenta polivalente,
-
o que fizemos para este WikidataCon
foi este botão catita.
-
Se clicarem nele,
o que acontece, essencialmente,
-
é que, há
tantos parâmetros de configuração,
-
e ele configura-os para funcionar
com os parâmetros da Wikidata.
-
Vai acabar em breve, desculpem.
-
Assim que pressionam este botão
o que obtêm é essencialmente isto.
-
Depois de selecionarem que tipo de nodos,
-
que tipo de instâncias da nossa classe,
ou seja o que for que estejam a procurar,
-
obtêm um esquema automático.
-
Todas as restrições são resolvidas
por quantos nodos são conformantes.
-
Podem filtrar os menos comuns, etc.
-
Há um poster lá em baixo
acerca disto.
-
Eu estarei lá em baixo e cá em cima,
em todo o lado o dia todo.
-
Por isso, se tiverem interesse adicional
nesta ferramenta
-
falem comigo durante esta jornada.
-
Vou devolver o microfone ao Labra.
Obrigado.
-
(aplausos)
-
(Jose) Vamos continuar com
as outras ferramentas.
-
A outra ferramenta é o ShapeDesigner.
-
Andra, queres falar
do ShapeDesigner agora
-
ou mais tarde, durante a workshop?
-
Há uma workshop...
-
Esta tarde, há uma workshop,
especifica para Shape Expressions, e...
-
A ideia é que vai ser mais
na vertente prática
-
e, se quiserem praticar ShEx,
podem fazê-lo lá.
-
Esta ferramenta é o ShEx,js.
Lá está o Eric, ali.
-
Podes apresentá-la.
-
(Eric) Muito rapidamente,
aquilo que quero dizer
-
é que já viram, provavelmente,
a interface de ShEx
-
que foi concebida para a Wikidata.
-
Ela foi simplificada e pensada
especificamente para a Wikidata
-
porque a versão genérica
tem mais funcionalidades.
-
Mas pensei em mencioná-la
porque uma dessas funcionalidades
-
é particularmente útil
para depurar esquemas da Wikidata.
-
A qual é, se selecionarem o modo slurp,
-
o que faz é dizer,
à medida que estou a validar,
-
que quero puxar
todos os triplos para baixo.
-
E, isso significa
que, se tiver um conjunto de falhas,
-
posso verificá-las e começar a olhar
para essas falhas e dizer
-
quais são os triplos que estão aqui.
-
Peço desculpas, os triplos estão
aqui em baixo.
-
Isto é só um registo do que aconteceu.
-
Depois, podem limitar-se a remexer
nisto em tempo real.
-
Brincam com alguma coisa e muda.
-
Então, é uma versão mais rápida
para fazer todas essas coisas.
-
Este é um formulário ShExC.
-
É algo que o Joachim sugeriu.
-
Pode ser útil para povoar
documentos da Wikidata
-
baseado numa Shape Expression
para esse documento.
-
Isto não foi feito
à medida da Wikidata,
-
mas é apenas para mostrar
que podem ter um esquema
-
e podem ter algumas anotações
para especificar
-
como quero apresentar o esquema.
-
Depois, constrói um formulário
-
e, se tiverem dados,
pode até povoar o formulário.
-
PyShEx [inaudível].
-
(risos)
-
(Jose) Penso que este seja o último.
-
Sim, o último é o PyShEx.
-
O PyShEx é uma implementação
de Shape Expressions em Python.
-
Podem também experimentar
o Jupyter Notebooks
-
se quiserem esse tipo de coisas.
É tudo, para isto.
-
(aplausos)
-
(Andra) Vou falar acerca
de um projeto específico
-
com o qual estou envolvido
chamado Gene Wiki
-
e onde também estamos a lidar
com questões de qualidade.
-
Mas, antes de falar da qualidade,
-
talvez uma pequena apresentação
acerca do que é o Gene Wiki.
-
Acabámos de lançar uma pré-impressão
de um artigo que escrevemos recentemente
-
que explica os detalhes do projeto.
-
Tiraram fotografias.
-
Basicamente, o que o Gene Wiki faz
-
é tentar inserir dados biomédicos,
dados públicos, na Wikidata.
-
Seguimos um padrão específico
para inserir esses dados na Wikidata.
-
Assim, quando temos um novo repositório,
ou um novo conjunto de dados
-
que é elegível
para ser incluído na Wikidata,
-
o primeiro passo
é o envolvimento da comunidade.
-
Não é dirigido, necessariamente
a uma comunidade da Wikidata,
-
mas a uma comunidade de pesquisa local.
-
Encontramo-nos em pessoa,
ou online, ou em qualquer plataforma
-
e tentamos criar um modelo de dados
-
que faça a ponte entre os seus dados
e o modelo Wikidata.
-
Aqui, tenho uma imagem de uma workshop
que aconteceu aqui, no ano passado.
-
Estava a tentar olhar
para um conjunto de dados específico
-
e, enfim, vêm muitas discussões,
-
e depois alinhá-los com o schema.org
e outras ontologias que por aí andam.
-
Depois, no final do primeiro passo,
temos um desenho do esquema
-
que queremos implementar na Wikidata.
-
O que vêm aqui, isto é apenas simples,
-
temo-lo lá atrás, ali,
-
e podemos fazer alguns esquemas
dentro deste painel mesmo hoje.
-
Assim que temos o esquema montado,
-
o próximo passo é tentar fazer
o esquema da máquina legível.
-
Porque querem ter modelos acionáveis
para fazer uma ponte
-
com os dados que estão a inserir
de qualquer base de dados biomédica
-
no Wikidata.
-
Aqui, estamos a aplicar Shape Expressions.
-
Usámo-lo porque permite-vos testar
-
se o conjunto de dados é, na realidade...
Não. A ver, em primeiro lugar,
-
se os dados que já existem na Wikidata
seguem o mesmo modelo de dados
-
que foi conseguido no processo anterior.
-
Depois, com a Shape Expression
podemos verificar:
-
os dados deste tópico na Wikidata,
será que precisam de uma limpeza
-
ou precisamos de adaptar o nosso modelo
ao modelo da Wikidata, ou vice-versa?
-
Quando isso estiver definido
e começarmos a programar bots
-
e os bots estão a passar a informação
-
que está nas fontes primárias
para a Wikidata.
-
Quando os bots estão prontos...
-
Programamos estes bots
com uma plataforma chamada...
-
com uma biblioteca de Python
chamada Wikidata Integrator
-
que foi criada pelo nosso projeto.
-
Uma vez que tenhamos os nossos bots,
usamos uma plataforma chamada Jenkins
-
para integração contínua.
-
Com o Jenkins,
-
atualizamos constantemente
as fontes primárias com a Wikidata.
-
Este é um diagrama para o artigo
que mencionei anteriormente.
-
Esta é a nossa paisagem atual.
-
Cada caixa laranja
é um recurso primário para drogas,
-
proteínas, genes, doenças
compostos químicos com interação.
-
Este modelo é muito pequeno
para ser lido agora,
-
mas esta é a base de dados,
as fontes, que gerimos na Wikidata
-
e que fazem ponte com as fontes primárias.
-
Aqui está um desses fluxos de trablaho.
-
Um dos nossos parceiros
é a Disease Ontology.
-
A Disease Ontology é uma ontologia CC0
-
e a ontologia CC0
tem o seu próprio ciclo de curadoria.
-
Eles atualizam continuamente
a Disease Ontology
-
para refletir o espaço de doenças
ou a interpretação de doenças.
-
Há também o ciclo de curadoria
da Wikidata acerca de doenças
-
onde a comunidade Wikidata
monitoriza constantemente
-
o que se está a passar na Wikidata.
-
Depois, temos duas funções
-
às quais chamamos, coloquialmente,
curadores guardiões.
-
Isto sou eu
e um colega há cinco anos atrás.
-
Ficamos ao computador
e monitorizamos a Wikipedia e a Wikidata
-
e, se houver alguma questão
reportada à comunidade primária,
-
aos recursos primários, eles olhavam
para a implementação e decidiam:
-
"Confiamos nas entradas da Wikidata?"
-
Se sim, é considerada,
entra no ciclo
-
e na próxima iteração
faz parte da Disease Ontology
-
e é fornecida à Wikidata.
-
Estamos a fazer o mesmo
com a WikiPathways.
-
A WikiPathways é um percurso
inspirado na wiki
-
e um repositório de percursos.
-
É a mesma história, já há diferentes
recursos de percursos na Wikidata.
-
Podem haver conflitos entre
esses recursos de percursos
-
e esses conflitos são comunicados de volta
-
pelos curadores guardiões
a essa comunidade
-
mantendo-se os ciclos
individuais de curadoria.
-
Mas, se se lembrarem do ciclo anterior,
-
mencionei aqui
apenas dois ciclos, dois recursos.
-
Temos de fazer isto
para cada recurso individual que temos
-
e temos de gerir o que se passa
porque, quando falo em curadoria,
-
quero dizer ir
às páginas de topo da Wikipedia,
-
às páginas de topo da Wikidata,
e tentar fazer isso.
-
Isso é muito para os dois curadores
guardiões que tínhamos.
-
Por isso,
quando estive numa conferência em 2016,
-
onde o Eric fez uma apresentação
sobre Shape Expressions,
-
aderi à onda e disse: "Está bem.
-
o Shape Expressions pode ajudar-nos
a detetar as diferenças na Wikidata
-
e isso permite que os guardiões tenham
-
relatórios mais eficientes
para comunicar."
-
Então, este ano, fiquei deliciado
com a entidade de esquemas
-
porque, agora, podemos guardar
esses esquemas de entidades na Wikidata,
-
mesmo na Wikidata,
enquanto, antes, estavam no GitHub,
-
e isto está em sintonia
com a interface da Wikidata.
-
Então, têm coisas
como discussões de documentos
-
mas também têm revisões.
-
Assim, podem impulsionar as páginas
de topo e as revisões na Wikidata
-
para usar isso para debater
acerca do que está na Wikidata
-
e o que está nos recursos primários.
-
Isto, que o Eric acabou de apresentar,
já é um grande benefício.
-
Aqui, fizemos uma Shape Expression
para o gene humano
-
e, depois, passámos-la através
de uma ShEx simples e, como podem ver,
-
já temos no...
-
Existe uma questão
que precisa de ser monitorizada,
-
onde há um item
que não encaixa naquele esquema
-
e, depois, podem já criar relatórios
de curadoria de entidades de esquemas
-
baseados em... e enviar isto para
os diferentes relatórios de curadoria.
-
Mas, o ShEx.js é uma interface construída
-
e, se puder mostrar cá atrás,
faço apenas dez,
-
mas temos dezenas de milhares
e, por isso, não é escalável.
-
Agora, o Wikidata Integrator
também suporta ShEx
-
e podemos repetir iterações de itens
-
onde dizemos "sim, não", "sim, não"
"verdadeiro, falso", "verdadeiro, falso".
-
Então,
-
aumentar um pouco a eficiência
ao lidar com os relatórios.
-
Mas, agora, isso dificulta
o Wikidata Query Service
-
e, recentemente, tivemos estrangulamentos.
-
Por isso, novamente, não é escalável.
-
É ainda um processo em curso,
o como lidar com modelos na Wikidata.
-
E, ShEx é, não só intimidante,
-
como a escala é demasiado grande
para lidarmos com ela.
-
Então, eu comecei a trabalhar. Esta é
a minha primeira validação do conceito,
-
ou exercício,
onde usei uma ferramenta chamada yED.
-
Comecei a desenhar aquelas Shape
Expressions e, porque...
-
E depois, regenerei este esquema
-
no seu formato adjacente
de Shape Expressions.
-
Isto iria abrir-se à audiência
-
que está intimidada
pelas linguagens Shape Expressions.
-
Mas, há um problema
com essas descrições visuais
-
porque isto também é um esquema
que foi desenhado em yEd por alguém.
-
E aqui está outro,
que é belíssimo.
-
Adorava ter isto na minha parede,
mas continua a não ser interoperável.
-
Quero acabar a minha palestra com...
-
É a primeira vez que...
Tenho roubado e usado este slide.
-
É uma honra tê-lo na audiência.
-
Gosto realmente disto:
-
"As pessoas acham que RDF é chato
porque é complicado.
-
A verdade á ainda pior. É tão simples
-
porque temos de trabalhar
com problemas do mundo real
-
que são horrivelmente complicados.
-
Embora possam evitar o RDF,
-
é mais difícil evitar dados complicados
e problemas computacionais complicados."
-
Isto é acerca de RDF, mas penso
que também pode ser aplicado à modelação.
-
Então, o meu argumento é,
devemos realmente...
-
Como é que avançamos com a modelação?
-
Devemos discutir ShEx
ou modelos visuais, ou...
-
Como é que continuamos?
-
Muito obrigado pelo vosso tempo.
-
(aplausos)
-
(Lydia) Muito obrigada.
-
Venham para a frente
-
para podermos abrir
as questões da audiência.
-
Existem questões?
-
Sim.
-
E, penso...
Para a câmara, precisamos de...
-
(Lydia a rir) Sim.
-
(Interveniente 1) Uma questão para a
Cristina, penso eu.
-
Mencionou, exatamente,
o termo "ganho de informação"
-
devido à ligação com outros sistemas.
-
Existe uma medida teórica de informação
-
que usa estatística e probabilidade
e se chama ganho de informação.
-
Tem o mesmo...
-
Quero dizer, estava a falar
exatamente dessa medida,
-
do ganho de informação
da teoria de probabilidade,
-
da teoria de informação,
ou apenas a usar esta entidade conceptual
-
para medir o ganho de informação
de alguma forma?
-
(Cristina) Não.
Nós definimos e implementamos medidas
-
que estão a usar a entropia de Shannon,
por isso, é isso que significa.
-
Não queria entrar em detalhes
acerca das fórmulas concretas...
-
(Interveniente 1) Não, claro.
Daí a pergunta.
-
- (Cristina) Mas sim...
- (Interveniente 1) Obrigado.
-
(Interveniente 2) Faço um
comentário, mais que uma questão.
-
(Lydia) Força.
-
(Interveniente 2) Tem havido
muito ênfase ao nível do item,
-
acerca de qualidade e integridade.
-
Uma das coisas que me preocupa é
-
não estarmos a aplicar o mesmo
às hierarquias e penso que temos a questão
-
das nossas hierarquias
não serem boas, com frequência.
-
Estamos a ver
que isto vai ser um problema real
-
com a pesquisa de Commons e outras coisas.
-
Uma das coisas que conseguimos fazer
é importar externa...
-
Da forma como os thesaurus externos
estruturam as suas hierarquias,
-
usando o qualificador
de conceitos mais geral P4900.
-
Mas, o que penso que seria realmente útil,
seriam melhores ferramentas para o fazer
-
para que possamos importar uma
hierarquia de thesaurus externa,
-
mapeá-la nos nossos itens da Wikidata.
-
Uma vez implementada
com esses qualificadores P4900,
-
podemos fazer ótimas
consultas através de SPARQL
-
para ver onde é que a nossa hierarquia
diverge dessa hierarquia externa.
-
Por exemplo, como podem saber,
Paula Morma, o utilizador PKM
-
faz muito trabalho em moda.
-
Por isso, usamos isso para puxar
-
a hierarquia
do Thesaurus Europeana Fashion
-
e a hierarquia do thesauros de moda
Getty AAT.
-
Depois, vemos onde as lacunas
estavam nos nossos itens de alto nível,
-
que são um problema real para nós
porque, com frequência,
-
estas são coisas que só existem
como páginas de desambiguação na Wikipedia
-
e, por isso,
temos muitos itens de alto nível
-
a faltar nas nossas hierarquias.
-
Isto é algo que precisamos de abordar
em termos de qualidade e de integridade.
-
O que realmente ajudaria
-
seriam melhores ferramentas
que a selva de scripts que escrevi.
-
Se alguém pudesse pôr isso
num bloco de notas PAWS em Python,
-
ser capaz de receber um thesaurus
externo, pegar na sua hierarquia,
-
a qual pode muito bem estar disponível
como dados ligados, ou pode não estar,
-
para depois transferi-lo para
declarações rápidas
-
para pôr em valores P4900.
-
E, mais tarde,
-
quando a nossa representação
ficar mais completa, atualizar os P4900s.
-
Porque, à medida que a nossa representação
fica ultrapassada, fica mais densa.
-
Os valores desses qualificadores
precisam de mudar
-
para representar que temos mais
da sua hierarquia no nosso sistema.
-
Se alguém pudesse fazer isso,
penso que seria muito útil.
-
Também precisamos
de olhar para outras estratégias
-
para aumentar a qualidade
e a integridade ao nível da hierarquia,
-
não só ao nível do item.
-
(Andra) Posso acrescentar algo?
-
Sim. E, na realidade, fazemos isso.
-
Posso recomendar olhar
para a Shape Expression que o Finn fez
-
com os dados léxicos
onde ele cria Shape Expressions
-
e depois desenvolve
sobre outras Shape Expressions.
-
Têm este conceito
de Shape Expressions ligadas na Wikidata
-
e, especificamente, o caso de uso,
se entendi bem,
-
é exatamente o que estamos a fazer
na Gene Wiki.
-
Têm a Disease Ontology
que é posta na Wikidata
-
e, depois, dados de doenças entram
e aplicamos Shape Expressions
-
para ver se encaixam com este thesaurus.
-
Existem outros thesaurus, ou outras
ontologias, para vocabulários controlados
-
que ainda precisam
de ser inseridos na Wikidata.
-
E é exatamente por isso que
o Shape Expressions é tão interessante.
-
Porque podemos ter uma Shape Expression
para a Disease Ontology,
-
uma Shape Expression para o MeSH.
-
Pode dizer: "Agora
quero verificar a qualidade."
-
Porque também tem,
na Wikidata, o contexto
-
de quando tem um vocabulário controlado.
-
Diz que a qualidade
está de acordo com isto
-
mas pode ter uma
comunidade discordante.
-
Por isso, as ferramentas
já estão implementadas,
-
mas, agora, precisamos
de criar esses modelos
-
e aplicá-los
aos diferentes casos de uso.
-
(Interveniente 2)
Uma Shape Expression é muito útil
-
logo que tenha a ontologia externa
mapeada na Wikidata.
-
Mas, o meu problema é que
está a chegar aquele ponto.
-
Que é perceber quanto da ontologia externa
não está ainda na Wikidata
-
e onde estão as lacunas.
-
É aí que penso que
ter ferramentas mais robustas
-
para ver o que está em falta
de ontologias externas
-
seria muito útil.
-
(Andra) O maior problema aqui
-
é, não tanto as ferramentas,
mas mais o licenciamento.
-
Pôr as ontologias na Wikidata
é, na realidade, muito fácil.
-
Mas, a maioria das ontologias têm,
como é que o posso dizer educadamente,
-
licenciamento restritivo e, por isso,
não são compatíveis com a Wikidata.
-
(Interveniente 2) Existe um enorme número
de thesaurus do setor público
-
em setores culturais.
-
- (Andra) Então precisamos de falar.
- (Interveniente 2) Sem problema.
-
(Andra) Então, precisamos de falar.
-
(Interveniente 3) O comentário
que quero fazer
-
é uma resposta para o James.
-
O que acontece é que
hierarquias fazem gráficos
-
e quando queremos...
-
Quero falar acerca de um
problema comum em hierarquias,
-
que são hierarquias circulares.
-
Elas voltam umas às outras
quando há um problema.
-
Não devíamos ter isso com hierarquias.
-
É engraçado que isto
acontece muito em categorias na Wikipedia.
-
Temos muitos círculos em categorias.
-
Mas, a boa notícia é que...
-
Tecnicamente, é um problema completo PMP,
por isso não o conseguimos encontrar,
-
e facilmente, se construirmos
um gráfico a partir disso,
-
mas há muitas formas
que foram desenvolvidas
-
para encontrar problemas
nestes gráficos de hierarquia.
-
Existe um artigo
chamado Finding Cycles...
-
Breaking Cycles in Noisy Hierachies.
-
Tem sido usado para ajudar
na classificação da Wikipedia inglesa.
-
Podemos pegar nisto
e aplicar estas hierarquias na Wikidata
-
e, depois, podemos encontrar
coisas que são problemáticas
-
e remover as que estão
a causar problemas.
-
E encontrar os problemas, na realidade.
-
Isto é só uma ideia, para que...
-
(Interveniente 2) Está tudo muito bem,
mas acho que está a subestimar
-
o número de más relações de subclasse
que nós temos.
-
É como ter uma cidade
que está completamente no país errado.
-
Existem ferramentas para geografia,
para identificar isso.
-
Precisamos de ter
muito melhores ferramentas em hierarquias
-
para identificar onde o equivalente
do item para o país
-
esteja a faltar completamente
ou se foi subclassificado
-
como algo que não signifique
algo completamente diferente.
-
(Lydia) Sim, penso
que está a chegar a algo
-
que eu e a minha equipa ouvimos sempre
de pessoas que reutilizam os nossos dados.
-
Com frequência, também.
-
Dados pontuais podem ser ótimos,
-
mas, se temos de olhar
para a ontologia, etc,
-
torna-se muito...
-
Penso que um dos grandes problems
que causa isto
-
é que muita da edição na Wikidata
-
acontece baseada
num item individual, não é?
-
Fazemos uma edição nesse item
-
sem nos darmos conta que isto
pode ter consequências globais
-
no resto do gráfico, por exemplo.
-
E, se as pessoas têm ideias
sobre como tornar isto mais visível,
-
as consequências de uma
edição local individual,
-
penso que seria útil explorá-lo.
-
Para melhor mostrar às pessoas
as consequências das suas edições,
-
que elas podem estar a fazer de boa fé,
-
quais são elas.
-
(Risos) Muito bem. Vamos começar consigo,
depois você, depois você e depois você.
-
(Interveniente 3) Bem, depois do debate,
-
só para exprimir a minha concordância
com o que o James estava a dizer.
-
Essencialmente, parece
que a coisa mais perigosa é a hierarquia.
-
Não a hierarquia, mas, de forma geral,
-
a semântica das relações de subclasse
vistas na Wikidata, certo?
-
Estive a estudar linguagens recentemente,
apenas para esta conferência
-
e, por exemplo, encontram-se muitos casos
-
onde a linguagem é parte de
e uma subclasse da mesma coisa.
-
Podemos dizer que temos
uma ontologia flexível.
-
A Wikidata dá-nos a liberdade
de exprimir isso, por vezes.
-
Porque, por exemplo
-
essa ontologia de linguagens
é também politicamente complicada, certo?
-
É bom estar numa posição que nos permita
expressar um nível de incerteza.
-
Mas imaginem alguém a querer
fazer leitura ótica a partir disso.
-
É mesmo problemático.
-
E, depois,
-
não penso que a ontologia
seja algo que foi importada de algures,
-
é algo que é originalmente nosso.
-
Diria que foi colhida da Wikipedia
mesmo no início.
-
Por isso pergunto-me... Esta
coisa do Shape Expressions é ótima,
-
e também validadora e reparadora.
A ontologia da Wikidata
-
a partir de recursos externos
é uma bela ideia.
-
No final,
-
acabaremos por refletir
as ontologias externas na Wikidata?
-
E também, o que fazemos
com a parte central da nossa ontologia
-
que nunca é colhida
a partir de recursos externos.
-
Como é que solucionamos isso?
-
Penso, realmente, que isso
será um problema por si só.
-
Teremos de nos focar nisso
independentemente da ideia
-
de validar a ontologia com algo externo.
-
(Lydia aponta para a audiência)
-
(Interveniente 4) Restrições e formas
são muito impressionantes,
-
aquilo que podemos fazer com elas,
-
mas o ponto principal
não está claro.
-
Porque agora podemos tornar mais explícito
o que esperamos dos dados.
-
Antes, cada um tinha de escrever
as suas próprias ferramentas e scripts.
-
Por isso, é mais visível
e podemos discuti-lo.
-
Mas porque não é sobre
o que está errado ou certo,
-
é acerca de uma expectativa.
-
Vocês terão
diferentes expectativas e debates
-
acerca de como queremos
modelar as coisas na Wikidata
-
e isto...
-
O estado atual é apenas
um passo na direção
-
porque agora precisamos
-
de muito conhecimento especializado
para lidarmos com isto.
-
Precisamos de formas melhores
de visualizar esta restrição,
-
para a transformar,
porventura em linguagem natural,
-
para que as pessoas
melhor a possam entender.
-
Mas não é tanto
acerca do errado ou do certo.
-
(Lydia) Sim.
-
(Interveniente 5) Para questões
de qualidade, só quero fazer eco...
-
Definitivamente, encontrei muitos
dos problemas. Encontrei...
-
diferenças de opinião
entre "instâncias de" versus "subclasse".
-
Diria, erros, nestas situações.
-
E tentar encontrá-los
tem sido um processo moroso.
-
O que encontrei foi:
"Se eu encontrar itens de grande impressão
-
que são algo...
-
e depois usar
todas as instâncias das subclasses
-
para encontrar
todas as declarações derivadas disto."
-
Esta é uma forma muito útil
de olhar para estes erros.
-
Mas eu estava curioso para saber
se o Shape Expressions...
-
se há...
-
Se isto pode ser usado como ferramenta
para ajudar a resolver estas questões.
-
Mas sim...
-
(Interveniente 6) Se tem
uma pegada estrutural...
-
Se tem uma pegada estrutural
que podemos... que seja falsificável.
-
Podemos olhar para isso
e dizer: "Está errado."
-
Então sim, podemos fazer isso.
-
Mas se for só tentar mapeá-lo
para objetos do mundo real
-
então vai precisar
de muitos cérebros.
-
(Interveniente 7) Olá. Pablo Mendes
do Siri Knowledge da Apple.
-
Estamos aqui para descobrir como ajudar
o projeto e a comunidade,
-
mas a Cristina cometeu o erro
de perguntar o que queríamos.
-
(risos) Por isso, penso
que uma das coisas que gostaria de ver
-
gira à volta da verificabilidade,
-
que é um dos princípios chave
do projeto na comunidade.
-
E confiabilidade.
-
Nem todas as declarações são iguais,
algumas são fortemente disputadas,
-
outras são fáceis de adivinhar.
-
A data de nascimento de alguém
pode ser verificada,
-
como viram hoje na Keynote,
questões de género são mais complicadas.
-
Podem discutir um pouco do que sabem
-
nesta área de qualidade de dados, acerca
de confiabilidade e de verificabilidade?
-
(risos)
-
Se não há muito,
gostaria de ver muito mais. (risos)
-
(Lydia) Sim.
-
Aparentemente, não temos muito a dizer
acerca disso. (risos)
-
(Andra) Penso que podemos fazer muito,
mas tive uma discussão consigo ontem.
-
O meu exemplo preferido que, soube ontem,
foi descontinuado,
-
é, se forem ao Q2, que é Terra,
-
existe uma declaração
que reivindica que a Terra é plana.
-
Adoro esse exemplo
-
porque há uma comunidade
por aí que afirma isso
-
e eles têm recursos verificáveis.
-
Por isso, penso que seja um caso genuíno.
-
Não deve ser descontinuado,
deve estar na Wikidata.
-
E penso que o Shape Expressions
pode ser fundamental aqui,
-
porque podem dizer:
-
"Sim, estou mesmo interessado
neste caso de uso",
-
ou que este é um caso de uso
com o qual não concordam.
-
Mas também pode haver um caso de uso
onde dizem: "Estou interessado."
-
Há este exemplo. Dizem:
"Tenho glucose."
-
E a glucose, se forem um biólogo,
-
As restrições químicas
da molécula de glucose não vos interessam,
-
apenas... tudo o que seja
glucose é o mesmo.
-
Mas, se forem um químico,
arrepiam-se ao ouvir isso.
-
Têm 200 e tal...
-
Depois, podem ter
Shape Expressions múltiplas.
-
Vou entrar com...
Estou no ponto de vista de um químico,
-
vou aplicar isso.
-
E depois, dizem,
"sou um caso de uso de um biólogo",
-
e aplicam essa Shape Expression.
-
E, quando quiserem colaborar,
-
deviam falar com o Eric acerca
dos mapas ShEx.
-
Esta jornada está apenas a começar.
-
Mas acredito que seja muito
instrumental nessa área.
-
(Lydia) Ali.
-
(risos)
-
(Interveniente 8) Tive várias ideias
para alguns pontos na discussão,
-
por isso, vou tentar não perder...
Tive três ideias, por isso...
-
Baseado no que o James disse há pouco,
-
temos um grande problema
na Wikidata desde o início
-
para a ontologia superior.
-
Falámos acerca disso
há dois anos na WikidataCon
-
e falámos acerca disso na Wikimania.
-
Sempre que temos um encontro da Wikidata
-
estamos a falar sobre isso.
-
Porque é um grande problema
que está muito visível:
-
que entidade é, com que trabalho é,
que género é, arte,
-
são realmente o maior conceito.
-
E isso é um ponto muito fraco
na ontologia global
-
porque as pessoas
tentam fazer limpezas regularmente
-
e quebram tudo o que está a montante.
-
Penso que alguns de vocês
se devem lembrar do tipo que, em boa-fé,
-
quebrou todas as cidades do mundo.
-
Já não eram itens geográficos. Por isso,
violações de restrições por todo o lado.
-
E foi feito em boa fé,
-
porque ele estava a corrigir
um erro num item,
-
mas quebrou tudo.
-
Não tenho a certeza de como
podemos resolver isso
-
porque não há, atualmente, nenhuma
instituição externa que possamos copiar
-
porque toda a gente está a trabalhar em...
-
Se eu for base de dados
de artes performativas
-
limito-me a ir
à etiqueta de artes performativas
-
ou não irei ao conceito filosófico
do que é aquela entidade
-
e isso é, na realidade...
-
Não conheço nenhuma base de dados
que esteja a trabalhar a este nível,
-
mas esse é o ponto mais fraco da Wikidata.
-
E, provavelmente, quando falamos
de qualidade de dados,
-
isso é uma grande parte, por isso...
-
Penso que é o mesmo
que afirmamos em...
-
Desculpem, estou a mudar de assunto,
-
mas afirmámos, em diferentes sessões
acerca de qualidade,
-
que alguns de nós estão a fazer
um bom trabalho de modelação,
-
estamos a fazer ShEx,
estamos a fazer coisas como essa.
-
As pessoas não o veem na Wikidata,
não veem o ShEx,
-
não veem o WikiProject
na página de discussão
-
e, por vezes,
nem veem a página de topo das propriedades
-
que diz, explicitamente:
a) Esta propriedade é usada para isto.
-
Como na semana passada.
Eu adicionei restrições a uma propriedade.
-
A restrição estava escrita explicitamente
na discussão da criação da propriedade.
-
Eu criei apenas a parte técnica
de adicionar a restrição, e alguém:
-
"O quê? Quebraste
todas as minhas edições!"
-
Ele esteve a usar a propriedade
erradamente nos útlimos dois anos.
-
A propriedade era bastante clara,
mas não havia avisos.
-
É o mesmo no Pink Pony.
-
Dissemos, na Wikimedia que deviamos
tornar o WikiProject mais visível
-
ou tornar o ShEx mais visível, mas...
-
E isso foi o que a Cristina disse.
-
Temos um problema de visibilidade,
do que são as soluções.
-
E, nesta sessão,
-
estamos todos a falar acerca
de como criar mais ShEx,
-
ou de facilitar o trabalho
das pessoas que estão a fazer a limpeza.
-
Mas, estamos a limpar
desde o primeiro dia da Wikidata
-
e, globalmente, estamos a perder.
-
Estamos a perder porque,
se eu sei que os nomes são complicados,
-
mas eu sou a única a fazer
o trabalho de limpeza...
-
A pessoa que adicionou
nome de script em Latim
-
a todos os investigadores chineses.
-
Vou demorar meses a limpar isso
e não o posso fazer sozinha.
-
E ele fez um lote maciço.
-
Por isso, precisamos realmente...
-
Temos um problema de visibilidade
mais do que um problema de ferramentas,
-
porque temos muitas ferramentas.
-
(Lydia) Bem, infelizmente
mostraram-me um sinal. (risos)
-
Por isso, precisamos de terminar.
-
Muito obrigada pelos vossos comentários.
-
Espero que continuem a debater
durante o resto do dia.
-
Obrigada pelo vosso contributo.
-
(aplausos)