Olá a todos, ao painel de Qualidade de Dados. A qualidade dos dados é importante porque cada vez mais pessoas dependem do bom estado dos nossos dados. Assim, vamos falar da qualidade dos dados. Haverão quatro oradores que farão breves introduções acerca de tópicos relacionados com qualidade de dados. Depois, responderemos a perguntas. O primeiro é o Lucas. Obrigado. Olá. O meu nome é Lucas e vou começar com uma síntese das ferramentas de qualidade de dados que já existem na Wikidata e também de algumas coisas que teremos em breve. Agrupei-as em temas gerais que são a maior visibilidade dos erros, tornar os problemas accionáveis, obter mais visibilidade sobre os dados para que mais pessoas notem os problemas, corrigir algumas fontes comuns de erros, manter a qualidade dos dados existentes e também a curadoria humana. As que estão atualmente disponíveis começam com as restrições de propriedades. Já o devem ter visto se usam a Wikidata. Podem, por vezes, obter estes ícones que verificam a consistência interna dos dados. Por exemplo, se um evento se seguir a outro, então a este último deve seguir-se este. O que estava aparentemente em falta no item WikidataCon. Não tenho a certeza, esta funcionalidade existe há apenas uns dias. Também existe... Se isto for demasiado simples ou condicionante, podem escrever quaisquer verificações que queiram usando o Query Service que é útil para várias coisas, mas também pode ser usado para encontrar erros. Por exemplo, se descobrirem uma ocorrência de um erro, podem verificar se existem outros locais onde as pessoas tenham feito um erro parecido e descobri-lo com o Query Service. Também podem combinar os dois e procurar violações de restrições no Query Service, como por exemplo, apenas violações que ocorram numa área ou WikiProject que seja relevantes para vocês. Embora, atualmente, os resultados não estejam completos. Infelizmente. Existe a avaliação de revisões. Penso que seja parte das alterações recentes. Podem também adicioná-la à vossa lista de visualização: uma avaliação automática da probabilidade desta edição ter sido feita em boa ou má-fé e da probabilidade de causar ou não danos. Penso que sejam essas as duas dimensões. Podem, se quiserem, concentrar a busca apenas nas edições danosas mas feitas com boa-fé. Se se estiverem a sentir particularmente amigáveis e acolhedores podem dizer a estes editores: "Obrigado pela contribuição. Deviam tê-la feito desta maneira, mas obrigado de qualquer forma." E, se não estiverem com essa disposição, podem rever as edições danosas feitas com má-fé e reverter o vandalismo. Existe também algo semelhante: avaliação de entidades. Em vez de classificar uma edição, a alteração que foi feita, vão classificar toda a revisão. Penso que seja a mesma medida de qualidade mencionada pela Lydia no início da conferência. Isto fornece um script de utilizador aqui em cima e uma pontuação de um a cinco, penso eu, da qualidade do item corrente. A ferramenta de fontes primárias é para bases de dados que queiram importar, mas que não têm qualidade suficiente para entrar diretamente na Wikidata. Ao invés, adicionam-nas à ferramenta de fontes primárias e, depois, as pessoas podem decidir se devem adicionar estas declarações individuais ou não. Mostrar coordenadas como mapas: é uma funcionalidade conveniente mas também é útil para controlo de qualidade. Por exemplo, se virem que isto devia ser o escritório da Wikimedia na Alemanha e as coordenadas forem algures no Oceano Índico, saberão que algo está errado, aqui. E podem vê-lo mais facilmente do que se tivessem apenas os números. Esta é uma engenhoca chamada indicador de integridade relativa, que apresenta este pequeno ícone que vos mostra o quão completo pensa que este item está e que propriedades é mais provável que estejam em falta. O que é muito útil se estiverem a editar um item, estiverem numa área com a qual não estejam muito familiarizados e não saibam quais são as propriedades certas a usar. Nesse caso, esta é uma miniaplicação muito útil. Temos o Shape Expressions. Penso que a Andra ou o Jose vão falar mais sobre elas mas são uma forma muito poderosa de comparar os dados que têm com o esquema. Como, que declaração devem ter certas entidades, a que outras entidades devem estar ligadas e como essas devem ser. Podem detetar problemas dessa forma. Penso que... Não. Ainda há mais. O Integraality ou painel de propriedades. Dá-vos uma visão geral dos dados já existentes. Por exemplo, isto é do WikiProject Red Pandas. Podem ver que temos um sexo ou género para quase todos os pandas-vermelhos. A data de nascimento varia bastante consoante o zoo de onde vêm e quase não temos pandas mortos, o que é maravilhoso (risos) porque são tão fofos. Por isso, isto também é útil. Cá está. Agora para o que está para vir. Wikidata Bridge, anteriormente conhecida como editor de clientes. Ou seja, editar dados a partir de caixas de informação da Wikipedia. O que, por um lado, dará mais visibilidade aos dados pois mais pessoas os conseguirão ver ali. E, assim se espera, encorajará uma maior utilização da Wikidata nas Wikipedias. Isto significa que mais pessoas podem reparar se, por exemplo, há dados desatualizados que precisam de ser atualizados, ao invés de só os verem na própria Wikidata. Existem também as referências corrompidas. Aqui, a ideia é que, se editarem uma declaração de valor, pode ser preciso atualizar também as referências, a não ser que seja apenas uma gralha, ou similar. Estas referências corrompidas dizem-no aos editores e também que os outros editores vêm as outras edições que foram feitas que editaram uma declaração de valor e não atualizaram a referência. Depois, podem limpar e decidir se isso deve... Precisam de fazê-lo novamente ou está tudo correto e não é necessário atualizar a referência. Tem relação com declarações assinadas. Que têm origem numa preocupação, penso eu, que alguns fornecedores de dados têm de... Há uma declaração que é referenciada através na UNESCO, ou similar. Depois, de repente, alguém vandaliza a declaração e eles estão preocupados que parecerá que essa organização, como a UNESCO, ainda define este valor de vandalismo. Assim, com declarações assinadas, eles podem assinar essa referência criptograficamente. Isso não vai prevenir edições à referência mas, se alguém vandalizar a declaração ou se a editar de alguma forma a assinatura deixa de ser válida. E pode-se ver que isto não é exatamente o que foi dito pela organização. Pode ser que seja uma boa edição e eles devam assinar a nova declaração, mas também pode acontecer que deva ser revertida. E também... Isto vai ser muito empolgante, penso eu. O Citoid é um sistema fantástico que existe na Wikipedia no qual podem colar um URL, um identificador, um ISBN, um ID da Wikidata ou outra coisa qualquer no Visual Editor, e ele devolve uma referência bem formatada. Tem todos os dados que quiserem e uma usabilidade excelente. Por comparação, na Wikidata, se eu quiser adicionar uma referência, tenho, tipicamente, de adicionar o URL, título, nome de autor, data de publicação da referência, recuperar as datas. No mínimo, o que é aborrecido. Espera-se que a integração do Citoid na Wikibase ajude com isso. Penso que é tudo o que tinha. Sim. Vou agora passar à Cristina. (aplausos) Olá, eu sou a Cristina. Sou uma cientista de investigação da Universidade de Zurique e também um membro ativo da comunidade Suíça. Quando eu e a Claudia Müller-Birn submetemos isto à WikidataCon, o que queríamos era continuar a discussão que começámos no início do ano numa workshop acerca de qualidade de dados e também nalgumas sessões na Wikimania. Então, o objetivo desta palestra é apresentar algumas ideias que estivemos a compilar, nossas e da comunidade, e continuar a discussão. Gostaríamos de continuar a interagir muito convosco. O que pensamos ser muito importante, é perguntarmos continuamente a todos os tipos de utilizador na comunidade, o que realmente precisam, que problemas têm com qualidade de dados. Não apenas os editores, mas também as pessoas que estão a programar ou a consumir os dados. E também os investigadores que estão a usar toda a história de edições para analisar o que está a acontecer. Assim, fizemos uma avaliação de cerca de 80 ferramentas que existem na Wikidata e alinhámo-las com as diferentes dimensões de qualidade de dados. O que vimos foi que, na realidade, muitas delas estão a vigiar, a monitorizar a integridade, mas, na verdade... Algumas delas estão também a capacitar interligações. Mas, existe uma grande necessidade de ferramentas que vejam a diversidade, que é uma das coisas que podemos ter na Wikidata. Especialmente, este princípio do design da Wikidata, segundo o qual podemos ter pluralidade e declarações diferentes com valores diferentes originárias de fontes diferentes. Visto ser uma fonte secundária, não temos realmente ferramentas que nos digam quantas declarações plurais existem, quantas podemos melhorar e como. Também não sabemos quais são todas as razões para pluralidade que podemos ter. Assim, a partir destes encontros da comunidade o que discutimos foram os desafios que ainda necessitam de atenção. Por exemplo, que ter todas estas comunidades de crowdsourcing é muito bom, já que pessoas diferentes atacam partes diferentes dos dados ou do gráfico. Temos também conhecimentos de origem diferentes. Mas, na realidade, é muito difícil alinhar tudo em algo que seja homogéneo pois pessoas diferentes usam propriedades diferentes de forma diferente. E estão também à espera de coisas diferentes das descrições de entidade. Foi também dito que são necessárias mais ferramentas que dêm uma melhor visão geral do estado global das coisas. Ou seja, que entidades estão em falta, em termos de integridade, mas também no que é que as pessoas estão a trabalhar hoje em dia, na maior parte do tempo. Também foi mencionada com frequência uma colaboração mais apertada entre, não só as linguagens, mas os WikiProjects a as diferentes plataformas Wikimedia. Publicámos todos os comentários transcritos de todas estas discussões nestas ligações aqui, no Etherpads e também na página wiki da Wikimania. Algumas das soluções que apareceram vão na direção da partilha das melhores práticas que estão a ser desenvolvidas nos diferentes WikiProjects. Mas, as pessoas também querem ferramentas que ajudem a organizar o trabalho em equipa ou, pelo menos, a perceber quem está a trabalhar em quê. Também foi mencionada a vontade de ter mais demonstrações e mais modelos que os ajudem a criar coisas de uma forma melhor. E, pelo contacto que temos com organizações de dados governamentais abertas e, em particular, eu estou em contacto com o cantão e a cidade de Zurique, eles estão muito interessados em trabalhar com a Wikidata porque querem que os seus dados estejam acessíveis para todos no local onde as pessoas vão e consultam ou acedem aos dados. Assim, para eles, algo que seria mesmo interessante seria ter algum tipo de indicador de qualidade tanto na wiki, o que já acontece atualmente, como nos resultados SPARQL. Para saber se podem ou não confiar dos dados da comunidade. Eles também querem saber que partes dos seus próprios conjuntos de dados são úteis para a Wikidata. E adorariam ter uma ferramenta que ajudasse a avaliar automaticamente. Também precisam de algum tipo de metodologia ou ferramenta que os ajude a decidir se devem ou não importar ou ligar os seus dados pois, nalguns casos,eles também têm os seus próprios conjuntos de dados abertos ligados e não sabem se devem apenas incorporar os dados ou continuar a criar ligações dos conjuntos de dados à Wikidata e vice-versa. Também querem saber se os seus websites forem referidos na Wikidata. E, quando correm essas consultas no serviço de consultas recebem, muitas vezes, timeouts. Por isso, talvez devêssemos mesmo criar mais ferramentas que os ajudem a obter estas respostas para as suas questões. (ruído de fundo) E, para além disso, nós, investigadores da wiki, também temos falta de alguma informação nos sumários de edição. Lembro-me que, quando estávamos a trabalhar para compreender os diferentes comportamentos dos editores com ferramentas ou bots, ou utilizadores anónimos, etc, faltava-nos realmente, por exemplo, uma forma padrão de registar que as ferramentas estavam a ser usadas. Já existem algumas ferramentas que fazem isso como o PetScan e muitas outras mas talvez devêssemos, na comunidade, debater mais acerca de como registar estes eventos para obter uma origem otimizada. E, no futuro, precisamos de pensar em dimensões de qualidade de dados mais concretas que estão relacionadas com dados ligados mas não com todos os tipos de dados. Por isso, trabalhámos nalgumas medidas para aceder ao aumento de informação proporcionado pelas ligações. O que queremos dizer com isso é que, quando ligamos a Wikidata a outros conjuntos de dados, também deviamos estar a pensar em quanto é que as entidades estão, na realidade, a ganhar na classificação, na descrição, mas também nos vocabulários que usam. Para dar um exemplo muito simples do que quero dizer com isto, podemos pensar... Neste caso, seria a Wikidata ou o centro de dados externo que está a ligar à Wikidata. Temos a entidade para uma pessoa chamada Natasha Noy, temos a afiliação e outras coisas. E, depois dizemos: "Está bem, ligamos a um local externo e aquela entidade também tem aquele nome." Mas, na realidade, temos o mesmo valor. Então, seria melhor se ligássemos a algo que tenha um nome diferente, o que ainda é válido porque esta pessoa tem duas formas de escrever o nome, e também outras informações que não temos na Wikidata ou que não temos no outro conjunto de dados. Mas também, o que é ainda melhor é que estamos a olhar para o conjunto de dados alvo e eles também têm novas formas de classificar a informação. Por isso, não só é uma pessoa, mas, no outro conjunto de dados, também diz que é do sexo feminino ou qualquer outra classificação que tenha sido usada. Se, no outro conjunto de dados, estiverem a usar muitos outros vocabulários isso também está a ajudar na recuperação de informação como um todo. Também gostava de dizer que pensamos que podemos mostrar melhor as consultas federadas porque, quando olhamos para o log da consulta fornecido por Malyshev et al, vemos que, das consultas orgânicas, temos apenas algumas consultas federadas. E, na realidade, a federação é uma das vantagens chave de ter dados ligados. Por isso, talvez a comunidade ou as pessoas que usam a Wikidata também precisem de mais exemplos deste tipo. Se olharmos para a lista de parâmetros que estão a ser usados... Esta não é uma lista completa e temos muitos mais. Estes dados foram analisados a partir de consultas feitas até março de 2018, mas deviamos olhar para a lista de parâmetros federados que temos e ver se os estamos realmente a usar ou não. Por isso, duas questões que tenho para a audiência e que talvez possamos usar depois para a discussão, são: que problemas de qualidade de dados devem, na vossa opinião, ser abordados, devido às vossas necessidades. Mas também, onde é que é necessária mais automação para vos ajudar com as edições ou patrulhamentos. É tudo, muito obrigada. (aplausos) (Jose Emilio Labra) Vou falar-vos de algumas ferramentas que estamos a desenvolver, relacionadas com o Shape Expressions. É disto que quero falar... Sou o Jose Emilio Labra, mas há... Todas estas ferramentas foram construídas por pessoas diferentes, muitas relacionadas com o W3C ShEx, Shape Expressions Community Group. ShEx Community Group. A primeira ferramenta que quero mencionar é o RDFShape. Esta é uma ferramenta geral porque o Shape Expressions não é só para a Wikidata. O Shape Expressions é uma linguagem para validar RDF em geral. Esta ferramenta foi desenvolvida principalmente por mim e é uma ferramenta para validar RDF no geral. Se quiserem aprender acerca de RDF ou se quiserem validar parâmetros RDF ou SPARQL, não só na Wikidata, o meu conselho é que podem usar esta ferramenta. Também para ensinar. Sou um professor universitário e uso-a no meu curso de web semântica para ensinar RDF. Por isso, se quiserem aprender RDF, penso que esta é uma boa ferramenta. Por exemplo, esta é só uma visualização de um gráfico RDF com essa ferramenta. Mas, antes de vir cá, no último mês, comecei um fork de rdfshape especificamente para a Wikidata, porque pensei... Chama-se WikiShape e, ontem, apresentei-a como presente à Wikidata. Então, eu peguei... O que eu fiz foi remover tudo o que não tivesse relação com a Wikidata e acrescentar várias coisas, com codificação permanentemente, como, por exemplo, o parâmetro Wikidata SPARQL. Agora, foi-me pedido que fizesse isso também para a Wikibase. E é muito fácil fazê-lo também para a Wikibase. Então, esta ferramenta, a WikiShape, é muito recente. Penso que funciona, a maioria das funcionalidades, mas há algumas funcionalidades que podem não funcionar. Se experimentarem e quiserem melhorá-la, digam-me, por favor. Isto é uma captura de ecrã, mas penso que posso experimentar. Por isso, vamos experimentar. (risos) Vamos ver se funciona. Primeiro, tenho de sair do... Aqui. Esta é a ferramenta, aqui. Coisas que podem fazer com a ferramenta: por exemplo, podem verificar esquemas, esquemas de entidades. Sabem que há um novo namespace que é "E" qualquer coisa". Então, se começaram, por exemplo, a escrever "humano", à medida que escrevem, o autocompletamento permite-vos verificar que isto é o Shape Expressions de um humano e que isto é o Shape Expressions, aqui. Como podem ver, este editor tem realce de sintaxe. Isto é... Bem, talvez seja muito pequeno, o ecrã. Posso tentar aumentá-lo. Talvez o vejam melhor, agora. Então, este é o editor, com realce de sintaxe, e também tem... Quero dizer, este editor vem do mesmo código fonte do editor de consultas da Wikidata. Se pairarem com o rato aqui, vai mostrar-vos as etiquetas das diferentes propriedades. Penso que é muito útil porque, agora, o esquema de entidades que está na Wikidata é só uma ideia em texto simples. Penso que este editor é muito melhor porque tem autocompletamento também tem... Por exemplo, se quiserem adicionar uma restrição vão dizer: "wdt:". Começam a escrever "author" e depois clicam em Ctrl+Espaço e vai sugerir-vos várias coisas. Então, isto é semelhante ao serviço de consultas da Wikidata, mas para Shape Expressions, especificamente. Porque penso que, criar Shape Expressions não é mais difícil do que escrever consultas SPARQL. Algumas pessoas pensam que o nível de dificuldade é o mesmo. É provavelmente mais fácil porque o Shape Expressions era... Quando o concebemos, fizemo-lo para que fosse mais fácil trabalhar. Esta é uma das primeiras coisas que têm. Este editor para Shape Expressions. Depois, também têm a possibilidade de, por exemplo, visualizar. Se tiverem uma Shape Expression, usem, por exemplo... Penso que "trabalho escrito" é uma boa Shape Expression porque tem algumas relações entre diferentes coisas. E isto é a visualização UML do trabalho escrito. Numa UML, isto é fácil de ver, as diferentes propriedades. Quando fazem isto, apercebi-me que, quando o tentei com várias pessoas, encontram alguns erros nas suas Shape Expressions porque é fácil detetar quais são as propriedades em falta. Depois, temos aqui outra possibilidade que é a de poder também validar. Penso que a temos aqui, a validação. Pensava que a tinha nalguma etiqueta. Talvez a tenha fechado. Mas podem, por exemplo, clicar aqui: Validar entidades. Vocês, por exemplo, "q42" com "e42", que é o autor. Com "humano". Penso que o podemos fazer com "humano". E depois é... Está a demorar um pouco a fazê-lo porque está a realizar consultas SPARQL. E agora, por exemplo, está a falhar por causa da rede. Mas... Podem tentá-lo. Vamos continuar com a apresentação, com outras ferramentas. O meu conselho é, se o quiserem tentar e se quiserem qualquer feedback, digam-me. Então, para continuar com a apresentação... Isto é a WikiShape. Já o disse, o editor de Shape Expressions é um projeto independente no GitHub. Podem usá-lo no vosso próprio projeto. Se quiserem construir uma ferramenta de Shape Expressions, podem integrá-lo em qualquer outro projeto. Está no GitHub e podem usá-lo. O mesmo autor, é um dos meus estudantes. Ele também criou um editor para Shape Expressions, também inspirado pelo serviço de consultas do Wikidata, onde, numa coluna, têm este editor mais visual de consultas SPARQL onde podem introduzir este tipo de coisas. Esta é uma captura de ecrã. Podem ver que isto é Shape Expressions em texto, mas isto é Shape Expressions baseado em formas onde, provavelmente, demoraria um pouco mais, onde podem pôr as diferentes colunas nos diferentes campos. Depois há o ShExEr. Temos...Foi feito por um estudante de doutoramento da Universidade de Oviedo. E ele está cá, por isso pode apresentar o ShExEr. (Danny) Olá, eu sou o Danny Fernàndez. Sou um estudante de doutoramento na Universidade de Oviedo a trabalhar com o Labra. Já que estamos a ficar sem tempo, vamos fazer isto rapidamente. Não faremos uma demonstração, mas veremos algumas capturas de ecrã. A forma usual de trabalhar com Shape Expressions, ou com qualquer linguagem de formas, é ter um perito no domínio que define, a priori, como se deve parecer o gráfico, define algumas estruturas. Depois usam essas estruturas para comparar os dados e validá-los. Esta ferramenta, que é, tal como aquelas que o Labra esteve a apresentar, uma ferramenta polivalente para qualquer fonte RDF, está concebida para fazer o contrário. Já têm alguns dados, selecionam que nodos querem usar para formar a forma e depois extraem ou inferem a forma automaticamente. Então, mesmo sendo uma ferramenta polivalente, o que fizemos para este WikidataCon foi este botão catita. Se clicarem nele, o que acontece, essencialmente, é que, há tantos parâmetros de configuração, e ele configura-os para funcionar com os parâmetros da Wikidata. Vai acabar em breve, desculpem. Assim que pressionam este botão o que obtêm é essencialmente isto. Depois de selecionarem que tipo de nodos, que tipo de instâncias da nossa classe, ou seja o que for que estejam a procurar, obtêm um esquema automático. Todas as restrições são resolvidas por quantos nodos são conformantes. Podem filtrar os menos comuns, etc. Há um poster lá em baixo acerca disto. Eu estarei lá em baixo e cá em cima, em todo o lado o dia todo. Por isso, se tiverem interesse adicional nesta ferramenta falem comigo durante esta jornada. Vou devolver o microfone ao Labra. Obrigado. (aplausos) (Jose) Vamos continuar com as outras ferramentas. A outra ferramenta é o ShapeDesigner. Andra, queres falar do ShapeDesigner agora ou mais tarde, durante a workshop? Há uma workshop... Esta tarde, há uma workshop, especifica para Shape Expressions, e... A ideia é que vai ser mais na vertente prática e, se quiserem praticar ShEx, podem fazê-lo lá. Esta ferramenta é o ShEx,js. Lá está o Eric, ali. Podes apresentá-la. (Eric) Muito rapidamente, aquilo que quero dizer é que já viram, provavelmente, a interface de ShEx que foi concebida para a Wikidata. Ela foi simplificada e pensada especificamente para a Wikidata porque a versão genérica tem mais funcionalidades. Mas pensei em mencioná-la porque uma dessas funcionalidades é particularmente útil para depurar esquemas da Wikidata. A qual é, se selecionarem o modo slurp, o que faz é dizer, à medida que estou a validar, que quero puxar todos os triplos para baixo. E, isso significa que, se tiver um conjunto de falhas, posso verificá-las e começar a olhar para essas falhas e dizer quais são os triplos que estão aqui. Peço desculpas, os triplos estão aqui em baixo. Isto é só um registo do que aconteceu. Depois, podem limitar-se a remexer nisto em tempo real. Brincam com alguma coisa e muda. Então, é uma versão mais rápida para fazer todas essas coisas. Este é um formulário ShExC. É algo que o Joachim sugeriu. Pode ser útil para povoar documentos da Wikidata baseado numa Shape Expression para esse documento. Isto não foi feito à medida da Wikidata, mas é apenas para mostrar que podem ter um esquema e podem ter algumas anotações para especificar como quero apresentar o esquema. Depois, constrói um formulário e, se tiverem dados, pode até povoar o formulário. PyShEx [inaudível]. (risos) (Jose) Penso que este seja o último. Sim, o último é o PyShEx. O PyShEx é uma implementação de Shape Expressions em Python. Podem também experimentar o Jupyter Notebooks se quiserem esse tipo de coisas. É tudo, para isto. (aplausos) (Andra) Vou falar acerca de um projeto específico com o qual estou envolvido chamado Gene Wiki e onde também estamos a lidar com questões de qualidade. Mas, antes de falar da qualidade, talvez uma pequena apresentação acerca do que é o Gene Wiki. Acabámos de lançar uma pré-impressão de um artigo que escrevemos recentemente que explica os detalhes do projeto. Tiraram fotografias. Basicamente, o que o Gene Wiki faz é tentar inserir dados biomédicos, dados públicos, na Wikidata. Seguimos um padrão específico para inserir esses dados na Wikidata. Assim, quando temos um novo repositório, ou um novo conjunto de dados que é elegível para ser incluído na Wikidata, o primeiro passo é o envolvimento da comunidade. Não é dirigido, necessariamente a uma comunidade da Wikidata, mas a uma comunidade de pesquisa local. Encontramo-nos em pessoa, ou online, ou em qualquer plataforma e tentamos criar um modelo de dados que faça a ponte entre os seus dados e o modelo Wikidata. Aqui, tenho uma imagem de uma workshop que aconteceu aqui, no ano passado. Estava a tentar olhar para um conjunto de dados específico e, enfim, vêm muitas discussões, e depois alinhá-los com o schema.org e outras ontologias que por aí andam. Depois, no final do primeiro passo, temos um desenho do esquema que queremos implementar na Wikidata. O que vêm aqui, isto é apenas simples, temo-lo lá atrás, ali, e podemos fazer alguns esquemas dentro deste painel mesmo hoje. Assim que temos o esquema montado, o próximo passo é tentar fazer o esquema da máquina legível. Porque querem ter modelos acionáveis para fazer uma ponte com os dados que estão a inserir de qualquer base de dados biomédica no Wikidata. Aqui, estamos a aplicar Shape Expressions. Usámo-lo porque permite-vos testar se o conjunto de dados é, na realidade... Não. A ver, em primeiro lugar, se os dados que já existem na Wikidata seguem o mesmo modelo de dados que foi conseguido no processo anterior. Depois, com a Shape Expression podemos verificar: os dados deste tópico na Wikidata, será que precisam de uma limpeza ou precisamos de adaptar o nosso modelo ao modelo da Wikidata, ou vice-versa? Quando isso estiver definido e começarmos a programar bots e os bots estão a passar a informação que está nas fontes primárias para a Wikidata. Quando os bots estão prontos... Programamos estes bots com uma plataforma chamada... com uma biblioteca de Python chamada Wikidata Integrator que foi criada pelo nosso projeto. Uma vez que tenhamos os nossos bots, usamos uma plataforma chamada Jenkins para integração contínua. Com o Jenkins, atualizamos constantemente as fontes primárias com a Wikidata. Este é um diagrama para o artigo que mencionei anteriormente. Esta é a nossa paisagem atual. Cada caixa laranja é um recurso primário para drogas, proteínas, genes, doenças compostos químicos com interação. Este modelo é muito pequeno para ser lido agora, mas esta é a base de dados, as fontes, que gerimos na Wikidata e que fazem ponte com as fontes primárias. Aqui está um desses fluxos de trablaho. Um dos nossos parceiros é a Disease Ontology. A Disease Ontology é uma ontologia CC0 e a ontologia CC0 tem o seu próprio ciclo de curadoria. Eles atualizam continuamente a Disease Ontology para refletir o espaço de doenças ou a interpretação de doenças. Há também o ciclo de curadoria da Wikidata acerca de doenças onde a comunidade Wikidata monitoriza constantemente o que se está a passar na Wikidata. Depois, temos duas funções às quais chamamos, coloquialmente, curadores guardiões. Isto sou eu e um colega há cinco anos atrás. Ficamos ao computador e monitorizamos a Wikipedia e a Wikidata e, se houver alguma questão reportada à comunidade primária, aos recursos primários, eles olhavam para a implementação e decidiam: "Confiamos nas entradas da Wikidata?" Se sim, é considerada, entra no ciclo e na próxima iteração faz parte da Disease Ontology e é fornecida à Wikidata. Estamos a fazer o mesmo com a WikiPathways. A WikiPathways é um percurso inspirado na wiki e um repositório de percursos. É a mesma história, já há diferentes recursos de percursos na Wikidata. Podem haver conflitos entre esses recursos de percursos e esses conflitos são comunicados de volta pelos curadores guardiões a essa comunidade mantendo-se os ciclos individuais de curadoria. Mas, se se lembrarem do ciclo anterior, mencionei aqui apenas dois ciclos, dois recursos. Temos de fazer isto para cada recurso individual que temos e temos de gerir o que se passa porque, quando falo em curadoria, quero dizer ir às páginas de topo da Wikipedia, às páginas de topo da Wikidata, e tentar fazer isso. Isso é muito para os dois curadores guardiões que tínhamos. Por isso, quando estive numa conferência em 2016, onde o Eric fez uma apresentação sobre Shape Expressions, aderi à onda e disse: "Está bem. o Shape Expressions pode ajudar-nos a detetar as diferenças na Wikidata e isso permite que os guardiões tenham relatórios mais eficientes para comunicar." Então, este ano, fiquei deliciado com a entidade de esquemas porque, agora, podemos guardar esses esquemas de entidades na Wikidata, mesmo na Wikidata, enquanto, antes, estavam no GitHub, e isto está em sintonia com a interface da Wikidata. Então, têm coisas como discussões de documentos mas também têm revisões. Assim, podem impulsionar as páginas de topo e as revisões na Wikidata para usar isso para debater acerca do que está na Wikidata e o que está nos recursos primários. Isto, que o Eric acabou de apresentar, já é um grande benefício. Aqui, fizemos uma Shape Expression para o gene humano e, depois, passámos-la através de uma ShEx simples e, como podem ver, já temos no... Existe uma questão que precisa de ser monitorizada, onde há um item que não encaixa naquele esquema e, depois, podem já criar relatórios de curadoria de entidades de esquemas baseados em... e enviar isto para os diferentes relatórios de curadoria. Mas, o ShEx.js é uma interface construída e, se puder mostrar cá atrás, faço apenas dez, mas temos dezenas de milhares e, por isso, não é escalável. Agora, o Wikidata Integrator também suporta ShEx e podemos repetir iterações de itens onde dizemos "sim, não", "sim, não" "verdadeiro, falso", "verdadeiro, falso". Então, aumentar um pouco a eficiência ao lidar com os relatórios. Mas, agora, isso dificulta o Wikidata Query Service e, recentemente, tivemos estrangulamentos. Por isso, novamente, não é escalável. É ainda um processo em curso, o como lidar com modelos na Wikidata. E, ShEx é, não só intimidante, como a escala é demasiado grande para lidarmos com ela. Então, eu comecei a trabalhar. Esta é a minha primeira validação do conceito, ou exercício, onde usei uma ferramenta chamada yED. Comecei a desenhar aquelas Shape Expressions e, porque... E depois, regenerei este esquema no seu formato adjacente de Shape Expressions. Isto iria abrir-se à audiência que está intimidada pelas linguagens Shape Expressions. Mas, há um problema com essas descrições visuais porque isto também é um esquema que foi desenhado em yEd por alguém. E aqui está outro, que é belíssimo. Adorava ter isto na minha parede, mas continua a não ser interoperável. Quero acabar a minha palestra com... É a primeira vez que... Tenho roubado e usado este slide. É uma honra tê-lo na audiência. Gosto realmente disto: "As pessoas acham que RDF é chato porque é complicado. A verdade á ainda pior. É tão simples porque temos de trabalhar com problemas do mundo real que são horrivelmente complicados. Embora possam evitar o RDF, é mais difícil evitar dados complicados e problemas computacionais complicados." Isto é acerca de RDF, mas penso que também pode ser aplicado à modelação. Então, o meu argumento é, devemos realmente... Como é que avançamos com a modelação? Devemos discutir ShEx ou modelos visuais, ou... Como é que continuamos? Muito obrigado pelo vosso tempo. (aplausos) (Lydia) Muito obrigada. Venham para a frente para podermos abrir as questões da audiência. Existem questões? Sim. E, penso... Para a câmara, precisamos de... (Lydia a rir) Sim. (Interveniente 1) Uma questão para a Cristina, penso eu. Mencionou, exatamente, o termo "ganho de informação" devido à ligação com outros sistemas. Existe uma medida teórica de informação que usa estatística e probabilidade e se chama ganho de informação. Tem o mesmo... Quero dizer, estava a falar exatamente dessa medida, do ganho de informação da teoria de probabilidade, da teoria de informação, ou apenas a usar esta entidade conceptual para medir o ganho de informação de alguma forma? (Cristina) Não. Nós definimos e implementamos medidas que estão a usar a entropia de Shannon, por isso, é isso que significa. Não queria entrar em detalhes acerca das fórmulas concretas... (Interveniente 1) Não, claro. Daí a pergunta. - (Cristina) Mas sim... - (Interveniente 1) Obrigado. (Interveniente 2) Faço um comentário, mais que uma questão. (Lydia) Força. (Interveniente 2) Tem havido muito ênfase ao nível do item, acerca de qualidade e integridade. Uma das coisas que me preocupa é não estarmos a aplicar o mesmo às hierarquias e penso que temos a questão das nossas hierarquias não serem boas, com frequência. Estamos a ver que isto vai ser um problema real com a pesquisa de Commons e outras coisas. Uma das coisas que conseguimos fazer é importar externa... Da forma como os thesaurus externos estruturam as suas hierarquias, usando o qualificador de conceitos mais geral P4900. Mas, o que penso que seria realmente útil, seriam melhores ferramentas para o fazer para que possamos importar uma hierarquia de thesaurus externa, mapeá-la nos nossos itens da Wikidata. Uma vez implementada com esses qualificadores P4900, podemos fazer ótimas consultas através de SPARQL para ver onde é que a nossa hierarquia diverge dessa hierarquia externa. Por exemplo, como podem saber, Paula Morma, o utilizador PKM faz muito trabalho em moda. Por isso, usamos isso para puxar a hierarquia do Thesaurus Europeana Fashion e a hierarquia do thesauros de moda Getty AAT. Depois, vemos onde as lacunas estavam nos nossos itens de alto nível, que são um problema real para nós porque, com frequência, estas são coisas que só existem como páginas de desambiguação na Wikipedia e, por isso, temos muitos itens de alto nível a faltar nas nossas hierarquias. Isto é algo que precisamos de abordar em termos de qualidade e de integridade. O que realmente ajudaria seriam melhores ferramentas que a selva de scripts que escrevi. Se alguém pudesse pôr isso num bloco de notas PAWS em Python, ser capaz de receber um thesaurus externo, pegar na sua hierarquia, a qual pode muito bem estar disponível como dados ligados, ou pode não estar, para depois transferi-lo para declarações rápidas para pôr em valores P4900. E, mais tarde, quando a nossa representação ficar mais completa, atualizar os P4900s. Porque, à medida que a nossa representação fica ultrapassada, fica mais densa. Os valores desses qualificadores precisam de mudar para representar que temos mais da sua hierarquia no nosso sistema. Se alguém pudesse fazer isso, penso que seria muito útil. Também precisamos de olhar para outras estratégias para aumentar a qualidade e a integridade ao nível da hierarquia, não só ao nível do item. (Andra) Posso acrescentar algo? Sim. E, na realidade, fazemos isso. Posso recomendar olhar para a Shape Expression que o Finn fez com os dados léxicos onde ele cria Shape Expressions e depois desenvolve sobre outras Shape Expressions. Têm este conceito de Shape Expressions ligadas na Wikidata e, especificamente, o caso de uso, se entendi bem, é exatamente o que estamos a fazer na Gene Wiki. Têm a Disease Ontology que é posta na Wikidata e, depois, dados de doenças entram e aplicamos Shape Expressions para ver se encaixam com este thesaurus. Existem outros thesaurus, ou outras ontologias, para vocabulários controlados que ainda precisam de ser inseridos na Wikidata. E é exatamente por isso que o Shape Expressions é tão interessante. Porque podemos ter uma Shape Expression para a Disease Ontology, uma Shape Expression para o MeSH. Pode dizer: "Agora quero verificar a qualidade." Porque também tem, na Wikidata, o contexto de quando tem um vocabulário controlado. Diz que a qualidade está de acordo com isto mas pode ter uma comunidade discordante. Por isso, as ferramentas já estão implementadas, mas, agora, precisamos de criar esses modelos e aplicá-los aos diferentes casos de uso. (Interveniente 2) Uma Shape Expression é muito útil logo que tenha a ontologia externa mapeada na Wikidata. Mas, o meu problema é que está a chegar aquele ponto. Que é perceber quanto da ontologia externa não está ainda na Wikidata e onde estão as lacunas. É aí que penso que ter ferramentas mais robustas para ver o que está em falta de ontologias externas seria muito útil. (Andra) O maior problema aqui é, não tanto as ferramentas, mas mais o licenciamento. Pôr as ontologias na Wikidata é, na realidade, muito fácil. Mas, a maioria das ontologias têm, como é que o posso dizer educadamente, licenciamento restritivo e, por isso, não são compatíveis com a Wikidata. (Interveniente 2) Existe um enorme número de thesaurus do setor público em setores culturais. - (Andra) Então precisamos de falar. - (Interveniente 2) Sem problema. (Andra) Então, precisamos de falar. (Interveniente 3) O comentário que quero fazer é uma resposta para o James. O que acontece é que hierarquias fazem gráficos e quando queremos... Quero falar acerca de um problema comum em hierarquias, que são hierarquias circulares. Elas voltam umas às outras quando há um problema. Não devíamos ter isso com hierarquias. É engraçado que isto acontece muito em categorias na Wikipedia. Temos muitos círculos em categorias. Mas, a boa notícia é que... Tecnicamente, é um problema completo PMP, por isso não o conseguimos encontrar, e facilmente, se construirmos um gráfico a partir disso, mas há muitas formas que foram desenvolvidas para encontrar problemas nestes gráficos de hierarquia. Existe um artigo chamado Finding Cycles... Breaking Cycles in Noisy Hierachies. Tem sido usado para ajudar na classificação da Wikipedia inglesa. Podemos pegar nisto e aplicar estas hierarquias na Wikidata e, depois, podemos encontrar coisas que são problemáticas e remover as que estão a causar problemas. E encontrar os problemas, na realidade. Isto é só uma ideia, para que... (Interveniente 2) Está tudo muito bem, mas acho que está a subestimar o número de más relações de subclasse que nós temos. É como ter uma cidade que está completamente no país errado. Existem ferramentas para geografia, para identificar isso. Precisamos de ter muito melhores ferramentas em hierarquias para identificar onde o equivalente do item para o país esteja a faltar completamente ou se foi subclassificado como algo que não signifique algo completamente diferente. (Lydia) Sim, penso que está a chegar a algo que eu e a minha equipa ouvimos sempre de pessoas que reutilizam os nossos dados. Com frequência, também. Dados pontuais podem ser ótimos, mas, se temos de olhar para a ontologia, etc, torna-se muito... Penso que um dos grandes problems que causa isto é que muita da edição na Wikidata acontece baseada num item individual, não é? Fazemos uma edição nesse item sem nos darmos conta que isto pode ter consequências globais no resto do gráfico, por exemplo. E, se as pessoas têm ideias sobre como tornar isto mais visível, as consequências de uma edição local individual, penso que seria útil explorá-lo. Para melhor mostrar às pessoas as consequências das suas edições, que elas podem estar a fazer de boa fé, quais são elas. (Risos) Muito bem. Vamos começar consigo, depois você, depois você e depois você. (Interveniente 3) Bem, depois do debate, só para exprimir a minha concordância com o que o James estava a dizer. Essencialmente, parece que a coisa mais perigosa é a hierarquia. Não a hierarquia, mas, de forma geral, a semântica das relações de subclasse vistas na Wikidata, certo? Estive a estudar linguagens recentemente, apenas para esta conferência e, por exemplo, encontram-se muitos casos onde a linguagem é parte de e uma subclasse da mesma coisa. Podemos dizer que temos uma ontologia flexível. A Wikidata dá-nos a liberdade de exprimir isso, por vezes. Porque, por exemplo essa ontologia de linguagens é também politicamente complicada, certo? É bom estar numa posição que nos permita expressar um nível de incerteza. Mas imaginem alguém a querer fazer leitura ótica a partir disso. É mesmo problemático. E, depois, não penso que a ontologia seja algo que foi importada de algures, é algo que é originalmente nosso. Diria que foi colhida da Wikipedia mesmo no início. Por isso pergunto-me... Esta coisa do Shape Expressions é ótima, e também validadora e reparadora. A ontologia da Wikidata a partir de recursos externos é uma bela ideia. No final, acabaremos por refletir as ontologias externas na Wikidata? E também, o que fazemos com a parte central da nossa ontologia que nunca é colhida a partir de recursos externos. Como é que solucionamos isso? Penso, realmente, que isso será um problema por si só. Teremos de nos focar nisso independentemente da ideia de validar a ontologia com algo externo. (Lydia aponta para a audiência) (Interveniente 4) Restrições e formas são muito impressionantes, aquilo que podemos fazer com elas, mas o ponto principal não está claro. Porque agora podemos tornar mais explícito o que esperamos dos dados. Antes, cada um tinha de escrever as suas próprias ferramentas e scripts. Por isso, é mais visível e podemos discuti-lo. Mas porque não é sobre o que está errado ou certo, é acerca de uma expectativa. Vocês terão diferentes expectativas e debates acerca de como queremos modelar as coisas na Wikidata e isto... O estado atual é apenas um passo na direção porque agora precisamos de muito conhecimento especializado para lidarmos com isto. Precisamos de formas melhores de visualizar esta restrição, para a transformar, porventura em linguagem natural, para que as pessoas melhor a possam entender. Mas não é tanto acerca do errado ou do certo. (Lydia) Sim. (Interveniente 5) Para questões de qualidade, só quero fazer eco... Definitivamente, encontrei muitos dos problemas. Encontrei... diferenças de opinião entre "instâncias de" versus "subclasse". Diria, erros, nestas situações. E tentar encontrá-los tem sido um processo moroso. O que encontrei foi: "Se eu encontrar itens de grande impressão que são algo... e depois usar todas as instâncias das subclasses para encontrar todas as declarações derivadas disto." Esta é uma forma muito útil de olhar para estes erros. Mas eu estava curioso para saber se o Shape Expressions... se há... Se isto pode ser usado como ferramenta para ajudar a resolver estas questões. Mas sim... (Interveniente 6) Se tem uma pegada estrutural... Se tem uma pegada estrutural que podemos... que seja falsificável. Podemos olhar para isso e dizer: "Está errado." Então sim, podemos fazer isso. Mas se for só tentar mapeá-lo para objetos do mundo real então vai precisar de muitos cérebros. (Interveniente 7) Olá. Pablo Mendes do Siri Knowledge da Apple. Estamos aqui para descobrir como ajudar o projeto e a comunidade, mas a Cristina cometeu o erro de perguntar o que queríamos. (risos) Por isso, penso que uma das coisas que gostaria de ver gira à volta da verificabilidade, que é um dos princípios chave do projeto na comunidade. E confiabilidade. Nem todas as declarações são iguais, algumas são fortemente disputadas, outras são fáceis de adivinhar. A data de nascimento de alguém pode ser verificada, como viram hoje na Keynote, questões de género são mais complicadas. Podem discutir um pouco do que sabem nesta área de qualidade de dados, acerca de confiabilidade e de verificabilidade? (risos) Se não há muito, gostaria de ver muito mais. (risos) (Lydia) Sim. Aparentemente, não temos muito a dizer acerca disso. (risos) (Andra) Penso que podemos fazer muito, mas tive uma discussão consigo ontem. O meu exemplo preferido que, soube ontem, foi descontinuado, é, se forem ao Q2, que é Terra, existe uma declaração que reivindica que a Terra é plana. Adoro esse exemplo porque há uma comunidade por aí que afirma isso e eles têm recursos verificáveis. Por isso, penso que seja um caso genuíno. Não deve ser descontinuado, deve estar na Wikidata. E penso que o Shape Expressions pode ser fundamental aqui, porque podem dizer: "Sim, estou mesmo interessado neste caso de uso", ou que este é um caso de uso com o qual não concordam. Mas também pode haver um caso de uso onde dizem: "Estou interessado." Há este exemplo. Dizem: "Tenho glucose." E a glucose, se forem um biólogo, As restrições químicas da molécula de glucose não vos interessam, apenas... tudo o que seja glucose é o mesmo. Mas, se forem um químico, arrepiam-se ao ouvir isso. Têm 200 e tal... Depois, podem ter Shape Expressions múltiplas. Vou entrar com... Estou no ponto de vista de um químico, vou aplicar isso. E depois, dizem, "sou um caso de uso de um biólogo", e aplicam essa Shape Expression. E, quando quiserem colaborar, deviam falar com o Eric acerca dos mapas ShEx. Esta jornada está apenas a começar. Mas acredito que seja muito instrumental nessa área. (Lydia) Ali. (risos) (Interveniente 8) Tive várias ideias para alguns pontos na discussão, por isso, vou tentar não perder... Tive três ideias, por isso... Baseado no que o James disse há pouco, temos um grande problema na Wikidata desde o início para a ontologia superior. Falámos acerca disso há dois anos na WikidataCon e falámos acerca disso na Wikimania. Sempre que temos um encontro da Wikidata estamos a falar sobre isso. Porque é um grande problema que está muito visível: que entidade é, com que trabalho é, que género é, arte, são realmente o maior conceito. E isso é um ponto muito fraco na ontologia global porque as pessoas tentam fazer limpezas regularmente e quebram tudo o que está a montante. Penso que alguns de vocês se devem lembrar do tipo que, em boa-fé, quebrou todas as cidades do mundo. Já não eram itens geográficos. Por isso, violações de restrições por todo o lado. E foi feito em boa fé, porque ele estava a corrigir um erro num item, mas quebrou tudo. Não tenho a certeza de como podemos resolver isso porque não há, atualmente, nenhuma instituição externa que possamos copiar porque toda a gente está a trabalhar em... Se eu for base de dados de artes performativas limito-me a ir à etiqueta de artes performativas ou não irei ao conceito filosófico do que é aquela entidade e isso é, na realidade... Não conheço nenhuma base de dados que esteja a trabalhar a este nível, mas esse é o ponto mais fraco da Wikidata. E, provavelmente, quando falamos de qualidade de dados, isso é uma grande parte, por isso... Penso que é o mesmo que afirmamos em... Desculpem, estou a mudar de assunto, mas afirmámos, em diferentes sessões acerca de qualidade, que alguns de nós estão a fazer um bom trabalho de modelação, estamos a fazer ShEx, estamos a fazer coisas como essa. As pessoas não o veem na Wikidata, não veem o ShEx, não veem o WikiProject na página de discussão e, por vezes, nem veem a página de topo das propriedades que diz, explicitamente: a) Esta propriedade é usada para isto. Como na semana passada. Eu adicionei restrições a uma propriedade. A restrição estava escrita explicitamente na discussão da criação da propriedade. Eu criei apenas a parte técnica de adicionar a restrição, e alguém: "O quê? Quebraste todas as minhas edições!" Ele esteve a usar a propriedade erradamente nos útlimos dois anos. A propriedade era bastante clara, mas não havia avisos. É o mesmo no Pink Pony. Dissemos, na Wikimedia que deviamos tornar o WikiProject mais visível ou tornar o ShEx mais visível, mas... E isso foi o que a Cristina disse. Temos um problema de visibilidade, do que são as soluções. E, nesta sessão, estamos todos a falar acerca de como criar mais ShEx, ou de facilitar o trabalho das pessoas que estão a fazer a limpeza. Mas, estamos a limpar desde o primeiro dia da Wikidata e, globalmente, estamos a perder. Estamos a perder porque, se eu sei que os nomes são complicados, mas eu sou a única a fazer o trabalho de limpeza... A pessoa que adicionou nome de script em Latim a todos os investigadores chineses. Vou demorar meses a limpar isso e não o posso fazer sozinha. E ele fez um lote maciço. Por isso, precisamos realmente... Temos um problema de visibilidade mais do que um problema de ferramentas, porque temos muitas ferramentas. (Lydia) Bem, infelizmente mostraram-me um sinal. (risos) Por isso, precisamos de terminar. Muito obrigada pelos vossos comentários. Espero que continuem a debater durante o resto do dia. Obrigada pelo vosso contributo. (aplausos)