WEBVTT 00:00:05.945 --> 00:00:09.476 Olá a todos, ao painel de Qualidade de Dados. 00:00:10.198 --> 00:00:13.671 A qualidade dos dados é importante porque cada vez mais pessoas 00:00:13.672 --> 00:00:16.229 dependem do bom estado dos nossos dados. 00:00:16.229 --> 00:00:20.029 Assim, vamos falar da qualidade dos dados. 00:00:22.469 --> 00:00:26.643 Haverão quatro oradores que farão breves introduções acerca de tópicos 00:00:26.643 --> 00:00:29.720 relacionados com qualidade de dados. Depois, responderemos a perguntas. 00:00:30.130 --> 00:00:32.234 O primeiro é o Lucas. 00:00:34.385 --> 00:00:35.385 Obrigado. 00:00:35.901 --> 00:00:39.899 Olá. O meu nome é Lucas e vou começar com uma síntese 00:00:39.899 --> 00:00:43.806 das ferramentas de qualidade de dados que já existem na Wikidata 00:00:43.807 --> 00:00:46.109 e também de algumas coisas que teremos em breve. 00:00:48.452 --> 00:00:50.623 Agrupei-as em temas gerais 00:00:50.623 --> 00:00:53.761 que são a maior visibilidade dos erros, tornar os problemas accionáveis, 00:00:53.762 --> 00:00:56.932 obter mais visibilidade sobre os dados para que mais pessoas notem os problemas, 00:00:56.945 --> 00:01:02.616 corrigir algumas fontes comuns de erros, manter a qualidade dos dados existentes 00:01:02.616 --> 00:01:03.966 e também a curadoria humana. 00:01:05.063 --> 00:01:10.104 As que estão atualmente disponíveis começam com as restrições de propriedades. 00:01:10.104 --> 00:01:12.421 Já o devem ter visto se usam a Wikidata. 00:01:12.422 --> 00:01:14.029 Podem, por vezes, obter estes ícones 00:01:14.530 --> 00:01:17.241 que verificam a consistência interna dos dados. 00:01:17.242 --> 00:01:20.800 Por exemplo, se um evento se seguir a outro, 00:01:20.801 --> 00:01:23.760 então a este último deve seguir-se este. 00:01:23.761 --> 00:01:27.161 O que estava aparentemente em falta no item WikidataCon. 00:01:27.162 --> 00:01:29.810 Não tenho a certeza, esta funcionalidade existe há apenas uns dias. 00:01:30.040 --> 00:01:34.681 Também existe... Se isto for demasiado simples ou condicionante, 00:01:34.682 --> 00:01:38.080 podem escrever quaisquer verificações que queiram usando o Query Service 00:01:38.081 --> 00:01:39.842 que é útil para várias coisas, 00:01:39.843 --> 00:01:44.543 mas também pode ser usado para encontrar erros. 00:01:44.544 --> 00:01:46.974 Por exemplo, se descobrirem uma ocorrência de um erro, 00:01:46.975 --> 00:01:49.709 podem verificar se existem outros locais 00:01:49.710 --> 00:01:51.958 onde as pessoas tenham feito um erro parecido 00:01:51.958 --> 00:01:53.438 e descobri-lo com o Query Service. 00:01:53.439 --> 00:01:57.875 Também podem combinar os dois e procurar violações de restrições no Query Service, 00:01:57.875 --> 00:02:01.240 como por exemplo, apenas violações que ocorram numa área 00:02:01.241 --> 00:02:03.762 ou WikiProject que seja relevantes para vocês. 00:02:03.762 --> 00:02:06.828 Embora, atualmente, os resultados não estejam completos. Infelizmente. 00:02:08.422 --> 00:02:09.877 Existe a avaliação de revisões. 00:02:10.690 --> 00:02:12.666 Penso que seja parte das alterações recentes. 00:02:12.667 --> 00:02:16.217 Podem também adicioná-la à vossa lista de visualização: uma avaliação automática 00:02:16.217 --> 00:02:20.249 da probabilidade desta edição ter sido feita em boa ou má-fé 00:02:20.250 --> 00:02:22.312 e da probabilidade de causar ou não danos. 00:02:22.313 --> 00:02:24.205 Penso que sejam essas as duas dimensões. 00:02:24.206 --> 00:02:25.686 Podem, se quiserem, 00:02:25.687 --> 00:02:29.898 concentrar a busca apenas nas edições danosas mas feitas com boa-fé. 00:02:29.899 --> 00:02:32.523 Se se estiverem a sentir particularmente amigáveis e acolhedores 00:02:32.524 --> 00:02:37.121 podem dizer a estes editores: "Obrigado pela contribuição. 00:02:37.122 --> 00:02:40.560 Deviam tê-la feito desta maneira, mas obrigado de qualquer forma." 00:02:40.561 --> 00:02:42.186 E, se não estiverem com essa disposição, 00:02:42.187 --> 00:02:44.452 podem rever as edições danosas feitas com má-fé 00:02:44.453 --> 00:02:45.573 e reverter o vandalismo. 00:02:47.544 --> 00:02:49.761 Existe também algo semelhante: avaliação de entidades. 00:02:49.762 --> 00:02:52.590 Em vez de classificar uma edição, a alteração que foi feita, 00:02:52.591 --> 00:02:53.904 vão classificar toda a revisão. 00:02:53.904 --> 00:02:56.483 Penso que seja a mesma medida de qualidade 00:02:56.483 --> 00:02:59.863 mencionada pela Lydia no início da conferência. 00:03:00.372 --> 00:03:04.569 Isto fornece um script de utilizador aqui em cima e uma pontuação de um a cinco, 00:03:04.570 --> 00:03:08.176 penso eu, da qualidade do item corrente. 00:03:10.043 --> 00:03:15.528 A ferramenta de fontes primárias é para bases de dados que queiram importar, 00:03:15.528 --> 00:03:18.414 mas que não têm qualidade suficiente para entrar diretamente na Wikidata. 00:03:18.414 --> 00:03:21.085 Ao invés, adicionam-nas à ferramenta de fontes primárias e, depois, 00:03:21.085 --> 00:03:22.956 as pessoas podem decidir 00:03:22.956 --> 00:03:26.024 se devem adicionar estas declarações individuais ou não. 00:03:28.595 --> 00:03:31.607 Mostrar coordenadas como mapas: é uma funcionalidade conveniente 00:03:31.607 --> 00:03:33.588 mas também é útil para controlo de qualidade. 00:03:33.588 --> 00:03:36.937 Por exemplo, se virem que isto devia ser o escritório da Wikimedia na Alemanha 00:03:36.938 --> 00:03:39.400 e as coordenadas forem algures no Oceano Índico, 00:03:39.401 --> 00:03:41.529 saberão que algo está errado, aqui. 00:03:41.530 --> 00:03:44.790 E podem vê-lo mais facilmente do que se tivessem apenas os números. 00:03:46.382 --> 00:03:49.576 Esta é uma engenhoca chamada indicador de integridade relativa, 00:03:49.577 --> 00:03:52.480 que apresenta este pequeno ícone 00:03:53.007 --> 00:03:55.419 que vos mostra o quão completo pensa que este item está 00:03:55.419 --> 00:03:57.672 e que propriedades é mais provável que estejam em falta. 00:03:57.672 --> 00:03:59.769 O que é muito útil se estiverem a editar um item, 00:03:59.769 --> 00:04:03.172 estiverem numa área com a qual não estejam muito familiarizados 00:04:03.172 --> 00:04:05.661 e não saibam quais são as propriedades certas a usar. 00:04:05.662 --> 00:04:08.230 Nesse caso, esta é uma miniaplicação muito útil. 00:04:09.604 --> 00:04:11.401 Temos o Shape Expressions. 00:04:11.402 --> 00:04:15.624 Penso que a Andra ou o Jose vão falar mais sobre elas 00:04:15.624 --> 00:04:19.757 mas são uma forma muito poderosa de comparar os dados que têm 00:04:19.758 --> 00:04:20.758 com o esquema. 00:04:20.759 --> 00:04:22.680 Como, que declaração devem ter certas entidades, 00:04:22.681 --> 00:04:25.677 a que outras entidades devem estar ligadas e como essas devem ser. 00:04:26.229 --> 00:04:29.374 Podem detetar problemas dessa forma. 00:04:30.366 --> 00:04:32.361 Penso que... Não. Ainda há mais. 00:04:32.362 --> 00:04:34.321 O Integraality ou painel de propriedades. 00:04:34.322 --> 00:04:36.773 Dá-vos uma visão geral dos dados já existentes. 00:04:36.774 --> 00:04:39.147 Por exemplo, isto é do WikiProject Red Pandas. 00:04:39.657 --> 00:04:41.681 Podem ver que temos um sexo ou género 00:04:41.682 --> 00:04:43.561 para quase todos os pandas-vermelhos. 00:04:43.561 --> 00:04:46.854 A data de nascimento varia bastante consoante o zoo de onde vêm 00:04:46.854 --> 00:04:50.255 e quase não temos pandas mortos, o que é maravilhoso 00:04:50.256 --> 00:04:51.346 (risos) 00:04:51.437 --> 00:04:52.600 porque são tão fofos. 00:04:53.699 --> 00:04:55.654 Por isso, isto também é útil. 00:04:56.377 --> 00:04:59.185 Cá está. Agora para o que está para vir. 00:04:59.889 --> 00:05:03.784 Wikidata Bridge, anteriormente conhecida como editor de clientes. 00:05:03.785 --> 00:05:07.076 Ou seja, editar dados a partir de caixas de informação da Wikipedia. 00:05:07.675 --> 00:05:11.725 O que, por um lado, dará mais visibilidade aos dados 00:05:11.725 --> 00:05:13.441 pois mais pessoas os conseguirão ver ali. 00:05:13.441 --> 00:05:18.841 E, assim se espera, encorajará uma maior utilização da Wikidata nas Wikipedias. 00:05:18.841 --> 00:05:20.920 Isto significa que mais pessoas podem reparar 00:05:20.921 --> 00:05:23.857 se, por exemplo, há dados desatualizados que precisam de ser atualizados, 00:05:23.857 --> 00:05:27.060 ao invés de só os verem na própria Wikidata. 00:05:28.630 --> 00:05:30.656 Existem também as referências corrompidas. 00:05:30.657 --> 00:05:33.959 Aqui, a ideia é que, se editarem uma declaração de valor, 00:05:34.683 --> 00:05:37.279 pode ser preciso atualizar também as referências, 00:05:37.280 --> 00:05:39.373 a não ser que seja apenas uma gralha, ou similar. 00:05:39.897 --> 00:05:43.662 Estas referências corrompidas dizem-no aos editores 00:05:43.663 --> 00:05:49.756 e também que os outros editores vêm as outras edições que foram feitas 00:05:49.756 --> 00:05:52.471 que editaram uma declaração de valor e não atualizaram a referência. 00:05:52.472 --> 00:05:56.766 Depois, podem limpar e decidir se isso deve... 00:05:57.737 --> 00:05:59.566 Precisam de fazê-lo novamente 00:05:59.566 --> 00:06:02.796 ou está tudo correto e não é necessário atualizar a referência. 00:06:03.543 --> 00:06:09.336 Tem relação com declarações assinadas. Que têm origem numa preocupação, penso eu, 00:06:09.336 --> 00:06:12.355 que alguns fornecedores de dados têm de... 00:06:14.131 --> 00:06:17.231 Há uma declaração que é referenciada através na UNESCO, ou similar. 00:06:17.232 --> 00:06:19.872 Depois, de repente, alguém vandaliza a declaração 00:06:19.873 --> 00:06:21.836 e eles estão preocupados que parecerá que 00:06:22.827 --> 00:06:26.992 essa organização, como a UNESCO, ainda define este valor de vandalismo. 00:06:26.993 --> 00:06:28.706 Assim, com declarações assinadas, 00:06:28.706 --> 00:06:31.488 eles podem assinar essa referência criptograficamente. 00:06:31.488 --> 00:06:33.562 Isso não vai prevenir edições à referência 00:06:34.169 --> 00:06:37.624 mas, se alguém vandalizar a declaração 00:06:37.624 --> 00:06:40.255 ou se a editar de alguma forma a assinatura deixa de ser válida. 00:06:40.255 --> 00:06:43.401 E pode-se ver que isto não é exatamente o que foi dito pela organização. 00:06:43.402 --> 00:06:47.064 Pode ser que seja uma boa edição e eles devam assinar a nova declaração, 00:06:47.065 --> 00:06:49.851 mas também pode acontecer que deva ser revertida. 00:06:51.203 --> 00:06:54.166 E também... Isto vai ser muito empolgante, penso eu. 00:06:54.166 --> 00:06:56.846 O Citoid é um sistema fantástico que existe na Wikipedia 00:06:57.379 --> 00:07:01.340 no qual podem colar um URL, um identificador, um ISBN, 00:07:01.340 --> 00:07:04.759 um ID da Wikidata ou outra coisa qualquer no Visual Editor, 00:07:05.260 --> 00:07:08.241 e ele devolve uma referência bem formatada. 00:07:08.242 --> 00:07:11.049 Tem todos os dados que quiserem e uma usabilidade excelente. 00:07:11.049 --> 00:07:14.337 Por comparação, na Wikidata, se eu quiser adicionar uma referência, 00:07:14.338 --> 00:07:18.801 tenho, tipicamente, de adicionar o URL, título, nome de autor, 00:07:18.802 --> 00:07:20.449 data de publicação da referência, 00:07:20.450 --> 00:07:25.141 recuperar as datas. No mínimo, o que é aborrecido. 00:07:25.141 --> 00:07:29.261 Espera-se que a integração do Citoid na Wikibase ajude com isso. 00:07:30.245 --> 00:07:33.604 Penso que é tudo o que tinha. Sim. 00:07:33.604 --> 00:07:36.400 Vou agora passar à Cristina. 00:07:37.788 --> 00:07:42.339 (aplausos) 00:07:43.780 --> 00:07:45.331 Olá, eu sou a Cristina. 00:07:45.331 --> 00:07:47.692 Sou uma cientista de investigação da Universidade de Zurique 00:07:47.692 --> 00:07:51.417 e também um membro ativo da comunidade Suíça. 00:07:52.698 --> 00:07:57.901 Quando eu e a Claudia Müller-Birn submetemos isto à WikidataCon, 00:07:57.902 --> 00:08:02.420 o que queríamos era continuar a discussão que começámos no início do ano 00:08:02.424 --> 00:08:07.442 numa workshop acerca de qualidade de dados e também nalgumas sessões na Wikimania. 00:08:07.442 --> 00:08:10.535 Então, o objetivo desta palestra é apresentar algumas ideias 00:08:10.536 --> 00:08:14.432 que estivemos a compilar, nossas e da comunidade, 00:08:14.432 --> 00:08:16.560 e continuar a discussão. 00:08:16.561 --> 00:08:20.065 Gostaríamos de continuar a interagir muito convosco. 00:08:21.557 --> 00:08:23.371 O que pensamos ser muito importante, 00:08:23.372 --> 00:08:27.580 é perguntarmos continuamente a todos os tipos de utilizador na comunidade, 00:08:27.581 --> 00:08:32.240 o que realmente precisam, que problemas têm com qualidade de dados. 00:08:32.240 --> 00:08:35.000 Não apenas os editores, mas também as pessoas que estão a programar 00:08:35.000 --> 00:08:36.241 ou a consumir os dados. 00:08:36.242 --> 00:08:39.494 E também os investigadores que estão a usar toda a história de edições 00:08:39.494 --> 00:08:41.120 para analisar o que está a acontecer. 00:08:42.367 --> 00:08:48.431 Assim, fizemos uma avaliação de cerca de 80 ferramentas que existem na Wikidata 00:08:48.431 --> 00:08:52.380 e alinhámo-las com as diferentes dimensões de qualidade de dados. 00:08:52.380 --> 00:08:54.360 O que vimos foi que, na realidade, 00:08:54.361 --> 00:08:57.681 muitas delas estão a vigiar, a monitorizar a integridade, 00:08:57.682 --> 00:09:02.820 mas, na verdade... Algumas delas estão também a capacitar interligações. 00:09:02.820 --> 00:09:08.442 Mas, existe uma grande necessidade de ferramentas que vejam a diversidade, 00:09:08.443 --> 00:09:12.824 que é uma das coisas que podemos ter na Wikidata. 00:09:12.824 --> 00:09:15.958 Especialmente, este princípio do design da Wikidata, 00:09:15.959 --> 00:09:17.901 segundo o qual podemos ter pluralidade 00:09:17.902 --> 00:09:20.308 e declarações diferentes com valores diferentes 00:09:20.914 --> 00:09:22.236 originárias de fontes diferentes. 00:09:22.236 --> 00:09:24.921 Visto ser uma fonte secundária, não temos realmente ferramentas 00:09:24.922 --> 00:09:27.750 que nos digam quantas declarações plurais existem, 00:09:27.751 --> 00:09:30.889 quantas podemos melhorar e como. 00:09:30.890 --> 00:09:32.833 Também não sabemos 00:09:32.833 --> 00:09:35.538 quais são todas as razões para pluralidade que podemos ter. 00:09:36.491 --> 00:09:39.201 Assim, a partir destes encontros da comunidade 00:09:39.201 --> 00:09:43.084 o que discutimos foram os desafios que ainda necessitam de atenção. 00:09:43.084 --> 00:09:47.249 Por exemplo, que ter todas estas comunidades de crowdsourcing 00:09:47.249 --> 00:09:50.813 é muito bom, já que pessoas diferentes atacam partes diferentes dos dados 00:09:50.813 --> 00:09:51.833 ou do gráfico. 00:09:51.834 --> 00:09:54.615 Temos também conhecimentos de origem diferentes. 00:09:54.616 --> 00:09:59.161 Mas, na realidade, é muito difícil alinhar tudo em algo que seja homogéneo 00:09:59.162 --> 00:10:04.920 pois pessoas diferentes usam propriedades diferentes de forma diferente. 00:10:04.920 --> 00:10:08.401 E estão também à espera de coisas diferentes das descrições de entidade. 00:10:09.003 --> 00:10:12.721 Foi também dito que são necessárias mais ferramentas 00:10:12.722 --> 00:10:16.000 que dêm uma melhor visão geral do estado global das coisas. 00:10:16.000 --> 00:10:20.733 Ou seja, que entidades estão em falta, em termos de integridade, 00:10:20.733 --> 00:10:25.013 mas também no que é que as pessoas estão a trabalhar hoje em dia, 00:10:25.013 --> 00:10:26.121 na maior parte do tempo. 00:10:26.741 --> 00:10:30.516 Também foi mencionada com frequência uma colaboração mais apertada 00:10:30.517 --> 00:10:33.311 entre, não só as linguagens, mas os WikiProjects 00:10:33.311 --> 00:10:35.571 a as diferentes plataformas Wikimedia. 00:10:35.571 --> 00:10:38.859 Publicámos todos os comentários transcritos 00:10:38.860 --> 00:10:42.959 de todas estas discussões nestas ligações aqui, no Etherpads 00:10:42.959 --> 00:10:46.162 e também na página wiki da Wikimania. 00:10:46.162 --> 00:10:48.481 Algumas das soluções que apareceram 00:10:48.481 --> 00:10:53.001 vão na direção da partilha das melhores práticas 00:10:53.001 --> 00:10:55.762 que estão a ser desenvolvidas nos diferentes WikiProjects. 00:10:55.762 --> 00:10:57.659 Mas, as pessoas também querem ferramentas 00:10:57.659 --> 00:11:01.239 que ajudem a organizar o trabalho em equipa 00:11:01.239 --> 00:11:03.845 ou, pelo menos, a perceber quem está a trabalhar em quê. 00:11:03.845 --> 00:11:07.815 Também foi mencionada a vontade de ter mais demonstrações 00:11:07.816 --> 00:11:12.019 e mais modelos que os ajudem a criar coisas de uma forma melhor. 00:11:12.946 --> 00:11:15.111 E, pelo contacto que temos 00:11:15.111 --> 00:11:18.721 com organizações de dados governamentais abertas 00:11:18.722 --> 00:11:20.068 e, em particular, 00:11:20.068 --> 00:11:23.102 eu estou em contacto com o cantão e a cidade de Zurique, 00:11:23.102 --> 00:11:26.207 eles estão muito interessados em trabalhar com a Wikidata 00:11:26.207 --> 00:11:29.896 porque querem que os seus dados estejam acessíveis para todos 00:11:29.897 --> 00:11:33.681 no local onde as pessoas vão e consultam ou acedem aos dados. 00:11:33.682 --> 00:11:36.550 Assim, para eles, algo que seria mesmo interessante 00:11:36.551 --> 00:11:38.600 seria ter algum tipo de indicador de qualidade 00:11:38.600 --> 00:11:41.082 tanto na wiki, o que já acontece atualmente, 00:11:41.082 --> 00:11:42.801 como nos resultados SPARQL. 00:11:42.802 --> 00:11:46.066 Para saber se podem ou não confiar dos dados da comunidade. 00:11:46.487 --> 00:11:49.630 Eles também querem saber que partes dos seus próprios conjuntos de dados 00:11:49.630 --> 00:11:51.417 são úteis para a Wikidata. 00:11:51.418 --> 00:11:56.040 E adorariam ter uma ferramenta que ajudasse a avaliar automaticamente. 00:11:56.041 --> 00:11:59.066 Também precisam de algum tipo de metodologia ou ferramenta 00:11:59.067 --> 00:12:03.894 que os ajude a decidir se devem ou não importar ou ligar os seus dados 00:12:03.894 --> 00:12:05.357 pois, nalguns casos,eles também têm 00:12:05.357 --> 00:12:07.947 os seus próprios conjuntos de dados abertos ligados e não sabem 00:12:07.947 --> 00:12:11.707 se devem apenas incorporar os dados ou continuar a criar ligações 00:12:11.707 --> 00:12:14.294 dos conjuntos de dados à Wikidata e vice-versa. 00:12:14.950 --> 00:12:20.043 Também querem saber se os seus websites forem referidos na Wikidata. 00:12:20.044 --> 00:12:23.361 E, quando correm essas consultas no serviço de consultas 00:12:23.362 --> 00:12:24.848 recebem, muitas vezes, timeouts. 00:12:24.849 --> 00:12:28.181 Por isso, talvez devêssemos mesmo criar mais ferramentas 00:12:28.181 --> 00:12:32.241 que os ajudem a obter estas respostas para as suas questões. 00:12:32.241 --> 00:12:33.938 (ruído de fundo) 00:12:33.938 --> 00:12:36.208 E, para além disso, 00:12:36.208 --> 00:12:39.361 nós, investigadores da wiki, também 00:12:39.362 --> 00:12:42.023 temos falta de alguma informação nos sumários de edição. 00:12:42.024 --> 00:12:44.953 Lembro-me que, quando estávamos a trabalhar 00:12:44.954 --> 00:12:48.919 para compreender os diferentes comportamentos dos editores 00:12:48.919 --> 00:12:53.403 com ferramentas ou bots, ou utilizadores anónimos, etc, 00:12:53.403 --> 00:12:56.154 faltava-nos realmente, por exemplo, 00:12:56.154 --> 00:13:01.112 uma forma padrão de registar que as ferramentas estavam a ser usadas. 00:13:01.113 --> 00:13:03.154 Já existem algumas ferramentas que fazem isso 00:13:03.155 --> 00:13:05.230 como o PetScan e muitas outras 00:13:05.230 --> 00:13:07.720 mas talvez devêssemos, na comunidade, 00:13:07.721 --> 00:13:11.965 debater mais acerca de como registar estes eventos 00:13:11.965 --> 00:13:13.829 para obter uma origem otimizada. 00:13:14.169 --> 00:13:15.321 E, no futuro, 00:13:15.322 --> 00:13:20.801 precisamos de pensar em dimensões de qualidade de dados mais concretas 00:13:20.802 --> 00:13:24.961 que estão relacionadas com dados ligados mas não com todos os tipos de dados. 00:13:24.962 --> 00:13:30.721 Por isso, trabalhámos nalgumas medidas para aceder ao aumento de informação 00:13:30.722 --> 00:13:33.881 proporcionado pelas ligações. O que queremos dizer com isso 00:13:33.882 --> 00:13:36.681 é que, quando ligamos a Wikidata a outros conjuntos de dados, 00:13:36.682 --> 00:13:38.201 também deviamos estar a pensar 00:13:38.202 --> 00:13:41.921 em quanto é que as entidades estão, na realidade, a ganhar na classificação, 00:13:41.922 --> 00:13:45.601 na descrição, mas também nos vocabulários que usam. 00:13:45.602 --> 00:13:51.041 Para dar um exemplo muito simples do que quero dizer com isto, 00:13:51.042 --> 00:13:54.269 podemos pensar... Neste caso, seria a Wikidata 00:13:54.270 --> 00:13:57.771 ou o centro de dados externo que está a ligar à Wikidata. 00:13:57.772 --> 00:14:00.487 Temos a entidade para uma pessoa chamada Natasha Noy, 00:14:00.487 --> 00:14:02.601 temos a afiliação e outras coisas. 00:14:02.602 --> 00:14:05.239 E, depois dizemos: "Está bem, ligamos a um local externo 00:14:05.240 --> 00:14:08.919 e aquela entidade também tem aquele nome." Mas, na realidade, temos o mesmo valor. 00:14:08.920 --> 00:14:12.889 Então, seria melhor se ligássemos a algo que tenha um nome diferente, 00:14:12.889 --> 00:14:16.881 o que ainda é válido porque esta pessoa tem duas formas de escrever o nome, 00:14:16.882 --> 00:14:19.714 e também outras informações que não temos na Wikidata 00:14:19.715 --> 00:14:21.760 ou que não temos no outro conjunto de dados. 00:14:22.390 --> 00:14:24.652 Mas também, o que é ainda melhor 00:14:24.653 --> 00:14:27.770 é que estamos a olhar para o conjunto de dados alvo 00:14:27.770 --> 00:14:31.392 e eles também têm novas formas de classificar a informação. 00:14:31.393 --> 00:14:35.354 Por isso, não só é uma pessoa, mas, no outro conjunto de dados, 00:14:35.355 --> 00:14:37.076 também diz que é do sexo feminino 00:14:37.076 --> 00:14:39.526 ou qualquer outra classificação que tenha sido usada. 00:14:39.526 --> 00:14:43.401 Se, no outro conjunto de dados, estiverem a usar muitos outros vocabulários 00:14:43.402 --> 00:14:46.588 isso também está a ajudar na recuperação de informação como um todo. 00:14:47.371 --> 00:14:51.233 Também gostava de dizer 00:14:51.234 --> 00:14:55.809 que pensamos que podemos mostrar melhor as consultas federadas 00:14:55.810 --> 00:15:00.448 porque, quando olhamos para o log da consulta fornecido por Malyshev et al, 00:15:01.285 --> 00:15:06.921 vemos que, das consultas orgânicas, temos apenas algumas consultas federadas. 00:15:06.922 --> 00:15:12.801 E, na realidade, a federação é uma das vantagens chave de ter dados ligados. 00:15:12.802 --> 00:15:16.903 Por isso, talvez a comunidade ou as pessoas que usam a Wikidata 00:15:16.903 --> 00:15:18.898 também precisem de mais exemplos deste tipo. 00:15:18.898 --> 00:15:22.666 Se olharmos para a lista de parâmetros que estão a ser usados... 00:15:22.667 --> 00:15:25.401 Esta não é uma lista completa e temos muitos mais. 00:15:25.402 --> 00:15:30.479 Estes dados foram analisados a partir de consultas feitas até março de 2018, 00:15:30.480 --> 00:15:34.807 mas deviamos olhar para a lista de parâmetros federados que temos 00:15:34.808 --> 00:15:37.048 e ver se os estamos realmente a usar ou não. 00:15:37.813 --> 00:15:40.441 Por isso, duas questões que tenho para a audiência 00:15:40.442 --> 00:15:43.001 e que talvez possamos usar depois para a discussão, são: 00:15:43.001 --> 00:15:46.001 que problemas de qualidade de dados devem, na vossa opinião, ser abordados, 00:15:46.002 --> 00:15:47.412 devido às vossas necessidades. 00:15:47.412 --> 00:15:50.401 Mas também, onde é que é necessária mais automação 00:15:50.402 --> 00:15:53.043 para vos ajudar com as edições ou patrulhamentos. 00:15:53.866 --> 00:15:55.146 É tudo, muito obrigada. 00:15:55.779 --> 00:16:00.537 (aplausos) 00:16:06.030 --> 00:16:09.427 (Jose Emilio Labra) Vou falar-vos de algumas ferramentas 00:16:09.427 --> 00:16:14.715 que estamos a desenvolver, relacionadas com o Shape Expressions. 00:16:15.536 --> 00:16:19.371 É disto que quero falar... Sou o Jose Emilio Labra, 00:16:19.371 --> 00:16:23.215 mas há... Todas estas ferramentas foram construídas por pessoas diferentes, 00:16:23.920 --> 00:16:28.480 muitas relacionadas com o W3C ShEx, Shape Expressions Community Group. 00:16:28.481 --> 00:16:29.481 ShEx Community Group. 00:16:31.344 --> 00:16:36.081 A primeira ferramenta que quero mencionar é o RDFShape. Esta é uma ferramenta geral 00:16:36.082 --> 00:16:40.681 porque o Shape Expressions não é só para a Wikidata. 00:16:40.682 --> 00:16:44.168 O Shape Expressions é uma linguagem para validar RDF em geral. 00:16:44.168 --> 00:16:47.568 Esta ferramenta foi desenvolvida principalmente por mim 00:16:47.568 --> 00:16:50.880 e é uma ferramenta para validar RDF no geral. 00:16:50.881 --> 00:16:55.139 Se quiserem aprender acerca de RDF ou se quiserem validar parâmetros RDF 00:16:55.140 --> 00:16:58.621 ou SPARQL, não só na Wikidata, 00:16:58.622 --> 00:17:00.891 o meu conselho é que podem usar esta ferramenta. 00:17:00.891 --> 00:17:03.255 Também para ensinar. 00:17:03.255 --> 00:17:05.640 Sou um professor universitário 00:17:05.641 --> 00:17:09.151 e uso-a no meu curso de web semântica para ensinar RDF. 00:17:09.161 --> 00:17:12.121 Por isso, se quiserem aprender RDF, penso que esta é uma boa ferramenta. 00:17:13.033 --> 00:17:17.855 Por exemplo, esta é só uma visualização de um gráfico RDF com essa ferramenta. 00:17:19.157 --> 00:17:22.643 Mas, antes de vir cá, no último mês, 00:17:22.643 --> 00:17:27.293 comecei um fork de rdfshape especificamente para a Wikidata, 00:17:27.293 --> 00:17:28.443 porque pensei... 00:17:28.443 --> 00:17:33.082 Chama-se WikiShape e, ontem, apresentei-a como presente à Wikidata. 00:17:33.082 --> 00:17:34.441 Então, eu peguei... 00:17:34.442 --> 00:17:39.898 O que eu fiz foi remover tudo o que não tivesse relação com a Wikidata 00:17:39.898 --> 00:17:42.603 e acrescentar várias coisas, com codificação permanentemente, 00:17:42.603 --> 00:17:44.802 como, por exemplo, o parâmetro Wikidata SPARQL. 00:17:44.802 --> 00:17:49.041 Agora, foi-me pedido que fizesse isso também para a Wikibase. 00:17:49.042 --> 00:17:52.000 E é muito fácil fazê-lo também para a Wikibase. 00:17:52.760 --> 00:17:56.280 Então, esta ferramenta, a WikiShape, é muito recente. 00:17:57.015 --> 00:17:59.843 Penso que funciona, a maioria das funcionalidades, 00:17:59.844 --> 00:18:02.468 mas há algumas funcionalidades que podem não funcionar. 00:18:02.469 --> 00:18:06.281 Se experimentarem e quiserem melhorá-la, digam-me, por favor. 00:18:06.281 --> 00:18:11.048 Isto é uma captura de ecrã, mas penso que posso experimentar. 00:18:11.558 --> 00:18:13.488 Por isso, vamos experimentar. 00:18:14.256 --> 00:18:15.366 (risos) 00:18:15.385 --> 00:18:16.945 Vamos ver se funciona. 00:18:16.953 --> 00:18:20.070 Primeiro, tenho de sair do... 00:18:22.453 --> 00:18:23.453 Aqui. 00:18:25.436 --> 00:18:28.244 Esta é a ferramenta, aqui. 00:18:28.244 --> 00:18:29.844 Coisas que podem fazer com a ferramenta: 00:18:29.845 --> 00:18:35.275 por exemplo, podem verificar esquemas, esquemas de entidades. 00:18:35.276 --> 00:18:38.611 Sabem que há um novo namespace que é "E" qualquer coisa". 00:18:38.612 --> 00:18:44.805 Então, se começaram, por exemplo, a escrever "humano", 00:18:44.806 --> 00:18:48.812 à medida que escrevem, o autocompletamento permite-vos verificar 00:18:48.812 --> 00:18:52.001 que isto é o Shape Expressions de um humano 00:18:52.790 --> 00:18:55.937 e que isto é o Shape Expressions, aqui. 00:18:55.938 --> 00:18:59.841 Como podem ver, este editor tem realce de sintaxe. 00:18:59.842 --> 00:19:04.559 Isto é... Bem, talvez seja muito pequeno, o ecrã. 00:19:05.676 --> 00:19:07.590 Posso tentar aumentá-lo. 00:19:09.194 --> 00:19:10.973 Talvez o vejam melhor, agora. 00:19:10.973 --> 00:19:14.241 Então, este é o editor, com realce de sintaxe, e também tem... 00:19:14.241 --> 00:19:17.851 Quero dizer, este editor vem do mesmo código fonte 00:19:17.851 --> 00:19:19.641 do editor de consultas da Wikidata. 00:19:19.642 --> 00:19:23.960 Se pairarem com o rato aqui, 00:19:23.961 --> 00:19:27.961 vai mostrar-vos as etiquetas das diferentes propriedades. 00:19:27.962 --> 00:19:31.298 Penso que é muito útil porque, agora, 00:19:32.588 --> 00:19:36.152 o esquema de entidades que está na Wikidata 00:19:36.152 --> 00:19:38.602 é só uma ideia em texto simples. 00:19:38.602 --> 00:19:42.493 Penso que este editor é muito melhor porque tem autocompletamento 00:19:42.494 --> 00:19:43.743 também tem... 00:19:43.744 --> 00:19:48.241 Por exemplo, se quiserem adicionar uma restrição 00:19:48.241 --> 00:19:51.570 vão dizer: "wdt:". 00:19:51.570 --> 00:19:56.884 Começam a escrever "author" e depois clicam em Ctrl+Espaço 00:19:56.884 --> 00:19:58.922 e vai sugerir-vos várias coisas. 00:19:58.922 --> 00:20:02.388 Então, isto é semelhante ao serviço de consultas da Wikidata, 00:20:02.389 --> 00:20:06.445 mas para Shape Expressions, especificamente. 00:20:06.445 --> 00:20:11.377 Porque penso que, criar Shape Expressions 00:20:11.976 --> 00:20:15.841 não é mais difícil do que escrever consultas SPARQL. 00:20:16.492 --> 00:20:21.905 Algumas pessoas pensam que o nível de dificuldade é o mesmo. 00:20:22.278 --> 00:20:26.296 É provavelmente mais fácil porque o Shape Expressions era... 00:20:26.296 --> 00:20:31.241 Quando o concebemos, fizemo-lo para que fosse mais fácil trabalhar. 00:20:32.152 --> 00:20:37.371 Esta é uma das primeiras coisas que têm. Este editor para Shape Expressions. 00:20:37.371 --> 00:20:41.467 Depois, também têm a possibilidade de, por exemplo, visualizar. 00:20:41.468 --> 00:20:44.801 Se tiverem uma Shape Expression, usem, por exemplo... 00:20:44.802 --> 00:20:49.386 Penso que "trabalho escrito" é uma boa Shape Expression 00:20:49.386 --> 00:20:53.300 porque tem algumas relações entre diferentes coisas. 00:20:54.823 --> 00:20:58.160 E isto é a visualização UML do trabalho escrito. 00:20:58.161 --> 00:21:02.090 Numa UML, isto é fácil de ver, as diferentes propriedades. 00:21:02.790 --> 00:21:06.794 Quando fazem isto, apercebi-me que, quando o tentei com várias pessoas, 00:21:06.795 --> 00:21:09.216 encontram alguns erros nas suas Shape Expressions 00:21:09.217 --> 00:21:12.988 porque é fácil detetar quais são as propriedades em falta. 00:21:13.588 --> 00:21:17.261 Depois, temos aqui outra possibilidade que é a de poder também validar. 00:21:17.261 --> 00:21:19.520 Penso que a temos aqui, a validação. 00:21:20.496 --> 00:21:25.285 Pensava que a tinha nalguma etiqueta. Talvez a tenha fechado. 00:21:26.267 --> 00:21:30.988 Mas podem, por exemplo, clicar aqui: Validar entidades. 00:21:32.308 --> 00:21:34.232 Vocês, por exemplo, 00:21:35.404 --> 00:21:41.921 "q42" com "e42", que é o autor. 00:21:42.818 --> 00:21:46.180 Com "humano". Penso que o podemos fazer com "humano". 00:21:49.050 --> 00:21:50.050 E depois é... 00:21:50.688 --> 00:21:56.365 Está a demorar um pouco a fazê-lo porque está a realizar consultas SPARQL. 00:21:56.365 --> 00:21:59.134 E agora, por exemplo, está a falhar por causa da rede. Mas... 00:21:59.657 --> 00:22:01.580 Podem tentá-lo. 00:22:02.759 --> 00:22:07.026 Vamos continuar com a apresentação, com outras ferramentas. 00:22:07.026 --> 00:22:12.353 O meu conselho é, se o quiserem tentar e se quiserem qualquer feedback, digam-me. 00:22:13.133 --> 00:22:15.540 Então, para continuar com a apresentação... 00:22:18.923 --> 00:22:20.233 Isto é a WikiShape. 00:22:23.800 --> 00:22:26.509 Já o disse, 00:22:27.681 --> 00:22:34.157 o editor de Shape Expressions é um projeto independente no GitHub. 00:22:35.605 --> 00:22:37.472 Podem usá-lo no vosso próprio projeto. 00:22:37.472 --> 00:22:41.036 Se quiserem construir uma ferramenta de Shape Expressions, 00:22:41.036 --> 00:22:45.635 podem integrá-lo em qualquer outro projeto. 00:22:45.636 --> 00:22:48.235 Está no GitHub e podem usá-lo. 00:22:48.868 --> 00:22:51.970 O mesmo autor, é um dos meus estudantes. 00:22:52.684 --> 00:22:55.644 Ele também criou um editor para Shape Expressions, 00:22:55.644 --> 00:22:57.839 também inspirado pelo serviço de consultas do Wikidata, 00:22:57.839 --> 00:23:00.681 onde, numa coluna, 00:23:00.682 --> 00:23:05.103 têm este editor mais visual de consultas SPARQL 00:23:05.104 --> 00:23:07.135 onde podem introduzir este tipo de coisas. 00:23:07.136 --> 00:23:09.123 Esta é uma captura de ecrã. 00:23:09.123 --> 00:23:12.662 Podem ver que isto é Shape Expressions em texto, 00:23:12.662 --> 00:23:15.565 mas isto é Shape Expressions baseado em formas 00:23:15.565 --> 00:23:18.595 onde, provavelmente, demoraria um pouco mais, 00:23:18.595 --> 00:23:23.400 onde podem pôr as diferentes colunas nos diferentes campos. 00:23:24.480 --> 00:23:26.879 Depois há o ShExEr. 00:23:26.879 --> 00:23:31.882 Temos...Foi feito por um estudante de doutoramento da Universidade de Oviedo. 00:23:31.883 --> 00:23:34.080 E ele está cá, por isso pode apresentar o ShExEr. 00:23:38.147 --> 00:23:40.024 (Danny) Olá, eu sou o Danny Fernàndez. 00:23:40.025 --> 00:23:43.010 Sou um estudante de doutoramento na Universidade de Oviedo 00:23:43.010 --> 00:23:44.060 a trabalhar com o Labra. 00:23:44.060 --> 00:23:47.725 Já que estamos a ficar sem tempo, vamos fazer isto rapidamente. 00:23:47.726 --> 00:23:52.891 Não faremos uma demonstração, mas veremos algumas capturas de ecrã. 00:23:54.371 --> 00:23:56.897 A forma usual de trabalhar com Shape Expressions, 00:23:56.897 --> 00:23:59.507 ou com qualquer linguagem de formas, é ter um perito no domínio 00:23:59.522 --> 00:24:02.313 que define, a priori, como se deve parecer o gráfico, 00:24:02.314 --> 00:24:03.555 define algumas estruturas. 00:24:03.556 --> 00:24:06.983 Depois usam essas estruturas para comparar os dados e validá-los. 00:24:08.124 --> 00:24:11.641 Esta ferramenta, que é, tal como aquelas que o Labra esteve a apresentar, 00:24:11.642 --> 00:24:14.441 uma ferramenta polivalente para qualquer fonte RDF, 00:24:14.442 --> 00:24:17.375 está concebida para fazer o contrário. 00:24:17.376 --> 00:24:18.758 Já têm alguns dados, 00:24:18.759 --> 00:24:23.165 selecionam que nodos querem usar para formar a forma 00:24:23.165 --> 00:24:26.718 e depois extraem ou inferem a forma automaticamente. 00:24:26.719 --> 00:24:29.791 Então, mesmo sendo uma ferramenta polivalente, 00:24:29.791 --> 00:24:34.063 o que fizemos para este WikidataCon foi este botão catita. 00:24:34.884 --> 00:24:37.081 Se clicarem nele, o que acontece, essencialmente, 00:24:37.081 --> 00:24:42.079 é que, há tantos parâmetros de configuração, 00:24:42.080 --> 00:24:46.251 e ele configura-os para funcionar com os parâmetros da Wikidata. 00:24:46.251 --> 00:24:47.971 Vai acabar em breve, desculpem. 00:24:48.733 --> 00:24:52.883 Assim que pressionam este botão o que obtêm é essencialmente isto. 00:24:52.884 --> 00:24:55.126 Depois de selecionarem que tipo de nodos, 00:24:55.127 --> 00:24:59.360 que tipo de instâncias da nossa classe, ou seja o que for que estejam a procurar, 00:24:59.361 --> 00:25:01.321 obtêm um esquema automático. 00:25:02.319 --> 00:25:07.111 Todas as restrições são resolvidas por quantos nodos são conformantes. 00:25:07.112 --> 00:25:09.772 Podem filtrar os menos comuns, etc. 00:25:09.772 --> 00:25:12.126 Há um poster lá em baixo acerca disto. 00:25:12.127 --> 00:25:16.455 Eu estarei lá em baixo e cá em cima, em todo o lado o dia todo. 00:25:16.455 --> 00:25:19.081 Por isso, se tiverem interesse adicional nesta ferramenta 00:25:19.082 --> 00:25:21.476 falem comigo durante esta jornada. 00:25:21.477 --> 00:25:24.624 Vou devolver o microfone ao Labra. Obrigado. 00:25:24.625 --> 00:25:29.265 (aplausos) 00:25:29.812 --> 00:25:32.578 (Jose) Vamos continuar com as outras ferramentas. 00:25:32.579 --> 00:25:34.984 A outra ferramenta é o ShapeDesigner. 00:25:34.984 --> 00:25:37.241 Andra, queres falar do ShapeDesigner agora 00:25:37.242 --> 00:25:39.287 ou mais tarde, durante a workshop? 00:25:39.287 --> 00:25:40.603 Há uma workshop... 00:25:40.603 --> 00:25:44.437 Esta tarde, há uma workshop, especifica para Shape Expressions, e... 00:25:45.265 --> 00:25:47.939 A ideia é que vai ser mais na vertente prática 00:25:47.940 --> 00:25:52.324 e, se quiserem praticar ShEx, podem fazê-lo lá. 00:25:52.875 --> 00:25:55.720 Esta ferramenta é o ShEx,js. Lá está o Eric, ali. 00:25:55.721 --> 00:25:56.890 Podes apresentá-la. 00:25:57.969 --> 00:26:00.687 (Eric) Muito rapidamente, aquilo que quero dizer 00:26:00.687 --> 00:26:05.711 é que já viram, provavelmente, a interface de ShEx 00:26:05.711 --> 00:26:07.601 que foi concebida para a Wikidata. 00:26:07.602 --> 00:26:12.930 Ela foi simplificada e pensada especificamente para a Wikidata 00:26:12.930 --> 00:26:15.817 porque a versão genérica tem mais funcionalidades. 00:26:15.817 --> 00:26:19.014 Mas pensei em mencioná-la porque uma dessas funcionalidades 00:26:19.014 --> 00:26:23.201 é particularmente útil para depurar esquemas da Wikidata. 00:26:23.201 --> 00:26:29.224 A qual é, se selecionarem o modo slurp, 00:26:29.225 --> 00:26:31.444 o que faz é dizer, à medida que estou a validar, 00:26:31.445 --> 00:26:33.214 que quero puxar todos os triplos para baixo. 00:26:33.214 --> 00:26:36.274 E, isso significa que, se tiver um conjunto de falhas, 00:26:36.275 --> 00:26:39.586 posso verificá-las e começar a olhar para essas falhas e dizer 00:26:39.587 --> 00:26:41.800 quais são os triplos que estão aqui. 00:26:41.801 --> 00:26:44.120 Peço desculpas, os triplos estão aqui em baixo. 00:26:44.121 --> 00:26:45.647 Isto é só um registo do que aconteceu. 00:26:46.327 --> 00:26:49.180 Depois, podem limitar-se a remexer nisto em tempo real. 00:26:49.181 --> 00:26:51.033 Brincam com alguma coisa e muda. 00:26:51.033 --> 00:26:54.160 Então, é uma versão mais rápida para fazer todas essas coisas. 00:26:55.361 --> 00:26:56.481 Este é um formulário ShExC. 00:26:56.482 --> 00:26:59.455 É algo que o Joachim sugeriu. 00:27:00.035 --> 00:27:04.631 Pode ser útil para povoar documentos da Wikidata 00:27:04.631 --> 00:27:07.338 baseado numa Shape Expression para esse documento. 00:27:08.095 --> 00:27:11.681 Isto não foi feito à medida da Wikidata, 00:27:11.682 --> 00:27:14.081 mas é apenas para mostrar que podem ter um esquema 00:27:14.082 --> 00:27:15.891 e podem ter algumas anotações para especificar 00:27:15.891 --> 00:27:17.518 como quero apresentar o esquema. 00:27:17.519 --> 00:27:19.031 Depois, constrói um formulário 00:27:19.031 --> 00:27:21.191 e, se tiverem dados, pode até povoar o formulário. 00:27:24.517 --> 00:27:26.564 PyShEx [inaudível]. 00:27:26.564 --> 00:27:27.594 (risos) 00:27:28.025 --> 00:27:31.080 (Jose) Penso que este seja o último. 00:27:31.821 --> 00:27:34.080 Sim, o último é o PyShEx. 00:27:34.675 --> 00:27:38.151 O PyShEx é uma implementação de Shape Expressions em Python. 00:27:39.193 --> 00:27:41.680 Podem também experimentar o Jupyter Notebooks 00:27:41.680 --> 00:27:44.433 se quiserem esse tipo de coisas. É tudo, para isto. 00:27:44.433 --> 00:27:48.990 (aplausos) 00:27:52.916 --> 00:27:56.134 (Andra) Vou falar acerca de um projeto específico 00:27:56.134 --> 00:27:58.074 com o qual estou envolvido chamado Gene Wiki 00:27:58.075 --> 00:28:04.596 e onde também estamos a lidar com questões de qualidade. 00:28:04.597 --> 00:28:06.684 Mas, antes de falar da qualidade, 00:28:06.685 --> 00:28:09.229 talvez uma pequena apresentação acerca do que é o Gene Wiki. 00:28:09.855 --> 00:28:15.175 Acabámos de lançar uma pré-impressão de um artigo que escrevemos recentemente 00:28:15.175 --> 00:28:18.160 que explica os detalhes do projeto. 00:28:19.821 --> 00:28:21.760 Tiraram fotografias. 00:28:21.760 --> 00:28:23.846 Basicamente, o que o Gene Wiki faz 00:28:23.846 --> 00:28:28.027 é tentar inserir dados biomédicos, dados públicos, na Wikidata. 00:28:28.028 --> 00:28:32.200 Seguimos um padrão específico para inserir esses dados na Wikidata. 00:28:33.130 --> 00:28:36.809 Assim, quando temos um novo repositório, ou um novo conjunto de dados 00:28:36.810 --> 00:28:39.426 que é elegível para ser incluído na Wikidata, 00:28:39.426 --> 00:28:41.323 o primeiro passo é o envolvimento da comunidade. 00:28:41.323 --> 00:28:43.784 Não é dirigido, necessariamente a uma comunidade da Wikidata, 00:28:43.785 --> 00:28:46.120 mas a uma comunidade de pesquisa local. 00:28:46.121 --> 00:28:50.286 Encontramo-nos em pessoa, ou online, ou em qualquer plataforma 00:28:50.286 --> 00:28:52.881 e tentamos criar um modelo de dados 00:28:52.882 --> 00:28:56.197 que faça a ponte entre os seus dados e o modelo Wikidata. 00:28:56.197 --> 00:28:59.944 Aqui, tenho uma imagem de uma workshop que aconteceu aqui, no ano passado. 00:28:59.945 --> 00:29:02.663 Estava a tentar olhar para um conjunto de dados específico 00:29:02.663 --> 00:29:05.280 e, enfim, vêm muitas discussões, 00:29:05.281 --> 00:29:09.780 e depois alinhá-los com o schema.org e outras ontologias que por aí andam. 00:29:10.320 --> 00:29:15.508 Depois, no final do primeiro passo, temos um desenho do esquema 00:29:15.509 --> 00:29:17.336 que queremos implementar na Wikidata. 00:29:17.337 --> 00:29:20.440 O que vêm aqui, isto é apenas simples, 00:29:20.441 --> 00:29:21.766 temo-lo lá atrás, ali, 00:29:21.767 --> 00:29:25.240 e podemos fazer alguns esquemas dentro deste painel mesmo hoje. 00:29:26.560 --> 00:29:28.399 Assim que temos o esquema montado, 00:29:28.400 --> 00:29:31.320 o próximo passo é tentar fazer o esquema da máquina legível. 00:29:32.358 --> 00:29:35.280 Porque querem ter modelos acionáveis para fazer uma ponte 00:29:35.280 --> 00:29:38.613 com os dados que estão a inserir de qualquer base de dados biomédica 00:29:38.613 --> 00:29:40.393 no Wikidata. 00:29:41.682 --> 00:29:46.471 Aqui, estamos a aplicar Shape Expressions. 00:29:48.451 --> 00:29:52.518 Usámo-lo porque permite-vos testar 00:29:52.518 --> 00:29:57.040 se o conjunto de dados é, na realidade... Não. A ver, em primeiro lugar, 00:29:57.041 --> 00:30:01.782 se os dados que já existem na Wikidata seguem o mesmo modelo de dados 00:30:01.783 --> 00:30:04.718 que foi conseguido no processo anterior. 00:30:04.719 --> 00:30:06.641 Depois, com a Shape Expression podemos verificar: 00:30:06.642 --> 00:30:10.926 os dados deste tópico na Wikidata, será que precisam de uma limpeza 00:30:10.926 --> 00:30:15.013 ou precisamos de adaptar o nosso modelo ao modelo da Wikidata, ou vice-versa? 00:30:15.937 --> 00:30:19.867 Quando isso estiver definido e começarmos a programar bots 00:30:20.670 --> 00:30:23.801 e os bots estão a passar a informação 00:30:23.802 --> 00:30:27.308 que está nas fontes primárias para a Wikidata. 00:30:27.846 --> 00:30:29.303 Quando os bots estão prontos... 00:30:29.304 --> 00:30:33.001 Programamos estes bots com uma plataforma chamada... 00:30:33.002 --> 00:30:36.201 com uma biblioteca de Python chamada Wikidata Integrator 00:30:36.202 --> 00:30:38.167 que foi criada pelo nosso projeto. 00:30:38.698 --> 00:30:42.921 Uma vez que tenhamos os nossos bots, usamos uma plataforma chamada Jenkins 00:30:42.921 --> 00:30:44.540 para integração contínua. 00:30:44.540 --> 00:30:45.762 Com o Jenkins, 00:30:45.762 --> 00:30:51.160 atualizamos constantemente as fontes primárias com a Wikidata. 00:30:52.178 --> 00:30:55.889 Este é um diagrama para o artigo que mencionei anteriormente. 00:30:55.890 --> 00:30:57.241 Esta é a nossa paisagem atual. 00:30:57.242 --> 00:31:02.059 Cada caixa laranja é um recurso primário para drogas, 00:31:02.060 --> 00:31:07.827 proteínas, genes, doenças compostos químicos com interação. 00:31:07.827 --> 00:31:10.870 Este modelo é muito pequeno para ser lido agora, 00:31:10.870 --> 00:31:17.472 mas esta é a base de dados, as fontes, que gerimos na Wikidata 00:31:17.473 --> 00:31:20.560 e que fazem ponte com as fontes primárias. 00:31:20.561 --> 00:31:22.355 Aqui está um desses fluxos de trablaho. 00:31:22.870 --> 00:31:25.312 Um dos nossos parceiros é a Disease Ontology. 00:31:25.312 --> 00:31:27.672 A Disease Ontology é uma ontologia CC0 00:31:28.945 --> 00:31:32.756 e a ontologia CC0 tem o seu próprio ciclo de curadoria. 00:31:32.756 --> 00:31:35.736 Eles atualizam continuamente a Disease Ontology 00:31:35.737 --> 00:31:39.687 para refletir o espaço de doenças ou a interpretação de doenças. 00:31:40.336 --> 00:31:44.361 Há também o ciclo de curadoria da Wikidata acerca de doenças 00:31:44.362 --> 00:31:48.418 onde a comunidade Wikidata monitoriza constantemente 00:31:48.418 --> 00:31:50.406 o que se está a passar na Wikidata. 00:31:50.406 --> 00:31:51.601 Depois, temos duas funções 00:31:51.602 --> 00:31:55.477 às quais chamamos, coloquialmente, curadores guardiões. 00:31:57.039 --> 00:31:59.561 Isto sou eu e um colega há cinco anos atrás. 00:31:59.562 --> 00:32:03.414 Ficamos ao computador e monitorizamos a Wikipedia e a Wikidata 00:32:03.415 --> 00:32:08.601 e, se houver alguma questão reportada à comunidade primária, 00:32:08.602 --> 00:32:11.765 aos recursos primários, eles olhavam para a implementação e decidiam: 00:32:11.765 --> 00:32:14.240 "Confiamos nas entradas da Wikidata?" 00:32:14.850 --> 00:32:18.555 Se sim, é considerada, entra no ciclo 00:32:18.555 --> 00:32:22.686 e na próxima iteração faz parte da Disease Ontology 00:32:22.687 --> 00:32:25.411 e é fornecida à Wikidata. 00:32:27.419 --> 00:32:31.480 Estamos a fazer o mesmo com a WikiPathways. 00:32:31.481 --> 00:32:34.755 A WikiPathways é um percurso inspirado na wiki 00:32:34.755 --> 00:32:36.602 e um repositório de percursos. 00:32:36.602 --> 00:32:40.901 É a mesma história, já há diferentes recursos de percursos na Wikidata. 00:32:41.463 --> 00:32:44.713 Podem haver conflitos entre esses recursos de percursos 00:32:44.722 --> 00:32:46.701 e esses conflitos são comunicados de volta 00:32:46.702 --> 00:32:49.521 pelos curadores guardiões a essa comunidade 00:32:49.522 --> 00:32:53.715 mantendo-se os ciclos individuais de curadoria. 00:32:53.715 --> 00:32:57.068 Mas, se se lembrarem do ciclo anterior, 00:32:57.069 --> 00:33:03.041 mencionei aqui apenas dois ciclos, dois recursos. 00:33:03.566 --> 00:33:06.300 Temos de fazer isto para cada recurso individual que temos 00:33:06.300 --> 00:33:09.185 e temos de gerir o que se passa porque, quando falo em curadoria, 00:33:09.185 --> 00:33:11.377 quero dizer ir às páginas de topo da Wikipedia, 00:33:11.377 --> 00:33:14.544 às páginas de topo da Wikidata, e tentar fazer isso. 00:33:14.545 --> 00:33:19.316 Isso é muito para os dois curadores guardiões que tínhamos. 00:33:19.660 --> 00:33:22.777 Por isso, quando estive numa conferência em 2016, 00:33:22.778 --> 00:33:26.933 onde o Eric fez uma apresentação sobre Shape Expressions, 00:33:26.934 --> 00:33:29.277 aderi à onda e disse: "Está bem. 00:33:29.278 --> 00:33:34.240 o Shape Expressions pode ajudar-nos a detetar as diferenças na Wikidata 00:33:34.240 --> 00:33:38.389 e isso permite que os guardiões tenham 00:33:38.389 --> 00:33:42.217 relatórios mais eficientes para comunicar." 00:33:42.275 --> 00:33:46.019 Então, este ano, fiquei deliciado com a entidade de esquemas 00:33:46.020 --> 00:33:50.765 porque, agora, podemos guardar esses esquemas de entidades na Wikidata, 00:33:50.765 --> 00:33:53.523 mesmo na Wikidata, enquanto, antes, estavam no GitHub, 00:33:53.860 --> 00:33:56.815 e isto está em sintonia com a interface da Wikidata. 00:33:56.816 --> 00:33:59.350 Então, têm coisas como discussões de documentos 00:33:59.350 --> 00:34:00.762 mas também têm revisões. 00:34:00.763 --> 00:34:05.261 Assim, podem impulsionar as páginas de topo e as revisões na Wikidata 00:34:05.262 --> 00:34:12.255 para usar isso para debater acerca do que está na Wikidata 00:34:12.255 --> 00:34:14.060 e o que está nos recursos primários. 00:34:14.966 --> 00:34:19.686 Isto, que o Eric acabou de apresentar, já é um grande benefício. 00:34:19.686 --> 00:34:24.335 Aqui, fizemos uma Shape Expression para o gene humano 00:34:24.336 --> 00:34:30.225 e, depois, passámos-la através de uma ShEx simples e, como podem ver, 00:34:30.225 --> 00:34:32.428 já temos no... 00:34:32.429 --> 00:34:34.641 Existe uma questão que precisa de ser monitorizada, 00:34:34.642 --> 00:34:37.316 onde há um item que não encaixa naquele esquema 00:34:37.316 --> 00:34:43.139 e, depois, podem já criar relatórios de curadoria de entidades de esquemas 00:34:43.140 --> 00:34:46.240 baseados em... e enviar isto para os diferentes relatórios de curadoria. 00:34:48.058 --> 00:34:52.788 Mas, o ShEx.js é uma interface construída 00:34:52.788 --> 00:34:55.860 e, se puder mostrar cá atrás, faço apenas dez, 00:34:55.860 --> 00:35:00.362 mas temos dezenas de milhares e, por isso, não é escalável. 00:35:00.362 --> 00:35:04.654 Agora, o Wikidata Integrator também suporta ShEx 00:35:05.168 --> 00:35:07.431 e podemos repetir iterações de itens 00:35:07.431 --> 00:35:11.494 onde dizemos "sim, não", "sim, não" "verdadeiro, falso", "verdadeiro, falso". 00:35:11.495 --> 00:35:12.495 Então, 00:35:13.065 --> 00:35:16.514 aumentar um pouco a eficiência ao lidar com os relatórios. 00:35:17.256 --> 00:35:22.662 Mas, agora, isso dificulta o Wikidata Query Service 00:35:23.181 --> 00:35:24.998 e, recentemente, tivemos estrangulamentos. 00:35:24.999 --> 00:35:26.560 Por isso, novamente, não é escalável. 00:35:26.561 --> 00:35:31.391 É ainda um processo em curso, o como lidar com modelos na Wikidata. 00:35:32.202 --> 00:35:36.682 E, ShEx é, não só intimidante, 00:35:36.683 --> 00:35:40.356 como a escala é demasiado grande para lidarmos com ela. 00:35:41.068 --> 00:35:44.781 Então, eu comecei a trabalhar. Esta é a minha primeira validação do conceito, 00:35:44.781 --> 00:35:47.680 ou exercício, onde usei uma ferramenta chamada yED. 00:35:48.184 --> 00:35:52.590 Comecei a desenhar aquelas Shape Expressions e, porque... 00:35:52.591 --> 00:35:58.098 E depois, regenerei este esquema 00:35:58.099 --> 00:36:01.279 no seu formato adjacente de Shape Expressions. 00:36:01.280 --> 00:36:04.520 Isto iria abrir-se à audiência 00:36:04.521 --> 00:36:07.432 que está intimidada pelas linguagens Shape Expressions. 00:36:07.961 --> 00:36:12.308 Mas, há um problema com essas descrições visuais 00:36:12.309 --> 00:36:18.229 porque isto também é um esquema que foi desenhado em yEd por alguém. 00:36:18.230 --> 00:36:23.838 E aqui está outro, que é belíssimo. 00:36:23.838 --> 00:36:29.516 Adorava ter isto na minha parede, mas continua a não ser interoperável. 00:36:30.281 --> 00:36:32.131 Quero acabar a minha palestra com... 00:36:32.131 --> 00:36:35.732 É a primeira vez que... Tenho roubado e usado este slide. 00:36:35.732 --> 00:36:37.594 É uma honra tê-lo na audiência. 00:36:37.595 --> 00:36:39.423 Gosto realmente disto: 00:36:39.424 --> 00:36:42.362 "As pessoas acham que RDF é chato porque é complicado. 00:36:42.362 --> 00:36:43.985 A verdade á ainda pior. É tão simples 00:36:45.581 --> 00:36:48.133 porque temos de trabalhar com problemas do mundo real 00:36:48.134 --> 00:36:50.031 que são horrivelmente complicados. 00:36:50.031 --> 00:36:51.451 Embora possam evitar o RDF, 00:36:51.451 --> 00:36:55.760 é mais difícil evitar dados complicados e problemas computacionais complicados." 00:36:55.761 --> 00:36:59.535 Isto é acerca de RDF, mas penso que também pode ser aplicado à modelação. 00:37:00.112 --> 00:37:02.769 Então, o meu argumento é, devemos realmente... 00:37:03.387 --> 00:37:05.882 Como é que avançamos com a modelação? 00:37:05.882 --> 00:37:10.826 Devemos discutir ShEx ou modelos visuais, ou... 00:37:11.426 --> 00:37:13.271 Como é que continuamos? 00:37:13.474 --> 00:37:14.840 Muito obrigado pelo vosso tempo. 00:37:15.102 --> 00:37:19.737 (aplausos) 00:37:20.001 --> 00:37:21.188 (Lydia) Muito obrigada. 00:37:21.692 --> 00:37:24.001 Venham para a frente 00:37:24.002 --> 00:37:27.741 para podermos abrir as questões da audiência. 00:37:28.610 --> 00:37:30.203 Existem questões? 00:37:31.507 --> 00:37:32.507 Sim. 00:37:34.253 --> 00:37:36.890 E, penso... Para a câmara, precisamos de... 00:37:38.835 --> 00:37:40.968 (Lydia a rir) Sim. 00:37:43.094 --> 00:37:46.273 (Interveniente 1) Uma questão para a Cristina, penso eu. 00:37:47.366 --> 00:37:51.641 Mencionou, exatamente, o termo "ganho de informação" 00:37:51.642 --> 00:37:53.689 devido à ligação com outros sistemas. 00:37:53.690 --> 00:37:55.459 Existe uma medida teórica de informação 00:37:55.459 --> 00:37:58.101 que usa estatística e probabilidade e se chama ganho de informação. 00:37:58.101 --> 00:37:59.541 Tem o mesmo... 00:37:59.542 --> 00:38:01.736 Quero dizer, estava a falar exatamente dessa medida, 00:38:01.736 --> 00:38:04.173 do ganho de informação da teoria de probabilidade, 00:38:04.174 --> 00:38:07.020 da teoria de informação, ou apenas a usar esta entidade conceptual 00:38:07.020 --> 00:38:09.024 para medir o ganho de informação de alguma forma? 00:38:09.215 --> 00:38:13.276 (Cristina) Não. Nós definimos e implementamos medidas 00:38:13.695 --> 00:38:20.161 que estão a usar a entropia de Shannon, por isso, é isso que significa. 00:38:20.162 --> 00:38:22.696 Não queria entrar em detalhes acerca das fórmulas concretas... 00:38:22.697 --> 00:38:24.977 (Interveniente 1) Não, claro. Daí a pergunta. 00:38:24.978 --> 00:38:27.128 - (Cristina) Mas sim... - (Interveniente 1) Obrigado. 00:38:32.681 --> 00:38:35.047 (Interveniente 2) Faço um comentário, mais que uma questão. 00:38:35.048 --> 00:38:36.241 (Lydia) Força. 00:38:36.242 --> 00:38:39.840 (Interveniente 2) Tem havido muito ênfase ao nível do item, 00:38:39.840 --> 00:38:42.547 acerca de qualidade e integridade. 00:38:42.547 --> 00:38:44.313 Uma das coisas que me preocupa é 00:38:44.313 --> 00:38:48.784 não estarmos a aplicar o mesmo às hierarquias e penso que temos a questão 00:38:48.784 --> 00:38:51.480 das nossas hierarquias não serem boas, com frequência. 00:38:51.481 --> 00:38:53.463 Estamos a ver que isto vai ser um problema real 00:38:53.464 --> 00:38:55.774 com a pesquisa de Commons e outras coisas. 00:38:56.771 --> 00:39:00.601 Uma das coisas que conseguimos fazer é importar externa... 00:39:00.602 --> 00:39:04.842 Da forma como os thesaurus externos estruturam as suas hierarquias, 00:39:04.842 --> 00:39:10.291 usando o qualificador de conceitos mais geral P4900. 00:39:11.037 --> 00:39:16.167 Mas, o que penso que seria realmente útil, seriam melhores ferramentas para o fazer 00:39:16.168 --> 00:39:21.212 para que possamos importar uma hierarquia de thesaurus externa, 00:39:21.212 --> 00:39:24.111 mapeá-la nos nossos itens da Wikidata. 00:39:24.111 --> 00:39:28.199 Uma vez implementada com esses qualificadores P4900, 00:39:28.200 --> 00:39:31.494 podemos fazer ótimas consultas através de SPARQL 00:39:32.490 --> 00:39:37.534 para ver onde é que a nossa hierarquia diverge dessa hierarquia externa. 00:39:37.534 --> 00:39:41.346 Por exemplo, como podem saber, Paula Morma, o utilizador PKM 00:39:41.346 --> 00:39:43.533 faz muito trabalho em moda. 00:39:43.533 --> 00:39:46.704 Por isso, usamos isso para puxar 00:39:46.704 --> 00:39:50.524 a hierarquia do Thesaurus Europeana Fashion 00:39:50.524 --> 00:39:53.812 e a hierarquia do thesauros de moda Getty AAT. 00:39:53.812 --> 00:39:57.957 Depois, vemos onde as lacunas estavam nos nossos itens de alto nível, 00:39:57.957 --> 00:40:00.511 que são um problema real para nós porque, com frequência, 00:40:00.511 --> 00:40:04.355 estas são coisas que só existem como páginas de desambiguação na Wikipedia 00:40:04.356 --> 00:40:06.991 e, por isso, temos muitos itens de alto nível 00:40:06.991 --> 00:40:09.271 a faltar nas nossas hierarquias. 00:40:09.271 --> 00:40:14.480 Isto é algo que precisamos de abordar em termos de qualidade e de integridade. 00:40:14.480 --> 00:40:15.971 O que realmente ajudaria 00:40:16.643 --> 00:40:20.871 seriam melhores ferramentas que a selva de scripts que escrevi. 00:40:20.872 --> 00:40:26.010 Se alguém pudesse pôr isso num bloco de notas PAWS em Python, 00:40:26.561 --> 00:40:31.972 ser capaz de receber um thesaurus externo, pegar na sua hierarquia, 00:40:31.973 --> 00:40:35.025 a qual pode muito bem estar disponível como dados ligados, ou pode não estar, 00:40:35.379 --> 00:40:37.837 para depois transferi-lo para declarações rápidas 00:40:37.837 --> 00:40:41.165 para pôr em valores P4900. 00:40:41.165 --> 00:40:42.165 E, mais tarde, 00:40:42.166 --> 00:40:47.007 quando a nossa representação ficar mais completa, atualizar os P4900s. 00:40:47.007 --> 00:40:51.101 Porque, à medida que a nossa representação fica ultrapassada, fica mais densa. 00:40:51.590 --> 00:40:55.377 Os valores desses qualificadores precisam de mudar 00:40:56.230 --> 00:40:59.526 para representar que temos mais da sua hierarquia no nosso sistema. 00:40:59.526 --> 00:41:03.728 Se alguém pudesse fazer isso, penso que seria muito útil. 00:41:04.068 --> 00:41:07.121 Também precisamos de olhar para outras estratégias 00:41:07.122 --> 00:41:10.762 para aumentar a qualidade e a integridade ao nível da hierarquia, 00:41:10.763 --> 00:41:12.378 não só ao nível do item. 00:41:13.308 --> 00:41:14.840 (Andra) Posso acrescentar algo? 00:41:16.362 --> 00:41:19.901 Sim. E, na realidade, fazemos isso. 00:41:19.911 --> 00:41:23.551 Posso recomendar olhar para a Shape Expression que o Finn fez 00:41:23.552 --> 00:41:27.330 com os dados léxicos onde ele cria Shape Expressions 00:41:27.330 --> 00:41:29.640 e depois desenvolve sobre outras Shape Expressions. 00:41:29.641 --> 00:41:32.528 Têm este conceito de Shape Expressions ligadas na Wikidata 00:41:32.529 --> 00:41:35.005 e, especificamente, o caso de uso, se entendi bem, 00:41:35.006 --> 00:41:37.183 é exatamente o que estamos a fazer na Gene Wiki. 00:41:37.184 --> 00:41:40.841 Têm a Disease Ontology que é posta na Wikidata 00:41:40.842 --> 00:41:44.681 e, depois, dados de doenças entram e aplicamos Shape Expressions 00:41:44.682 --> 00:41:47.247 para ver se encaixam com este thesaurus. 00:41:47.248 --> 00:41:50.719 Existem outros thesaurus, ou outras ontologias, para vocabulários controlados 00:41:50.719 --> 00:41:52.619 que ainda precisam de ser inseridos na Wikidata. 00:41:52.619 --> 00:41:55.401 E é exatamente por isso que o Shape Expressions é tão interessante. 00:41:55.402 --> 00:41:57.963 Porque podemos ter uma Shape Expression para a Disease Ontology, 00:41:57.964 --> 00:41:59.644 uma Shape Expression para o MeSH. 00:41:59.645 --> 00:42:01.761 Pode dizer: "Agora quero verificar a qualidade." 00:42:01.762 --> 00:42:04.059 Porque também tem, na Wikidata, o contexto 00:42:04.060 --> 00:42:06.246 de quando tem um vocabulário controlado. 00:42:06.756 --> 00:42:09.568 Diz que a qualidade está de acordo com isto 00:42:09.568 --> 00:42:11.636 mas pode ter uma comunidade discordante. 00:42:11.636 --> 00:42:13.720 Por isso, as ferramentas já estão implementadas, 00:42:13.720 --> 00:42:16.082 mas, agora, precisamos de criar esses modelos 00:42:16.082 --> 00:42:18.144 e aplicá-los aos diferentes casos de uso. 00:42:18.811 --> 00:42:20.921 (Interveniente 2) Uma Shape Expression é muito útil 00:42:20.922 --> 00:42:25.928 logo que tenha a ontologia externa mapeada na Wikidata. 00:42:25.929 --> 00:42:29.474 Mas, o meu problema é que está a chegar aquele ponto. 00:42:29.475 --> 00:42:34.881 Que é perceber quanto da ontologia externa não está ainda na Wikidata 00:42:34.882 --> 00:42:36.256 e onde estão as lacunas. 00:42:36.257 --> 00:42:40.660 É aí que penso que ter ferramentas mais robustas 00:42:40.660 --> 00:42:44.286 para ver o que está em falta de ontologias externas 00:42:44.286 --> 00:42:45.537 seria muito útil. 00:42:47.348 --> 00:42:49.062 (Andra) O maior problema aqui 00:42:49.062 --> 00:42:51.201 é, não tanto as ferramentas, mas mais o licenciamento. 00:42:51.803 --> 00:42:55.249 Pôr as ontologias na Wikidata é, na realidade, muito fácil. 00:42:55.250 --> 00:42:59.295 Mas, a maioria das ontologias têm, como é que o posso dizer educadamente, 00:42:59.965 --> 00:43:03.256 licenciamento restritivo e, por isso, não são compatíveis com a Wikidata. 00:43:03.778 --> 00:43:06.678 (Interveniente 2) Existe um enorme número de thesaurus do setor público 00:43:06.678 --> 00:43:08.129 em setores culturais. 00:43:08.129 --> 00:43:10.911 - (Andra) Então precisamos de falar. - (Interveniente 2) Sem problema. 00:43:10.911 --> 00:43:12.384 (Andra) Então, precisamos de falar. 00:43:13.624 --> 00:43:16.362 (Interveniente 3) O comentário que quero fazer 00:43:16.362 --> 00:43:19.192 é uma resposta para o James. 00:43:19.822 --> 00:43:22.401 O que acontece é que hierarquias fazem gráficos 00:43:22.374 --> 00:43:24.041 e quando queremos... 00:43:24.429 --> 00:43:28.888 Quero falar acerca de um problema comum em hierarquias, 00:43:28.889 --> 00:43:30.820 que são hierarquias circulares. 00:43:30.821 --> 00:43:33.796 Elas voltam umas às outras quando há um problema. 00:43:33.796 --> 00:43:35.920 Não devíamos ter isso com hierarquias. 00:43:37.022 --> 00:43:41.295 É engraçado que isto acontece muito em categorias na Wikipedia. 00:43:41.295 --> 00:43:42.990 Temos muitos círculos em categorias. 00:43:43.898 --> 00:43:46.612 Mas, a boa notícia é que... 00:43:47.713 --> 00:43:51.582 Tecnicamente, é um problema completo PMP, por isso não o conseguimos encontrar, 00:43:51.583 --> 00:43:53.804 e facilmente, se construirmos um gráfico a partir disso, 00:43:54.473 --> 00:43:57.046 mas há muitas formas que foram desenvolvidas 00:43:57.047 --> 00:44:00.624 para encontrar problemas nestes gráficos de hierarquia. 00:44:00.625 --> 00:44:04.860 Existe um artigo chamado Finding Cycles... 00:44:04.861 --> 00:44:07.955 Breaking Cycles in Noisy Hierachies. 00:44:07.956 --> 00:44:12.671 Tem sido usado para ajudar na classificação da Wikipedia inglesa. 00:44:12.672 --> 00:44:17.141 Podemos pegar nisto e aplicar estas hierarquias na Wikidata 00:44:17.142 --> 00:44:19.540 e, depois, podemos encontrar coisas que são problemáticas 00:44:19.541 --> 00:44:22.481 e remover as que estão a causar problemas. 00:44:22.482 --> 00:44:24.593 E encontrar os problemas, na realidade. 00:44:25.594 --> 00:44:27.960 Isto é só uma ideia, para que... 00:44:28.660 --> 00:44:31.380 (Interveniente 2) Está tudo muito bem, mas acho que está a subestimar 00:44:31.380 --> 00:44:35.403 o número de más relações de subclasse que nós temos. 00:44:35.403 --> 00:44:39.680 É como ter uma cidade que está completamente no país errado. 00:44:40.250 --> 00:44:44.884 Existem ferramentas para geografia, para identificar isso. 00:44:45.375 --> 00:44:49.202 Precisamos de ter muito melhores ferramentas em hierarquias 00:44:49.202 --> 00:44:53.477 para identificar onde o equivalente do item para o país 00:44:53.478 --> 00:44:57.673 esteja a faltar completamente ou se foi subclassificado 00:44:57.674 --> 00:45:01.804 como algo que não signifique algo completamente diferente. 00:45:02.804 --> 00:45:07.165 (Lydia) Sim, penso que está a chegar a algo 00:45:07.166 --> 00:45:12.024 que eu e a minha equipa ouvimos sempre de pessoas que reutilizam os nossos dados. 00:45:12.025 --> 00:45:13.991 Com frequência, também. 00:45:15.002 --> 00:45:16.638 Dados pontuais podem ser ótimos, 00:45:16.639 --> 00:45:20.163 mas, se temos de olhar para a ontologia, etc, 00:45:20.164 --> 00:45:21.857 torna-se muito... 00:45:22.388 --> 00:45:26.437 Penso que um dos grandes problems que causa isto 00:45:26.437 --> 00:45:30.736 é que muita da edição na Wikidata 00:45:30.740 --> 00:45:34.545 acontece baseada num item individual, não é? 00:45:34.545 --> 00:45:36.201 Fazemos uma edição nesse item 00:45:37.653 --> 00:45:42.075 sem nos darmos conta que isto pode ter consequências globais 00:45:42.075 --> 00:45:44.245 no resto do gráfico, por exemplo. 00:45:44.245 --> 00:45:50.040 E, se as pessoas têm ideias sobre como tornar isto mais visível, 00:45:50.041 --> 00:45:53.185 as consequências de uma edição local individual, 00:45:54.005 --> 00:45:56.537 penso que seria útil explorá-lo. 00:45:57.550 --> 00:46:01.583 Para melhor mostrar às pessoas as consequências das suas edições, 00:46:01.584 --> 00:46:03.434 que elas podem estar a fazer de boa fé, 00:46:04.481 --> 00:46:05.481 quais são elas. 00:46:07.619 --> 00:46:12.237 (Risos) Muito bem. Vamos começar consigo, depois você, depois você e depois você. 00:46:12.237 --> 00:46:13.921 (Interveniente 3) Bem, depois do debate, 00:46:13.922 --> 00:46:18.262 só para exprimir a minha concordância com o que o James estava a dizer. 00:46:18.263 --> 00:46:22.417 Essencialmente, parece que a coisa mais perigosa é a hierarquia. 00:46:22.417 --> 00:46:23.950 Não a hierarquia, mas, de forma geral, 00:46:23.950 --> 00:46:28.022 a semântica das relações de subclasse vistas na Wikidata, certo? 00:46:28.022 --> 00:46:32.561 Estive a estudar linguagens recentemente, apenas para esta conferência 00:46:32.562 --> 00:46:35.257 e, por exemplo, encontram-se muitos casos 00:46:35.257 --> 00:46:39.463 onde a linguagem é parte de e uma subclasse da mesma coisa. 00:46:39.923 --> 00:46:43.577 Podemos dizer que temos uma ontologia flexível. 00:46:43.577 --> 00:46:46.256 A Wikidata dá-nos a liberdade de exprimir isso, por vezes. 00:46:46.256 --> 00:46:47.257 Porque, por exemplo 00:46:47.258 --> 00:46:50.721 essa ontologia de linguagens é também politicamente complicada, certo? 00:46:50.722 --> 00:46:55.038 É bom estar numa posição que nos permita expressar um nível de incerteza. 00:46:55.038 --> 00:46:57.983 Mas imaginem alguém a querer fazer leitura ótica a partir disso. 00:46:57.984 --> 00:46:59.468 É mesmo problemático. 00:46:59.468 --> 00:47:00.468 E, depois, 00:47:00.469 --> 00:47:03.686 não penso que a ontologia seja algo que foi importada de algures, 00:47:03.687 --> 00:47:05.490 é algo que é originalmente nosso. 00:47:05.491 --> 00:47:08.321 Diria que foi colhida da Wikipedia mesmo no início. 00:47:08.322 --> 00:47:11.324 Por isso pergunto-me... Esta coisa do Shape Expressions é ótima, 00:47:11.325 --> 00:47:15.575 e também validadora e reparadora. A ontologia da Wikidata 00:47:15.576 --> 00:47:18.191 a partir de recursos externos é uma bela ideia. 00:47:18.886 --> 00:47:19.906 No final, 00:47:19.906 --> 00:47:25.440 acabaremos por refletir as ontologias externas na Wikidata? 00:47:25.441 --> 00:47:28.651 E também, o que fazemos com a parte central da nossa ontologia 00:47:28.652 --> 00:47:30.642 que nunca é colhida a partir de recursos externos. 00:47:30.643 --> 00:47:31.978 Como é que solucionamos isso? 00:47:31.979 --> 00:47:35.276 Penso, realmente, que isso será um problema por si só. 00:47:35.277 --> 00:47:39.010 Teremos de nos focar nisso independentemente da ideia 00:47:39.010 --> 00:47:41.191 de validar a ontologia com algo externo. 00:47:42.642 --> 00:47:44.722 (Lydia aponta para a audiência) 00:47:49.353 --> 00:47:53.379 (Interveniente 4) Restrições e formas são muito impressionantes, 00:47:53.380 --> 00:47:55.185 aquilo que podemos fazer com elas, 00:47:55.205 --> 00:47:58.481 mas o ponto principal não está claro. 00:47:58.482 --> 00:48:03.229 Porque agora podemos tornar mais explícito o que esperamos dos dados. 00:48:03.229 --> 00:48:06.893 Antes, cada um tinha de escrever as suas próprias ferramentas e scripts. 00:48:06.894 --> 00:48:10.601 Por isso, é mais visível e podemos discuti-lo. 00:48:10.602 --> 00:48:13.641 Mas porque não é sobre o que está errado ou certo, 00:48:13.642 --> 00:48:15.870 é acerca de uma expectativa. 00:48:15.870 --> 00:48:18.105 Vocês terão diferentes expectativas e debates 00:48:18.106 --> 00:48:20.737 acerca de como queremos modelar as coisas na Wikidata 00:48:21.246 --> 00:48:23.095 e isto... 00:48:23.096 --> 00:48:26.280 O estado atual é apenas um passo na direção 00:48:26.281 --> 00:48:28.041 porque agora precisamos 00:48:28.042 --> 00:48:31.041 de muito conhecimento especializado para lidarmos com isto. 00:48:31.042 --> 00:48:35.721 Precisamos de formas melhores de visualizar esta restrição, 00:48:35.722 --> 00:48:38.259 para a transformar, porventura em linguagem natural, 00:48:38.259 --> 00:48:40.939 para que as pessoas melhor a possam entender. 00:48:40.939 --> 00:48:43.768 Mas não é tanto acerca do errado ou do certo. 00:48:44.925 --> 00:48:45.925 (Lydia) Sim. 00:48:50.986 --> 00:48:53.893 (Interveniente 5) Para questões de qualidade, só quero fazer eco... 00:48:53.894 --> 00:48:57.010 Definitivamente, encontrei muitos dos problemas. Encontrei... 00:48:58.838 --> 00:49:02.330 diferenças de opinião entre "instâncias de" versus "subclasse". 00:49:02.331 --> 00:49:05.963 Diria, erros, nestas situações. 00:49:05.963 --> 00:49:11.521 E tentar encontrá-los tem sido um processo moroso. 00:49:11.522 --> 00:49:14.840 O que encontrei foi: "Se eu encontrar itens de grande impressão 00:49:14.840 --> 00:49:16.051 que são algo... 00:49:16.052 --> 00:49:18.762 e depois usar todas as instâncias das subclasses 00:49:18.762 --> 00:49:21.628 para encontrar todas as declarações derivadas disto." 00:49:21.628 --> 00:49:26.215 Esta é uma forma muito útil de olhar para estes erros. 00:49:26.215 --> 00:49:28.567 Mas eu estava curioso para saber se o Shape Expressions... 00:49:29.841 --> 00:49:31.582 se há... 00:49:31.583 --> 00:49:35.355 Se isto pode ser usado como ferramenta para ajudar a resolver estas questões. 00:49:35.355 --> 00:49:37.074 Mas sim... 00:49:40.514 --> 00:49:42.925 (Interveniente 6) Se tem uma pegada estrutural... 00:49:45.910 --> 00:49:49.310 Se tem uma pegada estrutural que podemos... que seja falsificável. 00:49:49.310 --> 00:49:51.191 Podemos olhar para isso e dizer: "Está errado." 00:49:51.192 --> 00:49:52.670 Então sim, podemos fazer isso. 00:49:52.671 --> 00:49:56.921 Mas se for só tentar mapeá-lo para objetos do mundo real 00:49:56.922 --> 00:49:59.082 então vai precisar de muitos cérebros. 00:50:05.768 --> 00:50:08.631 (Interveniente 7) Olá. Pablo Mendes do Siri Knowledge da Apple. 00:50:09.154 --> 00:50:12.770 Estamos aqui para descobrir como ajudar o projeto e a comunidade, 00:50:12.770 --> 00:50:15.645 mas a Cristina cometeu o erro de perguntar o que queríamos. 00:50:16.471 --> 00:50:20.052 (risos) Por isso, penso que uma das coisas que gostaria de ver 00:50:20.958 --> 00:50:23.521 gira à volta da verificabilidade, 00:50:23.522 --> 00:50:26.372 que é um dos princípios chave do projeto na comunidade. 00:50:27.062 --> 00:50:28.590 E confiabilidade. 00:50:28.590 --> 00:50:32.412 Nem todas as declarações são iguais, algumas são fortemente disputadas, 00:50:32.413 --> 00:50:33.653 outras são fáceis de adivinhar. 00:50:33.654 --> 00:50:35.924 A data de nascimento de alguém pode ser verificada, 00:50:35.924 --> 00:50:39.082 como viram hoje na Keynote, questões de género são mais complicadas. 00:50:40.205 --> 00:50:42.130 Podem discutir um pouco do que sabem 00:50:42.131 --> 00:50:47.271 nesta área de qualidade de dados, acerca de confiabilidade e de verificabilidade? 00:50:51.186 --> 00:50:52.936 (risos) 00:50:55.442 --> 00:50:58.138 Se não há muito, gostaria de ver muito mais. (risos) 00:51:00.646 --> 00:51:01.646 (Lydia) Sim. 00:51:03.734 --> 00:51:06.968 Aparentemente, não temos muito a dizer acerca disso. (risos) 00:51:08.754 --> 00:51:12.299 (Andra) Penso que podemos fazer muito, mas tive uma discussão consigo ontem. 00:51:12.300 --> 00:51:15.774 O meu exemplo preferido que, soube ontem, foi descontinuado, 00:51:15.774 --> 00:51:20.281 é, se forem ao Q2, que é Terra, 00:51:20.282 --> 00:51:23.343 existe uma declaração que reivindica que a Terra é plana. 00:51:24.183 --> 00:51:26.055 Adoro esse exemplo 00:51:26.056 --> 00:51:28.391 porque há uma comunidade por aí que afirma isso 00:51:28.392 --> 00:51:30.417 e eles têm recursos verificáveis. 00:51:30.418 --> 00:51:32.254 Por isso, penso que seja um caso genuíno. 00:51:32.255 --> 00:51:34.641 Não deve ser descontinuado, deve estar na Wikidata. 00:51:34.642 --> 00:51:40.385 E penso que o Shape Expressions pode ser fundamental aqui, 00:51:40.386 --> 00:51:41.832 porque podem dizer: 00:51:41.833 --> 00:51:44.856 "Sim, estou mesmo interessado neste caso de uso", 00:51:44.857 --> 00:51:47.129 ou que este é um caso de uso com o qual não concordam. 00:51:47.130 --> 00:51:51.059 Mas também pode haver um caso de uso onde dizem: "Estou interessado." 00:51:51.059 --> 00:51:53.449 Há este exemplo. Dizem: "Tenho glucose." 00:51:53.449 --> 00:51:55.841 E a glucose, se forem um biólogo, 00:51:55.842 --> 00:52:00.176 As restrições químicas da molécula de glucose não vos interessam, 00:52:00.177 --> 00:52:03.201 apenas... tudo o que seja glucose é o mesmo. 00:52:03.202 --> 00:52:05.973 Mas, se forem um químico, arrepiam-se ao ouvir isso. 00:52:05.973 --> 00:52:08.191 Têm 200 e tal... 00:52:08.191 --> 00:52:10.443 Depois, podem ter Shape Expressions múltiplas. 00:52:10.443 --> 00:52:12.721 Vou entrar com... Estou no ponto de vista de um químico, 00:52:12.722 --> 00:52:13.887 vou aplicar isso. 00:52:13.887 --> 00:52:16.691 E depois, dizem, "sou um caso de uso de um biólogo", 00:52:16.691 --> 00:52:18.524 e aplicam essa Shape Expression. 00:52:18.524 --> 00:52:20.358 E, quando quiserem colaborar, 00:52:20.358 --> 00:52:22.784 deviam falar com o Eric acerca dos mapas ShEx. 00:52:24.930 --> 00:52:28.873 Esta jornada está apenas a começar. 00:52:28.873 --> 00:52:32.238 Mas acredito que seja muito instrumental nessa área. 00:52:34.292 --> 00:52:35.535 (Lydia) Ali. 00:52:37.949 --> 00:52:39.168 (risos) 00:52:40.597 --> 00:52:46.035 (Interveniente 8) Tive várias ideias para alguns pontos na discussão, 00:52:46.035 --> 00:52:50.902 por isso, vou tentar não perder... Tive três ideias, por isso... 00:52:52.394 --> 00:52:55.201 Baseado no que o James disse há pouco, 00:52:55.202 --> 00:52:59.001 temos um grande problema na Wikidata desde o início 00:52:59.002 --> 00:53:01.574 para a ontologia superior. 00:53:02.363 --> 00:53:05.339 Falámos acerca disso há dois anos na WikidataCon 00:53:05.340 --> 00:53:07.432 e falámos acerca disso na Wikimania. 00:53:07.432 --> 00:53:09.818 Sempre que temos um encontro da Wikidata 00:53:09.818 --> 00:53:11.656 estamos a falar sobre isso. 00:53:11.656 --> 00:53:15.782 Porque é um grande problema que está muito visível: 00:53:15.783 --> 00:53:23.118 que entidade é, com que trabalho é, que género é, arte, 00:53:23.118 --> 00:53:25.461 são realmente o maior conceito. 00:53:26.195 --> 00:53:33.117 E isso é um ponto muito fraco na ontologia global 00:53:33.118 --> 00:53:37.453 porque as pessoas tentam fazer limpezas regularmente 00:53:38.017 --> 00:53:41.047 e quebram tudo o que está a montante. 00:53:42.516 --> 00:53:48.649 Penso que alguns de vocês se devem lembrar do tipo que, em boa-fé, 00:53:48.649 --> 00:53:51.785 quebrou todas as cidades do mundo. 00:53:51.785 --> 00:53:57.537 Já não eram itens geográficos. Por isso, violações de restrições por todo o lado. 00:53:58.720 --> 00:54:00.278 E foi feito em boa fé, 00:54:00.278 --> 00:54:03.623 porque ele estava a corrigir um erro num item, 00:54:04.170 --> 00:54:05.732 mas quebrou tudo. 00:54:06.349 --> 00:54:09.373 Não tenho a certeza de como podemos resolver isso 00:54:10.216 --> 00:54:15.709 porque não há, atualmente, nenhuma instituição externa que possamos copiar 00:54:15.710 --> 00:54:18.490 porque toda a gente está a trabalhar em... 00:54:19.154 --> 00:54:22.041 Se eu for base de dados de artes performativas 00:54:22.042 --> 00:54:24.601 limito-me a ir à etiqueta de artes performativas 00:54:24.601 --> 00:54:29.361 ou não irei ao conceito filosófico do que é aquela entidade 00:54:29.362 --> 00:54:31.201 e isso é, na realidade... 00:54:31.202 --> 00:54:34.561 Não conheço nenhuma base de dados que esteja a trabalhar a este nível, 00:54:34.562 --> 00:54:36.827 mas esse é o ponto mais fraco da Wikidata. 00:54:37.936 --> 00:54:40.812 E, provavelmente, quando falamos de qualidade de dados, 00:54:40.812 --> 00:54:44.034 isso é uma grande parte, por isso... 00:54:44.034 --> 00:54:48.569 Penso que é o mesmo que afirmamos em... 00:54:48.569 --> 00:54:50.452 Desculpem, estou a mudar de assunto, 00:54:51.401 --> 00:54:55.774 mas afirmámos, em diferentes sessões acerca de qualidade, 00:54:55.774 --> 00:54:59.398 que alguns de nós estão a fazer um bom trabalho de modelação, 00:54:59.399 --> 00:55:01.580 estamos a fazer ShEx, estamos a fazer coisas como essa. 00:55:01.580 --> 00:55:07.655 As pessoas não o veem na Wikidata, não veem o ShEx, 00:55:07.655 --> 00:55:10.392 não veem o WikiProject na página de discussão 00:55:10.393 --> 00:55:14.958 e, por vezes, nem veem a página de topo das propriedades 00:55:14.958 --> 00:55:19.628 que diz, explicitamente: a) Esta propriedade é usada para isto. 00:55:19.628 --> 00:55:23.887 Como na semana passada. Eu adicionei restrições a uma propriedade. 00:55:23.888 --> 00:55:28.690 A restrição estava escrita explicitamente na discussão da criação da propriedade. 00:55:28.690 --> 00:55:34.548 Eu criei apenas a parte técnica de adicionar a restrição, e alguém: 00:55:34.548 --> 00:55:37.182 "O quê? Quebraste todas as minhas edições!" 00:55:37.183 --> 00:55:41.542 Ele esteve a usar a propriedade erradamente nos útlimos dois anos. 00:55:41.542 --> 00:55:46.868 A propriedade era bastante clara, mas não havia avisos. 00:55:46.869 --> 00:55:48.872 É o mesmo no Pink Pony. 00:55:48.872 --> 00:55:52.082 Dissemos, na Wikimedia que deviamos tornar o WikiProject mais visível 00:55:52.082 --> 00:55:54.719 ou tornar o ShEx mais visível, mas... 00:55:54.719 --> 00:55:56.917 E isso foi o que a Cristina disse. 00:55:56.917 --> 00:56:02.368 Temos um problema de visibilidade, do que são as soluções. 00:56:02.368 --> 00:56:04.242 E, nesta sessão, 00:56:04.242 --> 00:56:06.862 estamos todos a falar acerca de como criar mais ShEx, 00:56:06.863 --> 00:56:10.727 ou de facilitar o trabalho das pessoas que estão a fazer a limpeza. 00:56:11.605 --> 00:56:15.835 Mas, estamos a limpar desde o primeiro dia da Wikidata 00:56:15.836 --> 00:56:18.223 e, globalmente, estamos a perder. 00:56:19.123 --> 00:56:22.960 Estamos a perder porque, se eu sei que os nomes são complicados, 00:56:22.961 --> 00:56:26.162 mas eu sou a única a fazer o trabalho de limpeza... 00:56:26.662 --> 00:56:29.671 A pessoa que adicionou nome de script em Latim 00:56:29.672 --> 00:56:31.584 a todos os investigadores chineses. 00:56:32.088 --> 00:56:35.616 Vou demorar meses a limpar isso e não o posso fazer sozinha. 00:56:35.616 --> 00:56:38.777 E ele fez um lote maciço. 00:56:38.777 --> 00:56:40.241 Por isso, precisamos realmente... 00:56:40.242 --> 00:56:44.158 Temos um problema de visibilidade mais do que um problema de ferramentas, 00:56:44.158 --> 00:56:45.733 porque temos muitas ferramentas. 00:56:45.733 --> 00:56:50.255 (Lydia) Bem, infelizmente mostraram-me um sinal. (risos) 00:56:50.256 --> 00:56:52.001 Por isso, precisamos de terminar. 00:56:52.001 --> 00:56:53.603 Muito obrigada pelos vossos comentários. 00:56:53.603 --> 00:56:56.611 Espero que continuem a debater durante o resto do dia. 00:56:56.611 --> 00:56:58.020 Obrigada pelo vosso contributo. 00:56:58.359 --> 00:57:03.444 (aplausos)