WEBVTT
00:00:05.945 --> 00:00:09.476
Olá a todos,
ao painel de Qualidade de Dados.
00:00:10.198 --> 00:00:13.671
A qualidade dos dados é importante porque
cada vez mais pessoas
00:00:13.672 --> 00:00:16.229
dependem do bom estado dos nossos dados.
00:00:16.229 --> 00:00:20.029
Assim, vamos falar da qualidade dos dados.
00:00:22.469 --> 00:00:26.643
Haverão quatro oradores que farão
breves introduções acerca de tópicos
00:00:26.643 --> 00:00:29.720
relacionados com qualidade de dados.
Depois, responderemos a perguntas.
00:00:30.130 --> 00:00:32.234
O primeiro é o Lucas.
00:00:34.385 --> 00:00:35.385
Obrigado.
00:00:35.901 --> 00:00:39.899
Olá. O meu nome é Lucas e vou começar
com uma síntese
00:00:39.899 --> 00:00:43.806
das ferramentas de qualidade de dados
que já existem na Wikidata
00:00:43.807 --> 00:00:46.109
e também de algumas coisas
que teremos em breve.
00:00:48.452 --> 00:00:50.623
Agrupei-as em temas gerais
00:00:50.623 --> 00:00:53.761
que são a maior visibilidade dos erros,
tornar os problemas accionáveis,
00:00:53.762 --> 00:00:56.932
obter mais visibilidade sobre os dados
para que mais pessoas notem os problemas,
00:00:56.945 --> 00:01:02.616
corrigir algumas fontes comuns de erros,
manter a qualidade dos dados existentes
00:01:02.616 --> 00:01:03.966
e também a curadoria humana.
00:01:05.063 --> 00:01:10.104
As que estão atualmente disponíveis
começam com as restrições de propriedades.
00:01:10.104 --> 00:01:12.421
Já o devem ter visto se usam a Wikidata.
00:01:12.422 --> 00:01:14.029
Podem, por vezes, obter estes ícones
00:01:14.530 --> 00:01:17.241
que verificam
a consistência interna dos dados.
00:01:17.242 --> 00:01:20.800
Por exemplo,
se um evento se seguir a outro,
00:01:20.801 --> 00:01:23.760
então a este último deve seguir-se este.
00:01:23.761 --> 00:01:27.161
O que estava aparentemente em falta
no item WikidataCon.
00:01:27.162 --> 00:01:29.810
Não tenho a certeza, esta funcionalidade
existe há apenas uns dias.
00:01:30.040 --> 00:01:34.681
Também existe... Se isto for
demasiado simples ou condicionante,
00:01:34.682 --> 00:01:38.080
podem escrever quaisquer verificações
que queiram usando o Query Service
00:01:38.081 --> 00:01:39.842
que é útil para várias coisas,
00:01:39.843 --> 00:01:44.543
mas também pode ser usado
para encontrar erros.
00:01:44.544 --> 00:01:46.974
Por exemplo, se descobrirem
uma ocorrência de um erro,
00:01:46.975 --> 00:01:49.709
podem verificar se existem outros locais
00:01:49.710 --> 00:01:51.958
onde as pessoas tenham feito
um erro parecido
00:01:51.958 --> 00:01:53.438
e descobri-lo com o Query Service.
00:01:53.439 --> 00:01:57.875
Também podem combinar os dois e procurar
violações de restrições no Query Service,
00:01:57.875 --> 00:02:01.240
como por exemplo,
apenas violações que ocorram numa área
00:02:01.241 --> 00:02:03.762
ou WikiProject que seja
relevantes para vocês.
00:02:03.762 --> 00:02:06.828
Embora, atualmente, os resultados
não estejam completos. Infelizmente.
00:02:08.422 --> 00:02:09.877
Existe a avaliação de revisões.
00:02:10.690 --> 00:02:12.666
Penso que seja parte
das alterações recentes.
00:02:12.667 --> 00:02:16.217
Podem também adicioná-la à vossa lista
de visualização: uma avaliação automática
00:02:16.217 --> 00:02:20.249
da probabilidade desta edição
ter sido feita em boa ou má-fé
00:02:20.250 --> 00:02:22.312
e da probabilidade de causar ou não danos.
00:02:22.313 --> 00:02:24.205
Penso que sejam essas as duas dimensões.
00:02:24.206 --> 00:02:25.686
Podem, se quiserem,
00:02:25.687 --> 00:02:29.898
concentrar a busca apenas
nas edições danosas mas feitas com boa-fé.
00:02:29.899 --> 00:02:32.523
Se se estiverem a sentir particularmente
amigáveis e acolhedores
00:02:32.524 --> 00:02:37.121
podem dizer a estes editores:
"Obrigado pela contribuição.
00:02:37.122 --> 00:02:40.560
Deviam tê-la feito desta maneira,
mas obrigado de qualquer forma."
00:02:40.561 --> 00:02:42.186
E, se não estiverem com essa disposição,
00:02:42.187 --> 00:02:44.452
podem rever as edições
danosas feitas com má-fé
00:02:44.453 --> 00:02:45.573
e reverter o vandalismo.
00:02:47.544 --> 00:02:49.761
Existe também algo semelhante:
avaliação de entidades.
00:02:49.762 --> 00:02:52.590
Em vez de classificar uma edição,
a alteração que foi feita,
00:02:52.591 --> 00:02:53.904
vão classificar toda a revisão.
00:02:53.904 --> 00:02:56.483
Penso que seja a mesma medida de qualidade
00:02:56.483 --> 00:02:59.863
mencionada pela Lydia
no início da conferência.
00:03:00.372 --> 00:03:04.569
Isto fornece um script de utilizador aqui
em cima e uma pontuação de um a cinco,
00:03:04.570 --> 00:03:08.176
penso eu, da qualidade do item corrente.
00:03:10.043 --> 00:03:15.528
A ferramenta de fontes primárias é para
bases de dados que queiram importar,
00:03:15.528 --> 00:03:18.414
mas que não têm qualidade suficiente
para entrar diretamente na Wikidata.
00:03:18.414 --> 00:03:21.085
Ao invés, adicionam-nas à ferramenta
de fontes primárias e, depois,
00:03:21.085 --> 00:03:22.956
as pessoas podem decidir
00:03:22.956 --> 00:03:26.024
se devem adicionar
estas declarações individuais ou não.
00:03:28.595 --> 00:03:31.607
Mostrar coordenadas como mapas:
é uma funcionalidade conveniente
00:03:31.607 --> 00:03:33.588
mas também é útil
para controlo de qualidade.
00:03:33.588 --> 00:03:36.937
Por exemplo, se virem que isto devia ser
o escritório da Wikimedia na Alemanha
00:03:36.938 --> 00:03:39.400
e as coordenadas forem algures
no Oceano Índico,
00:03:39.401 --> 00:03:41.529
saberão que algo está errado, aqui.
00:03:41.530 --> 00:03:44.790
E podem vê-lo mais facilmente
do que se tivessem apenas os números.
00:03:46.382 --> 00:03:49.576
Esta é uma engenhoca chamada
indicador de integridade relativa,
00:03:49.577 --> 00:03:52.480
que apresenta este pequeno ícone
00:03:53.007 --> 00:03:55.419
que vos mostra o quão completo
pensa que este item está
00:03:55.419 --> 00:03:57.672
e que propriedades
é mais provável que estejam em falta.
00:03:57.672 --> 00:03:59.769
O que é muito útil
se estiverem a editar um item,
00:03:59.769 --> 00:04:03.172
estiverem numa área com a qual
não estejam muito familiarizados
00:04:03.172 --> 00:04:05.661
e não saibam quais são
as propriedades certas a usar.
00:04:05.662 --> 00:04:08.230
Nesse caso, esta é
uma miniaplicação muito útil.
00:04:09.604 --> 00:04:11.401
Temos o Shape Expressions.
00:04:11.402 --> 00:04:15.624
Penso que a Andra ou o Jose
vão falar mais sobre elas
00:04:15.624 --> 00:04:19.757
mas são uma forma muito poderosa
de comparar os dados que têm
00:04:19.758 --> 00:04:20.758
com o esquema.
00:04:20.759 --> 00:04:22.680
Como, que declaração devem ter
certas entidades,
00:04:22.681 --> 00:04:25.677
a que outras entidades devem estar ligadas
e como essas devem ser.
00:04:26.229 --> 00:04:29.374
Podem detetar problemas dessa forma.
00:04:30.366 --> 00:04:32.361
Penso que... Não. Ainda há mais.
00:04:32.362 --> 00:04:34.321
O Integraality ou painel de propriedades.
00:04:34.322 --> 00:04:36.773
Dá-vos uma visão geral
dos dados já existentes.
00:04:36.774 --> 00:04:39.147
Por exemplo, isto é do
WikiProject Red Pandas.
00:04:39.657 --> 00:04:41.681
Podem ver que temos
um sexo ou género
00:04:41.682 --> 00:04:43.561
para quase todos os pandas-vermelhos.
00:04:43.561 --> 00:04:46.854
A data de nascimento varia bastante
consoante o zoo de onde vêm
00:04:46.854 --> 00:04:50.255
e quase não temos
pandas mortos, o que é maravilhoso
00:04:50.256 --> 00:04:51.346
(risos)
00:04:51.437 --> 00:04:52.600
porque são tão fofos.
00:04:53.699 --> 00:04:55.654
Por isso, isto também é útil.
00:04:56.377 --> 00:04:59.185
Cá está. Agora para o que está para vir.
00:04:59.889 --> 00:05:03.784
Wikidata Bridge, anteriormente conhecida
como editor de clientes.
00:05:03.785 --> 00:05:07.076
Ou seja, editar dados a partir
de caixas de informação da Wikipedia.
00:05:07.675 --> 00:05:11.725
O que, por um lado, dará
mais visibilidade aos dados
00:05:11.725 --> 00:05:13.441
pois mais pessoas os conseguirão ver ali.
00:05:13.441 --> 00:05:18.841
E, assim se espera, encorajará uma maior
utilização da Wikidata nas Wikipedias.
00:05:18.841 --> 00:05:20.920
Isto significa
que mais pessoas podem reparar
00:05:20.921 --> 00:05:23.857
se, por exemplo, há dados desatualizados
que precisam de ser atualizados,
00:05:23.857 --> 00:05:27.060
ao invés de só os verem
na própria Wikidata.
00:05:28.630 --> 00:05:30.656
Existem também as referências corrompidas.
00:05:30.657 --> 00:05:33.959
Aqui, a ideia é que, se editarem
uma declaração de valor,
00:05:34.683 --> 00:05:37.279
pode ser preciso atualizar também
as referências,
00:05:37.280 --> 00:05:39.373
a não ser
que seja apenas uma gralha, ou similar.
00:05:39.897 --> 00:05:43.662
Estas referências corrompidas
dizem-no aos editores
00:05:43.663 --> 00:05:49.756
e também que os outros editores
vêm as outras edições que foram feitas
00:05:49.756 --> 00:05:52.471
que editaram uma declaração de valor
e não atualizaram a referência.
00:05:52.472 --> 00:05:56.766
Depois, podem limpar
e decidir se isso deve...
00:05:57.737 --> 00:05:59.566
Precisam de fazê-lo novamente
00:05:59.566 --> 00:06:02.796
ou está tudo correto e
não é necessário atualizar a referência.
00:06:03.543 --> 00:06:09.336
Tem relação com declarações assinadas.
Que têm origem numa preocupação, penso eu,
00:06:09.336 --> 00:06:12.355
que alguns fornecedores de dados têm de...
00:06:14.131 --> 00:06:17.231
Há uma declaração que é referenciada
através na UNESCO, ou similar.
00:06:17.232 --> 00:06:19.872
Depois, de repente,
alguém vandaliza a declaração
00:06:19.873 --> 00:06:21.836
e eles estão preocupados que parecerá que
00:06:22.827 --> 00:06:26.992
essa organização, como a UNESCO,
ainda define este valor de vandalismo.
00:06:26.993 --> 00:06:28.706
Assim, com declarações assinadas,
00:06:28.706 --> 00:06:31.488
eles podem assinar
essa referência criptograficamente.
00:06:31.488 --> 00:06:33.562
Isso não vai prevenir edições à referência
00:06:34.169 --> 00:06:37.624
mas, se alguém vandalizar a declaração
00:06:37.624 --> 00:06:40.255
ou se a editar de alguma forma
a assinatura deixa de ser válida.
00:06:40.255 --> 00:06:43.401
E pode-se ver que isto não é exatamente
o que foi dito pela organização.
00:06:43.402 --> 00:06:47.064
Pode ser que seja uma boa edição
e eles devam assinar a nova declaração,
00:06:47.065 --> 00:06:49.851
mas também pode acontecer
que deva ser revertida.
00:06:51.203 --> 00:06:54.166
E também... Isto vai ser
muito empolgante, penso eu.
00:06:54.166 --> 00:06:56.846
O Citoid é um sistema fantástico
que existe na Wikipedia
00:06:57.379 --> 00:07:01.340
no qual podem colar um URL,
um identificador, um ISBN,
00:07:01.340 --> 00:07:04.759
um ID da Wikidata ou
outra coisa qualquer no Visual Editor,
00:07:05.260 --> 00:07:08.241
e ele devolve uma referência
bem formatada.
00:07:08.242 --> 00:07:11.049
Tem todos os dados que quiserem
e uma usabilidade excelente.
00:07:11.049 --> 00:07:14.337
Por comparação, na Wikidata,
se eu quiser adicionar uma referência,
00:07:14.338 --> 00:07:18.801
tenho, tipicamente, de adicionar o URL,
título, nome de autor,
00:07:18.802 --> 00:07:20.449
data de publicação da referência,
00:07:20.450 --> 00:07:25.141
recuperar as datas.
No mínimo, o que é aborrecido.
00:07:25.141 --> 00:07:29.261
Espera-se que a integração do Citoid
na Wikibase ajude com isso.
00:07:30.245 --> 00:07:33.604
Penso que é tudo o que tinha. Sim.
00:07:33.604 --> 00:07:36.400
Vou agora passar à Cristina.
00:07:37.788 --> 00:07:42.339
(aplausos)
00:07:43.780 --> 00:07:45.331
Olá, eu sou a Cristina.
00:07:45.331 --> 00:07:47.692
Sou uma cientista de investigação
da Universidade de Zurique
00:07:47.692 --> 00:07:51.417
e também um membro ativo
da comunidade Suíça.
00:07:52.698 --> 00:07:57.901
Quando eu e a Claudia Müller-Birn
submetemos isto à WikidataCon,
00:07:57.902 --> 00:08:02.420
o que queríamos era continuar a discussão
que começámos no início do ano
00:08:02.424 --> 00:08:07.442
numa workshop acerca de qualidade de dados
e também nalgumas sessões na Wikimania.
00:08:07.442 --> 00:08:10.535
Então, o objetivo desta palestra
é apresentar algumas ideias
00:08:10.536 --> 00:08:14.432
que estivemos a compilar,
nossas e da comunidade,
00:08:14.432 --> 00:08:16.560
e continuar a discussão.
00:08:16.561 --> 00:08:20.065
Gostaríamos de continuar
a interagir muito convosco.
00:08:21.557 --> 00:08:23.371
O que pensamos ser muito importante,
00:08:23.372 --> 00:08:27.580
é perguntarmos continuamente a todos
os tipos de utilizador na comunidade,
00:08:27.581 --> 00:08:32.240
o que realmente precisam,
que problemas têm com qualidade de dados.
00:08:32.240 --> 00:08:35.000
Não apenas os editores, mas também
as pessoas que estão a programar
00:08:35.000 --> 00:08:36.241
ou a consumir os dados.
00:08:36.242 --> 00:08:39.494
E também os investigadores que estão
a usar toda a história de edições
00:08:39.494 --> 00:08:41.120
para analisar o que está a acontecer.
00:08:42.367 --> 00:08:48.431
Assim, fizemos uma avaliação de cerca
de 80 ferramentas que existem na Wikidata
00:08:48.431 --> 00:08:52.380
e alinhámo-las com as diferentes
dimensões de qualidade de dados.
00:08:52.380 --> 00:08:54.360
O que vimos foi que, na realidade,
00:08:54.361 --> 00:08:57.681
muitas delas estão a vigiar,
a monitorizar a integridade,
00:08:57.682 --> 00:09:02.820
mas, na verdade... Algumas delas estão
também a capacitar interligações.
00:09:02.820 --> 00:09:08.442
Mas, existe uma grande necessidade
de ferramentas que vejam a diversidade,
00:09:08.443 --> 00:09:12.824
que é uma das coisas
que podemos ter na Wikidata.
00:09:12.824 --> 00:09:15.958
Especialmente, este princípio
do design da Wikidata,
00:09:15.959 --> 00:09:17.901
segundo o qual podemos ter pluralidade
00:09:17.902 --> 00:09:20.308
e declarações diferentes
com valores diferentes
00:09:20.914 --> 00:09:22.236
originárias de fontes diferentes.
00:09:22.236 --> 00:09:24.921
Visto ser uma fonte secundária,
não temos realmente ferramentas
00:09:24.922 --> 00:09:27.750
que nos digam
quantas declarações plurais existem,
00:09:27.751 --> 00:09:30.889
quantas podemos melhorar e como.
00:09:30.890 --> 00:09:32.833
Também não sabemos
00:09:32.833 --> 00:09:35.538
quais são todas as razões
para pluralidade que podemos ter.
00:09:36.491 --> 00:09:39.201
Assim, a partir destes
encontros da comunidade
00:09:39.201 --> 00:09:43.084
o que discutimos foram os desafios
que ainda necessitam de atenção.
00:09:43.084 --> 00:09:47.249
Por exemplo, que ter
todas estas comunidades de crowdsourcing
00:09:47.249 --> 00:09:50.813
é muito bom, já que pessoas diferentes
atacam partes diferentes dos dados
00:09:50.813 --> 00:09:51.833
ou do gráfico.
00:09:51.834 --> 00:09:54.615
Temos também conhecimentos
de origem diferentes.
00:09:54.616 --> 00:09:59.161
Mas, na realidade, é muito difícil alinhar
tudo em algo que seja homogéneo
00:09:59.162 --> 00:10:04.920
pois pessoas diferentes usam propriedades
diferentes de forma diferente.
00:10:04.920 --> 00:10:08.401
E estão também à espera de coisas
diferentes das descrições de entidade.
00:10:09.003 --> 00:10:12.721
Foi também dito
que são necessárias mais ferramentas
00:10:12.722 --> 00:10:16.000
que dêm uma melhor visão geral
do estado global das coisas.
00:10:16.000 --> 00:10:20.733
Ou seja, que entidades estão em falta,
em termos de integridade,
00:10:20.733 --> 00:10:25.013
mas também no que é que as pessoas
estão a trabalhar hoje em dia,
00:10:25.013 --> 00:10:26.121
na maior parte do tempo.
00:10:26.741 --> 00:10:30.516
Também foi mencionada com frequência
uma colaboração mais apertada
00:10:30.517 --> 00:10:33.311
entre, não só as linguagens,
mas os WikiProjects
00:10:33.311 --> 00:10:35.571
a as diferentes plataformas Wikimedia.
00:10:35.571 --> 00:10:38.859
Publicámos todos
os comentários transcritos
00:10:38.860 --> 00:10:42.959
de todas estas discussões
nestas ligações aqui, no Etherpads
00:10:42.959 --> 00:10:46.162
e também na página wiki da Wikimania.
00:10:46.162 --> 00:10:48.481
Algumas das soluções que apareceram
00:10:48.481 --> 00:10:53.001
vão na direção da partilha
das melhores práticas
00:10:53.001 --> 00:10:55.762
que estão a ser desenvolvidas
nos diferentes WikiProjects.
00:10:55.762 --> 00:10:57.659
Mas, as pessoas também querem ferramentas
00:10:57.659 --> 00:11:01.239
que ajudem a organizar
o trabalho em equipa
00:11:01.239 --> 00:11:03.845
ou, pelo menos, a perceber
quem está a trabalhar em quê.
00:11:03.845 --> 00:11:07.815
Também foi mencionada
a vontade de ter mais demonstrações
00:11:07.816 --> 00:11:12.019
e mais modelos que os ajudem
a criar coisas de uma forma melhor.
00:11:12.946 --> 00:11:15.111
E, pelo contacto que temos
00:11:15.111 --> 00:11:18.721
com organizações
de dados governamentais abertas
00:11:18.722 --> 00:11:20.068
e, em particular,
00:11:20.068 --> 00:11:23.102
eu estou em contacto com o cantão
e a cidade de Zurique,
00:11:23.102 --> 00:11:26.207
eles estão muito interessados
em trabalhar com a Wikidata
00:11:26.207 --> 00:11:29.896
porque querem que os seus dados
estejam acessíveis para todos
00:11:29.897 --> 00:11:33.681
no local onde as pessoas vão
e consultam ou acedem aos dados.
00:11:33.682 --> 00:11:36.550
Assim, para eles, algo que
seria mesmo interessante
00:11:36.551 --> 00:11:38.600
seria ter algum tipo
de indicador de qualidade
00:11:38.600 --> 00:11:41.082
tanto na wiki,
o que já acontece atualmente,
00:11:41.082 --> 00:11:42.801
como nos resultados SPARQL.
00:11:42.802 --> 00:11:46.066
Para saber se podem ou não confiar
dos dados da comunidade.
00:11:46.487 --> 00:11:49.630
Eles também querem saber que partes
dos seus próprios conjuntos de dados
00:11:49.630 --> 00:11:51.417
são úteis para a Wikidata.
00:11:51.418 --> 00:11:56.040
E adorariam ter uma ferramenta
que ajudasse a avaliar automaticamente.
00:11:56.041 --> 00:11:59.066
Também precisam
de algum tipo de metodologia ou ferramenta
00:11:59.067 --> 00:12:03.894
que os ajude a decidir se devem
ou não importar ou ligar os seus dados
00:12:03.894 --> 00:12:05.357
pois, nalguns casos,eles também têm
00:12:05.357 --> 00:12:07.947
os seus próprios conjuntos de dados
abertos ligados e não sabem
00:12:07.947 --> 00:12:11.707
se devem apenas incorporar os dados
ou continuar a criar ligações
00:12:11.707 --> 00:12:14.294
dos conjuntos de dados
à Wikidata e vice-versa.
00:12:14.950 --> 00:12:20.043
Também querem saber se os seus websites
forem referidos na Wikidata.
00:12:20.044 --> 00:12:23.361
E, quando correm essas consultas
no serviço de consultas
00:12:23.362 --> 00:12:24.848
recebem, muitas vezes, timeouts.
00:12:24.849 --> 00:12:28.181
Por isso, talvez devêssemos mesmo
criar mais ferramentas
00:12:28.181 --> 00:12:32.241
que os ajudem a obter estas respostas
para as suas questões.
00:12:32.241 --> 00:12:33.938
(ruído de fundo)
00:12:33.938 --> 00:12:36.208
E, para além disso,
00:12:36.208 --> 00:12:39.361
nós, investigadores da wiki, também
00:12:39.362 --> 00:12:42.023
temos falta de alguma informação
nos sumários de edição.
00:12:42.024 --> 00:12:44.953
Lembro-me que, quando
estávamos a trabalhar
00:12:44.954 --> 00:12:48.919
para compreender os diferentes
comportamentos dos editores
00:12:48.919 --> 00:12:53.403
com ferramentas ou bots,
ou utilizadores anónimos, etc,
00:12:53.403 --> 00:12:56.154
faltava-nos realmente, por exemplo,
00:12:56.154 --> 00:13:01.112
uma forma padrão de registar
que as ferramentas estavam a ser usadas.
00:13:01.113 --> 00:13:03.154
Já existem algumas ferramentas
que fazem isso
00:13:03.155 --> 00:13:05.230
como o PetScan e muitas outras
00:13:05.230 --> 00:13:07.720
mas talvez devêssemos, na comunidade,
00:13:07.721 --> 00:13:11.965
debater mais acerca de como
registar estes eventos
00:13:11.965 --> 00:13:13.829
para obter uma origem otimizada.
00:13:14.169 --> 00:13:15.321
E, no futuro,
00:13:15.322 --> 00:13:20.801
precisamos de pensar em dimensões
de qualidade de dados mais concretas
00:13:20.802 --> 00:13:24.961
que estão relacionadas com dados ligados
mas não com todos os tipos de dados.
00:13:24.962 --> 00:13:30.721
Por isso, trabalhámos nalgumas medidas
para aceder ao aumento de informação
00:13:30.722 --> 00:13:33.881
proporcionado pelas ligações.
O que queremos dizer com isso
00:13:33.882 --> 00:13:36.681
é que, quando ligamos a Wikidata
a outros conjuntos de dados,
00:13:36.682 --> 00:13:38.201
também deviamos estar a pensar
00:13:38.202 --> 00:13:41.921
em quanto é que as entidades estão,
na realidade, a ganhar na classificação,
00:13:41.922 --> 00:13:45.601
na descrição, mas também
nos vocabulários que usam.
00:13:45.602 --> 00:13:51.041
Para dar um exemplo muito simples
do que quero dizer com isto,
00:13:51.042 --> 00:13:54.269
podemos pensar... Neste caso,
seria a Wikidata
00:13:54.270 --> 00:13:57.771
ou o centro de dados externo
que está a ligar à Wikidata.
00:13:57.772 --> 00:14:00.487
Temos a entidade para uma pessoa
chamada Natasha Noy,
00:14:00.487 --> 00:14:02.601
temos a afiliação e outras coisas.
00:14:02.602 --> 00:14:05.239
E, depois dizemos: "Está bem, ligamos
a um local externo
00:14:05.240 --> 00:14:08.919
e aquela entidade também tem aquele nome."
Mas, na realidade, temos o mesmo valor.
00:14:08.920 --> 00:14:12.889
Então, seria melhor se ligássemos
a algo que tenha um nome diferente,
00:14:12.889 --> 00:14:16.881
o que ainda é válido porque esta pessoa
tem duas formas de escrever o nome,
00:14:16.882 --> 00:14:19.714
e também outras informações
que não temos na Wikidata
00:14:19.715 --> 00:14:21.760
ou que não temos
no outro conjunto de dados.
00:14:22.390 --> 00:14:24.652
Mas também, o que é ainda melhor
00:14:24.653 --> 00:14:27.770
é que estamos a olhar
para o conjunto de dados alvo
00:14:27.770 --> 00:14:31.392
e eles também têm novas formas
de classificar a informação.
00:14:31.393 --> 00:14:35.354
Por isso, não só é uma pessoa,
mas, no outro conjunto de dados,
00:14:35.355 --> 00:14:37.076
também diz que é do sexo feminino
00:14:37.076 --> 00:14:39.526
ou qualquer outra classificação
que tenha sido usada.
00:14:39.526 --> 00:14:43.401
Se, no outro conjunto de dados, estiverem
a usar muitos outros vocabulários
00:14:43.402 --> 00:14:46.588
isso também está a ajudar
na recuperação de informação como um todo.
00:14:47.371 --> 00:14:51.233
Também gostava de dizer
00:14:51.234 --> 00:14:55.809
que pensamos que podemos
mostrar melhor as consultas federadas
00:14:55.810 --> 00:15:00.448
porque, quando olhamos para o log
da consulta fornecido por Malyshev et al,
00:15:01.285 --> 00:15:06.921
vemos que, das consultas orgânicas,
temos apenas algumas consultas federadas.
00:15:06.922 --> 00:15:12.801
E, na realidade, a federação é uma
das vantagens chave de ter dados ligados.
00:15:12.802 --> 00:15:16.903
Por isso, talvez a comunidade
ou as pessoas que usam a Wikidata
00:15:16.903 --> 00:15:18.898
também precisem
de mais exemplos deste tipo.
00:15:18.898 --> 00:15:22.666
Se olharmos para a lista
de parâmetros que estão a ser usados...
00:15:22.667 --> 00:15:25.401
Esta não é uma lista completa
e temos muitos mais.
00:15:25.402 --> 00:15:30.479
Estes dados foram analisados a partir
de consultas feitas até março de 2018,
00:15:30.480 --> 00:15:34.807
mas deviamos olhar para a lista
de parâmetros federados que temos
00:15:34.808 --> 00:15:37.048
e ver se os estamos realmente
a usar ou não.
00:15:37.813 --> 00:15:40.441
Por isso, duas questões
que tenho para a audiência
00:15:40.442 --> 00:15:43.001
e que talvez possamos usar
depois para a discussão, são:
00:15:43.001 --> 00:15:46.001
que problemas de qualidade de dados
devem, na vossa opinião, ser abordados,
00:15:46.002 --> 00:15:47.412
devido às vossas necessidades.
00:15:47.412 --> 00:15:50.401
Mas também, onde é que é necessária
mais automação
00:15:50.402 --> 00:15:53.043
para vos ajudar com as edições
ou patrulhamentos.
00:15:53.866 --> 00:15:55.146
É tudo, muito obrigada.
00:15:55.779 --> 00:16:00.537
(aplausos)
00:16:06.030 --> 00:16:09.427
(Jose Emilio Labra) Vou falar-vos
de algumas ferramentas
00:16:09.427 --> 00:16:14.715
que estamos a desenvolver,
relacionadas com o Shape Expressions.
00:16:15.536 --> 00:16:19.371
É disto que quero falar...
Sou o Jose Emilio Labra,
00:16:19.371 --> 00:16:23.215
mas há... Todas estas ferramentas
foram construídas por pessoas diferentes,
00:16:23.920 --> 00:16:28.480
muitas relacionadas com o W3C ShEx,
Shape Expressions Community Group.
00:16:28.481 --> 00:16:29.481
ShEx Community Group.
00:16:31.344 --> 00:16:36.081
A primeira ferramenta que quero mencionar
é o RDFShape. Esta é uma ferramenta geral
00:16:36.082 --> 00:16:40.681
porque o Shape Expressions
não é só para a Wikidata.
00:16:40.682 --> 00:16:44.168
O Shape Expressions é uma linguagem
para validar RDF em geral.
00:16:44.168 --> 00:16:47.568
Esta ferramenta foi desenvolvida
principalmente por mim
00:16:47.568 --> 00:16:50.880
e é uma ferramenta para validar
RDF no geral.
00:16:50.881 --> 00:16:55.139
Se quiserem aprender acerca de RDF
ou se quiserem validar parâmetros RDF
00:16:55.140 --> 00:16:58.621
ou SPARQL, não só na Wikidata,
00:16:58.622 --> 00:17:00.891
o meu conselho é
que podem usar esta ferramenta.
00:17:00.891 --> 00:17:03.255
Também para ensinar.
00:17:03.255 --> 00:17:05.640
Sou um professor universitário
00:17:05.641 --> 00:17:09.151
e uso-a no meu curso de web semântica
para ensinar RDF.
00:17:09.161 --> 00:17:12.121
Por isso, se quiserem aprender RDF,
penso que esta é uma boa ferramenta.
00:17:13.033 --> 00:17:17.855
Por exemplo, esta é só uma visualização
de um gráfico RDF com essa ferramenta.
00:17:19.157 --> 00:17:22.643
Mas, antes de vir cá, no último mês,
00:17:22.643 --> 00:17:27.293
comecei um fork de rdfshape
especificamente para a Wikidata,
00:17:27.293 --> 00:17:28.443
porque pensei...
00:17:28.443 --> 00:17:33.082
Chama-se WikiShape e, ontem,
apresentei-a como presente à Wikidata.
00:17:33.082 --> 00:17:34.441
Então, eu peguei...
00:17:34.442 --> 00:17:39.898
O que eu fiz foi remover tudo
o que não tivesse relação com a Wikidata
00:17:39.898 --> 00:17:42.603
e acrescentar várias coisas,
com codificação permanentemente,
00:17:42.603 --> 00:17:44.802
como, por exemplo,
o parâmetro Wikidata SPARQL.
00:17:44.802 --> 00:17:49.041
Agora, foi-me pedido
que fizesse isso também para a Wikibase.
00:17:49.042 --> 00:17:52.000
E é muito fácil
fazê-lo também para a Wikibase.
00:17:52.760 --> 00:17:56.280
Então, esta ferramenta,
a WikiShape, é muito recente.
00:17:57.015 --> 00:17:59.843
Penso que funciona,
a maioria das funcionalidades,
00:17:59.844 --> 00:18:02.468
mas há algumas funcionalidades
que podem não funcionar.
00:18:02.469 --> 00:18:06.281
Se experimentarem e quiserem
melhorá-la, digam-me, por favor.
00:18:06.281 --> 00:18:11.048
Isto é uma captura de ecrã,
mas penso que posso experimentar.
00:18:11.558 --> 00:18:13.488
Por isso, vamos experimentar.
00:18:14.256 --> 00:18:15.366
(risos)
00:18:15.385 --> 00:18:16.945
Vamos ver se funciona.
00:18:16.953 --> 00:18:20.070
Primeiro, tenho de sair do...
00:18:22.453 --> 00:18:23.453
Aqui.
00:18:25.436 --> 00:18:28.244
Esta é a ferramenta, aqui.
00:18:28.244 --> 00:18:29.844
Coisas que podem fazer com a ferramenta:
00:18:29.845 --> 00:18:35.275
por exemplo, podem
verificar esquemas, esquemas de entidades.
00:18:35.276 --> 00:18:38.611
Sabem que há um novo namespace
que é "E" qualquer coisa".
00:18:38.612 --> 00:18:44.805
Então, se começaram, por exemplo,
a escrever "humano",
00:18:44.806 --> 00:18:48.812
à medida que escrevem,
o autocompletamento permite-vos verificar
00:18:48.812 --> 00:18:52.001
que isto é o Shape Expressions
de um humano
00:18:52.790 --> 00:18:55.937
e que isto é o Shape Expressions, aqui.
00:18:55.938 --> 00:18:59.841
Como podem ver, este editor
tem realce de sintaxe.
00:18:59.842 --> 00:19:04.559
Isto é... Bem, talvez seja
muito pequeno, o ecrã.
00:19:05.676 --> 00:19:07.590
Posso tentar aumentá-lo.
00:19:09.194 --> 00:19:10.973
Talvez o vejam melhor, agora.
00:19:10.973 --> 00:19:14.241
Então, este é o editor, com realce
de sintaxe, e também tem...
00:19:14.241 --> 00:19:17.851
Quero dizer, este editor
vem do mesmo código fonte
00:19:17.851 --> 00:19:19.641
do editor de consultas da Wikidata.
00:19:19.642 --> 00:19:23.960
Se pairarem com o rato aqui,
00:19:23.961 --> 00:19:27.961
vai mostrar-vos as etiquetas
das diferentes propriedades.
00:19:27.962 --> 00:19:31.298
Penso que é muito útil porque, agora,
00:19:32.588 --> 00:19:36.152
o esquema de entidades
que está na Wikidata
00:19:36.152 --> 00:19:38.602
é só uma ideia em texto simples.
00:19:38.602 --> 00:19:42.493
Penso que este editor é muito melhor
porque tem autocompletamento
00:19:42.494 --> 00:19:43.743
também tem...
00:19:43.744 --> 00:19:48.241
Por exemplo, se quiserem adicionar
uma restrição
00:19:48.241 --> 00:19:51.570
vão dizer: "wdt:".
00:19:51.570 --> 00:19:56.884
Começam a escrever "author"
e depois clicam em Ctrl+Espaço
00:19:56.884 --> 00:19:58.922
e vai sugerir-vos várias coisas.
00:19:58.922 --> 00:20:02.388
Então, isto é semelhante
ao serviço de consultas da Wikidata,
00:20:02.389 --> 00:20:06.445
mas para Shape Expressions,
especificamente.
00:20:06.445 --> 00:20:11.377
Porque penso que, criar Shape Expressions
00:20:11.976 --> 00:20:15.841
não é mais difícil do que
escrever consultas SPARQL.
00:20:16.492 --> 00:20:21.905
Algumas pessoas pensam
que o nível de dificuldade é o mesmo.
00:20:22.278 --> 00:20:26.296
É provavelmente mais fácil
porque o Shape Expressions era...
00:20:26.296 --> 00:20:31.241
Quando o concebemos, fizemo-lo
para que fosse mais fácil trabalhar.
00:20:32.152 --> 00:20:37.371
Esta é uma das primeiras coisas que têm.
Este editor para Shape Expressions.
00:20:37.371 --> 00:20:41.467
Depois, também têm a possibilidade de,
por exemplo, visualizar.
00:20:41.468 --> 00:20:44.801
Se tiverem uma Shape Expression,
usem, por exemplo...
00:20:44.802 --> 00:20:49.386
Penso que "trabalho escrito" é
uma boa Shape Expression
00:20:49.386 --> 00:20:53.300
porque tem algumas relações
entre diferentes coisas.
00:20:54.823 --> 00:20:58.160
E isto é a visualização UML
do trabalho escrito.
00:20:58.161 --> 00:21:02.090
Numa UML, isto é fácil de ver,
as diferentes propriedades.
00:21:02.790 --> 00:21:06.794
Quando fazem isto, apercebi-me que,
quando o tentei com várias pessoas,
00:21:06.795 --> 00:21:09.216
encontram alguns erros
nas suas Shape Expressions
00:21:09.217 --> 00:21:12.988
porque é fácil detetar quais são
as propriedades em falta.
00:21:13.588 --> 00:21:17.261
Depois, temos aqui outra possibilidade
que é a de poder também validar.
00:21:17.261 --> 00:21:19.520
Penso que a temos aqui, a validação.
00:21:20.496 --> 00:21:25.285
Pensava que a tinha nalguma etiqueta.
Talvez a tenha fechado.
00:21:26.267 --> 00:21:30.988
Mas podem, por exemplo,
clicar aqui: Validar entidades.
00:21:32.308 --> 00:21:34.232
Vocês, por exemplo,
00:21:35.404 --> 00:21:41.921
"q42" com "e42", que é o autor.
00:21:42.818 --> 00:21:46.180
Com "humano". Penso que o podemos fazer
com "humano".
00:21:49.050 --> 00:21:50.050
E depois é...
00:21:50.688 --> 00:21:56.365
Está a demorar um pouco a fazê-lo
porque está a realizar consultas SPARQL.
00:21:56.365 --> 00:21:59.134
E agora, por exemplo, está a falhar
por causa da rede. Mas...
00:21:59.657 --> 00:22:01.580
Podem tentá-lo.
00:22:02.759 --> 00:22:07.026
Vamos continuar com a apresentação,
com outras ferramentas.
00:22:07.026 --> 00:22:12.353
O meu conselho é, se o quiserem tentar
e se quiserem qualquer feedback, digam-me.
00:22:13.133 --> 00:22:15.540
Então, para continuar
com a apresentação...
00:22:18.923 --> 00:22:20.233
Isto é a WikiShape.
00:22:23.800 --> 00:22:26.509
Já o disse,
00:22:27.681 --> 00:22:34.157
o editor de Shape Expressions
é um projeto independente no GitHub.
00:22:35.605 --> 00:22:37.472
Podem usá-lo no vosso próprio projeto.
00:22:37.472 --> 00:22:41.036
Se quiserem construir
uma ferramenta de Shape Expressions,
00:22:41.036 --> 00:22:45.635
podem integrá-lo
em qualquer outro projeto.
00:22:45.636 --> 00:22:48.235
Está no GitHub e podem usá-lo.
00:22:48.868 --> 00:22:51.970
O mesmo autor,
é um dos meus estudantes.
00:22:52.684 --> 00:22:55.644
Ele também criou um editor
para Shape Expressions,
00:22:55.644 --> 00:22:57.839
também inspirado pelo
serviço de consultas do Wikidata,
00:22:57.839 --> 00:23:00.681
onde, numa coluna,
00:23:00.682 --> 00:23:05.103
têm este editor mais visual
de consultas SPARQL
00:23:05.104 --> 00:23:07.135
onde podem introduzir este tipo de coisas.
00:23:07.136 --> 00:23:09.123
Esta é uma captura de ecrã.
00:23:09.123 --> 00:23:12.662
Podem ver que isto
é Shape Expressions em texto,
00:23:12.662 --> 00:23:15.565
mas isto é Shape Expressions
baseado em formas
00:23:15.565 --> 00:23:18.595
onde, provavelmente,
demoraria um pouco mais,
00:23:18.595 --> 00:23:23.400
onde podem pôr as diferentes colunas
nos diferentes campos.
00:23:24.480 --> 00:23:26.879
Depois há o ShExEr.
00:23:26.879 --> 00:23:31.882
Temos...Foi feito por um estudante
de doutoramento da Universidade de Oviedo.
00:23:31.883 --> 00:23:34.080
E ele está cá,
por isso pode apresentar o ShExEr.
00:23:38.147 --> 00:23:40.024
(Danny) Olá, eu sou o Danny Fernàndez.
00:23:40.025 --> 00:23:43.010
Sou um estudante de doutoramento
na Universidade de Oviedo
00:23:43.010 --> 00:23:44.060
a trabalhar com o Labra.
00:23:44.060 --> 00:23:47.725
Já que estamos a ficar sem tempo,
vamos fazer isto rapidamente.
00:23:47.726 --> 00:23:52.891
Não faremos uma demonstração,
mas veremos algumas capturas de ecrã.
00:23:54.371 --> 00:23:56.897
A forma usual de trabalhar com
Shape Expressions,
00:23:56.897 --> 00:23:59.507
ou com qualquer linguagem de formas,
é ter um perito no domínio
00:23:59.522 --> 00:24:02.313
que define, a priori,
como se deve parecer o gráfico,
00:24:02.314 --> 00:24:03.555
define algumas estruturas.
00:24:03.556 --> 00:24:06.983
Depois usam essas estruturas
para comparar os dados e validá-los.
00:24:08.124 --> 00:24:11.641
Esta ferramenta, que é, tal como aquelas
que o Labra esteve a apresentar,
00:24:11.642 --> 00:24:14.441
uma ferramenta polivalente
para qualquer fonte RDF,
00:24:14.442 --> 00:24:17.375
está concebida para fazer o contrário.
00:24:17.376 --> 00:24:18.758
Já têm alguns dados,
00:24:18.759 --> 00:24:23.165
selecionam que nodos
querem usar para formar a forma
00:24:23.165 --> 00:24:26.718
e depois extraem ou inferem
a forma automaticamente.
00:24:26.719 --> 00:24:29.791
Então, mesmo sendo
uma ferramenta polivalente,
00:24:29.791 --> 00:24:34.063
o que fizemos para este WikidataCon
foi este botão catita.
00:24:34.884 --> 00:24:37.081
Se clicarem nele,
o que acontece, essencialmente,
00:24:37.081 --> 00:24:42.079
é que, há
tantos parâmetros de configuração,
00:24:42.080 --> 00:24:46.251
e ele configura-os para funcionar
com os parâmetros da Wikidata.
00:24:46.251 --> 00:24:47.971
Vai acabar em breve, desculpem.
00:24:48.733 --> 00:24:52.883
Assim que pressionam este botão
o que obtêm é essencialmente isto.
00:24:52.884 --> 00:24:55.126
Depois de selecionarem que tipo de nodos,
00:24:55.127 --> 00:24:59.360
que tipo de instâncias da nossa classe,
ou seja o que for que estejam a procurar,
00:24:59.361 --> 00:25:01.321
obtêm um esquema automático.
00:25:02.319 --> 00:25:07.111
Todas as restrições são resolvidas
por quantos nodos são conformantes.
00:25:07.112 --> 00:25:09.772
Podem filtrar os menos comuns, etc.
00:25:09.772 --> 00:25:12.126
Há um poster lá em baixo
acerca disto.
00:25:12.127 --> 00:25:16.455
Eu estarei lá em baixo e cá em cima,
em todo o lado o dia todo.
00:25:16.455 --> 00:25:19.081
Por isso, se tiverem interesse adicional
nesta ferramenta
00:25:19.082 --> 00:25:21.476
falem comigo durante esta jornada.
00:25:21.477 --> 00:25:24.624
Vou devolver o microfone ao Labra.
Obrigado.
00:25:24.625 --> 00:25:29.265
(aplausos)
00:25:29.812 --> 00:25:32.578
(Jose) Vamos continuar com
as outras ferramentas.
00:25:32.579 --> 00:25:34.984
A outra ferramenta é o ShapeDesigner.
00:25:34.984 --> 00:25:37.241
Andra, queres falar
do ShapeDesigner agora
00:25:37.242 --> 00:25:39.287
ou mais tarde, durante a workshop?
00:25:39.287 --> 00:25:40.603
Há uma workshop...
00:25:40.603 --> 00:25:44.437
Esta tarde, há uma workshop,
especifica para Shape Expressions, e...
00:25:45.265 --> 00:25:47.939
A ideia é que vai ser mais
na vertente prática
00:25:47.940 --> 00:25:52.324
e, se quiserem praticar ShEx,
podem fazê-lo lá.
00:25:52.875 --> 00:25:55.720
Esta ferramenta é o ShEx,js.
Lá está o Eric, ali.
00:25:55.721 --> 00:25:56.890
Podes apresentá-la.
00:25:57.969 --> 00:26:00.687
(Eric) Muito rapidamente,
aquilo que quero dizer
00:26:00.687 --> 00:26:05.711
é que já viram, provavelmente,
a interface de ShEx
00:26:05.711 --> 00:26:07.601
que foi concebida para a Wikidata.
00:26:07.602 --> 00:26:12.930
Ela foi simplificada e pensada
especificamente para a Wikidata
00:26:12.930 --> 00:26:15.817
porque a versão genérica
tem mais funcionalidades.
00:26:15.817 --> 00:26:19.014
Mas pensei em mencioná-la
porque uma dessas funcionalidades
00:26:19.014 --> 00:26:23.201
é particularmente útil
para depurar esquemas da Wikidata.
00:26:23.201 --> 00:26:29.224
A qual é, se selecionarem o modo slurp,
00:26:29.225 --> 00:26:31.444
o que faz é dizer,
à medida que estou a validar,
00:26:31.445 --> 00:26:33.214
que quero puxar
todos os triplos para baixo.
00:26:33.214 --> 00:26:36.274
E, isso significa
que, se tiver um conjunto de falhas,
00:26:36.275 --> 00:26:39.586
posso verificá-las e começar a olhar
para essas falhas e dizer
00:26:39.587 --> 00:26:41.800
quais são os triplos que estão aqui.
00:26:41.801 --> 00:26:44.120
Peço desculpas, os triplos estão
aqui em baixo.
00:26:44.121 --> 00:26:45.647
Isto é só um registo do que aconteceu.
00:26:46.327 --> 00:26:49.180
Depois, podem limitar-se a remexer
nisto em tempo real.
00:26:49.181 --> 00:26:51.033
Brincam com alguma coisa e muda.
00:26:51.033 --> 00:26:54.160
Então, é uma versão mais rápida
para fazer todas essas coisas.
00:26:55.361 --> 00:26:56.481
Este é um formulário ShExC.
00:26:56.482 --> 00:26:59.455
É algo que o Joachim sugeriu.
00:27:00.035 --> 00:27:04.631
Pode ser útil para povoar
documentos da Wikidata
00:27:04.631 --> 00:27:07.338
baseado numa Shape Expression
para esse documento.
00:27:08.095 --> 00:27:11.681
Isto não foi feito
à medida da Wikidata,
00:27:11.682 --> 00:27:14.081
mas é apenas para mostrar
que podem ter um esquema
00:27:14.082 --> 00:27:15.891
e podem ter algumas anotações
para especificar
00:27:15.891 --> 00:27:17.518
como quero apresentar o esquema.
00:27:17.519 --> 00:27:19.031
Depois, constrói um formulário
00:27:19.031 --> 00:27:21.191
e, se tiverem dados,
pode até povoar o formulário.
00:27:24.517 --> 00:27:26.564
PyShEx [inaudível].
00:27:26.564 --> 00:27:27.594
(risos)
00:27:28.025 --> 00:27:31.080
(Jose) Penso que este seja o último.
00:27:31.821 --> 00:27:34.080
Sim, o último é o PyShEx.
00:27:34.675 --> 00:27:38.151
O PyShEx é uma implementação
de Shape Expressions em Python.
00:27:39.193 --> 00:27:41.680
Podem também experimentar
o Jupyter Notebooks
00:27:41.680 --> 00:27:44.433
se quiserem esse tipo de coisas.
É tudo, para isto.
00:27:44.433 --> 00:27:48.990
(aplausos)
00:27:52.916 --> 00:27:56.134
(Andra) Vou falar acerca
de um projeto específico
00:27:56.134 --> 00:27:58.074
com o qual estou envolvido
chamado Gene Wiki
00:27:58.075 --> 00:28:04.596
e onde também estamos a lidar
com questões de qualidade.
00:28:04.597 --> 00:28:06.684
Mas, antes de falar da qualidade,
00:28:06.685 --> 00:28:09.229
talvez uma pequena apresentação
acerca do que é o Gene Wiki.
00:28:09.855 --> 00:28:15.175
Acabámos de lançar uma pré-impressão
de um artigo que escrevemos recentemente
00:28:15.175 --> 00:28:18.160
que explica os detalhes do projeto.
00:28:19.821 --> 00:28:21.760
Tiraram fotografias.
00:28:21.760 --> 00:28:23.846
Basicamente, o que o Gene Wiki faz
00:28:23.846 --> 00:28:28.027
é tentar inserir dados biomédicos,
dados públicos, na Wikidata.
00:28:28.028 --> 00:28:32.200
Seguimos um padrão específico
para inserir esses dados na Wikidata.
00:28:33.130 --> 00:28:36.809
Assim, quando temos um novo repositório,
ou um novo conjunto de dados
00:28:36.810 --> 00:28:39.426
que é elegível
para ser incluído na Wikidata,
00:28:39.426 --> 00:28:41.323
o primeiro passo
é o envolvimento da comunidade.
00:28:41.323 --> 00:28:43.784
Não é dirigido, necessariamente
a uma comunidade da Wikidata,
00:28:43.785 --> 00:28:46.120
mas a uma comunidade de pesquisa local.
00:28:46.121 --> 00:28:50.286
Encontramo-nos em pessoa,
ou online, ou em qualquer plataforma
00:28:50.286 --> 00:28:52.881
e tentamos criar um modelo de dados
00:28:52.882 --> 00:28:56.197
que faça a ponte entre os seus dados
e o modelo Wikidata.
00:28:56.197 --> 00:28:59.944
Aqui, tenho uma imagem de uma workshop
que aconteceu aqui, no ano passado.
00:28:59.945 --> 00:29:02.663
Estava a tentar olhar
para um conjunto de dados específico
00:29:02.663 --> 00:29:05.280
e, enfim, vêm muitas discussões,
00:29:05.281 --> 00:29:09.780
e depois alinhá-los com o schema.org
e outras ontologias que por aí andam.
00:29:10.320 --> 00:29:15.508
Depois, no final do primeiro passo,
temos um desenho do esquema
00:29:15.509 --> 00:29:17.336
que queremos implementar na Wikidata.
00:29:17.337 --> 00:29:20.440
O que vêm aqui, isto é apenas simples,
00:29:20.441 --> 00:29:21.766
temo-lo lá atrás, ali,
00:29:21.767 --> 00:29:25.240
e podemos fazer alguns esquemas
dentro deste painel mesmo hoje.
00:29:26.560 --> 00:29:28.399
Assim que temos o esquema montado,
00:29:28.400 --> 00:29:31.320
o próximo passo é tentar fazer
o esquema da máquina legível.
00:29:32.358 --> 00:29:35.280
Porque querem ter modelos acionáveis
para fazer uma ponte
00:29:35.280 --> 00:29:38.613
com os dados que estão a inserir
de qualquer base de dados biomédica
00:29:38.613 --> 00:29:40.393
no Wikidata.
00:29:41.682 --> 00:29:46.471
Aqui, estamos a aplicar Shape Expressions.
00:29:48.451 --> 00:29:52.518
Usámo-lo porque permite-vos testar
00:29:52.518 --> 00:29:57.040
se o conjunto de dados é, na realidade...
Não. A ver, em primeiro lugar,
00:29:57.041 --> 00:30:01.782
se os dados que já existem na Wikidata
seguem o mesmo modelo de dados
00:30:01.783 --> 00:30:04.718
que foi conseguido no processo anterior.
00:30:04.719 --> 00:30:06.641
Depois, com a Shape Expression
podemos verificar:
00:30:06.642 --> 00:30:10.926
os dados deste tópico na Wikidata,
será que precisam de uma limpeza
00:30:10.926 --> 00:30:15.013
ou precisamos de adaptar o nosso modelo
ao modelo da Wikidata, ou vice-versa?
00:30:15.937 --> 00:30:19.867
Quando isso estiver definido
e começarmos a programar bots
00:30:20.670 --> 00:30:23.801
e os bots estão a passar a informação
00:30:23.802 --> 00:30:27.308
que está nas fontes primárias
para a Wikidata.
00:30:27.846 --> 00:30:29.303
Quando os bots estão prontos...
00:30:29.304 --> 00:30:33.001
Programamos estes bots
com uma plataforma chamada...
00:30:33.002 --> 00:30:36.201
com uma biblioteca de Python
chamada Wikidata Integrator
00:30:36.202 --> 00:30:38.167
que foi criada pelo nosso projeto.
00:30:38.698 --> 00:30:42.921
Uma vez que tenhamos os nossos bots,
usamos uma plataforma chamada Jenkins
00:30:42.921 --> 00:30:44.540
para integração contínua.
00:30:44.540 --> 00:30:45.762
Com o Jenkins,
00:30:45.762 --> 00:30:51.160
atualizamos constantemente
as fontes primárias com a Wikidata.
00:30:52.178 --> 00:30:55.889
Este é um diagrama para o artigo
que mencionei anteriormente.
00:30:55.890 --> 00:30:57.241
Esta é a nossa paisagem atual.
00:30:57.242 --> 00:31:02.059
Cada caixa laranja
é um recurso primário para drogas,
00:31:02.060 --> 00:31:07.827
proteínas, genes, doenças
compostos químicos com interação.
00:31:07.827 --> 00:31:10.870
Este modelo é muito pequeno
para ser lido agora,
00:31:10.870 --> 00:31:17.472
mas esta é a base de dados,
as fontes, que gerimos na Wikidata
00:31:17.473 --> 00:31:20.560
e que fazem ponte com as fontes primárias.
00:31:20.561 --> 00:31:22.355
Aqui está um desses fluxos de trablaho.
00:31:22.870 --> 00:31:25.312
Um dos nossos parceiros
é a Disease Ontology.
00:31:25.312 --> 00:31:27.672
A Disease Ontology é uma ontologia CC0
00:31:28.945 --> 00:31:32.756
e a ontologia CC0
tem o seu próprio ciclo de curadoria.
00:31:32.756 --> 00:31:35.736
Eles atualizam continuamente
a Disease Ontology
00:31:35.737 --> 00:31:39.687
para refletir o espaço de doenças
ou a interpretação de doenças.
00:31:40.336 --> 00:31:44.361
Há também o ciclo de curadoria
da Wikidata acerca de doenças
00:31:44.362 --> 00:31:48.418
onde a comunidade Wikidata
monitoriza constantemente
00:31:48.418 --> 00:31:50.406
o que se está a passar na Wikidata.
00:31:50.406 --> 00:31:51.601
Depois, temos duas funções
00:31:51.602 --> 00:31:55.477
às quais chamamos, coloquialmente,
curadores guardiões.
00:31:57.039 --> 00:31:59.561
Isto sou eu
e um colega há cinco anos atrás.
00:31:59.562 --> 00:32:03.414
Ficamos ao computador
e monitorizamos a Wikipedia e a Wikidata
00:32:03.415 --> 00:32:08.601
e, se houver alguma questão
reportada à comunidade primária,
00:32:08.602 --> 00:32:11.765
aos recursos primários, eles olhavam
para a implementação e decidiam:
00:32:11.765 --> 00:32:14.240
"Confiamos nas entradas da Wikidata?"
00:32:14.850 --> 00:32:18.555
Se sim, é considerada,
entra no ciclo
00:32:18.555 --> 00:32:22.686
e na próxima iteração
faz parte da Disease Ontology
00:32:22.687 --> 00:32:25.411
e é fornecida à Wikidata.
00:32:27.419 --> 00:32:31.480
Estamos a fazer o mesmo
com a WikiPathways.
00:32:31.481 --> 00:32:34.755
A WikiPathways é um percurso
inspirado na wiki
00:32:34.755 --> 00:32:36.602
e um repositório de percursos.
00:32:36.602 --> 00:32:40.901
É a mesma história, já há diferentes
recursos de percursos na Wikidata.
00:32:41.463 --> 00:32:44.713
Podem haver conflitos entre
esses recursos de percursos
00:32:44.722 --> 00:32:46.701
e esses conflitos são comunicados de volta
00:32:46.702 --> 00:32:49.521
pelos curadores guardiões
a essa comunidade
00:32:49.522 --> 00:32:53.715
mantendo-se os ciclos
individuais de curadoria.
00:32:53.715 --> 00:32:57.068
Mas, se se lembrarem do ciclo anterior,
00:32:57.069 --> 00:33:03.041
mencionei aqui
apenas dois ciclos, dois recursos.
00:33:03.566 --> 00:33:06.300
Temos de fazer isto
para cada recurso individual que temos
00:33:06.300 --> 00:33:09.185
e temos de gerir o que se passa
porque, quando falo em curadoria,
00:33:09.185 --> 00:33:11.377
quero dizer ir
às páginas de topo da Wikipedia,
00:33:11.377 --> 00:33:14.544
às páginas de topo da Wikidata,
e tentar fazer isso.
00:33:14.545 --> 00:33:19.316
Isso é muito para os dois curadores
guardiões que tínhamos.
00:33:19.660 --> 00:33:22.777
Por isso,
quando estive numa conferência em 2016,
00:33:22.778 --> 00:33:26.933
onde o Eric fez uma apresentação
sobre Shape Expressions,
00:33:26.934 --> 00:33:29.277
aderi à onda e disse: "Está bem.
00:33:29.278 --> 00:33:34.240
o Shape Expressions pode ajudar-nos
a detetar as diferenças na Wikidata
00:33:34.240 --> 00:33:38.389
e isso permite que os guardiões tenham
00:33:38.389 --> 00:33:42.217
relatórios mais eficientes
para comunicar."
00:33:42.275 --> 00:33:46.019
Então, este ano, fiquei deliciado
com a entidade de esquemas
00:33:46.020 --> 00:33:50.765
porque, agora, podemos guardar
esses esquemas de entidades na Wikidata,
00:33:50.765 --> 00:33:53.523
mesmo na Wikidata,
enquanto, antes, estavam no GitHub,
00:33:53.860 --> 00:33:56.815
e isto está em sintonia
com a interface da Wikidata.
00:33:56.816 --> 00:33:59.350
Então, têm coisas
como discussões de documentos
00:33:59.350 --> 00:34:00.762
mas também têm revisões.
00:34:00.763 --> 00:34:05.261
Assim, podem impulsionar as páginas
de topo e as revisões na Wikidata
00:34:05.262 --> 00:34:12.255
para usar isso para debater
acerca do que está na Wikidata
00:34:12.255 --> 00:34:14.060
e o que está nos recursos primários.
00:34:14.966 --> 00:34:19.686
Isto, que o Eric acabou de apresentar,
já é um grande benefício.
00:34:19.686 --> 00:34:24.335
Aqui, fizemos uma Shape Expression
para o gene humano
00:34:24.336 --> 00:34:30.225
e, depois, passámos-la através
de uma ShEx simples e, como podem ver,
00:34:30.225 --> 00:34:32.428
já temos no...
00:34:32.429 --> 00:34:34.641
Existe uma questão
que precisa de ser monitorizada,
00:34:34.642 --> 00:34:37.316
onde há um item
que não encaixa naquele esquema
00:34:37.316 --> 00:34:43.139
e, depois, podem já criar relatórios
de curadoria de entidades de esquemas
00:34:43.140 --> 00:34:46.240
baseados em... e enviar isto para
os diferentes relatórios de curadoria.
00:34:48.058 --> 00:34:52.788
Mas, o ShEx.js é uma interface construída
00:34:52.788 --> 00:34:55.860
e, se puder mostrar cá atrás,
faço apenas dez,
00:34:55.860 --> 00:35:00.362
mas temos dezenas de milhares
e, por isso, não é escalável.
00:35:00.362 --> 00:35:04.654
Agora, o Wikidata Integrator
também suporta ShEx
00:35:05.168 --> 00:35:07.431
e podemos repetir iterações de itens
00:35:07.431 --> 00:35:11.494
onde dizemos "sim, não", "sim, não"
"verdadeiro, falso", "verdadeiro, falso".
00:35:11.495 --> 00:35:12.495
Então,
00:35:13.065 --> 00:35:16.514
aumentar um pouco a eficiência
ao lidar com os relatórios.
00:35:17.256 --> 00:35:22.662
Mas, agora, isso dificulta
o Wikidata Query Service
00:35:23.181 --> 00:35:24.998
e, recentemente, tivemos estrangulamentos.
00:35:24.999 --> 00:35:26.560
Por isso, novamente, não é escalável.
00:35:26.561 --> 00:35:31.391
É ainda um processo em curso,
o como lidar com modelos na Wikidata.
00:35:32.202 --> 00:35:36.682
E, ShEx é, não só intimidante,
00:35:36.683 --> 00:35:40.356
como a escala é demasiado grande
para lidarmos com ela.
00:35:41.068 --> 00:35:44.781
Então, eu comecei a trabalhar. Esta é
a minha primeira validação do conceito,
00:35:44.781 --> 00:35:47.680
ou exercício,
onde usei uma ferramenta chamada yED.
00:35:48.184 --> 00:35:52.590
Comecei a desenhar aquelas Shape
Expressions e, porque...
00:35:52.591 --> 00:35:58.098
E depois, regenerei este esquema
00:35:58.099 --> 00:36:01.279
no seu formato adjacente
de Shape Expressions.
00:36:01.280 --> 00:36:04.520
Isto iria abrir-se à audiência
00:36:04.521 --> 00:36:07.432
que está intimidada
pelas linguagens Shape Expressions.
00:36:07.961 --> 00:36:12.308
Mas, há um problema
com essas descrições visuais
00:36:12.309 --> 00:36:18.229
porque isto também é um esquema
que foi desenhado em yEd por alguém.
00:36:18.230 --> 00:36:23.838
E aqui está outro,
que é belíssimo.
00:36:23.838 --> 00:36:29.516
Adorava ter isto na minha parede,
mas continua a não ser interoperável.
00:36:30.281 --> 00:36:32.131
Quero acabar a minha palestra com...
00:36:32.131 --> 00:36:35.732
É a primeira vez que...
Tenho roubado e usado este slide.
00:36:35.732 --> 00:36:37.594
É uma honra tê-lo na audiência.
00:36:37.595 --> 00:36:39.423
Gosto realmente disto:
00:36:39.424 --> 00:36:42.362
"As pessoas acham que RDF é chato
porque é complicado.
00:36:42.362 --> 00:36:43.985
A verdade á ainda pior. É tão simples
00:36:45.581 --> 00:36:48.133
porque temos de trabalhar
com problemas do mundo real
00:36:48.134 --> 00:36:50.031
que são horrivelmente complicados.
00:36:50.031 --> 00:36:51.451
Embora possam evitar o RDF,
00:36:51.451 --> 00:36:55.760
é mais difícil evitar dados complicados
e problemas computacionais complicados."
00:36:55.761 --> 00:36:59.535
Isto é acerca de RDF, mas penso
que também pode ser aplicado à modelação.
00:37:00.112 --> 00:37:02.769
Então, o meu argumento é,
devemos realmente...
00:37:03.387 --> 00:37:05.882
Como é que avançamos com a modelação?
00:37:05.882 --> 00:37:10.826
Devemos discutir ShEx
ou modelos visuais, ou...
00:37:11.426 --> 00:37:13.271
Como é que continuamos?
00:37:13.474 --> 00:37:14.840
Muito obrigado pelo vosso tempo.
00:37:15.102 --> 00:37:19.737
(aplausos)
00:37:20.001 --> 00:37:21.188
(Lydia) Muito obrigada.
00:37:21.692 --> 00:37:24.001
Venham para a frente
00:37:24.002 --> 00:37:27.741
para podermos abrir
as questões da audiência.
00:37:28.610 --> 00:37:30.203
Existem questões?
00:37:31.507 --> 00:37:32.507
Sim.
00:37:34.253 --> 00:37:36.890
E, penso...
Para a câmara, precisamos de...
00:37:38.835 --> 00:37:40.968
(Lydia a rir) Sim.
00:37:43.094 --> 00:37:46.273
(Interveniente 1) Uma questão para a
Cristina, penso eu.
00:37:47.366 --> 00:37:51.641
Mencionou, exatamente,
o termo "ganho de informação"
00:37:51.642 --> 00:37:53.689
devido à ligação com outros sistemas.
00:37:53.690 --> 00:37:55.459
Existe uma medida teórica de informação
00:37:55.459 --> 00:37:58.101
que usa estatística e probabilidade
e se chama ganho de informação.
00:37:58.101 --> 00:37:59.541
Tem o mesmo...
00:37:59.542 --> 00:38:01.736
Quero dizer, estava a falar
exatamente dessa medida,
00:38:01.736 --> 00:38:04.173
do ganho de informação
da teoria de probabilidade,
00:38:04.174 --> 00:38:07.020
da teoria de informação,
ou apenas a usar esta entidade conceptual
00:38:07.020 --> 00:38:09.024
para medir o ganho de informação
de alguma forma?
00:38:09.215 --> 00:38:13.276
(Cristina) Não.
Nós definimos e implementamos medidas
00:38:13.695 --> 00:38:20.161
que estão a usar a entropia de Shannon,
por isso, é isso que significa.
00:38:20.162 --> 00:38:22.696
Não queria entrar em detalhes
acerca das fórmulas concretas...
00:38:22.697 --> 00:38:24.977
(Interveniente 1) Não, claro.
Daí a pergunta.
00:38:24.978 --> 00:38:27.128
- (Cristina) Mas sim...
- (Interveniente 1) Obrigado.
00:38:32.681 --> 00:38:35.047
(Interveniente 2) Faço um
comentário, mais que uma questão.
00:38:35.048 --> 00:38:36.241
(Lydia) Força.
00:38:36.242 --> 00:38:39.840
(Interveniente 2) Tem havido
muito ênfase ao nível do item,
00:38:39.840 --> 00:38:42.547
acerca de qualidade e integridade.
00:38:42.547 --> 00:38:44.313
Uma das coisas que me preocupa é
00:38:44.313 --> 00:38:48.784
não estarmos a aplicar o mesmo
às hierarquias e penso que temos a questão
00:38:48.784 --> 00:38:51.480
das nossas hierarquias
não serem boas, com frequência.
00:38:51.481 --> 00:38:53.463
Estamos a ver
que isto vai ser um problema real
00:38:53.464 --> 00:38:55.774
com a pesquisa de Commons e outras coisas.
00:38:56.771 --> 00:39:00.601
Uma das coisas que conseguimos fazer
é importar externa...
00:39:00.602 --> 00:39:04.842
Da forma como os thesaurus externos
estruturam as suas hierarquias,
00:39:04.842 --> 00:39:10.291
usando o qualificador
de conceitos mais geral P4900.
00:39:11.037 --> 00:39:16.167
Mas, o que penso que seria realmente útil,
seriam melhores ferramentas para o fazer
00:39:16.168 --> 00:39:21.212
para que possamos importar uma
hierarquia de thesaurus externa,
00:39:21.212 --> 00:39:24.111
mapeá-la nos nossos itens da Wikidata.
00:39:24.111 --> 00:39:28.199
Uma vez implementada
com esses qualificadores P4900,
00:39:28.200 --> 00:39:31.494
podemos fazer ótimas
consultas através de SPARQL
00:39:32.490 --> 00:39:37.534
para ver onde é que a nossa hierarquia
diverge dessa hierarquia externa.
00:39:37.534 --> 00:39:41.346
Por exemplo, como podem saber,
Paula Morma, o utilizador PKM
00:39:41.346 --> 00:39:43.533
faz muito trabalho em moda.
00:39:43.533 --> 00:39:46.704
Por isso, usamos isso para puxar
00:39:46.704 --> 00:39:50.524
a hierarquia
do Thesaurus Europeana Fashion
00:39:50.524 --> 00:39:53.812
e a hierarquia do thesauros de moda
Getty AAT.
00:39:53.812 --> 00:39:57.957
Depois, vemos onde as lacunas
estavam nos nossos itens de alto nível,
00:39:57.957 --> 00:40:00.511
que são um problema real para nós
porque, com frequência,
00:40:00.511 --> 00:40:04.355
estas são coisas que só existem
como páginas de desambiguação na Wikipedia
00:40:04.356 --> 00:40:06.991
e, por isso,
temos muitos itens de alto nível
00:40:06.991 --> 00:40:09.271
a faltar nas nossas hierarquias.
00:40:09.271 --> 00:40:14.480
Isto é algo que precisamos de abordar
em termos de qualidade e de integridade.
00:40:14.480 --> 00:40:15.971
O que realmente ajudaria
00:40:16.643 --> 00:40:20.871
seriam melhores ferramentas
que a selva de scripts que escrevi.
00:40:20.872 --> 00:40:26.010
Se alguém pudesse pôr isso
num bloco de notas PAWS em Python,
00:40:26.561 --> 00:40:31.972
ser capaz de receber um thesaurus
externo, pegar na sua hierarquia,
00:40:31.973 --> 00:40:35.025
a qual pode muito bem estar disponível
como dados ligados, ou pode não estar,
00:40:35.379 --> 00:40:37.837
para depois transferi-lo para
declarações rápidas
00:40:37.837 --> 00:40:41.165
para pôr em valores P4900.
00:40:41.165 --> 00:40:42.165
E, mais tarde,
00:40:42.166 --> 00:40:47.007
quando a nossa representação
ficar mais completa, atualizar os P4900s.
00:40:47.007 --> 00:40:51.101
Porque, à medida que a nossa representação
fica ultrapassada, fica mais densa.
00:40:51.590 --> 00:40:55.377
Os valores desses qualificadores
precisam de mudar
00:40:56.230 --> 00:40:59.526
para representar que temos mais
da sua hierarquia no nosso sistema.
00:40:59.526 --> 00:41:03.728
Se alguém pudesse fazer isso,
penso que seria muito útil.
00:41:04.068 --> 00:41:07.121
Também precisamos
de olhar para outras estratégias
00:41:07.122 --> 00:41:10.762
para aumentar a qualidade
e a integridade ao nível da hierarquia,
00:41:10.763 --> 00:41:12.378
não só ao nível do item.
00:41:13.308 --> 00:41:14.840
(Andra) Posso acrescentar algo?
00:41:16.362 --> 00:41:19.901
Sim. E, na realidade, fazemos isso.
00:41:19.911 --> 00:41:23.551
Posso recomendar olhar
para a Shape Expression que o Finn fez
00:41:23.552 --> 00:41:27.330
com os dados léxicos
onde ele cria Shape Expressions
00:41:27.330 --> 00:41:29.640
e depois desenvolve
sobre outras Shape Expressions.
00:41:29.641 --> 00:41:32.528
Têm este conceito
de Shape Expressions ligadas na Wikidata
00:41:32.529 --> 00:41:35.005
e, especificamente, o caso de uso,
se entendi bem,
00:41:35.006 --> 00:41:37.183
é exatamente o que estamos a fazer
na Gene Wiki.
00:41:37.184 --> 00:41:40.841
Têm a Disease Ontology
que é posta na Wikidata
00:41:40.842 --> 00:41:44.681
e, depois, dados de doenças entram
e aplicamos Shape Expressions
00:41:44.682 --> 00:41:47.247
para ver se encaixam com este thesaurus.
00:41:47.248 --> 00:41:50.719
Existem outros thesaurus, ou outras
ontologias, para vocabulários controlados
00:41:50.719 --> 00:41:52.619
que ainda precisam
de ser inseridos na Wikidata.
00:41:52.619 --> 00:41:55.401
E é exatamente por isso que
o Shape Expressions é tão interessante.
00:41:55.402 --> 00:41:57.963
Porque podemos ter uma Shape Expression
para a Disease Ontology,
00:41:57.964 --> 00:41:59.644
uma Shape Expression para o MeSH.
00:41:59.645 --> 00:42:01.761
Pode dizer: "Agora
quero verificar a qualidade."
00:42:01.762 --> 00:42:04.059
Porque também tem,
na Wikidata, o contexto
00:42:04.060 --> 00:42:06.246
de quando tem um vocabulário controlado.
00:42:06.756 --> 00:42:09.568
Diz que a qualidade
está de acordo com isto
00:42:09.568 --> 00:42:11.636
mas pode ter uma
comunidade discordante.
00:42:11.636 --> 00:42:13.720
Por isso, as ferramentas
já estão implementadas,
00:42:13.720 --> 00:42:16.082
mas, agora, precisamos
de criar esses modelos
00:42:16.082 --> 00:42:18.144
e aplicá-los
aos diferentes casos de uso.
00:42:18.811 --> 00:42:20.921
(Interveniente 2)
Uma Shape Expression é muito útil
00:42:20.922 --> 00:42:25.928
logo que tenha a ontologia externa
mapeada na Wikidata.
00:42:25.929 --> 00:42:29.474
Mas, o meu problema é que
está a chegar aquele ponto.
00:42:29.475 --> 00:42:34.881
Que é perceber quanto da ontologia externa
não está ainda na Wikidata
00:42:34.882 --> 00:42:36.256
e onde estão as lacunas.
00:42:36.257 --> 00:42:40.660
É aí que penso que
ter ferramentas mais robustas
00:42:40.660 --> 00:42:44.286
para ver o que está em falta
de ontologias externas
00:42:44.286 --> 00:42:45.537
seria muito útil.
00:42:47.348 --> 00:42:49.062
(Andra) O maior problema aqui
00:42:49.062 --> 00:42:51.201
é, não tanto as ferramentas,
mas mais o licenciamento.
00:42:51.803 --> 00:42:55.249
Pôr as ontologias na Wikidata
é, na realidade, muito fácil.
00:42:55.250 --> 00:42:59.295
Mas, a maioria das ontologias têm,
como é que o posso dizer educadamente,
00:42:59.965 --> 00:43:03.256
licenciamento restritivo e, por isso,
não são compatíveis com a Wikidata.
00:43:03.778 --> 00:43:06.678
(Interveniente 2) Existe um enorme número
de thesaurus do setor público
00:43:06.678 --> 00:43:08.129
em setores culturais.
00:43:08.129 --> 00:43:10.911
- (Andra) Então precisamos de falar.
- (Interveniente 2) Sem problema.
00:43:10.911 --> 00:43:12.384
(Andra) Então, precisamos de falar.
00:43:13.624 --> 00:43:16.362
(Interveniente 3) O comentário
que quero fazer
00:43:16.362 --> 00:43:19.192
é uma resposta para o James.
00:43:19.822 --> 00:43:22.401
O que acontece é que
hierarquias fazem gráficos
00:43:22.374 --> 00:43:24.041
e quando queremos...
00:43:24.429 --> 00:43:28.888
Quero falar acerca de um
problema comum em hierarquias,
00:43:28.889 --> 00:43:30.820
que são hierarquias circulares.
00:43:30.821 --> 00:43:33.796
Elas voltam umas às outras
quando há um problema.
00:43:33.796 --> 00:43:35.920
Não devíamos ter isso com hierarquias.
00:43:37.022 --> 00:43:41.295
É engraçado que isto
acontece muito em categorias na Wikipedia.
00:43:41.295 --> 00:43:42.990
Temos muitos círculos em categorias.
00:43:43.898 --> 00:43:46.612
Mas, a boa notícia é que...
00:43:47.713 --> 00:43:51.582
Tecnicamente, é um problema completo PMP,
por isso não o conseguimos encontrar,
00:43:51.583 --> 00:43:53.804
e facilmente, se construirmos
um gráfico a partir disso,
00:43:54.473 --> 00:43:57.046
mas há muitas formas
que foram desenvolvidas
00:43:57.047 --> 00:44:00.624
para encontrar problemas
nestes gráficos de hierarquia.
00:44:00.625 --> 00:44:04.860
Existe um artigo
chamado Finding Cycles...
00:44:04.861 --> 00:44:07.955
Breaking Cycles in Noisy Hierachies.
00:44:07.956 --> 00:44:12.671
Tem sido usado para ajudar
na classificação da Wikipedia inglesa.
00:44:12.672 --> 00:44:17.141
Podemos pegar nisto
e aplicar estas hierarquias na Wikidata
00:44:17.142 --> 00:44:19.540
e, depois, podemos encontrar
coisas que são problemáticas
00:44:19.541 --> 00:44:22.481
e remover as que estão
a causar problemas.
00:44:22.482 --> 00:44:24.593
E encontrar os problemas, na realidade.
00:44:25.594 --> 00:44:27.960
Isto é só uma ideia, para que...
00:44:28.660 --> 00:44:31.380
(Interveniente 2) Está tudo muito bem,
mas acho que está a subestimar
00:44:31.380 --> 00:44:35.403
o número de más relações de subclasse
que nós temos.
00:44:35.403 --> 00:44:39.680
É como ter uma cidade
que está completamente no país errado.
00:44:40.250 --> 00:44:44.884
Existem ferramentas para geografia,
para identificar isso.
00:44:45.375 --> 00:44:49.202
Precisamos de ter
muito melhores ferramentas em hierarquias
00:44:49.202 --> 00:44:53.477
para identificar onde o equivalente
do item para o país
00:44:53.478 --> 00:44:57.673
esteja a faltar completamente
ou se foi subclassificado
00:44:57.674 --> 00:45:01.804
como algo que não signifique
algo completamente diferente.
00:45:02.804 --> 00:45:07.165
(Lydia) Sim, penso
que está a chegar a algo
00:45:07.166 --> 00:45:12.024
que eu e a minha equipa ouvimos sempre
de pessoas que reutilizam os nossos dados.
00:45:12.025 --> 00:45:13.991
Com frequência, também.
00:45:15.002 --> 00:45:16.638
Dados pontuais podem ser ótimos,
00:45:16.639 --> 00:45:20.163
mas, se temos de olhar
para a ontologia, etc,
00:45:20.164 --> 00:45:21.857
torna-se muito...
00:45:22.388 --> 00:45:26.437
Penso que um dos grandes problems
que causa isto
00:45:26.437 --> 00:45:30.736
é que muita da edição na Wikidata
00:45:30.740 --> 00:45:34.545
acontece baseada
num item individual, não é?
00:45:34.545 --> 00:45:36.201
Fazemos uma edição nesse item
00:45:37.653 --> 00:45:42.075
sem nos darmos conta que isto
pode ter consequências globais
00:45:42.075 --> 00:45:44.245
no resto do gráfico, por exemplo.
00:45:44.245 --> 00:45:50.040
E, se as pessoas têm ideias
sobre como tornar isto mais visível,
00:45:50.041 --> 00:45:53.185
as consequências de uma
edição local individual,
00:45:54.005 --> 00:45:56.537
penso que seria útil explorá-lo.
00:45:57.550 --> 00:46:01.583
Para melhor mostrar às pessoas
as consequências das suas edições,
00:46:01.584 --> 00:46:03.434
que elas podem estar a fazer de boa fé,
00:46:04.481 --> 00:46:05.481
quais são elas.
00:46:07.619 --> 00:46:12.237
(Risos) Muito bem. Vamos começar consigo,
depois você, depois você e depois você.
00:46:12.237 --> 00:46:13.921
(Interveniente 3) Bem, depois do debate,
00:46:13.922 --> 00:46:18.262
só para exprimir a minha concordância
com o que o James estava a dizer.
00:46:18.263 --> 00:46:22.417
Essencialmente, parece
que a coisa mais perigosa é a hierarquia.
00:46:22.417 --> 00:46:23.950
Não a hierarquia, mas, de forma geral,
00:46:23.950 --> 00:46:28.022
a semântica das relações de subclasse
vistas na Wikidata, certo?
00:46:28.022 --> 00:46:32.561
Estive a estudar linguagens recentemente,
apenas para esta conferência
00:46:32.562 --> 00:46:35.257
e, por exemplo, encontram-se muitos casos
00:46:35.257 --> 00:46:39.463
onde a linguagem é parte de
e uma subclasse da mesma coisa.
00:46:39.923 --> 00:46:43.577
Podemos dizer que temos
uma ontologia flexível.
00:46:43.577 --> 00:46:46.256
A Wikidata dá-nos a liberdade
de exprimir isso, por vezes.
00:46:46.256 --> 00:46:47.257
Porque, por exemplo
00:46:47.258 --> 00:46:50.721
essa ontologia de linguagens
é também politicamente complicada, certo?
00:46:50.722 --> 00:46:55.038
É bom estar numa posição que nos permita
expressar um nível de incerteza.
00:46:55.038 --> 00:46:57.983
Mas imaginem alguém a querer
fazer leitura ótica a partir disso.
00:46:57.984 --> 00:46:59.468
É mesmo problemático.
00:46:59.468 --> 00:47:00.468
E, depois,
00:47:00.469 --> 00:47:03.686
não penso que a ontologia
seja algo que foi importada de algures,
00:47:03.687 --> 00:47:05.490
é algo que é originalmente nosso.
00:47:05.491 --> 00:47:08.321
Diria que foi colhida da Wikipedia
mesmo no início.
00:47:08.322 --> 00:47:11.324
Por isso pergunto-me... Esta
coisa do Shape Expressions é ótima,
00:47:11.325 --> 00:47:15.575
e também validadora e reparadora.
A ontologia da Wikidata
00:47:15.576 --> 00:47:18.191
a partir de recursos externos
é uma bela ideia.
00:47:18.886 --> 00:47:19.906
No final,
00:47:19.906 --> 00:47:25.440
acabaremos por refletir
as ontologias externas na Wikidata?
00:47:25.441 --> 00:47:28.651
E também, o que fazemos
com a parte central da nossa ontologia
00:47:28.652 --> 00:47:30.642
que nunca é colhida
a partir de recursos externos.
00:47:30.643 --> 00:47:31.978
Como é que solucionamos isso?
00:47:31.979 --> 00:47:35.276
Penso, realmente, que isso
será um problema por si só.
00:47:35.277 --> 00:47:39.010
Teremos de nos focar nisso
independentemente da ideia
00:47:39.010 --> 00:47:41.191
de validar a ontologia com algo externo.
00:47:42.642 --> 00:47:44.722
(Lydia aponta para a audiência)
00:47:49.353 --> 00:47:53.379
(Interveniente 4) Restrições e formas
são muito impressionantes,
00:47:53.380 --> 00:47:55.185
aquilo que podemos fazer com elas,
00:47:55.205 --> 00:47:58.481
mas o ponto principal
não está claro.
00:47:58.482 --> 00:48:03.229
Porque agora podemos tornar mais explícito
o que esperamos dos dados.
00:48:03.229 --> 00:48:06.893
Antes, cada um tinha de escrever
as suas próprias ferramentas e scripts.
00:48:06.894 --> 00:48:10.601
Por isso, é mais visível
e podemos discuti-lo.
00:48:10.602 --> 00:48:13.641
Mas porque não é sobre
o que está errado ou certo,
00:48:13.642 --> 00:48:15.870
é acerca de uma expectativa.
00:48:15.870 --> 00:48:18.105
Vocês terão
diferentes expectativas e debates
00:48:18.106 --> 00:48:20.737
acerca de como queremos
modelar as coisas na Wikidata
00:48:21.246 --> 00:48:23.095
e isto...
00:48:23.096 --> 00:48:26.280
O estado atual é apenas
um passo na direção
00:48:26.281 --> 00:48:28.041
porque agora precisamos
00:48:28.042 --> 00:48:31.041
de muito conhecimento especializado
para lidarmos com isto.
00:48:31.042 --> 00:48:35.721
Precisamos de formas melhores
de visualizar esta restrição,
00:48:35.722 --> 00:48:38.259
para a transformar,
porventura em linguagem natural,
00:48:38.259 --> 00:48:40.939
para que as pessoas
melhor a possam entender.
00:48:40.939 --> 00:48:43.768
Mas não é tanto
acerca do errado ou do certo.
00:48:44.925 --> 00:48:45.925
(Lydia) Sim.
00:48:50.986 --> 00:48:53.893
(Interveniente 5) Para questões
de qualidade, só quero fazer eco...
00:48:53.894 --> 00:48:57.010
Definitivamente, encontrei muitos
dos problemas. Encontrei...
00:48:58.838 --> 00:49:02.330
diferenças de opinião
entre "instâncias de" versus "subclasse".
00:49:02.331 --> 00:49:05.963
Diria, erros, nestas situações.
00:49:05.963 --> 00:49:11.521
E tentar encontrá-los
tem sido um processo moroso.
00:49:11.522 --> 00:49:14.840
O que encontrei foi:
"Se eu encontrar itens de grande impressão
00:49:14.840 --> 00:49:16.051
que são algo...
00:49:16.052 --> 00:49:18.762
e depois usar
todas as instâncias das subclasses
00:49:18.762 --> 00:49:21.628
para encontrar
todas as declarações derivadas disto."
00:49:21.628 --> 00:49:26.215
Esta é uma forma muito útil
de olhar para estes erros.
00:49:26.215 --> 00:49:28.567
Mas eu estava curioso para saber
se o Shape Expressions...
00:49:29.841 --> 00:49:31.582
se há...
00:49:31.583 --> 00:49:35.355
Se isto pode ser usado como ferramenta
para ajudar a resolver estas questões.
00:49:35.355 --> 00:49:37.074
Mas sim...
00:49:40.514 --> 00:49:42.925
(Interveniente 6) Se tem
uma pegada estrutural...
00:49:45.910 --> 00:49:49.310
Se tem uma pegada estrutural
que podemos... que seja falsificável.
00:49:49.310 --> 00:49:51.191
Podemos olhar para isso
e dizer: "Está errado."
00:49:51.192 --> 00:49:52.670
Então sim, podemos fazer isso.
00:49:52.671 --> 00:49:56.921
Mas se for só tentar mapeá-lo
para objetos do mundo real
00:49:56.922 --> 00:49:59.082
então vai precisar
de muitos cérebros.
00:50:05.768 --> 00:50:08.631
(Interveniente 7) Olá. Pablo Mendes
do Siri Knowledge da Apple.
00:50:09.154 --> 00:50:12.770
Estamos aqui para descobrir como ajudar
o projeto e a comunidade,
00:50:12.770 --> 00:50:15.645
mas a Cristina cometeu o erro
de perguntar o que queríamos.
00:50:16.471 --> 00:50:20.052
(risos) Por isso, penso
que uma das coisas que gostaria de ver
00:50:20.958 --> 00:50:23.521
gira à volta da verificabilidade,
00:50:23.522 --> 00:50:26.372
que é um dos princípios chave
do projeto na comunidade.
00:50:27.062 --> 00:50:28.590
E confiabilidade.
00:50:28.590 --> 00:50:32.412
Nem todas as declarações são iguais,
algumas são fortemente disputadas,
00:50:32.413 --> 00:50:33.653
outras são fáceis de adivinhar.
00:50:33.654 --> 00:50:35.924
A data de nascimento de alguém
pode ser verificada,
00:50:35.924 --> 00:50:39.082
como viram hoje na Keynote,
questões de género são mais complicadas.
00:50:40.205 --> 00:50:42.130
Podem discutir um pouco do que sabem
00:50:42.131 --> 00:50:47.271
nesta área de qualidade de dados, acerca
de confiabilidade e de verificabilidade?
00:50:51.186 --> 00:50:52.936
(risos)
00:50:55.442 --> 00:50:58.138
Se não há muito,
gostaria de ver muito mais. (risos)
00:51:00.646 --> 00:51:01.646
(Lydia) Sim.
00:51:03.734 --> 00:51:06.968
Aparentemente, não temos muito a dizer
acerca disso. (risos)
00:51:08.754 --> 00:51:12.299
(Andra) Penso que podemos fazer muito,
mas tive uma discussão consigo ontem.
00:51:12.300 --> 00:51:15.774
O meu exemplo preferido que, soube ontem,
foi descontinuado,
00:51:15.774 --> 00:51:20.281
é, se forem ao Q2, que é Terra,
00:51:20.282 --> 00:51:23.343
existe uma declaração
que reivindica que a Terra é plana.
00:51:24.183 --> 00:51:26.055
Adoro esse exemplo
00:51:26.056 --> 00:51:28.391
porque há uma comunidade
por aí que afirma isso
00:51:28.392 --> 00:51:30.417
e eles têm recursos verificáveis.
00:51:30.418 --> 00:51:32.254
Por isso, penso que seja um caso genuíno.
00:51:32.255 --> 00:51:34.641
Não deve ser descontinuado,
deve estar na Wikidata.
00:51:34.642 --> 00:51:40.385
E penso que o Shape Expressions
pode ser fundamental aqui,
00:51:40.386 --> 00:51:41.832
porque podem dizer:
00:51:41.833 --> 00:51:44.856
"Sim, estou mesmo interessado
neste caso de uso",
00:51:44.857 --> 00:51:47.129
ou que este é um caso de uso
com o qual não concordam.
00:51:47.130 --> 00:51:51.059
Mas também pode haver um caso de uso
onde dizem: "Estou interessado."
00:51:51.059 --> 00:51:53.449
Há este exemplo. Dizem:
"Tenho glucose."
00:51:53.449 --> 00:51:55.841
E a glucose, se forem um biólogo,
00:51:55.842 --> 00:52:00.176
As restrições químicas
da molécula de glucose não vos interessam,
00:52:00.177 --> 00:52:03.201
apenas... tudo o que seja
glucose é o mesmo.
00:52:03.202 --> 00:52:05.973
Mas, se forem um químico,
arrepiam-se ao ouvir isso.
00:52:05.973 --> 00:52:08.191
Têm 200 e tal...
00:52:08.191 --> 00:52:10.443
Depois, podem ter
Shape Expressions múltiplas.
00:52:10.443 --> 00:52:12.721
Vou entrar com...
Estou no ponto de vista de um químico,
00:52:12.722 --> 00:52:13.887
vou aplicar isso.
00:52:13.887 --> 00:52:16.691
E depois, dizem,
"sou um caso de uso de um biólogo",
00:52:16.691 --> 00:52:18.524
e aplicam essa Shape Expression.
00:52:18.524 --> 00:52:20.358
E, quando quiserem colaborar,
00:52:20.358 --> 00:52:22.784
deviam falar com o Eric acerca
dos mapas ShEx.
00:52:24.930 --> 00:52:28.873
Esta jornada está apenas a começar.
00:52:28.873 --> 00:52:32.238
Mas acredito que seja muito
instrumental nessa área.
00:52:34.292 --> 00:52:35.535
(Lydia) Ali.
00:52:37.949 --> 00:52:39.168
(risos)
00:52:40.597 --> 00:52:46.035
(Interveniente 8) Tive várias ideias
para alguns pontos na discussão,
00:52:46.035 --> 00:52:50.902
por isso, vou tentar não perder...
Tive três ideias, por isso...
00:52:52.394 --> 00:52:55.201
Baseado no que o James disse há pouco,
00:52:55.202 --> 00:52:59.001
temos um grande problema
na Wikidata desde o início
00:52:59.002 --> 00:53:01.574
para a ontologia superior.
00:53:02.363 --> 00:53:05.339
Falámos acerca disso
há dois anos na WikidataCon
00:53:05.340 --> 00:53:07.432
e falámos acerca disso na Wikimania.
00:53:07.432 --> 00:53:09.818
Sempre que temos um encontro da Wikidata
00:53:09.818 --> 00:53:11.656
estamos a falar sobre isso.
00:53:11.656 --> 00:53:15.782
Porque é um grande problema
que está muito visível:
00:53:15.783 --> 00:53:23.118
que entidade é, com que trabalho é,
que género é, arte,
00:53:23.118 --> 00:53:25.461
são realmente o maior conceito.
00:53:26.195 --> 00:53:33.117
E isso é um ponto muito fraco
na ontologia global
00:53:33.118 --> 00:53:37.453
porque as pessoas
tentam fazer limpezas regularmente
00:53:38.017 --> 00:53:41.047
e quebram tudo o que está a montante.
00:53:42.516 --> 00:53:48.649
Penso que alguns de vocês
se devem lembrar do tipo que, em boa-fé,
00:53:48.649 --> 00:53:51.785
quebrou todas as cidades do mundo.
00:53:51.785 --> 00:53:57.537
Já não eram itens geográficos. Por isso,
violações de restrições por todo o lado.
00:53:58.720 --> 00:54:00.278
E foi feito em boa fé,
00:54:00.278 --> 00:54:03.623
porque ele estava a corrigir
um erro num item,
00:54:04.170 --> 00:54:05.732
mas quebrou tudo.
00:54:06.349 --> 00:54:09.373
Não tenho a certeza de como
podemos resolver isso
00:54:10.216 --> 00:54:15.709
porque não há, atualmente, nenhuma
instituição externa que possamos copiar
00:54:15.710 --> 00:54:18.490
porque toda a gente está a trabalhar em...
00:54:19.154 --> 00:54:22.041
Se eu for base de dados
de artes performativas
00:54:22.042 --> 00:54:24.601
limito-me a ir
à etiqueta de artes performativas
00:54:24.601 --> 00:54:29.361
ou não irei ao conceito filosófico
do que é aquela entidade
00:54:29.362 --> 00:54:31.201
e isso é, na realidade...
00:54:31.202 --> 00:54:34.561
Não conheço nenhuma base de dados
que esteja a trabalhar a este nível,
00:54:34.562 --> 00:54:36.827
mas esse é o ponto mais fraco da Wikidata.
00:54:37.936 --> 00:54:40.812
E, provavelmente, quando falamos
de qualidade de dados,
00:54:40.812 --> 00:54:44.034
isso é uma grande parte, por isso...
00:54:44.034 --> 00:54:48.569
Penso que é o mesmo
que afirmamos em...
00:54:48.569 --> 00:54:50.452
Desculpem, estou a mudar de assunto,
00:54:51.401 --> 00:54:55.774
mas afirmámos, em diferentes sessões
acerca de qualidade,
00:54:55.774 --> 00:54:59.398
que alguns de nós estão a fazer
um bom trabalho de modelação,
00:54:59.399 --> 00:55:01.580
estamos a fazer ShEx,
estamos a fazer coisas como essa.
00:55:01.580 --> 00:55:07.655
As pessoas não o veem na Wikidata,
não veem o ShEx,
00:55:07.655 --> 00:55:10.392
não veem o WikiProject
na página de discussão
00:55:10.393 --> 00:55:14.958
e, por vezes,
nem veem a página de topo das propriedades
00:55:14.958 --> 00:55:19.628
que diz, explicitamente:
a) Esta propriedade é usada para isto.
00:55:19.628 --> 00:55:23.887
Como na semana passada.
Eu adicionei restrições a uma propriedade.
00:55:23.888 --> 00:55:28.690
A restrição estava escrita explicitamente
na discussão da criação da propriedade.
00:55:28.690 --> 00:55:34.548
Eu criei apenas a parte técnica
de adicionar a restrição, e alguém:
00:55:34.548 --> 00:55:37.182
"O quê? Quebraste
todas as minhas edições!"
00:55:37.183 --> 00:55:41.542
Ele esteve a usar a propriedade
erradamente nos útlimos dois anos.
00:55:41.542 --> 00:55:46.868
A propriedade era bastante clara,
mas não havia avisos.
00:55:46.869 --> 00:55:48.872
É o mesmo no Pink Pony.
00:55:48.872 --> 00:55:52.082
Dissemos, na Wikimedia que deviamos
tornar o WikiProject mais visível
00:55:52.082 --> 00:55:54.719
ou tornar o ShEx mais visível, mas...
00:55:54.719 --> 00:55:56.917
E isso foi o que a Cristina disse.
00:55:56.917 --> 00:56:02.368
Temos um problema de visibilidade,
do que são as soluções.
00:56:02.368 --> 00:56:04.242
E, nesta sessão,
00:56:04.242 --> 00:56:06.862
estamos todos a falar acerca
de como criar mais ShEx,
00:56:06.863 --> 00:56:10.727
ou de facilitar o trabalho
das pessoas que estão a fazer a limpeza.
00:56:11.605 --> 00:56:15.835
Mas, estamos a limpar
desde o primeiro dia da Wikidata
00:56:15.836 --> 00:56:18.223
e, globalmente, estamos a perder.
00:56:19.123 --> 00:56:22.960
Estamos a perder porque,
se eu sei que os nomes são complicados,
00:56:22.961 --> 00:56:26.162
mas eu sou a única a fazer
o trabalho de limpeza...
00:56:26.662 --> 00:56:29.671
A pessoa que adicionou
nome de script em Latim
00:56:29.672 --> 00:56:31.584
a todos os investigadores chineses.
00:56:32.088 --> 00:56:35.616
Vou demorar meses a limpar isso
e não o posso fazer sozinha.
00:56:35.616 --> 00:56:38.777
E ele fez um lote maciço.
00:56:38.777 --> 00:56:40.241
Por isso, precisamos realmente...
00:56:40.242 --> 00:56:44.158
Temos um problema de visibilidade
mais do que um problema de ferramentas,
00:56:44.158 --> 00:56:45.733
porque temos muitas ferramentas.
00:56:45.733 --> 00:56:50.255
(Lydia) Bem, infelizmente
mostraram-me um sinal. (risos)
00:56:50.256 --> 00:56:52.001
Por isso, precisamos de terminar.
00:56:52.001 --> 00:56:53.603
Muito obrigada pelos vossos comentários.
00:56:53.603 --> 00:56:56.611
Espero que continuem a debater
durante o resto do dia.
00:56:56.611 --> 00:56:58.020
Obrigada pelo vosso contributo.
00:56:58.359 --> 00:57:03.444
(aplausos)