0:00:05.945,0:00:09.476
Olá a todos,[br]ao painel de Qualidade de Dados.
0:00:10.198,0:00:13.671
A qualidade dos dados é importante porque[br]cada vez mais pessoas
0:00:13.672,0:00:16.229
dependem do bom estado dos nossos dados.
0:00:16.229,0:00:20.029
Assim, vamos falar da qualidade dos dados.
0:00:22.469,0:00:26.643
Haverão quatro oradores que farão[br]breves introduções acerca de tópicos
0:00:26.643,0:00:29.720
relacionados com qualidade de dados.[br]Depois, responderemos a perguntas.
0:00:30.130,0:00:32.234
O primeiro é o Lucas.
0:00:34.385,0:00:35.385
Obrigado.
0:00:35.901,0:00:39.899
Olá. O meu nome é Lucas e vou começar[br]com uma síntese
0:00:39.899,0:00:43.806
das ferramentas de qualidade de dados[br]que já existem na Wikidata
0:00:43.807,0:00:46.109
e também de algumas coisas[br]que teremos em breve.
0:00:48.452,0:00:50.623
Agrupei-as em temas gerais
0:00:50.623,0:00:53.761
que são a maior visibilidade dos erros,[br]tornar os problemas accionáveis,
0:00:53.762,0:00:56.932
obter mais visibilidade sobre os dados[br]para que mais pessoas notem os problemas,
0:00:56.945,0:01:02.616
corrigir algumas fontes comuns de erros,[br]manter a qualidade dos dados existentes
0:01:02.616,0:01:03.966
e também a curadoria humana.
0:01:05.063,0:01:10.104
As que estão atualmente disponíveis[br]começam com as restrições de propriedades.
0:01:10.104,0:01:12.421
Já o devem ter visto se usam a Wikidata.
0:01:12.422,0:01:14.029
Podem, por vezes, obter estes ícones
0:01:14.530,0:01:17.241
que verificam[br]a consistência interna dos dados.
0:01:17.242,0:01:20.800
Por exemplo, [br]se um evento se seguir a outro,
0:01:20.801,0:01:23.760
então a este último deve seguir-se este.
0:01:23.761,0:01:27.161
O que estava aparentemente em falta[br]no item WikidataCon.
0:01:27.162,0:01:29.810
Não tenho a certeza, esta funcionalidade[br]existe há apenas uns dias.
0:01:30.040,0:01:34.681
Também existe... Se isto for [br]demasiado simples ou condicionante,
0:01:34.682,0:01:38.080
podem escrever quaisquer verificações[br]que queiram usando o Query Service
0:01:38.081,0:01:39.842
que é útil para várias coisas,
0:01:39.843,0:01:44.543
mas também pode ser usado[br]para encontrar erros.
0:01:44.544,0:01:46.974
Por exemplo, se descobrirem[br]uma ocorrência de um erro,
0:01:46.975,0:01:49.709
podem verificar se existem outros locais
0:01:49.710,0:01:51.958
onde as pessoas tenham feito[br]um erro parecido
0:01:51.958,0:01:53.438
e descobri-lo com o Query Service.
0:01:53.439,0:01:57.875
Também podem combinar os dois e procurar[br]violações de restrições no Query Service,
0:01:57.875,0:02:01.240
como por exemplo,[br]apenas violações que ocorram numa área
0:02:01.241,0:02:03.762
ou WikiProject que seja[br]relevantes para vocês.
0:02:03.762,0:02:06.828
Embora, atualmente, os resultados [br]não estejam completos. Infelizmente.
0:02:08.422,0:02:09.877
Existe a avaliação de revisões.
0:02:10.690,0:02:12.666
Penso que seja parte[br]das alterações recentes.
0:02:12.667,0:02:16.217
Podem também adicioná-la à vossa lista[br]de visualização: uma avaliação automática
0:02:16.217,0:02:20.249
da probabilidade desta edição[br]ter sido feita em boa ou má-fé
0:02:20.250,0:02:22.312
e da probabilidade de causar ou não danos.
0:02:22.313,0:02:24.205
Penso que sejam essas as duas dimensões.
0:02:24.206,0:02:25.686
Podem, se quiserem,
0:02:25.687,0:02:29.898
concentrar a busca apenas[br]nas edições danosas mas feitas com boa-fé.
0:02:29.899,0:02:32.523
Se se estiverem a sentir particularmente[br]amigáveis e acolhedores
0:02:32.524,0:02:37.121
podem dizer a estes editores:[br]"Obrigado pela contribuição.
0:02:37.122,0:02:40.560
Deviam tê-la feito desta maneira,[br]mas obrigado de qualquer forma."
0:02:40.561,0:02:42.186
E, se não estiverem com essa disposição,
0:02:42.187,0:02:44.452
podem rever as edições [br]danosas feitas com má-fé
0:02:44.453,0:02:45.573
e reverter o vandalismo.
0:02:47.544,0:02:49.761
Existe também algo semelhante: [br]avaliação de entidades.
0:02:49.762,0:02:52.590
Em vez de classificar uma edição,[br]a alteração que foi feita,
0:02:52.591,0:02:53.904
vão classificar toda a revisão.
0:02:53.904,0:02:56.483
Penso que seja a mesma medida de qualidade
0:02:56.483,0:02:59.863
mencionada pela Lydia[br]no início da conferência.
0:03:00.372,0:03:04.569
Isto fornece um script de utilizador aqui[br]em cima e uma pontuação de um a cinco,
0:03:04.570,0:03:08.176
penso eu, da qualidade do item corrente.
0:03:10.043,0:03:15.528
A ferramenta de fontes primárias é para[br]bases de dados que queiram importar,
0:03:15.528,0:03:18.414
mas que não têm qualidade suficiente[br]para entrar diretamente na Wikidata.
0:03:18.414,0:03:21.085
Ao invés, adicionam-nas à ferramenta[br]de fontes primárias e, depois,
0:03:21.085,0:03:22.956
as pessoas podem decidir
0:03:22.956,0:03:26.024
se devem adicionar[br]estas declarações individuais ou não.
0:03:28.595,0:03:31.607
Mostrar coordenadas como mapas: [br]é uma funcionalidade conveniente
0:03:31.607,0:03:33.588
mas também é útil[br]para controlo de qualidade.
0:03:33.588,0:03:36.937
Por exemplo, se virem que isto devia ser[br]o escritório da Wikimedia na Alemanha
0:03:36.938,0:03:39.400
e as coordenadas forem algures[br]no Oceano Índico,
0:03:39.401,0:03:41.529
saberão que algo está errado, aqui.
0:03:41.530,0:03:44.790
E podem vê-lo mais facilmente[br]do que se tivessem apenas os números.
0:03:46.382,0:03:49.576
Esta é uma engenhoca chamada[br]indicador de integridade relativa,
0:03:49.577,0:03:52.480
que apresenta este pequeno ícone
0:03:53.007,0:03:55.419
que vos mostra o quão completo[br]pensa que este item está
0:03:55.419,0:03:57.672
e que propriedades[br]é mais provável que estejam em falta.
0:03:57.672,0:03:59.769
O que é muito útil [br]se estiverem a editar um item,
0:03:59.769,0:04:03.172
estiverem numa área com a qual[br]não estejam muito familiarizados
0:04:03.172,0:04:05.661
e não saibam quais são[br]as propriedades certas a usar.
0:04:05.662,0:04:08.230
Nesse caso, esta é[br]uma miniaplicação muito útil.
0:04:09.604,0:04:11.401
Temos o Shape Expressions.
0:04:11.402,0:04:15.624
Penso que a Andra ou o Jose[br]vão falar mais sobre elas
0:04:15.624,0:04:19.757
mas são uma forma muito poderosa[br]de comparar os dados que têm
0:04:19.758,0:04:20.758
com o esquema.
0:04:20.759,0:04:22.680
Como, que declaração devem ter[br]certas entidades,
0:04:22.681,0:04:25.677
a que outras entidades devem estar ligadas[br]e como essas devem ser.
0:04:26.229,0:04:29.374
Podem detetar problemas dessa forma.
0:04:30.366,0:04:32.361
Penso que... Não. Ainda há mais.
0:04:32.362,0:04:34.321
O Integraality ou painel de propriedades.
0:04:34.322,0:04:36.773
Dá-vos uma visão geral[br]dos dados já existentes.
0:04:36.774,0:04:39.147
Por exemplo, isto é do[br]WikiProject Red Pandas.
0:04:39.657,0:04:41.681
Podem ver que temos[br]um sexo ou género
0:04:41.682,0:04:43.561
para quase todos os pandas-vermelhos.
0:04:43.561,0:04:46.854
A data de nascimento varia bastante[br]consoante o zoo de onde vêm
0:04:46.854,0:04:50.255
e quase não temos[br]pandas mortos, o que é maravilhoso
0:04:50.256,0:04:51.346
(risos)
0:04:51.437,0:04:52.600
porque são tão fofos.
0:04:53.699,0:04:55.654
Por isso, isto também é útil.
0:04:56.377,0:04:59.185
Cá está. Agora para o que está para vir.
0:04:59.889,0:05:03.784
Wikidata Bridge, anteriormente conhecida[br]como editor de clientes.
0:05:03.785,0:05:07.076
Ou seja, editar dados a partir[br]de caixas de informação da Wikipedia.
0:05:07.675,0:05:11.725
O que, por um lado, dará[br]mais visibilidade aos dados
0:05:11.725,0:05:13.441
pois mais pessoas os conseguirão ver ali.
0:05:13.441,0:05:18.841
E, assim se espera, encorajará uma maior[br]utilização da Wikidata nas Wikipedias.
0:05:18.841,0:05:20.920
Isto significa [br]que mais pessoas podem reparar
0:05:20.921,0:05:23.857
se, por exemplo, há dados desatualizados[br]que precisam de ser atualizados,
0:05:23.857,0:05:27.060
ao invés de só os verem[br]na própria Wikidata.
0:05:28.630,0:05:30.656
Existem também as referências corrompidas.
0:05:30.657,0:05:33.959
Aqui, a ideia é que, se editarem[br]uma declaração de valor,
0:05:34.683,0:05:37.279
pode ser preciso atualizar também[br]as referências,
0:05:37.280,0:05:39.373
a não ser [br]que seja apenas uma gralha, ou similar.
0:05:39.897,0:05:43.662
Estas referências corrompidas[br]dizem-no aos editores
0:05:43.663,0:05:49.756
e também que os outros editores[br]vêm as outras edições que foram feitas
0:05:49.756,0:05:52.471
que editaram uma declaração de valor[br]e não atualizaram a referência.
0:05:52.472,0:05:56.766
Depois, podem limpar[br]e decidir se isso deve...
0:05:57.737,0:05:59.566
Precisam de fazê-lo novamente
0:05:59.566,0:06:02.796
ou está tudo correto e[br]não é necessário atualizar a referência.
0:06:03.543,0:06:09.336
Tem relação com declarações assinadas.[br]Que têm origem numa preocupação, penso eu,
0:06:09.336,0:06:12.355
que alguns fornecedores de dados têm de...
0:06:14.131,0:06:17.231
Há uma declaração que é referenciada[br]através na UNESCO, ou similar.
0:06:17.232,0:06:19.872
Depois, de repente,[br]alguém vandaliza a declaração
0:06:19.873,0:06:21.836
e eles estão preocupados que parecerá que
0:06:22.827,0:06:26.992
essa organização, como a UNESCO,[br]ainda define este valor de vandalismo.
0:06:26.993,0:06:28.706
Assim, com declarações assinadas,
0:06:28.706,0:06:31.488
eles podem assinar[br]essa referência criptograficamente.
0:06:31.488,0:06:33.562
Isso não vai prevenir edições à referência
0:06:34.169,0:06:37.624
mas, se alguém vandalizar a declaração
0:06:37.624,0:06:40.255
ou se a editar de alguma forma[br]a assinatura deixa de ser válida.
0:06:40.255,0:06:43.401
E pode-se ver que isto não é exatamente[br]o que foi dito pela organização.
0:06:43.402,0:06:47.064
Pode ser que seja uma boa edição[br]e eles devam assinar a nova declaração,
0:06:47.065,0:06:49.851
mas também pode acontecer [br]que deva ser revertida.
0:06:51.203,0:06:54.166
E também... Isto vai ser[br]muito empolgante, penso eu.
0:06:54.166,0:06:56.846
O Citoid é um sistema fantástico[br]que existe na Wikipedia
0:06:57.379,0:07:01.340
no qual podem colar um URL,[br]um identificador, um ISBN,
0:07:01.340,0:07:04.759
um ID da Wikidata ou [br]outra coisa qualquer no Visual Editor,
0:07:05.260,0:07:08.241
e ele devolve uma referência[br]bem formatada.
0:07:08.242,0:07:11.049
Tem todos os dados que quiserem[br]e uma usabilidade excelente.
0:07:11.049,0:07:14.337
Por comparação, na Wikidata,[br]se eu quiser adicionar uma referência,
0:07:14.338,0:07:18.801
tenho, tipicamente, de adicionar o URL,[br]título, nome de autor,
0:07:18.802,0:07:20.449
data de publicação da referência,
0:07:20.450,0:07:25.141
recuperar as datas.[br]No mínimo, o que é aborrecido.
0:07:25.141,0:07:29.261
Espera-se que a integração do Citoid[br]na Wikibase ajude com isso.
0:07:30.245,0:07:33.604
Penso que é tudo o que tinha. Sim.
0:07:33.604,0:07:36.400
Vou agora passar à Cristina.
0:07:37.788,0:07:42.339
(aplausos)
0:07:43.780,0:07:45.331
Olá, eu sou a Cristina.
0:07:45.331,0:07:47.692
Sou uma cientista de investigação[br]da Universidade de Zurique
0:07:47.692,0:07:51.417
e também um membro ativo[br]da comunidade Suíça.
0:07:52.698,0:07:57.901
Quando eu e a Claudia Müller-Birn[br]submetemos isto à WikidataCon,
0:07:57.902,0:08:02.420
o que queríamos era continuar a discussão[br]que começámos no início do ano
0:08:02.424,0:08:07.442
numa workshop acerca de qualidade de dados[br]e também nalgumas sessões na Wikimania.
0:08:07.442,0:08:10.535
Então, o objetivo desta palestra[br]é apresentar algumas ideias
0:08:10.536,0:08:14.432
que estivemos a compilar,[br]nossas e da comunidade,
0:08:14.432,0:08:16.560
e continuar a discussão.
0:08:16.561,0:08:20.065
Gostaríamos de continuar[br]a interagir muito convosco.
0:08:21.557,0:08:23.371
O que pensamos ser muito importante,
0:08:23.372,0:08:27.580
é perguntarmos continuamente a todos[br]os tipos de utilizador na comunidade,
0:08:27.581,0:08:32.240
o que realmente precisam,[br]que problemas têm com qualidade de dados.
0:08:32.240,0:08:35.000
Não apenas os editores, mas também[br]as pessoas que estão a programar
0:08:35.000,0:08:36.241
ou a consumir os dados.
0:08:36.242,0:08:39.494
E também os investigadores que estão[br]a usar toda a história de edições
0:08:39.494,0:08:41.120
para analisar o que está a acontecer.
0:08:42.367,0:08:48.431
Assim, fizemos uma avaliação de cerca[br]de 80 ferramentas que existem na Wikidata
0:08:48.431,0:08:52.380
e alinhámo-las com as diferentes[br]dimensões de qualidade de dados.
0:08:52.380,0:08:54.360
O que vimos foi que, na realidade,
0:08:54.361,0:08:57.681
muitas delas estão a vigiar,[br]a monitorizar a integridade,
0:08:57.682,0:09:02.820
mas, na verdade... Algumas delas estão[br]também a capacitar interligações.
0:09:02.820,0:09:08.442
Mas, existe uma grande necessidade [br]de ferramentas que vejam a diversidade,
0:09:08.443,0:09:12.824
que é uma das coisas[br]que podemos ter na Wikidata.
0:09:12.824,0:09:15.958
Especialmente, este princípio[br]do design da Wikidata,
0:09:15.959,0:09:17.901
segundo o qual podemos ter pluralidade
0:09:17.902,0:09:20.308
e declarações diferentes[br]com valores diferentes
0:09:20.914,0:09:22.236
originárias de fontes diferentes.
0:09:22.236,0:09:24.921
Visto ser uma fonte secundária,[br]não temos realmente ferramentas
0:09:24.922,0:09:27.750
que nos digam [br]quantas declarações plurais existem,
0:09:27.751,0:09:30.889
quantas podemos melhorar e como.
0:09:30.890,0:09:32.833
Também não sabemos
0:09:32.833,0:09:35.538
quais são todas as razões[br]para pluralidade que podemos ter.
0:09:36.491,0:09:39.201
Assim, a partir destes[br]encontros da comunidade
0:09:39.201,0:09:43.084
o que discutimos foram os desafios[br]que ainda necessitam de atenção.
0:09:43.084,0:09:47.249
Por exemplo, que ter[br]todas estas comunidades de crowdsourcing
0:09:47.249,0:09:50.813
é muito bom, já que pessoas diferentes[br]atacam partes diferentes dos dados
0:09:50.813,0:09:51.833
ou do gráfico.
0:09:51.834,0:09:54.615
Temos também conhecimentos[br]de origem diferentes.
0:09:54.616,0:09:59.161
Mas, na realidade, é muito difícil alinhar[br]tudo em algo que seja homogéneo
0:09:59.162,0:10:04.920
pois pessoas diferentes usam propriedades[br]diferentes de forma diferente.
0:10:04.920,0:10:08.401
E estão também à espera de coisas[br]diferentes das descrições de entidade.
0:10:09.003,0:10:12.721
Foi também dito[br]que são necessárias mais ferramentas
0:10:12.722,0:10:16.000
que dêm uma melhor visão geral[br]do estado global das coisas.
0:10:16.000,0:10:20.733
Ou seja, que entidades estão em falta,[br]em termos de integridade,
0:10:20.733,0:10:25.013
mas também no que é que as pessoas[br]estão a trabalhar hoje em dia,
0:10:25.013,0:10:26.121
na maior parte do tempo.
0:10:26.741,0:10:30.516
Também foi mencionada com frequência[br]uma colaboração mais apertada
0:10:30.517,0:10:33.311
entre, não só as linguagens,[br]mas os WikiProjects
0:10:33.311,0:10:35.571
a as diferentes plataformas Wikimedia.
0:10:35.571,0:10:38.859
Publicámos todos [br]os comentários transcritos
0:10:38.860,0:10:42.959
de todas estas discussões[br]nestas ligações aqui, no Etherpads
0:10:42.959,0:10:46.162
e também na página wiki da Wikimania.
0:10:46.162,0:10:48.481
Algumas das soluções que apareceram
0:10:48.481,0:10:53.001
vão na direção da partilha[br]das melhores práticas
0:10:53.001,0:10:55.762
que estão a ser desenvolvidas[br]nos diferentes WikiProjects.
0:10:55.762,0:10:57.659
Mas, as pessoas também querem ferramentas
0:10:57.659,0:11:01.239
que ajudem a organizar[br]o trabalho em equipa
0:11:01.239,0:11:03.845
ou, pelo menos, a perceber[br]quem está a trabalhar em quê.
0:11:03.845,0:11:07.815
Também foi mencionada[br]a vontade de ter mais demonstrações
0:11:07.816,0:11:12.019
e mais modelos que os ajudem[br]a criar coisas de uma forma melhor.
0:11:12.946,0:11:15.111
E, pelo contacto que temos
0:11:15.111,0:11:18.721
com organizações [br]de dados governamentais abertas
0:11:18.722,0:11:20.068
e, em particular,
0:11:20.068,0:11:23.102
eu estou em contacto com o cantão[br]e a cidade de Zurique,
0:11:23.102,0:11:26.207
eles estão muito interessados[br]em trabalhar com a Wikidata
0:11:26.207,0:11:29.896
porque querem que os seus dados[br]estejam acessíveis para todos
0:11:29.897,0:11:33.681
no local onde as pessoas vão[br]e consultam ou acedem aos dados.
0:11:33.682,0:11:36.550
Assim, para eles, algo que[br]seria mesmo interessante
0:11:36.551,0:11:38.600
seria ter algum tipo[br]de indicador de qualidade
0:11:38.600,0:11:41.082
tanto na wiki,[br]o que já acontece atualmente,
0:11:41.082,0:11:42.801
como nos resultados SPARQL.
0:11:42.802,0:11:46.066
Para saber se podem ou não confiar[br]dos dados da comunidade.
0:11:46.487,0:11:49.630
Eles também querem saber que partes[br]dos seus próprios conjuntos de dados
0:11:49.630,0:11:51.417
são úteis para a Wikidata.
0:11:51.418,0:11:56.040
E adorariam ter uma ferramenta[br]que ajudasse a avaliar automaticamente.
0:11:56.041,0:11:59.066
Também precisam[br]de algum tipo de metodologia ou ferramenta
0:11:59.067,0:12:03.894
que os ajude a decidir se devem[br]ou não importar ou ligar os seus dados
0:12:03.894,0:12:05.357
pois, nalguns casos,eles também têm
0:12:05.357,0:12:07.947
os seus próprios conjuntos de dados[br]abertos ligados e não sabem
0:12:07.947,0:12:11.707
se devem apenas incorporar os dados[br]ou continuar a criar ligações
0:12:11.707,0:12:14.294
dos conjuntos de dados[br]à Wikidata e vice-versa.
0:12:14.950,0:12:20.043
Também querem saber se os seus websites[br]forem referidos na Wikidata.
0:12:20.044,0:12:23.361
E, quando correm essas consultas[br]no serviço de consultas
0:12:23.362,0:12:24.848
recebem, muitas vezes, timeouts.
0:12:24.849,0:12:28.181
Por isso, talvez devêssemos mesmo[br]criar mais ferramentas
0:12:28.181,0:12:32.241
que os ajudem a obter estas respostas[br]para as suas questões.
0:12:32.241,0:12:33.938
(ruído de fundo)
0:12:33.938,0:12:36.208
E, para além disso,
0:12:36.208,0:12:39.361
nós, investigadores da wiki, também
0:12:39.362,0:12:42.023
temos falta de alguma informação[br]nos sumários de edição.
0:12:42.024,0:12:44.953
Lembro-me que, quando[br]estávamos a trabalhar
0:12:44.954,0:12:48.919
para compreender os diferentes[br]comportamentos dos editores
0:12:48.919,0:12:53.403
com ferramentas ou bots,[br]ou utilizadores anónimos, etc,
0:12:53.403,0:12:56.154
faltava-nos realmente, por exemplo,
0:12:56.154,0:13:01.112
uma forma padrão de registar[br]que as ferramentas estavam a ser usadas.
0:13:01.113,0:13:03.154
Já existem algumas ferramentas[br]que fazem isso
0:13:03.155,0:13:05.230
como o PetScan e muitas outras
0:13:05.230,0:13:07.720
mas talvez devêssemos, na comunidade,
0:13:07.721,0:13:11.965
debater mais acerca de como [br]registar estes eventos
0:13:11.965,0:13:13.829
para obter uma origem otimizada.
0:13:14.169,0:13:15.321
E, no futuro,
0:13:15.322,0:13:20.801
precisamos de pensar em dimensões[br]de qualidade de dados mais concretas
0:13:20.802,0:13:24.961
que estão relacionadas com dados ligados[br]mas não com todos os tipos de dados.
0:13:24.962,0:13:30.721
Por isso, trabalhámos nalgumas medidas[br]para aceder ao aumento de informação
0:13:30.722,0:13:33.881
proporcionado pelas ligações.[br]O que queremos dizer com isso
0:13:33.882,0:13:36.681
é que, quando ligamos a Wikidata[br]a outros conjuntos de dados,
0:13:36.682,0:13:38.201
também deviamos estar a pensar
0:13:38.202,0:13:41.921
em quanto é que as entidades estão,[br]na realidade, a ganhar na classificação,
0:13:41.922,0:13:45.601
na descrição, mas também[br]nos vocabulários que usam.
0:13:45.602,0:13:51.041
Para dar um exemplo muito simples[br]do que quero dizer com isto,
0:13:51.042,0:13:54.269
podemos pensar... Neste caso,[br]seria a Wikidata
0:13:54.270,0:13:57.771
ou o centro de dados externo[br]que está a ligar à Wikidata.
0:13:57.772,0:14:00.487
Temos a entidade para uma pessoa[br]chamada Natasha Noy,
0:14:00.487,0:14:02.601
temos a afiliação e outras coisas.
0:14:02.602,0:14:05.239
E, depois dizemos: "Está bem, ligamos[br]a um local externo
0:14:05.240,0:14:08.919
e aquela entidade também tem aquele nome."[br]Mas, na realidade, temos o mesmo valor.
0:14:08.920,0:14:12.889
Então, seria melhor se ligássemos[br]a algo que tenha um nome diferente,
0:14:12.889,0:14:16.881
o que ainda é válido porque esta pessoa[br]tem duas formas de escrever o nome,
0:14:16.882,0:14:19.714
e também outras informações[br]que não temos na Wikidata
0:14:19.715,0:14:21.760
ou que não temos[br]no outro conjunto de dados.
0:14:22.390,0:14:24.652
Mas também, o que é ainda melhor
0:14:24.653,0:14:27.770
é que estamos a olhar[br]para o conjunto de dados alvo
0:14:27.770,0:14:31.392
e eles também têm novas formas[br]de classificar a informação.
0:14:31.393,0:14:35.354
Por isso, não só é uma pessoa,[br]mas, no outro conjunto de dados,
0:14:35.355,0:14:37.076
também diz que é do sexo feminino
0:14:37.076,0:14:39.526
ou qualquer outra classificação[br]que tenha sido usada.
0:14:39.526,0:14:43.401
Se, no outro conjunto de dados, estiverem[br]a usar muitos outros vocabulários
0:14:43.402,0:14:46.588
isso também está a ajudar[br]na recuperação de informação como um todo.
0:14:47.371,0:14:51.233
Também gostava de dizer
0:14:51.234,0:14:55.809
que pensamos que podemos[br]mostrar melhor as consultas federadas
0:14:55.810,0:15:00.448
porque, quando olhamos para o log[br]da consulta fornecido por Malyshev et al,
0:15:01.285,0:15:06.921
vemos que, das consultas orgânicas,[br]temos apenas algumas consultas federadas.
0:15:06.922,0:15:12.801
E, na realidade, a federação é uma[br]das vantagens chave de ter dados ligados.
0:15:12.802,0:15:16.903
Por isso, talvez a comunidade[br]ou as pessoas que usam a Wikidata
0:15:16.903,0:15:18.898
também precisem[br]de mais exemplos deste tipo.
0:15:18.898,0:15:22.666
Se olharmos para a lista[br]de parâmetros que estão a ser usados...
0:15:22.667,0:15:25.401
Esta não é uma lista completa[br]e temos muitos mais.
0:15:25.402,0:15:30.479
Estes dados foram analisados a partir[br]de consultas feitas até março de 2018,
0:15:30.480,0:15:34.807
mas deviamos olhar para a lista[br]de parâmetros federados que temos
0:15:34.808,0:15:37.048
e ver se os estamos realmente[br]a usar ou não.
0:15:37.813,0:15:40.441
Por isso, duas questões[br]que tenho para a audiência
0:15:40.442,0:15:43.001
e que talvez possamos usar[br]depois para a discussão, são:
0:15:43.001,0:15:46.001
que problemas de qualidade de dados[br]devem, na vossa opinião, ser abordados,
0:15:46.002,0:15:47.412
devido às vossas necessidades.
0:15:47.412,0:15:50.401
Mas também, onde é que é necessária[br]mais automação
0:15:50.402,0:15:53.043
para vos ajudar com as edições[br]ou patrulhamentos.
0:15:53.866,0:15:55.146
É tudo, muito obrigada.
0:15:55.779,0:16:00.537
(aplausos)
0:16:06.030,0:16:09.427
(Jose Emilio Labra) Vou falar-vos[br]de algumas ferramentas
0:16:09.427,0:16:14.715
que estamos a desenvolver,[br]relacionadas com o Shape Expressions.
0:16:15.536,0:16:19.371
É disto que quero falar...[br]Sou o Jose Emilio Labra,
0:16:19.371,0:16:23.215
mas há... Todas estas ferramentas[br]foram construídas por pessoas diferentes,
0:16:23.920,0:16:28.480
muitas relacionadas com o W3C ShEx,[br]Shape Expressions Community Group.
0:16:28.481,0:16:29.481
ShEx Community Group.
0:16:31.344,0:16:36.081
A primeira ferramenta que quero mencionar[br]é o RDFShape. Esta é uma ferramenta geral
0:16:36.082,0:16:40.681
porque o Shape Expressions[br]não é só para a Wikidata.
0:16:40.682,0:16:44.168
O Shape Expressions é uma linguagem[br]para validar RDF em geral.
0:16:44.168,0:16:47.568
Esta ferramenta foi desenvolvida[br]principalmente por mim
0:16:47.568,0:16:50.880
e é uma ferramenta para validar [br]RDF no geral.
0:16:50.881,0:16:55.139
Se quiserem aprender acerca de RDF[br]ou se quiserem validar parâmetros RDF
0:16:55.140,0:16:58.621
ou SPARQL, não só na Wikidata,
0:16:58.622,0:17:00.891
o meu conselho é[br]que podem usar esta ferramenta.
0:17:00.891,0:17:03.255
Também para ensinar.
0:17:03.255,0:17:05.640
Sou um professor universitário
0:17:05.641,0:17:09.151
e uso-a no meu curso de web semântica[br]para ensinar RDF.
0:17:09.161,0:17:12.121
Por isso, se quiserem aprender RDF,[br]penso que esta é uma boa ferramenta.
0:17:13.033,0:17:17.855
Por exemplo, esta é só uma visualização[br]de um gráfico RDF com essa ferramenta.
0:17:19.157,0:17:22.643
Mas, antes de vir cá, no último mês,
0:17:22.643,0:17:27.293
comecei um fork de rdfshape[br]especificamente para a Wikidata,
0:17:27.293,0:17:28.443
porque pensei...
0:17:28.443,0:17:33.082
Chama-se WikiShape e, ontem,[br]apresentei-a como presente à Wikidata.
0:17:33.082,0:17:34.441
Então, eu peguei...
0:17:34.442,0:17:39.898
O que eu fiz foi remover tudo[br]o que não tivesse relação com a Wikidata
0:17:39.898,0:17:42.603
e acrescentar várias coisas,[br]com codificação permanentemente,
0:17:42.603,0:17:44.802
como, por exemplo,[br]o parâmetro Wikidata SPARQL.
0:17:44.802,0:17:49.041
Agora, foi-me pedido[br]que fizesse isso também para a Wikibase.
0:17:49.042,0:17:52.000
E é muito fácil[br]fazê-lo também para a Wikibase.
0:17:52.760,0:17:56.280
Então, esta ferramenta,[br]a WikiShape, é muito recente.
0:17:57.015,0:17:59.843
Penso que funciona,[br]a maioria das funcionalidades,
0:17:59.844,0:18:02.468
mas há algumas funcionalidades[br]que podem não funcionar.
0:18:02.469,0:18:06.281
Se experimentarem e quiserem[br]melhorá-la, digam-me, por favor.
0:18:06.281,0:18:11.048
Isto é uma captura de ecrã,[br]mas penso que posso experimentar.
0:18:11.558,0:18:13.488
Por isso, vamos experimentar.
0:18:14.256,0:18:15.366
(risos)
0:18:15.385,0:18:16.945
Vamos ver se funciona.
0:18:16.953,0:18:20.070
Primeiro, tenho de sair do...
0:18:22.453,0:18:23.453
Aqui.
0:18:25.436,0:18:28.244
Esta é a ferramenta, aqui.
0:18:28.244,0:18:29.844
Coisas que podem fazer com a ferramenta:
0:18:29.845,0:18:35.275
por exemplo, podem[br]verificar esquemas, esquemas de entidades.
0:18:35.276,0:18:38.611
Sabem que há um novo namespace[br]que é "E" qualquer coisa".
0:18:38.612,0:18:44.805
Então, se começaram, por exemplo,[br]a escrever "humano",
0:18:44.806,0:18:48.812
à medida que escrevem,[br]o autocompletamento permite-vos verificar
0:18:48.812,0:18:52.001
que isto é o Shape Expressions[br]de um humano
0:18:52.790,0:18:55.937
e que isto é o Shape Expressions, aqui.
0:18:55.938,0:18:59.841
Como podem ver, este editor[br]tem realce de sintaxe.
0:18:59.842,0:19:04.559
Isto é... Bem, talvez seja[br]muito pequeno, o ecrã.
0:19:05.676,0:19:07.590
Posso tentar aumentá-lo.
0:19:09.194,0:19:10.973
Talvez o vejam melhor, agora.
0:19:10.973,0:19:14.241
Então, este é o editor, com realce[br]de sintaxe, e também tem...
0:19:14.241,0:19:17.851
Quero dizer, este editor[br]vem do mesmo código fonte
0:19:17.851,0:19:19.641
do editor de consultas da Wikidata.
0:19:19.642,0:19:23.960
Se pairarem com o rato aqui,
0:19:23.961,0:19:27.961
vai mostrar-vos as etiquetas[br]das diferentes propriedades.
0:19:27.962,0:19:31.298
Penso que é muito útil porque, agora,
0:19:32.588,0:19:36.152
o esquema de entidades[br]que está na Wikidata
0:19:36.152,0:19:38.602
é só uma ideia em texto simples.
0:19:38.602,0:19:42.493
Penso que este editor é muito melhor[br]porque tem autocompletamento
0:19:42.494,0:19:43.743
também tem...
0:19:43.744,0:19:48.241
Por exemplo, se quiserem adicionar[br]uma restrição
0:19:48.241,0:19:51.570
vão dizer: "wdt:".
0:19:51.570,0:19:56.884
Começam a escrever "author"[br]e depois clicam em Ctrl+Espaço
0:19:56.884,0:19:58.922
e vai sugerir-vos várias coisas.
0:19:58.922,0:20:02.388
Então, isto é semelhante[br]ao serviço de consultas da Wikidata,
0:20:02.389,0:20:06.445
mas para Shape Expressions,[br]especificamente.
0:20:06.445,0:20:11.377
Porque penso que, criar Shape Expressions
0:20:11.976,0:20:15.841
não é mais difícil do que[br]escrever consultas SPARQL.
0:20:16.492,0:20:21.905
Algumas pessoas pensam[br]que o nível de dificuldade é o mesmo.
0:20:22.278,0:20:26.296
É provavelmente mais fácil[br]porque o Shape Expressions era...
0:20:26.296,0:20:31.241
Quando o concebemos, fizemo-lo[br]para que fosse mais fácil trabalhar.
0:20:32.152,0:20:37.371
Esta é uma das primeiras coisas que têm. [br]Este editor para Shape Expressions.
0:20:37.371,0:20:41.467
Depois, também têm a possibilidade de,[br]por exemplo, visualizar.
0:20:41.468,0:20:44.801
Se tiverem uma Shape Expression,[br]usem, por exemplo...
0:20:44.802,0:20:49.386
Penso que "trabalho escrito" é[br]uma boa Shape Expression
0:20:49.386,0:20:53.300
porque tem algumas relações[br]entre diferentes coisas.
0:20:54.823,0:20:58.160
E isto é a visualização UML[br]do trabalho escrito.
0:20:58.161,0:21:02.090
Numa UML, isto é fácil de ver,[br]as diferentes propriedades.
0:21:02.790,0:21:06.794
Quando fazem isto, apercebi-me que,[br]quando o tentei com várias pessoas,
0:21:06.795,0:21:09.216
encontram alguns erros[br]nas suas Shape Expressions
0:21:09.217,0:21:12.988
porque é fácil detetar quais são[br]as propriedades em falta.
0:21:13.588,0:21:17.261
Depois, temos aqui outra possibilidade[br]que é a de poder também validar.
0:21:17.261,0:21:19.520
Penso que a temos aqui, a validação.
0:21:20.496,0:21:25.285
Pensava que a tinha nalguma etiqueta.[br]Talvez a tenha fechado.
0:21:26.267,0:21:30.988
Mas podem, por exemplo,[br]clicar aqui: Validar entidades.
0:21:32.308,0:21:34.232
Vocês, por exemplo,
0:21:35.404,0:21:41.921
"q42" com "e42", que é o autor.
0:21:42.818,0:21:46.180
Com "humano". Penso que o podemos fazer[br]com "humano".
0:21:49.050,0:21:50.050
E depois é...
0:21:50.688,0:21:56.365
Está a demorar um pouco a fazê-lo[br]porque está a realizar consultas SPARQL.
0:21:56.365,0:21:59.134
E agora, por exemplo, está a falhar[br]por causa da rede. Mas...
0:21:59.657,0:22:01.580
Podem tentá-lo.
0:22:02.759,0:22:07.026
Vamos continuar com a apresentação,[br]com outras ferramentas.
0:22:07.026,0:22:12.353
O meu conselho é, se o quiserem tentar[br]e se quiserem qualquer feedback, digam-me.
0:22:13.133,0:22:15.540
Então, para continuar[br]com a apresentação...
0:22:18.923,0:22:20.233
Isto é a WikiShape.
0:22:23.800,0:22:26.509
Já o disse,
0:22:27.681,0:22:34.157
o editor de Shape Expressions[br]é um projeto independente no GitHub.
0:22:35.605,0:22:37.472
Podem usá-lo no vosso próprio projeto.
0:22:37.472,0:22:41.036
Se quiserem construir[br]uma ferramenta de Shape Expressions,
0:22:41.036,0:22:45.635
podem integrá-lo[br]em qualquer outro projeto.
0:22:45.636,0:22:48.235
Está no GitHub e podem usá-lo.
0:22:48.868,0:22:51.970
O mesmo autor,[br]é um dos meus estudantes.
0:22:52.684,0:22:55.644
Ele também criou um editor[br]para Shape Expressions,
0:22:55.644,0:22:57.839
também inspirado pelo[br]serviço de consultas do Wikidata,
0:22:57.839,0:23:00.681
onde, numa coluna,
0:23:00.682,0:23:05.103
têm este editor mais visual[br]de consultas SPARQL
0:23:05.104,0:23:07.135
onde podem introduzir este tipo de coisas.
0:23:07.136,0:23:09.123
Esta é uma captura de ecrã.
0:23:09.123,0:23:12.662
Podem ver que isto[br]é Shape Expressions em texto,
0:23:12.662,0:23:15.565
mas isto é Shape Expressions[br]baseado em formas
0:23:15.565,0:23:18.595
onde, provavelmente, [br]demoraria um pouco mais,
0:23:18.595,0:23:23.400
onde podem pôr as diferentes colunas[br]nos diferentes campos.
0:23:24.480,0:23:26.879
Depois há o ShExEr.
0:23:26.879,0:23:31.882
Temos...Foi feito por um estudante[br]de doutoramento da Universidade de Oviedo.
0:23:31.883,0:23:34.080
E ele está cá,[br]por isso pode apresentar o ShExEr.
0:23:38.147,0:23:40.024
(Danny) Olá, eu sou o Danny Fernàndez.
0:23:40.025,0:23:43.010
Sou um estudante de doutoramento[br]na Universidade de Oviedo
0:23:43.010,0:23:44.060
a trabalhar com o Labra.
0:23:44.060,0:23:47.725
Já que estamos a ficar sem tempo,[br]vamos fazer isto rapidamente.
0:23:47.726,0:23:52.891
Não faremos uma demonstração,[br]mas veremos algumas capturas de ecrã.
0:23:54.371,0:23:56.897
A forma usual de trabalhar com[br]Shape Expressions,
0:23:56.897,0:23:59.507
ou com qualquer linguagem de formas,[br]é ter um perito no domínio
0:23:59.522,0:24:02.313
que define, a priori,[br]como se deve parecer o gráfico,
0:24:02.314,0:24:03.555
define algumas estruturas.
0:24:03.556,0:24:06.983
Depois usam essas estruturas[br]para comparar os dados e validá-los.
0:24:08.124,0:24:11.641
Esta ferramenta, que é, tal como aquelas[br]que o Labra esteve a apresentar,
0:24:11.642,0:24:14.441
uma ferramenta polivalente[br]para qualquer fonte RDF,
0:24:14.442,0:24:17.375
está concebida para fazer o contrário.
0:24:17.376,0:24:18.758
Já têm alguns dados,
0:24:18.759,0:24:23.165
selecionam que nodos[br]querem usar para formar a forma
0:24:23.165,0:24:26.718
e depois extraem ou inferem [br]a forma automaticamente.
0:24:26.719,0:24:29.791
Então, mesmo sendo[br]uma ferramenta polivalente,
0:24:29.791,0:24:34.063
o que fizemos para este WikidataCon[br]foi este botão catita.
0:24:34.884,0:24:37.081
Se clicarem nele,[br]o que acontece, essencialmente,
0:24:37.081,0:24:42.079
é que, há[br]tantos parâmetros de configuração,
0:24:42.080,0:24:46.251
e ele configura-os para funcionar[br]com os parâmetros da Wikidata.
0:24:46.251,0:24:47.971
Vai acabar em breve, desculpem.
0:24:48.733,0:24:52.883
Assim que pressionam este botão[br]o que obtêm é essencialmente isto.
0:24:52.884,0:24:55.126
Depois de selecionarem que tipo de nodos,
0:24:55.127,0:24:59.360
que tipo de instâncias da nossa classe,[br]ou seja o que for que estejam a procurar,
0:24:59.361,0:25:01.321
obtêm um esquema automático.
0:25:02.319,0:25:07.111
Todas as restrições são resolvidas[br]por quantos nodos são conformantes.
0:25:07.112,0:25:09.772
Podem filtrar os menos comuns, etc.
0:25:09.772,0:25:12.126
Há um poster lá em baixo[br]acerca disto.
0:25:12.127,0:25:16.455
Eu estarei lá em baixo e cá em cima,[br]em todo o lado o dia todo.
0:25:16.455,0:25:19.081
Por isso, se tiverem interesse adicional[br]nesta ferramenta
0:25:19.082,0:25:21.476
falem comigo durante esta jornada.
0:25:21.477,0:25:24.624
Vou devolver o microfone ao Labra.[br]Obrigado.
0:25:24.625,0:25:29.265
(aplausos)
0:25:29.812,0:25:32.578
(Jose) Vamos continuar com[br]as outras ferramentas.
0:25:32.579,0:25:34.984
A outra ferramenta é o ShapeDesigner.
0:25:34.984,0:25:37.241
Andra, queres falar[br]do ShapeDesigner agora
0:25:37.242,0:25:39.287
ou mais tarde, durante a workshop?
0:25:39.287,0:25:40.603
Há uma workshop...
0:25:40.603,0:25:44.437
Esta tarde, há uma workshop, [br]especifica para Shape Expressions, e...
0:25:45.265,0:25:47.939
A ideia é que vai ser mais[br]na vertente prática
0:25:47.940,0:25:52.324
e, se quiserem praticar ShEx,[br]podem fazê-lo lá.
0:25:52.875,0:25:55.720
Esta ferramenta é o ShEx,js.[br]Lá está o Eric, ali.
0:25:55.721,0:25:56.890
Podes apresentá-la.
0:25:57.969,0:26:00.687
(Eric) Muito rapidamente,[br]aquilo que quero dizer
0:26:00.687,0:26:05.711
é que já viram, provavelmente,[br]a interface de ShEx
0:26:05.711,0:26:07.601
que foi concebida para a Wikidata.
0:26:07.602,0:26:12.930
Ela foi simplificada e pensada[br]especificamente para a Wikidata
0:26:12.930,0:26:15.817
porque a versão genérica[br]tem mais funcionalidades.
0:26:15.817,0:26:19.014
Mas pensei em mencioná-la[br]porque uma dessas funcionalidades
0:26:19.014,0:26:23.201
é particularmente útil[br]para depurar esquemas da Wikidata.
0:26:23.201,0:26:29.224
A qual é, se selecionarem o modo slurp,
0:26:29.225,0:26:31.444
o que faz é dizer,[br]à medida que estou a validar,
0:26:31.445,0:26:33.214
que quero puxar[br]todos os triplos para baixo.
0:26:33.214,0:26:36.274
E, isso significa[br]que, se tiver um conjunto de falhas,
0:26:36.275,0:26:39.586
posso verificá-las e começar a olhar[br]para essas falhas e dizer
0:26:39.587,0:26:41.800
quais são os triplos que estão aqui.
0:26:41.801,0:26:44.120
Peço desculpas, os triplos estão[br]aqui em baixo.
0:26:44.121,0:26:45.647
Isto é só um registo do que aconteceu.
0:26:46.327,0:26:49.180
Depois, podem limitar-se a remexer[br]nisto em tempo real.
0:26:49.181,0:26:51.033
Brincam com alguma coisa e muda.
0:26:51.033,0:26:54.160
Então, é uma versão mais rápida[br]para fazer todas essas coisas.
0:26:55.361,0:26:56.481
Este é um formulário ShExC.
0:26:56.482,0:26:59.455
É algo que o Joachim sugeriu.
0:27:00.035,0:27:04.631
Pode ser útil para povoar[br]documentos da Wikidata
0:27:04.631,0:27:07.338
baseado numa Shape Expression[br]para esse documento.
0:27:08.095,0:27:11.681
Isto não foi feito[br]à medida da Wikidata,
0:27:11.682,0:27:14.081
mas é apenas para mostrar[br]que podem ter um esquema
0:27:14.082,0:27:15.891
e podem ter algumas anotações[br]para especificar
0:27:15.891,0:27:17.518
como quero apresentar o esquema.
0:27:17.519,0:27:19.031
Depois, constrói um formulário
0:27:19.031,0:27:21.191
e, se tiverem dados,[br]pode até povoar o formulário.
0:27:24.517,0:27:26.564
PyShEx [inaudível].
0:27:26.564,0:27:27.594
(risos)
0:27:28.025,0:27:31.080
(Jose) Penso que este seja o último.
0:27:31.821,0:27:34.080
Sim, o último é o PyShEx.
0:27:34.675,0:27:38.151
O PyShEx é uma implementação[br]de Shape Expressions em Python.
0:27:39.193,0:27:41.680
Podem também experimentar[br]o Jupyter Notebooks
0:27:41.680,0:27:44.433
se quiserem esse tipo de coisas.[br]É tudo, para isto.
0:27:44.433,0:27:48.990
(aplausos)
0:27:52.916,0:27:56.134
(Andra) Vou falar acerca[br]de um projeto específico
0:27:56.134,0:27:58.074
com o qual estou envolvido[br]chamado Gene Wiki
0:27:58.075,0:28:04.596
e onde também estamos a lidar[br]com questões de qualidade.
0:28:04.597,0:28:06.684
Mas, antes de falar da qualidade,
0:28:06.685,0:28:09.229
talvez uma pequena apresentação[br]acerca do que é o Gene Wiki.
0:28:09.855,0:28:15.175
Acabámos de lançar uma pré-impressão[br]de um artigo que escrevemos recentemente
0:28:15.175,0:28:18.160
que explica os detalhes do projeto.
0:28:19.821,0:28:21.760
Tiraram fotografias.
0:28:21.760,0:28:23.846
Basicamente, o que o Gene Wiki faz
0:28:23.846,0:28:28.027
é tentar inserir dados biomédicos,[br]dados públicos, na Wikidata.
0:28:28.028,0:28:32.200
Seguimos um padrão específico[br]para inserir esses dados na Wikidata.
0:28:33.130,0:28:36.809
Assim, quando temos um novo repositório,[br]ou um novo conjunto de dados
0:28:36.810,0:28:39.426
que é elegível[br]para ser incluído na Wikidata,
0:28:39.426,0:28:41.323
o primeiro passo[br]é o envolvimento da comunidade.
0:28:41.323,0:28:43.784
Não é dirigido, necessariamente[br]a uma comunidade da Wikidata,
0:28:43.785,0:28:46.120
mas a uma comunidade de pesquisa local.
0:28:46.121,0:28:50.286
Encontramo-nos em pessoa,[br]ou online, ou em qualquer plataforma
0:28:50.286,0:28:52.881
e tentamos criar um modelo de dados
0:28:52.882,0:28:56.197
que faça a ponte entre os seus dados[br]e o modelo Wikidata.
0:28:56.197,0:28:59.944
Aqui, tenho uma imagem de uma workshop[br]que aconteceu aqui, no ano passado.
0:28:59.945,0:29:02.663
Estava a tentar olhar[br]para um conjunto de dados específico
0:29:02.663,0:29:05.280
e, enfim, vêm muitas discussões,
0:29:05.281,0:29:09.780
e depois alinhá-los com o schema.org[br]e outras ontologias que por aí andam.
0:29:10.320,0:29:15.508
Depois, no final do primeiro passo,[br]temos um desenho do esquema
0:29:15.509,0:29:17.336
que queremos implementar na Wikidata.
0:29:17.337,0:29:20.440
O que vêm aqui, isto é apenas simples,
0:29:20.441,0:29:21.766
temo-lo lá atrás, ali,
0:29:21.767,0:29:25.240
e podemos fazer alguns esquemas[br]dentro deste painel mesmo hoje.
0:29:26.560,0:29:28.399
Assim que temos o esquema montado,
0:29:28.400,0:29:31.320
o próximo passo é tentar fazer[br]o esquema da máquina legível.
0:29:32.358,0:29:35.280
Porque querem ter modelos acionáveis[br]para fazer uma ponte
0:29:35.280,0:29:38.613
com os dados que estão a inserir [br]de qualquer base de dados biomédica
0:29:38.613,0:29:40.393
no Wikidata.
0:29:41.682,0:29:46.471
Aqui, estamos a aplicar Shape Expressions.
0:29:48.451,0:29:52.518
Usámo-lo porque permite-vos testar
0:29:52.518,0:29:57.040
se o conjunto de dados é, na realidade... [br]Não. A ver, em primeiro lugar,
0:29:57.041,0:30:01.782
se os dados que já existem na Wikidata[br]seguem o mesmo modelo de dados
0:30:01.783,0:30:04.718
que foi conseguido no processo anterior.
0:30:04.719,0:30:06.641
Depois, com a Shape Expression[br]podemos verificar:
0:30:06.642,0:30:10.926
os dados deste tópico na Wikidata,[br]será que precisam de uma limpeza
0:30:10.926,0:30:15.013
ou precisamos de adaptar o nosso modelo[br]ao modelo da Wikidata, ou vice-versa?
0:30:15.937,0:30:19.867
Quando isso estiver definido[br]e começarmos a programar bots
0:30:20.670,0:30:23.801
e os bots estão a passar a informação
0:30:23.802,0:30:27.308
que está nas fontes primárias[br]para a Wikidata.
0:30:27.846,0:30:29.303
Quando os bots estão prontos...
0:30:29.304,0:30:33.001
Programamos estes bots[br]com uma plataforma chamada...
0:30:33.002,0:30:36.201
com uma biblioteca de Python[br]chamada Wikidata Integrator
0:30:36.202,0:30:38.167
que foi criada pelo nosso projeto.
0:30:38.698,0:30:42.921
Uma vez que tenhamos os nossos bots,[br]usamos uma plataforma chamada Jenkins
0:30:42.921,0:30:44.540
para integração contínua.
0:30:44.540,0:30:45.762
Com o Jenkins,
0:30:45.762,0:30:51.160
atualizamos constantemente[br]as fontes primárias com a Wikidata.
0:30:52.178,0:30:55.889
Este é um diagrama para o artigo[br]que mencionei anteriormente.
0:30:55.890,0:30:57.241
Esta é a nossa paisagem atual.
0:30:57.242,0:31:02.059
Cada caixa laranja[br]é um recurso primário para drogas,
0:31:02.060,0:31:07.827
proteínas, genes, doenças[br]compostos químicos com interação.
0:31:07.827,0:31:10.870
Este modelo é muito pequeno[br]para ser lido agora,
0:31:10.870,0:31:17.472
mas esta é a base de dados,[br]as fontes, que gerimos na Wikidata
0:31:17.473,0:31:20.560
e que fazem ponte com as fontes primárias.
0:31:20.561,0:31:22.355
Aqui está um desses fluxos de trablaho.
0:31:22.870,0:31:25.312
Um dos nossos parceiros[br]é a Disease Ontology.
0:31:25.312,0:31:27.672
A Disease Ontology é uma ontologia CC0
0:31:28.945,0:31:32.756
e a ontologia CC0[br]tem o seu próprio ciclo de curadoria.
0:31:32.756,0:31:35.736
Eles atualizam continuamente[br]a Disease Ontology
0:31:35.737,0:31:39.687
para refletir o espaço de doenças[br]ou a interpretação de doenças.
0:31:40.336,0:31:44.361
Há também o ciclo de curadoria[br]da Wikidata acerca de doenças
0:31:44.362,0:31:48.418
onde a comunidade Wikidata [br]monitoriza constantemente
0:31:48.418,0:31:50.406
o que se está a passar na Wikidata.
0:31:50.406,0:31:51.601
Depois, temos duas funções
0:31:51.602,0:31:55.477
às quais chamamos, coloquialmente,[br]curadores guardiões.
0:31:57.039,0:31:59.561
Isto sou eu[br]e um colega há cinco anos atrás.
0:31:59.562,0:32:03.414
Ficamos ao computador[br]e monitorizamos a Wikipedia e a Wikidata
0:32:03.415,0:32:08.601
e, se houver alguma questão[br]reportada à comunidade primária,
0:32:08.602,0:32:11.765
aos recursos primários, eles olhavam[br]para a implementação e decidiam:
0:32:11.765,0:32:14.240
"Confiamos nas entradas da Wikidata?"
0:32:14.850,0:32:18.555
Se sim, é considerada,[br]entra no ciclo
0:32:18.555,0:32:22.686
e na próxima iteração[br]faz parte da Disease Ontology
0:32:22.687,0:32:25.411
e é fornecida à Wikidata.
0:32:27.419,0:32:31.480
Estamos a fazer o mesmo[br]com a WikiPathways.
0:32:31.481,0:32:34.755
A WikiPathways é um percurso[br]inspirado na wiki
0:32:34.755,0:32:36.602
[br]e um repositório de percursos.
0:32:36.602,0:32:40.901
É a mesma história, já há diferentes[br]recursos de percursos na Wikidata.
0:32:41.463,0:32:44.713
Podem haver conflitos entre[br]esses recursos de percursos
0:32:44.722,0:32:46.701
e esses conflitos são comunicados de volta
0:32:46.702,0:32:49.521
pelos curadores guardiões[br]a essa comunidade
0:32:49.522,0:32:53.715
mantendo-se os ciclos[br]individuais de curadoria.
0:32:53.715,0:32:57.068
Mas, se se lembrarem do ciclo anterior,
0:32:57.069,0:33:03.041
mencionei aqui[br]apenas dois ciclos, dois recursos.
0:33:03.566,0:33:06.300
Temos de fazer isto[br]para cada recurso individual que temos
0:33:06.300,0:33:09.185
e temos de gerir o que se passa[br]porque, quando falo em curadoria,
0:33:09.185,0:33:11.377
quero dizer ir[br]às páginas de topo da Wikipedia,
0:33:11.377,0:33:14.544
às páginas de topo da Wikidata,[br]e tentar fazer isso.
0:33:14.545,0:33:19.316
Isso é muito para os dois curadores[br]guardiões que tínhamos.
0:33:19.660,0:33:22.777
Por isso,[br]quando estive numa conferência em 2016,
0:33:22.778,0:33:26.933
onde o Eric fez uma apresentação[br]sobre Shape Expressions,
0:33:26.934,0:33:29.277
aderi à onda e disse: "Está bem.
0:33:29.278,0:33:34.240
o Shape Expressions pode ajudar-nos[br]a detetar as diferenças na Wikidata
0:33:34.240,0:33:38.389
e isso permite que os guardiões tenham
0:33:38.389,0:33:42.217
relatórios mais eficientes [br]para comunicar."
0:33:42.275,0:33:46.019
Então, este ano, fiquei deliciado[br]com a entidade de esquemas
0:33:46.020,0:33:50.765
porque, agora, podemos guardar[br]esses esquemas de entidades na Wikidata,
0:33:50.765,0:33:53.523
mesmo na Wikidata,[br]enquanto, antes, estavam no GitHub,
0:33:53.860,0:33:56.815
e isto está em sintonia[br]com a interface da Wikidata.
0:33:56.816,0:33:59.350
Então, têm coisas[br]como discussões de documentos
0:33:59.350,0:34:00.762
mas também têm revisões.
0:34:00.763,0:34:05.261
Assim, podem impulsionar as páginas[br]de topo e as revisões na Wikidata
0:34:05.262,0:34:12.255
para usar isso para debater[br]acerca do que está na Wikidata
0:34:12.255,0:34:14.060
e o que está nos recursos primários.
0:34:14.966,0:34:19.686
Isto, que o Eric acabou de apresentar,[br]já é um grande benefício.
0:34:19.686,0:34:24.335
Aqui, fizemos uma Shape Expression[br]para o gene humano
0:34:24.336,0:34:30.225
e, depois, passámos-la através [br]de uma ShEx simples e, como podem ver,
0:34:30.225,0:34:32.428
já temos no...
0:34:32.429,0:34:34.641
Existe uma questão[br]que precisa de ser monitorizada,
0:34:34.642,0:34:37.316
onde há um item[br]que não encaixa naquele esquema
0:34:37.316,0:34:43.139
e, depois, podem já criar relatórios [br]de curadoria de entidades de esquemas
0:34:43.140,0:34:46.240
baseados em... e enviar isto para[br]os diferentes relatórios de curadoria.
0:34:48.058,0:34:52.788
Mas, o ShEx.js é uma interface construída
0:34:52.788,0:34:55.860
e, se puder mostrar cá atrás,[br]faço apenas dez,
0:34:55.860,0:35:00.362
mas temos dezenas de milhares[br]e, por isso, não é escalável.
0:35:00.362,0:35:04.654
Agora, o Wikidata Integrator[br]também suporta ShEx
0:35:05.168,0:35:07.431
e podemos repetir iterações de itens
0:35:07.431,0:35:11.494
onde dizemos "sim, não", "sim, não"[br]"verdadeiro, falso", "verdadeiro, falso".
0:35:11.495,0:35:12.495
Então,
0:35:13.065,0:35:16.514
aumentar um pouco a eficiência[br]ao lidar com os relatórios.
0:35:17.256,0:35:22.662
Mas, agora, isso dificulta[br]o Wikidata Query Service
0:35:23.181,0:35:24.998
e, recentemente, tivemos estrangulamentos.
0:35:24.999,0:35:26.560
Por isso, novamente, não é escalável.
0:35:26.561,0:35:31.391
É ainda um processo em curso,[br]o como lidar com modelos na Wikidata.
0:35:32.202,0:35:36.682
E, ShEx é, não só intimidante,
0:35:36.683,0:35:40.356
como a escala é demasiado grande[br]para lidarmos com ela.
0:35:41.068,0:35:44.781
Então, eu comecei a trabalhar. Esta é [br]a minha primeira validação do conceito,
0:35:44.781,0:35:47.680
ou exercício,[br]onde usei uma ferramenta chamada yED.
0:35:48.184,0:35:52.590
Comecei a desenhar aquelas Shape[br]Expressions e, porque...
0:35:52.591,0:35:58.098
E depois, regenerei este esquema
0:35:58.099,0:36:01.279
no seu formato adjacente[br]de Shape Expressions.
0:36:01.280,0:36:04.520
Isto iria abrir-se à audiência
0:36:04.521,0:36:07.432
que está intimidada[br]pelas linguagens Shape Expressions.
0:36:07.961,0:36:12.308
Mas, há um problema[br]com essas descrições visuais
0:36:12.309,0:36:18.229
porque isto também é um esquema[br]que foi desenhado em yEd por alguém.
0:36:18.230,0:36:23.838
E aqui está outro,[br]que é belíssimo.
0:36:23.838,0:36:29.516
Adorava ter isto na minha parede,[br]mas continua a não ser interoperável.
0:36:30.281,0:36:32.131
[br]Quero acabar a minha palestra com...
0:36:32.131,0:36:35.732
É a primeira vez que...[br]Tenho roubado e usado este slide.
0:36:35.732,0:36:37.594
É uma honra tê-lo na audiência.
0:36:37.595,0:36:39.423
Gosto realmente disto:
0:36:39.424,0:36:42.362
"As pessoas acham que RDF é chato[br]porque é complicado.
0:36:42.362,0:36:43.985
A verdade á ainda pior. É tão simples
0:36:45.581,0:36:48.133
porque temos de trabalhar[br]com problemas do mundo real
0:36:48.134,0:36:50.031
que são horrivelmente complicados.
0:36:50.031,0:36:51.451
Embora possam evitar o RDF,
0:36:51.451,0:36:55.760
é mais difícil evitar dados complicados[br]e problemas computacionais complicados."
0:36:55.761,0:36:59.535
Isto é acerca de RDF, mas penso[br]que também pode ser aplicado à modelação.
0:37:00.112,0:37:02.769
Então, o meu argumento é,[br]devemos realmente...
0:37:03.387,0:37:05.882
Como é que avançamos com a modelação?
0:37:05.882,0:37:10.826
Devemos discutir ShEx[br]ou modelos visuais, ou...
0:37:11.426,0:37:13.271
Como é que continuamos?
0:37:13.474,0:37:14.840
Muito obrigado pelo vosso tempo.
0:37:15.102,0:37:19.737
(aplausos)
0:37:20.001,0:37:21.188
(Lydia) Muito obrigada.
0:37:21.692,0:37:24.001
Venham para a frente
0:37:24.002,0:37:27.741
para podermos abrir[br]as questões da audiência.
0:37:28.610,0:37:30.203
Existem questões?
0:37:31.507,0:37:32.507
Sim.
0:37:34.253,0:37:36.890
E, penso... [br]Para a câmara, precisamos de...
0:37:38.835,0:37:40.968
(Lydia a rir) Sim.
0:37:43.094,0:37:46.273
(Interveniente 1) Uma questão para a[br]Cristina, penso eu.
0:37:47.366,0:37:51.641
Mencionou, exatamente,[br]o termo "ganho de informação"
0:37:51.642,0:37:53.689
devido à ligação com outros sistemas.
0:37:53.690,0:37:55.459
Existe uma medida teórica de informação
0:37:55.459,0:37:58.101
que usa estatística e probabilidade[br]e se chama ganho de informação.
0:37:58.101,0:37:59.541
Tem o mesmo...
0:37:59.542,0:38:01.736
Quero dizer, estava a falar[br]exatamente dessa medida,
0:38:01.736,0:38:04.173
do ganho de informação[br]da teoria de probabilidade,
0:38:04.174,0:38:07.020
da teoria de informação,[br]ou apenas a usar esta entidade conceptual
0:38:07.020,0:38:09.024
para medir o ganho de informação[br]de alguma forma?
0:38:09.215,0:38:13.276
(Cristina) Não. [br]Nós definimos e implementamos medidas
0:38:13.695,0:38:20.161
que estão a usar a entropia de Shannon,[br]por isso, é isso que significa.
0:38:20.162,0:38:22.696
Não queria entrar em detalhes[br]acerca das fórmulas concretas...
0:38:22.697,0:38:24.977
(Interveniente 1) Não, claro.[br]Daí a pergunta.
0:38:24.978,0:38:27.128
- (Cristina) Mas sim...[br]- (Interveniente 1) Obrigado.
0:38:32.681,0:38:35.047
(Interveniente 2) Faço um[br]comentário, mais que uma questão.
0:38:35.048,0:38:36.241
(Lydia) Força.
0:38:36.242,0:38:39.840
(Interveniente 2) Tem havido[br]muito ênfase ao nível do item,
0:38:39.840,0:38:42.547
acerca de qualidade e integridade.
0:38:42.547,0:38:44.313
Uma das coisas que me preocupa é
0:38:44.313,0:38:48.784
não estarmos a aplicar o mesmo[br]às hierarquias e penso que temos a questão
0:38:48.784,0:38:51.480
das nossas hierarquias[br]não serem boas, com frequência.
0:38:51.481,0:38:53.463
Estamos a ver[br]que isto vai ser um problema real
0:38:53.464,0:38:55.774
com a pesquisa de Commons e outras coisas.
0:38:56.771,0:39:00.601
Uma das coisas que conseguimos fazer[br]é importar externa...
0:39:00.602,0:39:04.842
Da forma como os thesaurus externos[br]estruturam as suas hierarquias,
0:39:04.842,0:39:10.291
usando o qualificador[br]de conceitos mais geral P4900.
0:39:11.037,0:39:16.167
Mas, o que penso que seria realmente útil,[br]seriam melhores ferramentas para o fazer
0:39:16.168,0:39:21.212
para que possamos importar uma[br]hierarquia de thesaurus externa,
0:39:21.212,0:39:24.111
mapeá-la nos nossos itens da Wikidata.
0:39:24.111,0:39:28.199
Uma vez implementada[br]com esses qualificadores P4900,
0:39:28.200,0:39:31.494
podemos fazer ótimas[br]consultas através de SPARQL
0:39:32.490,0:39:37.534
para ver onde é que a nossa hierarquia[br]diverge dessa hierarquia externa.
0:39:37.534,0:39:41.346
Por exemplo, como podem saber,[br]Paula Morma, o utilizador PKM
0:39:41.346,0:39:43.533
faz muito trabalho em moda.
0:39:43.533,0:39:46.704
Por isso, usamos isso para puxar
0:39:46.704,0:39:50.524
a hierarquia [br]do Thesaurus Europeana Fashion
0:39:50.524,0:39:53.812
e a hierarquia do thesauros de moda[br]Getty AAT.
0:39:53.812,0:39:57.957
Depois, vemos onde as lacunas[br]estavam nos nossos itens de alto nível,
0:39:57.957,0:40:00.511
que são um problema real para nós[br]porque, com frequência,
0:40:00.511,0:40:04.355
estas são coisas que só existem[br]como páginas de desambiguação na Wikipedia
0:40:04.356,0:40:06.991
e, por isso, [br]temos muitos itens de alto nível
0:40:06.991,0:40:09.271
a faltar nas nossas hierarquias.
0:40:09.271,0:40:14.480
Isto é algo que precisamos de abordar[br]em termos de qualidade e de integridade.
0:40:14.480,0:40:15.971
O que realmente ajudaria
0:40:16.643,0:40:20.871
seriam melhores ferramentas[br]que a selva de scripts que escrevi.
0:40:20.872,0:40:26.010
Se alguém pudesse pôr isso[br]num bloco de notas PAWS em Python,
0:40:26.561,0:40:31.972
ser capaz de receber um thesaurus[br]externo, pegar na sua hierarquia,
0:40:31.973,0:40:35.025
a qual pode muito bem estar disponível[br]como dados ligados, ou pode não estar,
0:40:35.379,0:40:37.837
para depois transferi-lo para[br]declarações rápidas
0:40:37.837,0:40:41.165
para pôr em valores P4900.
0:40:41.165,0:40:42.165
E, mais tarde,
0:40:42.166,0:40:47.007
quando a nossa representação[br]ficar mais completa, atualizar os P4900s.
0:40:47.007,0:40:51.101
Porque, à medida que a nossa representação[br]fica ultrapassada, fica mais densa.
0:40:51.590,0:40:55.377
Os valores desses qualificadores[br]precisam de mudar
0:40:56.230,0:40:59.526
para representar que temos mais[br]da sua hierarquia no nosso sistema.
0:40:59.526,0:41:03.728
Se alguém pudesse fazer isso,[br]penso que seria muito útil.
0:41:04.068,0:41:07.121
Também precisamos[br]de olhar para outras estratégias
0:41:07.122,0:41:10.762
para aumentar a qualidade[br]e a integridade ao nível da hierarquia,
0:41:10.763,0:41:12.378
não só ao nível do item.
0:41:13.308,0:41:14.840
(Andra) Posso acrescentar algo?
0:41:16.362,0:41:19.901
Sim. E, na realidade, fazemos isso.
0:41:19.911,0:41:23.551
Posso recomendar olhar[br]para a Shape Expression que o Finn fez
0:41:23.552,0:41:27.330
com os dados léxicos[br]onde ele cria Shape Expressions
0:41:27.330,0:41:29.640
e depois desenvolve[br]sobre outras Shape Expressions.
0:41:29.641,0:41:32.528
Têm este conceito[br]de Shape Expressions ligadas na Wikidata
0:41:32.529,0:41:35.005
e, especificamente, o caso de uso,[br]se entendi bem,
0:41:35.006,0:41:37.183
é exatamente o que estamos a fazer[br]na Gene Wiki.
0:41:37.184,0:41:40.841
Têm a Disease Ontology[br]que é posta na Wikidata
0:41:40.842,0:41:44.681
e, depois, dados de doenças entram[br]e aplicamos Shape Expressions
0:41:44.682,0:41:47.247
para ver se encaixam com este thesaurus.
0:41:47.248,0:41:50.719
Existem outros thesaurus, ou outras[br]ontologias, para vocabulários controlados
0:41:50.719,0:41:52.619
que ainda precisam[br]de ser inseridos na Wikidata.
0:41:52.619,0:41:55.401
E é exatamente por isso que[br]o Shape Expressions é tão interessante.
0:41:55.402,0:41:57.963
Porque podemos ter uma Shape Expression[br]para a Disease Ontology,
0:41:57.964,0:41:59.644
uma Shape Expression para o MeSH.
0:41:59.645,0:42:01.761
Pode dizer: "Agora [br]quero verificar a qualidade."
0:42:01.762,0:42:04.059
Porque também tem,[br]na Wikidata, o contexto
0:42:04.060,0:42:06.246
de quando tem um vocabulário controlado.
0:42:06.756,0:42:09.568
Diz que a qualidade[br]está de acordo com isto
0:42:09.568,0:42:11.636
mas pode ter uma[br]comunidade discordante.
0:42:11.636,0:42:13.720
Por isso, as ferramentas[br]já estão implementadas,
0:42:13.720,0:42:16.082
mas, agora, precisamos[br]de criar esses modelos
0:42:16.082,0:42:18.144
e aplicá-los[br]aos diferentes casos de uso.
0:42:18.811,0:42:20.921
(Interveniente 2) [br]Uma Shape Expression é muito útil
0:42:20.922,0:42:25.928
logo que tenha a ontologia externa[br]mapeada na Wikidata.
0:42:25.929,0:42:29.474
Mas, o meu problema é que[br]está a chegar aquele ponto.
0:42:29.475,0:42:34.881
Que é perceber quanto da ontologia externa[br]não está ainda na Wikidata
0:42:34.882,0:42:36.256
e onde estão as lacunas.
0:42:36.257,0:42:40.660
É aí que penso que[br]ter ferramentas mais robustas
0:42:40.660,0:42:44.286
para ver o que está em falta[br]de ontologias externas
0:42:44.286,0:42:45.537
seria muito útil.
0:42:47.348,0:42:49.062
(Andra) O maior problema aqui
0:42:49.062,0:42:51.201
é, não tanto as ferramentas,[br]mas mais o licenciamento.
0:42:51.803,0:42:55.249
Pôr as ontologias na Wikidata[br]é, na realidade, muito fácil.
0:42:55.250,0:42:59.295
Mas, a maioria das ontologias têm,[br]como é que o posso dizer educadamente,
0:42:59.965,0:43:03.256
licenciamento restritivo e, por isso,[br]não são compatíveis com a Wikidata.
0:43:03.778,0:43:06.678
(Interveniente 2) Existe um enorme número[br]de thesaurus do setor público
0:43:06.678,0:43:08.129
em setores culturais.
0:43:08.129,0:43:10.911
- (Andra) Então precisamos de falar.[br]- (Interveniente 2) Sem problema.
0:43:10.911,0:43:12.384
(Andra) Então, precisamos de falar.
0:43:13.624,0:43:16.362
(Interveniente 3) O comentário[br]que quero fazer
0:43:16.362,0:43:19.192
é uma resposta para o James.
0:43:19.822,0:43:22.401
O que acontece é que[br]hierarquias fazem gráficos
0:43:22.374,0:43:24.041
e quando queremos...
0:43:24.429,0:43:28.888
Quero falar acerca de um[br]problema comum em hierarquias,
0:43:28.889,0:43:30.820
que são hierarquias circulares.
0:43:30.821,0:43:33.796
Elas voltam umas às outras[br]quando há um problema.
0:43:33.796,0:43:35.920
Não devíamos ter isso com hierarquias.
0:43:37.022,0:43:41.295
É engraçado que isto[br]acontece muito em categorias na Wikipedia.
0:43:41.295,0:43:42.990
Temos muitos círculos em categorias.
0:43:43.898,0:43:46.612
Mas, a boa notícia é que...
0:43:47.713,0:43:51.582
Tecnicamente, é um problema completo PMP,[br]por isso não o conseguimos encontrar,
0:43:51.583,0:43:53.804
e facilmente, se construirmos[br]um gráfico a partir disso,
0:43:54.473,0:43:57.046
mas há muitas formas[br]que foram desenvolvidas
0:43:57.047,0:44:00.624
para encontrar problemas[br]nestes gráficos de hierarquia.
0:44:00.625,0:44:04.860
Existe um artigo[br]chamado Finding Cycles...
0:44:04.861,0:44:07.955
Breaking Cycles in Noisy Hierachies.
0:44:07.956,0:44:12.671
Tem sido usado para ajudar[br]na classificação da Wikipedia inglesa.
0:44:12.672,0:44:17.141
Podemos pegar nisto[br]e aplicar estas hierarquias na Wikidata
0:44:17.142,0:44:19.540
e, depois, podemos encontrar[br]coisas que são problemáticas
0:44:19.541,0:44:22.481
e remover as que estão[br]a causar problemas.
0:44:22.482,0:44:24.593
E encontrar os problemas, na realidade.
0:44:25.594,0:44:27.960
Isto é só uma ideia, para que...
0:44:28.660,0:44:31.380
(Interveniente 2) Está tudo muito bem,[br]mas acho que está a subestimar
0:44:31.380,0:44:35.403
o número de más relações de subclasse[br]que nós temos.
0:44:35.403,0:44:39.680
É como ter uma cidade[br]que está completamente no país errado.
0:44:40.250,0:44:44.884
Existem ferramentas para geografia,[br]para identificar isso.
0:44:45.375,0:44:49.202
Precisamos de ter[br]muito melhores ferramentas em hierarquias
0:44:49.202,0:44:53.477
para identificar onde o equivalente[br]do item para o país
0:44:53.478,0:44:57.673
esteja a faltar completamente[br]ou se foi subclassificado
0:44:57.674,0:45:01.804
como algo que não signifique[br]algo completamente diferente.
0:45:02.804,0:45:07.165
(Lydia) Sim, penso[br]que está a chegar a algo
0:45:07.166,0:45:12.024
que eu e a minha equipa ouvimos sempre[br]de pessoas que reutilizam os nossos dados.
0:45:12.025,0:45:13.991
Com frequência, também.
0:45:15.002,0:45:16.638
Dados pontuais podem ser ótimos,
0:45:16.639,0:45:20.163
mas, se temos de olhar[br]para a ontologia, etc,
0:45:20.164,0:45:21.857
torna-se muito...
0:45:22.388,0:45:26.437
Penso que um dos grandes problems[br]que causa isto
0:45:26.437,0:45:30.736
é que muita da edição na Wikidata
0:45:30.740,0:45:34.545
acontece baseada[br]num item individual, não é?
0:45:34.545,0:45:36.201
Fazemos uma edição nesse item
0:45:37.653,0:45:42.075
sem nos darmos conta que isto[br]pode ter consequências globais
0:45:42.075,0:45:44.245
no resto do gráfico, por exemplo.
0:45:44.245,0:45:50.040
E, se as pessoas têm ideias[br]sobre como tornar isto mais visível,
0:45:50.041,0:45:53.185
as consequências de uma[br]edição local individual,
0:45:54.005,0:45:56.537
penso que seria útil explorá-lo.
0:45:57.550,0:46:01.583
Para melhor mostrar às pessoas[br]as consequências das suas edições,
0:46:01.584,0:46:03.434
que elas podem estar a fazer de boa fé,
0:46:04.481,0:46:05.481
quais são elas.
0:46:07.619,0:46:12.237
(Risos) Muito bem. Vamos começar consigo,[br]depois você, depois você e depois você.
0:46:12.237,0:46:13.921
(Interveniente 3) Bem, depois do debate,
0:46:13.922,0:46:18.262
só para exprimir a minha concordância[br]com o que o James estava a dizer.
0:46:18.263,0:46:22.417
Essencialmente, parece[br]que a coisa mais perigosa é a hierarquia.
0:46:22.417,0:46:23.950
Não a hierarquia, mas, de forma geral,
0:46:23.950,0:46:28.022
a semântica das relações de subclasse[br]vistas na Wikidata, certo?
0:46:28.022,0:46:32.561
Estive a estudar linguagens recentemente,[br]apenas para esta conferência
0:46:32.562,0:46:35.257
e, por exemplo, encontram-se muitos casos
0:46:35.257,0:46:39.463
onde a linguagem é parte de[br]e uma subclasse da mesma coisa.
0:46:39.923,0:46:43.577
Podemos dizer que temos[br]uma ontologia flexível.
0:46:43.577,0:46:46.256
A Wikidata dá-nos a liberdade[br]de exprimir isso, por vezes.
0:46:46.256,0:46:47.257
Porque, por exemplo
0:46:47.258,0:46:50.721
essa ontologia de linguagens[br]é também politicamente complicada, certo?
0:46:50.722,0:46:55.038
É bom estar numa posição que nos permita[br]expressar um nível de incerteza.
0:46:55.038,0:46:57.983
Mas imaginem alguém a querer[br]fazer leitura ótica a partir disso.
0:46:57.984,0:46:59.468
É mesmo problemático.
0:46:59.468,0:47:00.468
E, depois,
0:47:00.469,0:47:03.686
não penso que a ontologia[br]seja algo que foi importada de algures,
0:47:03.687,0:47:05.490
é algo que é originalmente nosso.
0:47:05.491,0:47:08.321
Diria que foi colhida da Wikipedia[br]mesmo no início.
0:47:08.322,0:47:11.324
Por isso pergunto-me... Esta[br]coisa do Shape Expressions é ótima,
0:47:11.325,0:47:15.575
e também validadora e reparadora.[br]A ontologia da Wikidata
0:47:15.576,0:47:18.191
a partir de recursos externos[br]é uma bela ideia.
0:47:18.886,0:47:19.906
No final,
0:47:19.906,0:47:25.440
acabaremos por refletir[br]as ontologias externas na Wikidata?
0:47:25.441,0:47:28.651
E também, o que fazemos[br]com a parte central da nossa ontologia
0:47:28.652,0:47:30.642
que nunca é colhida[br]a partir de recursos externos.
0:47:30.643,0:47:31.978
Como é que solucionamos isso?
0:47:31.979,0:47:35.276
Penso, realmente, que isso[br]será um problema por si só.
0:47:35.277,0:47:39.010
Teremos de nos focar nisso[br]independentemente da ideia
0:47:39.010,0:47:41.191
de validar a ontologia com algo externo.
0:47:42.642,0:47:44.722
(Lydia aponta para a audiência)
0:47:49.353,0:47:53.379
(Interveniente 4) Restrições e formas[br]são muito impressionantes,
0:47:53.380,0:47:55.185
aquilo que podemos fazer com elas,
0:47:55.205,0:47:58.481
mas o ponto principal[br]não está claro.
0:47:58.482,0:48:03.229
Porque agora podemos tornar mais explícito[br]o que esperamos dos dados.
0:48:03.229,0:48:06.893
Antes, cada um tinha de escrever[br]as suas próprias ferramentas e scripts.
0:48:06.894,0:48:10.601
Por isso, é mais visível[br]e podemos discuti-lo.
0:48:10.602,0:48:13.641
Mas porque não é sobre[br]o que está errado ou certo,
0:48:13.642,0:48:15.870
é acerca de uma expectativa.
0:48:15.870,0:48:18.105
Vocês terão[br]diferentes expectativas e debates
0:48:18.106,0:48:20.737
acerca de como queremos[br]modelar as coisas na Wikidata
0:48:21.246,0:48:23.095
e isto...
0:48:23.096,0:48:26.280
O estado atual é apenas[br]um passo na direção
0:48:26.281,0:48:28.041
porque agora precisamos
0:48:28.042,0:48:31.041
de muito conhecimento especializado[br]para lidarmos com isto.
0:48:31.042,0:48:35.721
Precisamos de formas melhores[br]de visualizar esta restrição,
0:48:35.722,0:48:38.259
para a transformar,[br]porventura em linguagem natural,
0:48:38.259,0:48:40.939
para que as pessoas[br]melhor a possam entender.
0:48:40.939,0:48:43.768
Mas não é tanto[br]acerca do errado ou do certo.
0:48:44.925,0:48:45.925
(Lydia) Sim.
0:48:50.986,0:48:53.893
(Interveniente 5) Para questões[br]de qualidade, só quero fazer eco...
0:48:53.894,0:48:57.010
Definitivamente, encontrei muitos[br]dos problemas. Encontrei...
0:48:58.838,0:49:02.330
diferenças de opinião[br]entre "instâncias de" versus "subclasse".
0:49:02.331,0:49:05.963
Diria, erros, nestas situações.
0:49:05.963,0:49:11.521
E tentar encontrá-los[br]tem sido um processo moroso.
0:49:11.522,0:49:14.840
O que encontrei foi:[br]"Se eu encontrar itens de grande impressão
0:49:14.840,0:49:16.051
que são algo...
0:49:16.052,0:49:18.762
e depois usar[br]todas as instâncias das subclasses
0:49:18.762,0:49:21.628
para encontrar[br]todas as declarações derivadas disto."
0:49:21.628,0:49:26.215
Esta é uma forma muito útil[br]de olhar para estes erros.
0:49:26.215,0:49:28.567
Mas eu estava curioso para saber[br]se o Shape Expressions...
0:49:29.841,0:49:31.582
se há...
0:49:31.583,0:49:35.355
Se isto pode ser usado como ferramenta[br]para ajudar a resolver estas questões.
0:49:35.355,0:49:37.074
Mas sim...
0:49:40.514,0:49:42.925
(Interveniente 6) Se tem[br]uma pegada estrutural...
0:49:45.910,0:49:49.310
Se tem uma pegada estrutural[br]que podemos... que seja falsificável.
0:49:49.310,0:49:51.191
Podemos olhar para isso[br]e dizer: "Está errado."
0:49:51.192,0:49:52.670
Então sim, podemos fazer isso.
0:49:52.671,0:49:56.921
Mas se for só tentar mapeá-lo [br]para objetos do mundo real
0:49:56.922,0:49:59.082
então vai precisar[br]de muitos cérebros.
0:50:05.768,0:50:08.631
(Interveniente 7) Olá. Pablo Mendes[br]do Siri Knowledge da Apple.
0:50:09.154,0:50:12.770
Estamos aqui para descobrir como ajudar[br]o projeto e a comunidade,
0:50:12.770,0:50:15.645
mas a Cristina cometeu o erro[br]de perguntar o que queríamos.
0:50:16.471,0:50:20.052
(risos) Por isso, penso[br]que uma das coisas que gostaria de ver
0:50:20.958,0:50:23.521
gira à volta da verificabilidade,
0:50:23.522,0:50:26.372
que é um dos princípios chave[br]do projeto na comunidade.
0:50:27.062,0:50:28.590
E confiabilidade.
0:50:28.590,0:50:32.412
Nem todas as declarações são iguais,[br]algumas são fortemente disputadas,
0:50:32.413,0:50:33.653
outras são fáceis de adivinhar.
0:50:33.654,0:50:35.924
A data de nascimento de alguém[br]pode ser verificada,
0:50:35.924,0:50:39.082
como viram hoje na Keynote, [br]questões de género são mais complicadas.
0:50:40.205,0:50:42.130
Podem discutir um pouco do que sabem
0:50:42.131,0:50:47.271
nesta área de qualidade de dados, acerca[br]de confiabilidade e de verificabilidade?
0:50:51.186,0:50:52.936
(risos)
0:50:55.442,0:50:58.138
Se não há muito,[br]gostaria de ver muito mais. (risos)
0:51:00.646,0:51:01.646
(Lydia) Sim.
0:51:03.734,0:51:06.968
Aparentemente, não temos muito a dizer[br]acerca disso. (risos)
0:51:08.754,0:51:12.299
(Andra) Penso que podemos fazer muito,[br]mas tive uma discussão consigo ontem.
0:51:12.300,0:51:15.774
O meu exemplo preferido que, soube ontem,[br]foi descontinuado,
0:51:15.774,0:51:20.281
é, se forem ao Q2, que é Terra,
0:51:20.282,0:51:23.343
existe uma declaração[br]que reivindica que a Terra é plana.
0:51:24.183,0:51:26.055
Adoro esse exemplo
0:51:26.056,0:51:28.391
porque há uma comunidade[br]por aí que afirma isso
0:51:28.392,0:51:30.417
e eles têm recursos verificáveis.
0:51:30.418,0:51:32.254
Por isso, penso que seja um caso genuíno.
0:51:32.255,0:51:34.641
Não deve ser descontinuado,[br]deve estar na Wikidata.
0:51:34.642,0:51:40.385
E penso que o Shape Expressions[br]pode ser fundamental aqui,
0:51:40.386,0:51:41.832
porque podem dizer:
0:51:41.833,0:51:44.856
"Sim, estou mesmo interessado[br]neste caso de uso",
0:51:44.857,0:51:47.129
ou que este é um caso de uso[br]com o qual não concordam.
0:51:47.130,0:51:51.059
Mas também pode haver um caso de uso[br]onde dizem: "Estou interessado."
0:51:51.059,0:51:53.449
Há este exemplo. Dizem:[br]"Tenho glucose."
0:51:53.449,0:51:55.841
E a glucose, se forem um biólogo,
0:51:55.842,0:52:00.176
As restrições químicas[br]da molécula de glucose não vos interessam,
0:52:00.177,0:52:03.201
apenas... tudo o que seja[br]glucose é o mesmo.
0:52:03.202,0:52:05.973
Mas, se forem um químico,[br]arrepiam-se ao ouvir isso.
0:52:05.973,0:52:08.191
Têm 200 e tal...
0:52:08.191,0:52:10.443
Depois, podem ter[br]Shape Expressions múltiplas.
0:52:10.443,0:52:12.721
Vou entrar com...[br]Estou no ponto de vista de um químico,
0:52:12.722,0:52:13.887
vou aplicar isso.
0:52:13.887,0:52:16.691
E depois, dizem,[br]"sou um caso de uso de um biólogo",
0:52:16.691,0:52:18.524
e aplicam essa Shape Expression.
0:52:18.524,0:52:20.358
E, quando quiserem colaborar,
0:52:20.358,0:52:22.784
deviam falar com o Eric acerca[br]dos mapas ShEx.
0:52:24.930,0:52:28.873
Esta jornada está apenas a começar.
0:52:28.873,0:52:32.238
Mas acredito que seja muito[br]instrumental nessa área.
0:52:34.292,0:52:35.535
(Lydia) Ali.
0:52:37.949,0:52:39.168
(risos)
0:52:40.597,0:52:46.035
(Interveniente 8) Tive várias ideias[br]para alguns pontos na discussão,
0:52:46.035,0:52:50.902
por isso, vou tentar não perder...[br]Tive três ideias, por isso...
0:52:52.394,0:52:55.201
Baseado no que o James disse há pouco,
0:52:55.202,0:52:59.001
temos um grande problema[br]na Wikidata desde o início
0:52:59.002,0:53:01.574
para a ontologia superior.
0:53:02.363,0:53:05.339
Falámos acerca disso[br]há dois anos na WikidataCon
0:53:05.340,0:53:07.432
e falámos acerca disso na Wikimania.
0:53:07.432,0:53:09.818
Sempre que temos um encontro da Wikidata
0:53:09.818,0:53:11.656
estamos a falar sobre isso.
0:53:11.656,0:53:15.782
Porque é um grande problema[br]que está muito visível:
0:53:15.783,0:53:23.118
que entidade é, com que trabalho é,[br]que género é, arte,
0:53:23.118,0:53:25.461
são realmente o maior conceito.
0:53:26.195,0:53:33.117
E isso é um ponto muito fraco[br]na ontologia global
0:53:33.118,0:53:37.453
porque as pessoas[br]tentam fazer limpezas regularmente
0:53:38.017,0:53:41.047
e quebram tudo o que está a montante.
0:53:42.516,0:53:48.649
Penso que alguns de vocês[br]se devem lembrar do tipo que, em boa-fé,
0:53:48.649,0:53:51.785
quebrou todas as cidades do mundo.
0:53:51.785,0:53:57.537
Já não eram itens geográficos. Por isso,[br]violações de restrições por todo o lado.
0:53:58.720,0:54:00.278
E foi feito em boa fé,
0:54:00.278,0:54:03.623
porque ele estava a corrigir[br]um erro num item,
0:54:04.170,0:54:05.732
mas quebrou tudo.
0:54:06.349,0:54:09.373
Não tenho a certeza de como[br]podemos resolver isso
0:54:10.216,0:54:15.709
porque não há, atualmente, nenhuma[br]instituição externa que possamos copiar
0:54:15.710,0:54:18.490
porque toda a gente está a trabalhar em...
0:54:19.154,0:54:22.041
Se eu for base de dados[br]de artes performativas
0:54:22.042,0:54:24.601
limito-me a ir[br]à etiqueta de artes performativas
0:54:24.601,0:54:29.361
ou não irei ao conceito filosófico[br]do que é aquela entidade
0:54:29.362,0:54:31.201
e isso é, na realidade...
0:54:31.202,0:54:34.561
Não conheço nenhuma base de dados[br]que esteja a trabalhar a este nível,
0:54:34.562,0:54:36.827
mas esse é o ponto mais fraco da Wikidata.
0:54:37.936,0:54:40.812
E, provavelmente, quando falamos[br]de qualidade de dados,
0:54:40.812,0:54:44.034
isso é uma grande parte, por isso...
0:54:44.034,0:54:48.569
Penso que é o mesmo[br]que afirmamos em...
0:54:48.569,0:54:50.452
Desculpem, estou a mudar de assunto,
0:54:51.401,0:54:55.774
mas afirmámos, em diferentes sessões[br]acerca de qualidade,
0:54:55.774,0:54:59.398
que alguns de nós estão a fazer[br]um bom trabalho de modelação,
0:54:59.399,0:55:01.580
estamos a fazer ShEx,[br]estamos a fazer coisas como essa.
0:55:01.580,0:55:07.655
As pessoas não o veem na Wikidata,[br]não veem o ShEx,
0:55:07.655,0:55:10.392
não veem o WikiProject[br]na página de discussão
0:55:10.393,0:55:14.958
e, por vezes,[br]nem veem a página de topo das propriedades
0:55:14.958,0:55:19.628
que diz, explicitamente:[br]a) Esta propriedade é usada para isto.
0:55:19.628,0:55:23.887
Como na semana passada.[br]Eu adicionei restrições a uma propriedade.
0:55:23.888,0:55:28.690
A restrição estava escrita explicitamente[br]na discussão da criação da propriedade.
0:55:28.690,0:55:34.548
Eu criei apenas a parte técnica[br]de adicionar a restrição, e alguém:
0:55:34.548,0:55:37.182
"O quê? Quebraste [br]todas as minhas edições!"
0:55:37.183,0:55:41.542
Ele esteve a usar a propriedade[br]erradamente nos útlimos dois anos.
0:55:41.542,0:55:46.868
A propriedade era bastante clara,[br]mas não havia avisos.
0:55:46.869,0:55:48.872
É o mesmo no Pink Pony.
0:55:48.872,0:55:52.082
Dissemos, na Wikimedia que deviamos[br]tornar o WikiProject mais visível
0:55:52.082,0:55:54.719
ou tornar o ShEx mais visível, mas...
0:55:54.719,0:55:56.917
E isso foi o que a Cristina disse.
0:55:56.917,0:56:02.368
Temos um problema de visibilidade,[br]do que são as soluções.
0:56:02.368,0:56:04.242
E, nesta sessão,
0:56:04.242,0:56:06.862
estamos todos a falar acerca[br]de como criar mais ShEx,
0:56:06.863,0:56:10.727
ou de facilitar o trabalho[br]das pessoas que estão a fazer a limpeza.
0:56:11.605,0:56:15.835
Mas, estamos a limpar[br]desde o primeiro dia da Wikidata
0:56:15.836,0:56:18.223
e, globalmente, estamos a perder.
0:56:19.123,0:56:22.960
Estamos a perder porque,[br]se eu sei que os nomes são complicados,
0:56:22.961,0:56:26.162
mas eu sou a única a fazer[br]o trabalho de limpeza...
0:56:26.662,0:56:29.671
A pessoa que adicionou[br]nome de script em Latim
0:56:29.672,0:56:31.584
a todos os investigadores chineses.
0:56:32.088,0:56:35.616
Vou demorar meses a limpar isso[br]e não o posso fazer sozinha.
0:56:35.616,0:56:38.777
E ele fez um lote maciço.
0:56:38.777,0:56:40.241
Por isso, precisamos realmente...
0:56:40.242,0:56:44.158
Temos um problema de visibilidade[br]mais do que um problema de ferramentas,
0:56:44.158,0:56:45.733
porque temos muitas ferramentas.
0:56:45.733,0:56:50.255
(Lydia) Bem, infelizmente[br]mostraram-me um sinal. (risos)
0:56:50.256,0:56:52.001
Por isso, precisamos de terminar.
0:56:52.001,0:56:53.603
Muito obrigada pelos vossos comentários.
0:56:53.603,0:56:56.611
Espero que continuem a debater[br]durante o resto do dia.
0:56:56.611,0:56:58.020
Obrigada pelo vosso contributo.
0:56:58.359,0:57:03.444
(aplausos)