1
00:00:05,945 --> 00:00:09,476
Olá a todos,
ao painel de Qualidade de Dados.
2
00:00:10,198 --> 00:00:13,671
A qualidade dos dados é importante porque
cada vez mais pessoas
3
00:00:13,672 --> 00:00:16,229
dependem do bom estado dos nossos dados.
4
00:00:16,229 --> 00:00:20,029
Assim, vamos falar da qualidade dos dados.
5
00:00:22,469 --> 00:00:26,643
Haverão quatro oradores que farão
breves introduções acerca de tópicos
6
00:00:26,643 --> 00:00:29,720
relacionados com qualidade de dados.
Depois, responderemos a perguntas.
7
00:00:30,130 --> 00:00:32,234
O primeiro é o Lucas.
8
00:00:34,385 --> 00:00:35,385
Obrigado.
9
00:00:35,901 --> 00:00:39,899
Olá. O meu nome é Lucas e vou começar
com uma síntese
10
00:00:39,899 --> 00:00:43,806
das ferramentas de qualidade de dados
que já existem na Wikidata
11
00:00:43,807 --> 00:00:46,109
e também de algumas coisas
que teremos em breve.
12
00:00:48,452 --> 00:00:50,623
Agrupei-as em temas gerais
13
00:00:50,623 --> 00:00:53,761
que são a maior visibilidade dos erros,
tornar os problemas accionáveis,
14
00:00:53,762 --> 00:00:56,932
obter mais visibilidade sobre os dados
para que mais pessoas notem os problemas,
15
00:00:56,945 --> 00:01:02,616
corrigir algumas fontes comuns de erros,
manter a qualidade dos dados existentes
16
00:01:02,616 --> 00:01:03,966
e também a curadoria humana.
17
00:01:05,063 --> 00:01:10,104
As que estão atualmente disponíveis
começam com as restrições de propriedades.
18
00:01:10,104 --> 00:01:12,421
Já o devem ter visto se usam a Wikidata.
19
00:01:12,422 --> 00:01:14,029
Podem, por vezes, obter estes ícones
20
00:01:14,530 --> 00:01:17,241
que verificam
a consistência interna dos dados.
21
00:01:17,242 --> 00:01:20,800
Por exemplo,
se um evento se seguir a outro,
22
00:01:20,801 --> 00:01:23,760
então a este último deve seguir-se este.
23
00:01:23,761 --> 00:01:27,161
O que estava aparentemente em falta
no item WikidataCon.
24
00:01:27,162 --> 00:01:29,810
Não tenho a certeza, esta funcionalidade
existe há apenas uns dias.
25
00:01:30,040 --> 00:01:34,681
Também existe... Se isto for
demasiado simples ou condicionante,
26
00:01:34,682 --> 00:01:38,080
podem escrever quaisquer verificações
que queiram usando o Query Service
27
00:01:38,081 --> 00:01:39,842
que é útil para várias coisas,
28
00:01:39,843 --> 00:01:44,543
mas também pode ser usado
para encontrar erros.
29
00:01:44,544 --> 00:01:46,974
Por exemplo, se descobrirem
uma ocorrência de um erro,
30
00:01:46,975 --> 00:01:49,709
podem verificar se existem outros locais
31
00:01:49,710 --> 00:01:51,958
onde as pessoas tenham feito
um erro parecido
32
00:01:51,958 --> 00:01:53,438
e descobri-lo com o Query Service.
33
00:01:53,439 --> 00:01:57,875
Também podem combinar os dois e procurar
violações de restrições no Query Service,
34
00:01:57,875 --> 00:02:01,240
como por exemplo,
apenas violações que ocorram numa área
35
00:02:01,241 --> 00:02:03,762
ou WikiProject que seja
relevantes para vocês.
36
00:02:03,762 --> 00:02:06,828
Embora, atualmente, os resultados
não estejam completos. Infelizmente.
37
00:02:08,422 --> 00:02:09,877
Existe a avaliação de revisões.
38
00:02:10,690 --> 00:02:12,666
Penso que seja parte
das alterações recentes.
39
00:02:12,667 --> 00:02:16,217
Podem também adicioná-la à vossa lista
de visualização: uma avaliação automática
40
00:02:16,217 --> 00:02:20,249
da probabilidade desta edição
ter sido feita em boa ou má-fé
41
00:02:20,250 --> 00:02:22,312
e da probabilidade de causar ou não danos.
42
00:02:22,313 --> 00:02:24,205
Penso que sejam essas as duas dimensões.
43
00:02:24,206 --> 00:02:25,686
Podem, se quiserem,
44
00:02:25,687 --> 00:02:29,898
concentrar a busca apenas
nas edições danosas mas feitas com boa-fé.
45
00:02:29,899 --> 00:02:32,523
Se se estiverem a sentir particularmente
amigáveis e acolhedores
46
00:02:32,524 --> 00:02:37,121
podem dizer a estes editores:
"Obrigado pela contribuição.
47
00:02:37,122 --> 00:02:40,560
Deviam tê-la feito desta maneira,
mas obrigado de qualquer forma."
48
00:02:40,561 --> 00:02:42,186
E, se não estiverem com essa disposição,
49
00:02:42,187 --> 00:02:44,452
podem rever as edições
danosas feitas com má-fé
50
00:02:44,453 --> 00:02:45,573
e reverter o vandalismo.
51
00:02:47,544 --> 00:02:49,761
Existe também algo semelhante:
avaliação de entidades.
52
00:02:49,762 --> 00:02:52,590
Em vez de classificar uma edição,
a alteração que foi feita,
53
00:02:52,591 --> 00:02:53,904
vão classificar toda a revisão.
54
00:02:53,904 --> 00:02:56,483
Penso que seja a mesma medida de qualidade
55
00:02:56,483 --> 00:02:59,863
mencionada pela Lydia
no início da conferência.
56
00:03:00,372 --> 00:03:04,569
Isto fornece um script de utilizador aqui
em cima e uma pontuação de um a cinco,
57
00:03:04,570 --> 00:03:08,176
penso eu, da qualidade do item corrente.
58
00:03:10,043 --> 00:03:15,528
A ferramenta de fontes primárias é para
bases de dados que queiram importar,
59
00:03:15,528 --> 00:03:18,414
mas que não têm qualidade suficiente
para entrar diretamente na Wikidata.
60
00:03:18,414 --> 00:03:21,085
Ao invés, adicionam-nas à ferramenta
de fontes primárias e, depois,
61
00:03:21,085 --> 00:03:22,956
as pessoas podem decidir
62
00:03:22,956 --> 00:03:26,024
se devem adicionar
estas declarações individuais ou não.
63
00:03:28,595 --> 00:03:31,607
Mostrar coordenadas como mapas:
é uma funcionalidade conveniente
64
00:03:31,607 --> 00:03:33,588
mas também é útil
para controlo de qualidade.
65
00:03:33,588 --> 00:03:36,937
Por exemplo, se virem que isto devia ser
o escritório da Wikimedia na Alemanha
66
00:03:36,938 --> 00:03:39,400
e as coordenadas forem algures
no Oceano Índico,
67
00:03:39,401 --> 00:03:41,529
saberão que algo está errado, aqui.
68
00:03:41,530 --> 00:03:44,790
E podem vê-lo mais facilmente
do que se tivessem apenas os números.
69
00:03:46,382 --> 00:03:49,576
Esta é uma engenhoca chamada
indicador de integridade relativa,
70
00:03:49,577 --> 00:03:52,480
que apresenta este pequeno ícone
71
00:03:53,007 --> 00:03:55,419
que vos mostra o quão completo
pensa que este item está
72
00:03:55,419 --> 00:03:57,672
e que propriedades
é mais provável que estejam em falta.
73
00:03:57,672 --> 00:03:59,769
O que é muito útil
se estiverem a editar um item,
74
00:03:59,769 --> 00:04:03,172
estiverem numa área com a qual
não estejam muito familiarizados
75
00:04:03,172 --> 00:04:05,661
e não saibam quais são
as propriedades certas a usar.
76
00:04:05,662 --> 00:04:08,230
Nesse caso, esta é
uma miniaplicação muito útil.
77
00:04:09,604 --> 00:04:11,401
Temos o Shape Expressions.
78
00:04:11,402 --> 00:04:15,624
Penso que a Andra ou o Jose
vão falar mais sobre elas
79
00:04:15,624 --> 00:04:19,757
mas são uma forma muito poderosa
de comparar os dados que têm
80
00:04:19,758 --> 00:04:20,758
com o esquema.
81
00:04:20,759 --> 00:04:22,680
Como, que declaração devem ter
certas entidades,
82
00:04:22,681 --> 00:04:25,677
a que outras entidades devem estar ligadas
e como essas devem ser.
83
00:04:26,229 --> 00:04:29,374
Podem detetar problemas dessa forma.
84
00:04:30,366 --> 00:04:32,361
Penso que... Não. Ainda há mais.
85
00:04:32,362 --> 00:04:34,321
O Integraality ou painel de propriedades.
86
00:04:34,322 --> 00:04:36,773
Dá-vos uma visão geral
dos dados já existentes.
87
00:04:36,774 --> 00:04:39,147
Por exemplo, isto é do
WikiProject Red Pandas.
88
00:04:39,657 --> 00:04:41,681
Podem ver que temos
um sexo ou género
89
00:04:41,682 --> 00:04:43,561
para quase todos os pandas-vermelhos.
90
00:04:43,561 --> 00:04:46,854
A data de nascimento varia bastante
consoante o zoo de onde vêm
91
00:04:46,854 --> 00:04:50,255
e quase não temos
pandas mortos, o que é maravilhoso
92
00:04:50,256 --> 00:04:51,346
(risos)
93
00:04:51,437 --> 00:04:52,600
porque são tão fofos.
94
00:04:53,699 --> 00:04:55,654
Por isso, isto também é útil.
95
00:04:56,377 --> 00:04:59,185
Cá está. Agora para o que está para vir.
96
00:04:59,889 --> 00:05:03,784
Wikidata Bridge, anteriormente conhecida
como editor de clientes.
97
00:05:03,785 --> 00:05:07,076
Ou seja, editar dados a partir
de caixas de informação da Wikipedia.
98
00:05:07,675 --> 00:05:11,725
O que, por um lado, dará
mais visibilidade aos dados
99
00:05:11,725 --> 00:05:13,441
pois mais pessoas os conseguirão ver ali.
100
00:05:13,441 --> 00:05:18,841
E, assim se espera, encorajará uma maior
utilização da Wikidata nas Wikipedias.
101
00:05:18,841 --> 00:05:20,920
Isto significa
que mais pessoas podem reparar
102
00:05:20,921 --> 00:05:23,857
se, por exemplo, há dados desatualizados
que precisam de ser atualizados,
103
00:05:23,857 --> 00:05:27,060
ao invés de só os verem
na própria Wikidata.
104
00:05:28,630 --> 00:05:30,656
Existem também as referências corrompidas.
105
00:05:30,657 --> 00:05:33,959
Aqui, a ideia é que, se editarem
uma declaração de valor,
106
00:05:34,683 --> 00:05:37,279
pode ser preciso atualizar também
as referências,
107
00:05:37,280 --> 00:05:39,373
a não ser
que seja apenas uma gralha, ou similar.
108
00:05:39,897 --> 00:05:43,662
Estas referências corrompidas
dizem-no aos editores
109
00:05:43,663 --> 00:05:49,756
e também que os outros editores
vêm as outras edições que foram feitas
110
00:05:49,756 --> 00:05:52,471
que editaram uma declaração de valor
e não atualizaram a referência.
111
00:05:52,472 --> 00:05:56,766
Depois, podem limpar
e decidir se isso deve...
112
00:05:57,737 --> 00:05:59,566
Precisam de fazê-lo novamente
113
00:05:59,566 --> 00:06:02,796
ou está tudo correto e
não é necessário atualizar a referência.
114
00:06:03,543 --> 00:06:09,336
Tem relação com declarações assinadas.
Que têm origem numa preocupação, penso eu,
115
00:06:09,336 --> 00:06:12,355
que alguns fornecedores de dados têm de...
116
00:06:14,131 --> 00:06:17,231
Há uma declaração que é referenciada
através na UNESCO, ou similar.
117
00:06:17,232 --> 00:06:19,872
Depois, de repente,
alguém vandaliza a declaração
118
00:06:19,873 --> 00:06:21,836
e eles estão preocupados que parecerá que
119
00:06:22,827 --> 00:06:26,992
essa organização, como a UNESCO,
ainda define este valor de vandalismo.
120
00:06:26,993 --> 00:06:28,706
Assim, com declarações assinadas,
121
00:06:28,706 --> 00:06:31,488
eles podem assinar
essa referência criptograficamente.
122
00:06:31,488 --> 00:06:33,562
Isso não vai prevenir edições à referência
123
00:06:34,169 --> 00:06:37,624
mas, se alguém vandalizar a declaração
124
00:06:37,624 --> 00:06:40,255
ou se a editar de alguma forma
a assinatura deixa de ser válida.
125
00:06:40,255 --> 00:06:43,401
E pode-se ver que isto não é exatamente
o que foi dito pela organização.
126
00:06:43,402 --> 00:06:47,064
Pode ser que seja uma boa edição
e eles devam assinar a nova declaração,
127
00:06:47,065 --> 00:06:49,851
mas também pode acontecer
que deva ser revertida.
128
00:06:51,203 --> 00:06:54,166
E também... Isto vai ser
muito empolgante, penso eu.
129
00:06:54,166 --> 00:06:56,846
O Citoid é um sistema fantástico
que existe na Wikipedia
130
00:06:57,379 --> 00:07:01,340
no qual podem colar um URL,
um identificador, um ISBN,
131
00:07:01,340 --> 00:07:04,759
um ID da Wikidata ou
outra coisa qualquer no Visual Editor,
132
00:07:05,260 --> 00:07:08,241
e ele devolve uma referência
bem formatada.
133
00:07:08,242 --> 00:07:11,049
Tem todos os dados que quiserem
e uma usabilidade excelente.
134
00:07:11,049 --> 00:07:14,337
Por comparação, na Wikidata,
se eu quiser adicionar uma referência,
135
00:07:14,338 --> 00:07:18,801
tenho, tipicamente, de adicionar o URL,
título, nome de autor,
136
00:07:18,802 --> 00:07:20,449
data de publicação da referência,
137
00:07:20,450 --> 00:07:25,141
recuperar as datas.
No mínimo, o que é aborrecido.
138
00:07:25,141 --> 00:07:29,261
Espera-se que a integração do Citoid
na Wikibase ajude com isso.
139
00:07:30,245 --> 00:07:33,604
Penso que é tudo o que tinha. Sim.
140
00:07:33,604 --> 00:07:36,400
Vou agora passar à Cristina.
141
00:07:37,788 --> 00:07:42,339
(aplausos)
142
00:07:43,780 --> 00:07:45,331
Olá, eu sou a Cristina.
143
00:07:45,331 --> 00:07:47,692
Sou uma cientista de investigação
da Universidade de Zurique
144
00:07:47,692 --> 00:07:51,417
e também um membro ativo
da comunidade Suíça.
145
00:07:52,698 --> 00:07:57,901
Quando eu e a Claudia Müller-Birn
submetemos isto à WikidataCon,
146
00:07:57,902 --> 00:08:02,420
o que queríamos era continuar a discussão
que começámos no início do ano
147
00:08:02,424 --> 00:08:07,442
numa workshop acerca de qualidade de dados
e também nalgumas sessões na Wikimania.
148
00:08:07,442 --> 00:08:10,535
Então, o objetivo desta palestra
é apresentar algumas ideias
149
00:08:10,536 --> 00:08:14,432
que estivemos a compilar,
nossas e da comunidade,
150
00:08:14,432 --> 00:08:16,560
e continuar a discussão.
151
00:08:16,561 --> 00:08:20,065
Gostaríamos de continuar
a interagir muito convosco.
152
00:08:21,557 --> 00:08:23,371
O que pensamos ser muito importante,
153
00:08:23,372 --> 00:08:27,580
é perguntarmos continuamente a todos
os tipos de utilizador na comunidade,
154
00:08:27,581 --> 00:08:32,240
o que realmente precisam,
que problemas têm com qualidade de dados.
155
00:08:32,240 --> 00:08:35,000
Não apenas os editores, mas também
as pessoas que estão a programar
156
00:08:35,000 --> 00:08:36,241
ou a consumir os dados.
157
00:08:36,242 --> 00:08:39,494
E também os investigadores que estão
a usar toda a história de edições
158
00:08:39,494 --> 00:08:41,120
para analisar o que está a acontecer.
159
00:08:42,367 --> 00:08:48,431
Assim, fizemos uma avaliação de cerca
de 80 ferramentas que existem na Wikidata
160
00:08:48,431 --> 00:08:52,380
e alinhámo-las com as diferentes
dimensões de qualidade de dados.
161
00:08:52,380 --> 00:08:54,360
O que vimos foi que, na realidade,
162
00:08:54,361 --> 00:08:57,681
muitas delas estão a vigiar,
a monitorizar a integridade,
163
00:08:57,682 --> 00:09:02,820
mas, na verdade... Algumas delas estão
também a capacitar interligações.
164
00:09:02,820 --> 00:09:08,442
Mas, existe uma grande necessidade
de ferramentas que vejam a diversidade,
165
00:09:08,443 --> 00:09:12,824
que é uma das coisas
que podemos ter na Wikidata.
166
00:09:12,824 --> 00:09:15,958
Especialmente, este princípio
do design da Wikidata,
167
00:09:15,959 --> 00:09:17,901
segundo o qual podemos ter pluralidade
168
00:09:17,902 --> 00:09:20,308
e declarações diferentes
com valores diferentes
169
00:09:20,914 --> 00:09:22,236
originárias de fontes diferentes.
170
00:09:22,236 --> 00:09:24,921
Visto ser uma fonte secundária,
não temos realmente ferramentas
171
00:09:24,922 --> 00:09:27,750
que nos digam
quantas declarações plurais existem,
172
00:09:27,751 --> 00:09:30,889
quantas podemos melhorar e como.
173
00:09:30,890 --> 00:09:32,833
Também não sabemos
174
00:09:32,833 --> 00:09:35,538
quais são todas as razões
para pluralidade que podemos ter.
175
00:09:36,491 --> 00:09:39,201
Assim, a partir destes
encontros da comunidade
176
00:09:39,201 --> 00:09:43,084
o que discutimos foram os desafios
que ainda necessitam de atenção.
177
00:09:43,084 --> 00:09:47,249
Por exemplo, que ter
todas estas comunidades de crowdsourcing
178
00:09:47,249 --> 00:09:50,813
é muito bom, já que pessoas diferentes
atacam partes diferentes dos dados
179
00:09:50,813 --> 00:09:51,833
ou do gráfico.
180
00:09:51,834 --> 00:09:54,615
Temos também conhecimentos
de origem diferentes.
181
00:09:54,616 --> 00:09:59,161
Mas, na realidade, é muito difícil alinhar
tudo em algo que seja homogéneo
182
00:09:59,162 --> 00:10:04,920
pois pessoas diferentes usam propriedades
diferentes de forma diferente.
183
00:10:04,920 --> 00:10:08,401
E estão também à espera de coisas
diferentes das descrições de entidade.
184
00:10:09,003 --> 00:10:12,721
Foi também dito
que são necessárias mais ferramentas
185
00:10:12,722 --> 00:10:16,000
que dêm uma melhor visão geral
do estado global das coisas.
186
00:10:16,000 --> 00:10:20,733
Ou seja, que entidades estão em falta,
em termos de integridade,
187
00:10:20,733 --> 00:10:25,013
mas também no que é que as pessoas
estão a trabalhar hoje em dia,
188
00:10:25,013 --> 00:10:26,121
na maior parte do tempo.
189
00:10:26,741 --> 00:10:30,516
Também foi mencionada com frequência
uma colaboração mais apertada
190
00:10:30,517 --> 00:10:33,311
entre, não só as linguagens,
mas os WikiProjects
191
00:10:33,311 --> 00:10:35,571
a as diferentes plataformas Wikimedia.
192
00:10:35,571 --> 00:10:38,859
Publicámos todos
os comentários transcritos
193
00:10:38,860 --> 00:10:42,959
de todas estas discussões
nestas ligações aqui, no Etherpads
194
00:10:42,959 --> 00:10:46,162
e também na página wiki da Wikimania.
195
00:10:46,162 --> 00:10:48,481
Algumas das soluções que apareceram
196
00:10:48,481 --> 00:10:53,001
vão na direção da partilha
das melhores práticas
197
00:10:53,001 --> 00:10:55,762
que estão a ser desenvolvidas
nos diferentes WikiProjects.
198
00:10:55,762 --> 00:10:57,659
Mas, as pessoas também querem ferramentas
199
00:10:57,659 --> 00:11:01,239
que ajudem a organizar
o trabalho em equipa
200
00:11:01,239 --> 00:11:03,845
ou, pelo menos, a perceber
quem está a trabalhar em quê.
201
00:11:03,845 --> 00:11:07,815
Também foi mencionada
a vontade de ter mais demonstrações
202
00:11:07,816 --> 00:11:12,019
e mais modelos que os ajudem
a criar coisas de uma forma melhor.
203
00:11:12,946 --> 00:11:15,111
E, pelo contacto que temos
204
00:11:15,111 --> 00:11:18,721
com organizações
de dados governamentais abertas
205
00:11:18,722 --> 00:11:20,068
e, em particular,
206
00:11:20,068 --> 00:11:23,102
eu estou em contacto com o cantão
e a cidade de Zurique,
207
00:11:23,102 --> 00:11:26,207
eles estão muito interessados
em trabalhar com a Wikidata
208
00:11:26,207 --> 00:11:29,896
porque querem que os seus dados
estejam acessíveis para todos
209
00:11:29,897 --> 00:11:33,681
no local onde as pessoas vão
e consultam ou acedem aos dados.
210
00:11:33,682 --> 00:11:36,550
Assim, para eles, algo que
seria mesmo interessante
211
00:11:36,551 --> 00:11:38,600
seria ter algum tipo
de indicador de qualidade
212
00:11:38,600 --> 00:11:41,082
tanto na wiki,
o que já acontece atualmente,
213
00:11:41,082 --> 00:11:42,801
como nos resultados SPARQL.
214
00:11:42,802 --> 00:11:46,066
Para saber se podem ou não confiar
dos dados da comunidade.
215
00:11:46,487 --> 00:11:49,630
Eles também querem saber que partes
dos seus próprios conjuntos de dados
216
00:11:49,630 --> 00:11:51,417
são úteis para a Wikidata.
217
00:11:51,418 --> 00:11:56,040
E adorariam ter uma ferramenta
que ajudasse a avaliar automaticamente.
218
00:11:56,041 --> 00:11:59,066
Também precisam
de algum tipo de metodologia ou ferramenta
219
00:11:59,067 --> 00:12:03,894
que os ajude a decidir se devem
ou não importar ou ligar os seus dados
220
00:12:03,894 --> 00:12:05,357
pois, nalguns casos,eles também têm
221
00:12:05,357 --> 00:12:07,947
os seus próprios conjuntos de dados
abertos ligados e não sabem
222
00:12:07,947 --> 00:12:11,707
se devem apenas incorporar os dados
ou continuar a criar ligações
223
00:12:11,707 --> 00:12:14,294
dos conjuntos de dados
à Wikidata e vice-versa.
224
00:12:14,950 --> 00:12:20,043
Também querem saber se os seus websites
forem referidos na Wikidata.
225
00:12:20,044 --> 00:12:23,361
E, quando correm essas consultas
no serviço de consultas
226
00:12:23,362 --> 00:12:24,848
recebem, muitas vezes, timeouts.
227
00:12:24,849 --> 00:12:28,181
Por isso, talvez devêssemos mesmo
criar mais ferramentas
228
00:12:28,181 --> 00:12:32,241
que os ajudem a obter estas respostas
para as suas questões.
229
00:12:32,241 --> 00:12:33,938
(ruído de fundo)
230
00:12:33,938 --> 00:12:36,208
E, para além disso,
231
00:12:36,208 --> 00:12:39,361
nós, investigadores da wiki, também
232
00:12:39,362 --> 00:12:42,023
temos falta de alguma informação
nos sumários de edição.
233
00:12:42,024 --> 00:12:44,953
Lembro-me que, quando
estávamos a trabalhar
234
00:12:44,954 --> 00:12:48,919
para compreender os diferentes
comportamentos dos editores
235
00:12:48,919 --> 00:12:53,403
com ferramentas ou bots,
ou utilizadores anónimos, etc,
236
00:12:53,403 --> 00:12:56,154
faltava-nos realmente, por exemplo,
237
00:12:56,154 --> 00:13:01,112
uma forma padrão de registar
que as ferramentas estavam a ser usadas.
238
00:13:01,113 --> 00:13:03,154
Já existem algumas ferramentas
que fazem isso
239
00:13:03,155 --> 00:13:05,230
como o PetScan e muitas outras
240
00:13:05,230 --> 00:13:07,720
mas talvez devêssemos, na comunidade,
241
00:13:07,721 --> 00:13:11,965
debater mais acerca de como
registar estes eventos
242
00:13:11,965 --> 00:13:13,829
para obter uma origem otimizada.
243
00:13:14,169 --> 00:13:15,321
E, no futuro,
244
00:13:15,322 --> 00:13:20,801
precisamos de pensar em dimensões
de qualidade de dados mais concretas
245
00:13:20,802 --> 00:13:24,961
que estão relacionadas com dados ligados
mas não com todos os tipos de dados.
246
00:13:24,962 --> 00:13:30,721
Por isso, trabalhámos nalgumas medidas
para aceder ao aumento de informação
247
00:13:30,722 --> 00:13:33,881
proporcionado pelas ligações.
O que queremos dizer com isso
248
00:13:33,882 --> 00:13:36,681
é que, quando ligamos a Wikidata
a outros conjuntos de dados,
249
00:13:36,682 --> 00:13:38,201
também deviamos estar a pensar
250
00:13:38,202 --> 00:13:41,921
em quanto é que as entidades estão,
na realidade, a ganhar na classificação,
251
00:13:41,922 --> 00:13:45,601
na descrição, mas também
nos vocabulários que usam.
252
00:13:45,602 --> 00:13:51,041
Para dar um exemplo muito simples
do que quero dizer com isto,
253
00:13:51,042 --> 00:13:54,269
podemos pensar... Neste caso,
seria a Wikidata
254
00:13:54,270 --> 00:13:57,771
ou o centro de dados externo
que está a ligar à Wikidata.
255
00:13:57,772 --> 00:14:00,487
Temos a entidade para uma pessoa
chamada Natasha Noy,
256
00:14:00,487 --> 00:14:02,601
temos a afiliação e outras coisas.
257
00:14:02,602 --> 00:14:05,239
E, depois dizemos: "Está bem, ligamos
a um local externo
258
00:14:05,240 --> 00:14:08,919
e aquela entidade também tem aquele nome."
Mas, na realidade, temos o mesmo valor.
259
00:14:08,920 --> 00:14:12,889
Então, seria melhor se ligássemos
a algo que tenha um nome diferente,
260
00:14:12,889 --> 00:14:16,881
o que ainda é válido porque esta pessoa
tem duas formas de escrever o nome,
261
00:14:16,882 --> 00:14:19,714
e também outras informações
que não temos na Wikidata
262
00:14:19,715 --> 00:14:21,760
ou que não temos
no outro conjunto de dados.
263
00:14:22,390 --> 00:14:24,652
Mas também, o que é ainda melhor
264
00:14:24,653 --> 00:14:27,770
é que estamos a olhar
para o conjunto de dados alvo
265
00:14:27,770 --> 00:14:31,392
e eles também têm novas formas
de classificar a informação.
266
00:14:31,393 --> 00:14:35,354
Por isso, não só é uma pessoa,
mas, no outro conjunto de dados,
267
00:14:35,355 --> 00:14:37,076
também diz que é do sexo feminino
268
00:14:37,076 --> 00:14:39,526
ou qualquer outra classificação
que tenha sido usada.
269
00:14:39,526 --> 00:14:43,401
Se, no outro conjunto de dados, estiverem
a usar muitos outros vocabulários
270
00:14:43,402 --> 00:14:46,588
isso também está a ajudar
na recuperação de informação como um todo.
271
00:14:47,371 --> 00:14:51,233
Também gostava de dizer
272
00:14:51,234 --> 00:14:55,809
que pensamos que podemos
mostrar melhor as consultas federadas
273
00:14:55,810 --> 00:15:00,448
porque, quando olhamos para o log
da consulta fornecido por Malyshev et al,
274
00:15:01,285 --> 00:15:06,921
vemos que, das consultas orgânicas,
temos apenas algumas consultas federadas.
275
00:15:06,922 --> 00:15:12,801
E, na realidade, a federação é uma
das vantagens chave de ter dados ligados.
276
00:15:12,802 --> 00:15:16,903
Por isso, talvez a comunidade
ou as pessoas que usam a Wikidata
277
00:15:16,903 --> 00:15:18,898
também precisem
de mais exemplos deste tipo.
278
00:15:18,898 --> 00:15:22,666
Se olharmos para a lista
de parâmetros que estão a ser usados...
279
00:15:22,667 --> 00:15:25,401
Esta não é uma lista completa
e temos muitos mais.
280
00:15:25,402 --> 00:15:30,479
Estes dados foram analisados a partir
de consultas feitas até março de 2018,
281
00:15:30,480 --> 00:15:34,807
mas deviamos olhar para a lista
de parâmetros federados que temos
282
00:15:34,808 --> 00:15:37,048
e ver se os estamos realmente
a usar ou não.
283
00:15:37,813 --> 00:15:40,441
Por isso, duas questões
que tenho para a audiência
284
00:15:40,442 --> 00:15:43,001
e que talvez possamos usar
depois para a discussão, são:
285
00:15:43,001 --> 00:15:46,001
que problemas de qualidade de dados
devem, na vossa opinião, ser abordados,
286
00:15:46,002 --> 00:15:47,412
devido às vossas necessidades.
287
00:15:47,412 --> 00:15:50,401
Mas também, onde é que é necessária
mais automação
288
00:15:50,402 --> 00:15:53,043
para vos ajudar com as edições
ou patrulhamentos.
289
00:15:53,866 --> 00:15:55,146
É tudo, muito obrigada.
290
00:15:55,779 --> 00:16:00,537
(aplausos)
291
00:16:06,030 --> 00:16:09,427
(Jose Emilio Labra) Vou falar-vos
de algumas ferramentas
292
00:16:09,427 --> 00:16:14,715
que estamos a desenvolver,
relacionadas com o Shape Expressions.
293
00:16:15,536 --> 00:16:19,371
É disto que quero falar...
Sou o Jose Emilio Labra,
294
00:16:19,371 --> 00:16:23,215
mas há... Todas estas ferramentas
foram construídas por pessoas diferentes,
295
00:16:23,920 --> 00:16:28,480
muitas relacionadas com o W3C ShEx,
Shape Expressions Community Group.
296
00:16:28,481 --> 00:16:29,481
ShEx Community Group.
297
00:16:31,344 --> 00:16:36,081
A primeira ferramenta que quero mencionar
é o RDFShape. Esta é uma ferramenta geral
298
00:16:36,082 --> 00:16:40,681
porque o Shape Expressions
não é só para a Wikidata.
299
00:16:40,682 --> 00:16:44,168
O Shape Expressions é uma linguagem
para validar RDF em geral.
300
00:16:44,168 --> 00:16:47,568
Esta ferramenta foi desenvolvida
principalmente por mim
301
00:16:47,568 --> 00:16:50,880
e é uma ferramenta para validar
RDF no geral.
302
00:16:50,881 --> 00:16:55,139
Se quiserem aprender acerca de RDF
ou se quiserem validar parâmetros RDF
303
00:16:55,140 --> 00:16:58,621
ou SPARQL, não só na Wikidata,
304
00:16:58,622 --> 00:17:00,891
o meu conselho é
que podem usar esta ferramenta.
305
00:17:00,891 --> 00:17:03,255
Também para ensinar.
306
00:17:03,255 --> 00:17:05,640
Sou um professor universitário
307
00:17:05,641 --> 00:17:09,151
e uso-a no meu curso de web semântica
para ensinar RDF.
308
00:17:09,161 --> 00:17:12,121
Por isso, se quiserem aprender RDF,
penso que esta é uma boa ferramenta.
309
00:17:13,033 --> 00:17:17,855
Por exemplo, esta é só uma visualização
de um gráfico RDF com essa ferramenta.
310
00:17:19,157 --> 00:17:22,643
Mas, antes de vir cá, no último mês,
311
00:17:22,643 --> 00:17:27,293
comecei um fork de rdfshape
especificamente para a Wikidata,
312
00:17:27,293 --> 00:17:28,443
porque pensei...
313
00:17:28,443 --> 00:17:33,082
Chama-se WikiShape e, ontem,
apresentei-a como presente à Wikidata.
314
00:17:33,082 --> 00:17:34,441
Então, eu peguei...
315
00:17:34,442 --> 00:17:39,898
O que eu fiz foi remover tudo
o que não tivesse relação com a Wikidata
316
00:17:39,898 --> 00:17:42,603
e acrescentar várias coisas,
com codificação permanentemente,
317
00:17:42,603 --> 00:17:44,802
como, por exemplo,
o parâmetro Wikidata SPARQL.
318
00:17:44,802 --> 00:17:49,041
Agora, foi-me pedido
que fizesse isso também para a Wikibase.
319
00:17:49,042 --> 00:17:52,000
E é muito fácil
fazê-lo também para a Wikibase.
320
00:17:52,760 --> 00:17:56,280
Então, esta ferramenta,
a WikiShape, é muito recente.
321
00:17:57,015 --> 00:17:59,843
Penso que funciona,
a maioria das funcionalidades,
322
00:17:59,844 --> 00:18:02,468
mas há algumas funcionalidades
que podem não funcionar.
323
00:18:02,469 --> 00:18:06,281
Se experimentarem e quiserem
melhorá-la, digam-me, por favor.
324
00:18:06,281 --> 00:18:11,048
Isto é uma captura de ecrã,
mas penso que posso experimentar.
325
00:18:11,558 --> 00:18:13,488
Por isso, vamos experimentar.
326
00:18:14,256 --> 00:18:15,366
(risos)
327
00:18:15,385 --> 00:18:16,945
Vamos ver se funciona.
328
00:18:16,953 --> 00:18:20,070
Primeiro, tenho de sair do...
329
00:18:22,453 --> 00:18:23,453
Aqui.
330
00:18:25,436 --> 00:18:28,244
Esta é a ferramenta, aqui.
331
00:18:28,244 --> 00:18:29,844
Coisas que podem fazer com a ferramenta:
332
00:18:29,845 --> 00:18:35,275
por exemplo, podem
verificar esquemas, esquemas de entidades.
333
00:18:35,276 --> 00:18:38,611
Sabem que há um novo namespace
que é "E" qualquer coisa".
334
00:18:38,612 --> 00:18:44,805
Então, se começaram, por exemplo,
a escrever "humano",
335
00:18:44,806 --> 00:18:48,812
à medida que escrevem,
o autocompletamento permite-vos verificar
336
00:18:48,812 --> 00:18:52,001
que isto é o Shape Expressions
de um humano
337
00:18:52,790 --> 00:18:55,937
e que isto é o Shape Expressions, aqui.
338
00:18:55,938 --> 00:18:59,841
Como podem ver, este editor
tem realce de sintaxe.
339
00:18:59,842 --> 00:19:04,559
Isto é... Bem, talvez seja
muito pequeno, o ecrã.
340
00:19:05,676 --> 00:19:07,590
Posso tentar aumentá-lo.
341
00:19:09,194 --> 00:19:10,973
Talvez o vejam melhor, agora.
342
00:19:10,973 --> 00:19:14,241
Então, este é o editor, com realce
de sintaxe, e também tem...
343
00:19:14,241 --> 00:19:17,851
Quero dizer, este editor
vem do mesmo código fonte
344
00:19:17,851 --> 00:19:19,641
do editor de consultas da Wikidata.
345
00:19:19,642 --> 00:19:23,960
Se pairarem com o rato aqui,
346
00:19:23,961 --> 00:19:27,961
vai mostrar-vos as etiquetas
das diferentes propriedades.
347
00:19:27,962 --> 00:19:31,298
Penso que é muito útil porque, agora,
348
00:19:32,588 --> 00:19:36,152
o esquema de entidades
que está na Wikidata
349
00:19:36,152 --> 00:19:38,602
é só uma ideia em texto simples.
350
00:19:38,602 --> 00:19:42,493
Penso que este editor é muito melhor
porque tem autocompletamento
351
00:19:42,494 --> 00:19:43,743
também tem...
352
00:19:43,744 --> 00:19:48,241
Por exemplo, se quiserem adicionar
uma restrição
353
00:19:48,241 --> 00:19:51,570
vão dizer: "wdt:".
354
00:19:51,570 --> 00:19:56,884
Começam a escrever "author"
e depois clicam em Ctrl+Espaço
355
00:19:56,884 --> 00:19:58,922
e vai sugerir-vos várias coisas.
356
00:19:58,922 --> 00:20:02,388
Então, isto é semelhante
ao serviço de consultas da Wikidata,
357
00:20:02,389 --> 00:20:06,445
mas para Shape Expressions,
especificamente.
358
00:20:06,445 --> 00:20:11,377
Porque penso que, criar Shape Expressions
359
00:20:11,976 --> 00:20:15,841
não é mais difícil do que
escrever consultas SPARQL.
360
00:20:16,492 --> 00:20:21,905
Algumas pessoas pensam
que o nível de dificuldade é o mesmo.
361
00:20:22,278 --> 00:20:26,296
É provavelmente mais fácil
porque o Shape Expressions era...
362
00:20:26,296 --> 00:20:31,241
Quando o concebemos, fizemo-lo
para que fosse mais fácil trabalhar.
363
00:20:32,152 --> 00:20:37,371
Esta é uma das primeiras coisas que têm.
Este editor para Shape Expressions.
364
00:20:37,371 --> 00:20:41,467
Depois, também têm a possibilidade de,
por exemplo, visualizar.
365
00:20:41,468 --> 00:20:44,801
Se tiverem uma Shape Expression,
usem, por exemplo...
366
00:20:44,802 --> 00:20:49,386
Penso que "trabalho escrito" é
uma boa Shape Expression
367
00:20:49,386 --> 00:20:53,300
porque tem algumas relações
entre diferentes coisas.
368
00:20:54,823 --> 00:20:58,160
E isto é a visualização UML
do trabalho escrito.
369
00:20:58,161 --> 00:21:02,090
Numa UML, isto é fácil de ver,
as diferentes propriedades.
370
00:21:02,790 --> 00:21:06,794
Quando fazem isto, apercebi-me que,
quando o tentei com várias pessoas,
371
00:21:06,795 --> 00:21:09,216
encontram alguns erros
nas suas Shape Expressions
372
00:21:09,217 --> 00:21:12,988
porque é fácil detetar quais são
as propriedades em falta.
373
00:21:13,588 --> 00:21:17,261
Depois, temos aqui outra possibilidade
que é a de poder também validar.
374
00:21:17,261 --> 00:21:19,520
Penso que a temos aqui, a validação.
375
00:21:20,496 --> 00:21:25,285
Pensava que a tinha nalguma etiqueta.
Talvez a tenha fechado.
376
00:21:26,267 --> 00:21:30,988
Mas podem, por exemplo,
clicar aqui: Validar entidades.
377
00:21:32,308 --> 00:21:34,232
Vocês, por exemplo,
378
00:21:35,404 --> 00:21:41,921
"q42" com "e42", que é o autor.
379
00:21:42,818 --> 00:21:46,180
Com "humano". Penso que o podemos fazer
com "humano".
380
00:21:49,050 --> 00:21:50,050
E depois é...
381
00:21:50,688 --> 00:21:56,365
Está a demorar um pouco a fazê-lo
porque está a realizar consultas SPARQL.
382
00:21:56,365 --> 00:21:59,134
E agora, por exemplo, está a falhar
por causa da rede. Mas...
383
00:21:59,657 --> 00:22:01,580
Podem tentá-lo.
384
00:22:02,759 --> 00:22:07,026
Vamos continuar com a apresentação,
com outras ferramentas.
385
00:22:07,026 --> 00:22:12,353
O meu conselho é, se o quiserem tentar
e se quiserem qualquer feedback, digam-me.
386
00:22:13,133 --> 00:22:15,540
Então, para continuar
com a apresentação...
387
00:22:18,923 --> 00:22:20,233
Isto é a WikiShape.
388
00:22:23,800 --> 00:22:26,509
Já o disse,
389
00:22:27,681 --> 00:22:34,157
o editor de Shape Expressions
é um projeto independente no GitHub.
390
00:22:35,605 --> 00:22:37,472
Podem usá-lo no vosso próprio projeto.
391
00:22:37,472 --> 00:22:41,036
Se quiserem construir
uma ferramenta de Shape Expressions,
392
00:22:41,036 --> 00:22:45,635
podem integrá-lo
em qualquer outro projeto.
393
00:22:45,636 --> 00:22:48,235
Está no GitHub e podem usá-lo.
394
00:22:48,868 --> 00:22:51,970
O mesmo autor,
é um dos meus estudantes.
395
00:22:52,684 --> 00:22:55,644
Ele também criou um editor
para Shape Expressions,
396
00:22:55,644 --> 00:22:57,839
também inspirado pelo
serviço de consultas do Wikidata,
397
00:22:57,839 --> 00:23:00,681
onde, numa coluna,
398
00:23:00,682 --> 00:23:05,103
têm este editor mais visual
de consultas SPARQL
399
00:23:05,104 --> 00:23:07,135
onde podem introduzir este tipo de coisas.
400
00:23:07,136 --> 00:23:09,123
Esta é uma captura de ecrã.
401
00:23:09,123 --> 00:23:12,662
Podem ver que isto
é Shape Expressions em texto,
402
00:23:12,662 --> 00:23:15,565
mas isto é Shape Expressions
baseado em formas
403
00:23:15,565 --> 00:23:18,595
onde, provavelmente,
demoraria um pouco mais,
404
00:23:18,595 --> 00:23:23,400
onde podem pôr as diferentes colunas
nos diferentes campos.
405
00:23:24,480 --> 00:23:26,879
Depois há o ShExEr.
406
00:23:26,879 --> 00:23:31,882
Temos...Foi feito por um estudante
de doutoramento da Universidade de Oviedo.
407
00:23:31,883 --> 00:23:34,080
E ele está cá,
por isso pode apresentar o ShExEr.
408
00:23:38,147 --> 00:23:40,024
(Danny) Olá, eu sou o Danny Fernàndez.
409
00:23:40,025 --> 00:23:43,010
Sou um estudante de doutoramento
na Universidade de Oviedo
410
00:23:43,010 --> 00:23:44,060
a trabalhar com o Labra.
411
00:23:44,060 --> 00:23:47,725
Já que estamos a ficar sem tempo,
vamos fazer isto rapidamente.
412
00:23:47,726 --> 00:23:52,891
Não faremos uma demonstração,
mas veremos algumas capturas de ecrã.
413
00:23:54,371 --> 00:23:56,897
A forma usual de trabalhar com
Shape Expressions,
414
00:23:56,897 --> 00:23:59,507
ou com qualquer linguagem de formas,
é ter um perito no domínio
415
00:23:59,522 --> 00:24:02,313
que define, a priori,
como se deve parecer o gráfico,
416
00:24:02,314 --> 00:24:03,555
define algumas estruturas.
417
00:24:03,556 --> 00:24:06,983
Depois usam essas estruturas
para comparar os dados e validá-los.
418
00:24:08,124 --> 00:24:11,641
Esta ferramenta, que é, tal como aquelas
que o Labra esteve a apresentar,
419
00:24:11,642 --> 00:24:14,441
uma ferramenta polivalente
para qualquer fonte RDF,
420
00:24:14,442 --> 00:24:17,375
está concebida para fazer o contrário.
421
00:24:17,376 --> 00:24:18,758
Já têm alguns dados,
422
00:24:18,759 --> 00:24:23,165
selecionam que nodos
querem usar para formar a forma
423
00:24:23,165 --> 00:24:26,718
e depois extraem ou inferem
a forma automaticamente.
424
00:24:26,719 --> 00:24:29,791
Então, mesmo sendo
uma ferramenta polivalente,
425
00:24:29,791 --> 00:24:34,063
o que fizemos para este WikidataCon
foi este botão catita.
426
00:24:34,884 --> 00:24:37,081
Se clicarem nele,
o que acontece, essencialmente,
427
00:24:37,081 --> 00:24:42,079
é que, há
tantos parâmetros de configuração,
428
00:24:42,080 --> 00:24:46,251
e ele configura-os para funcionar
com os parâmetros da Wikidata.
429
00:24:46,251 --> 00:24:47,971
Vai acabar em breve, desculpem.
430
00:24:48,733 --> 00:24:52,883
Assim que pressionam este botão
o que obtêm é essencialmente isto.
431
00:24:52,884 --> 00:24:55,126
Depois de selecionarem que tipo de nodos,
432
00:24:55,127 --> 00:24:59,360
que tipo de instâncias da nossa classe,
ou seja o que for que estejam a procurar,
433
00:24:59,361 --> 00:25:01,321
obtêm um esquema automático.
434
00:25:02,319 --> 00:25:07,111
Todas as restrições são resolvidas
por quantos nodos são conformantes.
435
00:25:07,112 --> 00:25:09,772
Podem filtrar os menos comuns, etc.
436
00:25:09,772 --> 00:25:12,126
Há um poster lá em baixo
acerca disto.
437
00:25:12,127 --> 00:25:16,455
Eu estarei lá em baixo e cá em cima,
em todo o lado o dia todo.
438
00:25:16,455 --> 00:25:19,081
Por isso, se tiverem interesse adicional
nesta ferramenta
439
00:25:19,082 --> 00:25:21,476
falem comigo durante esta jornada.
440
00:25:21,477 --> 00:25:24,624
Vou devolver o microfone ao Labra.
Obrigado.
441
00:25:24,625 --> 00:25:29,265
(aplausos)
442
00:25:29,812 --> 00:25:32,578
(Jose) Vamos continuar com
as outras ferramentas.
443
00:25:32,579 --> 00:25:34,984
A outra ferramenta é o ShapeDesigner.
444
00:25:34,984 --> 00:25:37,241
Andra, queres falar
do ShapeDesigner agora
445
00:25:37,242 --> 00:25:39,287
ou mais tarde, durante a workshop?
446
00:25:39,287 --> 00:25:40,603
Há uma workshop...
447
00:25:40,603 --> 00:25:44,437
Esta tarde, há uma workshop,
especifica para Shape Expressions, e...
448
00:25:45,265 --> 00:25:47,939
A ideia é que vai ser mais
na vertente prática
449
00:25:47,940 --> 00:25:52,324
e, se quiserem praticar ShEx,
podem fazê-lo lá.
450
00:25:52,875 --> 00:25:55,720
Esta ferramenta é o ShEx,js.
Lá está o Eric, ali.
451
00:25:55,721 --> 00:25:56,890
Podes apresentá-la.
452
00:25:57,969 --> 00:26:00,687
(Eric) Muito rapidamente,
aquilo que quero dizer
453
00:26:00,687 --> 00:26:05,711
é que já viram, provavelmente,
a interface de ShEx
454
00:26:05,711 --> 00:26:07,601
que foi concebida para a Wikidata.
455
00:26:07,602 --> 00:26:12,930
Ela foi simplificada e pensada
especificamente para a Wikidata
456
00:26:12,930 --> 00:26:15,817
porque a versão genérica
tem mais funcionalidades.
457
00:26:15,817 --> 00:26:19,014
Mas pensei em mencioná-la
porque uma dessas funcionalidades
458
00:26:19,014 --> 00:26:23,201
é particularmente útil
para depurar esquemas da Wikidata.
459
00:26:23,201 --> 00:26:29,224
A qual é, se selecionarem o modo slurp,
460
00:26:29,225 --> 00:26:31,444
o que faz é dizer,
à medida que estou a validar,
461
00:26:31,445 --> 00:26:33,214
que quero puxar
todos os triplos para baixo.
462
00:26:33,214 --> 00:26:36,274
E, isso significa
que, se tiver um conjunto de falhas,
463
00:26:36,275 --> 00:26:39,586
posso verificá-las e começar a olhar
para essas falhas e dizer
464
00:26:39,587 --> 00:26:41,800
quais são os triplos que estão aqui.
465
00:26:41,801 --> 00:26:44,120
Peço desculpas, os triplos estão
aqui em baixo.
466
00:26:44,121 --> 00:26:45,647
Isto é só um registo do que aconteceu.
467
00:26:46,327 --> 00:26:49,180
Depois, podem limitar-se a remexer
nisto em tempo real.
468
00:26:49,181 --> 00:26:51,033
Brincam com alguma coisa e muda.
469
00:26:51,033 --> 00:26:54,160
Então, é uma versão mais rápida
para fazer todas essas coisas.
470
00:26:55,361 --> 00:26:56,481
Este é um formulário ShExC.
471
00:26:56,482 --> 00:26:59,455
É algo que o Joachim sugeriu.
472
00:27:00,035 --> 00:27:04,631
Pode ser útil para povoar
documentos da Wikidata
473
00:27:04,631 --> 00:27:07,338
baseado numa Shape Expression
para esse documento.
474
00:27:08,095 --> 00:27:11,681
Isto não foi feito
à medida da Wikidata,
475
00:27:11,682 --> 00:27:14,081
mas é apenas para mostrar
que podem ter um esquema
476
00:27:14,082 --> 00:27:15,891
e podem ter algumas anotações
para especificar
477
00:27:15,891 --> 00:27:17,518
como quero apresentar o esquema.
478
00:27:17,519 --> 00:27:19,031
Depois, constrói um formulário
479
00:27:19,031 --> 00:27:21,191
e, se tiverem dados,
pode até povoar o formulário.
480
00:27:24,517 --> 00:27:26,564
PyShEx [inaudível].
481
00:27:26,564 --> 00:27:27,594
(risos)
482
00:27:28,025 --> 00:27:31,080
(Jose) Penso que este seja o último.
483
00:27:31,821 --> 00:27:34,080
Sim, o último é o PyShEx.
484
00:27:34,675 --> 00:27:38,151
O PyShEx é uma implementação
de Shape Expressions em Python.
485
00:27:39,193 --> 00:27:41,680
Podem também experimentar
o Jupyter Notebooks
486
00:27:41,680 --> 00:27:44,433
se quiserem esse tipo de coisas.
É tudo, para isto.
487
00:27:44,433 --> 00:27:48,990
(aplausos)
488
00:27:52,916 --> 00:27:56,134
(Andra) Vou falar acerca
de um projeto específico
489
00:27:56,134 --> 00:27:58,074
com o qual estou envolvido
chamado Gene Wiki
490
00:27:58,075 --> 00:28:04,596
e onde também estamos a lidar
com questões de qualidade.
491
00:28:04,597 --> 00:28:06,684
Mas, antes de falar da qualidade,
492
00:28:06,685 --> 00:28:09,229
talvez uma pequena apresentação
acerca do que é o Gene Wiki.
493
00:28:09,855 --> 00:28:15,175
Acabámos de lançar uma pré-impressão
de um artigo que escrevemos recentemente
494
00:28:15,175 --> 00:28:18,160
que explica os detalhes do projeto.
495
00:28:19,821 --> 00:28:21,760
Tiraram fotografias.
496
00:28:21,760 --> 00:28:23,846
Basicamente, o que o Gene Wiki faz
497
00:28:23,846 --> 00:28:28,027
é tentar inserir dados biomédicos,
dados públicos, na Wikidata.
498
00:28:28,028 --> 00:28:32,200
Seguimos um padrão específico
para inserir esses dados na Wikidata.
499
00:28:33,130 --> 00:28:36,809
Assim, quando temos um novo repositório,
ou um novo conjunto de dados
500
00:28:36,810 --> 00:28:39,426
que é elegível
para ser incluído na Wikidata,
501
00:28:39,426 --> 00:28:41,323
o primeiro passo
é o envolvimento da comunidade.
502
00:28:41,323 --> 00:28:43,784
Não é dirigido, necessariamente
a uma comunidade da Wikidata,
503
00:28:43,785 --> 00:28:46,120
mas a uma comunidade de pesquisa local.
504
00:28:46,121 --> 00:28:50,286
Encontramo-nos em pessoa,
ou online, ou em qualquer plataforma
505
00:28:50,286 --> 00:28:52,881
e tentamos criar um modelo de dados
506
00:28:52,882 --> 00:28:56,197
que faça a ponte entre os seus dados
e o modelo Wikidata.
507
00:28:56,197 --> 00:28:59,944
Aqui, tenho uma imagem de uma workshop
que aconteceu aqui, no ano passado.
508
00:28:59,945 --> 00:29:02,663
Estava a tentar olhar
para um conjunto de dados específico
509
00:29:02,663 --> 00:29:05,280
e, enfim, vêm muitas discussões,
510
00:29:05,281 --> 00:29:09,780
e depois alinhá-los com o schema.org
e outras ontologias que por aí andam.
511
00:29:10,320 --> 00:29:15,508
Depois, no final do primeiro passo,
temos um desenho do esquema
512
00:29:15,509 --> 00:29:17,336
que queremos implementar na Wikidata.
513
00:29:17,337 --> 00:29:20,440
O que vêm aqui, isto é apenas simples,
514
00:29:20,441 --> 00:29:21,766
temo-lo lá atrás, ali,
515
00:29:21,767 --> 00:29:25,240
e podemos fazer alguns esquemas
dentro deste painel mesmo hoje.
516
00:29:26,560 --> 00:29:28,399
Assim que temos o esquema montado,
517
00:29:28,400 --> 00:29:31,320
o próximo passo é tentar fazer
o esquema da máquina legível.
518
00:29:32,358 --> 00:29:35,280
Porque querem ter modelos acionáveis
para fazer uma ponte
519
00:29:35,280 --> 00:29:38,613
com os dados que estão a inserir
de qualquer base de dados biomédica
520
00:29:38,613 --> 00:29:40,393
no Wikidata.
521
00:29:41,682 --> 00:29:46,471
Aqui, estamos a aplicar Shape Expressions.
522
00:29:48,451 --> 00:29:52,518
Usámo-lo porque permite-vos testar
523
00:29:52,518 --> 00:29:57,040
se o conjunto de dados é, na realidade...
Não. A ver, em primeiro lugar,
524
00:29:57,041 --> 00:30:01,782
se os dados que já existem na Wikidata
seguem o mesmo modelo de dados
525
00:30:01,783 --> 00:30:04,718
que foi conseguido no processo anterior.
526
00:30:04,719 --> 00:30:06,641
Depois, com a Shape Expression
podemos verificar:
527
00:30:06,642 --> 00:30:10,926
os dados deste tópico na Wikidata,
será que precisam de uma limpeza
528
00:30:10,926 --> 00:30:15,013
ou precisamos de adaptar o nosso modelo
ao modelo da Wikidata, ou vice-versa?
529
00:30:15,937 --> 00:30:19,867
Quando isso estiver definido
e começarmos a programar bots
530
00:30:20,670 --> 00:30:23,801
e os bots estão a passar a informação
531
00:30:23,802 --> 00:30:27,308
que está nas fontes primárias
para a Wikidata.
532
00:30:27,846 --> 00:30:29,303
Quando os bots estão prontos...
533
00:30:29,304 --> 00:30:33,001
Programamos estes bots
com uma plataforma chamada...
534
00:30:33,002 --> 00:30:36,201
com uma biblioteca de Python
chamada Wikidata Integrator
535
00:30:36,202 --> 00:30:38,167
que foi criada pelo nosso projeto.
536
00:30:38,698 --> 00:30:42,921
Uma vez que tenhamos os nossos bots,
usamos uma plataforma chamada Jenkins
537
00:30:42,921 --> 00:30:44,540
para integração contínua.
538
00:30:44,540 --> 00:30:45,762
Com o Jenkins,
539
00:30:45,762 --> 00:30:51,160
atualizamos constantemente
as fontes primárias com a Wikidata.
540
00:30:52,178 --> 00:30:55,889
Este é um diagrama para o artigo
que mencionei anteriormente.
541
00:30:55,890 --> 00:30:57,241
Esta é a nossa paisagem atual.
542
00:30:57,242 --> 00:31:02,059
Cada caixa laranja
é um recurso primário para drogas,
543
00:31:02,060 --> 00:31:07,827
proteínas, genes, doenças
compostos químicos com interação.
544
00:31:07,827 --> 00:31:10,870
Este modelo é muito pequeno
para ser lido agora,
545
00:31:10,870 --> 00:31:17,472
mas esta é a base de dados,
as fontes, que gerimos na Wikidata
546
00:31:17,473 --> 00:31:20,560
e que fazem ponte com as fontes primárias.
547
00:31:20,561 --> 00:31:22,355
Aqui está um desses fluxos de trablaho.
548
00:31:22,870 --> 00:31:25,312
Um dos nossos parceiros
é a Disease Ontology.
549
00:31:25,312 --> 00:31:27,672
A Disease Ontology é uma ontologia CC0
550
00:31:28,945 --> 00:31:32,756
e a ontologia CC0
tem o seu próprio ciclo de curadoria.
551
00:31:32,756 --> 00:31:35,736
Eles atualizam continuamente
a Disease Ontology
552
00:31:35,737 --> 00:31:39,687
para refletir o espaço de doenças
ou a interpretação de doenças.
553
00:31:40,336 --> 00:31:44,361
Há também o ciclo de curadoria
da Wikidata acerca de doenças
554
00:31:44,362 --> 00:31:48,418
onde a comunidade Wikidata
monitoriza constantemente
555
00:31:48,418 --> 00:31:50,406
o que se está a passar na Wikidata.
556
00:31:50,406 --> 00:31:51,601
Depois, temos duas funções
557
00:31:51,602 --> 00:31:55,477
às quais chamamos, coloquialmente,
curadores guardiões.
558
00:31:57,039 --> 00:31:59,561
Isto sou eu
e um colega há cinco anos atrás.
559
00:31:59,562 --> 00:32:03,414
Ficamos ao computador
e monitorizamos a Wikipedia e a Wikidata
560
00:32:03,415 --> 00:32:08,601
e, se houver alguma questão
reportada à comunidade primária,
561
00:32:08,602 --> 00:32:11,765
aos recursos primários, eles olhavam
para a implementação e decidiam:
562
00:32:11,765 --> 00:32:14,240
"Confiamos nas entradas da Wikidata?"
563
00:32:14,850 --> 00:32:18,555
Se sim, é considerada,
entra no ciclo
564
00:32:18,555 --> 00:32:22,686
e na próxima iteração
faz parte da Disease Ontology
565
00:32:22,687 --> 00:32:25,411
e é fornecida à Wikidata.
566
00:32:27,419 --> 00:32:31,480
Estamos a fazer o mesmo
com a WikiPathways.
567
00:32:31,481 --> 00:32:34,755
A WikiPathways é um percurso
inspirado na wiki
568
00:32:34,755 --> 00:32:36,602
e um repositório de percursos.
569
00:32:36,602 --> 00:32:40,901
É a mesma história, já há diferentes
recursos de percursos na Wikidata.
570
00:32:41,463 --> 00:32:44,713
Podem haver conflitos entre
esses recursos de percursos
571
00:32:44,722 --> 00:32:46,701
e esses conflitos são comunicados de volta
572
00:32:46,702 --> 00:32:49,521
pelos curadores guardiões
a essa comunidade
573
00:32:49,522 --> 00:32:53,715
mantendo-se os ciclos
individuais de curadoria.
574
00:32:53,715 --> 00:32:57,068
Mas, se se lembrarem do ciclo anterior,
575
00:32:57,069 --> 00:33:03,041
mencionei aqui
apenas dois ciclos, dois recursos.
576
00:33:03,566 --> 00:33:06,300
Temos de fazer isto
para cada recurso individual que temos
577
00:33:06,300 --> 00:33:09,185
e temos de gerir o que se passa
porque, quando falo em curadoria,
578
00:33:09,185 --> 00:33:11,377
quero dizer ir
às páginas de topo da Wikipedia,
579
00:33:11,377 --> 00:33:14,544
às páginas de topo da Wikidata,
e tentar fazer isso.
580
00:33:14,545 --> 00:33:19,316
Isso é muito para os dois curadores
guardiões que tínhamos.
581
00:33:19,660 --> 00:33:22,777
Por isso,
quando estive numa conferência em 2016,
582
00:33:22,778 --> 00:33:26,933
onde o Eric fez uma apresentação
sobre Shape Expressions,
583
00:33:26,934 --> 00:33:29,277
aderi à onda e disse: "Está bem.
584
00:33:29,278 --> 00:33:34,240
o Shape Expressions pode ajudar-nos
a detetar as diferenças na Wikidata
585
00:33:34,240 --> 00:33:38,389
e isso permite que os guardiões tenham
586
00:33:38,389 --> 00:33:42,217
relatórios mais eficientes
para comunicar."
587
00:33:42,275 --> 00:33:46,019
Então, este ano, fiquei deliciado
com a entidade de esquemas
588
00:33:46,020 --> 00:33:50,765
porque, agora, podemos guardar
esses esquemas de entidades na Wikidata,
589
00:33:50,765 --> 00:33:53,523
mesmo na Wikidata,
enquanto, antes, estavam no GitHub,
590
00:33:53,860 --> 00:33:56,815
e isto está em sintonia
com a interface da Wikidata.
591
00:33:56,816 --> 00:33:59,350
Então, têm coisas
como discussões de documentos
592
00:33:59,350 --> 00:34:00,762
mas também têm revisões.
593
00:34:00,763 --> 00:34:05,261
Assim, podem impulsionar as páginas
de topo e as revisões na Wikidata
594
00:34:05,262 --> 00:34:12,255
para usar isso para debater
acerca do que está na Wikidata
595
00:34:12,255 --> 00:34:14,060
e o que está nos recursos primários.
596
00:34:14,966 --> 00:34:19,686
Isto, que o Eric acabou de apresentar,
já é um grande benefício.
597
00:34:19,686 --> 00:34:24,335
Aqui, fizemos uma Shape Expression
para o gene humano
598
00:34:24,336 --> 00:34:30,225
e, depois, passámos-la através
de uma ShEx simples e, como podem ver,
599
00:34:30,225 --> 00:34:32,428
já temos no...
600
00:34:32,429 --> 00:34:34,641
Existe uma questão
que precisa de ser monitorizada,
601
00:34:34,642 --> 00:34:37,316
onde há um item
que não encaixa naquele esquema
602
00:34:37,316 --> 00:34:43,139
e, depois, podem já criar relatórios
de curadoria de entidades de esquemas
603
00:34:43,140 --> 00:34:46,240
baseados em... e enviar isto para
os diferentes relatórios de curadoria.
604
00:34:48,058 --> 00:34:52,788
Mas, o ShEx.js é uma interface construída
605
00:34:52,788 --> 00:34:55,860
e, se puder mostrar cá atrás,
faço apenas dez,
606
00:34:55,860 --> 00:35:00,362
mas temos dezenas de milhares
e, por isso, não é escalável.
607
00:35:00,362 --> 00:35:04,654
Agora, o Wikidata Integrator
também suporta ShEx
608
00:35:05,168 --> 00:35:07,431
e podemos repetir iterações de itens
609
00:35:07,431 --> 00:35:11,494
onde dizemos "sim, não", "sim, não"
"verdadeiro, falso", "verdadeiro, falso".
610
00:35:11,495 --> 00:35:12,495
Então,
611
00:35:13,065 --> 00:35:16,514
aumentar um pouco a eficiência
ao lidar com os relatórios.
612
00:35:17,256 --> 00:35:22,662
Mas, agora, isso dificulta
o Wikidata Query Service
613
00:35:23,181 --> 00:35:24,998
e, recentemente, tivemos estrangulamentos.
614
00:35:24,999 --> 00:35:26,560
Por isso, novamente, não é escalável.
615
00:35:26,561 --> 00:35:31,391
É ainda um processo em curso,
o como lidar com modelos na Wikidata.
616
00:35:32,202 --> 00:35:36,682
E, ShEx é, não só intimidante,
617
00:35:36,683 --> 00:35:40,356
como a escala é demasiado grande
para lidarmos com ela.
618
00:35:41,068 --> 00:35:44,781
Então, eu comecei a trabalhar. Esta é
a minha primeira validação do conceito,
619
00:35:44,781 --> 00:35:47,680
ou exercício,
onde usei uma ferramenta chamada yED.
620
00:35:48,184 --> 00:35:52,590
Comecei a desenhar aquelas Shape
Expressions e, porque...
621
00:35:52,591 --> 00:35:58,098
E depois, regenerei este esquema
622
00:35:58,099 --> 00:36:01,279
no seu formato adjacente
de Shape Expressions.
623
00:36:01,280 --> 00:36:04,520
Isto iria abrir-se à audiência
624
00:36:04,521 --> 00:36:07,432
que está intimidada
pelas linguagens Shape Expressions.
625
00:36:07,961 --> 00:36:12,308
Mas, há um problema
com essas descrições visuais
626
00:36:12,309 --> 00:36:18,229
porque isto também é um esquema
que foi desenhado em yEd por alguém.
627
00:36:18,230 --> 00:36:23,838
E aqui está outro,
que é belíssimo.
628
00:36:23,838 --> 00:36:29,516
Adorava ter isto na minha parede,
mas continua a não ser interoperável.
629
00:36:30,281 --> 00:36:32,131
Quero acabar a minha palestra com...
630
00:36:32,131 --> 00:36:35,732
É a primeira vez que...
Tenho roubado e usado este slide.
631
00:36:35,732 --> 00:36:37,594
É uma honra tê-lo na audiência.
632
00:36:37,595 --> 00:36:39,423
Gosto realmente disto:
633
00:36:39,424 --> 00:36:42,362
"As pessoas acham que RDF é chato
porque é complicado.
634
00:36:42,362 --> 00:36:43,985
A verdade á ainda pior. É tão simples
635
00:36:45,581 --> 00:36:48,133
porque temos de trabalhar
com problemas do mundo real
636
00:36:48,134 --> 00:36:50,031
que são horrivelmente complicados.
637
00:36:50,031 --> 00:36:51,451
Embora possam evitar o RDF,
638
00:36:51,451 --> 00:36:55,760
é mais difícil evitar dados complicados
e problemas computacionais complicados."
639
00:36:55,761 --> 00:36:59,535
Isto é acerca de RDF, mas penso
que também pode ser aplicado à modelação.
640
00:37:00,112 --> 00:37:02,769
Então, o meu argumento é,
devemos realmente...
641
00:37:03,387 --> 00:37:05,882
Como é que avançamos com a modelação?
642
00:37:05,882 --> 00:37:10,826
Devemos discutir ShEx
ou modelos visuais, ou...
643
00:37:11,426 --> 00:37:13,271
Como é que continuamos?
644
00:37:13,474 --> 00:37:14,840
Muito obrigado pelo vosso tempo.
645
00:37:15,102 --> 00:37:19,737
(aplausos)
646
00:37:20,001 --> 00:37:21,188
(Lydia) Muito obrigada.
647
00:37:21,692 --> 00:37:24,001
Venham para a frente
648
00:37:24,002 --> 00:37:27,741
para podermos abrir
as questões da audiência.
649
00:37:28,610 --> 00:37:30,203
Existem questões?
650
00:37:31,507 --> 00:37:32,507
Sim.
651
00:37:34,253 --> 00:37:36,890
E, penso...
Para a câmara, precisamos de...
652
00:37:38,835 --> 00:37:40,968
(Lydia a rir) Sim.
653
00:37:43,094 --> 00:37:46,273
(Interveniente 1) Uma questão para a
Cristina, penso eu.
654
00:37:47,366 --> 00:37:51,641
Mencionou, exatamente,
o termo "ganho de informação"
655
00:37:51,642 --> 00:37:53,689
devido à ligação com outros sistemas.
656
00:37:53,690 --> 00:37:55,459
Existe uma medida teórica de informação
657
00:37:55,459 --> 00:37:58,101
que usa estatística e probabilidade
e se chama ganho de informação.
658
00:37:58,101 --> 00:37:59,541
Tem o mesmo...
659
00:37:59,542 --> 00:38:01,736
Quero dizer, estava a falar
exatamente dessa medida,
660
00:38:01,736 --> 00:38:04,173
do ganho de informação
da teoria de probabilidade,
661
00:38:04,174 --> 00:38:07,020
da teoria de informação,
ou apenas a usar esta entidade conceptual
662
00:38:07,020 --> 00:38:09,024
para medir o ganho de informação
de alguma forma?
663
00:38:09,215 --> 00:38:13,276
(Cristina) Não.
Nós definimos e implementamos medidas
664
00:38:13,695 --> 00:38:20,161
que estão a usar a entropia de Shannon,
por isso, é isso que significa.
665
00:38:20,162 --> 00:38:22,696
Não queria entrar em detalhes
acerca das fórmulas concretas...
666
00:38:22,697 --> 00:38:24,977
(Interveniente 1) Não, claro.
Daí a pergunta.
667
00:38:24,978 --> 00:38:27,128
- (Cristina) Mas sim...
- (Interveniente 1) Obrigado.
668
00:38:32,681 --> 00:38:35,047
(Interveniente 2) Faço um
comentário, mais que uma questão.
669
00:38:35,048 --> 00:38:36,241
(Lydia) Força.
670
00:38:36,242 --> 00:38:39,840
(Interveniente 2) Tem havido
muito ênfase ao nível do item,
671
00:38:39,840 --> 00:38:42,547
acerca de qualidade e integridade.
672
00:38:42,547 --> 00:38:44,313
Uma das coisas que me preocupa é
673
00:38:44,313 --> 00:38:48,784
não estarmos a aplicar o mesmo
às hierarquias e penso que temos a questão
674
00:38:48,784 --> 00:38:51,480
das nossas hierarquias
não serem boas, com frequência.
675
00:38:51,481 --> 00:38:53,463
Estamos a ver
que isto vai ser um problema real
676
00:38:53,464 --> 00:38:55,774
com a pesquisa de Commons e outras coisas.
677
00:38:56,771 --> 00:39:00,601
Uma das coisas que conseguimos fazer
é importar externa...
678
00:39:00,602 --> 00:39:04,842
Da forma como os thesaurus externos
estruturam as suas hierarquias,
679
00:39:04,842 --> 00:39:10,291
usando o qualificador
de conceitos mais geral P4900.
680
00:39:11,037 --> 00:39:16,167
Mas, o que penso que seria realmente útil,
seriam melhores ferramentas para o fazer
681
00:39:16,168 --> 00:39:21,212
para que possamos importar uma
hierarquia de thesaurus externa,
682
00:39:21,212 --> 00:39:24,111
mapeá-la nos nossos itens da Wikidata.
683
00:39:24,111 --> 00:39:28,199
Uma vez implementada
com esses qualificadores P4900,
684
00:39:28,200 --> 00:39:31,494
podemos fazer ótimas
consultas através de SPARQL
685
00:39:32,490 --> 00:39:37,534
para ver onde é que a nossa hierarquia
diverge dessa hierarquia externa.
686
00:39:37,534 --> 00:39:41,346
Por exemplo, como podem saber,
Paula Morma, o utilizador PKM
687
00:39:41,346 --> 00:39:43,533
faz muito trabalho em moda.
688
00:39:43,533 --> 00:39:46,704
Por isso, usamos isso para puxar
689
00:39:46,704 --> 00:39:50,524
a hierarquia
do Thesaurus Europeana Fashion
690
00:39:50,524 --> 00:39:53,812
e a hierarquia do thesauros de moda
Getty AAT.
691
00:39:53,812 --> 00:39:57,957
Depois, vemos onde as lacunas
estavam nos nossos itens de alto nível,
692
00:39:57,957 --> 00:40:00,511
que são um problema real para nós
porque, com frequência,
693
00:40:00,511 --> 00:40:04,355
estas são coisas que só existem
como páginas de desambiguação na Wikipedia
694
00:40:04,356 --> 00:40:06,991
e, por isso,
temos muitos itens de alto nível
695
00:40:06,991 --> 00:40:09,271
a faltar nas nossas hierarquias.
696
00:40:09,271 --> 00:40:14,480
Isto é algo que precisamos de abordar
em termos de qualidade e de integridade.
697
00:40:14,480 --> 00:40:15,971
O que realmente ajudaria
698
00:40:16,643 --> 00:40:20,871
seriam melhores ferramentas
que a selva de scripts que escrevi.
699
00:40:20,872 --> 00:40:26,010
Se alguém pudesse pôr isso
num bloco de notas PAWS em Python,
700
00:40:26,561 --> 00:40:31,972
ser capaz de receber um thesaurus
externo, pegar na sua hierarquia,
701
00:40:31,973 --> 00:40:35,025
a qual pode muito bem estar disponível
como dados ligados, ou pode não estar,
702
00:40:35,379 --> 00:40:37,837
para depois transferi-lo para
declarações rápidas
703
00:40:37,837 --> 00:40:41,165
para pôr em valores P4900.
704
00:40:41,165 --> 00:40:42,165
E, mais tarde,
705
00:40:42,166 --> 00:40:47,007
quando a nossa representação
ficar mais completa, atualizar os P4900s.
706
00:40:47,007 --> 00:40:51,101
Porque, à medida que a nossa representação
fica ultrapassada, fica mais densa.
707
00:40:51,590 --> 00:40:55,377
Os valores desses qualificadores
precisam de mudar
708
00:40:56,230 --> 00:40:59,526
para representar que temos mais
da sua hierarquia no nosso sistema.
709
00:40:59,526 --> 00:41:03,728
Se alguém pudesse fazer isso,
penso que seria muito útil.
710
00:41:04,068 --> 00:41:07,121
Também precisamos
de olhar para outras estratégias
711
00:41:07,122 --> 00:41:10,762
para aumentar a qualidade
e a integridade ao nível da hierarquia,
712
00:41:10,763 --> 00:41:12,378
não só ao nível do item.
713
00:41:13,308 --> 00:41:14,840
(Andra) Posso acrescentar algo?
714
00:41:16,362 --> 00:41:19,901
Sim. E, na realidade, fazemos isso.
715
00:41:19,911 --> 00:41:23,551
Posso recomendar olhar
para a Shape Expression que o Finn fez
716
00:41:23,552 --> 00:41:27,330
com os dados léxicos
onde ele cria Shape Expressions
717
00:41:27,330 --> 00:41:29,640
e depois desenvolve
sobre outras Shape Expressions.
718
00:41:29,641 --> 00:41:32,528
Têm este conceito
de Shape Expressions ligadas na Wikidata
719
00:41:32,529 --> 00:41:35,005
e, especificamente, o caso de uso,
se entendi bem,
720
00:41:35,006 --> 00:41:37,183
é exatamente o que estamos a fazer
na Gene Wiki.
721
00:41:37,184 --> 00:41:40,841
Têm a Disease Ontology
que é posta na Wikidata
722
00:41:40,842 --> 00:41:44,681
e, depois, dados de doenças entram
e aplicamos Shape Expressions
723
00:41:44,682 --> 00:41:47,247
para ver se encaixam com este thesaurus.
724
00:41:47,248 --> 00:41:50,719
Existem outros thesaurus, ou outras
ontologias, para vocabulários controlados
725
00:41:50,719 --> 00:41:52,619
que ainda precisam
de ser inseridos na Wikidata.
726
00:41:52,619 --> 00:41:55,401
E é exatamente por isso que
o Shape Expressions é tão interessante.
727
00:41:55,402 --> 00:41:57,963
Porque podemos ter uma Shape Expression
para a Disease Ontology,
728
00:41:57,964 --> 00:41:59,644
uma Shape Expression para o MeSH.
729
00:41:59,645 --> 00:42:01,761
Pode dizer: "Agora
quero verificar a qualidade."
730
00:42:01,762 --> 00:42:04,059
Porque também tem,
na Wikidata, o contexto
731
00:42:04,060 --> 00:42:06,246
de quando tem um vocabulário controlado.
732
00:42:06,756 --> 00:42:09,568
Diz que a qualidade
está de acordo com isto
733
00:42:09,568 --> 00:42:11,636
mas pode ter uma
comunidade discordante.
734
00:42:11,636 --> 00:42:13,720
Por isso, as ferramentas
já estão implementadas,
735
00:42:13,720 --> 00:42:16,082
mas, agora, precisamos
de criar esses modelos
736
00:42:16,082 --> 00:42:18,144
e aplicá-los
aos diferentes casos de uso.
737
00:42:18,811 --> 00:42:20,921
(Interveniente 2)
Uma Shape Expression é muito útil
738
00:42:20,922 --> 00:42:25,928
logo que tenha a ontologia externa
mapeada na Wikidata.
739
00:42:25,929 --> 00:42:29,474
Mas, o meu problema é que
está a chegar aquele ponto.
740
00:42:29,475 --> 00:42:34,881
Que é perceber quanto da ontologia externa
não está ainda na Wikidata
741
00:42:34,882 --> 00:42:36,256
e onde estão as lacunas.
742
00:42:36,257 --> 00:42:40,660
É aí que penso que
ter ferramentas mais robustas
743
00:42:40,660 --> 00:42:44,286
para ver o que está em falta
de ontologias externas
744
00:42:44,286 --> 00:42:45,537
seria muito útil.
745
00:42:47,348 --> 00:42:49,062
(Andra) O maior problema aqui
746
00:42:49,062 --> 00:42:51,201
é, não tanto as ferramentas,
mas mais o licenciamento.
747
00:42:51,803 --> 00:42:55,249
Pôr as ontologias na Wikidata
é, na realidade, muito fácil.
748
00:42:55,250 --> 00:42:59,295
Mas, a maioria das ontologias têm,
como é que o posso dizer educadamente,
749
00:42:59,965 --> 00:43:03,256
licenciamento restritivo e, por isso,
não são compatíveis com a Wikidata.
750
00:43:03,778 --> 00:43:06,678
(Interveniente 2) Existe um enorme número
de thesaurus do setor público
751
00:43:06,678 --> 00:43:08,129
em setores culturais.
752
00:43:08,129 --> 00:43:10,911
- (Andra) Então precisamos de falar.
- (Interveniente 2) Sem problema.
753
00:43:10,911 --> 00:43:12,384
(Andra) Então, precisamos de falar.
754
00:43:13,624 --> 00:43:16,362
(Interveniente 3) O comentário
que quero fazer
755
00:43:16,362 --> 00:43:19,192
é uma resposta para o James.
756
00:43:19,822 --> 00:43:22,401
O que acontece é que
hierarquias fazem gráficos
757
00:43:22,374 --> 00:43:24,041
e quando queremos...
758
00:43:24,429 --> 00:43:28,888
Quero falar acerca de um
problema comum em hierarquias,
759
00:43:28,889 --> 00:43:30,820
que são hierarquias circulares.
760
00:43:30,821 --> 00:43:33,796
Elas voltam umas às outras
quando há um problema.
761
00:43:33,796 --> 00:43:35,920
Não devíamos ter isso com hierarquias.
762
00:43:37,022 --> 00:43:41,295
É engraçado que isto
acontece muito em categorias na Wikipedia.
763
00:43:41,295 --> 00:43:42,990
Temos muitos círculos em categorias.
764
00:43:43,898 --> 00:43:46,612
Mas, a boa notícia é que...
765
00:43:47,713 --> 00:43:51,582
Tecnicamente, é um problema completo PMP,
por isso não o conseguimos encontrar,
766
00:43:51,583 --> 00:43:53,804
e facilmente, se construirmos
um gráfico a partir disso,
767
00:43:54,473 --> 00:43:57,046
mas há muitas formas
que foram desenvolvidas
768
00:43:57,047 --> 00:44:00,624
para encontrar problemas
nestes gráficos de hierarquia.
769
00:44:00,625 --> 00:44:04,860
Existe um artigo
chamado Finding Cycles...
770
00:44:04,861 --> 00:44:07,955
Breaking Cycles in Noisy Hierachies.
771
00:44:07,956 --> 00:44:12,671
Tem sido usado para ajudar
na classificação da Wikipedia inglesa.
772
00:44:12,672 --> 00:44:17,141
Podemos pegar nisto
e aplicar estas hierarquias na Wikidata
773
00:44:17,142 --> 00:44:19,540
e, depois, podemos encontrar
coisas que são problemáticas
774
00:44:19,541 --> 00:44:22,481
e remover as que estão
a causar problemas.
775
00:44:22,482 --> 00:44:24,593
E encontrar os problemas, na realidade.
776
00:44:25,594 --> 00:44:27,960
Isto é só uma ideia, para que...
777
00:44:28,660 --> 00:44:31,380
(Interveniente 2) Está tudo muito bem,
mas acho que está a subestimar
778
00:44:31,380 --> 00:44:35,403
o número de más relações de subclasse
que nós temos.
779
00:44:35,403 --> 00:44:39,680
É como ter uma cidade
que está completamente no país errado.
780
00:44:40,250 --> 00:44:44,884
Existem ferramentas para geografia,
para identificar isso.
781
00:44:45,375 --> 00:44:49,202
Precisamos de ter
muito melhores ferramentas em hierarquias
782
00:44:49,202 --> 00:44:53,477
para identificar onde o equivalente
do item para o país
783
00:44:53,478 --> 00:44:57,673
esteja a faltar completamente
ou se foi subclassificado
784
00:44:57,674 --> 00:45:01,804
como algo que não signifique
algo completamente diferente.
785
00:45:02,804 --> 00:45:07,165
(Lydia) Sim, penso
que está a chegar a algo
786
00:45:07,166 --> 00:45:12,024
que eu e a minha equipa ouvimos sempre
de pessoas que reutilizam os nossos dados.
787
00:45:12,025 --> 00:45:13,991
Com frequência, também.
788
00:45:15,002 --> 00:45:16,638
Dados pontuais podem ser ótimos,
789
00:45:16,639 --> 00:45:20,163
mas, se temos de olhar
para a ontologia, etc,
790
00:45:20,164 --> 00:45:21,857
torna-se muito...
791
00:45:22,388 --> 00:45:26,437
Penso que um dos grandes problems
que causa isto
792
00:45:26,437 --> 00:45:30,736
é que muita da edição na Wikidata
793
00:45:30,740 --> 00:45:34,545
acontece baseada
num item individual, não é?
794
00:45:34,545 --> 00:45:36,201
Fazemos uma edição nesse item
795
00:45:37,653 --> 00:45:42,075
sem nos darmos conta que isto
pode ter consequências globais
796
00:45:42,075 --> 00:45:44,245
no resto do gráfico, por exemplo.
797
00:45:44,245 --> 00:45:50,040
E, se as pessoas têm ideias
sobre como tornar isto mais visível,
798
00:45:50,041 --> 00:45:53,185
as consequências de uma
edição local individual,
799
00:45:54,005 --> 00:45:56,537
penso que seria útil explorá-lo.
800
00:45:57,550 --> 00:46:01,583
Para melhor mostrar às pessoas
as consequências das suas edições,
801
00:46:01,584 --> 00:46:03,434
que elas podem estar a fazer de boa fé,
802
00:46:04,481 --> 00:46:05,481
quais são elas.
803
00:46:07,619 --> 00:46:12,237
(Risos) Muito bem. Vamos começar consigo,
depois você, depois você e depois você.
804
00:46:12,237 --> 00:46:13,921
(Interveniente 3) Bem, depois do debate,
805
00:46:13,922 --> 00:46:18,262
só para exprimir a minha concordância
com o que o James estava a dizer.
806
00:46:18,263 --> 00:46:22,417
Essencialmente, parece
que a coisa mais perigosa é a hierarquia.
807
00:46:22,417 --> 00:46:23,950
Não a hierarquia, mas, de forma geral,
808
00:46:23,950 --> 00:46:28,022
a semântica das relações de subclasse
vistas na Wikidata, certo?
809
00:46:28,022 --> 00:46:32,561
Estive a estudar linguagens recentemente,
apenas para esta conferência
810
00:46:32,562 --> 00:46:35,257
e, por exemplo, encontram-se muitos casos
811
00:46:35,257 --> 00:46:39,463
onde a linguagem é parte de
e uma subclasse da mesma coisa.
812
00:46:39,923 --> 00:46:43,577
Podemos dizer que temos
uma ontologia flexível.
813
00:46:43,577 --> 00:46:46,256
A Wikidata dá-nos a liberdade
de exprimir isso, por vezes.
814
00:46:46,256 --> 00:46:47,257
Porque, por exemplo
815
00:46:47,258 --> 00:46:50,721
essa ontologia de linguagens
é também politicamente complicada, certo?
816
00:46:50,722 --> 00:46:55,038
É bom estar numa posição que nos permita
expressar um nível de incerteza.
817
00:46:55,038 --> 00:46:57,983
Mas imaginem alguém a querer
fazer leitura ótica a partir disso.
818
00:46:57,984 --> 00:46:59,468
É mesmo problemático.
819
00:46:59,468 --> 00:47:00,468
E, depois,
820
00:47:00,469 --> 00:47:03,686
não penso que a ontologia
seja algo que foi importada de algures,
821
00:47:03,687 --> 00:47:05,490
é algo que é originalmente nosso.
822
00:47:05,491 --> 00:47:08,321
Diria que foi colhida da Wikipedia
mesmo no início.
823
00:47:08,322 --> 00:47:11,324
Por isso pergunto-me... Esta
coisa do Shape Expressions é ótima,
824
00:47:11,325 --> 00:47:15,575
e também validadora e reparadora.
A ontologia da Wikidata
825
00:47:15,576 --> 00:47:18,191
a partir de recursos externos
é uma bela ideia.
826
00:47:18,886 --> 00:47:19,906
No final,
827
00:47:19,906 --> 00:47:25,440
acabaremos por refletir
as ontologias externas na Wikidata?
828
00:47:25,441 --> 00:47:28,651
E também, o que fazemos
com a parte central da nossa ontologia
829
00:47:28,652 --> 00:47:30,642
que nunca é colhida
a partir de recursos externos.
830
00:47:30,643 --> 00:47:31,978
Como é que solucionamos isso?
831
00:47:31,979 --> 00:47:35,276
Penso, realmente, que isso
será um problema por si só.
832
00:47:35,277 --> 00:47:39,010
Teremos de nos focar nisso
independentemente da ideia
833
00:47:39,010 --> 00:47:41,191
de validar a ontologia com algo externo.
834
00:47:42,642 --> 00:47:44,722
(Lydia aponta para a audiência)
835
00:47:49,353 --> 00:47:53,379
(Interveniente 4) Restrições e formas
são muito impressionantes,
836
00:47:53,380 --> 00:47:55,185
aquilo que podemos fazer com elas,
837
00:47:55,205 --> 00:47:58,481
mas o ponto principal
não está claro.
838
00:47:58,482 --> 00:48:03,229
Porque agora podemos tornar mais explícito
o que esperamos dos dados.
839
00:48:03,229 --> 00:48:06,893
Antes, cada um tinha de escrever
as suas próprias ferramentas e scripts.
840
00:48:06,894 --> 00:48:10,601
Por isso, é mais visível
e podemos discuti-lo.
841
00:48:10,602 --> 00:48:13,641
Mas porque não é sobre
o que está errado ou certo,
842
00:48:13,642 --> 00:48:15,870
é acerca de uma expectativa.
843
00:48:15,870 --> 00:48:18,105
Vocês terão
diferentes expectativas e debates
844
00:48:18,106 --> 00:48:20,737
acerca de como queremos
modelar as coisas na Wikidata
845
00:48:21,246 --> 00:48:23,095
e isto...
846
00:48:23,096 --> 00:48:26,280
O estado atual é apenas
um passo na direção
847
00:48:26,281 --> 00:48:28,041
porque agora precisamos
848
00:48:28,042 --> 00:48:31,041
de muito conhecimento especializado
para lidarmos com isto.
849
00:48:31,042 --> 00:48:35,721
Precisamos de formas melhores
de visualizar esta restrição,
850
00:48:35,722 --> 00:48:38,259
para a transformar,
porventura em linguagem natural,
851
00:48:38,259 --> 00:48:40,939
para que as pessoas
melhor a possam entender.
852
00:48:40,939 --> 00:48:43,768
Mas não é tanto
acerca do errado ou do certo.
853
00:48:44,925 --> 00:48:45,925
(Lydia) Sim.
854
00:48:50,986 --> 00:48:53,893
(Interveniente 5) Para questões
de qualidade, só quero fazer eco...
855
00:48:53,894 --> 00:48:57,010
Definitivamente, encontrei muitos
dos problemas. Encontrei...
856
00:48:58,838 --> 00:49:02,330
diferenças de opinião
entre "instâncias de" versus "subclasse".
857
00:49:02,331 --> 00:49:05,963
Diria, erros, nestas situações.
858
00:49:05,963 --> 00:49:11,521
E tentar encontrá-los
tem sido um processo moroso.
859
00:49:11,522 --> 00:49:14,840
O que encontrei foi:
"Se eu encontrar itens de grande impressão
860
00:49:14,840 --> 00:49:16,051
que são algo...
861
00:49:16,052 --> 00:49:18,762
e depois usar
todas as instâncias das subclasses
862
00:49:18,762 --> 00:49:21,628
para encontrar
todas as declarações derivadas disto."
863
00:49:21,628 --> 00:49:26,215
Esta é uma forma muito útil
de olhar para estes erros.
864
00:49:26,215 --> 00:49:28,567
Mas eu estava curioso para saber
se o Shape Expressions...
865
00:49:29,841 --> 00:49:31,582
se há...
866
00:49:31,583 --> 00:49:35,355
Se isto pode ser usado como ferramenta
para ajudar a resolver estas questões.
867
00:49:35,355 --> 00:49:37,074
Mas sim...
868
00:49:40,514 --> 00:49:42,925
(Interveniente 6) Se tem
uma pegada estrutural...
869
00:49:45,910 --> 00:49:49,310
Se tem uma pegada estrutural
que podemos... que seja falsificável.
870
00:49:49,310 --> 00:49:51,191
Podemos olhar para isso
e dizer: "Está errado."
871
00:49:51,192 --> 00:49:52,670
Então sim, podemos fazer isso.
872
00:49:52,671 --> 00:49:56,921
Mas se for só tentar mapeá-lo
para objetos do mundo real
873
00:49:56,922 --> 00:49:59,082
então vai precisar
de muitos cérebros.
874
00:50:05,768 --> 00:50:08,631
(Interveniente 7) Olá. Pablo Mendes
do Siri Knowledge da Apple.
875
00:50:09,154 --> 00:50:12,770
Estamos aqui para descobrir como ajudar
o projeto e a comunidade,
876
00:50:12,770 --> 00:50:15,645
mas a Cristina cometeu o erro
de perguntar o que queríamos.
877
00:50:16,471 --> 00:50:20,052
(risos) Por isso, penso
que uma das coisas que gostaria de ver
878
00:50:20,958 --> 00:50:23,521
gira à volta da verificabilidade,
879
00:50:23,522 --> 00:50:26,372
que é um dos princípios chave
do projeto na comunidade.
880
00:50:27,062 --> 00:50:28,590
E confiabilidade.
881
00:50:28,590 --> 00:50:32,412
Nem todas as declarações são iguais,
algumas são fortemente disputadas,
882
00:50:32,413 --> 00:50:33,653
outras são fáceis de adivinhar.
883
00:50:33,654 --> 00:50:35,924
A data de nascimento de alguém
pode ser verificada,
884
00:50:35,924 --> 00:50:39,082
como viram hoje na Keynote,
questões de género são mais complicadas.
885
00:50:40,205 --> 00:50:42,130
Podem discutir um pouco do que sabem
886
00:50:42,131 --> 00:50:47,271
nesta área de qualidade de dados, acerca
de confiabilidade e de verificabilidade?
887
00:50:51,186 --> 00:50:52,936
(risos)
888
00:50:55,442 --> 00:50:58,138
Se não há muito,
gostaria de ver muito mais. (risos)
889
00:51:00,646 --> 00:51:01,646
(Lydia) Sim.
890
00:51:03,734 --> 00:51:06,968
Aparentemente, não temos muito a dizer
acerca disso. (risos)
891
00:51:08,754 --> 00:51:12,299
(Andra) Penso que podemos fazer muito,
mas tive uma discussão consigo ontem.
892
00:51:12,300 --> 00:51:15,774
O meu exemplo preferido que, soube ontem,
foi descontinuado,
893
00:51:15,774 --> 00:51:20,281
é, se forem ao Q2, que é Terra,
894
00:51:20,282 --> 00:51:23,343
existe uma declaração
que reivindica que a Terra é plana.
895
00:51:24,183 --> 00:51:26,055
Adoro esse exemplo
896
00:51:26,056 --> 00:51:28,391
porque há uma comunidade
por aí que afirma isso
897
00:51:28,392 --> 00:51:30,417
e eles têm recursos verificáveis.
898
00:51:30,418 --> 00:51:32,254
Por isso, penso que seja um caso genuíno.
899
00:51:32,255 --> 00:51:34,641
Não deve ser descontinuado,
deve estar na Wikidata.
900
00:51:34,642 --> 00:51:40,385
E penso que o Shape Expressions
pode ser fundamental aqui,
901
00:51:40,386 --> 00:51:41,832
porque podem dizer:
902
00:51:41,833 --> 00:51:44,856
"Sim, estou mesmo interessado
neste caso de uso",
903
00:51:44,857 --> 00:51:47,129
ou que este é um caso de uso
com o qual não concordam.
904
00:51:47,130 --> 00:51:51,059
Mas também pode haver um caso de uso
onde dizem: "Estou interessado."
905
00:51:51,059 --> 00:51:53,449
Há este exemplo. Dizem:
"Tenho glucose."
906
00:51:53,449 --> 00:51:55,841
E a glucose, se forem um biólogo,
907
00:51:55,842 --> 00:52:00,176
As restrições químicas
da molécula de glucose não vos interessam,
908
00:52:00,177 --> 00:52:03,201
apenas... tudo o que seja
glucose é o mesmo.
909
00:52:03,202 --> 00:52:05,973
Mas, se forem um químico,
arrepiam-se ao ouvir isso.
910
00:52:05,973 --> 00:52:08,191
Têm 200 e tal...
911
00:52:08,191 --> 00:52:10,443
Depois, podem ter
Shape Expressions múltiplas.
912
00:52:10,443 --> 00:52:12,721
Vou entrar com...
Estou no ponto de vista de um químico,
913
00:52:12,722 --> 00:52:13,887
vou aplicar isso.
914
00:52:13,887 --> 00:52:16,691
E depois, dizem,
"sou um caso de uso de um biólogo",
915
00:52:16,691 --> 00:52:18,524
e aplicam essa Shape Expression.
916
00:52:18,524 --> 00:52:20,358
E, quando quiserem colaborar,
917
00:52:20,358 --> 00:52:22,784
deviam falar com o Eric acerca
dos mapas ShEx.
918
00:52:24,930 --> 00:52:28,873
Esta jornada está apenas a começar.
919
00:52:28,873 --> 00:52:32,238
Mas acredito que seja muito
instrumental nessa área.
920
00:52:34,292 --> 00:52:35,535
(Lydia) Ali.
921
00:52:37,949 --> 00:52:39,168
(risos)
922
00:52:40,597 --> 00:52:46,035
(Interveniente 8) Tive várias ideias
para alguns pontos na discussão,
923
00:52:46,035 --> 00:52:50,902
por isso, vou tentar não perder...
Tive três ideias, por isso...
924
00:52:52,394 --> 00:52:55,201
Baseado no que o James disse há pouco,
925
00:52:55,202 --> 00:52:59,001
temos um grande problema
na Wikidata desde o início
926
00:52:59,002 --> 00:53:01,574
para a ontologia superior.
927
00:53:02,363 --> 00:53:05,339
Falámos acerca disso
há dois anos na WikidataCon
928
00:53:05,340 --> 00:53:07,432
e falámos acerca disso na Wikimania.
929
00:53:07,432 --> 00:53:09,818
Sempre que temos um encontro da Wikidata
930
00:53:09,818 --> 00:53:11,656
estamos a falar sobre isso.
931
00:53:11,656 --> 00:53:15,782
Porque é um grande problema
que está muito visível:
932
00:53:15,783 --> 00:53:23,118
que entidade é, com que trabalho é,
que género é, arte,
933
00:53:23,118 --> 00:53:25,461
são realmente o maior conceito.
934
00:53:26,195 --> 00:53:33,117
E isso é um ponto muito fraco
na ontologia global
935
00:53:33,118 --> 00:53:37,453
porque as pessoas
tentam fazer limpezas regularmente
936
00:53:38,017 --> 00:53:41,047
e quebram tudo o que está a montante.
937
00:53:42,516 --> 00:53:48,649
Penso que alguns de vocês
se devem lembrar do tipo que, em boa-fé,
938
00:53:48,649 --> 00:53:51,785
quebrou todas as cidades do mundo.
939
00:53:51,785 --> 00:53:57,537
Já não eram itens geográficos. Por isso,
violações de restrições por todo o lado.
940
00:53:58,720 --> 00:54:00,278
E foi feito em boa fé,
941
00:54:00,278 --> 00:54:03,623
porque ele estava a corrigir
um erro num item,
942
00:54:04,170 --> 00:54:05,732
mas quebrou tudo.
943
00:54:06,349 --> 00:54:09,373
Não tenho a certeza de como
podemos resolver isso
944
00:54:10,216 --> 00:54:15,709
porque não há, atualmente, nenhuma
instituição externa que possamos copiar
945
00:54:15,710 --> 00:54:18,490
porque toda a gente está a trabalhar em...
946
00:54:19,154 --> 00:54:22,041
Se eu for base de dados
de artes performativas
947
00:54:22,042 --> 00:54:24,601
limito-me a ir
à etiqueta de artes performativas
948
00:54:24,601 --> 00:54:29,361
ou não irei ao conceito filosófico
do que é aquela entidade
949
00:54:29,362 --> 00:54:31,201
e isso é, na realidade...
950
00:54:31,202 --> 00:54:34,561
Não conheço nenhuma base de dados
que esteja a trabalhar a este nível,
951
00:54:34,562 --> 00:54:36,827
mas esse é o ponto mais fraco da Wikidata.
952
00:54:37,936 --> 00:54:40,812
E, provavelmente, quando falamos
de qualidade de dados,
953
00:54:40,812 --> 00:54:44,034
isso é uma grande parte, por isso...
954
00:54:44,034 --> 00:54:48,569
Penso que é o mesmo
que afirmamos em...
955
00:54:48,569 --> 00:54:50,452
Desculpem, estou a mudar de assunto,
956
00:54:51,401 --> 00:54:55,774
mas afirmámos, em diferentes sessões
acerca de qualidade,
957
00:54:55,774 --> 00:54:59,398
que alguns de nós estão a fazer
um bom trabalho de modelação,
958
00:54:59,399 --> 00:55:01,580
estamos a fazer ShEx,
estamos a fazer coisas como essa.
959
00:55:01,580 --> 00:55:07,655
As pessoas não o veem na Wikidata,
não veem o ShEx,
960
00:55:07,655 --> 00:55:10,392
não veem o WikiProject
na página de discussão
961
00:55:10,393 --> 00:55:14,958
e, por vezes,
nem veem a página de topo das propriedades
962
00:55:14,958 --> 00:55:19,628
que diz, explicitamente:
a) Esta propriedade é usada para isto.
963
00:55:19,628 --> 00:55:23,887
Como na semana passada.
Eu adicionei restrições a uma propriedade.
964
00:55:23,888 --> 00:55:28,690
A restrição estava escrita explicitamente
na discussão da criação da propriedade.
965
00:55:28,690 --> 00:55:34,548
Eu criei apenas a parte técnica
de adicionar a restrição, e alguém:
966
00:55:34,548 --> 00:55:37,182
"O quê? Quebraste
todas as minhas edições!"
967
00:55:37,183 --> 00:55:41,542
Ele esteve a usar a propriedade
erradamente nos útlimos dois anos.
968
00:55:41,542 --> 00:55:46,868
A propriedade era bastante clara,
mas não havia avisos.
969
00:55:46,869 --> 00:55:48,872
É o mesmo no Pink Pony.
970
00:55:48,872 --> 00:55:52,082
Dissemos, na Wikimedia que deviamos
tornar o WikiProject mais visível
971
00:55:52,082 --> 00:55:54,719
ou tornar o ShEx mais visível, mas...
972
00:55:54,719 --> 00:55:56,917
E isso foi o que a Cristina disse.
973
00:55:56,917 --> 00:56:02,368
Temos um problema de visibilidade,
do que são as soluções.
974
00:56:02,368 --> 00:56:04,242
E, nesta sessão,
975
00:56:04,242 --> 00:56:06,862
estamos todos a falar acerca
de como criar mais ShEx,
976
00:56:06,863 --> 00:56:10,727
ou de facilitar o trabalho
das pessoas que estão a fazer a limpeza.
977
00:56:11,605 --> 00:56:15,835
Mas, estamos a limpar
desde o primeiro dia da Wikidata
978
00:56:15,836 --> 00:56:18,223
e, globalmente, estamos a perder.
979
00:56:19,123 --> 00:56:22,960
Estamos a perder porque,
se eu sei que os nomes são complicados,
980
00:56:22,961 --> 00:56:26,162
mas eu sou a única a fazer
o trabalho de limpeza...
981
00:56:26,662 --> 00:56:29,671
A pessoa que adicionou
nome de script em Latim
982
00:56:29,672 --> 00:56:31,584
a todos os investigadores chineses.
983
00:56:32,088 --> 00:56:35,616
Vou demorar meses a limpar isso
e não o posso fazer sozinha.
984
00:56:35,616 --> 00:56:38,777
E ele fez um lote maciço.
985
00:56:38,777 --> 00:56:40,241
Por isso, precisamos realmente...
986
00:56:40,242 --> 00:56:44,158
Temos um problema de visibilidade
mais do que um problema de ferramentas,
987
00:56:44,158 --> 00:56:45,733
porque temos muitas ferramentas.
988
00:56:45,733 --> 00:56:50,255
(Lydia) Bem, infelizmente
mostraram-me um sinal. (risos)
989
00:56:50,256 --> 00:56:52,001
Por isso, precisamos de terminar.
990
00:56:52,001 --> 00:56:53,603
Muito obrigada pelos vossos comentários.
991
00:56:53,603 --> 00:56:56,611
Espero que continuem a debater
durante o resto do dia.
992
00:56:56,611 --> 00:56:58,020
Obrigada pelo vosso contributo.
993
00:56:58,359 --> 00:57:03,444
(aplausos)