1
00:00:05,945 --> 00:00:09,506
Hallo allerseits zum
Datenqualitätspanel.
2
00:00:10,288 --> 00:00:13,511
Datenqualität ist wichtig,
weil immer mehr Menschen da draußen
3
00:00:13,511 --> 00:00:16,269
sich darauf verlassen, dass unsere Daten
in einem guten Zustand sind.
4
00:00:16,269 --> 00:00:19,752
Daher werden wir
über die Datenqualität sprechen
5
00:00:19,752 --> 00:00:25,298
und es werden vier Sprecher
kurze Einführungen geben
6
00:00:25,298 --> 00:00:28,003
zu Themen im Zusammenhang
mit der Datenqualität
7
00:00:28,003 --> 00:00:30,130
und im Anschluss
folgen Fragen und Antworten.
8
00:00:30,130 --> 00:00:32,234
Und der Erste ist Lucas.
9
00:00:34,385 --> 00:00:35,385
Vielen Dank.
10
00:00:35,901 --> 00:00:39,899
Hallo, ich bin Lucas
und beginne mit einer Übersicht
11
00:00:39,899 --> 00:00:43,806
der Datenqualitätstools,
die wir bereits auf Wikidata haben
12
00:00:43,807 --> 00:00:46,231
und auch von einigen Dingen,
die bald verfügbar sind.
13
00:00:46,932 --> 00:00:50,623
Und ich habe das alles
in allgemeine Themen gruppiert
14
00:00:50,623 --> 00:00:53,621
wie Fehler sichtbarer machen,
Probleme angehbar machen,
15
00:00:53,621 --> 00:00:56,673
den Daten mehr Aufmerksamkeit widmen,
damit die Leute die Probleme bemerken,
16
00:00:56,945 --> 00:00:59,367
einige der häufigen Fehlerquellen beheben,
17
00:00:59,717 --> 00:01:02,517
die Qualität der vorhandenen Daten sichern
18
00:01:02,616 --> 00:01:04,210
und auch Datenpflege durch Menschen.
19
00:01:05,063 --> 00:01:09,998
Und die, welche derzeit verfügbar sind,
beginnen mit Eigenschaftsbeschränkungen.
20
00:01:10,228 --> 00:01:12,521
Ihr habt dies wahrscheinlich
bereits auf Wikidata gesehen,
21
00:01:12,521 --> 00:01:14,259
manchmal habt ihr diese Symbole,
22
00:01:14,530 --> 00:01:17,241
die die interne Konsistenz
der Daten überprüfen.
23
00:01:17,242 --> 00:01:20,800
Wenn zum Beispiel
ein Ereignis dem anderen folgt,
24
00:01:20,801 --> 00:01:23,760
dann sollte das andere Ereignis
auch von diesem gefolgt werden,
25
00:01:23,761 --> 00:01:27,161
was auf dem WikidataCon-Item
anscheinend fehlte.
26
00:01:27,162 --> 00:01:29,762
Keine Ahnung, dieses Feature
ist erst ein paar Tage alt.
27
00:01:30,040 --> 00:01:34,681
Wenn dies für euch zu einschränkend
oder zu einfach ist, gibt es auch
28
00:01:34,682 --> 00:01:37,950
den Query Service, mit dem ihr
beliebige Kontrollen erstellen könnt,
29
00:01:37,950 --> 00:01:39,842
was natürlich
bei vielen Dingen nützlich ist,
30
00:01:39,843 --> 00:01:44,383
aber ihr könnt diesen auch
zum Auffinden von Fehlern verwenden.
31
00:01:44,383 --> 00:01:46,974
Also wenn ihr das Auftreten
eines Fehlers bemerkt habt,
32
00:01:46,975 --> 00:01:49,499
dann könnt ihr nachschauen,
ob es noch andere Orte gibt,
33
00:01:49,499 --> 00:01:51,828
wo Leute andere,
ähnliche Fehler gemacht haben
34
00:01:51,828 --> 00:01:53,515
und dies mit dem Query Service finden.
35
00:01:53,515 --> 00:01:54,839
Ihr könnt auch beide kombinieren
36
00:01:54,839 --> 00:01:57,874
und nach Verstößen gegen Constraints
im Query Service suchen,
37
00:01:57,875 --> 00:02:01,040
zum Beispiel nur die Verstöße
in einigen Bereichen
38
00:02:01,040 --> 00:02:03,762
oder einem WikiProject,
das für euch relevant ist.
39
00:02:03,762 --> 00:02:06,828
Leider sind die Resultate
derzeit nicht vollständig.
40
00:02:08,232 --> 00:02:09,877
Es gibt eine Revisionswertung.
41
00:02:10,390 --> 00:02:12,666
Das ist... ich denke, das kam
von den letzten Änderungen.
42
00:02:12,666 --> 00:02:14,944
Ihr könnt es auch
auf eure Beobachtungsliste setzen,
43
00:02:14,945 --> 00:02:17,627
eine automatische Bewertung
vornehmen lassen,
44
00:02:17,627 --> 00:02:20,292
ob diese Änderung wohl
in gutem Glauben geschehen ist oder nicht
45
00:02:20,292 --> 00:02:22,312
und schädlich oder nicht schädlich ist.
46
00:02:22,313 --> 00:02:24,228
Ich denke, das sind die beiden Bereiche.
47
00:02:24,228 --> 00:02:25,776
Also könnt ihr, wenn ihr wollt,
48
00:02:25,776 --> 00:02:29,778
euch auf nur die schädlichen,
aber sinnvollen Änderungen konzentrieren.
49
00:02:29,778 --> 00:02:32,393
Wenn ihr euch besonders
freundlich und einladend fühlt,
50
00:02:32,393 --> 00:02:34,272
könnt ihr den Editoren sagen:
51
00:02:34,272 --> 00:02:38,498
"Vielen Dank für euren Beitrag,
so hättet ihr es machen sollen,
52
00:02:38,498 --> 00:02:40,511
aber trotzdem danke."
53
00:02:40,511 --> 00:02:42,056
Und wenn euch nicht danach ist,
54
00:02:42,056 --> 00:02:44,342
könnt ihr die nicht sinnvollen
Änderungen durchgehen
55
00:02:44,342 --> 00:02:45,856
und die Vandalen wieder zurücknehmen.
56
00:02:47,474 --> 00:02:49,761
Ähnliches gilt auch
bei der Bewertung von Entitäten.
57
00:02:49,762 --> 00:02:52,590
Anstatt also eine Änderung zu bewerten,
was sie geändert hat,
58
00:02:52,591 --> 00:02:54,157
bewertet ihr die gesamte Revision
59
00:02:54,157 --> 00:02:56,523
und ich glaube, das ist
das gleiche Qualitätsmaß,
60
00:02:56,523 --> 00:02:59,863
welches Lydia zu Beginn
der Konferenz erwähnt hat.
61
00:03:00,372 --> 00:03:02,273
Hier oben gibt es ein Benutzer-Skript,
62
00:03:02,273 --> 00:03:04,499
welches euch eine Wertung
von 1 bis 5 vorgibt.
63
00:03:04,499 --> 00:03:08,256
Ich glaube, das bezieht sich
auf die Qualität des aktuellen Eintrags.
64
00:03:09,979 --> 00:03:13,287
Das Primary-Sources-Tool
ist für jede Datenbank gedacht,
65
00:03:13,287 --> 00:03:15,268
die ihr importieren möchtet,
66
00:03:15,268 --> 00:03:18,274
die aberqualitativ nicht so gut ist,
um sie direkt zu Wikidata hinzuzufügen,
67
00:03:18,274 --> 00:03:20,485
also fügt ihr es
zu dem Primary-Source-Tool hinzu
68
00:03:20,485 --> 00:03:22,956
und dann können die Leute entscheiden,
69
00:03:22,956 --> 00:03:26,024
ob sie diese einzelnen Aussagen
hinzufügen sollten oder nicht.
70
00:03:28,505 --> 00:03:30,321
Das Anzeigen von Koordinaten als Karten
71
00:03:30,321 --> 00:03:31,931
ist vorwiegend eine praktische Funktion,
72
00:03:31,931 --> 00:03:33,738
aber auch für
die Qualitätskontrolle nützlich.
73
00:03:33,738 --> 00:03:34,970
Wenn ihr beispielsweise seht,
74
00:03:34,970 --> 00:03:36,848
dies soll Büro
von Wikimedia Deutschland sein,
75
00:03:36,848 --> 00:03:39,400
aber die Koordinaten liegen
irgendwo im Indischen Ozean,
76
00:03:39,401 --> 00:03:41,529
dann wisst ihr, dass da etwas nicht stimmt
77
00:03:41,530 --> 00:03:44,790
und ihr könnt es viel einfacher sehen
als nur mit den Koordinaten.
78
00:03:46,262 --> 00:03:49,496
Dies ist ein Gadget mit dem Namen
relativer Vollständigkeitsindikator,
79
00:03:49,496 --> 00:03:52,480
das euch dieses kleine Symbol hier zeigt,
80
00:03:53,007 --> 00:03:55,652
das euch sagt, für wie vollständig
es diesen Punkt hält
81
00:03:55,652 --> 00:03:57,613
und auch welche Eigenschaften
am ehesten fehlen.
82
00:03:57,614 --> 00:03:59,889
Das ist wirklich nützlich,
wenn ihr eine Sache bearbeitet
83
00:03:59,889 --> 00:04:03,022
und ihr euch in einem Bereich befindet,
mit dem ihr nicht sehr vertraut seid
84
00:04:03,022 --> 00:04:05,661
und ihr nicht wisst,
welche Eigenschaften richtig sind.
85
00:04:05,662 --> 00:04:08,230
Dann ist dies ein sehr nützliches Gadget.
86
00:04:09,504 --> 00:04:11,401
Und wir haben Shape-Ausdrücke.
87
00:04:11,402 --> 00:04:15,624
Ich denke, Andrea oder Jose
werden mehr darüber erzählen,
88
00:04:15,624 --> 00:04:17,933
aber das ist im Grunde
eine sehr leistungsfähige Methode
89
00:04:17,933 --> 00:04:20,508
zum Vergleichen der Daten,
die ihr habt, gegen das Schema,
90
00:04:20,508 --> 00:04:22,630
also welche Aussage sollten
bestimmte Entitäten haben,
91
00:04:22,630 --> 00:04:24,939
mit welchen anderen Entitäten
sollten diese verbunden sein
92
00:04:24,939 --> 00:04:26,349
und wie sollten diese aussehen?
93
00:04:26,349 --> 00:04:29,374
Und so könnt ihr Probleme
auf diese Weise finden.
94
00:04:30,246 --> 00:04:32,361
Ich denke... Nein, da ist noch mehr.
95
00:04:32,362 --> 00:04:34,321
Das Integraality- oder Property-Dashboard
96
00:04:34,322 --> 00:04:37,023
gibt euch einen schnellen Überblick
der Daten, die ihr bereits habt.
97
00:04:37,023 --> 00:04:39,285
Dies ist zum Beispiel
aus dem WikiProject Red Pandas
98
00:04:39,517 --> 00:04:41,464
und ihr könnt sehen,
dass wir ein Geschlecht
99
00:04:41,464 --> 00:04:43,561
für fast alle der roten Pandas haben,
100
00:04:43,561 --> 00:04:46,854
das Geburtsdatum variiert sehr
im Bezug zum Zoo, aus dem sie stammen
101
00:04:46,854 --> 00:04:50,255
und wir haben fast keine toten Pandas,
was wunderbar ist,
102
00:04:51,237 --> 00:04:52,780
weil sie so süß sind.
103
00:04:53,699 --> 00:04:55,654
Das ist also auch nützlich.
104
00:04:56,377 --> 00:04:59,185
Nun kommen wir zu den Themen,
die aktuell anstehen.
105
00:04:59,889 --> 00:05:03,784
Wikidata Bridge oder auch
bekannt als Client-Editing,
106
00:05:03,785 --> 00:05:07,076
also die Bearbeitung von Wikidata
mittels Wikipedia-Infoboxen.
107
00:05:07,675 --> 00:05:11,265
Einerseits wird auf die Daten
mehr Augenmerk gelegt,
108
00:05:11,265 --> 00:05:13,441
weil mehr Leute
die Daten dort sehen können.
109
00:05:13,441 --> 00:05:17,100
Dies wird hoffentlich vermehrt
den Gebrauch von Wikidata
110
00:05:17,100 --> 00:05:19,251
in den Wikipedias anregen
und das bedeutet,
111
00:05:19,251 --> 00:05:21,213
dass mehr Leute davon
Kenntnis bekommen können,
112
00:05:21,213 --> 00:05:23,747
wenn manche Daten veraltet sind
und aktualisiert werden müssen,
113
00:05:23,747 --> 00:05:27,000
als wenn dies nur auf Wikidata
sichtbar wäre.
114
00:05:28,630 --> 00:05:30,656
Es gibt auch kaputte Referenzen.
115
00:05:30,657 --> 00:05:33,986
Die Idee hier ist, dass wenn ihr
den Wert einer Anweisung bearbeitet,
116
00:05:34,683 --> 00:05:37,059
ihr auch die Referenzen
aktualisieren solltet,
117
00:05:37,059 --> 00:05:39,528
außer es handelt sich nur
um einen Tippfehler oder Ähnliches.
118
00:05:39,897 --> 00:05:43,532
Und diese kaputten Referenzen
weisen die Bearbeiter
119
00:05:43,532 --> 00:05:47,506
und auch andere Bearbeiter,
die das sehen können, darauf hin,
120
00:05:47,506 --> 00:05:49,756
ob und welche anderen Änderungen
vorgenommen wurden,
121
00:05:49,756 --> 00:05:52,471
den Wert der Anweisung
und die nicht aktualisierte Referenz.
122
00:05:52,472 --> 00:05:56,766
Ihr könnt das dann korrigieren
und entscheiden, ob es das war...
123
00:05:57,477 --> 00:06:00,496
oder noch mehr ansteht
oder das tatsächlich so in Ordnung ist
124
00:06:00,496 --> 00:06:03,006
und ihr die Referenzen
nicht aktualisieren müsst.
125
00:06:03,543 --> 00:06:05,996
Das bezieht sich
auf signierte Anweisungen,
126
00:06:05,996 --> 00:06:09,251
die von einem Anliegen stammen,
soweit ich weiß,
127
00:06:09,251 --> 00:06:12,355
dass einige Datenanbieter
das zum Beispiel so handhaben...
128
00:06:14,131 --> 00:06:17,231
es gibt eine Anweisung, auf die
von der UNESCO verwiesen wird oder so
129
00:06:17,232 --> 00:06:19,872
und dann zerstört plötzlich
jemand die Anweisung
130
00:06:19,873 --> 00:06:22,196
und sie sind dann besorgt,
dass es dann so aussieht,
131
00:06:22,827 --> 00:06:25,739
als ob der falsche veränderte Wert
immer noch von der Organisation
132
00:06:25,739 --> 00:06:27,780
wie der UNESCO stamme,
133
00:06:27,780 --> 00:06:29,503
also können sie mit signierten Anweisungen
134
00:06:29,503 --> 00:06:31,488
solche Referenzen
kryptografisch signieren.
135
00:06:31,488 --> 00:06:33,762
Das verhindert zwar
keine Änderungen daran,
136
00:06:34,169 --> 00:06:37,034
aber zumindest, wenn jemand
die Anweisung verfälscht
137
00:06:37,034 --> 00:06:40,255
oder sie in irgendeiner Weise verändert,
dann ist die Signatur nicht mehr gültig,
138
00:06:40,255 --> 00:06:43,491
dann wisst ihr, dies entspricht nicht dem,
was von der Organisation stammt.
139
00:06:43,491 --> 00:06:47,299
Vielleicht war es eine konforme Änderung
und diese sollte neu signiert werden,
140
00:06:47,299 --> 00:06:50,760
aber vielleicht muss diese
wieder rückgängig gemacht werden.
141
00:06:51,203 --> 00:06:54,166
Nun etwas, das auch sehr aufregend
sein wird, denke ich,
142
00:06:54,166 --> 00:06:56,956
Citoid ist dieses erstaunliche System,
das sie auf Wikipedia haben.
143
00:06:57,379 --> 00:07:01,266
Damit könnt ihr eine URL,
einen Bezeichner oder eine ISBN
144
00:07:01,266 --> 00:07:04,759
oder Wikidata ID oder im Grunde
alles in den Visual Editor einfügen
145
00:07:05,260 --> 00:07:08,041
und es spuckt eine Referenz aus,
die schön formatiert ist,
146
00:07:08,041 --> 00:07:11,049
und dazu alle Daten, die ihr braucht,
und der Gebrauch davon ist toll.
147
00:07:11,049 --> 00:07:14,337
Und im Vergleich dazu auf Wikidata,
wenn ich einen Verweis hinzufügen möchte,
148
00:07:14,338 --> 00:07:17,271
muss ich normalerweise
eine Referenz-URL, einen Titel,
149
00:07:17,271 --> 00:07:19,517
einen String des Autorennamen,
Veröffentlichungsort,
150
00:07:19,517 --> 00:07:21,481
Veröffentlichungsdatum, Abfragedatum,
151
00:07:21,481 --> 00:07:24,991
zumindest diese angeben
und das ist ärgerlich.
152
00:07:24,991 --> 00:07:29,261
Die Integration von Citoid in Wikibase
wird hier hoffentlich Abhilfe bringen.
153
00:07:30,245 --> 00:07:33,604
Und ich denke, das war alles,
was ich hatte, ja.
154
00:07:33,604 --> 00:07:36,520
Also gebe ich jetzt ab zu Cristina.
155
00:07:43,780 --> 00:07:45,171
Hi, ich bin Cristina.
156
00:07:45,171 --> 00:07:47,753
Ich bin wissenschaftliche Mitarbeiterin
der Universität Zürich
157
00:07:47,753 --> 00:07:51,517
und ich bin auch aktives Mitglied
der Schweizer Community.
158
00:07:52,698 --> 00:07:57,741
Als Claudia Müller-Birn und ich dies
auf der WikidataCon einreichten,
159
00:07:57,741 --> 00:08:00,461
war es unser Anliegen,
unsere Diskussion fortzusetzen,
160
00:08:00,461 --> 00:08:02,594
die wir Anfang des Jahres begonnen hatten
161
00:08:02,594 --> 00:08:07,442
mit einem Workshop für Datenqualität
und einigen Sessions in Wikimania.
162
00:08:07,442 --> 00:08:10,535
Also das Ziel dieses Vortrags ist es,
einige Ideen von uns
163
00:08:10,536 --> 00:08:14,432
und der Community anzusprechen,
die wir aufgegriffen haben,
164
00:08:14,432 --> 00:08:16,560
und die Diskussion fortzusetzen.
165
00:08:16,561 --> 00:08:20,065
Wir möchten also weiterhin
viel mit euch interagieren.
166
00:08:21,487 --> 00:08:23,371
Also was wir für sehr wichtig halten,
167
00:08:23,372 --> 00:08:27,580
ist, dass wir kontinuierlich jede Art
von Benutzer in der Community fragen,
168
00:08:27,581 --> 00:08:29,030
was sie wirklich brauchen,
169
00:08:29,030 --> 00:08:32,000
welche Probleme sie
mit der Datenqualität haben,
170
00:08:32,000 --> 00:08:34,760
nicht nur Bearbeiter,
sondern auch die Leute, die programmieren
171
00:08:34,760 --> 00:08:37,510
oder einfach Daten verwenden,
und auch Forscher,
172
00:08:37,510 --> 00:08:39,494
die den gesamten
Bearbeitungsverlauf verwenden,
173
00:08:39,494 --> 00:08:41,620
um zu analysieren, was vor sich geht.
174
00:08:42,367 --> 00:08:46,021
Wir haben also eine Überprüfung
von rund 80 Tools durchgeführt,
175
00:08:46,021 --> 00:08:49,251
die in Wikidata vorhanden sind,
und wir haben sie ausgerichtet
176
00:08:49,251 --> 00:08:52,225
an verschiedenen Dimensionen
der Datenqualität.
177
00:08:52,225 --> 00:08:54,510
Und was wir eigentlich bemerkten,
178
00:08:54,510 --> 00:08:57,681
viele davon waren für das Monitoring
der Vollständigkeit gedacht,
179
00:08:57,682 --> 00:09:02,820
doch einige von ihnen ermöglichen
auch Verknüpfungen.
180
00:09:02,820 --> 00:09:08,442
Es besteht jedoch ein großer Bedarf
an Tools, die sich mit Vielfalt befassen.
181
00:09:08,443 --> 00:09:12,774
Das ist eines der Merkmale,
die tatsächlich in Wikidata möglich sind.
182
00:09:12,774 --> 00:09:15,748
Insbesondere dieses Gestaltungsprinzip
von Wikidata,
183
00:09:15,748 --> 00:09:17,901
wo wir Vielfalt haben können,
184
00:09:17,902 --> 00:09:20,508
also unterschiedliche Anweisungen
mit unterschiedlichen Werten,
185
00:09:20,614 --> 00:09:22,236
die aus verschiedenen Quellen kommen.
186
00:09:22,236 --> 00:09:25,231
Da es sich um sekundäre Quellen handelt,
haben wir nicht wirklich Werkzeuge,
187
00:09:25,231 --> 00:09:27,750
die uns zeigen, wie viele
kumulierte Aussagen es gib
188
00:09:27,751 --> 00:09:30,889
und wie viele davon wir
verbessern können und wie
189
00:09:30,890 --> 00:09:32,833
und wir wissen auch nicht wirklich,
190
00:09:32,833 --> 00:09:35,788
was die Gründe für die Vielfalt sind,
die auftreten können.
191
00:09:36,491 --> 00:09:40,291
Also was wir besprochen haben
auf diesen Community-Treffen,
192
00:09:40,291 --> 00:09:43,084
waren die Herausforderungen,
die noch Aufmerksamkeit erfordern.
193
00:09:43,084 --> 00:09:46,989
Sehr toll zum Beispiel sind
all diese Crowdsourcing-Communities,
194
00:09:46,989 --> 00:09:49,263
weil verschiedene Leute
verschiedene Bereiche
195
00:09:49,263 --> 00:09:51,679
der Daten oder der Diagramme angehen
196
00:09:51,679 --> 00:09:54,615
und wir haben auch unterschiedliche
Hintergrundkenntnisse.
197
00:09:54,616 --> 00:09:58,981
Tatsächlich ist es jedoch sehr schwierig,
alles in etwas Konsistentes auszurichten,
198
00:09:58,981 --> 00:10:01,291
weil unterschiedliche Menschen
199
00:10:01,291 --> 00:10:04,920
unterschiedliche Eigenschaften
auf unterschiedliche Weise nutzen
200
00:10:04,920 --> 00:10:08,511
und sie erwarten auch Unterschiedliches
von Entitätsbeschreibungen.
201
00:10:09,003 --> 00:10:12,721
Die Leute meinten auch,
dass sie mehr Werkzeuge brauchen,
202
00:10:12,722 --> 00:10:16,000
die einen besseren Überblick ermöglichen
über den globalen Status der Dinge.
203
00:10:16,000 --> 00:10:20,733
Also welche Einheiten in Bezug
auf Vollständigkeit fehlen,
204
00:10:20,733 --> 00:10:26,021
aber auch so etwas wie, woran die Leute
gerade die meiste Zeit arbeiten,
205
00:10:26,021 --> 00:10:30,516
und sie erwähnen auch oft
eine engere Zusammenarbeit
206
00:10:30,517 --> 00:10:33,311
nicht inur m Hinblick auf Sprachen,
sondern die WikiProjects
207
00:10:33,311 --> 00:10:35,658
und die verschiedenen
Wikimedia-Plattformen.
208
00:10:35,658 --> 00:10:38,859
Und wir haben alle transkribierten
Kommentare veröffentlicht
209
00:10:38,860 --> 00:10:42,959
von all diesen Diskussionen
in diesen Links hier in den Etherpads
210
00:10:42,959 --> 00:10:45,982
und auch auf der Wiki-Seite von Wikimania.
211
00:10:46,232 --> 00:10:48,481
Einige der Lösungen,
die tatsächlich aufgetaucht sind,
212
00:10:48,481 --> 00:10:53,001
gingen in die Richtung,
mehr Best Practices auszutauschen,
213
00:10:53,001 --> 00:10:55,762
die in verschiedenen WikiProjects
entwickelt werden.
214
00:10:55,762 --> 00:10:57,989
Aber die Leute wollen auch Tools,
215
00:10:57,989 --> 00:11:01,239
die dabei helfen,
die Arbeit in Teams zu organisieren,
216
00:11:01,239 --> 00:11:03,845
oder zumindest verstehen helfen,
wer woran arbeitet,
217
00:11:03,845 --> 00:11:07,815
und sie erwähnten auch, dass sie sich
mehr Anwendungsbeispiele wünschen
218
00:11:07,816 --> 00:11:12,019
und mehr Vorlagen, mit denen sie
Dinge besser erstellen können.
219
00:11:12,946 --> 00:11:14,741
Und im Hinblick auf den Kontakt,
220
00:11:14,741 --> 00:11:18,525
den wir mit offenen staatlichen
Datenorganisationen haben,
221
00:11:18,525 --> 00:11:22,973
und insbesondere stehe ich in Kontakt
mit dem Kanton und der Stadt Zürich,
222
00:11:22,973 --> 00:11:26,207
sind diese sehr daran interessiert,
mit Wikidata zu arbeiten
223
00:11:26,207 --> 00:11:30,490
weil sie wollen, dass ihre Daten
für alle an dem Ort zugänglich sind,
224
00:11:30,490 --> 00:11:33,681
an dem Menschen Daten abrufen
oder darauf zugreifen.
225
00:11:33,682 --> 00:11:36,550
Für sie wäre es wirklich interessant
226
00:11:36,551 --> 00:11:38,775
eine Art von Qualitätsindikatoren
zu haben
227
00:11:38,775 --> 00:11:40,822
sowohl im Wiki,
was bereits verwirklicht wird,
228
00:11:40,822 --> 00:11:42,664
als auch in SPARQL-Ergebnissen,
229
00:11:42,664 --> 00:11:44,947
um zu wissen, ob sie diesen
Community-basierten Daten
230
00:11:44,947 --> 00:11:46,237
vertrauen können oder nicht.
231
00:11:46,237 --> 00:11:48,230
Weiterhin wollen sie auch wissen,
232
00:11:48,230 --> 00:11:51,417
welche Teile der eigenen Datensätze
für Wikidata nützlich sind.
233
00:11:51,418 --> 00:11:53,071
Und sie hätten gerne ein Tool,
234
00:11:53,071 --> 00:11:56,041
mit dem sie dies
automatisch beurteilen können.
235
00:11:56,041 --> 00:11:59,066
Sie benötigen auch eine Methode
oder ein Werkzeug,
236
00:11:59,067 --> 00:12:02,817
das ihnen bei der Entscheidung hilft,
ob sie ihre Daten importieren
237
00:12:02,817 --> 00:12:04,894
oder verknüpfen sollen,
denn in einigen Fällen
238
00:12:04,895 --> 00:12:07,247
haben sie auch ihre eigenen
verknüpften offenen Datensätze.
239
00:12:07,247 --> 00:12:09,746
Sie wissen also nicht,
ob sie die Daten nur aufnehmen sollen
240
00:12:09,747 --> 00:12:13,274
oder weiterhin Links von den Datensätzen
zu Wikidata erstellen sollen
241
00:12:13,274 --> 00:12:14,562
und umgekehrt.
242
00:12:14,950 --> 00:12:17,014
Und sie möchten auch wissen,
243
00:12:17,014 --> 00:12:20,044
auf welche Websites in Wikidata
verwiesen wird.
244
00:12:20,044 --> 00:12:23,361
Und wenn sie eine solche Abfrage
im Query Service ausführen,
245
00:12:23,362 --> 00:12:24,938
bekommen sie oft Zeitüberschreitungen.
246
00:12:24,938 --> 00:12:28,181
Vielleicht sollten wir wirklich
mehr Werkzeuge schaffen,
247
00:12:28,181 --> 00:12:32,240
die ihnen helfen, diese Antworten
auf ihre Fragen zu bekommen.
248
00:12:33,148 --> 00:12:35,768
Und davon abgesehen,
249
00:12:35,768 --> 00:12:39,361
uns als Wiki-Forschern fehlen manchmal
auch bei den Zusammenfassungen
250
00:12:39,362 --> 00:12:42,023
der Änderungen einige Informationen.
251
00:12:42,024 --> 00:12:44,953
Ich erinnere mich daran,
als wir daran arbeiteten,
252
00:12:44,954 --> 00:12:48,919
das unterschiedliche Verhalten
der Bearbeiter zu verstehen
253
00:12:48,919 --> 00:12:53,403
im Hinblick auf Tools oder Bots,
anonyme Benutzer und so weiter,
254
00:12:53,403 --> 00:12:58,744
fehlte uns zum Beispiel wirklich
eine Standardmethode zum Nachverfolgen,
255
00:12:58,744 --> 00:13:00,982
ob Tools verwendet wurden.
256
00:13:00,982 --> 00:13:03,154
Und es gibt einige Tools,
die das bereits tun
257
00:13:03,155 --> 00:13:05,230
wie PetScan und viele andere,
258
00:13:05,230 --> 00:13:07,720
aber vielleicht sollten wir
in der Community
259
00:13:07,721 --> 00:13:10,130
öfter darüber diskutieren, wie Sie diese
260
00:13:10,130 --> 00:13:13,969
mit einer feinkörnigen Datenherkunft
aufnehmen können.
261
00:13:13,969 --> 00:13:16,031
Weiterhin sind wir der Meinung, dass wir
262
00:13:16,031 --> 00:13:20,801
konkretere Datenqualitätsdimensionen
berücksichtigen müssen,
263
00:13:20,802 --> 00:13:24,961
die sich auf verbundene Daten beziehen,
aber nicht alle Arten von Daten.
264
00:13:24,962 --> 00:13:28,022
Deshalb haben wir
einige Maßnahmen erarbeitet,
265
00:13:28,022 --> 00:13:30,782
um auf den Informationsgewinn
tatsächlich zuzugreifen,
266
00:13:30,782 --> 00:13:33,881
der durch die Links aktiviert wird,
und was wir damit meinen, ist,
267
00:13:33,882 --> 00:13:36,681
dass wenn wir Wikidata
mit anderen Datensätzen verknüpfen,
268
00:13:36,682 --> 00:13:38,323
sollten wir auch daran denken,
269
00:13:38,323 --> 00:13:41,921
wie viel die Entitäten tatsächlich
durch die Klassifizierung gewinnen,
270
00:13:41,922 --> 00:13:45,601
auch in der Beschreibung, aber auch
in den Vokabeln, die sie verwenden.
271
00:13:45,602 --> 00:13:51,251
Also nur um ein sehr einfaches Beispiel
zu geben, was ich damit meine, ist,
272
00:13:51,251 --> 00:13:54,269
was wir uns in diesem Fall
vorstellen können, wäre, Wikidata
273
00:13:54,270 --> 00:13:57,651
oder das externe Rechenzentrum,
das mit Wikidata verknüpft ist,
274
00:13:57,651 --> 00:14:00,487
dort haben wir die Entität einer Person,
die Natasha Noy heißt,
275
00:14:00,487 --> 00:14:02,601
wir haben die Zugehörigkeit
und andere Dinge
276
00:14:02,602 --> 00:14:05,239
und dann sagen wir: OK,
wir verlinken zu einem externen Ort
277
00:14:05,240 --> 00:14:08,919
und diese Entität hat den gleichen Namen,
tatsächlich haben wir den gleichen Wert.
278
00:14:08,920 --> 00:14:11,499
Was also besser wäre, ist,
dass wir auf etwas verlinken,
279
00:14:11,499 --> 00:14:12,889
das einen anderen Namen hat.
280
00:14:12,889 --> 00:14:15,252
Das ist immer noch gültig,
weil es zwei Möglichkeiten gibt,
281
00:14:15,252 --> 00:14:16,972
den Namen dieser Person zu schreiben
282
00:14:16,972 --> 00:14:19,714
und auch andere Informationen,
die wir nicht in Wikidata haben
283
00:14:19,715 --> 00:14:21,922
oder auch nicht in
einem anderen Datensatz haben.
284
00:14:22,390 --> 00:14:24,652
Aber was noch besser ist, ist,
285
00:14:24,653 --> 00:14:27,478
dass wir tatsächlich
im Zieldatensatz suchen,
286
00:14:27,478 --> 00:14:29,633
da sie dort auch neue Möglichkeiten
287
00:14:29,633 --> 00:14:31,393
zur Klassifizierung
der Informationen haben.
288
00:14:31,393 --> 00:14:35,354
Das ist also nicht nur eine Person,
sondern in dem anderen Datensatz
289
00:14:35,355 --> 00:14:37,966
steht auch, ob es sei eine Frau
oder etwas anderes,
290
00:14:37,966 --> 00:14:39,526
mit dem sie sich einordnen lässt.
291
00:14:39,526 --> 00:14:43,401
Und wenn in dem anderen Datensatz,
viele andere Vokabeln verwendet werden,
292
00:14:43,402 --> 00:14:46,588
hilft das auch bei der gesamten
Informationsbeschaffung.
293
00:14:47,371 --> 00:14:50,973
Damit möchte ich auch sagen,
dass wir denken,
294
00:14:50,973 --> 00:14:55,809
dass wir gebündelte Abfragen
besser präsentieren können,
295
00:14:55,810 --> 00:15:00,448
denn wenn wir uns das Abfrageprotokoll
von Malyshev et al. ansehen,
296
00:15:01,285 --> 00:15:04,301
sehen wir, dass wir
aus den organischen Abfragen
297
00:15:04,302 --> 00:15:06,921
nur sehr wenige gebündelte
Suchergebnisse haben.
298
00:15:06,922 --> 00:15:12,501
Und tatsächlich ist Bündelung einer
der Hauptvorteile von Verbindungsdaten.
299
00:15:12,501 --> 00:15:16,903
Also vielleicht brauchen die Community
oder die Leute, die Wikidata benutzen,
300
00:15:16,903 --> 00:15:18,898
auch mehr Beispiele dazu.
301
00:15:18,898 --> 00:15:22,666
Und wenn wir uns die Liste
der verwendeten Endpunkte ansehen,
302
00:15:22,667 --> 00:15:25,401
ist dies keine vollständige Liste
und wir haben noch viele mehr.
303
00:15:25,402 --> 00:15:30,279
Natürlich wurden diese Daten
aus Abfragen bis März 2018 analysiert,
304
00:15:30,469 --> 00:15:34,047
aber wir sollten uns jedoch die Liste
der gebündelten Endpunkte ansehen,
305
00:15:34,047 --> 00:15:37,252
die wir haben und sehen, ob wir sie
wirklich benutzen oder nicht.
306
00:15:37,813 --> 00:15:40,281
Also zwei Fragen,
die ich für das Publikum habe,
307
00:15:40,281 --> 00:15:43,001
die wir nachher als Grundlage
für eine Diskussion verwenden können:
308
00:15:43,001 --> 00:15:46,001
Welche Datenqualitätsprobleme sollten
eurer Meinung nach behoben werden
309
00:15:46,002 --> 00:15:47,626
aufgrund eurer Bedürfnisse?
310
00:15:47,626 --> 00:15:50,401
Aber ebenso, wo braucht ihr
mehr Automatisierung,
311
00:15:50,402 --> 00:15:53,243
die euch beim Bearbeiten
oder dem Kontrollieren hilft.
312
00:15:53,736 --> 00:15:55,306
Das ist alles, vielen Dank.
313
00:16:05,740 --> 00:16:08,595
(Jose Emilio Labra) Okay,
worüber ich sprechen werde,
314
00:16:08,595 --> 00:16:14,715
sind einige Tools, die wir im Zusammenhang
mit Shape Expressions entwickelt haben.
315
00:16:15,536 --> 00:16:18,251
Also darüber möchte ich etwas erzählen.
316
00:16:18,251 --> 00:16:19,740
Ich bin Jose Emilio Labra,
317
00:16:19,740 --> 00:16:23,750
aber all diese Tools wurden
von verschiedenen Leuten gemacht,
318
00:16:23,750 --> 00:16:26,740
hauptsächlich im Zusammenhang
mit W3C ShEx,
319
00:16:26,740 --> 00:16:28,481
der Shape Expressions Community Group.
320
00:16:28,481 --> 00:16:29,719
ShEx Community Group.
321
00:16:30,144 --> 00:16:34,382
Also das erste Tool, das ich
erwähnen möchte, ist RDFShape,
322
00:16:34,382 --> 00:16:36,082
dies ist ein allgemeines Werkzeug,
323
00:16:36,082 --> 00:16:40,499
weil Shape Expressions
nicht nur für Wikidata sind.
324
00:16:40,499 --> 00:16:44,168
Shape Expressions ist eine Sprache
zur allgemeinen Validierung von RDF.
325
00:16:44,168 --> 00:16:47,568
Dieses Tool wurde
hauptsächlich von mir entwickelt
326
00:16:47,568 --> 00:16:50,880
und es ist ein Werkzeug,
um RDF im Allgemeinen zu validieren.
327
00:16:50,881 --> 00:16:55,139
Wenn ihr also mehr über RDF
erfahren wollt oder RDF validieren möchtet
328
00:16:55,140 --> 00:16:58,521
oder SPARQL-Endpunkte
nicht nur in Wikidata,
329
00:16:58,521 --> 00:17:00,891
ist meine Empfehlung,
dass ihr dieses Tool verwenden könnt.
330
00:17:00,891 --> 00:17:03,255
Auch zum Unterrichten.
331
00:17:03,255 --> 00:17:05,640
Ich bin Lehrer an der Universität
332
00:17:05,641 --> 00:17:07,991
und ich benutze es
in meinem Semantic-Web-Kurs,
333
00:17:07,991 --> 00:17:09,321
um RDF zu unterrichten.
334
00:17:09,321 --> 00:17:12,350
Wenn ihr also RDF lernen möchtet,
halte ich es für ein nützliches Werkzeug.
335
00:17:13,033 --> 00:17:15,997
Dies ist beispielsweise
eine Visualisierung
336
00:17:15,997 --> 00:17:18,017
eines RDF-Diagramms mit dem Tool.
337
00:17:18,727 --> 00:17:22,643
Aber bevor ich letzten Monat
hierher gekommen bin,
338
00:17:22,643 --> 00:17:27,003
habe ich einen Fork von rdfshape
speziell für Wikidata erstellt,
339
00:17:27,003 --> 00:17:28,443
weil ich dachte...
340
00:17:28,443 --> 00:17:32,942
Es heißt WikiShape und ich habe es gestern
als Geschenk für Wikidata präsentiert.
341
00:17:32,942 --> 00:17:34,751
Was ich also genommen habe, ist...
342
00:17:34,751 --> 00:17:39,791
Ich habe alles entfernt,
was nicht mit Wikidata zu tun hatte
343
00:17:39,791 --> 00:17:44,801
und um einige Dinge zu hartcodieren,
zum Beispiel den Wikidata-SPARQL-Endpunkt.
344
00:17:44,802 --> 00:17:49,041
Doch jetzt hat mich jemand gefragt, ob ich
das auch für Wikibase machen könnte.
345
00:17:49,042 --> 00:17:52,000
Und es ist auch für Wikibase
sehr einfach zu machen.
346
00:17:52,760 --> 00:17:56,280
Also dieses Tool, WikiShape,
ist ziemlich neu.
347
00:17:57,015 --> 00:17:59,633
Ich denke, es funktioniert,
die meisten Funktionen,
348
00:17:59,633 --> 00:18:02,529
aber es gibt einige Funktionen,
die möglicherweise nicht funktionieren,
349
00:18:02,529 --> 00:18:05,231
und wenn ihr es versuchen wollt
oder es verbessern wollt,
350
00:18:05,231 --> 00:18:06,391
sagt es mir bitte.
351
00:18:06,391 --> 00:18:08,503
Das sind also [unverständlich] Aufnahmen,
352
00:18:08,503 --> 00:18:11,515
aber ich denke,
ich kann es auch so versuchen,
353
00:18:11,705 --> 00:18:13,263
Also lasst es uns versuchen.
354
00:18:14,933 --> 00:18:16,945
Mal sehen, ob es funktioniert.
355
00:18:16,953 --> 00:18:20,070
Zuerst muss ich da rausgehen...
356
00:18:22,453 --> 00:18:23,453
Hier.
357
00:18:24,226 --> 00:18:27,724
Okay, ja. Das ist also das Werkzeug hier.
358
00:18:28,204 --> 00:18:30,467
Dinge, die ihr mit dem Tool
zum Beispiel machen könnt,
359
00:18:30,467 --> 00:18:35,275
sind, ihr könnt Schemas,
Entitätsschemas überprüfen.
360
00:18:35,276 --> 00:18:37,482
Ihr wisst, dass es
einen neuen Namespace gibt,
361
00:18:37,482 --> 00:18:38,762
der E-irgendwas heißt.
362
00:18:38,762 --> 00:18:44,485
Wenn ihr also hier zum Beispiel
anfangt zu schreiben "Mensch"...
363
00:18:44,735 --> 00:18:48,812
Während ihr schreibt, könnt ihr
mittels der Autovervollständigung prüfen.
364
00:18:48,812 --> 00:18:52,001
Dies ist zum Beispiel
die Shape Expression für Mensch
365
00:18:52,790 --> 00:18:55,937
und das sind die Shape Expressions hier.
366
00:18:55,938 --> 00:18:59,841
Und wie ihr sehen könnt,
hat dieser Editor Syntax-Hervorhebung,
367
00:18:59,842 --> 00:19:04,559
das ist... naja,
vielleicht ist der Bildschirm zu klein.
368
00:19:05,676 --> 00:19:07,719
Ich kann versuchen, es größer zu machen.
369
00:19:09,194 --> 00:19:10,973
Vielleicht seht ihr es jetzt besser.
370
00:19:10,973 --> 00:19:14,241
Also... und das ist der Editor
mit Syntax-Hervorhebung und er hat auch...
371
00:19:14,241 --> 00:19:17,851
dieser Editor stammt
aus demselben Quellcode
372
00:19:17,851 --> 00:19:19,771
wie der Wikidata-Abfragedienst.
373
00:19:19,771 --> 00:19:23,750
Also zum Beispiel,
wenn man mit der Maus hier schwebt,
374
00:19:23,750 --> 00:19:27,961
zeigt es die Beschriftungen
der verschiedenen Eigenschaften.
375
00:19:27,962 --> 00:19:31,298
Also ich finde, das ist sehr hilfreich,
weil jetzt...
376
00:19:32,588 --> 00:19:36,001
die Entitätsschemata in Wikidata
377
00:19:36,001 --> 00:19:38,477
sind nur eine Idee in einfachem Text.
378
00:19:38,501 --> 00:19:42,493
Aber ich denke, dieser Editor ist
viel besser, weil er Autocomplete hat
379
00:19:42,494 --> 00:19:43,908
und er hat auch...
380
00:19:43,908 --> 00:19:48,241
Ich meine zum Beispiel, wenn ihr
eine Einschränkung hinzufügen wolltet,
381
00:19:48,241 --> 00:19:51,570
sagt ihr "wdt:",
382
00:19:51,570 --> 00:19:53,754
und fangt an zu schreiben "author"
383
00:19:53,754 --> 00:19:56,884
und klickt dann mit Strg + Leertaste
384
00:19:56,884 --> 00:19:59,012
und es schlägt euch
die verschiedenen Einträge vor.
385
00:19:59,012 --> 00:20:02,291
Das ist also ähnlich
wie beim Wikidata-Abfragedienst,
386
00:20:02,291 --> 00:20:06,285
aber speziell für Shape Expressions,
387
00:20:06,285 --> 00:20:11,275
weil ich das Gefühl habe,
Shape Expressions zu kreieren
388
00:20:11,715 --> 00:20:15,841
ist nicht schwieriger als
das Schreiben von SPARQL-Abfragen.
389
00:20:15,842 --> 00:20:21,255
Manche Leute denken, dass es
auf dem gleichen Niveau ist.
390
00:20:22,278 --> 00:20:24,746
Ich denke, es ist
wahrscheinlich einfacher.
391
00:20:24,746 --> 00:20:27,521
Denn die Shape Expressions waren,
als wir es entworfen haben,
392
00:20:27,521 --> 00:20:31,029
haben wir es getan,
um die Arbeit zu vereinfachen.
393
00:20:31,029 --> 00:20:35,001
Okay, das ist eines der ersten Dinge,
die ihr in diesen Editor habt
394
00:20:35,001 --> 00:20:36,620
für Shape Expressions.
395
00:20:37,371 --> 00:20:41,467
Und dann habt ihr zum Beispiel
auch die Möglichkeit, zu visualisieren.
396
00:20:41,468 --> 00:20:44,801
Wenn man eine Shape Expression habt
verwendet man zum Beispiel...
397
00:20:44,802 --> 00:20:49,386
Ich denke, "written"
ist eine schöne Shape Expression,
398
00:20:49,386 --> 00:20:53,500
weil sie einige Beziehungen
zwischen verschiedenen Dingen hat.
399
00:20:54,823 --> 00:20:58,160
Und das ist die UML-Visualisierung
von schriftlichen Arbeiten.
400
00:20:58,161 --> 00:21:02,090
In UML sind die verschiedenen
Eigenschaften leicht zu erkennen.
401
00:21:02,790 --> 00:21:06,794
Wenn ihr dies macht - mir wurde das klar,
als ich das mit mehreren Leuten versuchte,
402
00:21:06,795 --> 00:21:09,216
finden diese einige Fehler
in ihren Shape Expressions,
403
00:21:09,217 --> 00:21:11,028
denn es ist leicht zu erkennen,
404
00:21:11,028 --> 00:21:13,488
welche Eigenschaften fehlen
oder was auch immer.
405
00:21:13,488 --> 00:21:15,991
Dann hier eine andere Möglichkeit ist,
406
00:21:15,991 --> 00:21:19,520
dass ihr auch validieren könnt,
ich habe es hier, die Validierung.
407
00:21:20,496 --> 00:21:25,285
Ich glaube, ich hatte es in einem Label,
vielleicht habe ich es geschlossen.
408
00:21:26,267 --> 00:21:30,988
Okay, aber ihr könnt beispielsweise hier
Validate entities klicken,
409
00:21:32,308 --> 00:21:34,232
zum Beispiel...
410
00:21:35,404 --> 00:21:41,921
"q42" mit "e42", das ist Urheber.
411
00:21:42,818 --> 00:21:46,500
Mit "human" können wir
es machen, glaube ich.
412
00:21:48,970 --> 00:21:50,131
Und dann ist es...
413
00:21:50,688 --> 00:21:56,248
es dauert eine Weile, weil dabei
die SPARQL-Abfragen ausgeführt werden
414
00:21:56,248 --> 00:21:59,264
und jetzt, zum Beispiel,
scheitert es am Netzwerk, aber...
415
00:21:59,657 --> 00:22:01,580
Also ihr könnt es versuchen.
416
00:22:02,759 --> 00:22:07,026
Gut, lasst uns mit der Präsentation
der anderen Tools fortfahren.
417
00:22:07,026 --> 00:22:10,513
Mein Rat ist also,
wenn ihr es versuchen möchtet
418
00:22:10,513 --> 00:22:12,783
und Feedback wollt, lasst es mich wissen.
419
00:22:13,133 --> 00:22:15,540
Also, um mit der
Präsentation fortzufahren...
420
00:22:18,743 --> 00:22:20,277
Das ist also WikiShape.
421
00:22:23,800 --> 00:22:26,509
Dann, das habe ich schon erwähnt,
422
00:22:27,681 --> 00:22:30,277
gibt es den Shape Expressions Editor,
423
00:22:30,277 --> 00:22:34,402
das ist ein eigenständiges Projekt
in GitHub.
424
00:22:35,505 --> 00:22:37,532
Ihr könnt es in eurem
eigenen Projekt verwenden.
425
00:22:37,532 --> 00:22:41,036
Wenn ihr ein Tool für
Shape Expression benötigt,
426
00:22:41,036 --> 00:22:45,635
könnt ihr es einfach in jedes
andere Projekt einbetten.
427
00:22:45,636 --> 00:22:48,235
Das ist auf GitHub
und ihr könnt es benutzen.
428
00:22:48,868 --> 00:22:51,970
Der gleiche Autor, einer meiner Schüler,
429
00:22:52,684 --> 00:22:55,704
hat auch einen Editor
für Shape Expressions erstellt,
430
00:22:55,704 --> 00:22:57,789
ebenfalls inspiriert
vom Wikidata-Abfragedienst,
431
00:22:57,789 --> 00:23:00,681
wo ihr in dieser Spalte
432
00:23:00,682 --> 00:23:05,033
diesen vorwiegend visuellen Editor
für SPARQL-Abfragen habt,
433
00:23:05,033 --> 00:23:07,135
wo ihr diese Dinge bewerkstelligen könnt.
434
00:23:07,136 --> 00:23:09,123
Das ist also eine Bildschirmaufnahme.
435
00:23:09,123 --> 00:23:12,662
Ihr könnt sehen, dass dies
die Shape Expressions im Text sind.
436
00:23:12,662 --> 00:23:15,745
Dies ist jedoch eine formularbasierte
Shape Expression,
437
00:23:15,745 --> 00:23:18,505
bei der es wahrscheinlich
etwas länger dauern würde.
438
00:23:18,505 --> 00:23:23,400
Hier könnt ihr die verschiedenen Zeilen
in die verschiedenen Felder einfügen.
439
00:23:23,401 --> 00:23:25,800
Oay, dann gibt es ShExEr.
440
00:23:26,879 --> 00:23:27,943
Wir haben...
441
00:23:27,943 --> 00:23:31,883
das wird von einem Doktoranden
an der Universität von Oviedo gemacht
442
00:23:31,883 --> 00:23:34,276
und er ist hier, damit er
ShExEr präsentieren kann.
443
00:23:38,147 --> 00:23:40,024
(Danny) Hallo, ich bin Danny Fernández,
444
00:23:40,025 --> 00:23:43,800
Ich bin Doktorand an der Universität
von Oviedo und arbeite mit Labra.
445
00:23:44,710 --> 00:23:47,725
Da uns die Zeit davon läuft,
lasst uns dies schnell machen.
446
00:23:47,726 --> 00:23:52,641
Wir starten also keine Demo,
sondern zeigen nur einige Screenshots.
447
00:23:52,642 --> 00:23:56,387
Okay, also die übliche Art,
mit Shape Expressions zu arbeiten
448
00:23:56,387 --> 00:23:58,301
oder einer beliebigen Formsprache, ist,
449
00:23:58,301 --> 00:23:59,791
dass Sie einen Domain-Experten haben,
450
00:23:59,791 --> 00:24:02,313
der als Erstes definiert,
wie der Graph aussehen soll
451
00:24:02,314 --> 00:24:03,756
einige Strukturen definiert
452
00:24:03,756 --> 00:24:05,746
und dann verwendet man diese Strukturen,
453
00:24:05,746 --> 00:24:07,750
um die tatsächlichen Daten
dagegen zu validieren.
454
00:24:08,124 --> 00:24:11,641
Dieses Tool und auch diejenigen,
die von Labra vorgestellt wurden,
455
00:24:11,642 --> 00:24:14,441
sind Allzweckwerkzeuge
für jede RDF-Quelle.
456
00:24:14,442 --> 00:24:17,255
Es ist so konzipiert,
dass es umgekehrt funktioniert.
457
00:24:17,255 --> 00:24:18,969
Man hat bereits einige Daten,
458
00:24:18,969 --> 00:24:23,165
Man wählt aus, welche Notizen
die Form erhalten soll
459
00:24:23,165 --> 00:24:26,718
und dann extrahiert oder schließt
man die Form automatisch.
460
00:24:26,719 --> 00:24:29,541
Also, auch wenn dies
ein Allzweckwerkzeug ist,
461
00:24:29,541 --> 00:24:32,034
was wir für diese WikidataCon
gemacht haben,
462
00:24:32,034 --> 00:24:34,254
ist diese schicke Schaltfläche.
463
00:24:34,254 --> 00:24:37,301
Wenn man darauf klickt,
was im Wesentlichen passiert, ist,
464
00:24:37,301 --> 00:24:42,079
es gibt so viele Konfigurationsparameter
465
00:24:42,080 --> 00:24:46,251
und es konfiguriert es für die Arbeit
mit dem Wikidata-Endpunkt
466
00:24:46,251 --> 00:24:47,971
und ich bin fast fertig, sorry.
467
00:24:48,733 --> 00:24:52,883
Sobald man diesen Knopf drückt,
erhält man im Wesentlichen Folgendes.
468
00:24:52,884 --> 00:24:55,266
Nachdem man ausgewählt hat,
welche Art von Notizen,
469
00:24:55,266 --> 00:24:59,360
was für Instanzen unserer Klasse,
was auch immer man will,
470
00:24:59,361 --> 00:25:01,393
erhält man ein automatisches Schema.
471
00:25:02,319 --> 00:25:04,473
Alle Einschränkungen sind danach sortiert,
472
00:25:04,473 --> 00:25:07,112
wie viele Modi tatsächlich
damit übereinstimmen.
473
00:25:07,112 --> 00:25:09,772
Man kann so die selteneren filtern
und so weiter.
474
00:25:09,772 --> 00:25:12,466
Also wir haben da unten
ein Poster über dieses Thema
475
00:25:12,466 --> 00:25:14,695
und ich werde unten und oben sein
476
00:25:14,695 --> 00:25:16,454
und überall den ganzen Tag.
477
00:25:16,455 --> 00:25:19,081
Wer also weiteres Interesse
an diesem Tool hat,
478
00:25:19,082 --> 00:25:21,477
kann mich einfach
während dieses Events ansprechen.
479
00:25:21,477 --> 00:25:24,624
Und jetzt werde ich Labra
das Mikro zurückgeben, danke.
480
00:25:29,812 --> 00:25:32,578
(Jose) Also lasst uns mit
den anderen Tools fortfahren.
481
00:25:32,579 --> 00:25:34,984
Ein anderes Werkzeug
ist der ShapeDesigner.
482
00:25:34,984 --> 00:25:37,281
Andra, möchtest du jetzt
den ShapeDesigner machen
483
00:25:37,281 --> 00:25:39,287
oder vielleicht später im Workshop?
484
00:25:39,287 --> 00:25:40,773
Es gibt einen Workshop...
485
00:25:40,773 --> 00:25:44,496
Heute Nachmittag gibt es einen Workshop
speziell für Shape Expressions und...
486
00:25:45,265 --> 00:25:47,939
Die Idee ist, dass wir dort
mehr in die Praxis gehen können,
487
00:25:47,940 --> 00:25:52,324
und wenn ihr etwas ShEx üben möchtet,
könnt ihr es dort tun.
488
00:25:52,875 --> 00:25:55,470
Dieses Tool ist ShEx... und hier ist Eric,
489
00:25:55,470 --> 00:25:56,998
also kannst du es präsentieren.
490
00:25:57,969 --> 00:25:59,527
(Eric) Also einfach super schnell.
491
00:25:59,527 --> 00:26:01,259
Das, was ich sagen möchte, ist,
492
00:26:01,259 --> 00:26:05,501
dass ihr wahrscheinlich bereits
die ShEx-Schnittstelle gesehen habt,
493
00:26:05,501 --> 00:26:07,601
die auf Wikidata zugeschnitten ist.
494
00:26:07,602 --> 00:26:12,930
Das ist effektiv vereinfacht
und speziell auf Wikidata zugeschnitten
495
00:26:12,930 --> 00:26:15,767
da die Generische mehr Funktionen hat,
496
00:26:15,767 --> 00:26:18,257
sich aber herausstellte -
ich dachte, ich sollte es erwähnen -
497
00:26:18,257 --> 00:26:20,238
weil eine dieser Funktionen
besonders nützlich
498
00:26:20,238 --> 00:26:23,201
zum Debuggen von Wikidata-Schemas ist.
499
00:26:23,201 --> 00:26:28,984
Das heißt, wenn ihr hingeht
und den Slurp-Modus wählt,
500
00:26:28,984 --> 00:26:31,504
was es tut, ist, es sagt,
während ich validiere,
501
00:26:31,504 --> 00:26:34,504
möchte ich alle Tripel herausziehen
und das bedeutet,
502
00:26:34,504 --> 00:26:36,274
wenn ich ein paar Ausfälle bekomme,
503
00:26:36,275 --> 00:26:39,676
kann ich durchgehen und anfangen,
diese Fehler zu betrachten und zu sagen:
504
00:26:39,676 --> 00:26:41,980
Okay, was sind die Dreiergruppen,
die hier drin sind -
505
00:26:41,980 --> 00:26:44,057
Entschuldigung,
die Dreiergruppen sind da unten,
506
00:26:44,057 --> 00:26:46,201
dies ist nur ein Protokoll dessen,
was passiert ist -
507
00:26:46,277 --> 00:26:49,250
und dann könnt ihr einfach da sitzen
und in Echtzeit damit experimentieren,
508
00:26:49,250 --> 00:26:51,416
als würde man mit etwas
spielen und es verändert sich.
509
00:26:51,416 --> 00:26:54,270
Es ist also eine schnellere Variante,
um all diese Dinge zu erledigen.
510
00:26:55,231 --> 00:26:56,481
Dies ist ein ShExC-Formular.
511
00:26:56,482 --> 00:26:59,455
Dies ist etwas, was Joachim
vorgeschlagen hatte,
512
00:27:00,035 --> 00:27:04,631
das nützlich sein könnte,
um Wikidata-Dokumente zu füllen
513
00:27:04,631 --> 00:27:07,338
basierend auf einer Shape Expression
für dieses Dokument.
514
00:27:08,095 --> 00:27:11,681
Dies ist nicht auf Wikidata zugeschnitten.
515
00:27:11,682 --> 00:27:14,041
Dies soll jedoch nur heißen,
dass ihr ein Schema haben könnt
516
00:27:14,041 --> 00:27:15,922
und einige Anmerkungen,
um genau zu sagen,
517
00:27:15,922 --> 00:27:17,623
wie ich das Schema gerendert haben möchte,
518
00:27:17,623 --> 00:27:19,319
und dann baut es einfach ein Formular auf.
519
00:27:19,319 --> 00:27:21,571
Wenn ihr Daten habt,
kann es das Formular ausfüllen.
520
00:27:24,517 --> 00:27:26,164
PyShEx [unverständlich].
521
00:27:28,025 --> 00:27:31,080
(Jose) Ich denke, das ist das Letzte.
522
00:27:31,821 --> 00:27:34,080
Ja, das letzte ist PyShEx.
523
00:27:34,675 --> 00:27:38,151
PyShEx ist eine Python-Implementierung
von Shape Expressions.
524
00:27:39,193 --> 00:27:41,386
Ihr könnt das auch
mit Jupyter Notebooks ausprobieren,
525
00:27:41,386 --> 00:27:42,680
wenn ihr so etwas wollt.
526
00:27:42,680 --> 00:27:44,432
Oay, das ist alles dazu.
527
00:27:52,916 --> 00:27:56,086
(Andra) Ich werde also
über ein bestimmtes Projekt sprechen,
528
00:27:56,086 --> 00:27:58,244
an dem ich beteiligt bin,
GenWiki genannt,
529
00:27:58,244 --> 00:28:04,347
und wo wir uns auch
mit Qualitätsfragen beschäftigen.
530
00:28:04,347 --> 00:28:06,684
Aber bevor wir auf die Qualität eingehen,
531
00:28:06,685 --> 00:28:09,359
vielleicht eine kurze Einführung
darüber, was GenWiki ist,
532
00:28:09,855 --> 00:28:13,515
und wir haben gerade einen Vordruck
einer Arbeit veröffentlicht,
533
00:28:13,515 --> 00:28:18,160
die wir kürzlich geschrieben haben,
welche die Details des Projekts erklärt.
534
00:28:19,821 --> 00:28:22,586
Ich sehe Leute fotografieren,
aber im Grunde genommen,
535
00:28:22,586 --> 00:28:26,032
was Gene Wiki macht, es versucht,
biomedizinische Daten,
536
00:28:26,032 --> 00:28:28,198
öffentliche Daten in Wikidata
hinein zu bekommen
537
00:28:28,198 --> 00:28:32,280
und wir folgen einem bestimmten Muster,
um diese Daten in Wikidata zu bekommen.
538
00:28:33,130 --> 00:28:36,809
Also, wenn wir ein neues Repository
oder einen neuen Datensatz haben,
539
00:28:36,810 --> 00:28:39,330
der berechtigt ist,
in Wikidata aufgenommen zu werden,
540
00:28:39,330 --> 00:28:41,523
ist der erste Schritt das
Engagement der Gemeinschaft.
541
00:28:41,523 --> 00:28:43,784
Für eine Wikidata-Community
ist dies nicht erforderlich,
542
00:28:43,785 --> 00:28:46,120
aber für eine lokale
Forschungsgemeinschaft,
543
00:28:46,120 --> 00:28:50,285
und wir treffen uns persönlich oder online
oder auf irgend einer Plattform
544
00:28:50,286 --> 00:28:52,881
und versuchen,
ein Datenmodell zu entwickeln,
545
00:28:52,882 --> 00:28:56,197
das ihre Daten
mit dem Wikidata-Modell verbindet.
546
00:28:56,197 --> 00:28:58,265
Also hier habe ich ein Bild
von einem Workshop,
547
00:28:58,265 --> 00:29:00,115
der letztes Jahr hier stattgefunden hat.
548
00:29:00,115 --> 00:29:02,663
Wir haben dort versucht, einen
bestimmten Datensatz anzuschauen
549
00:29:02,663 --> 00:29:05,280
und Sie sehen eine Menge Diskussionen,
550
00:29:05,281 --> 00:29:09,780
dann die Ausrichtung an schema.org
und andere vorhandenen Ontologien.
551
00:29:10,320 --> 00:29:12,544
Und dann, am Ende des ersten Schritts,
552
00:29:12,544 --> 00:29:15,379
haben wir eine Whiteboard-Zeichnung
des Schemas,
553
00:29:15,379 --> 00:29:17,396
das wir in Wikidata implementieren wollen.
554
00:29:17,396 --> 00:29:20,270
Was Sie dort sehen können,
ziemlich offensichtlich,
555
00:29:20,270 --> 00:29:21,766
es ist im Hintergrund.
556
00:29:21,767 --> 00:29:25,240
Wir können heute sogar einige Schemata
in diesem Panel erstellen.
557
00:29:26,480 --> 00:29:28,399
Sobald wir das Schema eingerichtet haben,
558
00:29:28,400 --> 00:29:31,432
versuchen wir als Nächstes,
das Schema maschinenlesbar zu machen,
559
00:29:32,358 --> 00:29:34,522
weil man umsetzbare Modelle braucht,
560
00:29:34,522 --> 00:29:37,013
um die Daten zu überbrücken,
die man einbringt
561
00:29:37,013 --> 00:29:39,690
aus jeder biomedizinischen
Datenbank nach Wikidata.
562
00:29:40,393 --> 00:29:45,182
Und hier wenden wir Shape Expressions an.
563
00:29:46,471 --> 00:29:49,728
Und das verwenden wir,
564
00:29:49,728 --> 00:29:52,518
weil man mit Shape Expressions
testen kann,
565
00:29:52,518 --> 00:29:57,040
ob der Datensatz tatsächlich...
nein, man kann zuerst sehen,
566
00:29:57,041 --> 00:30:01,782
ob bereits vorhandene Daten in Wikidata
dem gleichen Datenmodell folgen,
567
00:30:01,783 --> 00:30:04,718
das im vorherigen Prozess erreicht wurde.
568
00:30:04,719 --> 00:30:06,851
Dann können wir mit
den Shape Expressions überprüfen:
569
00:30:06,851 --> 00:30:09,524
Okay, die Daten,
die zu diesem Thema in Wikidata sind,
570
00:30:09,524 --> 00:30:12,259
müssen bereinigt werden
oder wir müssen unser Modell
571
00:30:12,259 --> 00:30:15,013
an das Wikidata-Modell anpassen
oder umgekehrt.
572
00:30:15,937 --> 00:30:19,867
Sobald das erledigt ist
und wir anfangen, Bots zu schreiben,
573
00:30:20,670 --> 00:30:23,801
und die Bots sähen
regelmäßig die Informationen,
574
00:30:23,802 --> 00:30:27,308
die in den primären Quellen ist,
nach Wikidata.
575
00:30:27,706 --> 00:30:29,303
Und wenn die Bots fertig sind,
576
00:30:29,304 --> 00:30:33,001
schreiben wir diese Bots
mit einer Plattform namens...
577
00:30:33,002 --> 00:30:36,201
mit einer Python-Bibliothek
namens Wikidata Integrator.
578
00:30:36,202 --> 00:30:38,167
Diese kam aus unserem Projekt.
579
00:30:38,698 --> 00:30:42,921
Und sobald wir unsere Bots haben,
benutzen wir eine Plattform namens Jenkins
580
00:30:42,921 --> 00:30:44,540
für die kontinuierliche integration.
581
00:30:44,540 --> 00:30:45,762
Und mit Jenkins
582
00:30:45,762 --> 00:30:51,160
aktualisieren wir ständig
die primären Quellen mit Wikidata.
583
00:30:52,178 --> 00:30:55,889
Und dies ist ein Diagramm für die Arbeit,
die ich zuvor erwähnt habe.
584
00:30:55,890 --> 00:30:57,411
Das ist unsere aktuelle Landschaft.
585
00:30:57,411 --> 00:31:02,059
Also jede orangefarbene Kiste da drauf ist
eine primäre Ressource für Medikamente,
586
00:31:02,060 --> 00:31:07,827
Proteine, Gene, Krankheiten,
chemische Verbindungen mit Wechselwirkung,
587
00:31:07,827 --> 00:31:10,870
und dieses Modell ist zu klein,
um es jetzt zu lesen.
588
00:31:10,870 --> 00:31:14,510
Aber das ist die Datenbank, die Quellen,
589
00:31:14,770 --> 00:31:17,473
die wir in Wikidata verwalten
590
00:31:17,473 --> 00:31:20,475
und überbrücken zu den Primärquellen.
591
00:31:20,475 --> 00:31:22,355
Hier ist so ein Workflow.
592
00:31:22,870 --> 00:31:25,312
Einer unserer Partner
ist die Disease Ontology.
593
00:31:25,312 --> 00:31:27,672
Die Disease Ontology
ist eine CC0 Ontologie
594
00:31:28,179 --> 00:31:31,990
und die CC0 Ontologie hat
einen eigenen Kurationszyklus
595
00:31:32,756 --> 00:31:35,736
und sie aktualisieren nur
kontinuierlich die Disease Ontology,
596
00:31:35,737 --> 00:31:37,976
um den Krankheitsbereich
597
00:31:37,976 --> 00:31:40,336
oder die Interpretation
von Krankheiten zu reflektieren.
598
00:31:40,336 --> 00:31:44,361
Und es gibt den Wikidata-Kurationszyklus
ebenso für Krankheiten,
599
00:31:44,362 --> 00:31:48,266
wo die Wikidata-Community
ständig überwacht,
600
00:31:48,266 --> 00:31:50,110
was auf Wikidata los ist.
601
00:31:50,226 --> 00:31:51,741
Und dann haben wir zwei Rollen,
602
00:31:51,741 --> 00:31:55,477
wir nennen sie umgangssprachlich
den Gatekeeper-Kurator,
603
00:31:56,009 --> 00:31:59,561
und das waren ich und ein Kollege
vor fünf Jahren,
604
00:31:59,562 --> 00:32:03,414
wo wir nur an unseren Computern saßen
und Wikipedia und Wikidata überwachten
605
00:32:03,415 --> 00:32:08,451
und wenn es ein Problem gab, wurde es
der primären Community gemeldet,
606
00:32:08,451 --> 00:32:11,765
die primäre Ressourcen, sie betrachteten
die Implementierung und beschlossen:
607
00:32:11,765 --> 00:32:14,240
Okay, vertrauen wir
dem Input aus Wikidata?
608
00:32:14,850 --> 00:32:18,555
Ja - dann wird erwägt,
geht es in den Kreislauf,
609
00:32:18,555 --> 00:32:22,686
und die nächste Iteration
ist Teil der Disease Ontology
610
00:32:22,687 --> 00:32:25,411
und wird in Wikidata zurückgespeist.
611
00:32:27,419 --> 00:32:31,282
Wir machen dasselbe für WikiPathways.
612
00:32:31,282 --> 00:32:36,601
WikiPathways ist ein von MediaWiki
inspiriertes Pfad-Repository.
613
00:32:36,602 --> 00:32:39,943
Dieselbe Geschichte, es gibt bereits
verschiedene Pfad-Ressourcen
614
00:32:39,943 --> 00:32:41,258
auf Wikidata.
615
00:32:41,258 --> 00:32:44,713
Möglicherweise gibt es Konflikte
zwischen diesen Pfadressourcen
616
00:32:44,722 --> 00:32:46,701
und diese Konflikte werden zurückgemeldet
617
00:32:46,702 --> 00:32:49,521
von den Gatekeeper-Kuratoren
zu dieser Community,
618
00:32:49,522 --> 00:32:53,715
und man pflegt
die einzelnen Kurationszyklen.
619
00:32:53,715 --> 00:32:57,068
Aber wenn Sie sich an
den vorherigen Zyklus erinnern,
620
00:32:57,069 --> 00:33:03,041
hier erwähnte ich nur zwei Zyklen,
zwei Ressourcen.
621
00:33:03,566 --> 00:33:06,090
Das müssen wir für jede einzelne
Ressource tun, die wir haben,
622
00:33:06,090 --> 00:33:08,062
und wir müssen alles,
was vor sich geht, verwalten,
623
00:33:08,062 --> 00:33:09,335
denn wenn ich Kuration sage,
624
00:33:09,335 --> 00:33:11,691
meine ich wirklich,
auf die Wikipedia-Top-Seiten zu gehen,
625
00:33:11,691 --> 00:33:14,746
auf die Wikidata-Top-Seiten
zu gehen und das auszuprobieren.
626
00:33:14,746 --> 00:33:19,316
Das skaliert nicht mit den beiden
Gatekeeper-Kuratoren, die wir hatten.
627
00:33:19,860 --> 00:33:22,777
Also, als ich 2016 an einer
Konferenz teilgenommen habe,
628
00:33:22,778 --> 00:33:26,933
wo Eric einen Vortrag
über Shape Expressions hielt,
629
00:33:26,934 --> 00:33:29,277
sprang ich auf den Zug und sagte: Okay,
630
00:33:29,278 --> 00:33:32,010
mit Hilfe von Shape Expressions
können wir feststellen,
631
00:33:32,010 --> 00:33:34,240
welche Unterschiede in Wikidata bestehen
632
00:33:34,240 --> 00:33:38,320
und so können die Gatekeeper
633
00:33:38,320 --> 00:33:41,260
effizienter berichten in dem Log.
634
00:33:42,275 --> 00:33:46,019
Dieses Jahr war ich von
der Schemaentität begeistert,
635
00:33:46,020 --> 00:33:49,015
denn jetzt können wir
diese Entitätsschemata
636
00:33:49,015 --> 00:33:50,765
auf Wikidata speichern,
637
00:33:50,765 --> 00:33:53,336
auf Wikidata selbst,
während es zuvor auf GitHub war.
638
00:33:53,860 --> 00:33:56,815
Und dies integriert mit
der Wikidata-Oberfläche,
639
00:33:56,816 --> 00:33:59,350
man hat also Dinge
wie Dokumentendiskussionen,
640
00:33:59,350 --> 00:34:01,020
man hat aber auch Revisionen.
641
00:34:01,020 --> 00:34:05,261
Ihr könnt also die Top-Seiten
und die Revisionen in Wikidata nutzen,
642
00:34:05,262 --> 00:34:10,255
um darüber zu diskutieren,
643
00:34:10,255 --> 00:34:13,988
was in Wikidata ist
und was in den primären Ressourcen.
644
00:34:14,966 --> 00:34:19,686
Also das, was Eric gerade vorgestellt hat,
ist schon ein ziemlicher Vorteil.
645
00:34:19,686 --> 00:34:24,335
Also hier haben wir eine Shape Expression
für das menschliche Gen erfunden
646
00:34:24,336 --> 00:34:30,225
und dann ließen wir es durch ShEx laufen
und wie Sie sehen können,
647
00:34:30,225 --> 00:34:32,428
wir haben gerade erst eines.
648
00:34:32,429 --> 00:34:34,641
Es gibt ein Problem,
das überwacht werden muss,
649
00:34:34,642 --> 00:34:37,316
es gibt ein Element,
das nicht in dieses Schema passt,
650
00:34:37,316 --> 00:34:40,738
und dann können Sie
bereits Schemaentitäten erstellen
651
00:34:40,738 --> 00:34:43,749
und Kurationsberichte basierend auf...
652
00:34:43,749 --> 00:34:46,240
und das an die verschiedenen
Kurationsberichte senden.
653
00:34:48,058 --> 00:34:52,788
Aber die ShEx.js ist
eine integrierte Schnittstelle
654
00:34:52,788 --> 00:34:55,860
und hier noch mal eine Folie zurück,
mache ich nur zehn,
655
00:34:55,860 --> 00:35:00,362
aber wir haben Zehntausende
und das skaliert wieder nicht.
656
00:35:00,362 --> 00:35:04,654
Der Wikidata Integrator
unterstützt jetzt auch ShEx
657
00:35:04,998 --> 00:35:07,431
und dann können wir
einfach Item-Loops verwenden,
658
00:35:07,431 --> 00:35:11,494
wo wir ja-nein, ja-nein,
wahr-falsch, wahr-falsch sagen.
659
00:35:11,495 --> 00:35:12,616
Also nochmal,
660
00:35:13,065 --> 00:35:16,514
eine Steigerung der Effizienz
beim Arbeiten mit den Berichten.
661
00:35:17,256 --> 00:35:22,662
Aber jetzt, in letzter Zeit, baut das
auf dem Wikidata Query Service auf
662
00:35:22,961 --> 00:35:24,998
und wir haben das etwas gedrosselt,
663
00:35:24,999 --> 00:35:26,560
also nochmal, das skaliert nicht.
664
00:35:26,561 --> 00:35:28,522
Es ist also immer noch
ein fortlaufender Prozess,
665
00:35:28,522 --> 00:35:31,532
wie man mit Modellen auf Wikidata umgeht.
666
00:35:32,012 --> 00:35:36,522
Und ShEx ist also nicht
nur furchteinflössend,
667
00:35:36,522 --> 00:35:40,446
aber auch das Ausmaß ist einfach
zu groß, um damit umzugehen.
668
00:35:41,068 --> 00:35:44,792
Also habe ich angefangen zu arbeiten,
dies ist mein erster Proof of Concept
669
00:35:44,792 --> 00:35:46,192
oder meine erste Übung,
670
00:35:46,192 --> 00:35:48,022
wo ich ein Werkzeug
namens yED verwendet habe
671
00:35:48,184 --> 00:35:52,280
und ich fing an, diese Shape Expressions
zu zeichnen und weil...
672
00:35:52,490 --> 00:35:56,388
und dann dieses Schema neu zu generieren
673
00:35:56,388 --> 00:36:01,279
in dieses Schema in das JSON-Format
der Shape-Ausdrücke,
674
00:36:01,280 --> 00:36:04,520
damit sich das einem Publikum öffnet,
675
00:36:04,521 --> 00:36:07,432
das von den Shape Expressions-Sprachen
eingeschüchtert wird.
676
00:36:07,961 --> 00:36:12,308
Tatsächlich gibt es jedoch ein Problem
mit diesen visuellen Beschreibungen,
677
00:36:12,309 --> 00:36:13,990
denn dies ist auch ein Schema,
678
00:36:13,990 --> 00:36:18,230
das tatsächlich von jemandem
in yEd gezeichnet wurde.
679
00:36:18,230 --> 00:36:23,838
Und hier ist ein anderes, das schön ist.
680
00:36:23,838 --> 00:36:26,001
Ich hätte das gerne an meiner Wand,
681
00:36:26,001 --> 00:36:29,704
aber es ist immer noch nicht
interoperabel.
682
00:36:30,740 --> 00:36:32,263
Ich möchte meinen Vortrag beenden...
683
00:36:32,263 --> 00:36:33,572
und es war das erste Mal,
684
00:36:33,572 --> 00:36:35,622
dass ich diese Folie gestohlen,
gebraucht habe.
685
00:36:35,622 --> 00:36:37,728
Es ist eine Ehre, ihn im Publikum zu haben
686
00:36:37,728 --> 00:36:39,423
und ich mag das wirklich:
687
00:36:39,424 --> 00:36:42,362
"Die Leute denken, RDF ist eine Qual,
weil es kompliziert ist.
688
00:36:42,362 --> 00:36:44,492
Die Wahrheit ist noch schlimmer,
es ist so einfach,
689
00:36:45,581 --> 00:36:48,133
weil Sie mit realen Datenproblemen
arbeiten müssen,
690
00:36:48,134 --> 00:36:50,031
die schrecklich kompliziert sind.
691
00:36:50,031 --> 00:36:51,601
Während Sie RDF vermeiden können,
692
00:36:51,601 --> 00:36:53,621
ist es schwieriger, komplizierte Daten
693
00:36:53,621 --> 00:36:55,761
und komplizierte Computerprobleme
zu vermeiden."
694
00:36:55,761 --> 00:36:59,535
Hier geht es um RDF, aber ich denke,
das gilt auch für das Modellieren.
695
00:37:00,112 --> 00:37:02,769
Mein Diskussionspunkt ist also,
ob wir wirklich...
696
00:37:03,387 --> 00:37:05,882
Wie bringen wir das Modellieren voran?
697
00:37:05,882 --> 00:37:10,826
Sollen wir über ShEx
oder visuelle Modelle sprechen oder...
698
00:37:11,426 --> 00:37:13,271
Wie machen wir weiter?
699
00:37:13,474 --> 00:37:14,840
Vielen Dank für Ihre Zeit.
700
00:37:19,751 --> 00:37:21,188
(Lydia) Vielen Dank.
701
00:37:21,692 --> 00:37:24,001
Würdest du nach vorne kommen,
702
00:37:24,002 --> 00:37:27,824
damit wir mit den Fragen
aus dem Publikum anfangen können?
703
00:37:28,610 --> 00:37:30,203
Gibt es Fragen?
704
00:37:31,507 --> 00:37:32,507
Ja.
705
00:37:34,263 --> 00:37:37,028
Und ich denke,
wegen der Kamera müssen wir...
706
00:37:38,835 --> 00:37:40,968
(Lydia) Ja.
707
00:37:43,094 --> 00:37:46,273
(Zuschauer1) Also eine Frage
an Cristina, denke ich.
708
00:37:47,366 --> 00:37:51,641
Also du hast im Wortlaut den Begriff
"Informationsgewinn" erwähnt
709
00:37:51,642 --> 00:37:53,529
bei der Verknüpfung mit anderen Systemen.
710
00:37:53,529 --> 00:37:55,959
Es gibt das informationstheoretische Maß
Informationsgewinn,
711
00:37:55,959 --> 00:37:58,171
welches Statistik
und Wahrscheinlichkeit verwendet.
712
00:37:58,192 --> 00:38:01,736
Hast du das... ich meine,
hast du genau dieses Maß gemeint,
713
00:38:01,736 --> 00:38:04,173
den Informationsgewinn
aus der Wahrscheinlichkeitstheorie,
714
00:38:04,174 --> 00:38:05,530
aus der Informationstheorie,
715
00:38:05,530 --> 00:38:07,228
oder verwendest du einfach dieses Konzept,
716
00:38:07,228 --> 00:38:09,258
um den Informationsgewinn
irgendwie zu messen?
717
00:38:09,258 --> 00:38:13,016
Nein, also wir haben Maßnahmen
definiert und umgesetzt,
718
00:38:13,695 --> 00:38:17,272
die die Shannon-Entropie verwenden,
719
00:38:17,682 --> 00:38:20,050
auf dies bezieht sich das.
720
00:38:20,050 --> 00:38:22,656
Ich wollte nicht auf die Details
der konkreten Formeln eingehen...
721
00:38:22,656 --> 00:38:24,732
(Zuschauer1) Nein, klar,
das war meine Frage.
722
00:38:24,732 --> 00:38:26,487
- (Cristina) Aber ja.
- (Zuschauer1) Danke.
723
00:38:32,761 --> 00:38:35,047
(Zuschauer2) Ich habe eher
einen Kommentar als eine Frage.
724
00:38:35,048 --> 00:38:36,336
(Lydia) Los geht es.
725
00:38:36,336 --> 00:38:39,840
(Zuschauer2) Es gab also
viel Fokus auf der Item-Ebene
726
00:38:39,840 --> 00:38:42,547
bezüglich der Qualität
und Vollständigkeit.
727
00:38:42,547 --> 00:38:44,514
Eines der Dinge,
die mich beschäftigen, ist,
728
00:38:44,514 --> 00:38:47,279
dass wir nicht dasselbe
auf Hierarchien anwenden
729
00:38:47,279 --> 00:38:49,521
und ich glaube,
das wird uns ein Problem bereiten
730
00:38:49,521 --> 00:38:51,622
dass unsere Hierarchie oft nicht gut ist.
731
00:38:51,622 --> 00:38:53,713
Wir denken, dass dies
ein echtes Problem wird
732
00:38:53,713 --> 00:38:55,974
beim Durchsuchen von Commons
und anderen Dingen.
733
00:38:56,771 --> 00:38:58,962
Eine der Fähigkeiten,
die wir realisieren können, ist,
734
00:38:58,962 --> 00:39:00,632
extern zu importieren --
735
00:39:00,632 --> 00:39:04,842
Die Art und Weise, wie externe Thesauren
ihre Hierarchien strukturieren
736
00:39:04,842 --> 00:39:10,291
mit der P4900 Qualifikation
für Oberbegriffe.
737
00:39:11,037 --> 00:39:15,997
Aber was ich für sehr hilfreich halte,
wären viel bessere Werkzeuge dafür.
738
00:39:15,997 --> 00:39:21,212
Damit kann man die Hierarchie
eines externen Thesaurus importieren
739
00:39:21,212 --> 00:39:24,111
und das auf unsere
Wikidata-Items abbilden.
740
00:39:24,111 --> 00:39:27,989
Sobald es mit diesen P4900-Qualifizierern
zusammen funktioniert,
741
00:39:27,989 --> 00:39:31,494
kann man über SPARQL
ziemlich gute Abfragen durchführen,
742
00:39:32,490 --> 00:39:37,534
um zu sehen, wo unsere Hierarchie
von dieser externen Hierarchie abweicht.
743
00:39:37,534 --> 00:39:41,346
Zum Beispiel, Paula Morma,
User PKM, wie ihr vielleicht wisst,
744
00:39:41,346 --> 00:39:43,510
hat viel über Mode ausgearbeitet.
745
00:39:43,510 --> 00:39:46,244
Das nutzen wir also, um die Hierarchie
746
00:39:46,244 --> 00:39:50,524
des Europeana Fashion Thesaurus
zu übernehmen
747
00:39:50,524 --> 00:39:53,812
und die Getty AAT
Mode-Thesaurus-Hierarchie,
748
00:39:53,812 --> 00:39:55,727
um dann zu sehen, wo die Lücken
749
00:39:55,727 --> 00:39:57,957
in unseren höhergestuften Items waren,
750
00:39:57,957 --> 00:40:01,281
was ein echtes Problem
für uns ist, weil das oft Dinge sind,
751
00:40:01,281 --> 00:40:04,355
die nur als Seiten zur Disambiguierung
auf Wikipedia existieren,
752
00:40:04,356 --> 00:40:09,270
Es fehlen also viele übergeordnete
Elemente in unseren Hierarchien
753
00:40:09,271 --> 00:40:12,780
und das ist etwas, das wir in Bezug
auf Qualität und Vollständigkeit
754
00:40:12,780 --> 00:40:14,480
ansprechen müssen.
755
00:40:14,480 --> 00:40:16,086
Aber was wirklich helfen würde,
756
00:40:16,643 --> 00:40:19,619
wäre ein besseres Werkzeug
als der Dschungel der Pull-Skripte,
757
00:40:19,619 --> 00:40:20,992
die ich geschrieben habe.
758
00:40:20,992 --> 00:40:26,280
Wenn jemand das in ein PAWS-Notizbuch
in Python schreiben könnte,
759
00:40:26,561 --> 00:40:29,731
um einen externen Thesaurus
verwenden zu können,
760
00:40:29,731 --> 00:40:31,973
dessen Hierarchie zu verwenden,
761
00:40:31,973 --> 00:40:34,759
die als verknüpfte Daten
verfügbar sein können oder nicht,
762
00:40:35,379 --> 00:40:40,580
um diese dann in Schnellanweisungen
umzusetzen und P4900-Werte einzugeben.
763
00:40:41,005 --> 00:40:42,165
Und später dann,
764
00:40:42,166 --> 00:40:44,527
wenn unsere Darstellung
vervollständigt wird,
765
00:40:44,528 --> 00:40:49,691
diese P4900s zu aktualisieren,
denn sobald unsere Darstellung veraltet,
766
00:40:49,691 --> 00:40:51,447
dichter wird,
767
00:40:51,447 --> 00:40:55,377
müssen die Werte dieser
Qualifikationsmerkmale geändert werden,
768
00:40:56,230 --> 00:40:58,296
um darzustellen, dass wir mehr
aus ihrer Hierarchie
769
00:40:58,296 --> 00:40:59,866
in unserem System implementiert haben.
770
00:40:59,866 --> 00:41:03,728
Wenn jemand das tun könnte,
wäre das sehr hilfreich, denke ich,
771
00:41:03,728 --> 00:41:07,121
und wir müssen uns auch
andere Ansätze ansehen,
772
00:41:07,122 --> 00:41:10,762
um die Qualität und Vollständigkeit
auf Hierarchieebene zu verbessern,
773
00:41:10,763 --> 00:41:12,503
nicht nur auf der Artikelebene.
774
00:41:13,308 --> 00:41:14,958
(Andra) Kann ich das ergänzen?
775
00:41:16,362 --> 00:41:19,901
Ja, und das machen wir tatsächlich
776
00:41:19,911 --> 00:41:22,472
und meine Empfehlung ist,
die Shape Expression zu betrachten,
777
00:41:22,472 --> 00:41:25,479
die Finn gemacht hat
mit den lexikalischen Daten,
778
00:41:25,479 --> 00:41:27,440
in denen er Shape Expressions erstellt
779
00:41:27,440 --> 00:41:29,240
und dann auf Autorenausdrücken aufbaut,
780
00:41:29,240 --> 00:41:31,649
so dass wir also dieses Konzept
der verknüpften Formausdrücke
781
00:41:31,649 --> 00:41:32,739
in Wikidata haben.
782
00:41:32,739 --> 00:41:35,065
Insbesondere der Anwendungsfall,
wenn ich richtig verstehe,
783
00:41:35,065 --> 00:41:37,183
entspricht genau dem,
was wir in Gene Wiki machen.
784
00:41:37,184 --> 00:41:40,841
Man hat also die Disease Ontology,
die in Wikidata importiert ist,
785
00:41:40,842 --> 00:41:44,681
dann kommen die Krankheitsdaten
und wir wenden die Shape Expressions an,
786
00:41:44,682 --> 00:41:47,247
um zu sehen, ob das
zu diesem Thesaurus passt.
787
00:41:47,248 --> 00:41:48,770
Und es gibt andere Thesauren
788
00:41:48,770 --> 00:41:50,920
oder andere Ontologien
für kontrolliertes Vokabular,
789
00:41:50,920 --> 00:41:52,559
das noch in Wikidata rein muss
790
00:41:52,559 --> 00:41:55,261
und genau deshalb sind
Shape Expressions so interessant,
791
00:41:55,261 --> 00:41:57,893
weil sie für die Disease Ontology
möglich sind,
792
00:41:57,893 --> 00:41:59,614
man kann Shape Expressions
für MeSH haben.
793
00:41:59,614 --> 00:42:01,761
Man kann sagen, ich möchte
die Qualität überprüfen,
794
00:42:01,762 --> 00:42:06,297
weil man auch in Wikidata den Kontext
bei einem kontrollierten Vokabular hat,
795
00:42:06,297 --> 00:42:09,503
dass man sagt,
die Qualität entspricht dem,
796
00:42:09,503 --> 00:42:11,792
aber die Community stimmt euch nicht zu.
797
00:42:11,792 --> 00:42:13,921
Das Werkzeug ist also
in der Tat vorhanden,
798
00:42:13,921 --> 00:42:16,762
aber jetzt müssen diese Modelle
erstellt und angewendet werden
799
00:42:16,762 --> 00:42:18,513
auf die verschiedenen Anwendungsfälle.
800
00:42:18,811 --> 00:42:20,921
(Zuschauer2)
Die Shape Expressions sind nützlich,
801
00:42:20,922 --> 00:42:25,765
sobald ihr die externe Ontologie
in Wikidata abgebildet habt,
802
00:42:25,765 --> 00:42:29,549
aber mein Problem ist,
dass dieser Zeitpunkt erst kommt.
803
00:42:29,549 --> 00:42:32,481
Momentan legt es nur offen,
wie viel von der externen Ontologie
804
00:42:32,481 --> 00:42:34,882
noch nicht in Wikidata enthalten ist
805
00:42:34,882 --> 00:42:36,256
und wo die Lücken sind
806
00:42:36,257 --> 00:42:40,510
und dies ist, wo ich denke,
dass viel robustere Werkzeuge,
807
00:42:40,510 --> 00:42:44,058
mit denen ihr erkennen könnt,
was aus externen Ontologien fehlt,
808
00:42:44,058 --> 00:42:45,609
sehr hilfreich wären.
809
00:42:47,488 --> 00:42:48,952
Das größte Problem dort
810
00:42:48,952 --> 00:42:51,517
sind nicht so sehr die Werkzeuge,
sondern mehr die Lizenzierung.
811
00:42:51,803 --> 00:42:55,249
Also das Einspielen der Ontologien
in Wikidata ist ein Kinderspiel,
812
00:42:55,250 --> 00:42:59,295
aber die meisten Ontologien haben,
wie kann ich das höflich sagen,
813
00:42:59,965 --> 00:43:03,424
restriktive Lizenzierung, daher sind diese
nicht mit Wikidata kompatibel.
814
00:43:03,918 --> 00:43:06,961
(Zuschauer2) Es gibt eine große Anzahl
von Thesauren im öffentlichen Sektor
815
00:43:06,961 --> 00:43:08,339
in kulturellen Bereichen.
816
00:43:08,339 --> 00:43:10,851
- (Andra) Dann müssen wir reden.
- (Zuschauer2) Kein Problem.
817
00:43:10,852 --> 00:43:12,384
(Andra) Darüber müssen wir reden.
818
00:43:13,624 --> 00:43:17,522
(Zuschauer3) Der Kommentar,
den ich machen möchte,
819
00:43:17,522 --> 00:43:19,402
ist eigentlich eine Antwort auf James.
820
00:43:19,402 --> 00:43:22,401
Also die Sache ist die,
dass Hierarchien Graphen machen
821
00:43:22,374 --> 00:43:24,041
und wenn du ...
822
00:43:24,579 --> 00:43:27,759
Ich möchte im Grunde genommen
über ein bekanntes Problem
823
00:43:27,759 --> 00:43:30,729
in Hierarchien sprechen,
das sind zirkuläre Hierarchien,
824
00:43:30,821 --> 00:43:33,796
die auf sich selbst zurück führen,
wenn es ein Problem gibt,
825
00:43:33,796 --> 00:43:35,992
das sollte man nicht in Hierarchien haben.
826
00:43:37,022 --> 00:43:41,295
Witzigerweise passiert dies
häufig in Wikipedia-Kategorien,
827
00:43:41,295 --> 00:43:43,134
wir haben viele Kreise in Kategorien.
828
00:43:43,898 --> 00:43:46,612
Aber die gute Nachricht ist, dass dies...
829
00:43:47,713 --> 00:43:50,173
Technisch gesehen ist es
ein PMP-vollständiges Problem.
830
00:43:50,173 --> 00:43:52,063
Also ihr könnt dies nicht einfach finden,
831
00:43:52,063 --> 00:43:53,773
wenn ihr ein Diagramm davon baut.
832
00:43:54,473 --> 00:43:57,046
Aber es gibt viele Methoden,
die entwickelt wurden,
833
00:43:57,047 --> 00:44:00,624
um Probleme in diesen
Hierarchiediagrammen zu finden.
834
00:44:00,625 --> 00:44:04,520
Es gibt einen Artikel
835
00:44:04,520 --> 00:44:07,955
namens Breaking Cycles
in Noisy Hierarchies
836
00:44:07,956 --> 00:44:09,742
und der wurde verwendet,
837
00:44:09,742 --> 00:44:12,672
um die Kategorisierung
der englischen Wikipedia zu erleichtern.
838
00:44:12,672 --> 00:44:15,480
Ihr könnt dies einfach nehmen
und diese Hierarchien
839
00:44:15,480 --> 00:44:17,142
in Wikidata anwenden,
840
00:44:17,142 --> 00:44:19,540
und dann könnt ihr Dinge finden,
die problematisch sind
841
00:44:19,541 --> 00:44:22,311
und diejenigen einfach entfernen,
die Probleme verursachen,
842
00:44:22,311 --> 00:44:24,667
und die eigentlichen Probleme finden.
843
00:44:24,667 --> 00:44:27,080
Das ist also nur eine Idee,
nur, damit ihr...
844
00:44:28,470 --> 00:44:29,930
(Zuschauer2) Das ist schön und gut,
845
00:44:29,931 --> 00:44:31,922
aber ich denke,
ihr unterschätzt die Anzahl
846
00:44:31,922 --> 00:44:35,042
der schlechten Beziehungen
in den Subklassen, die wir haben.
847
00:44:35,042 --> 00:44:39,680
Das ist, wie eine Stadt in einem
völlig falschen Land zu haben
848
00:44:40,250 --> 00:44:44,664
und es gibt Werkzeuge in der Geographie,
um so etwas zu identifizieren,
849
00:44:44,664 --> 00:44:49,201
und wir brauchen viel bessere
Werkzeuge in Hierarchien,
850
00:44:49,202 --> 00:44:53,477
um zu identifizieren, wo das
Äquivalent des Items für das Land
851
00:44:53,478 --> 00:44:58,023
vollständig fehlt oder tatsächlich
in einer Subklasse eingeordnet ist,
852
00:44:58,023 --> 00:45:01,774
die eine völlig andere Bedeutung hat.
853
00:45:02,804 --> 00:45:07,165
(Lydia) Ja, ich denke,
du sprichst etwas an,
854
00:45:07,166 --> 00:45:10,595
das ich und mein Team
immer wieder von Leuten hören,
855
00:45:10,595 --> 00:45:13,520
die unsere Daten auch ziemlich
häufig wiederverwenden, ja.
856
00:45:14,752 --> 00:45:16,758
Einzelne Datenpunkte
könnten großartig sein,
857
00:45:16,758 --> 00:45:20,163
aber wenn ihr euch die Ontologie
und so weiter ansehen müsst,
858
00:45:20,164 --> 00:45:21,857
dann wird es sehr...
859
00:45:22,388 --> 00:45:26,657
Und ich denke, eines der großen Probleme,
warum dies passiert, ist,
860
00:45:26,657 --> 00:45:30,736
dass vieles, was auf Wikidata
editiert wird, auf der Grundlage
861
00:45:30,736 --> 00:45:34,544
eines einzelnen Artikels basiert, ja.
862
00:45:34,545 --> 00:45:36,635
Ihr bearbeitet dieses Element,
863
00:45:37,653 --> 00:45:41,745
ohne zu bemerken, dass die Konsequenzen
von globaler Natur sind
864
00:45:41,745 --> 00:45:44,245
im Bezug auf dem Rest
des Diagramms zum Beispiel.
865
00:45:44,245 --> 00:45:50,040
Und wenn jemand eine Idee hat,
wie man dies sichtbarer machen kann,
866
00:45:50,041 --> 00:45:53,221
die Folgen einer einzelnen
lokalen Bearbeitung,
867
00:45:54,005 --> 00:45:56,537
ich denke, das wäre es wert,
das herauszufinden,
868
00:45:57,550 --> 00:46:01,583
den Leuten besser zu zeigen,
was die Folge ihrer Überarbeitung ist,
869
00:46:01,584 --> 00:46:03,574
die sie in gutem Glauben vornahmen,
870
00:46:04,481 --> 00:46:05,481
was das ist.
871
00:46:06,939 --> 00:46:12,027
Whoa! OK, fangen wir an mit, ja,
du, dann du, dann du, dann du.
872
00:46:12,027 --> 00:46:14,064
(Zuschauer4) Nun, nach dieser Diskussion
873
00:46:14,064 --> 00:46:18,262
will ich nur meine Zustimmung geben
zu dem, was James sagte.
874
00:46:18,263 --> 00:46:22,467
Also das Gefährlichste scheint
im Wesentlichen die Hierarchie zu sein,
875
00:46:22,468 --> 00:46:25,482
nicht die Hierarchie, sondern allgemein
die Semantik der Beziehungen
876
00:46:25,482 --> 00:46:28,022
der Subklassen aus Wikidata.
877
00:46:28,022 --> 00:46:32,561
Ich habe vor kurzem Sprachen studiert
nur für die Zwecke dieser Konferenz
878
00:46:32,562 --> 00:46:35,257
und zum Beispiel finden Sie viele Fälle,
879
00:46:35,257 --> 00:46:39,463
wo eine Sprache sowohl Teil als auch
Subklasse derselben Sache ist, okay.
880
00:46:39,463 --> 00:46:43,577
Man könnte auch sagen,
dass wir eine flexible Ontologie haben.
881
00:46:43,577 --> 00:46:46,256
Wikidata gibt manchmal
die Freiheit, dies auszudrücken,
882
00:46:46,256 --> 00:46:48,509
zum Beispiel, weil diese Ontologie
der Sprachen
883
00:46:48,509 --> 00:46:50,721
auch politisch kompliziert ist, oder?
884
00:46:50,722 --> 00:46:53,000
Es ist sogar gut, in der Lage zu sein,
885
00:46:53,000 --> 00:46:55,038
ein gewisses Maß
an Unsicherheit auszudrücken.
886
00:46:55,038 --> 00:46:57,983
Aber stellen Sie sich vor,
wer daraus maschinell lesen möchte.
887
00:46:57,984 --> 00:46:59,468
Das ist also wirklich problematisch.
888
00:46:59,468 --> 00:47:00,992
Andererseits glaube ich nicht,
889
00:47:00,992 --> 00:47:03,686
dass Ontologie jemals
von irgendwoher importiert wurde,
890
00:47:03,687 --> 00:47:05,491
das ist etwas,
was ursprünglich von uns kommt.
891
00:47:05,491 --> 00:47:08,401
Wikipedia hat seit den Anfängen
seinen Nutzen daraus gezogen, meine ich.
892
00:47:08,401 --> 00:47:11,324
Also frage ich mich, diese Sache
mit den Shape Expressions-Ding ist toll.
893
00:47:11,325 --> 00:47:15,575
Das Validieren und Reparieren
von Wikidata-Ontologien
894
00:47:15,576 --> 00:47:18,363
durch externe Ressourcen, schöne Idee.
895
00:47:18,886 --> 00:47:23,036
Werden wir letztendlich dort enden,
dass wir externen Ontologien
896
00:47:23,036 --> 00:47:25,243
in Wikidata widerspiegeln?
897
00:47:25,441 --> 00:47:28,411
Und ebenso, was sollen wir
mit dem Kern unserer Ontologie machen,
898
00:47:28,411 --> 00:47:30,642
der nie von externen Ressourcen
verwendet wird,
899
00:47:30,643 --> 00:47:32,147
wie können wir das beheben?
900
00:47:32,147 --> 00:47:35,276
Und ich denke wirklich,
dass das ein Problem für sich sein wird.
901
00:47:35,277 --> 00:47:39,010
Darauf müssen wir uns unabhängig
von der Idee konzentrieren,
902
00:47:39,010 --> 00:47:41,256
Ontologien mit etwas Externem
zu validieren.
903
00:47:49,353 --> 00:47:53,379
(Zuschauer5) Okay, die Constraints
und Shapes sind sehr beeindruckend,
904
00:47:53,380 --> 00:47:54,704
was man damit machen kann,
905
00:47:55,205 --> 00:47:58,481
aber das Hauptanliegen ist
nicht wirklich klar hervorgetreten.
906
00:47:58,482 --> 00:48:01,229
Das liegt daran, dass wir jetzt
genauer definieren können,
907
00:48:01,229 --> 00:48:03,229
was wir von den Daten erwarten.
908
00:48:03,229 --> 00:48:06,893
Vorher muss jeder seine eigenen
Tools und Skripte schreiben
909
00:48:06,894 --> 00:48:10,601
und so ist es sichtbarer
und wir können darüber diskutieren.
910
00:48:10,602 --> 00:48:13,641
Aber weil es nicht darum geht,
was falsch oder richtig ist,
911
00:48:13,642 --> 00:48:15,730
sondern um eine Erwartung
912
00:48:15,730 --> 00:48:17,505
und ihr werdet
unterschiedliche Erwartungen
913
00:48:17,505 --> 00:48:18,883
und Diskussionen darüber haben,
914
00:48:18,883 --> 00:48:20,791
wie wir Dinge in Wikidata
modellieren wollen,
915
00:48:21,246 --> 00:48:23,095
und das...
916
00:48:23,096 --> 00:48:26,200
Der aktuelle Stand ist nur
ein Schritt in die richtige Richtung,
917
00:48:26,200 --> 00:48:29,601
denn jetzt braucht man
sehr viel technisches Know-how,
918
00:48:29,601 --> 00:48:31,141
um da reinzukommen
919
00:48:31,141 --> 00:48:35,721
und wir brauchen bessere Möglichkeiten,
um diese Constraints zu visualisieren,
920
00:48:35,722 --> 00:48:38,519
vielleicht um es
in natürliche Sprache umzuwandeln,
921
00:48:38,519 --> 00:48:40,759
damit es die Leute
besser verstehen können,
922
00:48:40,759 --> 00:48:43,768
aber es geht weniger darum,
was falsch oder richtig ist.
923
00:48:44,925 --> 00:48:45,925
(Lydia) Ja.
924
00:48:50,986 --> 00:48:54,033
(Zuschauer6) Zu den Qualitätsproblemen
möchte ich einfach hinzufügen,
925
00:48:54,033 --> 00:48:57,010
viele der Probleme,
auf die ich gestoßen bin,
926
00:48:58,838 --> 00:49:02,330
waren Meinungsunterschiede
zwischen Instanz von und Subklasse.
927
00:49:02,331 --> 00:49:05,963
Ich würde behaupten,
Fehler in diesen Situationen
928
00:49:06,032 --> 00:49:11,422
und zu versuchen, diese zu finden,
ist sehr zeitaufwändig.
929
00:49:11,522 --> 00:49:13,030
Ich bin auf so etwas gestoßen wie:
930
00:49:13,030 --> 00:49:15,040
"Oh, wenn ich
sehr eindrucksvolle Items finde,
931
00:49:15,040 --> 00:49:16,281
die in etwa...
932
00:49:16,281 --> 00:49:18,758
und dann verwendet man
alle Subklasseninstanzen,
933
00:49:18,758 --> 00:49:21,628
um alle abgeleiteten Anweisungen
davon zu finden."
934
00:49:21,628 --> 00:49:26,215
Dies ist eine sehr nützliche Methode,
um nach diesen Fehlern zu suchen.
935
00:49:26,215 --> 00:49:28,236
Aber ich war neugierig,
ob Shape Expressions,
936
00:49:29,841 --> 00:49:31,262
ob es ...
937
00:49:31,262 --> 00:49:33,754
ob dies als Werkzeug zur Lösung
938
00:49:33,754 --> 00:49:36,774
dieser Probleme
verwendet werden kann, aber ja...
939
00:49:40,514 --> 00:49:42,794
(Zuschauer7) Wenn es einen
strukturellen Footprint hat...
940
00:49:45,720 --> 00:49:47,750
Wenn es einen strukturellen Footprint hat,
941
00:49:47,750 --> 00:49:49,370
der irgendwie fälschbar ist,
942
00:49:49,370 --> 00:49:51,281
ihr seht das und könnt sagen,
das ist falsch,
943
00:49:51,281 --> 00:49:52,781
ja, dann kannst du das machen.
944
00:49:52,781 --> 00:49:56,921
Aber wenn es nur darum geht,
es auf reale Objekte abzubilden,
945
00:49:56,922 --> 00:49:59,252
dann wirst du einfach viel,
viel Hirnschmalz brauchen.
946
00:50:05,768 --> 00:50:08,631
(Zuschauer8) Hallo, Pablo Mendes
von Apple Siri Knowledge.
947
00:50:09,154 --> 00:50:10,520
Wir sind hier, um herauszufinden,
948
00:50:10,520 --> 00:50:12,770
wie wir dem Projekt
und der Community helfen können,
949
00:50:12,770 --> 00:50:15,645
aber Cristina machte den Fehler,
zu fragen, was wir wollen.
950
00:50:16,471 --> 00:50:20,052
Also eine Sache,
dich ich gerne sehen würde:
951
00:50:20,958 --> 00:50:23,521
Es geht viel um Überprüfbarkeit,
952
00:50:23,522 --> 00:50:26,372
was eines der Grundprinzipien
des Projekts in der Gemeinschaft ist,
953
00:50:27,062 --> 00:50:28,590
und Vertrauenswürdigkeit.
954
00:50:28,590 --> 00:50:32,262
Nicht jede Aussage ist gleich,
einige von ihnen sind heftig umstritten,
955
00:50:32,262 --> 00:50:33,933
einige von ihnen sind leicht zu lösen,
956
00:50:33,933 --> 00:50:36,071
wie das Geburtsdatum
einer Person zu überprüfen.
957
00:50:36,071 --> 00:50:37,765
Wie ihr heute in der Keynote gesehen habt,
958
00:50:37,765 --> 00:50:39,535
ist Geschlechterproblematik komplizierter.
959
00:50:40,295 --> 00:50:42,250
Könnt ihr ein bisschen
darüber diskutieren,
960
00:50:42,250 --> 00:50:44,791
was ihr aus diesem Bereich
der Datenqualität wisst,
961
00:50:44,791 --> 00:50:47,521
über Vertrauenswürdigkeit
und Überprüfbarkeit?
962
00:50:55,442 --> 00:50:58,268
Wenn es nicht viel ist, würde ich
gerne viel mehr sehen.
963
00:51:00,646 --> 00:51:01,646
(Lydia) Ja.
964
00:51:03,314 --> 00:51:06,548
Dazu haben wir offenbar
nicht viel zu sagen.
965
00:51:08,024 --> 00:51:10,070
(Andra) Ich denke, wir können viel tun,
966
00:51:10,070 --> 00:51:12,400
aber ich hatte gestern
ein Gespräch mit dir.
967
00:51:12,400 --> 00:51:15,774
Mein Lieblingsbeispiel, das ich gestern
gelernt habe und bereits veraltet ist,
968
00:51:15,774 --> 00:51:20,281
ist, wenn Sie zu Q2 gehen,
was die Erde ist,
969
00:51:20,282 --> 00:51:23,343
da gibt eine Behauptung,
die besagt, die Erde sei flach.
970
00:51:24,183 --> 00:51:26,055
Und ich liebe dieses Beispiel,
971
00:51:26,056 --> 00:51:27,781
weil es da draußen eine Community gibt,
972
00:51:27,781 --> 00:51:30,417
die das behauptet und sie haben
nachprüfbare Ressourcen.
973
00:51:30,418 --> 00:51:32,254
Also ich denke, es ist ein echter Fall,
974
00:51:32,255 --> 00:51:34,641
der nicht abgelehnt werden
sondern in Wikidata sein sollte.
975
00:51:34,642 --> 00:51:40,185
Und ich denke, dass Shape Expressions
dort wirklich hilfreich sein können,
976
00:51:40,185 --> 00:51:42,022
weil man sagen kann: Okay,
977
00:51:42,022 --> 00:51:44,646
ich bin wirklich an diesem
Anwendungsfall interessiert,
978
00:51:44,646 --> 00:51:47,509
oder dies ist ein Anwendungsfall,
mit dem ihr nicht einverstanden seid.
979
00:51:47,509 --> 00:51:49,308
Es kann aber auch
einen Anwendungsfall geben,
980
00:51:49,308 --> 00:51:51,149
bei dem ihr sagt, okay,
das interessiert mich.
981
00:51:51,149 --> 00:51:53,449
Es gibt dieses Beispiel,
wo ihr sagt, ich habe Glukose.
982
00:51:53,449 --> 00:51:55,841
Und Glukose, wenn man Biologe ist,
983
00:51:55,842 --> 00:51:58,627
interessiert man sich nicht für
die chemischen Restriktionen
984
00:51:58,627 --> 00:52:00,317
des Glukosemoleküls,
985
00:52:00,317 --> 00:52:03,201
Glukose ist immer gleich.
986
00:52:03,202 --> 00:52:05,973
Aber wenn man Chemiker ist,
zuckt man zusammen, wenn man das hört,
987
00:52:05,973 --> 00:52:08,191
man hast etwa 200...
988
00:52:08,191 --> 00:52:10,283
Dann kann man
viele Shape Expressions nehmen,
989
00:52:10,283 --> 00:52:12,621
okay, ich komme mit...
aus der Sicht eines Chemikers,
990
00:52:12,621 --> 00:52:13,887
ich wende das an.
991
00:52:13,887 --> 00:52:16,691
Und dann sagst du, ich gehe von
einem biologischen Anwendungsfall aus,
992
00:52:16,691 --> 00:52:18,524
ich wende diese Shape Expression an.
993
00:52:18,524 --> 00:52:20,628
Und wenn ihr dann kollaborieren möchtet,
994
00:52:20,628 --> 00:52:22,951
ja, nun, dann solltet ihr mit Eric
über ShEx-Maps sprechen.
995
00:52:23,500 --> 00:52:28,725
Und so... aber diese Reise
beginnt gerade erst.
996
00:52:28,725 --> 00:52:32,238
Aber ich persönlich glaube, dass dies
in diesem Bereich sehr entscheidend ist.
997
00:52:34,292 --> 00:52:35,565
(Lydia) Okay. Da drüben.
998
00:52:40,597 --> 00:52:43,505
(Zuschauerin1) Ich hatte einige Ideen
999
00:52:43,505 --> 00:52:46,035
zu einigen Punkten in den Diskussionen.
1000
00:52:46,035 --> 00:52:48,772
Also werde ich versuchen,
diese nicht zu vergessen...
1001
00:52:48,772 --> 00:52:50,742
Ich hatte drei Ideen, also...
1002
00:52:52,224 --> 00:52:54,981
Basierend auf dem, was James
vor einer Weile gesagt hat,
1003
00:52:54,981 --> 00:52:59,001
haben wir von Anfang an ein sehr,
sehr großes Problem bei Wikidata
1004
00:52:59,002 --> 00:53:01,574
bei der oberen Ontologie.
1005
00:53:02,363 --> 00:53:05,339
Darüber haben wir vor zwei Jahren
bei WikidataCon gesprochen
1006
00:53:05,340 --> 00:53:07,432
und wir haben darüber
bei Wikimania gesprochen.
1007
00:53:07,432 --> 00:53:09,818
Bei jedem Wikidata-Treffen
1008
00:53:09,818 --> 00:53:11,289
sprechen wir darüber,
1009
00:53:11,289 --> 00:53:15,782
weil es ein sehr großes Problem
direkt vor unseren Augen ist.
1010
00:53:15,783 --> 00:53:19,738
Was eine Entität ist, was Arbeit ist,
1011
00:53:19,738 --> 00:53:23,018
was ein Genre ist, Kunst,
1012
00:53:23,018 --> 00:53:25,461
wirklich die wichtigsten Konzepte.
1013
00:53:26,195 --> 00:53:30,512
Und das ist tatsächlich
ein sehr schwacher Punkt
1014
00:53:30,512 --> 00:53:33,118
im Bezug auf die globale Ontologie,
1015
00:53:33,118 --> 00:53:37,453
weil die Leute versuchen,
regelmäßig aufzuräumen
1016
00:53:38,017 --> 00:53:41,047
und alles komplett kaputt gemacht haben.
1017
00:53:42,516 --> 00:53:47,505
Ich denke, einige von euch
erinnern sich vielleicht an den Typ,
1018
00:53:47,505 --> 00:53:51,785
der in gutem Glauben absolut alle Städte
auf der Welt durcheinander brachte.
1019
00:53:51,785 --> 00:53:54,782
Das waren keine
geografischen Objekte mehr,
1020
00:53:55,198 --> 00:53:57,768
daher gibt es überall
Verstöße gegen Constraints.
1021
00:53:58,720 --> 00:54:00,278
Und es passierte in gutem Glauben,
1022
00:54:00,278 --> 00:54:03,623
weil er eigentlich einen Fehler
in einem Artikel korrigierte,
1023
00:54:04,020 --> 00:54:05,782
aber alles brach zusammen.
1024
00:54:06,349 --> 00:54:09,373
Und ich bin nicht sicher,
wie wir das lösen können,
1025
00:54:10,216 --> 00:54:14,386
da es eigentlich
keine externe Einrichtung gibt,
1026
00:54:14,386 --> 00:54:15,962
die wir verwenden könnten,
1027
00:54:15,962 --> 00:54:18,490
weil alle daran arbeiten...
1028
00:54:19,154 --> 00:54:22,041
Nun, wenn ich Datenbank
für Kunst am Laufen habe,
1029
00:54:22,042 --> 00:54:24,785
werde ich nur das verwendete Label
für Kunst nehmen,
1030
00:54:24,785 --> 00:54:27,742
ich kümmere mich nicht
um das philosophische Konzept dessen,
1031
00:54:27,742 --> 00:54:29,362
was eine Entität ist,
1032
00:54:29,362 --> 00:54:31,201
und das ist eigentlich...
1033
00:54:31,202 --> 00:54:34,561
Ich kenne keine Datenbank,
die auf diesem Niveau arbeitet,
1034
00:54:34,562 --> 00:54:36,967
aber das ist der schwächste
Punkt von Wikidata.
1035
00:54:37,936 --> 00:54:40,812
Und wahrscheinlich,
wenn wir über Datenqualität sprechen,
1036
00:54:40,812 --> 00:54:44,034
ist das eigentlich
ein großer Teil davon, also...
1037
00:54:44,034 --> 00:54:48,569
Und ich denke, es ist dasselbe,
was wir gesagt haben...
1038
00:54:48,569 --> 00:54:50,632
Oh, tut mir leid, ich wechsle das Thema
1039
00:54:51,401 --> 00:54:55,774
Aber wir haben in verschiedenen Meetings
über Qualitäten gesprochen,
1040
00:54:55,774 --> 00:54:59,398
dass einige von uns eigentlich
gute Modellierung machen,
1041
00:54:59,399 --> 00:55:01,240
ShEx und solche Dinge tun.
1042
00:55:01,967 --> 00:55:07,255
Die Leute sehen es nicht auf Wikidata,
sie sehen ShEx nicht,
1043
00:55:07,255 --> 00:55:11,232
Sie sehen das WikiProjekt nicht
auf der Diskussionsseite und manchmal
1044
00:55:11,232 --> 00:55:14,796
sehen sie nicht einmal
die Diskussionsseiten von Eigenschaften,
1045
00:55:14,958 --> 00:55:19,628
die ausdrücklich angeben, a),
diese Eigenschaft wird dafür verwendet.
1046
00:55:19,628 --> 00:55:23,758
Letzte Woche zum Beispiel habe ich
Constraints einer Eigenschaft hinzugefügt.
1047
00:55:23,758 --> 00:55:26,324
Das Constraint wurde
ausdrücklich beschrieben
1048
00:55:26,325 --> 00:55:28,690
in der Diskussion bei
der Einführung der Eigenschaft.
1049
00:55:28,690 --> 00:55:33,298
Ich hatte gerade den technischen Teil
zum Hinzufügen der Constraint erstellt
1050
00:55:33,298 --> 00:55:34,548
und jemanden meinte:
1051
00:55:34,548 --> 00:55:37,258
"Was! Du hast alle
meine Bearbeitungen zerstört!"
1052
00:55:37,258 --> 00:55:41,542
Und die letzten zwei Jahre nutzte
er die Eigenschaft auf die falsche Art.
1053
00:55:41,542 --> 00:55:44,239
Und die Eigenschaft
war eigentlich sehr klar,
1054
00:55:44,239 --> 00:55:46,869
aber es gab keine Warnungen oder so etwas.
1055
00:55:46,869 --> 00:55:49,922
Und so ist es auch beim Pink Pony,
dass wir bei Wikimania gesagt haben,
1056
00:55:49,922 --> 00:55:54,273
WikiProject sichtbarer zu machen
oder ShEx sichtbarer zu machen,
1057
00:55:54,273 --> 00:55:56,917
aber, und das hat Cristina gesagt,
1058
00:55:56,917 --> 00:56:00,278
wir haben ein Problem
mit der Sichtbarkeit
1059
00:56:00,278 --> 00:56:02,368
der vorhandenen Lösungen.
1060
00:56:02,368 --> 00:56:05,232
Und in dieser Session
haben wir alle darüber geredet,
1061
00:56:05,232 --> 00:56:06,993
wie man mehr mit ShEx arbeitet
1062
00:56:06,993 --> 00:56:10,765
oder die Arbeit der Leute erleichtert,
die alles korrigieren.
1063
00:56:11,488 --> 00:56:15,718
Aber wir korrigieren seit
dem ersten Tag von Wikidata
1064
00:56:15,718 --> 00:56:20,741
und global verlieren wir
und wir verlieren, weil, na ja,
1065
00:56:20,741 --> 00:56:22,960
wenn ich weiß,
dass Namen kompliziert sind,
1066
00:56:22,961 --> 00:56:26,263
aber ich die einzige bin,
die die Korrekturen macht,
1067
00:56:26,532 --> 00:56:29,671
der Typ, der den lateinischen
Namen hinzugefügt hat
1068
00:56:29,672 --> 00:56:31,584
für alle chinesischen Forscher,
1069
00:56:32,088 --> 00:56:34,266
dafür brauche ich Monate
um das zu korrigieren.
1070
00:56:34,266 --> 00:56:35,746
und ich kann es nicht alleine tun,
1071
00:56:35,746 --> 00:56:38,654
und er hat einen großen Batch gemacht.
1072
00:56:38,654 --> 00:56:40,241
Also brauchen wir wirklich...
1073
00:56:40,242 --> 00:56:44,158
Wir haben mehr ein Sichtbarkeitsproblem
als ein Werkzeugproblem, denke ich,
1074
00:56:44,158 --> 00:56:45,873
weil wir viele Werkzeuge haben.
1075
00:56:45,873 --> 00:56:50,035
(Lydia) Richtig, aber leider habe ich
ein Zeichen bekommen,
1076
00:56:50,035 --> 00:56:52,121
wir müssen das also abschließen.
1077
00:56:52,122 --> 00:56:53,493
Vielen Dank für eure Kommentare.
1078
00:56:53,493 --> 00:56:56,611
Ich hoffe, ihr werdet die Diskussion
über den Tag fortführen
1079
00:56:56,611 --> 00:56:58,087
und vielen Dank für euren Beitrag.