WEBVTT
00:00:05.945 --> 00:00:09.506
Hallo allerseits zum
Datenqualitätspanel.
00:00:10.288 --> 00:00:13.511
Datenqualität ist wichtig,
weil immer mehr Menschen da draußen
00:00:13.511 --> 00:00:16.269
sich darauf verlassen, dass unsere Daten
in einem guten Zustand sind.
00:00:16.269 --> 00:00:19.752
Daher werden wir
über die Datenqualität sprechen
00:00:19.752 --> 00:00:25.298
und es werden vier Sprecher
kurze Einführungen geben
00:00:25.298 --> 00:00:28.003
zu Themen im Zusammenhang
mit der Datenqualität
00:00:28.003 --> 00:00:30.130
und im Anschluss
folgen Fragen und Antworten.
00:00:30.130 --> 00:00:32.234
Und der Erste ist Lucas.
00:00:34.385 --> 00:00:35.385
Vielen Dank.
00:00:35.901 --> 00:00:39.899
Hallo, ich bin Lucas
und beginne mit einer Übersicht
00:00:39.899 --> 00:00:43.806
der Datenqualitätstools,
die wir bereits auf Wikidata haben
00:00:43.807 --> 00:00:46.231
und auch von einigen Dingen,
die bald verfügbar sind.
00:00:46.932 --> 00:00:50.623
Und ich habe das alles
in allgemeine Themen gruppiert
00:00:50.623 --> 00:00:53.621
wie Fehler sichtbarer machen,
Probleme angehbar machen,
00:00:53.621 --> 00:00:56.673
den Daten mehr Aufmerksamkeit widmen,
damit die Leute die Probleme bemerken,
00:00:56.945 --> 00:00:59.367
einige der häufigen Fehlerquellen beheben,
00:00:59.717 --> 00:01:02.517
die Qualität der vorhandenen Daten sichern
00:01:02.616 --> 00:01:04.210
und auch Datenpflege durch Menschen.
00:01:05.063 --> 00:01:09.998
Und die, welche derzeit verfügbar sind,
beginnen mit Eigenschaftsbeschränkungen.
00:01:10.228 --> 00:01:12.521
Ihr habt dies wahrscheinlich
bereits auf Wikidata gesehen,
00:01:12.521 --> 00:01:14.259
manchmal habt ihr diese Symbole,
00:01:14.530 --> 00:01:17.241
die die interne Konsistenz
der Daten überprüfen.
00:01:17.242 --> 00:01:20.800
Wenn zum Beispiel
ein Ereignis dem anderen folgt,
00:01:20.801 --> 00:01:23.760
dann sollte das andere Ereignis
auch von diesem gefolgt werden,
00:01:23.761 --> 00:01:27.161
was auf dem WikidataCon-Item
anscheinend fehlte.
00:01:27.162 --> 00:01:29.762
Keine Ahnung, dieses Feature
ist erst ein paar Tage alt.
00:01:30.040 --> 00:01:34.681
Wenn dies für euch zu einschränkend
oder zu einfach ist, gibt es auch
00:01:34.682 --> 00:01:37.950
den Query Service, mit dem ihr
beliebige Kontrollen erstellen könnt,
00:01:37.950 --> 00:01:39.842
was natürlich
bei vielen Dingen nützlich ist,
00:01:39.843 --> 00:01:44.383
aber ihr könnt diesen auch
zum Auffinden von Fehlern verwenden.
00:01:44.383 --> 00:01:46.974
Also wenn ihr das Auftreten
eines Fehlers bemerkt habt,
00:01:46.975 --> 00:01:49.499
dann könnt ihr nachschauen,
ob es noch andere Orte gibt,
00:01:49.499 --> 00:01:51.828
wo Leute andere,
ähnliche Fehler gemacht haben
00:01:51.828 --> 00:01:53.515
und dies mit dem Query Service finden.
00:01:53.515 --> 00:01:54.839
Ihr könnt auch beide kombinieren
00:01:54.839 --> 00:01:57.874
und nach Verstößen gegen Constraints
im Query Service suchen,
00:01:57.875 --> 00:02:01.040
zum Beispiel nur die Verstöße
in einigen Bereichen
00:02:01.040 --> 00:02:03.762
oder einem WikiProject,
das für euch relevant ist.
00:02:03.762 --> 00:02:06.828
Leider sind die Resultate
derzeit nicht vollständig.
00:02:08.232 --> 00:02:09.877
Es gibt eine Revisionswertung.
00:02:10.390 --> 00:02:12.666
Das ist... ich denke, das kam
von den letzten Änderungen.
00:02:12.666 --> 00:02:14.944
Ihr könnt es auch
auf eure Beobachtungsliste setzen,
00:02:14.945 --> 00:02:17.627
eine automatische Bewertung
vornehmen lassen,
00:02:17.627 --> 00:02:20.292
ob diese Änderung wohl
in gutem Glauben geschehen ist oder nicht
00:02:20.292 --> 00:02:22.312
und schädlich oder nicht schädlich ist.
00:02:22.313 --> 00:02:24.228
Ich denke, das sind die beiden Bereiche.
00:02:24.228 --> 00:02:25.776
Also könnt ihr, wenn ihr wollt,
00:02:25.776 --> 00:02:29.778
euch auf nur die schädlichen,
aber sinnvollen Änderungen konzentrieren.
00:02:29.778 --> 00:02:32.393
Wenn ihr euch besonders
freundlich und einladend fühlt,
00:02:32.393 --> 00:02:34.272
könnt ihr den Editoren sagen:
00:02:34.272 --> 00:02:38.498
"Vielen Dank für euren Beitrag,
so hättet ihr es machen sollen,
00:02:38.498 --> 00:02:40.511
aber trotzdem danke."
00:02:40.511 --> 00:02:42.056
Und wenn euch nicht danach ist,
00:02:42.056 --> 00:02:44.342
könnt ihr die nicht sinnvollen
Änderungen durchgehen
00:02:44.342 --> 00:02:45.856
und die Vandalen wieder zurücknehmen.
00:02:47.474 --> 00:02:49.761
Ähnliches gilt auch
bei der Bewertung von Entitäten.
00:02:49.762 --> 00:02:52.590
Anstatt also eine Änderung zu bewerten,
was sie geändert hat,
00:02:52.591 --> 00:02:54.157
bewertet ihr die gesamte Revision
00:02:54.157 --> 00:02:56.523
und ich glaube, das ist
das gleiche Qualitätsmaß,
00:02:56.523 --> 00:02:59.863
welches Lydia zu Beginn
der Konferenz erwähnt hat.
00:03:00.372 --> 00:03:02.273
Hier oben gibt es ein Benutzer-Skript,
00:03:02.273 --> 00:03:04.499
welches euch eine Wertung
von 1 bis 5 vorgibt.
00:03:04.499 --> 00:03:08.256
Ich glaube, das bezieht sich
auf die Qualität des aktuellen Eintrags.
00:03:09.979 --> 00:03:13.287
Das Primary-Sources-Tool
ist für jede Datenbank gedacht,
00:03:13.287 --> 00:03:15.268
die ihr importieren möchtet,
00:03:15.268 --> 00:03:18.274
die aberqualitativ nicht so gut ist,
um sie direkt zu Wikidata hinzuzufügen,
00:03:18.274 --> 00:03:20.485
also fügt ihr es
zu dem Primary-Source-Tool hinzu
00:03:20.485 --> 00:03:22.956
und dann können die Leute entscheiden,
00:03:22.956 --> 00:03:26.024
ob sie diese einzelnen Aussagen
hinzufügen sollten oder nicht.
00:03:28.505 --> 00:03:30.321
Das Anzeigen von Koordinaten als Karten
00:03:30.321 --> 00:03:31.931
ist vorwiegend eine praktische Funktion,
00:03:31.931 --> 00:03:33.738
aber auch für
die Qualitätskontrolle nützlich.
00:03:33.738 --> 00:03:34.970
Wenn ihr beispielsweise seht,
00:03:34.970 --> 00:03:36.848
dies soll Büro
von Wikimedia Deutschland sein,
00:03:36.848 --> 00:03:39.400
aber die Koordinaten liegen
irgendwo im Indischen Ozean,
00:03:39.401 --> 00:03:41.529
dann wisst ihr, dass da etwas nicht stimmt
00:03:41.530 --> 00:03:44.790
und ihr könnt es viel einfacher sehen
als nur mit den Koordinaten.
00:03:46.262 --> 00:03:49.496
Dies ist ein Gadget mit dem Namen
relativer Vollständigkeitsindikator,
00:03:49.496 --> 00:03:52.480
das euch dieses kleine Symbol hier zeigt,
00:03:53.007 --> 00:03:55.652
das euch sagt, für wie vollständig
es diesen Punkt hält
00:03:55.652 --> 00:03:57.613
und auch welche Eigenschaften
am ehesten fehlen.
00:03:57.614 --> 00:03:59.889
Das ist wirklich nützlich,
wenn ihr eine Sache bearbeitet
00:03:59.889 --> 00:04:03.022
und ihr euch in einem Bereich befindet,
mit dem ihr nicht sehr vertraut seid
00:04:03.022 --> 00:04:05.661
und ihr nicht wisst,
welche Eigenschaften richtig sind.
00:04:05.662 --> 00:04:08.230
Dann ist dies ein sehr nützliches Gadget.
00:04:09.504 --> 00:04:11.401
Und wir haben Shape-Ausdrücke.
00:04:11.402 --> 00:04:15.624
Ich denke, Andrea oder Jose
werden mehr darüber erzählen,
00:04:15.624 --> 00:04:17.933
aber das ist im Grunde
eine sehr leistungsfähige Methode
00:04:17.933 --> 00:04:20.508
zum Vergleichen der Daten,
die ihr habt, gegen das Schema,
00:04:20.508 --> 00:04:22.630
also welche Aussage sollten
bestimmte Entitäten haben,
00:04:22.630 --> 00:04:24.939
mit welchen anderen Entitäten
sollten diese verbunden sein
00:04:24.939 --> 00:04:26.349
und wie sollten diese aussehen?
00:04:26.349 --> 00:04:29.374
Und so könnt ihr Probleme
auf diese Weise finden.
00:04:30.246 --> 00:04:32.361
Ich denke... Nein, da ist noch mehr.
00:04:32.362 --> 00:04:34.321
Das Integraality- oder Property-Dashboard
00:04:34.322 --> 00:04:37.023
gibt euch einen schnellen Überblick
der Daten, die ihr bereits habt.
00:04:37.023 --> 00:04:39.285
Dies ist zum Beispiel
aus dem WikiProject Red Pandas
00:04:39.517 --> 00:04:41.464
und ihr könnt sehen,
dass wir ein Geschlecht
00:04:41.464 --> 00:04:43.561
für fast alle der roten Pandas haben,
00:04:43.561 --> 00:04:46.854
das Geburtsdatum variiert sehr
im Bezug zum Zoo, aus dem sie stammen
00:04:46.854 --> 00:04:50.255
und wir haben fast keine toten Pandas,
was wunderbar ist,
00:04:51.237 --> 00:04:52.780
weil sie so süß sind.
00:04:53.699 --> 00:04:55.654
Das ist also auch nützlich.
00:04:56.377 --> 00:04:59.185
Nun kommen wir zu den Themen,
die aktuell anstehen.
00:04:59.889 --> 00:05:03.784
Wikidata Bridge oder auch
bekannt als Client-Editing,
00:05:03.785 --> 00:05:07.076
also die Bearbeitung von Wikidata
mittels Wikipedia-Infoboxen.
00:05:07.675 --> 00:05:11.265
Einerseits wird auf die Daten
mehr Augenmerk gelegt,
00:05:11.265 --> 00:05:13.441
weil mehr Leute
die Daten dort sehen können.
00:05:13.441 --> 00:05:17.100
Dies wird hoffentlich vermehrt
den Gebrauch von Wikidata
00:05:17.100 --> 00:05:19.251
in den Wikipedias anregen
und das bedeutet,
00:05:19.251 --> 00:05:21.213
dass mehr Leute davon
Kenntnis bekommen können,
00:05:21.213 --> 00:05:23.747
wenn manche Daten veraltet sind
und aktualisiert werden müssen,
00:05:23.747 --> 00:05:27.000
als wenn dies nur auf Wikidata
sichtbar wäre.
00:05:28.630 --> 00:05:30.656
Es gibt auch kaputte Referenzen.
00:05:30.657 --> 00:05:33.986
Die Idee hier ist, dass wenn ihr
den Wert einer Anweisung bearbeitet,
00:05:34.683 --> 00:05:37.059
ihr auch die Referenzen
aktualisieren solltet,
00:05:37.059 --> 00:05:39.528
außer es handelt sich nur
um einen Tippfehler oder Ähnliches.
00:05:39.897 --> 00:05:43.532
Und diese kaputten Referenzen
weisen die Bearbeiter
00:05:43.532 --> 00:05:47.506
und auch andere Bearbeiter,
die das sehen können, darauf hin,
00:05:47.506 --> 00:05:49.756
ob und welche anderen Änderungen
vorgenommen wurden,
00:05:49.756 --> 00:05:52.471
den Wert der Anweisung
und die nicht aktualisierte Referenz.
00:05:52.472 --> 00:05:56.766
Ihr könnt das dann korrigieren
und entscheiden, ob es das war...
00:05:57.477 --> 00:06:00.496
oder noch mehr ansteht
oder das tatsächlich so in Ordnung ist
00:06:00.496 --> 00:06:03.006
und ihr die Referenzen
nicht aktualisieren müsst.
00:06:03.543 --> 00:06:05.996
Das bezieht sich
auf signierte Anweisungen,
00:06:05.996 --> 00:06:09.251
die von einem Anliegen stammen,
soweit ich weiß,
00:06:09.251 --> 00:06:12.355
dass einige Datenanbieter
das zum Beispiel so handhaben...
00:06:14.131 --> 00:06:17.231
es gibt eine Anweisung, auf die
von der UNESCO verwiesen wird oder so
00:06:17.232 --> 00:06:19.872
und dann zerstört plötzlich
jemand die Anweisung
00:06:19.873 --> 00:06:22.196
und sie sind dann besorgt,
dass es dann so aussieht,
00:06:22.827 --> 00:06:25.739
als ob der falsche veränderte Wert
immer noch von der Organisation
00:06:25.739 --> 00:06:27.780
wie der UNESCO stamme,
00:06:27.780 --> 00:06:29.503
also können sie mit signierten Anweisungen
00:06:29.503 --> 00:06:31.488
solche Referenzen
kryptografisch signieren.
00:06:31.488 --> 00:06:33.762
Das verhindert zwar
keine Änderungen daran,
00:06:34.169 --> 00:06:37.034
aber zumindest, wenn jemand
die Anweisung verfälscht
00:06:37.034 --> 00:06:40.255
oder sie in irgendeiner Weise verändert,
dann ist die Signatur nicht mehr gültig,
00:06:40.255 --> 00:06:43.491
dann wisst ihr, dies entspricht nicht dem,
was von der Organisation stammt.
00:06:43.491 --> 00:06:47.299
Vielleicht war es eine konforme Änderung
und diese sollte neu signiert werden,
00:06:47.299 --> 00:06:50.760
aber vielleicht muss diese
wieder rückgängig gemacht werden.
00:06:51.203 --> 00:06:54.166
Nun etwas, das auch sehr aufregend
sein wird, denke ich,
00:06:54.166 --> 00:06:56.956
Citoid ist dieses erstaunliche System,
das sie auf Wikipedia haben.
00:06:57.379 --> 00:07:01.266
Damit könnt ihr eine URL,
einen Bezeichner oder eine ISBN
00:07:01.266 --> 00:07:04.759
oder Wikidata ID oder im Grunde
alles in den Visual Editor einfügen
00:07:05.260 --> 00:07:08.041
und es spuckt eine Referenz aus,
die schön formatiert ist,
00:07:08.041 --> 00:07:11.049
und dazu alle Daten, die ihr braucht,
und der Gebrauch davon ist toll.
00:07:11.049 --> 00:07:14.337
Und im Vergleich dazu auf Wikidata,
wenn ich einen Verweis hinzufügen möchte,
00:07:14.338 --> 00:07:17.271
muss ich normalerweise
eine Referenz-URL, einen Titel,
00:07:17.271 --> 00:07:19.517
einen String des Autorennamen,
Veröffentlichungsort,
00:07:19.517 --> 00:07:21.481
Veröffentlichungsdatum, Abfragedatum,
00:07:21.481 --> 00:07:24.991
zumindest diese angeben
und das ist ärgerlich.
00:07:24.991 --> 00:07:29.261
Die Integration von Citoid in Wikibase
wird hier hoffentlich Abhilfe bringen.
00:07:30.245 --> 00:07:33.604
Und ich denke, das war alles,
was ich hatte, ja.
00:07:33.604 --> 00:07:36.520
Also gebe ich jetzt ab zu Cristina.
00:07:43.780 --> 00:07:45.171
Hi, ich bin Cristina.
00:07:45.171 --> 00:07:47.753
Ich bin wissenschaftliche Mitarbeiterin
der Universität Zürich
00:07:47.753 --> 00:07:51.517
und ich bin auch aktives Mitglied
der Schweizer Community.
00:07:52.698 --> 00:07:57.741
Als Claudia Müller-Birn und ich dies
auf der WikidataCon einreichten,
00:07:57.741 --> 00:08:00.461
war es unser Anliegen,
unsere Diskussion fortzusetzen,
00:08:00.461 --> 00:08:02.594
die wir Anfang des Jahres begonnen hatten
00:08:02.594 --> 00:08:07.442
mit einem Workshop für Datenqualität
und einigen Sessions in Wikimania.
00:08:07.442 --> 00:08:10.535
Also das Ziel dieses Vortrags ist es,
einige Ideen von uns
00:08:10.536 --> 00:08:14.432
und der Community anzusprechen,
die wir aufgegriffen haben,
00:08:14.432 --> 00:08:16.560
und die Diskussion fortzusetzen.
00:08:16.561 --> 00:08:20.065
Wir möchten also weiterhin
viel mit euch interagieren.
00:08:21.487 --> 00:08:23.371
Also was wir für sehr wichtig halten,
00:08:23.372 --> 00:08:27.580
ist, dass wir kontinuierlich jede Art
von Benutzer in der Community fragen,
00:08:27.581 --> 00:08:29.030
was sie wirklich brauchen,
00:08:29.030 --> 00:08:32.000
welche Probleme sie
mit der Datenqualität haben,
00:08:32.000 --> 00:08:34.760
nicht nur Bearbeiter,
sondern auch die Leute, die programmieren
00:08:34.760 --> 00:08:37.510
oder einfach Daten verwenden,
und auch Forscher,
00:08:37.510 --> 00:08:39.494
die den gesamten
Bearbeitungsverlauf verwenden,
00:08:39.494 --> 00:08:41.620
um zu analysieren, was vor sich geht.
00:08:42.367 --> 00:08:46.021
Wir haben also eine Überprüfung
von rund 80 Tools durchgeführt,
00:08:46.021 --> 00:08:49.251
die in Wikidata vorhanden sind,
und wir haben sie ausgerichtet
00:08:49.251 --> 00:08:52.225
an verschiedenen Dimensionen
der Datenqualität.
00:08:52.225 --> 00:08:54.510
Und was wir eigentlich bemerkten,
00:08:54.510 --> 00:08:57.681
viele davon waren für das Monitoring
der Vollständigkeit gedacht,
00:08:57.682 --> 00:09:02.820
doch einige von ihnen ermöglichen
auch Verknüpfungen.
00:09:02.820 --> 00:09:08.442
Es besteht jedoch ein großer Bedarf
an Tools, die sich mit Vielfalt befassen.
00:09:08.443 --> 00:09:12.774
Das ist eines der Merkmale,
die tatsächlich in Wikidata möglich sind.
00:09:12.774 --> 00:09:15.748
Insbesondere dieses Gestaltungsprinzip
von Wikidata,
00:09:15.748 --> 00:09:17.901
wo wir Vielfalt haben können,
00:09:17.902 --> 00:09:20.508
also unterschiedliche Anweisungen
mit unterschiedlichen Werten,
00:09:20.614 --> 00:09:22.236
die aus verschiedenen Quellen kommen.
00:09:22.236 --> 00:09:25.231
Da es sich um sekundäre Quellen handelt,
haben wir nicht wirklich Werkzeuge,
00:09:25.231 --> 00:09:27.750
die uns zeigen, wie viele
kumulierte Aussagen es gib
00:09:27.751 --> 00:09:30.889
und wie viele davon wir
verbessern können und wie
00:09:30.890 --> 00:09:32.833
und wir wissen auch nicht wirklich,
00:09:32.833 --> 00:09:35.788
was die Gründe für die Vielfalt sind,
die auftreten können.
00:09:36.491 --> 00:09:40.291
Also was wir besprochen haben
auf diesen Community-Treffen,
00:09:40.291 --> 00:09:43.084
waren die Herausforderungen,
die noch Aufmerksamkeit erfordern.
00:09:43.084 --> 00:09:46.989
Sehr toll zum Beispiel sind
all diese Crowdsourcing-Communities,
00:09:46.989 --> 00:09:49.263
weil verschiedene Leute
verschiedene Bereiche
00:09:49.263 --> 00:09:51.679
der Daten oder der Diagramme angehen
00:09:51.679 --> 00:09:54.615
und wir haben auch unterschiedliche
Hintergrundkenntnisse.
00:09:54.616 --> 00:09:58.981
Tatsächlich ist es jedoch sehr schwierig,
alles in etwas Konsistentes auszurichten,
00:09:58.981 --> 00:10:01.291
weil unterschiedliche Menschen
00:10:01.291 --> 00:10:04.920
unterschiedliche Eigenschaften
auf unterschiedliche Weise nutzen
00:10:04.920 --> 00:10:08.511
und sie erwarten auch Unterschiedliches
von Entitätsbeschreibungen.
00:10:09.003 --> 00:10:12.721
Die Leute meinten auch,
dass sie mehr Werkzeuge brauchen,
00:10:12.722 --> 00:10:16.000
die einen besseren Überblick ermöglichen
über den globalen Status der Dinge.
00:10:16.000 --> 00:10:20.733
Also welche Einheiten in Bezug
auf Vollständigkeit fehlen,
00:10:20.733 --> 00:10:26.021
aber auch so etwas wie, woran die Leute
gerade die meiste Zeit arbeiten,
00:10:26.021 --> 00:10:30.516
und sie erwähnen auch oft
eine engere Zusammenarbeit
00:10:30.517 --> 00:10:33.311
nicht inur m Hinblick auf Sprachen,
sondern die WikiProjects
00:10:33.311 --> 00:10:35.658
und die verschiedenen
Wikimedia-Plattformen.
00:10:35.658 --> 00:10:38.859
Und wir haben alle transkribierten
Kommentare veröffentlicht
00:10:38.860 --> 00:10:42.959
von all diesen Diskussionen
in diesen Links hier in den Etherpads
00:10:42.959 --> 00:10:45.982
und auch auf der Wiki-Seite von Wikimania.
00:10:46.232 --> 00:10:48.481
Einige der Lösungen,
die tatsächlich aufgetaucht sind,
00:10:48.481 --> 00:10:53.001
gingen in die Richtung,
mehr Best Practices auszutauschen,
00:10:53.001 --> 00:10:55.762
die in verschiedenen WikiProjects
entwickelt werden.
00:10:55.762 --> 00:10:57.989
Aber die Leute wollen auch Tools,
00:10:57.989 --> 00:11:01.239
die dabei helfen,
die Arbeit in Teams zu organisieren,
00:11:01.239 --> 00:11:03.845
oder zumindest verstehen helfen,
wer woran arbeitet,
00:11:03.845 --> 00:11:07.815
und sie erwähnten auch, dass sie sich
mehr Anwendungsbeispiele wünschen
00:11:07.816 --> 00:11:12.019
und mehr Vorlagen, mit denen sie
Dinge besser erstellen können.
00:11:12.946 --> 00:11:14.741
Und im Hinblick auf den Kontakt,
00:11:14.741 --> 00:11:18.525
den wir mit offenen staatlichen
Datenorganisationen haben,
00:11:18.525 --> 00:11:22.973
und insbesondere stehe ich in Kontakt
mit dem Kanton und der Stadt Zürich,
00:11:22.973 --> 00:11:26.207
sind diese sehr daran interessiert,
mit Wikidata zu arbeiten
00:11:26.207 --> 00:11:30.490
weil sie wollen, dass ihre Daten
für alle an dem Ort zugänglich sind,
00:11:30.490 --> 00:11:33.681
an dem Menschen Daten abrufen
oder darauf zugreifen.
00:11:33.682 --> 00:11:36.550
Für sie wäre es wirklich interessant
00:11:36.551 --> 00:11:38.775
eine Art von Qualitätsindikatoren
zu haben
00:11:38.775 --> 00:11:40.822
sowohl im Wiki,
was bereits verwirklicht wird,
00:11:40.822 --> 00:11:42.664
als auch in SPARQL-Ergebnissen,
00:11:42.664 --> 00:11:44.947
um zu wissen, ob sie diesen
Community-basierten Daten
00:11:44.947 --> 00:11:46.237
vertrauen können oder nicht.
00:11:46.237 --> 00:11:48.230
Weiterhin wollen sie auch wissen,
00:11:48.230 --> 00:11:51.417
welche Teile der eigenen Datensätze
für Wikidata nützlich sind.
00:11:51.418 --> 00:11:53.071
Und sie hätten gerne ein Tool,
00:11:53.071 --> 00:11:56.041
mit dem sie dies
automatisch beurteilen können.
00:11:56.041 --> 00:11:59.066
Sie benötigen auch eine Methode
oder ein Werkzeug,
00:11:59.067 --> 00:12:02.817
das ihnen bei der Entscheidung hilft,
ob sie ihre Daten importieren
00:12:02.817 --> 00:12:04.894
oder verknüpfen sollen,
denn in einigen Fällen
00:12:04.895 --> 00:12:07.247
haben sie auch ihre eigenen
verknüpften offenen Datensätze.
00:12:07.247 --> 00:12:09.746
Sie wissen also nicht,
ob sie die Daten nur aufnehmen sollen
00:12:09.747 --> 00:12:13.274
oder weiterhin Links von den Datensätzen
zu Wikidata erstellen sollen
00:12:13.274 --> 00:12:14.562
und umgekehrt.
00:12:14.950 --> 00:12:17.014
Und sie möchten auch wissen,
00:12:17.014 --> 00:12:20.044
auf welche Websites in Wikidata
verwiesen wird.
00:12:20.044 --> 00:12:23.361
Und wenn sie eine solche Abfrage
im Query Service ausführen,
00:12:23.362 --> 00:12:24.938
bekommen sie oft Zeitüberschreitungen.
00:12:24.938 --> 00:12:28.181
Vielleicht sollten wir wirklich
mehr Werkzeuge schaffen,
00:12:28.181 --> 00:12:32.240
die ihnen helfen, diese Antworten
auf ihre Fragen zu bekommen.
00:12:33.148 --> 00:12:35.768
Und davon abgesehen,
00:12:35.768 --> 00:12:39.361
uns als Wiki-Forschern fehlen manchmal
auch bei den Zusammenfassungen
00:12:39.362 --> 00:12:42.023
der Änderungen einige Informationen.
00:12:42.024 --> 00:12:44.953
Ich erinnere mich daran,
als wir daran arbeiteten,
00:12:44.954 --> 00:12:48.919
das unterschiedliche Verhalten
der Bearbeiter zu verstehen
00:12:48.919 --> 00:12:53.403
im Hinblick auf Tools oder Bots,
anonyme Benutzer und so weiter,
00:12:53.403 --> 00:12:58.744
fehlte uns zum Beispiel wirklich
eine Standardmethode zum Nachverfolgen,
00:12:58.744 --> 00:13:00.982
ob Tools verwendet wurden.
00:13:00.982 --> 00:13:03.154
Und es gibt einige Tools,
die das bereits tun
00:13:03.155 --> 00:13:05.230
wie PetScan und viele andere,
00:13:05.230 --> 00:13:07.720
aber vielleicht sollten wir
in der Community
00:13:07.721 --> 00:13:10.130
öfter darüber diskutieren, wie Sie diese
00:13:10.130 --> 00:13:13.969
mit einer feinkörnigen Datenherkunft
aufnehmen können.
00:13:13.969 --> 00:13:16.031
Weiterhin sind wir der Meinung, dass wir
00:13:16.031 --> 00:13:20.801
konkretere Datenqualitätsdimensionen
berücksichtigen müssen,
00:13:20.802 --> 00:13:24.961
die sich auf verbundene Daten beziehen,
aber nicht alle Arten von Daten.
00:13:24.962 --> 00:13:28.022
Deshalb haben wir
einige Maßnahmen erarbeitet,
00:13:28.022 --> 00:13:30.782
um auf den Informationsgewinn
tatsächlich zuzugreifen,
00:13:30.782 --> 00:13:33.881
der durch die Links aktiviert wird,
und was wir damit meinen, ist,
00:13:33.882 --> 00:13:36.681
dass wenn wir Wikidata
mit anderen Datensätzen verknüpfen,
00:13:36.682 --> 00:13:38.323
sollten wir auch daran denken,
00:13:38.323 --> 00:13:41.921
wie viel die Entitäten tatsächlich
durch die Klassifizierung gewinnen,
00:13:41.922 --> 00:13:45.601
auch in der Beschreibung, aber auch
in den Vokabeln, die sie verwenden.
00:13:45.602 --> 00:13:51.251
Also nur um ein sehr einfaches Beispiel
zu geben, was ich damit meine, ist,
00:13:51.251 --> 00:13:54.269
was wir uns in diesem Fall
vorstellen können, wäre, Wikidata
00:13:54.270 --> 00:13:57.651
oder das externe Rechenzentrum,
das mit Wikidata verknüpft ist,
00:13:57.651 --> 00:14:00.487
dort haben wir die Entität einer Person,
die Natasha Noy heißt,
00:14:00.487 --> 00:14:02.601
wir haben die Zugehörigkeit
und andere Dinge
00:14:02.602 --> 00:14:05.239
und dann sagen wir: OK,
wir verlinken zu einem externen Ort
00:14:05.240 --> 00:14:08.919
und diese Entität hat den gleichen Namen,
tatsächlich haben wir den gleichen Wert.
00:14:08.920 --> 00:14:11.499
Was also besser wäre, ist,
dass wir auf etwas verlinken,
00:14:11.499 --> 00:14:12.889
das einen anderen Namen hat.
00:14:12.889 --> 00:14:15.252
Das ist immer noch gültig,
weil es zwei Möglichkeiten gibt,
00:14:15.252 --> 00:14:16.972
den Namen dieser Person zu schreiben
00:14:16.972 --> 00:14:19.714
und auch andere Informationen,
die wir nicht in Wikidata haben
00:14:19.715 --> 00:14:21.922
oder auch nicht in
einem anderen Datensatz haben.
00:14:22.390 --> 00:14:24.652
Aber was noch besser ist, ist,
00:14:24.653 --> 00:14:27.478
dass wir tatsächlich
im Zieldatensatz suchen,
00:14:27.478 --> 00:14:29.633
da sie dort auch neue Möglichkeiten
00:14:29.633 --> 00:14:31.393
zur Klassifizierung
der Informationen haben.
00:14:31.393 --> 00:14:35.354
Das ist also nicht nur eine Person,
sondern in dem anderen Datensatz
00:14:35.355 --> 00:14:37.966
steht auch, ob es sei eine Frau
oder etwas anderes,
00:14:37.966 --> 00:14:39.526
mit dem sie sich einordnen lässt.
00:14:39.526 --> 00:14:43.401
Und wenn in dem anderen Datensatz,
viele andere Vokabeln verwendet werden,
00:14:43.402 --> 00:14:46.588
hilft das auch bei der gesamten
Informationsbeschaffung.
00:14:47.371 --> 00:14:50.973
Damit möchte ich auch sagen,
dass wir denken,
00:14:50.973 --> 00:14:55.809
dass wir gebündelte Abfragen
besser präsentieren können,
00:14:55.810 --> 00:15:00.448
denn wenn wir uns das Abfrageprotokoll
von Malyshev et al. ansehen,
00:15:01.285 --> 00:15:04.301
sehen wir, dass wir
aus den organischen Abfragen
00:15:04.302 --> 00:15:06.921
nur sehr wenige gebündelte
Suchergebnisse haben.
00:15:06.922 --> 00:15:12.501
Und tatsächlich ist Bündelung einer
der Hauptvorteile von Verbindungsdaten.
00:15:12.501 --> 00:15:16.903
Also vielleicht brauchen die Community
oder die Leute, die Wikidata benutzen,
00:15:16.903 --> 00:15:18.898
auch mehr Beispiele dazu.
00:15:18.898 --> 00:15:22.666
Und wenn wir uns die Liste
der verwendeten Endpunkte ansehen,
00:15:22.667 --> 00:15:25.401
ist dies keine vollständige Liste
und wir haben noch viele mehr.
00:15:25.402 --> 00:15:30.279
Natürlich wurden diese Daten
aus Abfragen bis März 2018 analysiert,
00:15:30.469 --> 00:15:34.047
aber wir sollten uns jedoch die Liste
der gebündelten Endpunkte ansehen,
00:15:34.047 --> 00:15:37.252
die wir haben und sehen, ob wir sie
wirklich benutzen oder nicht.
00:15:37.813 --> 00:15:40.281
Also zwei Fragen,
die ich für das Publikum habe,
00:15:40.281 --> 00:15:43.001
die wir nachher als Grundlage
für eine Diskussion verwenden können:
00:15:43.001 --> 00:15:46.001
Welche Datenqualitätsprobleme sollten
eurer Meinung nach behoben werden
00:15:46.002 --> 00:15:47.626
aufgrund eurer Bedürfnisse?
00:15:47.626 --> 00:15:50.401
Aber ebenso, wo braucht ihr
mehr Automatisierung,
00:15:50.402 --> 00:15:53.243
die euch beim Bearbeiten
oder dem Kontrollieren hilft.
00:15:53.736 --> 00:15:55.306
Das ist alles, vielen Dank.
00:16:05.740 --> 00:16:08.595
(Jose Emilio Labra) Okay,
worüber ich sprechen werde,
00:16:08.595 --> 00:16:14.715
sind einige Tools, die wir im Zusammenhang
mit Shape Expressions entwickelt haben.
00:16:15.536 --> 00:16:18.251
Also darüber möchte ich etwas erzählen.
00:16:18.251 --> 00:16:19.740
Ich bin Jose Emilio Labra,
00:16:19.740 --> 00:16:23.750
aber all diese Tools wurden
von verschiedenen Leuten gemacht,
00:16:23.750 --> 00:16:26.740
hauptsächlich im Zusammenhang
mit W3C ShEx,
00:16:26.740 --> 00:16:28.481
der Shape Expressions Community Group.
00:16:28.481 --> 00:16:29.719
ShEx Community Group.
00:16:30.144 --> 00:16:34.382
Also das erste Tool, das ich
erwähnen möchte, ist RDFShape,
00:16:34.382 --> 00:16:36.082
dies ist ein allgemeines Werkzeug,
00:16:36.082 --> 00:16:40.499
weil Shape Expressions
nicht nur für Wikidata sind.
00:16:40.499 --> 00:16:44.168
Shape Expressions ist eine Sprache
zur allgemeinen Validierung von RDF.
00:16:44.168 --> 00:16:47.568
Dieses Tool wurde
hauptsächlich von mir entwickelt
00:16:47.568 --> 00:16:50.880
und es ist ein Werkzeug,
um RDF im Allgemeinen zu validieren.
00:16:50.881 --> 00:16:55.139
Wenn ihr also mehr über RDF
erfahren wollt oder RDF validieren möchtet
00:16:55.140 --> 00:16:58.521
oder SPARQL-Endpunkte
nicht nur in Wikidata,
00:16:58.521 --> 00:17:00.891
ist meine Empfehlung,
dass ihr dieses Tool verwenden könnt.
00:17:00.891 --> 00:17:03.255
Auch zum Unterrichten.
00:17:03.255 --> 00:17:05.640
Ich bin Lehrer an der Universität
00:17:05.641 --> 00:17:07.991
und ich benutze es
in meinem Semantic-Web-Kurs,
00:17:07.991 --> 00:17:09.321
um RDF zu unterrichten.
00:17:09.321 --> 00:17:12.350
Wenn ihr also RDF lernen möchtet,
halte ich es für ein nützliches Werkzeug.
00:17:13.033 --> 00:17:15.997
Dies ist beispielsweise
eine Visualisierung
00:17:15.997 --> 00:17:18.017
eines RDF-Diagramms mit dem Tool.
00:17:18.727 --> 00:17:22.643
Aber bevor ich letzten Monat
hierher gekommen bin,
00:17:22.643 --> 00:17:27.003
habe ich einen Fork von rdfshape
speziell für Wikidata erstellt,
00:17:27.003 --> 00:17:28.443
weil ich dachte...
00:17:28.443 --> 00:17:32.942
Es heißt WikiShape und ich habe es gestern
als Geschenk für Wikidata präsentiert.
00:17:32.942 --> 00:17:34.751
Was ich also genommen habe, ist...
00:17:34.751 --> 00:17:39.791
Ich habe alles entfernt,
was nicht mit Wikidata zu tun hatte
00:17:39.791 --> 00:17:44.801
und um einige Dinge zu hartcodieren,
zum Beispiel den Wikidata-SPARQL-Endpunkt.
00:17:44.802 --> 00:17:49.041
Doch jetzt hat mich jemand gefragt, ob ich
das auch für Wikibase machen könnte.
00:17:49.042 --> 00:17:52.000
Und es ist auch für Wikibase
sehr einfach zu machen.
00:17:52.760 --> 00:17:56.280
Also dieses Tool, WikiShape,
ist ziemlich neu.
00:17:57.015 --> 00:17:59.633
Ich denke, es funktioniert,
die meisten Funktionen,
00:17:59.633 --> 00:18:02.529
aber es gibt einige Funktionen,
die möglicherweise nicht funktionieren,
00:18:02.529 --> 00:18:05.231
und wenn ihr es versuchen wollt
oder es verbessern wollt,
00:18:05.231 --> 00:18:06.391
sagt es mir bitte.
00:18:06.391 --> 00:18:08.503
Das sind also [unverständlich] Aufnahmen,
00:18:08.503 --> 00:18:11.515
aber ich denke,
ich kann es auch so versuchen,
00:18:11.705 --> 00:18:13.263
Also lasst es uns versuchen.
00:18:14.933 --> 00:18:16.945
Mal sehen, ob es funktioniert.
00:18:16.953 --> 00:18:20.070
Zuerst muss ich da rausgehen...
00:18:22.453 --> 00:18:23.453
Hier.
00:18:24.226 --> 00:18:27.724
Okay, ja. Das ist also das Werkzeug hier.
00:18:28.204 --> 00:18:30.467
Dinge, die ihr mit dem Tool
zum Beispiel machen könnt,
00:18:30.467 --> 00:18:35.275
sind, ihr könnt Schemas,
Entitätsschemas überprüfen.
00:18:35.276 --> 00:18:37.482
Ihr wisst, dass es
einen neuen Namespace gibt,
00:18:37.482 --> 00:18:38.762
der E-irgendwas heißt.
00:18:38.762 --> 00:18:44.485
Wenn ihr also hier zum Beispiel
anfangt zu schreiben "Mensch"...
00:18:44.735 --> 00:18:48.812
Während ihr schreibt, könnt ihr
mittels der Autovervollständigung prüfen.
00:18:48.812 --> 00:18:52.001
Dies ist zum Beispiel
die Shape Expression für Mensch
00:18:52.790 --> 00:18:55.937
und das sind die Shape Expressions hier.
00:18:55.938 --> 00:18:59.841
Und wie ihr sehen könnt,
hat dieser Editor Syntax-Hervorhebung,
00:18:59.842 --> 00:19:04.559
das ist... naja,
vielleicht ist der Bildschirm zu klein.
00:19:05.676 --> 00:19:07.719
Ich kann versuchen, es größer zu machen.
00:19:09.194 --> 00:19:10.973
Vielleicht seht ihr es jetzt besser.
00:19:10.973 --> 00:19:14.241
Also... und das ist der Editor
mit Syntax-Hervorhebung und er hat auch...
00:19:14.241 --> 00:19:17.851
dieser Editor stammt
aus demselben Quellcode
00:19:17.851 --> 00:19:19.771
wie der Wikidata-Abfragedienst.
00:19:19.771 --> 00:19:23.750
Also zum Beispiel,
wenn man mit der Maus hier schwebt,
00:19:23.750 --> 00:19:27.961
zeigt es die Beschriftungen
der verschiedenen Eigenschaften.
00:19:27.962 --> 00:19:31.298
Also ich finde, das ist sehr hilfreich,
weil jetzt...
00:19:32.588 --> 00:19:36.001
die Entitätsschemata in Wikidata
00:19:36.001 --> 00:19:38.477
sind nur eine Idee in einfachem Text.
00:19:38.501 --> 00:19:42.493
Aber ich denke, dieser Editor ist
viel besser, weil er Autocomplete hat
00:19:42.494 --> 00:19:43.908
und er hat auch...
00:19:43.908 --> 00:19:48.241
Ich meine zum Beispiel, wenn ihr
eine Einschränkung hinzufügen wolltet,
00:19:48.241 --> 00:19:51.570
sagt ihr "wdt:",
00:19:51.570 --> 00:19:53.754
und fangt an zu schreiben "author"
00:19:53.754 --> 00:19:56.884
und klickt dann mit Strg + Leertaste
00:19:56.884 --> 00:19:59.012
und es schlägt euch
die verschiedenen Einträge vor.
00:19:59.012 --> 00:20:02.291
Das ist also ähnlich
wie beim Wikidata-Abfragedienst,
00:20:02.291 --> 00:20:06.285
aber speziell für Shape Expressions,
00:20:06.285 --> 00:20:11.275
weil ich das Gefühl habe,
Shape Expressions zu kreieren
00:20:11.715 --> 00:20:15.841
ist nicht schwieriger als
das Schreiben von SPARQL-Abfragen.
00:20:15.842 --> 00:20:21.255
Manche Leute denken, dass es
auf dem gleichen Niveau ist.
00:20:22.278 --> 00:20:24.746
Ich denke, es ist
wahrscheinlich einfacher.
00:20:24.746 --> 00:20:27.521
Denn die Shape Expressions waren,
als wir es entworfen haben,
00:20:27.521 --> 00:20:31.029
haben wir es getan,
um die Arbeit zu vereinfachen.
00:20:31.029 --> 00:20:35.001
Okay, das ist eines der ersten Dinge,
die ihr in diesen Editor habt
00:20:35.001 --> 00:20:36.620
für Shape Expressions.
00:20:37.371 --> 00:20:41.467
Und dann habt ihr zum Beispiel
auch die Möglichkeit, zu visualisieren.
00:20:41.468 --> 00:20:44.801
Wenn man eine Shape Expression habt
verwendet man zum Beispiel...
00:20:44.802 --> 00:20:49.386
Ich denke, "written"
ist eine schöne Shape Expression,
00:20:49.386 --> 00:20:53.500
weil sie einige Beziehungen
zwischen verschiedenen Dingen hat.
00:20:54.823 --> 00:20:58.160
Und das ist die UML-Visualisierung
von schriftlichen Arbeiten.
00:20:58.161 --> 00:21:02.090
In UML sind die verschiedenen
Eigenschaften leicht zu erkennen.
00:21:02.790 --> 00:21:06.794
Wenn ihr dies macht - mir wurde das klar,
als ich das mit mehreren Leuten versuchte,
00:21:06.795 --> 00:21:09.216
finden diese einige Fehler
in ihren Shape Expressions,
00:21:09.217 --> 00:21:11.028
denn es ist leicht zu erkennen,
00:21:11.028 --> 00:21:13.488
welche Eigenschaften fehlen
oder was auch immer.
00:21:13.488 --> 00:21:15.991
Dann hier eine andere Möglichkeit ist,
00:21:15.991 --> 00:21:19.520
dass ihr auch validieren könnt,
ich habe es hier, die Validierung.
00:21:20.496 --> 00:21:25.285
Ich glaube, ich hatte es in einem Label,
vielleicht habe ich es geschlossen.
00:21:26.267 --> 00:21:30.988
Okay, aber ihr könnt beispielsweise hier
Validate entities klicken,
00:21:32.308 --> 00:21:34.232
zum Beispiel...
00:21:35.404 --> 00:21:41.921
"q42" mit "e42", das ist Urheber.
00:21:42.818 --> 00:21:46.500
Mit "human" können wir
es machen, glaube ich.
00:21:48.970 --> 00:21:50.131
Und dann ist es...
00:21:50.688 --> 00:21:56.248
es dauert eine Weile, weil dabei
die SPARQL-Abfragen ausgeführt werden
00:21:56.248 --> 00:21:59.264
und jetzt, zum Beispiel,
scheitert es am Netzwerk, aber...
00:21:59.657 --> 00:22:01.580
Also ihr könnt es versuchen.
00:22:02.759 --> 00:22:07.026
Gut, lasst uns mit der Präsentation
der anderen Tools fortfahren.
00:22:07.026 --> 00:22:10.513
Mein Rat ist also,
wenn ihr es versuchen möchtet
00:22:10.513 --> 00:22:12.783
und Feedback wollt, lasst es mich wissen.
00:22:13.133 --> 00:22:15.540
Also, um mit der
Präsentation fortzufahren...
00:22:18.743 --> 00:22:20.277
Das ist also WikiShape.
00:22:23.800 --> 00:22:26.509
Dann, das habe ich schon erwähnt,
00:22:27.681 --> 00:22:30.277
gibt es den Shape Expressions Editor,
00:22:30.277 --> 00:22:34.402
das ist ein eigenständiges Projekt
in GitHub.
00:22:35.505 --> 00:22:37.532
Ihr könnt es in eurem
eigenen Projekt verwenden.
00:22:37.532 --> 00:22:41.036
Wenn ihr ein Tool für
Shape Expression benötigt,
00:22:41.036 --> 00:22:45.635
könnt ihr es einfach in jedes
andere Projekt einbetten.
00:22:45.636 --> 00:22:48.235
Das ist auf GitHub
und ihr könnt es benutzen.
00:22:48.868 --> 00:22:51.970
Der gleiche Autor, einer meiner Schüler,
00:22:52.684 --> 00:22:55.704
hat auch einen Editor
für Shape Expressions erstellt,
00:22:55.704 --> 00:22:57.789
ebenfalls inspiriert
vom Wikidata-Abfragedienst,
00:22:57.789 --> 00:23:00.681
wo ihr in dieser Spalte
00:23:00.682 --> 00:23:05.033
diesen vorwiegend visuellen Editor
für SPARQL-Abfragen habt,
00:23:05.033 --> 00:23:07.135
wo ihr diese Dinge bewerkstelligen könnt.
00:23:07.136 --> 00:23:09.123
Das ist also eine Bildschirmaufnahme.
00:23:09.123 --> 00:23:12.662
Ihr könnt sehen, dass dies
die Shape Expressions im Text sind.
00:23:12.662 --> 00:23:15.745
Dies ist jedoch eine formularbasierte
Shape Expression,
00:23:15.745 --> 00:23:18.505
bei der es wahrscheinlich
etwas länger dauern würde.
00:23:18.505 --> 00:23:23.400
Hier könnt ihr die verschiedenen Zeilen
in die verschiedenen Felder einfügen.
00:23:23.401 --> 00:23:25.800
Oay, dann gibt es ShExEr.
00:23:26.879 --> 00:23:27.943
Wir haben...
00:23:27.943 --> 00:23:31.883
das wird von einem Doktoranden
an der Universität von Oviedo gemacht
00:23:31.883 --> 00:23:34.276
und er ist hier, damit er
ShExEr präsentieren kann.
00:23:38.147 --> 00:23:40.024
(Danny) Hallo, ich bin Danny Fernández,
00:23:40.025 --> 00:23:43.800
Ich bin Doktorand an der Universität
von Oviedo und arbeite mit Labra.
00:23:44.710 --> 00:23:47.725
Da uns die Zeit davon läuft,
lasst uns dies schnell machen.
00:23:47.726 --> 00:23:52.641
Wir starten also keine Demo,
sondern zeigen nur einige Screenshots.
00:23:52.642 --> 00:23:56.387
Okay, also die übliche Art,
mit Shape Expressions zu arbeiten
00:23:56.387 --> 00:23:58.301
oder einer beliebigen Formsprache, ist,
00:23:58.301 --> 00:23:59.791
dass Sie einen Domain-Experten haben,
00:23:59.791 --> 00:24:02.313
der als Erstes definiert,
wie der Graph aussehen soll
00:24:02.314 --> 00:24:03.756
einige Strukturen definiert
00:24:03.756 --> 00:24:05.746
und dann verwendet man diese Strukturen,
00:24:05.746 --> 00:24:07.750
um die tatsächlichen Daten
dagegen zu validieren.
00:24:08.124 --> 00:24:11.641
Dieses Tool und auch diejenigen,
die von Labra vorgestellt wurden,
00:24:11.642 --> 00:24:14.441
sind Allzweckwerkzeuge
für jede RDF-Quelle.
00:24:14.442 --> 00:24:17.255
Es ist so konzipiert,
dass es umgekehrt funktioniert.
00:24:17.255 --> 00:24:18.969
Man hat bereits einige Daten,
00:24:18.969 --> 00:24:23.165
Man wählt aus, welche Notizen
die Form erhalten soll
00:24:23.165 --> 00:24:26.718
und dann extrahiert oder schließt
man die Form automatisch.
00:24:26.719 --> 00:24:29.541
Also, auch wenn dies
ein Allzweckwerkzeug ist,
00:24:29.541 --> 00:24:32.034
was wir für diese WikidataCon
gemacht haben,
00:24:32.034 --> 00:24:34.254
ist diese schicke Schaltfläche.
00:24:34.254 --> 00:24:37.301
Wenn man darauf klickt,
was im Wesentlichen passiert, ist,
00:24:37.301 --> 00:24:42.079
es gibt so viele Konfigurationsparameter
00:24:42.080 --> 00:24:46.251
und es konfiguriert es für die Arbeit
mit dem Wikidata-Endpunkt
00:24:46.251 --> 00:24:47.971
und ich bin fast fertig, sorry.
00:24:48.733 --> 00:24:52.883
Sobald man diesen Knopf drückt,
erhält man im Wesentlichen Folgendes.
00:24:52.884 --> 00:24:55.266
Nachdem man ausgewählt hat,
welche Art von Notizen,
00:24:55.266 --> 00:24:59.360
was für Instanzen unserer Klasse,
was auch immer man will,
00:24:59.361 --> 00:25:01.393
erhält man ein automatisches Schema.
00:25:02.319 --> 00:25:04.473
Alle Einschränkungen sind danach sortiert,
00:25:04.473 --> 00:25:07.112
wie viele Modi tatsächlich
damit übereinstimmen.
00:25:07.112 --> 00:25:09.772
Man kann so die selteneren filtern
und so weiter.
00:25:09.772 --> 00:25:12.466
Also wir haben da unten
ein Poster über dieses Thema
00:25:12.466 --> 00:25:14.695
und ich werde unten und oben sein
00:25:14.695 --> 00:25:16.454
und überall den ganzen Tag.
00:25:16.455 --> 00:25:19.081
Wer also weiteres Interesse
an diesem Tool hat,
00:25:19.082 --> 00:25:21.477
kann mich einfach
während dieses Events ansprechen.
00:25:21.477 --> 00:25:24.624
Und jetzt werde ich Labra
das Mikro zurückgeben, danke.
00:25:29.812 --> 00:25:32.578
(Jose) Also lasst uns mit
den anderen Tools fortfahren.
00:25:32.579 --> 00:25:34.984
Ein anderes Werkzeug
ist der ShapeDesigner.
00:25:34.984 --> 00:25:37.281
Andra, möchtest du jetzt
den ShapeDesigner machen
00:25:37.281 --> 00:25:39.287
oder vielleicht später im Workshop?
00:25:39.287 --> 00:25:40.773
Es gibt einen Workshop...
00:25:40.773 --> 00:25:44.496
Heute Nachmittag gibt es einen Workshop
speziell für Shape Expressions und...
00:25:45.265 --> 00:25:47.939
Die Idee ist, dass wir dort
mehr in die Praxis gehen können,
00:25:47.940 --> 00:25:52.324
und wenn ihr etwas ShEx üben möchtet,
könnt ihr es dort tun.
00:25:52.875 --> 00:25:55.470
Dieses Tool ist ShEx... und hier ist Eric,
00:25:55.470 --> 00:25:56.998
also kannst du es präsentieren.
00:25:57.969 --> 00:25:59.527
(Eric) Also einfach super schnell.
00:25:59.527 --> 00:26:01.259
Das, was ich sagen möchte, ist,
00:26:01.259 --> 00:26:05.501
dass ihr wahrscheinlich bereits
die ShEx-Schnittstelle gesehen habt,
00:26:05.501 --> 00:26:07.601
die auf Wikidata zugeschnitten ist.
00:26:07.602 --> 00:26:12.930
Das ist effektiv vereinfacht
und speziell auf Wikidata zugeschnitten
00:26:12.930 --> 00:26:15.767
da die Generische mehr Funktionen hat,
00:26:15.767 --> 00:26:18.257
sich aber herausstellte -
ich dachte, ich sollte es erwähnen -
00:26:18.257 --> 00:26:20.238
weil eine dieser Funktionen
besonders nützlich
00:26:20.238 --> 00:26:23.201
zum Debuggen von Wikidata-Schemas ist.
00:26:23.201 --> 00:26:28.984
Das heißt, wenn ihr hingeht
und den Slurp-Modus wählt,
00:26:28.984 --> 00:26:31.504
was es tut, ist, es sagt,
während ich validiere,
00:26:31.504 --> 00:26:34.504
möchte ich alle Tripel herausziehen
und das bedeutet,
00:26:34.504 --> 00:26:36.274
wenn ich ein paar Ausfälle bekomme,
00:26:36.275 --> 00:26:39.676
kann ich durchgehen und anfangen,
diese Fehler zu betrachten und zu sagen:
00:26:39.676 --> 00:26:41.980
Okay, was sind die Dreiergruppen,
die hier drin sind -
00:26:41.980 --> 00:26:44.057
Entschuldigung,
die Dreiergruppen sind da unten,
00:26:44.057 --> 00:26:46.201
dies ist nur ein Protokoll dessen,
was passiert ist -
00:26:46.277 --> 00:26:49.250
und dann könnt ihr einfach da sitzen
und in Echtzeit damit experimentieren,
00:26:49.250 --> 00:26:51.416
als würde man mit etwas
spielen und es verändert sich.
00:26:51.416 --> 00:26:54.270
Es ist also eine schnellere Variante,
um all diese Dinge zu erledigen.
00:26:55.231 --> 00:26:56.481
Dies ist ein ShExC-Formular.
00:26:56.482 --> 00:26:59.455
Dies ist etwas, was Joachim
vorgeschlagen hatte,
00:27:00.035 --> 00:27:04.631
das nützlich sein könnte,
um Wikidata-Dokumente zu füllen
00:27:04.631 --> 00:27:07.338
basierend auf einer Shape Expression
für dieses Dokument.
00:27:08.095 --> 00:27:11.681
Dies ist nicht auf Wikidata zugeschnitten.
00:27:11.682 --> 00:27:14.041
Dies soll jedoch nur heißen,
dass ihr ein Schema haben könnt
00:27:14.041 --> 00:27:15.922
und einige Anmerkungen,
um genau zu sagen,
00:27:15.922 --> 00:27:17.623
wie ich das Schema gerendert haben möchte,
00:27:17.623 --> 00:27:19.319
und dann baut es einfach ein Formular auf.
00:27:19.319 --> 00:27:21.571
Wenn ihr Daten habt,
kann es das Formular ausfüllen.
00:27:24.517 --> 00:27:26.164
PyShEx [unverständlich].
00:27:28.025 --> 00:27:31.080
(Jose) Ich denke, das ist das Letzte.
00:27:31.821 --> 00:27:34.080
Ja, das letzte ist PyShEx.
00:27:34.675 --> 00:27:38.151
PyShEx ist eine Python-Implementierung
von Shape Expressions.
00:27:39.193 --> 00:27:41.386
Ihr könnt das auch
mit Jupyter Notebooks ausprobieren,
00:27:41.386 --> 00:27:42.680
wenn ihr so etwas wollt.
00:27:42.680 --> 00:27:44.432
Oay, das ist alles dazu.
00:27:52.916 --> 00:27:56.086
(Andra) Ich werde also
über ein bestimmtes Projekt sprechen,
00:27:56.086 --> 00:27:58.244
an dem ich beteiligt bin,
GenWiki genannt,
00:27:58.244 --> 00:28:04.347
und wo wir uns auch
mit Qualitätsfragen beschäftigen.
00:28:04.347 --> 00:28:06.684
Aber bevor wir auf die Qualität eingehen,
00:28:06.685 --> 00:28:09.359
vielleicht eine kurze Einführung
darüber, was GenWiki ist,
00:28:09.855 --> 00:28:13.515
und wir haben gerade einen Vordruck
einer Arbeit veröffentlicht,
00:28:13.515 --> 00:28:18.160
die wir kürzlich geschrieben haben,
welche die Details des Projekts erklärt.
00:28:19.821 --> 00:28:22.586
Ich sehe Leute fotografieren,
aber im Grunde genommen,
00:28:22.586 --> 00:28:26.032
was Gene Wiki macht, es versucht,
biomedizinische Daten,
00:28:26.032 --> 00:28:28.198
öffentliche Daten in Wikidata
hinein zu bekommen
00:28:28.198 --> 00:28:32.280
und wir folgen einem bestimmten Muster,
um diese Daten in Wikidata zu bekommen.
00:28:33.130 --> 00:28:36.809
Also, wenn wir ein neues Repository
oder einen neuen Datensatz haben,
00:28:36.810 --> 00:28:39.330
der berechtigt ist,
in Wikidata aufgenommen zu werden,
00:28:39.330 --> 00:28:41.523
ist der erste Schritt das
Engagement der Gemeinschaft.
00:28:41.523 --> 00:28:43.784
Für eine Wikidata-Community
ist dies nicht erforderlich,
00:28:43.785 --> 00:28:46.120
aber für eine lokale
Forschungsgemeinschaft,
00:28:46.120 --> 00:28:50.285
und wir treffen uns persönlich oder online
oder auf irgend einer Plattform
00:28:50.286 --> 00:28:52.881
und versuchen,
ein Datenmodell zu entwickeln,
00:28:52.882 --> 00:28:56.197
das ihre Daten
mit dem Wikidata-Modell verbindet.
00:28:56.197 --> 00:28:58.265
Also hier habe ich ein Bild
von einem Workshop,
00:28:58.265 --> 00:29:00.115
der letztes Jahr hier stattgefunden hat.
00:29:00.115 --> 00:29:02.663
Wir haben dort versucht, einen
bestimmten Datensatz anzuschauen
00:29:02.663 --> 00:29:05.280
und Sie sehen eine Menge Diskussionen,
00:29:05.281 --> 00:29:09.780
dann die Ausrichtung an schema.org
und andere vorhandenen Ontologien.
00:29:10.320 --> 00:29:12.544
Und dann, am Ende des ersten Schritts,
00:29:12.544 --> 00:29:15.379
haben wir eine Whiteboard-Zeichnung
des Schemas,
00:29:15.379 --> 00:29:17.396
das wir in Wikidata implementieren wollen.
00:29:17.396 --> 00:29:20.270
Was Sie dort sehen können,
ziemlich offensichtlich,
00:29:20.270 --> 00:29:21.766
es ist im Hintergrund.
00:29:21.767 --> 00:29:25.240
Wir können heute sogar einige Schemata
in diesem Panel erstellen.
00:29:26.480 --> 00:29:28.399
Sobald wir das Schema eingerichtet haben,
00:29:28.400 --> 00:29:31.432
versuchen wir als Nächstes,
das Schema maschinenlesbar zu machen,
00:29:32.358 --> 00:29:34.522
weil man umsetzbare Modelle braucht,
00:29:34.522 --> 00:29:37.013
um die Daten zu überbrücken,
die man einbringt
00:29:37.013 --> 00:29:39.690
aus jeder biomedizinischen
Datenbank nach Wikidata.
00:29:40.393 --> 00:29:45.182
Und hier wenden wir Shape Expressions an.
00:29:46.471 --> 00:29:49.728
Und das verwenden wir,
00:29:49.728 --> 00:29:52.518
weil man mit Shape Expressions
testen kann,
00:29:52.518 --> 00:29:57.040
ob der Datensatz tatsächlich...
nein, man kann zuerst sehen,
00:29:57.041 --> 00:30:01.782
ob bereits vorhandene Daten in Wikidata
dem gleichen Datenmodell folgen,
00:30:01.783 --> 00:30:04.718
das im vorherigen Prozess erreicht wurde.
00:30:04.719 --> 00:30:06.851
Dann können wir mit
den Shape Expressions überprüfen:
00:30:06.851 --> 00:30:09.524
Okay, die Daten,
die zu diesem Thema in Wikidata sind,
00:30:09.524 --> 00:30:12.259
müssen bereinigt werden
oder wir müssen unser Modell
00:30:12.259 --> 00:30:15.013
an das Wikidata-Modell anpassen
oder umgekehrt.
00:30:15.937 --> 00:30:19.867
Sobald das erledigt ist
und wir anfangen, Bots zu schreiben,
00:30:20.670 --> 00:30:23.801
und die Bots sähen
regelmäßig die Informationen,
00:30:23.802 --> 00:30:27.308
die in den primären Quellen ist,
nach Wikidata.
00:30:27.706 --> 00:30:29.303
Und wenn die Bots fertig sind,
00:30:29.304 --> 00:30:33.001
schreiben wir diese Bots
mit einer Plattform namens...
00:30:33.002 --> 00:30:36.201
mit einer Python-Bibliothek
namens Wikidata Integrator.
00:30:36.202 --> 00:30:38.167
Diese kam aus unserem Projekt.
00:30:38.698 --> 00:30:42.921
Und sobald wir unsere Bots haben,
benutzen wir eine Plattform namens Jenkins
00:30:42.921 --> 00:30:44.540
für die kontinuierliche integration.
00:30:44.540 --> 00:30:45.762
Und mit Jenkins
00:30:45.762 --> 00:30:51.160
aktualisieren wir ständig
die primären Quellen mit Wikidata.
00:30:52.178 --> 00:30:55.889
Und dies ist ein Diagramm für die Arbeit,
die ich zuvor erwähnt habe.
00:30:55.890 --> 00:30:57.411
Das ist unsere aktuelle Landschaft.
00:30:57.411 --> 00:31:02.059
Also jede orangefarbene Kiste da drauf ist
eine primäre Ressource für Medikamente,
00:31:02.060 --> 00:31:07.827
Proteine, Gene, Krankheiten,
chemische Verbindungen mit Wechselwirkung,
00:31:07.827 --> 00:31:10.870
und dieses Modell ist zu klein,
um es jetzt zu lesen.
00:31:10.870 --> 00:31:14.510
Aber das ist die Datenbank, die Quellen,
00:31:14.770 --> 00:31:17.473
die wir in Wikidata verwalten
00:31:17.473 --> 00:31:20.475
und überbrücken zu den Primärquellen.
00:31:20.475 --> 00:31:22.355
Hier ist so ein Workflow.
00:31:22.870 --> 00:31:25.312
Einer unserer Partner
ist die Disease Ontology.
00:31:25.312 --> 00:31:27.672
Die Disease Ontology
ist eine CC0 Ontologie
00:31:28.179 --> 00:31:31.990
und die CC0 Ontologie hat
einen eigenen Kurationszyklus
00:31:32.756 --> 00:31:35.736
und sie aktualisieren nur
kontinuierlich die Disease Ontology,
00:31:35.737 --> 00:31:37.976
um den Krankheitsbereich
00:31:37.976 --> 00:31:40.336
oder die Interpretation
von Krankheiten zu reflektieren.
00:31:40.336 --> 00:31:44.361
Und es gibt den Wikidata-Kurationszyklus
ebenso für Krankheiten,
00:31:44.362 --> 00:31:48.266
wo die Wikidata-Community
ständig überwacht,
00:31:48.266 --> 00:31:50.110
was auf Wikidata los ist.
00:31:50.226 --> 00:31:51.741
Und dann haben wir zwei Rollen,
00:31:51.741 --> 00:31:55.477
wir nennen sie umgangssprachlich
den Gatekeeper-Kurator,
00:31:56.009 --> 00:31:59.561
und das waren ich und ein Kollege
vor fünf Jahren,
00:31:59.562 --> 00:32:03.414
wo wir nur an unseren Computern saßen
und Wikipedia und Wikidata überwachten
00:32:03.415 --> 00:32:08.451
und wenn es ein Problem gab, wurde es
der primären Community gemeldet,
00:32:08.451 --> 00:32:11.765
die primäre Ressourcen, sie betrachteten
die Implementierung und beschlossen:
00:32:11.765 --> 00:32:14.240
Okay, vertrauen wir
dem Input aus Wikidata?
00:32:14.850 --> 00:32:18.555
Ja - dann wird erwägt,
geht es in den Kreislauf,
00:32:18.555 --> 00:32:22.686
und die nächste Iteration
ist Teil der Disease Ontology
00:32:22.687 --> 00:32:25.411
und wird in Wikidata zurückgespeist.
00:32:27.419 --> 00:32:31.282
Wir machen dasselbe für WikiPathways.
00:32:31.282 --> 00:32:36.601
WikiPathways ist ein von MediaWiki
inspiriertes Pfad-Repository.
00:32:36.602 --> 00:32:39.943
Dieselbe Geschichte, es gibt bereits
verschiedene Pfad-Ressourcen
00:32:39.943 --> 00:32:41.258
auf Wikidata.
00:32:41.258 --> 00:32:44.713
Möglicherweise gibt es Konflikte
zwischen diesen Pfadressourcen
00:32:44.722 --> 00:32:46.701
und diese Konflikte werden zurückgemeldet
00:32:46.702 --> 00:32:49.521
von den Gatekeeper-Kuratoren
zu dieser Community,
00:32:49.522 --> 00:32:53.715
und man pflegt
die einzelnen Kurationszyklen.
00:32:53.715 --> 00:32:57.068
Aber wenn Sie sich an
den vorherigen Zyklus erinnern,
00:32:57.069 --> 00:33:03.041
hier erwähnte ich nur zwei Zyklen,
zwei Ressourcen.
00:33:03.566 --> 00:33:06.090
Das müssen wir für jede einzelne
Ressource tun, die wir haben,
00:33:06.090 --> 00:33:08.062
und wir müssen alles,
was vor sich geht, verwalten,
00:33:08.062 --> 00:33:09.335
denn wenn ich Kuration sage,
00:33:09.335 --> 00:33:11.691
meine ich wirklich,
auf die Wikipedia-Top-Seiten zu gehen,
00:33:11.691 --> 00:33:14.746
auf die Wikidata-Top-Seiten
zu gehen und das auszuprobieren.
00:33:14.746 --> 00:33:19.316
Das skaliert nicht mit den beiden
Gatekeeper-Kuratoren, die wir hatten.
00:33:19.860 --> 00:33:22.777
Also, als ich 2016 an einer
Konferenz teilgenommen habe,
00:33:22.778 --> 00:33:26.933
wo Eric einen Vortrag
über Shape Expressions hielt,
00:33:26.934 --> 00:33:29.277
sprang ich auf den Zug und sagte: Okay,
00:33:29.278 --> 00:33:32.010
mit Hilfe von Shape Expressions
können wir feststellen,
00:33:32.010 --> 00:33:34.240
welche Unterschiede in Wikidata bestehen
00:33:34.240 --> 00:33:38.320
und so können die Gatekeeper
00:33:38.320 --> 00:33:41.260
effizienter berichten in dem Log.
00:33:42.275 --> 00:33:46.019
Dieses Jahr war ich von
der Schemaentität begeistert,
00:33:46.020 --> 00:33:49.015
denn jetzt können wir
diese Entitätsschemata
00:33:49.015 --> 00:33:50.765
auf Wikidata speichern,
00:33:50.765 --> 00:33:53.336
auf Wikidata selbst,
während es zuvor auf GitHub war.
00:33:53.860 --> 00:33:56.815
Und dies integriert mit
der Wikidata-Oberfläche,
00:33:56.816 --> 00:33:59.350
man hat also Dinge
wie Dokumentendiskussionen,
00:33:59.350 --> 00:34:01.020
man hat aber auch Revisionen.
00:34:01.020 --> 00:34:05.261
Ihr könnt also die Top-Seiten
und die Revisionen in Wikidata nutzen,
00:34:05.262 --> 00:34:10.255
um darüber zu diskutieren,
00:34:10.255 --> 00:34:13.988
was in Wikidata ist
und was in den primären Ressourcen.
00:34:14.966 --> 00:34:19.686
Also das, was Eric gerade vorgestellt hat,
ist schon ein ziemlicher Vorteil.
00:34:19.686 --> 00:34:24.335
Also hier haben wir eine Shape Expression
für das menschliche Gen erfunden
00:34:24.336 --> 00:34:30.225
und dann ließen wir es durch ShEx laufen
und wie Sie sehen können,
00:34:30.225 --> 00:34:32.428
wir haben gerade erst eines.
00:34:32.429 --> 00:34:34.641
Es gibt ein Problem,
das überwacht werden muss,
00:34:34.642 --> 00:34:37.316
es gibt ein Element,
das nicht in dieses Schema passt,
00:34:37.316 --> 00:34:40.738
und dann können Sie
bereits Schemaentitäten erstellen
00:34:40.738 --> 00:34:43.749
und Kurationsberichte basierend auf...
00:34:43.749 --> 00:34:46.240
und das an die verschiedenen
Kurationsberichte senden.
00:34:48.058 --> 00:34:52.788
Aber die ShEx.js ist
eine integrierte Schnittstelle
00:34:52.788 --> 00:34:55.860
und hier noch mal eine Folie zurück,
mache ich nur zehn,
00:34:55.860 --> 00:35:00.362
aber wir haben Zehntausende
und das skaliert wieder nicht.
00:35:00.362 --> 00:35:04.654
Der Wikidata Integrator
unterstützt jetzt auch ShEx
00:35:04.998 --> 00:35:07.431
und dann können wir
einfach Item-Loops verwenden,
00:35:07.431 --> 00:35:11.494
wo wir ja-nein, ja-nein,
wahr-falsch, wahr-falsch sagen.
00:35:11.495 --> 00:35:12.616
Also nochmal,
00:35:13.065 --> 00:35:16.514
eine Steigerung der Effizienz
beim Arbeiten mit den Berichten.
00:35:17.256 --> 00:35:22.662
Aber jetzt, in letzter Zeit, baut das
auf dem Wikidata Query Service auf
00:35:22.961 --> 00:35:24.998
und wir haben das etwas gedrosselt,
00:35:24.999 --> 00:35:26.560
also nochmal, das skaliert nicht.
00:35:26.561 --> 00:35:28.522
Es ist also immer noch
ein fortlaufender Prozess,
00:35:28.522 --> 00:35:31.532
wie man mit Modellen auf Wikidata umgeht.
00:35:32.012 --> 00:35:36.522
Und ShEx ist also nicht
nur furchteinflössend,
00:35:36.522 --> 00:35:40.446
aber auch das Ausmaß ist einfach
zu groß, um damit umzugehen.
00:35:41.068 --> 00:35:44.792
Also habe ich angefangen zu arbeiten,
dies ist mein erster Proof of Concept
00:35:44.792 --> 00:35:46.192
oder meine erste Übung,
00:35:46.192 --> 00:35:48.022
wo ich ein Werkzeug
namens yED verwendet habe
00:35:48.184 --> 00:35:52.280
und ich fing an, diese Shape Expressions
zu zeichnen und weil...
00:35:52.490 --> 00:35:56.388
und dann dieses Schema neu zu generieren
00:35:56.388 --> 00:36:01.279
in dieses Schema in das JSON-Format
der Shape-Ausdrücke,
00:36:01.280 --> 00:36:04.520
damit sich das einem Publikum öffnet,
00:36:04.521 --> 00:36:07.432
das von den Shape Expressions-Sprachen
eingeschüchtert wird.
00:36:07.961 --> 00:36:12.308
Tatsächlich gibt es jedoch ein Problem
mit diesen visuellen Beschreibungen,
00:36:12.309 --> 00:36:13.990
denn dies ist auch ein Schema,
00:36:13.990 --> 00:36:18.230
das tatsächlich von jemandem
in yEd gezeichnet wurde.
00:36:18.230 --> 00:36:23.838
Und hier ist ein anderes, das schön ist.
00:36:23.838 --> 00:36:26.001
Ich hätte das gerne an meiner Wand,
00:36:26.001 --> 00:36:29.704
aber es ist immer noch nicht
interoperabel.
00:36:30.740 --> 00:36:32.263
Ich möchte meinen Vortrag beenden...
00:36:32.263 --> 00:36:33.572
und es war das erste Mal,
00:36:33.572 --> 00:36:35.622
dass ich diese Folie gestohlen,
gebraucht habe.
00:36:35.622 --> 00:36:37.728
Es ist eine Ehre, ihn im Publikum zu haben
00:36:37.728 --> 00:36:39.423
und ich mag das wirklich:
00:36:39.424 --> 00:36:42.362
"Die Leute denken, RDF ist eine Qual,
weil es kompliziert ist.
00:36:42.362 --> 00:36:44.492
Die Wahrheit ist noch schlimmer,
es ist so einfach,
00:36:45.581 --> 00:36:48.133
weil Sie mit realen Datenproblemen
arbeiten müssen,
00:36:48.134 --> 00:36:50.031
die schrecklich kompliziert sind.
00:36:50.031 --> 00:36:51.601
Während Sie RDF vermeiden können,
00:36:51.601 --> 00:36:53.621
ist es schwieriger, komplizierte Daten
00:36:53.621 --> 00:36:55.761
und komplizierte Computerprobleme
zu vermeiden."
00:36:55.761 --> 00:36:59.535
Hier geht es um RDF, aber ich denke,
das gilt auch für das Modellieren.
00:37:00.112 --> 00:37:02.769
Mein Diskussionspunkt ist also,
ob wir wirklich...
00:37:03.387 --> 00:37:05.882
Wie bringen wir das Modellieren voran?
00:37:05.882 --> 00:37:10.826
Sollen wir über ShEx
oder visuelle Modelle sprechen oder...
00:37:11.426 --> 00:37:13.271
Wie machen wir weiter?
00:37:13.474 --> 00:37:14.840
Vielen Dank für Ihre Zeit.
00:37:19.751 --> 00:37:21.188
(Lydia) Vielen Dank.
00:37:21.692 --> 00:37:24.001
Würdest du nach vorne kommen,
00:37:24.002 --> 00:37:27.824
damit wir mit den Fragen
aus dem Publikum anfangen können?
00:37:28.610 --> 00:37:30.203
Gibt es Fragen?
00:37:31.507 --> 00:37:32.507
Ja.
00:37:34.263 --> 00:37:37.028
Und ich denke,
wegen der Kamera müssen wir...
00:37:38.835 --> 00:37:40.968
(Lydia) Ja.
00:37:43.094 --> 00:37:46.273
(Zuschauer1) Also eine Frage
an Cristina, denke ich.
00:37:47.366 --> 00:37:51.641
Also du hast im Wortlaut den Begriff
"Informationsgewinn" erwähnt
00:37:51.642 --> 00:37:53.529
bei der Verknüpfung mit anderen Systemen.
00:37:53.529 --> 00:37:55.959
Es gibt das informationstheoretische Maß
Informationsgewinn,
00:37:55.959 --> 00:37:58.171
welches Statistik
und Wahrscheinlichkeit verwendet.
00:37:58.192 --> 00:38:01.736
Hast du das... ich meine,
hast du genau dieses Maß gemeint,
00:38:01.736 --> 00:38:04.173
den Informationsgewinn
aus der Wahrscheinlichkeitstheorie,
00:38:04.174 --> 00:38:05.530
aus der Informationstheorie,
00:38:05.530 --> 00:38:07.228
oder verwendest du einfach dieses Konzept,
00:38:07.228 --> 00:38:09.258
um den Informationsgewinn
irgendwie zu messen?
00:38:09.258 --> 00:38:13.016
Nein, also wir haben Maßnahmen
definiert und umgesetzt,
00:38:13.695 --> 00:38:17.272
die die Shannon-Entropie verwenden,
00:38:17.682 --> 00:38:20.050
auf dies bezieht sich das.
00:38:20.050 --> 00:38:22.656
Ich wollte nicht auf die Details
der konkreten Formeln eingehen...
00:38:22.656 --> 00:38:24.732
(Zuschauer1) Nein, klar,
das war meine Frage.
00:38:24.732 --> 00:38:26.487
- (Cristina) Aber ja.
- (Zuschauer1) Danke.
00:38:32.761 --> 00:38:35.047
(Zuschauer2) Ich habe eher
einen Kommentar als eine Frage.
00:38:35.048 --> 00:38:36.336
(Lydia) Los geht es.
00:38:36.336 --> 00:38:39.840
(Zuschauer2) Es gab also
viel Fokus auf der Item-Ebene
00:38:39.840 --> 00:38:42.547
bezüglich der Qualität
und Vollständigkeit.
00:38:42.547 --> 00:38:44.514
Eines der Dinge,
die mich beschäftigen, ist,
00:38:44.514 --> 00:38:47.279
dass wir nicht dasselbe
auf Hierarchien anwenden
00:38:47.279 --> 00:38:49.521
und ich glaube,
das wird uns ein Problem bereiten
00:38:49.521 --> 00:38:51.622
dass unsere Hierarchie oft nicht gut ist.
00:38:51.622 --> 00:38:53.713
Wir denken, dass dies
ein echtes Problem wird
00:38:53.713 --> 00:38:55.974
beim Durchsuchen von Commons
und anderen Dingen.
00:38:56.771 --> 00:38:58.962
Eine der Fähigkeiten,
die wir realisieren können, ist,
00:38:58.962 --> 00:39:00.632
extern zu importieren --
00:39:00.632 --> 00:39:04.842
Die Art und Weise, wie externe Thesauren
ihre Hierarchien strukturieren
00:39:04.842 --> 00:39:10.291
mit der P4900 Qualifikation
für Oberbegriffe.
00:39:11.037 --> 00:39:15.997
Aber was ich für sehr hilfreich halte,
wären viel bessere Werkzeuge dafür.
00:39:15.997 --> 00:39:21.212
Damit kann man die Hierarchie
eines externen Thesaurus importieren
00:39:21.212 --> 00:39:24.111
und das auf unsere
Wikidata-Items abbilden.
00:39:24.111 --> 00:39:27.989
Sobald es mit diesen P4900-Qualifizierern
zusammen funktioniert,
00:39:27.989 --> 00:39:31.494
kann man über SPARQL
ziemlich gute Abfragen durchführen,
00:39:32.490 --> 00:39:37.534
um zu sehen, wo unsere Hierarchie
von dieser externen Hierarchie abweicht.
00:39:37.534 --> 00:39:41.346
Zum Beispiel, Paula Morma,
User PKM, wie ihr vielleicht wisst,
00:39:41.346 --> 00:39:43.510
hat viel über Mode ausgearbeitet.
00:39:43.510 --> 00:39:46.244
Das nutzen wir also, um die Hierarchie
00:39:46.244 --> 00:39:50.524
des Europeana Fashion Thesaurus
zu übernehmen
00:39:50.524 --> 00:39:53.812
und die Getty AAT
Mode-Thesaurus-Hierarchie,
00:39:53.812 --> 00:39:55.727
um dann zu sehen, wo die Lücken
00:39:55.727 --> 00:39:57.957
in unseren höhergestuften Items waren,
00:39:57.957 --> 00:40:01.281
was ein echtes Problem
für uns ist, weil das oft Dinge sind,
00:40:01.281 --> 00:40:04.355
die nur als Seiten zur Disambiguierung
auf Wikipedia existieren,
00:40:04.356 --> 00:40:09.270
Es fehlen also viele übergeordnete
Elemente in unseren Hierarchien
00:40:09.271 --> 00:40:12.780
und das ist etwas, das wir in Bezug
auf Qualität und Vollständigkeit
00:40:12.780 --> 00:40:14.480
ansprechen müssen.
00:40:14.480 --> 00:40:16.086
Aber was wirklich helfen würde,
00:40:16.643 --> 00:40:19.619
wäre ein besseres Werkzeug
als der Dschungel der Pull-Skripte,
00:40:19.619 --> 00:40:20.992
die ich geschrieben habe.
00:40:20.992 --> 00:40:26.280
Wenn jemand das in ein PAWS-Notizbuch
in Python schreiben könnte,
00:40:26.561 --> 00:40:29.731
um einen externen Thesaurus
verwenden zu können,
00:40:29.731 --> 00:40:31.973
dessen Hierarchie zu verwenden,
00:40:31.973 --> 00:40:34.759
die als verknüpfte Daten
verfügbar sein können oder nicht,
00:40:35.379 --> 00:40:40.580
um diese dann in Schnellanweisungen
umzusetzen und P4900-Werte einzugeben.
00:40:41.005 --> 00:40:42.165
Und später dann,
00:40:42.166 --> 00:40:44.527
wenn unsere Darstellung
vervollständigt wird,
00:40:44.528 --> 00:40:49.691
diese P4900s zu aktualisieren,
denn sobald unsere Darstellung veraltet,
00:40:49.691 --> 00:40:51.447
dichter wird,
00:40:51.447 --> 00:40:55.377
müssen die Werte dieser
Qualifikationsmerkmale geändert werden,
00:40:56.230 --> 00:40:58.296
um darzustellen, dass wir mehr
aus ihrer Hierarchie
00:40:58.296 --> 00:40:59.866
in unserem System implementiert haben.
00:40:59.866 --> 00:41:03.728
Wenn jemand das tun könnte,
wäre das sehr hilfreich, denke ich,
00:41:03.728 --> 00:41:07.121
und wir müssen uns auch
andere Ansätze ansehen,
00:41:07.122 --> 00:41:10.762
um die Qualität und Vollständigkeit
auf Hierarchieebene zu verbessern,
00:41:10.763 --> 00:41:12.503
nicht nur auf der Artikelebene.
00:41:13.308 --> 00:41:14.958
(Andra) Kann ich das ergänzen?
00:41:16.362 --> 00:41:19.901
Ja, und das machen wir tatsächlich
00:41:19.911 --> 00:41:22.472
und meine Empfehlung ist,
die Shape Expression zu betrachten,
00:41:22.472 --> 00:41:25.479
die Finn gemacht hat
mit den lexikalischen Daten,
00:41:25.479 --> 00:41:27.440
in denen er Shape Expressions erstellt
00:41:27.440 --> 00:41:29.240
und dann auf Autorenausdrücken aufbaut,
00:41:29.240 --> 00:41:31.649
so dass wir also dieses Konzept
der verknüpften Formausdrücke
00:41:31.649 --> 00:41:32.739
in Wikidata haben.
00:41:32.739 --> 00:41:35.065
Insbesondere der Anwendungsfall,
wenn ich richtig verstehe,
00:41:35.065 --> 00:41:37.183
entspricht genau dem,
was wir in Gene Wiki machen.
00:41:37.184 --> 00:41:40.841
Man hat also die Disease Ontology,
die in Wikidata importiert ist,
00:41:40.842 --> 00:41:44.681
dann kommen die Krankheitsdaten
und wir wenden die Shape Expressions an,
00:41:44.682 --> 00:41:47.247
um zu sehen, ob das
zu diesem Thesaurus passt.
00:41:47.248 --> 00:41:48.770
Und es gibt andere Thesauren
00:41:48.770 --> 00:41:50.920
oder andere Ontologien
für kontrolliertes Vokabular,
00:41:50.920 --> 00:41:52.559
das noch in Wikidata rein muss
00:41:52.559 --> 00:41:55.261
und genau deshalb sind
Shape Expressions so interessant,
00:41:55.261 --> 00:41:57.893
weil sie für die Disease Ontology
möglich sind,
00:41:57.893 --> 00:41:59.614
man kann Shape Expressions
für MeSH haben.
00:41:59.614 --> 00:42:01.761
Man kann sagen, ich möchte
die Qualität überprüfen,
00:42:01.762 --> 00:42:06.297
weil man auch in Wikidata den Kontext
bei einem kontrollierten Vokabular hat,
00:42:06.297 --> 00:42:09.503
dass man sagt,
die Qualität entspricht dem,
00:42:09.503 --> 00:42:11.792
aber die Community stimmt euch nicht zu.
00:42:11.792 --> 00:42:13.921
Das Werkzeug ist also
in der Tat vorhanden,
00:42:13.921 --> 00:42:16.762
aber jetzt müssen diese Modelle
erstellt und angewendet werden
00:42:16.762 --> 00:42:18.513
auf die verschiedenen Anwendungsfälle.
00:42:18.811 --> 00:42:20.921
(Zuschauer2)
Die Shape Expressions sind nützlich,
00:42:20.922 --> 00:42:25.765
sobald ihr die externe Ontologie
in Wikidata abgebildet habt,
00:42:25.765 --> 00:42:29.549
aber mein Problem ist,
dass dieser Zeitpunkt erst kommt.
00:42:29.549 --> 00:42:32.481
Momentan legt es nur offen,
wie viel von der externen Ontologie
00:42:32.481 --> 00:42:34.882
noch nicht in Wikidata enthalten ist
00:42:34.882 --> 00:42:36.256
und wo die Lücken sind
00:42:36.257 --> 00:42:40.510
und dies ist, wo ich denke,
dass viel robustere Werkzeuge,
00:42:40.510 --> 00:42:44.058
mit denen ihr erkennen könnt,
was aus externen Ontologien fehlt,
00:42:44.058 --> 00:42:45.609
sehr hilfreich wären.
00:42:47.488 --> 00:42:48.952
Das größte Problem dort
00:42:48.952 --> 00:42:51.517
sind nicht so sehr die Werkzeuge,
sondern mehr die Lizenzierung.
00:42:51.803 --> 00:42:55.249
Also das Einspielen der Ontologien
in Wikidata ist ein Kinderspiel,
00:42:55.250 --> 00:42:59.295
aber die meisten Ontologien haben,
wie kann ich das höflich sagen,
00:42:59.965 --> 00:43:03.424
restriktive Lizenzierung, daher sind diese
nicht mit Wikidata kompatibel.
00:43:03.918 --> 00:43:06.961
(Zuschauer2) Es gibt eine große Anzahl
von Thesauren im öffentlichen Sektor
00:43:06.961 --> 00:43:08.339
in kulturellen Bereichen.
00:43:08.339 --> 00:43:10.851
- (Andra) Dann müssen wir reden.
- (Zuschauer2) Kein Problem.
00:43:10.852 --> 00:43:12.384
(Andra) Darüber müssen wir reden.
00:43:13.624 --> 00:43:17.522
(Zuschauer3) Der Kommentar,
den ich machen möchte,
00:43:17.522 --> 00:43:19.402
ist eigentlich eine Antwort auf James.
00:43:19.402 --> 00:43:22.401
Also die Sache ist die,
dass Hierarchien Graphen machen
00:43:22.374 --> 00:43:24.041
und wenn du ...
00:43:24.579 --> 00:43:27.759
Ich möchte im Grunde genommen
über ein bekanntes Problem
00:43:27.759 --> 00:43:30.729
in Hierarchien sprechen,
das sind zirkuläre Hierarchien,
00:43:30.821 --> 00:43:33.796
die auf sich selbst zurück führen,
wenn es ein Problem gibt,
00:43:33.796 --> 00:43:35.992
das sollte man nicht in Hierarchien haben.
00:43:37.022 --> 00:43:41.295
Witzigerweise passiert dies
häufig in Wikipedia-Kategorien,
00:43:41.295 --> 00:43:43.134
wir haben viele Kreise in Kategorien.
00:43:43.898 --> 00:43:46.612
Aber die gute Nachricht ist, dass dies...
00:43:47.713 --> 00:43:50.173
Technisch gesehen ist es
ein PMP-vollständiges Problem.
00:43:50.173 --> 00:43:52.063
Also ihr könnt dies nicht einfach finden,
00:43:52.063 --> 00:43:53.773
wenn ihr ein Diagramm davon baut.
00:43:54.473 --> 00:43:57.046
Aber es gibt viele Methoden,
die entwickelt wurden,
00:43:57.047 --> 00:44:00.624
um Probleme in diesen
Hierarchiediagrammen zu finden.
00:44:00.625 --> 00:44:04.520
Es gibt einen Artikel
00:44:04.520 --> 00:44:07.955
namens Breaking Cycles
in Noisy Hierarchies
00:44:07.956 --> 00:44:09.742
und der wurde verwendet,
00:44:09.742 --> 00:44:12.672
um die Kategorisierung
der englischen Wikipedia zu erleichtern.
00:44:12.672 --> 00:44:15.480
Ihr könnt dies einfach nehmen
und diese Hierarchien
00:44:15.480 --> 00:44:17.142
in Wikidata anwenden,
00:44:17.142 --> 00:44:19.540
und dann könnt ihr Dinge finden,
die problematisch sind
00:44:19.541 --> 00:44:22.311
und diejenigen einfach entfernen,
die Probleme verursachen,
00:44:22.311 --> 00:44:24.667
und die eigentlichen Probleme finden.
00:44:24.667 --> 00:44:27.080
Das ist also nur eine Idee,
nur, damit ihr...
00:44:28.470 --> 00:44:29.930
(Zuschauer2) Das ist schön und gut,
00:44:29.931 --> 00:44:31.922
aber ich denke,
ihr unterschätzt die Anzahl
00:44:31.922 --> 00:44:35.042
der schlechten Beziehungen
in den Subklassen, die wir haben.
00:44:35.042 --> 00:44:39.680
Das ist, wie eine Stadt in einem
völlig falschen Land zu haben
00:44:40.250 --> 00:44:44.664
und es gibt Werkzeuge in der Geographie,
um so etwas zu identifizieren,
00:44:44.664 --> 00:44:49.201
und wir brauchen viel bessere
Werkzeuge in Hierarchien,
00:44:49.202 --> 00:44:53.477
um zu identifizieren, wo das
Äquivalent des Items für das Land
00:44:53.478 --> 00:44:58.023
vollständig fehlt oder tatsächlich
in einer Subklasse eingeordnet ist,
00:44:58.023 --> 00:45:01.774
die eine völlig andere Bedeutung hat.
00:45:02.804 --> 00:45:07.165
(Lydia) Ja, ich denke,
du sprichst etwas an,
00:45:07.166 --> 00:45:10.595
das ich und mein Team
immer wieder von Leuten hören,
00:45:10.595 --> 00:45:13.520
die unsere Daten auch ziemlich
häufig wiederverwenden, ja.
00:45:14.752 --> 00:45:16.758
Einzelne Datenpunkte
könnten großartig sein,
00:45:16.758 --> 00:45:20.163
aber wenn ihr euch die Ontologie
und so weiter ansehen müsst,
00:45:20.164 --> 00:45:21.857
dann wird es sehr...
00:45:22.388 --> 00:45:26.657
Und ich denke, eines der großen Probleme,
warum dies passiert, ist,
00:45:26.657 --> 00:45:30.736
dass vieles, was auf Wikidata
editiert wird, auf der Grundlage
00:45:30.736 --> 00:45:34.544
eines einzelnen Artikels basiert, ja.
00:45:34.545 --> 00:45:36.635
Ihr bearbeitet dieses Element,
00:45:37.653 --> 00:45:41.745
ohne zu bemerken, dass die Konsequenzen
von globaler Natur sind
00:45:41.745 --> 00:45:44.245
im Bezug auf dem Rest
des Diagramms zum Beispiel.
00:45:44.245 --> 00:45:50.040
Und wenn jemand eine Idee hat,
wie man dies sichtbarer machen kann,
00:45:50.041 --> 00:45:53.221
die Folgen einer einzelnen
lokalen Bearbeitung,
00:45:54.005 --> 00:45:56.537
ich denke, das wäre es wert,
das herauszufinden,
00:45:57.550 --> 00:46:01.583
den Leuten besser zu zeigen,
was die Folge ihrer Überarbeitung ist,
00:46:01.584 --> 00:46:03.574
die sie in gutem Glauben vornahmen,
00:46:04.481 --> 00:46:05.481
was das ist.
00:46:06.939 --> 00:46:12.027
Whoa! OK, fangen wir an mit, ja,
du, dann du, dann du, dann du.
00:46:12.027 --> 00:46:14.064
(Zuschauer4) Nun, nach dieser Diskussion
00:46:14.064 --> 00:46:18.262
will ich nur meine Zustimmung geben
zu dem, was James sagte.
00:46:18.263 --> 00:46:22.467
Also das Gefährlichste scheint
im Wesentlichen die Hierarchie zu sein,
00:46:22.468 --> 00:46:25.482
nicht die Hierarchie, sondern allgemein
die Semantik der Beziehungen
00:46:25.482 --> 00:46:28.022
der Subklassen aus Wikidata.
00:46:28.022 --> 00:46:32.561
Ich habe vor kurzem Sprachen studiert
nur für die Zwecke dieser Konferenz
00:46:32.562 --> 00:46:35.257
und zum Beispiel finden Sie viele Fälle,
00:46:35.257 --> 00:46:39.463
wo eine Sprache sowohl Teil als auch
Subklasse derselben Sache ist, okay.
00:46:39.463 --> 00:46:43.577
Man könnte auch sagen,
dass wir eine flexible Ontologie haben.
00:46:43.577 --> 00:46:46.256
Wikidata gibt manchmal
die Freiheit, dies auszudrücken,
00:46:46.256 --> 00:46:48.509
zum Beispiel, weil diese Ontologie
der Sprachen
00:46:48.509 --> 00:46:50.721
auch politisch kompliziert ist, oder?
00:46:50.722 --> 00:46:53.000
Es ist sogar gut, in der Lage zu sein,
00:46:53.000 --> 00:46:55.038
ein gewisses Maß
an Unsicherheit auszudrücken.
00:46:55.038 --> 00:46:57.983
Aber stellen Sie sich vor,
wer daraus maschinell lesen möchte.
00:46:57.984 --> 00:46:59.468
Das ist also wirklich problematisch.
00:46:59.468 --> 00:47:00.992
Andererseits glaube ich nicht,
00:47:00.992 --> 00:47:03.686
dass Ontologie jemals
von irgendwoher importiert wurde,
00:47:03.687 --> 00:47:05.491
das ist etwas,
was ursprünglich von uns kommt.
00:47:05.491 --> 00:47:08.401
Wikipedia hat seit den Anfängen
seinen Nutzen daraus gezogen, meine ich.
00:47:08.401 --> 00:47:11.324
Also frage ich mich, diese Sache
mit den Shape Expressions-Ding ist toll.
00:47:11.325 --> 00:47:15.575
Das Validieren und Reparieren
von Wikidata-Ontologien
00:47:15.576 --> 00:47:18.363
durch externe Ressourcen, schöne Idee.
00:47:18.886 --> 00:47:23.036
Werden wir letztendlich dort enden,
dass wir externen Ontologien
00:47:23.036 --> 00:47:25.243
in Wikidata widerspiegeln?
00:47:25.441 --> 00:47:28.411
Und ebenso, was sollen wir
mit dem Kern unserer Ontologie machen,
00:47:28.411 --> 00:47:30.642
der nie von externen Ressourcen
verwendet wird,
00:47:30.643 --> 00:47:32.147
wie können wir das beheben?
00:47:32.147 --> 00:47:35.276
Und ich denke wirklich,
dass das ein Problem für sich sein wird.
00:47:35.277 --> 00:47:39.010
Darauf müssen wir uns unabhängig
von der Idee konzentrieren,
00:47:39.010 --> 00:47:41.256
Ontologien mit etwas Externem
zu validieren.
00:47:49.353 --> 00:47:53.379
(Zuschauer5) Okay, die Constraints
und Shapes sind sehr beeindruckend,
00:47:53.380 --> 00:47:54.704
was man damit machen kann,
00:47:55.205 --> 00:47:58.481
aber das Hauptanliegen ist
nicht wirklich klar hervorgetreten.
00:47:58.482 --> 00:48:01.229
Das liegt daran, dass wir jetzt
genauer definieren können,
00:48:01.229 --> 00:48:03.229
was wir von den Daten erwarten.
00:48:03.229 --> 00:48:06.893
Vorher muss jeder seine eigenen
Tools und Skripte schreiben
00:48:06.894 --> 00:48:10.601
und so ist es sichtbarer
und wir können darüber diskutieren.
00:48:10.602 --> 00:48:13.641
Aber weil es nicht darum geht,
was falsch oder richtig ist,
00:48:13.642 --> 00:48:15.730
sondern um eine Erwartung
00:48:15.730 --> 00:48:17.505
und ihr werdet
unterschiedliche Erwartungen
00:48:17.505 --> 00:48:18.883
und Diskussionen darüber haben,
00:48:18.883 --> 00:48:20.791
wie wir Dinge in Wikidata
modellieren wollen,
00:48:21.246 --> 00:48:23.095
und das...
00:48:23.096 --> 00:48:26.200
Der aktuelle Stand ist nur
ein Schritt in die richtige Richtung,
00:48:26.200 --> 00:48:29.601
denn jetzt braucht man
sehr viel technisches Know-how,
00:48:29.601 --> 00:48:31.141
um da reinzukommen
00:48:31.141 --> 00:48:35.721
und wir brauchen bessere Möglichkeiten,
um diese Constraints zu visualisieren,
00:48:35.722 --> 00:48:38.519
vielleicht um es
in natürliche Sprache umzuwandeln,
00:48:38.519 --> 00:48:40.759
damit es die Leute
besser verstehen können,
00:48:40.759 --> 00:48:43.768
aber es geht weniger darum,
was falsch oder richtig ist.
00:48:44.925 --> 00:48:45.925
(Lydia) Ja.
00:48:50.986 --> 00:48:54.033
(Zuschauer6) Zu den Qualitätsproblemen
möchte ich einfach hinzufügen,
00:48:54.033 --> 00:48:57.010
viele der Probleme,
auf die ich gestoßen bin,
00:48:58.838 --> 00:49:02.330
waren Meinungsunterschiede
zwischen Instanz von und Subklasse.
00:49:02.331 --> 00:49:05.963
Ich würde behaupten,
Fehler in diesen Situationen
00:49:06.032 --> 00:49:11.422
und zu versuchen, diese zu finden,
ist sehr zeitaufwändig.
00:49:11.522 --> 00:49:13.030
Ich bin auf so etwas gestoßen wie:
00:49:13.030 --> 00:49:15.040
"Oh, wenn ich
sehr eindrucksvolle Items finde,
00:49:15.040 --> 00:49:16.281
die in etwa...
00:49:16.281 --> 00:49:18.758
und dann verwendet man
alle Subklasseninstanzen,
00:49:18.758 --> 00:49:21.628
um alle abgeleiteten Anweisungen
davon zu finden."
00:49:21.628 --> 00:49:26.215
Dies ist eine sehr nützliche Methode,
um nach diesen Fehlern zu suchen.
00:49:26.215 --> 00:49:28.236
Aber ich war neugierig,
ob Shape Expressions,
00:49:29.841 --> 00:49:31.262
ob es ...
00:49:31.262 --> 00:49:33.754
ob dies als Werkzeug zur Lösung
00:49:33.754 --> 00:49:36.774
dieser Probleme
verwendet werden kann, aber ja...
00:49:40.514 --> 00:49:42.794
(Zuschauer7) Wenn es einen
strukturellen Footprint hat...
00:49:45.720 --> 00:49:47.750
Wenn es einen strukturellen Footprint hat,
00:49:47.750 --> 00:49:49.370
der irgendwie fälschbar ist,
00:49:49.370 --> 00:49:51.281
ihr seht das und könnt sagen,
das ist falsch,
00:49:51.281 --> 00:49:52.781
ja, dann kannst du das machen.
00:49:52.781 --> 00:49:56.921
Aber wenn es nur darum geht,
es auf reale Objekte abzubilden,
00:49:56.922 --> 00:49:59.252
dann wirst du einfach viel,
viel Hirnschmalz brauchen.
00:50:05.768 --> 00:50:08.631
(Zuschauer8) Hallo, Pablo Mendes
von Apple Siri Knowledge.
00:50:09.154 --> 00:50:10.520
Wir sind hier, um herauszufinden,
00:50:10.520 --> 00:50:12.770
wie wir dem Projekt
und der Community helfen können,
00:50:12.770 --> 00:50:15.645
aber Cristina machte den Fehler,
zu fragen, was wir wollen.
00:50:16.471 --> 00:50:20.052
Also eine Sache,
dich ich gerne sehen würde:
00:50:20.958 --> 00:50:23.521
Es geht viel um Überprüfbarkeit,
00:50:23.522 --> 00:50:26.372
was eines der Grundprinzipien
des Projekts in der Gemeinschaft ist,
00:50:27.062 --> 00:50:28.590
und Vertrauenswürdigkeit.
00:50:28.590 --> 00:50:32.262
Nicht jede Aussage ist gleich,
einige von ihnen sind heftig umstritten,
00:50:32.262 --> 00:50:33.933
einige von ihnen sind leicht zu lösen,
00:50:33.933 --> 00:50:36.071
wie das Geburtsdatum
einer Person zu überprüfen.
00:50:36.071 --> 00:50:37.765
Wie ihr heute in der Keynote gesehen habt,
00:50:37.765 --> 00:50:39.535
ist Geschlechterproblematik komplizierter.
00:50:40.295 --> 00:50:42.250
Könnt ihr ein bisschen
darüber diskutieren,
00:50:42.250 --> 00:50:44.791
was ihr aus diesem Bereich
der Datenqualität wisst,
00:50:44.791 --> 00:50:47.521
über Vertrauenswürdigkeit
und Überprüfbarkeit?
00:50:55.442 --> 00:50:58.268
Wenn es nicht viel ist, würde ich
gerne viel mehr sehen.
00:51:00.646 --> 00:51:01.646
(Lydia) Ja.
00:51:03.314 --> 00:51:06.548
Dazu haben wir offenbar
nicht viel zu sagen.
00:51:08.024 --> 00:51:10.070
(Andra) Ich denke, wir können viel tun,
00:51:10.070 --> 00:51:12.400
aber ich hatte gestern
ein Gespräch mit dir.
00:51:12.400 --> 00:51:15.774
Mein Lieblingsbeispiel, das ich gestern
gelernt habe und bereits veraltet ist,
00:51:15.774 --> 00:51:20.281
ist, wenn Sie zu Q2 gehen,
was die Erde ist,
00:51:20.282 --> 00:51:23.343
da gibt eine Behauptung,
die besagt, die Erde sei flach.
00:51:24.183 --> 00:51:26.055
Und ich liebe dieses Beispiel,
00:51:26.056 --> 00:51:27.781
weil es da draußen eine Community gibt,
00:51:27.781 --> 00:51:30.417
die das behauptet und sie haben
nachprüfbare Ressourcen.
00:51:30.418 --> 00:51:32.254
Also ich denke, es ist ein echter Fall,
00:51:32.255 --> 00:51:34.641
der nicht abgelehnt werden
sondern in Wikidata sein sollte.
00:51:34.642 --> 00:51:40.185
Und ich denke, dass Shape Expressions
dort wirklich hilfreich sein können,
00:51:40.185 --> 00:51:42.022
weil man sagen kann: Okay,
00:51:42.022 --> 00:51:44.646
ich bin wirklich an diesem
Anwendungsfall interessiert,
00:51:44.646 --> 00:51:47.509
oder dies ist ein Anwendungsfall,
mit dem ihr nicht einverstanden seid.
00:51:47.509 --> 00:51:49.308
Es kann aber auch
einen Anwendungsfall geben,
00:51:49.308 --> 00:51:51.149
bei dem ihr sagt, okay,
das interessiert mich.
00:51:51.149 --> 00:51:53.449
Es gibt dieses Beispiel,
wo ihr sagt, ich habe Glukose.
00:51:53.449 --> 00:51:55.841
Und Glukose, wenn man Biologe ist,
00:51:55.842 --> 00:51:58.627
interessiert man sich nicht für
die chemischen Restriktionen
00:51:58.627 --> 00:52:00.317
des Glukosemoleküls,
00:52:00.317 --> 00:52:03.201
Glukose ist immer gleich.
00:52:03.202 --> 00:52:05.973
Aber wenn man Chemiker ist,
zuckt man zusammen, wenn man das hört,
00:52:05.973 --> 00:52:08.191
man hast etwa 200...
00:52:08.191 --> 00:52:10.283
Dann kann man
viele Shape Expressions nehmen,
00:52:10.283 --> 00:52:12.621
okay, ich komme mit...
aus der Sicht eines Chemikers,
00:52:12.621 --> 00:52:13.887
ich wende das an.
00:52:13.887 --> 00:52:16.691
Und dann sagst du, ich gehe von
einem biologischen Anwendungsfall aus,
00:52:16.691 --> 00:52:18.524
ich wende diese Shape Expression an.
00:52:18.524 --> 00:52:20.628
Und wenn ihr dann kollaborieren möchtet,
00:52:20.628 --> 00:52:22.951
ja, nun, dann solltet ihr mit Eric
über ShEx-Maps sprechen.
00:52:23.500 --> 00:52:28.725
Und so... aber diese Reise
beginnt gerade erst.
00:52:28.725 --> 00:52:32.238
Aber ich persönlich glaube, dass dies
in diesem Bereich sehr entscheidend ist.
00:52:34.292 --> 00:52:35.565
(Lydia) Okay. Da drüben.
00:52:40.597 --> 00:52:43.505
(Zuschauerin1) Ich hatte einige Ideen
00:52:43.505 --> 00:52:46.035
zu einigen Punkten in den Diskussionen.
00:52:46.035 --> 00:52:48.772
Also werde ich versuchen,
diese nicht zu vergessen...
00:52:48.772 --> 00:52:50.742
Ich hatte drei Ideen, also...
00:52:52.224 --> 00:52:54.981
Basierend auf dem, was James
vor einer Weile gesagt hat,
00:52:54.981 --> 00:52:59.001
haben wir von Anfang an ein sehr,
sehr großes Problem bei Wikidata
00:52:59.002 --> 00:53:01.574
bei der oberen Ontologie.
00:53:02.363 --> 00:53:05.339
Darüber haben wir vor zwei Jahren
bei WikidataCon gesprochen
00:53:05.340 --> 00:53:07.432
und wir haben darüber
bei Wikimania gesprochen.
00:53:07.432 --> 00:53:09.818
Bei jedem Wikidata-Treffen
00:53:09.818 --> 00:53:11.289
sprechen wir darüber,
00:53:11.289 --> 00:53:15.782
weil es ein sehr großes Problem
direkt vor unseren Augen ist.
00:53:15.783 --> 00:53:19.738
Was eine Entität ist, was Arbeit ist,
00:53:19.738 --> 00:53:23.018
was ein Genre ist, Kunst,
00:53:23.018 --> 00:53:25.461
wirklich die wichtigsten Konzepte.
00:53:26.195 --> 00:53:30.512
Und das ist tatsächlich
ein sehr schwacher Punkt
00:53:30.512 --> 00:53:33.118
im Bezug auf die globale Ontologie,
00:53:33.118 --> 00:53:37.453
weil die Leute versuchen,
regelmäßig aufzuräumen
00:53:38.017 --> 00:53:41.047
und alles komplett kaputt gemacht haben.
00:53:42.516 --> 00:53:47.505
Ich denke, einige von euch
erinnern sich vielleicht an den Typ,
00:53:47.505 --> 00:53:51.785
der in gutem Glauben absolut alle Städte
auf der Welt durcheinander brachte.
00:53:51.785 --> 00:53:54.782
Das waren keine
geografischen Objekte mehr,
00:53:55.198 --> 00:53:57.768
daher gibt es überall
Verstöße gegen Constraints.
00:53:58.720 --> 00:54:00.278
Und es passierte in gutem Glauben,
00:54:00.278 --> 00:54:03.623
weil er eigentlich einen Fehler
in einem Artikel korrigierte,
00:54:04.020 --> 00:54:05.782
aber alles brach zusammen.
00:54:06.349 --> 00:54:09.373
Und ich bin nicht sicher,
wie wir das lösen können,
00:54:10.216 --> 00:54:14.386
da es eigentlich
keine externe Einrichtung gibt,
00:54:14.386 --> 00:54:15.962
die wir verwenden könnten,
00:54:15.962 --> 00:54:18.490
weil alle daran arbeiten...
00:54:19.154 --> 00:54:22.041
Nun, wenn ich Datenbank
für Kunst am Laufen habe,
00:54:22.042 --> 00:54:24.785
werde ich nur das verwendete Label
für Kunst nehmen,
00:54:24.785 --> 00:54:27.742
ich kümmere mich nicht
um das philosophische Konzept dessen,
00:54:27.742 --> 00:54:29.362
was eine Entität ist,
00:54:29.362 --> 00:54:31.201
und das ist eigentlich...
00:54:31.202 --> 00:54:34.561
Ich kenne keine Datenbank,
die auf diesem Niveau arbeitet,
00:54:34.562 --> 00:54:36.967
aber das ist der schwächste
Punkt von Wikidata.
00:54:37.936 --> 00:54:40.812
Und wahrscheinlich,
wenn wir über Datenqualität sprechen,
00:54:40.812 --> 00:54:44.034
ist das eigentlich
ein großer Teil davon, also...
00:54:44.034 --> 00:54:48.569
Und ich denke, es ist dasselbe,
was wir gesagt haben...
00:54:48.569 --> 00:54:50.632
Oh, tut mir leid, ich wechsle das Thema
00:54:51.401 --> 00:54:55.774
Aber wir haben in verschiedenen Meetings
über Qualitäten gesprochen,
00:54:55.774 --> 00:54:59.398
dass einige von uns eigentlich
gute Modellierung machen,
00:54:59.399 --> 00:55:01.240
ShEx und solche Dinge tun.
00:55:01.967 --> 00:55:07.255
Die Leute sehen es nicht auf Wikidata,
sie sehen ShEx nicht,
00:55:07.255 --> 00:55:11.232
Sie sehen das WikiProjekt nicht
auf der Diskussionsseite und manchmal
00:55:11.232 --> 00:55:14.796
sehen sie nicht einmal
die Diskussionsseiten von Eigenschaften,
00:55:14.958 --> 00:55:19.628
die ausdrücklich angeben, a),
diese Eigenschaft wird dafür verwendet.
00:55:19.628 --> 00:55:23.758
Letzte Woche zum Beispiel habe ich
Constraints einer Eigenschaft hinzugefügt.
00:55:23.758 --> 00:55:26.324
Das Constraint wurde
ausdrücklich beschrieben
00:55:26.325 --> 00:55:28.690
in der Diskussion bei
der Einführung der Eigenschaft.
00:55:28.690 --> 00:55:33.298
Ich hatte gerade den technischen Teil
zum Hinzufügen der Constraint erstellt
00:55:33.298 --> 00:55:34.548
und jemanden meinte:
00:55:34.548 --> 00:55:37.258
"Was! Du hast alle
meine Bearbeitungen zerstört!"
00:55:37.258 --> 00:55:41.542
Und die letzten zwei Jahre nutzte
er die Eigenschaft auf die falsche Art.
00:55:41.542 --> 00:55:44.239
Und die Eigenschaft
war eigentlich sehr klar,
00:55:44.239 --> 00:55:46.869
aber es gab keine Warnungen oder so etwas.
00:55:46.869 --> 00:55:49.922
Und so ist es auch beim Pink Pony,
dass wir bei Wikimania gesagt haben,
00:55:49.922 --> 00:55:54.273
WikiProject sichtbarer zu machen
oder ShEx sichtbarer zu machen,
00:55:54.273 --> 00:55:56.917
aber, und das hat Cristina gesagt,
00:55:56.917 --> 00:56:00.278
wir haben ein Problem
mit der Sichtbarkeit
00:56:00.278 --> 00:56:02.368
der vorhandenen Lösungen.
00:56:02.368 --> 00:56:05.232
Und in dieser Session
haben wir alle darüber geredet,
00:56:05.232 --> 00:56:06.993
wie man mehr mit ShEx arbeitet
00:56:06.993 --> 00:56:10.765
oder die Arbeit der Leute erleichtert,
die alles korrigieren.
00:56:11.488 --> 00:56:15.718
Aber wir korrigieren seit
dem ersten Tag von Wikidata
00:56:15.718 --> 00:56:20.741
und global verlieren wir
und wir verlieren, weil, na ja,
00:56:20.741 --> 00:56:22.960
wenn ich weiß,
dass Namen kompliziert sind,
00:56:22.961 --> 00:56:26.263
aber ich die einzige bin,
die die Korrekturen macht,
00:56:26.532 --> 00:56:29.671
der Typ, der den lateinischen
Namen hinzugefügt hat
00:56:29.672 --> 00:56:31.584
für alle chinesischen Forscher,
00:56:32.088 --> 00:56:34.266
dafür brauche ich Monate
um das zu korrigieren.
00:56:34.266 --> 00:56:35.746
und ich kann es nicht alleine tun,
00:56:35.746 --> 00:56:38.654
und er hat einen großen Batch gemacht.
00:56:38.654 --> 00:56:40.241
Also brauchen wir wirklich...
00:56:40.242 --> 00:56:44.158
Wir haben mehr ein Sichtbarkeitsproblem
als ein Werkzeugproblem, denke ich,
00:56:44.158 --> 00:56:45.873
weil wir viele Werkzeuge haben.
00:56:45.873 --> 00:56:50.035
(Lydia) Richtig, aber leider habe ich
ein Zeichen bekommen,
00:56:50.035 --> 00:56:52.121
wir müssen das also abschließen.
00:56:52.122 --> 00:56:53.493
Vielen Dank für eure Kommentare.
00:56:53.493 --> 00:56:56.611
Ich hoffe, ihr werdet die Diskussion
über den Tag fortführen
00:56:56.611 --> 00:56:58.087
und vielen Dank für euren Beitrag.