0:00:05.945,0:00:09.506
Hallo allerseits zum[br]Datenqualitätspanel.
0:00:10.288,0:00:13.511
Datenqualität ist wichtig,[br]weil immer mehr Menschen da draußen
0:00:13.511,0:00:16.269
sich darauf verlassen, dass unsere Daten[br]in einem guten Zustand sind.
0:00:16.269,0:00:19.752
Daher werden wir[br]über die Datenqualität sprechen
0:00:19.752,0:00:25.298
und es werden vier Sprecher[br]kurze Einführungen geben
0:00:25.298,0:00:28.003
zu Themen im Zusammenhang[br]mit der Datenqualität
0:00:28.003,0:00:30.130
und im Anschluss[br]folgen Fragen und Antworten.
0:00:30.130,0:00:32.234
Und der Erste ist Lucas.
0:00:34.385,0:00:35.385
Vielen Dank.
0:00:35.901,0:00:39.899
Hallo, ich bin Lucas[br]und beginne mit einer Übersicht
0:00:39.899,0:00:43.806
der Datenqualitätstools,[br]die wir bereits auf Wikidata haben
0:00:43.807,0:00:46.231
und auch von einigen Dingen,[br]die bald verfügbar sind.
0:00:46.932,0:00:50.623
Und ich habe das alles[br]in allgemeine Themen gruppiert
0:00:50.623,0:00:53.621
wie Fehler sichtbarer machen,[br]Probleme angehbar machen,
0:00:53.621,0:00:56.673
den Daten mehr Aufmerksamkeit widmen,[br]damit die Leute die Probleme bemerken,
0:00:56.945,0:00:59.367
einige der häufigen Fehlerquellen beheben,
0:00:59.717,0:01:02.517
die Qualität der vorhandenen Daten sichern
0:01:02.616,0:01:04.210
und auch Datenpflege durch Menschen.
0:01:05.063,0:01:09.998
Und die, welche derzeit verfügbar sind,[br]beginnen mit Eigenschaftsbeschränkungen.
0:01:10.228,0:01:12.521
Ihr habt dies wahrscheinlich[br]bereits auf Wikidata gesehen,
0:01:12.521,0:01:14.259
manchmal habt ihr diese Symbole,
0:01:14.530,0:01:17.241
die die interne Konsistenz[br]der Daten überprüfen.
0:01:17.242,0:01:20.800
Wenn zum Beispiel[br]ein Ereignis dem anderen folgt,
0:01:20.801,0:01:23.760
dann sollte das andere Ereignis[br]auch von diesem gefolgt werden,
0:01:23.761,0:01:27.161
was auf dem WikidataCon-Item[br]anscheinend fehlte.
0:01:27.162,0:01:29.762
Keine Ahnung, dieses Feature[br]ist erst ein paar Tage alt.
0:01:30.040,0:01:34.681
Wenn dies für euch zu einschränkend[br]oder zu einfach ist, gibt es auch
0:01:34.682,0:01:37.950
den Query Service, mit dem ihr[br]beliebige Kontrollen erstellen könnt,
0:01:37.950,0:01:39.842
was natürlich[br]bei vielen Dingen nützlich ist,
0:01:39.843,0:01:44.383
aber ihr könnt diesen auch[br]zum Auffinden von Fehlern verwenden.
0:01:44.383,0:01:46.974
Also wenn ihr das Auftreten[br]eines Fehlers bemerkt habt,
0:01:46.975,0:01:49.499
dann könnt ihr nachschauen,[br]ob es noch andere Orte gibt,
0:01:49.499,0:01:51.828
wo Leute andere,[br]ähnliche Fehler gemacht haben
0:01:51.828,0:01:53.515
und dies mit dem Query Service finden.
0:01:53.515,0:01:54.839
Ihr könnt auch beide kombinieren
0:01:54.839,0:01:57.874
und nach Verstößen gegen Constraints[br]im Query Service suchen,
0:01:57.875,0:02:01.040
zum Beispiel nur die Verstöße[br]in einigen Bereichen
0:02:01.040,0:02:03.762
oder einem WikiProject,[br]das für euch relevant ist.
0:02:03.762,0:02:06.828
Leider sind die Resultate[br]derzeit nicht vollständig.
0:02:08.232,0:02:09.877
Es gibt eine Revisionswertung.
0:02:10.390,0:02:12.666
Das ist... ich denke, das kam[br]von den letzten Änderungen.
0:02:12.666,0:02:14.944
Ihr könnt es auch[br]auf eure Beobachtungsliste setzen,
0:02:14.945,0:02:17.627
eine automatische Bewertung[br]vornehmen lassen,
0:02:17.627,0:02:20.292
ob diese Änderung wohl[br]in gutem Glauben geschehen ist oder nicht
0:02:20.292,0:02:22.312
und schädlich oder nicht schädlich ist.
0:02:22.313,0:02:24.228
Ich denke, das sind die beiden Bereiche.
0:02:24.228,0:02:25.776
Also könnt ihr, wenn ihr wollt,
0:02:25.776,0:02:29.778
euch auf nur die schädlichen, [br]aber sinnvollen Änderungen konzentrieren.
0:02:29.778,0:02:32.393
Wenn ihr euch besonders[br]freundlich und einladend fühlt,
0:02:32.393,0:02:34.272
könnt ihr den Editoren sagen:
0:02:34.272,0:02:38.498
"Vielen Dank für euren Beitrag,[br]so hättet ihr es machen sollen,
0:02:38.498,0:02:40.511
aber trotzdem danke."
0:02:40.511,0:02:42.056
Und wenn euch nicht danach ist,
0:02:42.056,0:02:44.342
könnt ihr die nicht sinnvollen[br]Änderungen durchgehen
0:02:44.342,0:02:45.856
und die Vandalen wieder zurücknehmen.
0:02:47.474,0:02:49.761
Ähnliches gilt auch[br]bei der Bewertung von Entitäten.
0:02:49.762,0:02:52.590
Anstatt also eine Änderung zu bewerten,[br]was sie geändert hat,
0:02:52.591,0:02:54.157
bewertet ihr die gesamte Revision
0:02:54.157,0:02:56.523
und ich glaube, das ist[br]das gleiche Qualitätsmaß,
0:02:56.523,0:02:59.863
welches Lydia zu Beginn[br]der Konferenz erwähnt hat.
0:03:00.372,0:03:02.273
Hier oben gibt es ein Benutzer-Skript,
0:03:02.273,0:03:04.499
welches euch eine Wertung[br]von 1 bis 5 vorgibt.
0:03:04.499,0:03:08.256
Ich glaube, das bezieht sich[br]auf die Qualität des aktuellen Eintrags.
0:03:09.979,0:03:13.287
Das Primary-Sources-Tool[br]ist für jede Datenbank gedacht,
0:03:13.287,0:03:15.268
die ihr importieren möchtet,
0:03:15.268,0:03:18.274
die aberqualitativ nicht so gut ist,[br]um sie direkt zu Wikidata hinzuzufügen,
0:03:18.274,0:03:20.485
also fügt ihr es[br]zu dem Primary-Source-Tool hinzu
0:03:20.485,0:03:22.956
und dann können die Leute entscheiden,
0:03:22.956,0:03:26.024
ob sie diese einzelnen Aussagen[br]hinzufügen sollten oder nicht.
0:03:28.505,0:03:30.321
Das Anzeigen von Koordinaten als Karten
0:03:30.321,0:03:31.931
ist vorwiegend eine praktische Funktion,
0:03:31.931,0:03:33.738
aber auch für[br]die Qualitätskontrolle nützlich.
0:03:33.738,0:03:34.970
Wenn ihr beispielsweise seht,
0:03:34.970,0:03:36.848
dies soll Büro[br]von Wikimedia Deutschland sein,
0:03:36.848,0:03:39.400
aber die Koordinaten liegen[br]irgendwo im Indischen Ozean,
0:03:39.401,0:03:41.529
dann wisst ihr, dass da etwas nicht stimmt
0:03:41.530,0:03:44.790
und ihr könnt es viel einfacher sehen[br]als nur mit den Koordinaten.
0:03:46.262,0:03:49.496
Dies ist ein Gadget mit dem Namen[br]relativer Vollständigkeitsindikator,
0:03:49.496,0:03:52.480
das euch dieses kleine Symbol hier zeigt,
0:03:53.007,0:03:55.652
das euch sagt, für wie vollständig[br]es diesen Punkt hält
0:03:55.652,0:03:57.613
und auch welche Eigenschaften[br]am ehesten fehlen.
0:03:57.614,0:03:59.889
Das ist wirklich nützlich,[br]wenn ihr eine Sache bearbeitet
0:03:59.889,0:04:03.022
und ihr euch in einem Bereich befindet,[br]mit dem ihr nicht sehr vertraut seid
0:04:03.022,0:04:05.661
und ihr nicht wisst,[br]welche Eigenschaften richtig sind.
0:04:05.662,0:04:08.230
Dann ist dies ein sehr nützliches Gadget.
0:04:09.504,0:04:11.401
Und wir haben Shape-Ausdrücke.
0:04:11.402,0:04:15.624
Ich denke, Andrea oder Jose[br]werden mehr darüber erzählen,
0:04:15.624,0:04:17.933
aber das ist im Grunde[br]eine sehr leistungsfähige Methode
0:04:17.933,0:04:20.508
zum Vergleichen der Daten,[br]die ihr habt, gegen das Schema,
0:04:20.508,0:04:22.630
also welche Aussage sollten[br]bestimmte Entitäten haben,
0:04:22.630,0:04:24.939
mit welchen anderen Entitäten[br]sollten diese verbunden sein
0:04:24.939,0:04:26.349
und wie sollten diese aussehen?
0:04:26.349,0:04:29.374
Und so könnt ihr Probleme[br]auf diese Weise finden.
0:04:30.246,0:04:32.361
Ich denke... Nein, da ist noch mehr.
0:04:32.362,0:04:34.321
Das Integraality- oder Property-Dashboard
0:04:34.322,0:04:37.023
gibt euch einen schnellen Überblick[br]der Daten, die ihr bereits habt.
0:04:37.023,0:04:39.285
Dies ist zum Beispiel[br]aus dem WikiProject Red Pandas
0:04:39.517,0:04:41.464
und ihr könnt sehen,[br]dass wir ein Geschlecht
0:04:41.464,0:04:43.561
für fast alle der roten Pandas haben,
0:04:43.561,0:04:46.854
das Geburtsdatum variiert sehr[br]im Bezug zum Zoo, aus dem sie stammen
0:04:46.854,0:04:50.255
und wir haben fast keine toten Pandas,[br]was wunderbar ist,
0:04:51.237,0:04:52.780
weil sie so süß sind.
0:04:53.699,0:04:55.654
Das ist also auch nützlich.
0:04:56.377,0:04:59.185
Nun kommen wir zu den Themen,[br]die aktuell anstehen.
0:04:59.889,0:05:03.784
Wikidata Bridge oder auch[br]bekannt als Client-Editing,
0:05:03.785,0:05:07.076
also die Bearbeitung von Wikidata[br]mittels Wikipedia-Infoboxen.
0:05:07.675,0:05:11.265
Einerseits wird auf die Daten[br]mehr Augenmerk gelegt,
0:05:11.265,0:05:13.441
weil mehr Leute[br]die Daten dort sehen können.
0:05:13.441,0:05:17.100
Dies wird hoffentlich vermehrt[br]den Gebrauch von Wikidata
0:05:17.100,0:05:19.251
in den Wikipedias anregen[br]und das bedeutet,
0:05:19.251,0:05:21.213
dass mehr Leute davon[br]Kenntnis bekommen können,
0:05:21.213,0:05:23.747
wenn manche Daten veraltet sind[br]und aktualisiert werden müssen,
0:05:23.747,0:05:27.000
als wenn dies nur auf Wikidata[br]sichtbar wäre.
0:05:28.630,0:05:30.656
Es gibt auch kaputte Referenzen.
0:05:30.657,0:05:33.986
Die Idee hier ist, dass wenn ihr[br]den Wert einer Anweisung bearbeitet,
0:05:34.683,0:05:37.059
ihr auch die Referenzen[br]aktualisieren solltet,
0:05:37.059,0:05:39.528
außer es handelt sich nur[br]um einen Tippfehler oder Ähnliches.
0:05:39.897,0:05:43.532
Und diese kaputten Referenzen[br]weisen die Bearbeiter
0:05:43.532,0:05:47.506
und auch andere Bearbeiter,[br]die das sehen können, darauf hin,
0:05:47.506,0:05:49.756
ob und welche anderen Änderungen[br]vorgenommen wurden,
0:05:49.756,0:05:52.471
den Wert der Anweisung [br]und die nicht aktualisierte Referenz.
0:05:52.472,0:05:56.766
Ihr könnt das dann korrigieren[br]und entscheiden, ob es das war...
0:05:57.477,0:06:00.496
oder noch mehr ansteht[br]oder das tatsächlich so in Ordnung ist
0:06:00.496,0:06:03.006
und ihr die Referenzen[br]nicht aktualisieren müsst.
0:06:03.543,0:06:05.996
Das bezieht sich[br]auf signierte Anweisungen,
0:06:05.996,0:06:09.251
die von einem Anliegen stammen,[br]soweit ich weiß,
0:06:09.251,0:06:12.355
dass einige Datenanbieter[br]das zum Beispiel so handhaben...
0:06:14.131,0:06:17.231
es gibt eine Anweisung, auf die[br]von der UNESCO verwiesen wird oder so
0:06:17.232,0:06:19.872
und dann zerstört plötzlich[br]jemand die Anweisung
0:06:19.873,0:06:22.196
und sie sind dann besorgt,[br]dass es dann so aussieht,
0:06:22.827,0:06:25.739
als ob der falsche veränderte Wert[br]immer noch von der Organisation
0:06:25.739,0:06:27.780
wie der UNESCO stamme,
0:06:27.780,0:06:29.503
also können sie mit signierten Anweisungen
0:06:29.503,0:06:31.488
solche Referenzen[br]kryptografisch signieren.
0:06:31.488,0:06:33.762
Das verhindert zwar[br]keine Änderungen daran,
0:06:34.169,0:06:37.034
aber zumindest, wenn jemand[br]die Anweisung verfälscht
0:06:37.034,0:06:40.255
oder sie in irgendeiner Weise verändert,[br]dann ist die Signatur nicht mehr gültig,
0:06:40.255,0:06:43.491
dann wisst ihr, dies entspricht nicht dem,[br]was von der Organisation stammt.
0:06:43.491,0:06:47.299
Vielleicht war es eine konforme Änderung[br]und diese sollte neu signiert werden,
0:06:47.299,0:06:50.760
aber vielleicht muss diese[br]wieder rückgängig gemacht werden.
0:06:51.203,0:06:54.166
Nun etwas, das auch sehr aufregend[br]sein wird, denke ich,
0:06:54.166,0:06:56.956
Citoid ist dieses erstaunliche System,[br]das sie auf Wikipedia haben.
0:06:57.379,0:07:01.266
Damit könnt ihr eine URL,[br]einen Bezeichner oder eine ISBN
0:07:01.266,0:07:04.759
oder Wikidata ID oder im Grunde[br]alles in den Visual Editor einfügen
0:07:05.260,0:07:08.041
und es spuckt eine Referenz aus,[br]die schön formatiert ist,
0:07:08.041,0:07:11.049
und dazu alle Daten, die ihr braucht,[br]und der Gebrauch davon ist toll.
0:07:11.049,0:07:14.337
Und im Vergleich dazu auf Wikidata,[br]wenn ich einen Verweis hinzufügen möchte,
0:07:14.338,0:07:17.271
muss ich normalerweise[br]eine Referenz-URL, einen Titel,
0:07:17.271,0:07:19.517
einen String des Autorennamen,[br]Veröffentlichungsort,
0:07:19.517,0:07:21.481
Veröffentlichungsdatum, Abfragedatum,
0:07:21.481,0:07:24.991
zumindest diese angeben[br]und das ist ärgerlich.
0:07:24.991,0:07:29.261
Die Integration von Citoid in Wikibase[br]wird hier hoffentlich Abhilfe bringen.
0:07:30.245,0:07:33.604
Und ich denke, das war alles,[br]was ich hatte, ja.
0:07:33.604,0:07:36.520
Also gebe ich jetzt ab zu Cristina.
0:07:43.780,0:07:45.171
Hi, ich bin Cristina.
0:07:45.171,0:07:47.753
Ich bin wissenschaftliche Mitarbeiterin[br]der Universität Zürich
0:07:47.753,0:07:51.517
und ich bin auch aktives Mitglied[br]der Schweizer Community.
0:07:52.698,0:07:57.741
Als Claudia Müller-Birn und ich dies[br]auf der WikidataCon einreichten,
0:07:57.741,0:08:00.461
war es unser Anliegen,[br]unsere Diskussion fortzusetzen,
0:08:00.461,0:08:02.594
die wir Anfang des Jahres begonnen hatten
0:08:02.594,0:08:07.442
mit einem Workshop für Datenqualität[br]und einigen Sessions in Wikimania.
0:08:07.442,0:08:10.535
Also das Ziel dieses Vortrags ist es,[br]einige Ideen von uns
0:08:10.536,0:08:14.432
und der Community anzusprechen,[br]die wir aufgegriffen haben,
0:08:14.432,0:08:16.560
und die Diskussion fortzusetzen.
0:08:16.561,0:08:20.065
Wir möchten also weiterhin[br]viel mit euch interagieren.
0:08:21.487,0:08:23.371
Also was wir für sehr wichtig halten,
0:08:23.372,0:08:27.580
ist, dass wir kontinuierlich jede Art[br]von Benutzer in der Community fragen,
0:08:27.581,0:08:29.030
was sie wirklich brauchen,
0:08:29.030,0:08:32.000
welche Probleme sie[br]mit der Datenqualität haben,
0:08:32.000,0:08:34.760
nicht nur Bearbeiter,[br]sondern auch die Leute, die programmieren
0:08:34.760,0:08:37.510
oder einfach Daten verwenden,[br]und auch Forscher,
0:08:37.510,0:08:39.494
die den gesamten[br]Bearbeitungsverlauf verwenden,
0:08:39.494,0:08:41.620
um zu analysieren, was vor sich geht.
0:08:42.367,0:08:46.021
Wir haben also eine Überprüfung[br]von rund 80 Tools durchgeführt,
0:08:46.021,0:08:49.251
die in Wikidata vorhanden sind,[br]und wir haben sie ausgerichtet
0:08:49.251,0:08:52.225
an verschiedenen Dimensionen[br]der Datenqualität.
0:08:52.225,0:08:54.510
Und was wir eigentlich bemerkten,
0:08:54.510,0:08:57.681
viele davon waren für das Monitoring[br]der Vollständigkeit gedacht,
0:08:57.682,0:09:02.820
doch einige von ihnen ermöglichen[br]auch Verknüpfungen.
0:09:02.820,0:09:08.442
Es besteht jedoch ein großer Bedarf[br]an Tools, die sich mit Vielfalt befassen.
0:09:08.443,0:09:12.774
Das ist eines der Merkmale,[br]die tatsächlich in Wikidata möglich sind.
0:09:12.774,0:09:15.748
Insbesondere dieses Gestaltungsprinzip[br]von Wikidata,
0:09:15.748,0:09:17.901
wo wir Vielfalt haben können,
0:09:17.902,0:09:20.508
also unterschiedliche Anweisungen[br]mit unterschiedlichen Werten,
0:09:20.614,0:09:22.236
die aus verschiedenen Quellen kommen.
0:09:22.236,0:09:25.231
Da es sich um sekundäre Quellen handelt,[br]haben wir nicht wirklich Werkzeuge,
0:09:25.231,0:09:27.750
die uns zeigen, wie viele[br]kumulierte Aussagen es gib
0:09:27.751,0:09:30.889
und wie viele davon wir[br]verbessern können und wie
0:09:30.890,0:09:32.833
und wir wissen auch nicht wirklich,
0:09:32.833,0:09:35.788
was die Gründe für die Vielfalt sind,[br]die auftreten können.
0:09:36.491,0:09:40.291
Also was wir besprochen haben[br]auf diesen Community-Treffen,
0:09:40.291,0:09:43.084
waren die Herausforderungen,[br]die noch Aufmerksamkeit erfordern.
0:09:43.084,0:09:46.989
Sehr toll zum Beispiel sind[br]all diese Crowdsourcing-Communities,
0:09:46.989,0:09:49.263
weil verschiedene Leute[br]verschiedene Bereiche
0:09:49.263,0:09:51.679
der Daten oder der Diagramme angehen
0:09:51.679,0:09:54.615
und wir haben auch unterschiedliche[br]Hintergrundkenntnisse.
0:09:54.616,0:09:58.981
Tatsächlich ist es jedoch sehr schwierig,[br]alles in etwas Konsistentes auszurichten,
0:09:58.981,0:10:01.291
weil unterschiedliche Menschen
0:10:01.291,0:10:04.920
unterschiedliche Eigenschaften[br]auf unterschiedliche Weise nutzen
0:10:04.920,0:10:08.511
und sie erwarten auch Unterschiedliches[br]von Entitätsbeschreibungen.
0:10:09.003,0:10:12.721
Die Leute meinten auch,[br]dass sie mehr Werkzeuge brauchen,
0:10:12.722,0:10:16.000
die einen besseren Überblick ermöglichen[br]über den globalen Status der Dinge.
0:10:16.000,0:10:20.733
Also welche Einheiten in Bezug[br]auf Vollständigkeit fehlen,
0:10:20.733,0:10:26.021
aber auch so etwas wie, woran die Leute[br]gerade die meiste Zeit arbeiten,
0:10:26.021,0:10:30.516
und sie erwähnen auch oft[br]eine engere Zusammenarbeit
0:10:30.517,0:10:33.311
nicht inur m Hinblick auf Sprachen,[br]sondern die WikiProjects
0:10:33.311,0:10:35.658
und die verschiedenen[br]Wikimedia-Plattformen.
0:10:35.658,0:10:38.859
Und wir haben alle transkribierten[br]Kommentare veröffentlicht
0:10:38.860,0:10:42.959
von all diesen Diskussionen[br]in diesen Links hier in den Etherpads
0:10:42.959,0:10:45.982
und auch auf der Wiki-Seite von Wikimania.
0:10:46.232,0:10:48.481
Einige der Lösungen,[br]die tatsächlich aufgetaucht sind,
0:10:48.481,0:10:53.001
gingen in die Richtung,[br]mehr Best Practices auszutauschen,
0:10:53.001,0:10:55.762
die in verschiedenen WikiProjects[br]entwickelt werden.
0:10:55.762,0:10:57.989
Aber die Leute wollen auch Tools,
0:10:57.989,0:11:01.239
die dabei helfen,[br]die Arbeit in Teams zu organisieren,
0:11:01.239,0:11:03.845
oder zumindest verstehen helfen,[br]wer woran arbeitet,
0:11:03.845,0:11:07.815
und sie erwähnten auch, dass sie sich[br]mehr Anwendungsbeispiele wünschen
0:11:07.816,0:11:12.019
und mehr Vorlagen, mit denen sie[br]Dinge besser erstellen können.
0:11:12.946,0:11:14.741
Und im Hinblick auf den Kontakt,
0:11:14.741,0:11:18.525
den wir mit offenen staatlichen[br]Datenorganisationen haben,
0:11:18.525,0:11:22.973
und insbesondere stehe ich in Kontakt[br]mit dem Kanton und der Stadt Zürich,
0:11:22.973,0:11:26.207
sind diese sehr daran interessiert,[br]mit Wikidata zu arbeiten
0:11:26.207,0:11:30.490
weil sie wollen, dass ihre Daten[br]für alle an dem Ort zugänglich sind,
0:11:30.490,0:11:33.681
an dem Menschen Daten abrufen[br]oder darauf zugreifen.
0:11:33.682,0:11:36.550
Für sie wäre es wirklich interessant
0:11:36.551,0:11:38.775
eine Art von Qualitätsindikatoren[br]zu haben
0:11:38.775,0:11:40.822
sowohl im Wiki,[br]was bereits verwirklicht wird,
0:11:40.822,0:11:42.664
als auch in SPARQL-Ergebnissen,
0:11:42.664,0:11:44.947
um zu wissen, ob sie diesen [br]Community-basierten Daten
0:11:44.947,0:11:46.237
vertrauen können oder nicht.
0:11:46.237,0:11:48.230
Weiterhin wollen sie auch wissen,
0:11:48.230,0:11:51.417
welche Teile der eigenen Datensätze[br]für Wikidata nützlich sind.
0:11:51.418,0:11:53.071
Und sie hätten gerne ein Tool,
0:11:53.071,0:11:56.041
mit dem sie dies [br]automatisch beurteilen können.
0:11:56.041,0:11:59.066
Sie benötigen auch eine Methode[br]oder ein Werkzeug,
0:11:59.067,0:12:02.817
das ihnen bei der Entscheidung hilft,[br]ob sie ihre Daten importieren
0:12:02.817,0:12:04.894
oder verknüpfen sollen,[br]denn in einigen Fällen
0:12:04.895,0:12:07.247
haben sie auch ihre eigenen[br]verknüpften offenen Datensätze.
0:12:07.247,0:12:09.746
Sie wissen also nicht,[br]ob sie die Daten nur aufnehmen sollen
0:12:09.747,0:12:13.274
oder weiterhin Links von den Datensätzen[br]zu Wikidata erstellen sollen
0:12:13.274,0:12:14.562
und umgekehrt.
0:12:14.950,0:12:17.014
Und sie möchten auch wissen,
0:12:17.014,0:12:20.044
auf welche Websites in Wikidata[br]verwiesen wird.
0:12:20.044,0:12:23.361
Und wenn sie eine solche Abfrage[br]im Query Service ausführen,
0:12:23.362,0:12:24.938
bekommen sie oft Zeitüberschreitungen.
0:12:24.938,0:12:28.181
Vielleicht sollten wir wirklich[br]mehr Werkzeuge schaffen,
0:12:28.181,0:12:32.240
die ihnen helfen, diese Antworten[br]auf ihre Fragen zu bekommen.
0:12:33.148,0:12:35.768
Und davon abgesehen,
0:12:35.768,0:12:39.361
uns als Wiki-Forschern fehlen manchmal[br]auch bei den Zusammenfassungen
0:12:39.362,0:12:42.023
der Änderungen einige Informationen.
0:12:42.024,0:12:44.953
Ich erinnere mich daran,[br]als wir daran arbeiteten,
0:12:44.954,0:12:48.919
das unterschiedliche Verhalten[br]der Bearbeiter zu verstehen
0:12:48.919,0:12:53.403
im Hinblick auf Tools oder Bots,[br]anonyme Benutzer und so weiter,
0:12:53.403,0:12:58.744
fehlte uns zum Beispiel wirklich[br]eine Standardmethode zum Nachverfolgen,
0:12:58.744,0:13:00.982
ob Tools verwendet wurden.
0:13:00.982,0:13:03.154
Und es gibt einige Tools,[br]die das bereits tun
0:13:03.155,0:13:05.230
wie PetScan und viele andere,
0:13:05.230,0:13:07.720
aber vielleicht sollten wir[br]in der Community
0:13:07.721,0:13:10.130
öfter darüber diskutieren, wie Sie diese
0:13:10.130,0:13:13.969
mit einer feinkörnigen Datenherkunft [br]aufnehmen können.
0:13:13.969,0:13:16.031
Weiterhin sind wir der Meinung, dass wir
0:13:16.031,0:13:20.801
konkretere Datenqualitätsdimensionen[br]berücksichtigen müssen,
0:13:20.802,0:13:24.961
die sich auf verbundene Daten beziehen,[br]aber nicht alle Arten von Daten.
0:13:24.962,0:13:28.022
Deshalb haben wir[br]einige Maßnahmen erarbeitet,
0:13:28.022,0:13:30.782
um auf den Informationsgewinn[br]tatsächlich zuzugreifen,
0:13:30.782,0:13:33.881
der durch die Links aktiviert wird,[br]und was wir damit meinen, ist,
0:13:33.882,0:13:36.681
dass wenn wir Wikidata[br]mit anderen Datensätzen verknüpfen,
0:13:36.682,0:13:38.323
sollten wir auch daran denken,
0:13:38.323,0:13:41.921
wie viel die Entitäten tatsächlich[br]durch die Klassifizierung gewinnen,
0:13:41.922,0:13:45.601
auch in der Beschreibung, aber auch[br]in den Vokabeln, die sie verwenden.
0:13:45.602,0:13:51.251
Also nur um ein sehr einfaches Beispiel[br]zu geben, was ich damit meine, ist,
0:13:51.251,0:13:54.269
was wir uns in diesem Fall [br]vorstellen können, wäre, Wikidata
0:13:54.270,0:13:57.651
oder das externe Rechenzentrum,[br]das mit Wikidata verknüpft ist,
0:13:57.651,0:14:00.487
dort haben wir die Entität einer Person,[br]die Natasha Noy heißt,
0:14:00.487,0:14:02.601
wir haben die Zugehörigkeit[br]und andere Dinge
0:14:02.602,0:14:05.239
und dann sagen wir: OK,[br]wir verlinken zu einem externen Ort
0:14:05.240,0:14:08.919
und diese Entität hat den gleichen Namen,[br]tatsächlich haben wir den gleichen Wert.
0:14:08.920,0:14:11.499
Was also besser wäre, ist,[br]dass wir auf etwas verlinken,
0:14:11.499,0:14:12.889
das einen anderen Namen hat.
0:14:12.889,0:14:15.252
Das ist immer noch gültig,[br]weil es zwei Möglichkeiten gibt,
0:14:15.252,0:14:16.972
den Namen dieser Person zu schreiben
0:14:16.972,0:14:19.714
und auch andere Informationen,[br]die wir nicht in Wikidata haben
0:14:19.715,0:14:21.922
oder auch nicht in[br]einem anderen Datensatz haben.
0:14:22.390,0:14:24.652
Aber was noch besser ist, ist,
0:14:24.653,0:14:27.478
dass wir tatsächlich[br]im Zieldatensatz suchen,
0:14:27.478,0:14:29.633
da sie dort auch neue Möglichkeiten
0:14:29.633,0:14:31.393
zur Klassifizierung[br]der Informationen haben.
0:14:31.393,0:14:35.354
Das ist also nicht nur eine Person,[br]sondern in dem anderen Datensatz
0:14:35.355,0:14:37.966
steht auch, ob es sei eine Frau[br]oder etwas anderes,
0:14:37.966,0:14:39.526
mit dem sie sich einordnen lässt.
0:14:39.526,0:14:43.401
Und wenn in dem anderen Datensatz,[br]viele andere Vokabeln verwendet werden,
0:14:43.402,0:14:46.588
hilft das auch bei der gesamten[br]Informationsbeschaffung.
0:14:47.371,0:14:50.973
Damit möchte ich auch sagen,[br]dass wir denken,
0:14:50.973,0:14:55.809
dass wir gebündelte Abfragen[br]besser präsentieren können,
0:14:55.810,0:15:00.448
denn wenn wir uns das Abfrageprotokoll[br]von Malyshev et al. ansehen,
0:15:01.285,0:15:04.301
sehen wir, dass wir [br]aus den organischen Abfragen
0:15:04.302,0:15:06.921
nur sehr wenige gebündelte[br]Suchergebnisse haben.
0:15:06.922,0:15:12.501
Und tatsächlich ist Bündelung einer[br]der Hauptvorteile von Verbindungsdaten.
0:15:12.501,0:15:16.903
Also vielleicht brauchen die Community[br]oder die Leute, die Wikidata benutzen,
0:15:16.903,0:15:18.898
auch mehr Beispiele dazu.
0:15:18.898,0:15:22.666
Und wenn wir uns die Liste[br]der verwendeten Endpunkte ansehen,
0:15:22.667,0:15:25.401
ist dies keine vollständige Liste[br]und wir haben noch viele mehr.
0:15:25.402,0:15:30.279
Natürlich wurden diese Daten[br]aus Abfragen bis März 2018 analysiert,
0:15:30.469,0:15:34.047
aber wir sollten uns jedoch die Liste[br]der gebündelten Endpunkte ansehen,
0:15:34.047,0:15:37.252
die wir haben und sehen, ob wir sie[br]wirklich benutzen oder nicht.
0:15:37.813,0:15:40.281
Also zwei Fragen,[br]die ich für das Publikum habe,
0:15:40.281,0:15:43.001
die wir nachher als Grundlage[br]für eine Diskussion verwenden können:
0:15:43.001,0:15:46.001
Welche Datenqualitätsprobleme sollten[br]eurer Meinung nach behoben werden
0:15:46.002,0:15:47.626
aufgrund eurer Bedürfnisse?
0:15:47.626,0:15:50.401
Aber ebenso, wo braucht ihr[br]mehr Automatisierung,
0:15:50.402,0:15:53.243
die euch beim Bearbeiten[br]oder dem Kontrollieren hilft.
0:15:53.736,0:15:55.306
Das ist alles, vielen Dank.
0:16:05.740,0:16:08.595
(Jose Emilio Labra) Okay,[br]worüber ich sprechen werde,
0:16:08.595,0:16:14.715
sind einige Tools, die wir im Zusammenhang[br]mit Shape Expressions entwickelt haben.
0:16:15.536,0:16:18.251
Also darüber möchte ich etwas erzählen.
0:16:18.251,0:16:19.740
Ich bin Jose Emilio Labra,
0:16:19.740,0:16:23.750
aber all diese Tools wurden[br]von verschiedenen Leuten gemacht,
0:16:23.750,0:16:26.740
hauptsächlich im Zusammenhang[br]mit W3C ShEx,
0:16:26.740,0:16:28.481
der Shape Expressions Community Group.
0:16:28.481,0:16:29.719
ShEx Community Group.
0:16:30.144,0:16:34.382
Also das erste Tool, das ich[br]erwähnen möchte, ist RDFShape,
0:16:34.382,0:16:36.082
dies ist ein allgemeines Werkzeug,
0:16:36.082,0:16:40.499
weil Shape Expressions[br]nicht nur für Wikidata sind.
0:16:40.499,0:16:44.168
Shape Expressions ist eine Sprache[br]zur allgemeinen Validierung von RDF.
0:16:44.168,0:16:47.568
Dieses Tool wurde[br]hauptsächlich von mir entwickelt
0:16:47.568,0:16:50.880
und es ist ein Werkzeug,[br]um RDF im Allgemeinen zu validieren.
0:16:50.881,0:16:55.139
Wenn ihr also mehr über RDF[br]erfahren wollt oder RDF validieren möchtet
0:16:55.140,0:16:58.521
oder SPARQL-Endpunkte[br]nicht nur in Wikidata,
0:16:58.521,0:17:00.891
ist meine Empfehlung,[br]dass ihr dieses Tool verwenden könnt.
0:17:00.891,0:17:03.255
Auch zum Unterrichten.
0:17:03.255,0:17:05.640
Ich bin Lehrer an der Universität
0:17:05.641,0:17:07.991
und ich benutze es[br]in meinem Semantic-Web-Kurs,
0:17:07.991,0:17:09.321
um RDF zu unterrichten.
0:17:09.321,0:17:12.350
Wenn ihr also RDF lernen möchtet,[br]halte ich es für ein nützliches Werkzeug.
0:17:13.033,0:17:15.997
Dies ist beispielsweise[br]eine Visualisierung
0:17:15.997,0:17:18.017
eines RDF-Diagramms mit dem Tool.
0:17:18.727,0:17:22.643
Aber bevor ich letzten Monat[br]hierher gekommen bin,
0:17:22.643,0:17:27.003
habe ich einen Fork von rdfshape[br]speziell für Wikidata erstellt,
0:17:27.003,0:17:28.443
weil ich dachte...
0:17:28.443,0:17:32.942
Es heißt WikiShape und ich habe es gestern[br]als Geschenk für Wikidata präsentiert.
0:17:32.942,0:17:34.751
Was ich also genommen habe, ist...
0:17:34.751,0:17:39.791
Ich habe alles entfernt,[br]was nicht mit Wikidata zu tun hatte
0:17:39.791,0:17:44.801
und um einige Dinge zu hartcodieren,[br]zum Beispiel den Wikidata-SPARQL-Endpunkt.
0:17:44.802,0:17:49.041
Doch jetzt hat mich jemand gefragt, ob ich[br]das auch für Wikibase machen könnte.
0:17:49.042,0:17:52.000
Und es ist auch für Wikibase[br]sehr einfach zu machen.
0:17:52.760,0:17:56.280
Also dieses Tool, WikiShape,[br]ist ziemlich neu.
0:17:57.015,0:17:59.633
Ich denke, es funktioniert,[br]die meisten Funktionen,
0:17:59.633,0:18:02.529
aber es gibt einige Funktionen,[br]die möglicherweise nicht funktionieren,
0:18:02.529,0:18:05.231
und wenn ihr es versuchen wollt[br]oder es verbessern wollt,
0:18:05.231,0:18:06.391
sagt es mir bitte.
0:18:06.391,0:18:08.503
Das sind also [unverständlich] Aufnahmen,
0:18:08.503,0:18:11.515
aber ich denke,[br]ich kann es auch so versuchen,
0:18:11.705,0:18:13.263
Also lasst es uns versuchen.
0:18:14.933,0:18:16.945
Mal sehen, ob es funktioniert.
0:18:16.953,0:18:20.070
Zuerst muss ich da rausgehen...
0:18:22.453,0:18:23.453
Hier.
0:18:24.226,0:18:27.724
Okay, ja. Das ist also das Werkzeug hier.
0:18:28.204,0:18:30.467
Dinge, die ihr mit dem Tool[br]zum Beispiel machen könnt,
0:18:30.467,0:18:35.275
sind, ihr könnt Schemas,[br]Entitätsschemas überprüfen.
0:18:35.276,0:18:37.482
Ihr wisst, dass es[br]einen neuen Namespace gibt,
0:18:37.482,0:18:38.762
der E-irgendwas heißt.
0:18:38.762,0:18:44.485
Wenn ihr also hier zum Beispiel[br]anfangt zu schreiben "Mensch"...
0:18:44.735,0:18:48.812
Während ihr schreibt, könnt ihr[br]mittels der Autovervollständigung prüfen.
0:18:48.812,0:18:52.001
Dies ist zum Beispiel[br]die Shape Expression für Mensch
0:18:52.790,0:18:55.937
und das sind die Shape Expressions hier.
0:18:55.938,0:18:59.841
Und wie ihr sehen könnt,[br]hat dieser Editor Syntax-Hervorhebung,
0:18:59.842,0:19:04.559
das ist... naja,[br]vielleicht ist der Bildschirm zu klein.
0:19:05.676,0:19:07.719
Ich kann versuchen, es größer zu machen.
0:19:09.194,0:19:10.973
Vielleicht seht ihr es jetzt besser.
0:19:10.973,0:19:14.241
Also... und das ist der Editor[br]mit Syntax-Hervorhebung und er hat auch...
0:19:14.241,0:19:17.851
dieser Editor stammt [br]aus demselben Quellcode
0:19:17.851,0:19:19.771
wie der Wikidata-Abfragedienst.
0:19:19.771,0:19:23.750
Also zum Beispiel,[br]wenn man mit der Maus hier schwebt,
0:19:23.750,0:19:27.961
zeigt es die Beschriftungen[br]der verschiedenen Eigenschaften.
0:19:27.962,0:19:31.298
Also ich finde, das ist sehr hilfreich,[br]weil jetzt...
0:19:32.588,0:19:36.001
die Entitätsschemata in Wikidata
0:19:36.001,0:19:38.477
sind nur eine Idee in einfachem Text.
0:19:38.501,0:19:42.493
Aber ich denke, dieser Editor ist[br]viel besser, weil er Autocomplete hat
0:19:42.494,0:19:43.908
und er hat auch...
0:19:43.908,0:19:48.241
Ich meine zum Beispiel, wenn ihr[br]eine Einschränkung hinzufügen wolltet,
0:19:48.241,0:19:51.570
sagt ihr "wdt:",
0:19:51.570,0:19:53.754
und fangt an zu schreiben "author"
0:19:53.754,0:19:56.884
und klickt dann mit Strg + Leertaste
0:19:56.884,0:19:59.012
und es schlägt euch[br]die verschiedenen Einträge vor.
0:19:59.012,0:20:02.291
Das ist also ähnlich[br]wie beim Wikidata-Abfragedienst,
0:20:02.291,0:20:06.285
aber speziell für Shape Expressions,
0:20:06.285,0:20:11.275
weil ich das Gefühl habe,[br]Shape Expressions zu kreieren
0:20:11.715,0:20:15.841
ist nicht schwieriger als[br]das Schreiben von SPARQL-Abfragen.
0:20:15.842,0:20:21.255
Manche Leute denken, dass es[br]auf dem gleichen Niveau ist.
0:20:22.278,0:20:24.746
Ich denke, es ist[br]wahrscheinlich einfacher.
0:20:24.746,0:20:27.521
Denn die Shape Expressions waren,[br]als wir es entworfen haben,
0:20:27.521,0:20:31.029
haben wir es getan,[br]um die Arbeit zu vereinfachen.
0:20:31.029,0:20:35.001
Okay, das ist eines der ersten Dinge,[br]die ihr in diesen Editor habt
0:20:35.001,0:20:36.620
für Shape Expressions.
0:20:37.371,0:20:41.467
Und dann habt ihr zum Beispiel[br]auch die Möglichkeit, zu visualisieren.
0:20:41.468,0:20:44.801
Wenn man eine Shape Expression habt[br]verwendet man zum Beispiel...
0:20:44.802,0:20:49.386
Ich denke, "written"[br]ist eine schöne Shape Expression,
0:20:49.386,0:20:53.500
weil sie einige Beziehungen[br]zwischen verschiedenen Dingen hat.
0:20:54.823,0:20:58.160
Und das ist die UML-Visualisierung[br]von schriftlichen Arbeiten.
0:20:58.161,0:21:02.090
In UML sind die verschiedenen[br]Eigenschaften leicht zu erkennen.
0:21:02.790,0:21:06.794
Wenn ihr dies macht - mir wurde das klar,[br]als ich das mit mehreren Leuten versuchte,
0:21:06.795,0:21:09.216
finden diese einige Fehler[br]in ihren Shape Expressions,
0:21:09.217,0:21:11.028
denn es ist leicht zu erkennen,
0:21:11.028,0:21:13.488
welche Eigenschaften fehlen[br]oder was auch immer.
0:21:13.488,0:21:15.991
Dann hier eine andere Möglichkeit ist,
0:21:15.991,0:21:19.520
dass ihr auch validieren könnt,[br]ich habe es hier, die Validierung.
0:21:20.496,0:21:25.285
Ich glaube, ich hatte es in einem Label,[br]vielleicht habe ich es geschlossen.
0:21:26.267,0:21:30.988
Okay, aber ihr könnt beispielsweise hier[br]Validate entities klicken,
0:21:32.308,0:21:34.232
zum Beispiel...
0:21:35.404,0:21:41.921
"q42" mit "e42", das ist Urheber.
0:21:42.818,0:21:46.500
Mit "human" können wir[br]es machen, glaube ich.
0:21:48.970,0:21:50.131
Und dann ist es...
0:21:50.688,0:21:56.248
es dauert eine Weile, weil dabei[br]die SPARQL-Abfragen ausgeführt werden
0:21:56.248,0:21:59.264
und jetzt, zum Beispiel,[br]scheitert es am Netzwerk, aber...
0:21:59.657,0:22:01.580
Also ihr könnt es versuchen.
0:22:02.759,0:22:07.026
Gut, lasst uns mit der Präsentation[br]der anderen Tools fortfahren.
0:22:07.026,0:22:10.513
Mein Rat ist also,[br]wenn ihr es versuchen möchtet
0:22:10.513,0:22:12.783
und Feedback wollt, lasst es mich wissen.
0:22:13.133,0:22:15.540
Also, um mit der[br]Präsentation fortzufahren...
0:22:18.743,0:22:20.277
Das ist also WikiShape.
0:22:23.800,0:22:26.509
Dann, das habe ich schon erwähnt,
0:22:27.681,0:22:30.277
gibt es den Shape Expressions Editor,
0:22:30.277,0:22:34.402
das ist ein eigenständiges Projekt[br]in GitHub.
0:22:35.505,0:22:37.532
Ihr könnt es in eurem[br]eigenen Projekt verwenden.
0:22:37.532,0:22:41.036
Wenn ihr ein Tool für[br]Shape Expression benötigt,
0:22:41.036,0:22:45.635
könnt ihr es einfach in jedes[br]andere Projekt einbetten.
0:22:45.636,0:22:48.235
Das ist auf GitHub[br]und ihr könnt es benutzen.
0:22:48.868,0:22:51.970
Der gleiche Autor, einer meiner Schüler,
0:22:52.684,0:22:55.704
hat auch einen Editor[br]für Shape Expressions erstellt,
0:22:55.704,0:22:57.789
ebenfalls inspiriert[br]vom Wikidata-Abfragedienst,
0:22:57.789,0:23:00.681
wo ihr in dieser Spalte
0:23:00.682,0:23:05.033
diesen vorwiegend visuellen Editor[br]für SPARQL-Abfragen habt,
0:23:05.033,0:23:07.135
wo ihr diese Dinge bewerkstelligen könnt.
0:23:07.136,0:23:09.123
Das ist also eine Bildschirmaufnahme.
0:23:09.123,0:23:12.662
Ihr könnt sehen, dass dies[br]die Shape Expressions im Text sind.
0:23:12.662,0:23:15.745
Dies ist jedoch eine formularbasierte[br]Shape Expression,
0:23:15.745,0:23:18.505
bei der es wahrscheinlich[br]etwas länger dauern würde.
0:23:18.505,0:23:23.400
Hier könnt ihr die verschiedenen Zeilen[br]in die verschiedenen Felder einfügen.
0:23:23.401,0:23:25.800
Oay, dann gibt es ShExEr.
0:23:26.879,0:23:27.943
Wir haben...
0:23:27.943,0:23:31.883
das wird von einem Doktoranden[br]an der Universität von Oviedo gemacht
0:23:31.883,0:23:34.276
und er ist hier, damit er[br]ShExEr präsentieren kann.
0:23:38.147,0:23:40.024
(Danny) Hallo, ich bin Danny Fernández,
0:23:40.025,0:23:43.800
Ich bin Doktorand an der Universität[br]von Oviedo und arbeite mit Labra.
0:23:44.710,0:23:47.725
Da uns die Zeit davon läuft,[br]lasst uns dies schnell machen.
0:23:47.726,0:23:52.641
Wir starten also keine Demo,[br]sondern zeigen nur einige Screenshots.
0:23:52.642,0:23:56.387
Okay, also die übliche Art,[br]mit Shape Expressions zu arbeiten
0:23:56.387,0:23:58.301
oder einer beliebigen Formsprache, ist,
0:23:58.301,0:23:59.791
dass Sie einen Domain-Experten haben,
0:23:59.791,0:24:02.313
der als Erstes definiert,[br]wie der Graph aussehen soll
0:24:02.314,0:24:03.756
einige Strukturen definiert
0:24:03.756,0:24:05.746
und dann verwendet man diese Strukturen,
0:24:05.746,0:24:07.750
um die tatsächlichen Daten[br]dagegen zu validieren.
0:24:08.124,0:24:11.641
Dieses Tool und auch diejenigen,[br]die von Labra vorgestellt wurden,
0:24:11.642,0:24:14.441
sind Allzweckwerkzeuge[br]für jede RDF-Quelle.
0:24:14.442,0:24:17.255
Es ist so konzipiert,[br]dass es umgekehrt funktioniert.
0:24:17.255,0:24:18.969
Man hat bereits einige Daten,
0:24:18.969,0:24:23.165
Man wählt aus, welche Notizen[br]die Form erhalten soll
0:24:23.165,0:24:26.718
und dann extrahiert oder schließt[br]man die Form automatisch.
0:24:26.719,0:24:29.541
Also, auch wenn dies[br]ein Allzweckwerkzeug ist,
0:24:29.541,0:24:32.034
was wir für diese WikidataCon[br]gemacht haben,
0:24:32.034,0:24:34.254
ist diese schicke Schaltfläche.
0:24:34.254,0:24:37.301
Wenn man darauf klickt,[br]was im Wesentlichen passiert, ist,
0:24:37.301,0:24:42.079
es gibt so viele Konfigurationsparameter
0:24:42.080,0:24:46.251
und es konfiguriert es für die Arbeit[br]mit dem Wikidata-Endpunkt
0:24:46.251,0:24:47.971
und ich bin fast fertig, sorry.
0:24:48.733,0:24:52.883
Sobald man diesen Knopf drückt,[br]erhält man im Wesentlichen Folgendes.
0:24:52.884,0:24:55.266
Nachdem man ausgewählt hat,[br]welche Art von Notizen,
0:24:55.266,0:24:59.360
was für Instanzen unserer Klasse,[br]was auch immer man will,
0:24:59.361,0:25:01.393
erhält man ein automatisches Schema.
0:25:02.319,0:25:04.473
Alle Einschränkungen sind danach sortiert,
0:25:04.473,0:25:07.112
wie viele Modi tatsächlich[br]damit übereinstimmen.
0:25:07.112,0:25:09.772
Man kann so die selteneren filtern[br]und so weiter.
0:25:09.772,0:25:12.466
Also wir haben da unten[br]ein Poster über dieses Thema
0:25:12.466,0:25:14.695
und ich werde unten und oben sein
0:25:14.695,0:25:16.454
und überall den ganzen Tag.
0:25:16.455,0:25:19.081
Wer also weiteres Interesse[br]an diesem Tool hat,
0:25:19.082,0:25:21.477
kann mich einfach [br]während dieses Events ansprechen.
0:25:21.477,0:25:24.624
Und jetzt werde ich Labra[br]das Mikro zurückgeben, danke.
0:25:29.812,0:25:32.578
(Jose) Also lasst uns mit[br]den anderen Tools fortfahren.
0:25:32.579,0:25:34.984
Ein anderes Werkzeug[br]ist der ShapeDesigner.
0:25:34.984,0:25:37.281
Andra, möchtest du jetzt[br]den ShapeDesigner machen
0:25:37.281,0:25:39.287
oder vielleicht später im Workshop?
0:25:39.287,0:25:40.773
Es gibt einen Workshop...
0:25:40.773,0:25:44.496
Heute Nachmittag gibt es einen Workshop[br]speziell für Shape Expressions und...
0:25:45.265,0:25:47.939
Die Idee ist, dass wir dort[br]mehr in die Praxis gehen können,
0:25:47.940,0:25:52.324
und wenn ihr etwas ShEx üben möchtet,[br]könnt ihr es dort tun.
0:25:52.875,0:25:55.470
Dieses Tool ist ShEx... und hier ist Eric,
0:25:55.470,0:25:56.998
also kannst du es präsentieren.
0:25:57.969,0:25:59.527
(Eric) Also einfach super schnell.
0:25:59.527,0:26:01.259
Das, was ich sagen möchte, ist,
0:26:01.259,0:26:05.501
dass ihr wahrscheinlich bereits[br]die ShEx-Schnittstelle gesehen habt,
0:26:05.501,0:26:07.601
die auf Wikidata zugeschnitten ist.
0:26:07.602,0:26:12.930
Das ist effektiv vereinfacht[br]und speziell auf Wikidata zugeschnitten
0:26:12.930,0:26:15.767
da die Generische mehr Funktionen hat,
0:26:15.767,0:26:18.257
sich aber herausstellte -[br]ich dachte, ich sollte es erwähnen -
0:26:18.257,0:26:20.238
weil eine dieser Funktionen[br]besonders nützlich
0:26:20.238,0:26:23.201
zum Debuggen von Wikidata-Schemas ist.
0:26:23.201,0:26:28.984
Das heißt, wenn ihr hingeht[br]und den Slurp-Modus wählt,
0:26:28.984,0:26:31.504
was es tut, ist, es sagt,[br]während ich validiere,
0:26:31.504,0:26:34.504
möchte ich alle Tripel herausziehen[br]und das bedeutet,
0:26:34.504,0:26:36.274
wenn ich ein paar Ausfälle bekomme,
0:26:36.275,0:26:39.676
kann ich durchgehen und anfangen,[br]diese Fehler zu betrachten und zu sagen:
0:26:39.676,0:26:41.980
Okay, was sind die Dreiergruppen,[br]die hier drin sind -
0:26:41.980,0:26:44.057
Entschuldigung, [br]die Dreiergruppen sind da unten,
0:26:44.057,0:26:46.201
dies ist nur ein Protokoll dessen,[br]was passiert ist -
0:26:46.277,0:26:49.250
und dann könnt ihr einfach da sitzen[br]und in Echtzeit damit experimentieren,
0:26:49.250,0:26:51.416
als würde man mit etwas[br]spielen und es verändert sich.
0:26:51.416,0:26:54.270
Es ist also eine schnellere Variante,[br]um all diese Dinge zu erledigen.
0:26:55.231,0:26:56.481
Dies ist ein ShExC-Formular.
0:26:56.482,0:26:59.455
Dies ist etwas, was Joachim[br]vorgeschlagen hatte,
0:27:00.035,0:27:04.631
das nützlich sein könnte,[br]um Wikidata-Dokumente zu füllen
0:27:04.631,0:27:07.338
basierend auf einer Shape Expression[br]für dieses Dokument.
0:27:08.095,0:27:11.681
Dies ist nicht auf Wikidata zugeschnitten.
0:27:11.682,0:27:14.041
Dies soll jedoch nur heißen,[br]dass ihr ein Schema haben könnt
0:27:14.041,0:27:15.922
und einige Anmerkungen,[br]um genau zu sagen,
0:27:15.922,0:27:17.623
wie ich das Schema gerendert haben möchte,
0:27:17.623,0:27:19.319
und dann baut es einfach ein Formular auf.
0:27:19.319,0:27:21.571
Wenn ihr Daten habt,[br]kann es das Formular ausfüllen.
0:27:24.517,0:27:26.164
PyShEx [unverständlich].
0:27:28.025,0:27:31.080
(Jose) Ich denke, das ist das Letzte.
0:27:31.821,0:27:34.080
Ja, das letzte ist PyShEx.
0:27:34.675,0:27:38.151
PyShEx ist eine Python-Implementierung[br]von Shape Expressions.
0:27:39.193,0:27:41.386
Ihr könnt das auch[br]mit Jupyter Notebooks ausprobieren,
0:27:41.386,0:27:42.680
wenn ihr so etwas wollt.
0:27:42.680,0:27:44.432
Oay, das ist alles dazu.
0:27:52.916,0:27:56.086
(Andra) Ich werde also[br]über ein bestimmtes Projekt sprechen,
0:27:56.086,0:27:58.244
an dem ich beteiligt bin,[br]GenWiki genannt,
0:27:58.244,0:28:04.347
und wo wir uns auch[br]mit Qualitätsfragen beschäftigen.
0:28:04.347,0:28:06.684
Aber bevor wir auf die Qualität eingehen,
0:28:06.685,0:28:09.359
vielleicht eine kurze Einführung[br]darüber, was GenWiki ist,
0:28:09.855,0:28:13.515
und wir haben gerade einen Vordruck[br]einer Arbeit veröffentlicht,
0:28:13.515,0:28:18.160
die wir kürzlich geschrieben haben,[br]welche die Details des Projekts erklärt.
0:28:19.821,0:28:22.586
Ich sehe Leute fotografieren,[br]aber im Grunde genommen,
0:28:22.586,0:28:26.032
was Gene Wiki macht, es versucht,[br]biomedizinische Daten,
0:28:26.032,0:28:28.198
öffentliche Daten in Wikidata[br]hinein zu bekommen
0:28:28.198,0:28:32.280
und wir folgen einem bestimmten Muster,[br]um diese Daten in Wikidata zu bekommen.
0:28:33.130,0:28:36.809
Also, wenn wir ein neues Repository[br]oder einen neuen Datensatz haben,
0:28:36.810,0:28:39.330
der berechtigt ist,[br]in Wikidata aufgenommen zu werden,
0:28:39.330,0:28:41.523
ist der erste Schritt das[br]Engagement der Gemeinschaft.
0:28:41.523,0:28:43.784
Für eine Wikidata-Community[br]ist dies nicht erforderlich,
0:28:43.785,0:28:46.120
aber für eine lokale[br]Forschungsgemeinschaft,
0:28:46.120,0:28:50.285
und wir treffen uns persönlich oder online[br]oder auf irgend einer Plattform
0:28:50.286,0:28:52.881
und versuchen,[br]ein Datenmodell zu entwickeln,
0:28:52.882,0:28:56.197
das ihre Daten[br]mit dem Wikidata-Modell verbindet.
0:28:56.197,0:28:58.265
Also hier habe ich ein Bild[br]von einem Workshop,
0:28:58.265,0:29:00.115
der letztes Jahr hier stattgefunden hat.
0:29:00.115,0:29:02.663
Wir haben dort versucht, einen[br]bestimmten Datensatz anzuschauen
0:29:02.663,0:29:05.280
und Sie sehen eine Menge Diskussionen,
0:29:05.281,0:29:09.780
dann die Ausrichtung an schema.org[br]und andere vorhandenen Ontologien.
0:29:10.320,0:29:12.544
Und dann, am Ende des ersten Schritts,
0:29:12.544,0:29:15.379
haben wir eine Whiteboard-Zeichnung[br]des Schemas,
0:29:15.379,0:29:17.396
das wir in Wikidata implementieren wollen.
0:29:17.396,0:29:20.270
Was Sie dort sehen können,[br]ziemlich offensichtlich,
0:29:20.270,0:29:21.766
es ist im Hintergrund.
0:29:21.767,0:29:25.240
Wir können heute sogar einige Schemata[br]in diesem Panel erstellen.
0:29:26.480,0:29:28.399
Sobald wir das Schema eingerichtet haben,
0:29:28.400,0:29:31.432
versuchen wir als Nächstes,[br]das Schema maschinenlesbar zu machen,
0:29:32.358,0:29:34.522
weil man umsetzbare Modelle braucht,
0:29:34.522,0:29:37.013
um die Daten zu überbrücken,[br]die man einbringt
0:29:37.013,0:29:39.690
aus jeder biomedizinischen[br]Datenbank nach Wikidata.
0:29:40.393,0:29:45.182
Und hier wenden wir Shape Expressions an.
0:29:46.471,0:29:49.728
Und das verwenden wir,
0:29:49.728,0:29:52.518
weil man mit Shape Expressions[br]testen kann,
0:29:52.518,0:29:57.040
ob der Datensatz tatsächlich...[br]nein, man kann zuerst sehen,
0:29:57.041,0:30:01.782
ob bereits vorhandene Daten in Wikidata[br]dem gleichen Datenmodell folgen,
0:30:01.783,0:30:04.718
das im vorherigen Prozess erreicht wurde.
0:30:04.719,0:30:06.851
Dann können wir mit[br]den Shape Expressions überprüfen:
0:30:06.851,0:30:09.524
Okay, die Daten,[br]die zu diesem Thema in Wikidata sind,
0:30:09.524,0:30:12.259
müssen bereinigt werden[br]oder wir müssen unser Modell
0:30:12.259,0:30:15.013
an das Wikidata-Modell anpassen[br]oder umgekehrt.
0:30:15.937,0:30:19.867
Sobald das erledigt ist[br]und wir anfangen, Bots zu schreiben,
0:30:20.670,0:30:23.801
und die Bots sähen[br]regelmäßig die Informationen,
0:30:23.802,0:30:27.308
die in den primären Quellen ist,[br]nach Wikidata.
0:30:27.706,0:30:29.303
Und wenn die Bots fertig sind,
0:30:29.304,0:30:33.001
schreiben wir diese Bots[br]mit einer Plattform namens...
0:30:33.002,0:30:36.201
mit einer Python-Bibliothek[br]namens Wikidata Integrator.
0:30:36.202,0:30:38.167
Diese kam aus unserem Projekt.
0:30:38.698,0:30:42.921
Und sobald wir unsere Bots haben,[br]benutzen wir eine Plattform namens Jenkins
0:30:42.921,0:30:44.540
für die kontinuierliche integration.
0:30:44.540,0:30:45.762
Und mit Jenkins
0:30:45.762,0:30:51.160
aktualisieren wir ständig[br]die primären Quellen mit Wikidata.
0:30:52.178,0:30:55.889
Und dies ist ein Diagramm für die Arbeit,[br]die ich zuvor erwähnt habe.
0:30:55.890,0:30:57.411
Das ist unsere aktuelle Landschaft.
0:30:57.411,0:31:02.059
Also jede orangefarbene Kiste da drauf ist[br]eine primäre Ressource für Medikamente,
0:31:02.060,0:31:07.827
Proteine, Gene, Krankheiten,[br]chemische Verbindungen mit Wechselwirkung,
0:31:07.827,0:31:10.870
und dieses Modell ist zu klein,[br]um es jetzt zu lesen.
0:31:10.870,0:31:14.510
Aber das ist die Datenbank, die Quellen,
0:31:14.770,0:31:17.473
die wir in Wikidata verwalten
0:31:17.473,0:31:20.475
und überbrücken zu den Primärquellen.
0:31:20.475,0:31:22.355
Hier ist so ein Workflow.
0:31:22.870,0:31:25.312
Einer unserer Partner[br]ist die Disease Ontology.
0:31:25.312,0:31:27.672
Die Disease Ontology[br]ist eine CC0 Ontologie
0:31:28.179,0:31:31.990
und die CC0 Ontologie hat[br]einen eigenen Kurationszyklus
0:31:32.756,0:31:35.736
und sie aktualisieren nur[br]kontinuierlich die Disease Ontology,
0:31:35.737,0:31:37.976
um den Krankheitsbereich
0:31:37.976,0:31:40.336
oder die Interpretation[br]von Krankheiten zu reflektieren.
0:31:40.336,0:31:44.361
Und es gibt den Wikidata-Kurationszyklus[br]ebenso für Krankheiten,
0:31:44.362,0:31:48.266
wo die Wikidata-Community[br]ständig überwacht,
0:31:48.266,0:31:50.110
was auf Wikidata los ist.
0:31:50.226,0:31:51.741
Und dann haben wir zwei Rollen,
0:31:51.741,0:31:55.477
wir nennen sie umgangssprachlich[br]den Gatekeeper-Kurator,
0:31:56.009,0:31:59.561
und das waren ich und ein Kollege [br]vor fünf Jahren,
0:31:59.562,0:32:03.414
wo wir nur an unseren Computern saßen[br]und Wikipedia und Wikidata überwachten
0:32:03.415,0:32:08.451
und wenn es ein Problem gab, wurde es[br]der primären Community gemeldet,
0:32:08.451,0:32:11.765
die primäre Ressourcen, sie betrachteten [br]die Implementierung und beschlossen:
0:32:11.765,0:32:14.240
Okay, vertrauen wir[br]dem Input aus Wikidata?
0:32:14.850,0:32:18.555
Ja - dann wird erwägt,[br]geht es in den Kreislauf,
0:32:18.555,0:32:22.686
und die nächste Iteration[br]ist Teil der Disease Ontology
0:32:22.687,0:32:25.411
und wird in Wikidata zurückgespeist.
0:32:27.419,0:32:31.282
Wir machen dasselbe für WikiPathways.
0:32:31.282,0:32:36.601
WikiPathways ist ein von MediaWiki[br]inspiriertes Pfad-Repository.
0:32:36.602,0:32:39.943
Dieselbe Geschichte, es gibt bereits[br]verschiedene Pfad-Ressourcen
0:32:39.943,0:32:41.258
auf Wikidata.
0:32:41.258,0:32:44.713
Möglicherweise gibt es Konflikte[br]zwischen diesen Pfadressourcen
0:32:44.722,0:32:46.701
und diese Konflikte werden zurückgemeldet
0:32:46.702,0:32:49.521
von den Gatekeeper-Kuratoren[br]zu dieser Community,
0:32:49.522,0:32:53.715
und man pflegt[br]die einzelnen Kurationszyklen.
0:32:53.715,0:32:57.068
Aber wenn Sie sich an[br]den vorherigen Zyklus erinnern,
0:32:57.069,0:33:03.041
hier erwähnte ich nur zwei Zyklen,[br]zwei Ressourcen.
0:33:03.566,0:33:06.090
Das müssen wir für jede einzelne[br]Ressource tun, die wir haben,
0:33:06.090,0:33:08.062
und wir müssen alles,[br]was vor sich geht, verwalten,
0:33:08.062,0:33:09.335
denn wenn ich Kuration sage,
0:33:09.335,0:33:11.691
meine ich wirklich,[br]auf die Wikipedia-Top-Seiten zu gehen,
0:33:11.691,0:33:14.746
auf die Wikidata-Top-Seiten [br]zu gehen und das auszuprobieren.
0:33:14.746,0:33:19.316
Das skaliert nicht mit den beiden[br]Gatekeeper-Kuratoren, die wir hatten.
0:33:19.860,0:33:22.777
Also, als ich 2016 an einer[br]Konferenz teilgenommen habe,
0:33:22.778,0:33:26.933
wo Eric einen Vortrag[br]über Shape Expressions hielt,
0:33:26.934,0:33:29.277
sprang ich auf den Zug und sagte: Okay,
0:33:29.278,0:33:32.010
mit Hilfe von Shape Expressions[br]können wir feststellen,
0:33:32.010,0:33:34.240
welche Unterschiede in Wikidata bestehen
0:33:34.240,0:33:38.320
und so können die Gatekeeper
0:33:38.320,0:33:41.260
effizienter berichten in dem Log.
0:33:42.275,0:33:46.019
Dieses Jahr war ich von[br]der Schemaentität begeistert,
0:33:46.020,0:33:49.015
denn jetzt können wir[br]diese Entitätsschemata
0:33:49.015,0:33:50.765
auf Wikidata speichern,
0:33:50.765,0:33:53.336
auf Wikidata selbst,[br]während es zuvor auf GitHub war.
0:33:53.860,0:33:56.815
Und dies integriert mit[br]der Wikidata-Oberfläche,
0:33:56.816,0:33:59.350
man hat also Dinge[br]wie Dokumentendiskussionen,
0:33:59.350,0:34:01.020
man hat aber auch Revisionen.
0:34:01.020,0:34:05.261
Ihr könnt also die Top-Seiten[br]und die Revisionen in Wikidata nutzen,
0:34:05.262,0:34:10.255
um darüber zu diskutieren,
0:34:10.255,0:34:13.988
was in Wikidata ist[br]und was in den primären Ressourcen.
0:34:14.966,0:34:19.686
Also das, was Eric gerade vorgestellt hat,[br]ist schon ein ziemlicher Vorteil.
0:34:19.686,0:34:24.335
Also hier haben wir eine Shape Expression[br]für das menschliche Gen erfunden
0:34:24.336,0:34:30.225
und dann ließen wir es durch ShEx laufen[br]und wie Sie sehen können,
0:34:30.225,0:34:32.428
wir haben gerade erst eines.
0:34:32.429,0:34:34.641
Es gibt ein Problem,[br]das überwacht werden muss,
0:34:34.642,0:34:37.316
es gibt ein Element,[br]das nicht in dieses Schema passt,
0:34:37.316,0:34:40.738
und dann können Sie[br]bereits Schemaentitäten erstellen
0:34:40.738,0:34:43.749
und Kurationsberichte basierend auf...
0:34:43.749,0:34:46.240
und das an die verschiedenen[br]Kurationsberichte senden.
0:34:48.058,0:34:52.788
Aber die ShEx.js ist[br]eine integrierte Schnittstelle
0:34:52.788,0:34:55.860
und hier noch mal eine Folie zurück,[br]mache ich nur zehn,
0:34:55.860,0:35:00.362
aber wir haben Zehntausende[br]und das skaliert wieder nicht.
0:35:00.362,0:35:04.654
Der Wikidata Integrator[br]unterstützt jetzt auch ShEx
0:35:04.998,0:35:07.431
und dann können wir[br]einfach Item-Loops verwenden,
0:35:07.431,0:35:11.494
wo wir ja-nein, ja-nein,[br]wahr-falsch, wahr-falsch sagen.
0:35:11.495,0:35:12.616
Also nochmal,
0:35:13.065,0:35:16.514
eine Steigerung der Effizienz[br]beim Arbeiten mit den Berichten.
0:35:17.256,0:35:22.662
Aber jetzt, in letzter Zeit, baut das[br]auf dem Wikidata Query Service auf
0:35:22.961,0:35:24.998
und wir haben das etwas gedrosselt,
0:35:24.999,0:35:26.560
also nochmal, das skaliert nicht.
0:35:26.561,0:35:28.522
Es ist also immer noch[br]ein fortlaufender Prozess,
0:35:28.522,0:35:31.532
wie man mit Modellen auf Wikidata umgeht.
0:35:32.012,0:35:36.522
Und ShEx ist also nicht[br]nur furchteinflössend,
0:35:36.522,0:35:40.446
aber auch das Ausmaß ist einfach[br]zu groß, um damit umzugehen.
0:35:41.068,0:35:44.792
Also habe ich angefangen zu arbeiten,[br]dies ist mein erster Proof of Concept
0:35:44.792,0:35:46.192
oder meine erste Übung,
0:35:46.192,0:35:48.022
wo ich ein Werkzeug[br]namens yED verwendet habe
0:35:48.184,0:35:52.280
und ich fing an, diese Shape Expressions[br]zu zeichnen und weil...
0:35:52.490,0:35:56.388
und dann dieses Schema neu zu generieren
0:35:56.388,0:36:01.279
in dieses Schema in das JSON-Format[br]der Shape-Ausdrücke,
0:36:01.280,0:36:04.520
damit sich das einem Publikum öffnet,
0:36:04.521,0:36:07.432
das von den Shape Expressions-Sprachen[br]eingeschüchtert wird.
0:36:07.961,0:36:12.308
Tatsächlich gibt es jedoch ein Problem[br]mit diesen visuellen Beschreibungen,
0:36:12.309,0:36:13.990
denn dies ist auch ein Schema,
0:36:13.990,0:36:18.230
das tatsächlich von jemandem[br]in yEd gezeichnet wurde.
0:36:18.230,0:36:23.838
Und hier ist ein anderes, das schön ist.
0:36:23.838,0:36:26.001
Ich hätte das gerne an meiner Wand,
0:36:26.001,0:36:29.704
aber es ist immer noch nicht[br]interoperabel.
0:36:30.740,0:36:32.263
Ich möchte meinen Vortrag beenden...
0:36:32.263,0:36:33.572
und es war das erste Mal,
0:36:33.572,0:36:35.622
dass ich diese Folie gestohlen,[br]gebraucht habe.
0:36:35.622,0:36:37.728
Es ist eine Ehre, ihn im Publikum zu haben
0:36:37.728,0:36:39.423
und ich mag das wirklich:
0:36:39.424,0:36:42.362
"Die Leute denken, RDF ist eine Qual,[br]weil es kompliziert ist.
0:36:42.362,0:36:44.492
Die Wahrheit ist noch schlimmer,[br]es ist so einfach,
0:36:45.581,0:36:48.133
weil Sie mit realen Datenproblemen[br]arbeiten müssen,
0:36:48.134,0:36:50.031
die schrecklich kompliziert sind.
0:36:50.031,0:36:51.601
Während Sie RDF vermeiden können,
0:36:51.601,0:36:53.621
ist es schwieriger, komplizierte Daten
0:36:53.621,0:36:55.761
und komplizierte Computerprobleme[br]zu vermeiden."
0:36:55.761,0:36:59.535
Hier geht es um RDF, aber ich denke,[br]das gilt auch für das Modellieren.
0:37:00.112,0:37:02.769
Mein Diskussionspunkt ist also,[br]ob wir wirklich...
0:37:03.387,0:37:05.882
Wie bringen wir das Modellieren voran?
0:37:05.882,0:37:10.826
Sollen wir über ShEx[br]oder visuelle Modelle sprechen oder...
0:37:11.426,0:37:13.271
Wie machen wir weiter?
0:37:13.474,0:37:14.840
Vielen Dank für Ihre Zeit.
0:37:19.751,0:37:21.188
(Lydia) Vielen Dank.
0:37:21.692,0:37:24.001
Würdest du nach vorne kommen,
0:37:24.002,0:37:27.824
damit wir mit den Fragen[br]aus dem Publikum anfangen können?
0:37:28.610,0:37:30.203
Gibt es Fragen?
0:37:31.507,0:37:32.507
Ja.
0:37:34.263,0:37:37.028
Und ich denke,[br]wegen der Kamera müssen wir...
0:37:38.835,0:37:40.968
(Lydia) Ja.
0:37:43.094,0:37:46.273
(Zuschauer1) Also eine Frage[br]an Cristina, denke ich.
0:37:47.366,0:37:51.641
Also du hast im Wortlaut den Begriff[br]"Informationsgewinn" erwähnt
0:37:51.642,0:37:53.529
bei der Verknüpfung mit anderen Systemen.
0:37:53.529,0:37:55.959
Es gibt das informationstheoretische Maß[br]Informationsgewinn,
0:37:55.959,0:37:58.171
welches Statistik[br]und Wahrscheinlichkeit verwendet.
0:37:58.192,0:38:01.736
Hast du das... ich meine,[br]hast du genau dieses Maß gemeint,
0:38:01.736,0:38:04.173
den Informationsgewinn[br]aus der Wahrscheinlichkeitstheorie,
0:38:04.174,0:38:05.530
aus der Informationstheorie,
0:38:05.530,0:38:07.228
oder verwendest du einfach dieses Konzept,
0:38:07.228,0:38:09.258
um den Informationsgewinn[br]irgendwie zu messen?
0:38:09.258,0:38:13.016
Nein, also wir haben Maßnahmen[br]definiert und umgesetzt,
0:38:13.695,0:38:17.272
die die Shannon-Entropie verwenden,
0:38:17.682,0:38:20.050
auf dies bezieht sich das.
0:38:20.050,0:38:22.656
Ich wollte nicht auf die Details[br]der konkreten Formeln eingehen...
0:38:22.656,0:38:24.732
(Zuschauer1) Nein, klar,[br]das war meine Frage.
0:38:24.732,0:38:26.487
- (Cristina) Aber ja.[br]- (Zuschauer1) Danke.
0:38:32.761,0:38:35.047
(Zuschauer2) Ich habe eher[br]einen Kommentar als eine Frage.
0:38:35.048,0:38:36.336
(Lydia) Los geht es.
0:38:36.336,0:38:39.840
(Zuschauer2) Es gab also[br]viel Fokus auf der Item-Ebene
0:38:39.840,0:38:42.547
bezüglich der Qualität[br]und Vollständigkeit.
0:38:42.547,0:38:44.514
Eines der Dinge,[br]die mich beschäftigen, ist,
0:38:44.514,0:38:47.279
dass wir nicht dasselbe[br]auf Hierarchien anwenden
0:38:47.279,0:38:49.521
und ich glaube,[br]das wird uns ein Problem bereiten
0:38:49.521,0:38:51.622
dass unsere Hierarchie oft nicht gut ist.
0:38:51.622,0:38:53.713
Wir denken, dass dies[br]ein echtes Problem wird
0:38:53.713,0:38:55.974
beim Durchsuchen von Commons[br]und anderen Dingen.
0:38:56.771,0:38:58.962
Eine der Fähigkeiten,[br]die wir realisieren können, ist,
0:38:58.962,0:39:00.632
extern zu importieren --
0:39:00.632,0:39:04.842
Die Art und Weise, wie externe Thesauren[br]ihre Hierarchien strukturieren
0:39:04.842,0:39:10.291
mit der P4900 Qualifikation[br]für Oberbegriffe.
0:39:11.037,0:39:15.997
Aber was ich für sehr hilfreich halte,[br]wären viel bessere Werkzeuge dafür.
0:39:15.997,0:39:21.212
Damit kann man die Hierarchie[br]eines externen Thesaurus importieren
0:39:21.212,0:39:24.111
und das auf unsere[br]Wikidata-Items abbilden.
0:39:24.111,0:39:27.989
Sobald es mit diesen P4900-Qualifizierern[br]zusammen funktioniert,
0:39:27.989,0:39:31.494
kann man über SPARQL[br]ziemlich gute Abfragen durchführen,
0:39:32.490,0:39:37.534
um zu sehen, wo unsere Hierarchie[br]von dieser externen Hierarchie abweicht.
0:39:37.534,0:39:41.346
Zum Beispiel, Paula Morma,[br]User PKM, wie ihr vielleicht wisst,
0:39:41.346,0:39:43.510
hat viel über Mode ausgearbeitet.
0:39:43.510,0:39:46.244
Das nutzen wir also, um die Hierarchie
0:39:46.244,0:39:50.524
des Europeana Fashion Thesaurus[br]zu übernehmen
0:39:50.524,0:39:53.812
und die Getty AAT[br]Mode-Thesaurus-Hierarchie,
0:39:53.812,0:39:55.727
um dann zu sehen, wo die Lücken
0:39:55.727,0:39:57.957
in unseren höhergestuften Items waren,
0:39:57.957,0:40:01.281
was ein echtes Problem[br]für uns ist, weil das oft Dinge sind,
0:40:01.281,0:40:04.355
die nur als Seiten zur Disambiguierung[br]auf Wikipedia existieren,
0:40:04.356,0:40:09.270
Es fehlen also viele übergeordnete[br]Elemente in unseren Hierarchien
0:40:09.271,0:40:12.780
und das ist etwas, das wir in Bezug[br]auf Qualität und Vollständigkeit
0:40:12.780,0:40:14.480
ansprechen müssen.
0:40:14.480,0:40:16.086
Aber was wirklich helfen würde,
0:40:16.643,0:40:19.619
wäre ein besseres Werkzeug[br]als der Dschungel der Pull-Skripte,
0:40:19.619,0:40:20.992
die ich geschrieben habe.
0:40:20.992,0:40:26.280
Wenn jemand das in ein PAWS-Notizbuch[br]in Python schreiben könnte,
0:40:26.561,0:40:29.731
um einen externen Thesaurus[br]verwenden zu können,
0:40:29.731,0:40:31.973
dessen Hierarchie zu verwenden,
0:40:31.973,0:40:34.759
die als verknüpfte Daten[br]verfügbar sein können oder nicht,
0:40:35.379,0:40:40.580
um diese dann in Schnellanweisungen[br]umzusetzen und P4900-Werte einzugeben.
0:40:41.005,0:40:42.165
Und später dann,
0:40:42.166,0:40:44.527
wenn unsere Darstellung[br]vervollständigt wird,
0:40:44.528,0:40:49.691
diese P4900s zu aktualisieren,[br]denn sobald unsere Darstellung veraltet,
0:40:49.691,0:40:51.447
dichter wird,
0:40:51.447,0:40:55.377
müssen die Werte dieser[br]Qualifikationsmerkmale geändert werden,
0:40:56.230,0:40:58.296
um darzustellen, dass wir mehr[br]aus ihrer Hierarchie
0:40:58.296,0:40:59.866
in unserem System implementiert haben.
0:40:59.866,0:41:03.728
Wenn jemand das tun könnte,[br]wäre das sehr hilfreich, denke ich,
0:41:03.728,0:41:07.121
und wir müssen uns auch[br]andere Ansätze ansehen,
0:41:07.122,0:41:10.762
um die Qualität und Vollständigkeit[br]auf Hierarchieebene zu verbessern,
0:41:10.763,0:41:12.503
nicht nur auf der Artikelebene.
0:41:13.308,0:41:14.958
(Andra) Kann ich das ergänzen?
0:41:16.362,0:41:19.901
Ja, und das machen wir tatsächlich
0:41:19.911,0:41:22.472
und meine Empfehlung ist,[br]die Shape Expression zu betrachten,
0:41:22.472,0:41:25.479
die Finn gemacht hat[br]mit den lexikalischen Daten,
0:41:25.479,0:41:27.440
in denen er Shape Expressions erstellt
0:41:27.440,0:41:29.240
und dann auf Autorenausdrücken aufbaut,
0:41:29.240,0:41:31.649
so dass wir also dieses Konzept[br]der verknüpften Formausdrücke
0:41:31.649,0:41:32.739
in Wikidata haben.
0:41:32.739,0:41:35.065
Insbesondere der Anwendungsfall,[br]wenn ich richtig verstehe,
0:41:35.065,0:41:37.183
entspricht genau dem,[br]was wir in Gene Wiki machen.
0:41:37.184,0:41:40.841
Man hat also die Disease Ontology,[br]die in Wikidata importiert ist,
0:41:40.842,0:41:44.681
dann kommen die Krankheitsdaten[br]und wir wenden die Shape Expressions an,
0:41:44.682,0:41:47.247
um zu sehen, ob das[br]zu diesem Thesaurus passt.
0:41:47.248,0:41:48.770
Und es gibt andere Thesauren
0:41:48.770,0:41:50.920
oder andere Ontologien[br]für kontrolliertes Vokabular,
0:41:50.920,0:41:52.559
das noch in Wikidata rein muss
0:41:52.559,0:41:55.261
und genau deshalb sind[br]Shape Expressions so interessant,
0:41:55.261,0:41:57.893
weil sie für die Disease Ontology[br]möglich sind,
0:41:57.893,0:41:59.614
man kann Shape Expressions[br]für MeSH haben.
0:41:59.614,0:42:01.761
Man kann sagen, ich möchte[br]die Qualität überprüfen,
0:42:01.762,0:42:06.297
weil man auch in Wikidata den Kontext[br]bei einem kontrollierten Vokabular hat,
0:42:06.297,0:42:09.503
dass man sagt,[br]die Qualität entspricht dem,
0:42:09.503,0:42:11.792
aber die Community stimmt euch nicht zu.
0:42:11.792,0:42:13.921
Das Werkzeug ist also[br]in der Tat vorhanden,
0:42:13.921,0:42:16.762
aber jetzt müssen diese Modelle[br]erstellt und angewendet werden
0:42:16.762,0:42:18.513
auf die verschiedenen Anwendungsfälle.
0:42:18.811,0:42:20.921
(Zuschauer2)[br]Die Shape Expressions sind nützlich,
0:42:20.922,0:42:25.765
sobald ihr die externe Ontologie[br]in Wikidata abgebildet habt,
0:42:25.765,0:42:29.549
aber mein Problem ist,[br]dass dieser Zeitpunkt erst kommt.
0:42:29.549,0:42:32.481
Momentan legt es nur offen,[br]wie viel von der externen Ontologie
0:42:32.481,0:42:34.882
noch nicht in Wikidata enthalten ist
0:42:34.882,0:42:36.256
und wo die Lücken sind
0:42:36.257,0:42:40.510
und dies ist, wo ich denke,[br]dass viel robustere Werkzeuge,
0:42:40.510,0:42:44.058
mit denen ihr erkennen könnt,[br]was aus externen Ontologien fehlt,
0:42:44.058,0:42:45.609
sehr hilfreich wären.
0:42:47.488,0:42:48.952
Das größte Problem dort
0:42:48.952,0:42:51.517
sind nicht so sehr die Werkzeuge,[br]sondern mehr die Lizenzierung.
0:42:51.803,0:42:55.249
Also das Einspielen der Ontologien[br]in Wikidata ist ein Kinderspiel,
0:42:55.250,0:42:59.295
aber die meisten Ontologien haben,[br]wie kann ich das höflich sagen,
0:42:59.965,0:43:03.424
restriktive Lizenzierung, daher sind diese[br]nicht mit Wikidata kompatibel.
0:43:03.918,0:43:06.961
(Zuschauer2) Es gibt eine große Anzahl[br]von Thesauren im öffentlichen Sektor
0:43:06.961,0:43:08.339
in kulturellen Bereichen.
0:43:08.339,0:43:10.851
- (Andra) Dann müssen wir reden.[br]- (Zuschauer2) Kein Problem.
0:43:10.852,0:43:12.384
(Andra) Darüber müssen wir reden.
0:43:13.624,0:43:17.522
(Zuschauer3) Der Kommentar,[br]den ich machen möchte,
0:43:17.522,0:43:19.402
ist eigentlich eine Antwort auf James.
0:43:19.402,0:43:22.401
Also die Sache ist die,[br]dass Hierarchien Graphen machen
0:43:22.374,0:43:24.041
und wenn du ...
0:43:24.579,0:43:27.759
Ich möchte im Grunde genommen[br]über ein bekanntes Problem
0:43:27.759,0:43:30.729
in Hierarchien sprechen,[br]das sind zirkuläre Hierarchien,
0:43:30.821,0:43:33.796
die auf sich selbst zurück führen,[br]wenn es ein Problem gibt,
0:43:33.796,0:43:35.992
das sollte man nicht in Hierarchien haben.
0:43:37.022,0:43:41.295
Witzigerweise passiert dies[br]häufig in Wikipedia-Kategorien,
0:43:41.295,0:43:43.134
wir haben viele Kreise in Kategorien.
0:43:43.898,0:43:46.612
Aber die gute Nachricht ist, dass dies...
0:43:47.713,0:43:50.173
Technisch gesehen ist es[br]ein PMP-vollständiges Problem.
0:43:50.173,0:43:52.063
Also ihr könnt dies nicht einfach finden,
0:43:52.063,0:43:53.773
wenn ihr ein Diagramm davon baut.
0:43:54.473,0:43:57.046
Aber es gibt viele Methoden,[br]die entwickelt wurden,
0:43:57.047,0:44:00.624
um Probleme in diesen[br]Hierarchiediagrammen zu finden.
0:44:00.625,0:44:04.520
Es gibt einen Artikel
0:44:04.520,0:44:07.955
namens Breaking Cycles[br]in Noisy Hierarchies
0:44:07.956,0:44:09.742
und der wurde verwendet,
0:44:09.742,0:44:12.672
um die Kategorisierung[br]der englischen Wikipedia zu erleichtern.
0:44:12.672,0:44:15.480
Ihr könnt dies einfach nehmen[br]und diese Hierarchien
0:44:15.480,0:44:17.142
in Wikidata anwenden,
0:44:17.142,0:44:19.540
und dann könnt ihr Dinge finden,[br]die problematisch sind
0:44:19.541,0:44:22.311
und diejenigen einfach entfernen,[br]die Probleme verursachen,
0:44:22.311,0:44:24.667
und die eigentlichen Probleme finden.
0:44:24.667,0:44:27.080
Das ist also nur eine Idee,[br]nur, damit ihr...
0:44:28.470,0:44:29.930
(Zuschauer2) Das ist schön und gut,
0:44:29.931,0:44:31.922
aber ich denke,[br]ihr unterschätzt die Anzahl
0:44:31.922,0:44:35.042
der schlechten Beziehungen[br]in den Subklassen, die wir haben.
0:44:35.042,0:44:39.680
Das ist, wie eine Stadt in einem[br]völlig falschen Land zu haben
0:44:40.250,0:44:44.664
und es gibt Werkzeuge in der Geographie,[br]um so etwas zu identifizieren,
0:44:44.664,0:44:49.201
und wir brauchen viel bessere[br]Werkzeuge in Hierarchien,
0:44:49.202,0:44:53.477
um zu identifizieren, wo das[br]Äquivalent des Items für das Land
0:44:53.478,0:44:58.023
vollständig fehlt oder tatsächlich [br]in einer Subklasse eingeordnet ist,
0:44:58.023,0:45:01.774
die eine völlig andere Bedeutung hat.
0:45:02.804,0:45:07.165
(Lydia) Ja, ich denke,[br]du sprichst etwas an,
0:45:07.166,0:45:10.595
das ich und mein Team[br]immer wieder von Leuten hören,
0:45:10.595,0:45:13.520
die unsere Daten auch ziemlich[br]häufig wiederverwenden, ja.
0:45:14.752,0:45:16.758
Einzelne Datenpunkte[br]könnten großartig sein,
0:45:16.758,0:45:20.163
aber wenn ihr euch die Ontologie[br]und so weiter ansehen müsst,
0:45:20.164,0:45:21.857
dann wird es sehr...
0:45:22.388,0:45:26.657
Und ich denke, eines der großen Probleme,[br]warum dies passiert, ist,
0:45:26.657,0:45:30.736
dass vieles, was auf Wikidata[br]editiert wird, auf der Grundlage
0:45:30.736,0:45:34.544
eines einzelnen Artikels basiert, ja.
0:45:34.545,0:45:36.635
Ihr bearbeitet dieses Element,
0:45:37.653,0:45:41.745
ohne zu bemerken, dass die Konsequenzen[br]von globaler Natur sind
0:45:41.745,0:45:44.245
im Bezug auf dem Rest[br]des Diagramms zum Beispiel.
0:45:44.245,0:45:50.040
Und wenn jemand eine Idee hat,[br]wie man dies sichtbarer machen kann,
0:45:50.041,0:45:53.221
die Folgen einer einzelnen[br]lokalen Bearbeitung,
0:45:54.005,0:45:56.537
ich denke, das wäre es wert,[br]das herauszufinden,
0:45:57.550,0:46:01.583
den Leuten besser zu zeigen,[br]was die Folge ihrer Überarbeitung ist,
0:46:01.584,0:46:03.574
die sie in gutem Glauben vornahmen,
0:46:04.481,0:46:05.481
was das ist.
0:46:06.939,0:46:12.027
Whoa! OK, fangen wir an mit, ja,[br]du, dann du, dann du, dann du.
0:46:12.027,0:46:14.064
(Zuschauer4) Nun, nach dieser Diskussion
0:46:14.064,0:46:18.262
will ich nur meine Zustimmung geben[br]zu dem, was James sagte.
0:46:18.263,0:46:22.467
Also das Gefährlichste scheint[br]im Wesentlichen die Hierarchie zu sein,
0:46:22.468,0:46:25.482
nicht die Hierarchie, sondern allgemein[br]die Semantik der Beziehungen
0:46:25.482,0:46:28.022
der Subklassen aus Wikidata.
0:46:28.022,0:46:32.561
Ich habe vor kurzem Sprachen studiert[br]nur für die Zwecke dieser Konferenz
0:46:32.562,0:46:35.257
und zum Beispiel finden Sie viele Fälle,
0:46:35.257,0:46:39.463
wo eine Sprache sowohl Teil als auch[br]Subklasse derselben Sache ist, okay.
0:46:39.463,0:46:43.577
Man könnte auch sagen,[br]dass wir eine flexible Ontologie haben.
0:46:43.577,0:46:46.256
Wikidata gibt manchmal[br]die Freiheit, dies auszudrücken,
0:46:46.256,0:46:48.509
zum Beispiel, weil diese Ontologie[br]der Sprachen
0:46:48.509,0:46:50.721
auch politisch kompliziert ist, oder?
0:46:50.722,0:46:53.000
Es ist sogar gut, in der Lage zu sein,
0:46:53.000,0:46:55.038
ein gewisses Maß[br]an Unsicherheit auszudrücken.
0:46:55.038,0:46:57.983
Aber stellen Sie sich vor,[br]wer daraus maschinell lesen möchte.
0:46:57.984,0:46:59.468
Das ist also wirklich problematisch.
0:46:59.468,0:47:00.992
Andererseits glaube ich nicht,
0:47:00.992,0:47:03.686
dass Ontologie jemals[br]von irgendwoher importiert wurde,
0:47:03.687,0:47:05.491
das ist etwas,[br]was ursprünglich von uns kommt.
0:47:05.491,0:47:08.401
Wikipedia hat seit den Anfängen[br]seinen Nutzen daraus gezogen, meine ich.
0:47:08.401,0:47:11.324
Also frage ich mich, diese Sache[br]mit den Shape Expressions-Ding ist toll.
0:47:11.325,0:47:15.575
Das Validieren und Reparieren[br]von Wikidata-Ontologien
0:47:15.576,0:47:18.363
durch externe Ressourcen, schöne Idee.
0:47:18.886,0:47:23.036
Werden wir letztendlich dort enden,[br]dass wir externen Ontologien
0:47:23.036,0:47:25.243
in Wikidata widerspiegeln?
0:47:25.441,0:47:28.411
Und ebenso, was sollen wir[br]mit dem Kern unserer Ontologie machen,
0:47:28.411,0:47:30.642
der nie von externen Ressourcen[br]verwendet wird,
0:47:30.643,0:47:32.147
wie können wir das beheben?
0:47:32.147,0:47:35.276
Und ich denke wirklich,[br]dass das ein Problem für sich sein wird.
0:47:35.277,0:47:39.010
Darauf müssen wir uns unabhängig[br]von der Idee konzentrieren,
0:47:39.010,0:47:41.256
Ontologien mit etwas Externem[br]zu validieren.
0:47:49.353,0:47:53.379
(Zuschauer5) Okay, die Constraints[br]und Shapes sind sehr beeindruckend,
0:47:53.380,0:47:54.704
was man damit machen kann,
0:47:55.205,0:47:58.481
aber das Hauptanliegen ist [br]nicht wirklich klar hervorgetreten.
0:47:58.482,0:48:01.229
Das liegt daran, dass wir jetzt[br]genauer definieren können,
0:48:01.229,0:48:03.229
was wir von den Daten erwarten.
0:48:03.229,0:48:06.893
Vorher muss jeder seine eigenen[br]Tools und Skripte schreiben
0:48:06.894,0:48:10.601
und so ist es sichtbarer[br]und wir können darüber diskutieren.
0:48:10.602,0:48:13.641
Aber weil es nicht darum geht,[br]was falsch oder richtig ist,
0:48:13.642,0:48:15.730
sondern um eine Erwartung
0:48:15.730,0:48:17.505
und ihr werdet[br]unterschiedliche Erwartungen
0:48:17.505,0:48:18.883
und Diskussionen darüber haben,
0:48:18.883,0:48:20.791
wie wir Dinge in Wikidata[br]modellieren wollen,
0:48:21.246,0:48:23.095
und das...
0:48:23.096,0:48:26.200
Der aktuelle Stand ist nur[br]ein Schritt in die richtige Richtung,
0:48:26.200,0:48:29.601
denn jetzt braucht man[br]sehr viel technisches Know-how,
0:48:29.601,0:48:31.141
um da reinzukommen
0:48:31.141,0:48:35.721
und wir brauchen bessere Möglichkeiten,[br]um diese Constraints zu visualisieren,
0:48:35.722,0:48:38.519
vielleicht um es [br]in natürliche Sprache umzuwandeln,
0:48:38.519,0:48:40.759
damit es die Leute [br]besser verstehen können,
0:48:40.759,0:48:43.768
aber es geht weniger darum,[br]was falsch oder richtig ist.
0:48:44.925,0:48:45.925
(Lydia) Ja.
0:48:50.986,0:48:54.033
(Zuschauer6) Zu den Qualitätsproblemen[br]möchte ich einfach hinzufügen,
0:48:54.033,0:48:57.010
viele der Probleme,[br]auf die ich gestoßen bin,
0:48:58.838,0:49:02.330
waren Meinungsunterschiede[br]zwischen Instanz von und Subklasse.
0:49:02.331,0:49:05.963
Ich würde behaupten, [br]Fehler in diesen Situationen
0:49:06.032,0:49:11.422
und zu versuchen, diese zu finden,[br]ist sehr zeitaufwändig.
0:49:11.522,0:49:13.030
Ich bin auf so etwas gestoßen wie:
0:49:13.030,0:49:15.040
"Oh, wenn ich[br]sehr eindrucksvolle Items finde,
0:49:15.040,0:49:16.281
die in etwa...
0:49:16.281,0:49:18.758
und dann verwendet man[br]alle Subklasseninstanzen,
0:49:18.758,0:49:21.628
um alle abgeleiteten Anweisungen[br]davon zu finden."
0:49:21.628,0:49:26.215
Dies ist eine sehr nützliche Methode,[br]um nach diesen Fehlern zu suchen.
0:49:26.215,0:49:28.236
Aber ich war neugierig,[br]ob Shape Expressions,
0:49:29.841,0:49:31.262
ob es ...
0:49:31.262,0:49:33.754
ob dies als Werkzeug zur Lösung
0:49:33.754,0:49:36.774
dieser Probleme[br]verwendet werden kann, aber ja...
0:49:40.514,0:49:42.794
(Zuschauer7) Wenn es einen[br]strukturellen Footprint hat...
0:49:45.720,0:49:47.750
Wenn es einen strukturellen Footprint hat,
0:49:47.750,0:49:49.370
der irgendwie fälschbar ist,
0:49:49.370,0:49:51.281
ihr seht das und könnt sagen,[br]das ist falsch,
0:49:51.281,0:49:52.781
ja, dann kannst du das machen.
0:49:52.781,0:49:56.921
Aber wenn es nur darum geht,[br]es auf reale Objekte abzubilden,
0:49:56.922,0:49:59.252
dann wirst du einfach viel,[br]viel Hirnschmalz brauchen.
0:50:05.768,0:50:08.631
(Zuschauer8) Hallo, Pablo Mendes[br]von Apple Siri Knowledge.
0:50:09.154,0:50:10.520
Wir sind hier, um herauszufinden,
0:50:10.520,0:50:12.770
wie wir dem Projekt[br]und der Community helfen können,
0:50:12.770,0:50:15.645
aber Cristina machte den Fehler,[br]zu fragen, was wir wollen.
0:50:16.471,0:50:20.052
Also eine Sache,[br]dich ich gerne sehen würde:
0:50:20.958,0:50:23.521
Es geht viel um Überprüfbarkeit,
0:50:23.522,0:50:26.372
was eines der Grundprinzipien[br]des Projekts in der Gemeinschaft ist,
0:50:27.062,0:50:28.590
und Vertrauenswürdigkeit.
0:50:28.590,0:50:32.262
Nicht jede Aussage ist gleich,[br]einige von ihnen sind heftig umstritten,
0:50:32.262,0:50:33.933
einige von ihnen sind leicht zu lösen,
0:50:33.933,0:50:36.071
wie das Geburtsdatum[br]einer Person zu überprüfen.
0:50:36.071,0:50:37.765
Wie ihr heute in der Keynote gesehen habt,
0:50:37.765,0:50:39.535
ist Geschlechterproblematik komplizierter.
0:50:40.295,0:50:42.250
Könnt ihr ein bisschen[br]darüber diskutieren,
0:50:42.250,0:50:44.791
was ihr aus diesem Bereich[br]der Datenqualität wisst,
0:50:44.791,0:50:47.521
über Vertrauenswürdigkeit[br]und Überprüfbarkeit?
0:50:55.442,0:50:58.268
Wenn es nicht viel ist, würde ich[br]gerne viel mehr sehen.
0:51:00.646,0:51:01.646
(Lydia) Ja.
0:51:03.314,0:51:06.548
Dazu haben wir offenbar[br]nicht viel zu sagen.
0:51:08.024,0:51:10.070
(Andra) Ich denke, wir können viel tun,
0:51:10.070,0:51:12.400
aber ich hatte gestern[br]ein Gespräch mit dir.
0:51:12.400,0:51:15.774
Mein Lieblingsbeispiel, das ich gestern[br]gelernt habe und bereits veraltet ist,
0:51:15.774,0:51:20.281
ist, wenn Sie zu Q2 gehen,[br]was die Erde ist,
0:51:20.282,0:51:23.343
da gibt eine Behauptung,[br]die besagt, die Erde sei flach.
0:51:24.183,0:51:26.055
Und ich liebe dieses Beispiel,
0:51:26.056,0:51:27.781
weil es da draußen eine Community gibt,
0:51:27.781,0:51:30.417
die das behauptet und sie haben[br]nachprüfbare Ressourcen.
0:51:30.418,0:51:32.254
Also ich denke, es ist ein echter Fall,
0:51:32.255,0:51:34.641
der nicht abgelehnt werden[br]sondern in Wikidata sein sollte.
0:51:34.642,0:51:40.185
Und ich denke, dass Shape Expressions[br]dort wirklich hilfreich sein können,
0:51:40.185,0:51:42.022
weil man sagen kann: Okay,
0:51:42.022,0:51:44.646
ich bin wirklich an diesem[br]Anwendungsfall interessiert,
0:51:44.646,0:51:47.509
oder dies ist ein Anwendungsfall,[br]mit dem ihr nicht einverstanden seid.
0:51:47.509,0:51:49.308
Es kann aber auch[br]einen Anwendungsfall geben,
0:51:49.308,0:51:51.149
bei dem ihr sagt, okay,[br]das interessiert mich.
0:51:51.149,0:51:53.449
Es gibt dieses Beispiel,[br]wo ihr sagt, ich habe Glukose.
0:51:53.449,0:51:55.841
Und Glukose, wenn man Biologe ist,
0:51:55.842,0:51:58.627
interessiert man sich nicht für[br]die chemischen Restriktionen
0:51:58.627,0:52:00.317
des Glukosemoleküls,
0:52:00.317,0:52:03.201
Glukose ist immer gleich.
0:52:03.202,0:52:05.973
Aber wenn man Chemiker ist,[br]zuckt man zusammen, wenn man das hört,
0:52:05.973,0:52:08.191
man hast etwa 200...
0:52:08.191,0:52:10.283
Dann kann man[br]viele Shape Expressions nehmen,
0:52:10.283,0:52:12.621
okay, ich komme mit...[br]aus der Sicht eines Chemikers,
0:52:12.621,0:52:13.887
ich wende das an.
0:52:13.887,0:52:16.691
Und dann sagst du, ich gehe von[br]einem biologischen Anwendungsfall aus,
0:52:16.691,0:52:18.524
ich wende diese Shape Expression an.
0:52:18.524,0:52:20.628
Und wenn ihr dann kollaborieren möchtet,
0:52:20.628,0:52:22.951
ja, nun, dann solltet ihr mit Eric[br]über ShEx-Maps sprechen.
0:52:23.500,0:52:28.725
Und so... aber diese Reise[br]beginnt gerade erst.
0:52:28.725,0:52:32.238
Aber ich persönlich glaube, dass dies[br]in diesem Bereich sehr entscheidend ist.
0:52:34.292,0:52:35.565
(Lydia) Okay. Da drüben.
0:52:40.597,0:52:43.505
(Zuschauerin1) Ich hatte einige Ideen
0:52:43.505,0:52:46.035
zu einigen Punkten in den Diskussionen.
0:52:46.035,0:52:48.772
Also werde ich versuchen,[br]diese nicht zu vergessen...
0:52:48.772,0:52:50.742
Ich hatte drei Ideen, also...
0:52:52.224,0:52:54.981
Basierend auf dem, was James[br]vor einer Weile gesagt hat,
0:52:54.981,0:52:59.001
haben wir von Anfang an ein sehr,[br]sehr großes Problem bei Wikidata
0:52:59.002,0:53:01.574
bei der oberen Ontologie.
0:53:02.363,0:53:05.339
Darüber haben wir vor zwei Jahren[br]bei WikidataCon gesprochen
0:53:05.340,0:53:07.432
und wir haben darüber [br]bei Wikimania gesprochen.
0:53:07.432,0:53:09.818
Bei jedem Wikidata-Treffen
0:53:09.818,0:53:11.289
sprechen wir darüber,
0:53:11.289,0:53:15.782
weil es ein sehr großes Problem [br]direkt vor unseren Augen ist.
0:53:15.783,0:53:19.738
Was eine Entität ist, was Arbeit ist,
0:53:19.738,0:53:23.018
was ein Genre ist, Kunst,
0:53:23.018,0:53:25.461
wirklich die wichtigsten Konzepte.
0:53:26.195,0:53:30.512
Und das ist tatsächlich[br]ein sehr schwacher Punkt
0:53:30.512,0:53:33.118
im Bezug auf die globale Ontologie,
0:53:33.118,0:53:37.453
weil die Leute versuchen,[br]regelmäßig aufzuräumen
0:53:38.017,0:53:41.047
und alles komplett kaputt gemacht haben.
0:53:42.516,0:53:47.505
Ich denke, einige von euch[br]erinnern sich vielleicht an den Typ,
0:53:47.505,0:53:51.785
der in gutem Glauben absolut alle Städte[br]auf der Welt durcheinander brachte.
0:53:51.785,0:53:54.782
Das waren keine[br]geografischen Objekte mehr,
0:53:55.198,0:53:57.768
daher gibt es überall[br]Verstöße gegen Constraints.
0:53:58.720,0:54:00.278
Und es passierte in gutem Glauben,
0:54:00.278,0:54:03.623
weil er eigentlich einen Fehler[br]in einem Artikel korrigierte,
0:54:04.020,0:54:05.782
aber alles brach zusammen.
0:54:06.349,0:54:09.373
Und ich bin nicht sicher,[br]wie wir das lösen können,
0:54:10.216,0:54:14.386
da es eigentlich[br]keine externe Einrichtung gibt,
0:54:14.386,0:54:15.962
die wir verwenden könnten,
0:54:15.962,0:54:18.490
weil alle daran arbeiten...
0:54:19.154,0:54:22.041
Nun, wenn ich Datenbank[br]für Kunst am Laufen habe,
0:54:22.042,0:54:24.785
werde ich nur das verwendete Label[br]für Kunst nehmen,
0:54:24.785,0:54:27.742
ich kümmere mich nicht[br]um das philosophische Konzept dessen,
0:54:27.742,0:54:29.362
was eine Entität ist,
0:54:29.362,0:54:31.201
und das ist eigentlich...
0:54:31.202,0:54:34.561
Ich kenne keine Datenbank,[br]die auf diesem Niveau arbeitet,
0:54:34.562,0:54:36.967
aber das ist der schwächste[br]Punkt von Wikidata.
0:54:37.936,0:54:40.812
Und wahrscheinlich,[br]wenn wir über Datenqualität sprechen,
0:54:40.812,0:54:44.034
ist das eigentlich[br]ein großer Teil davon, also...
0:54:44.034,0:54:48.569
Und ich denke, es ist dasselbe,[br]was wir gesagt haben...
0:54:48.569,0:54:50.632
Oh, tut mir leid, ich wechsle das Thema
0:54:51.401,0:54:55.774
Aber wir haben in verschiedenen Meetings[br]über Qualitäten gesprochen,
0:54:55.774,0:54:59.398
dass einige von uns eigentlich[br]gute Modellierung machen,
0:54:59.399,0:55:01.240
ShEx und solche Dinge tun.
0:55:01.967,0:55:07.255
Die Leute sehen es nicht auf Wikidata,[br]sie sehen ShEx nicht,
0:55:07.255,0:55:11.232
Sie sehen das WikiProjekt nicht[br]auf der Diskussionsseite und manchmal
0:55:11.232,0:55:14.796
sehen sie nicht einmal[br]die Diskussionsseiten von Eigenschaften,
0:55:14.958,0:55:19.628
die ausdrücklich angeben, a),[br]diese Eigenschaft wird dafür verwendet.
0:55:19.628,0:55:23.758
Letzte Woche zum Beispiel habe ich[br]Constraints einer Eigenschaft hinzugefügt.
0:55:23.758,0:55:26.324
Das Constraint wurde[br]ausdrücklich beschrieben
0:55:26.325,0:55:28.690
in der Diskussion bei [br]der Einführung der Eigenschaft.
0:55:28.690,0:55:33.298
Ich hatte gerade den technischen Teil[br]zum Hinzufügen der Constraint erstellt
0:55:33.298,0:55:34.548
und jemanden meinte:
0:55:34.548,0:55:37.258
"Was! Du hast alle[br]meine Bearbeitungen zerstört!"
0:55:37.258,0:55:41.542
Und die letzten zwei Jahre nutzte[br]er die Eigenschaft auf die falsche Art.
0:55:41.542,0:55:44.239
Und die Eigenschaft[br]war eigentlich sehr klar,
0:55:44.239,0:55:46.869
aber es gab keine Warnungen oder so etwas.
0:55:46.869,0:55:49.922
Und so ist es auch beim Pink Pony,[br]dass wir bei Wikimania gesagt haben,
0:55:49.922,0:55:54.273
WikiProject sichtbarer zu machen[br]oder ShEx sichtbarer zu machen,
0:55:54.273,0:55:56.917
aber, und das hat Cristina gesagt,
0:55:56.917,0:56:00.278
wir haben ein Problem[br]mit der Sichtbarkeit
0:56:00.278,0:56:02.368
der vorhandenen Lösungen.
0:56:02.368,0:56:05.232
Und in dieser Session[br]haben wir alle darüber geredet,
0:56:05.232,0:56:06.993
wie man mehr mit ShEx arbeitet
0:56:06.993,0:56:10.765
oder die Arbeit der Leute erleichtert,[br]die alles korrigieren.
0:56:11.488,0:56:15.718
Aber wir korrigieren seit[br]dem ersten Tag von Wikidata
0:56:15.718,0:56:20.741
und global verlieren wir[br]und wir verlieren, weil, na ja,
0:56:20.741,0:56:22.960
wenn ich weiß,[br]dass Namen kompliziert sind,
0:56:22.961,0:56:26.263
aber ich die einzige bin,[br]die die Korrekturen macht,
0:56:26.532,0:56:29.671
der Typ, der den lateinischen[br]Namen hinzugefügt hat
0:56:29.672,0:56:31.584
für alle chinesischen Forscher,
0:56:32.088,0:56:34.266
dafür brauche ich Monate[br]um das zu korrigieren.
0:56:34.266,0:56:35.746
und ich kann es nicht alleine tun,
0:56:35.746,0:56:38.654
und er hat einen großen Batch gemacht.
0:56:38.654,0:56:40.241
Also brauchen wir wirklich...
0:56:40.242,0:56:44.158
Wir haben mehr ein Sichtbarkeitsproblem[br]als ein Werkzeugproblem, denke ich,
0:56:44.158,0:56:45.873
weil wir viele Werkzeuge haben.
0:56:45.873,0:56:50.035
(Lydia) Richtig, aber leider habe ich[br]ein Zeichen bekommen,
0:56:50.035,0:56:52.121
wir müssen das also abschließen.
0:56:52.122,0:56:53.493
Vielen Dank für eure Kommentare.
0:56:53.493,0:56:56.611
Ich hoffe, ihr werdet die Diskussion[br]über den Tag fortführen
0:56:56.611,0:56:58.087
und vielen Dank für euren Beitrag.