WEBVTT 00:00:05.945 --> 00:00:09.506 Hallo allerseits zum Datenqualitätspanel. 00:00:10.288 --> 00:00:13.511 Datenqualität ist wichtig, weil immer mehr Menschen da draußen 00:00:13.511 --> 00:00:16.269 sich darauf verlassen, dass unsere Daten in einem guten Zustand sind. 00:00:16.269 --> 00:00:19.752 Daher werden wir über die Datenqualität sprechen 00:00:19.752 --> 00:00:25.298 und es werden vier Sprecher kurze Einführungen geben 00:00:25.298 --> 00:00:28.003 zu Themen im Zusammenhang mit der Datenqualität 00:00:28.003 --> 00:00:30.130 und im Anschluss folgen Fragen und Antworten. 00:00:30.130 --> 00:00:32.234 Und der Erste ist Lucas. 00:00:34.385 --> 00:00:35.385 Vielen Dank. 00:00:35.901 --> 00:00:39.899 Hallo, ich bin Lucas und beginne mit einer Übersicht 00:00:39.899 --> 00:00:43.806 der Datenqualitätstools, die wir bereits auf Wikidata haben 00:00:43.807 --> 00:00:46.231 und auch von einigen Dingen, die bald verfügbar sind. 00:00:46.932 --> 00:00:50.623 Und ich habe das alles in allgemeine Themen gruppiert 00:00:50.623 --> 00:00:53.621 wie Fehler sichtbarer machen, Probleme angehbar machen, 00:00:53.621 --> 00:00:56.673 den Daten mehr Aufmerksamkeit widmen, damit die Leute die Probleme bemerken, 00:00:56.945 --> 00:00:59.367 einige der häufigen Fehlerquellen beheben, 00:00:59.717 --> 00:01:02.517 die Qualität der vorhandenen Daten sichern 00:01:02.616 --> 00:01:04.210 und auch Datenpflege durch Menschen. 00:01:05.063 --> 00:01:09.998 Und die, welche derzeit verfügbar sind, beginnen mit Eigenschaftsbeschränkungen. 00:01:10.228 --> 00:01:12.521 Ihr habt dies wahrscheinlich bereits auf Wikidata gesehen, 00:01:12.521 --> 00:01:14.259 manchmal habt ihr diese Symbole, 00:01:14.530 --> 00:01:17.241 die die interne Konsistenz der Daten überprüfen. 00:01:17.242 --> 00:01:20.800 Wenn zum Beispiel ein Ereignis dem anderen folgt, 00:01:20.801 --> 00:01:23.760 dann sollte das andere Ereignis auch von diesem gefolgt werden, 00:01:23.761 --> 00:01:27.161 was auf dem WikidataCon-Item anscheinend fehlte. 00:01:27.162 --> 00:01:29.762 Keine Ahnung, dieses Feature ist erst ein paar Tage alt. 00:01:30.040 --> 00:01:34.681 Wenn dies für euch zu einschränkend oder zu einfach ist, gibt es auch 00:01:34.682 --> 00:01:37.950 den Query Service, mit dem ihr beliebige Kontrollen erstellen könnt, 00:01:37.950 --> 00:01:39.842 was natürlich bei vielen Dingen nützlich ist, 00:01:39.843 --> 00:01:44.383 aber ihr könnt diesen auch zum Auffinden von Fehlern verwenden. 00:01:44.383 --> 00:01:46.974 Also wenn ihr das Auftreten eines Fehlers bemerkt habt, 00:01:46.975 --> 00:01:49.499 dann könnt ihr nachschauen, ob es noch andere Orte gibt, 00:01:49.499 --> 00:01:51.828 wo Leute andere, ähnliche Fehler gemacht haben 00:01:51.828 --> 00:01:53.515 und dies mit dem Query Service finden. 00:01:53.515 --> 00:01:54.839 Ihr könnt auch beide kombinieren 00:01:54.839 --> 00:01:57.874 und nach Verstößen gegen Constraints im Query Service suchen, 00:01:57.875 --> 00:02:01.040 zum Beispiel nur die Verstöße in einigen Bereichen 00:02:01.040 --> 00:02:03.762 oder einem WikiProject, das für euch relevant ist. 00:02:03.762 --> 00:02:06.828 Leider sind die Resultate derzeit nicht vollständig. 00:02:08.232 --> 00:02:09.877 Es gibt eine Revisionswertung. 00:02:10.390 --> 00:02:12.666 Das ist... ich denke, das kam von den letzten Änderungen. 00:02:12.666 --> 00:02:14.944 Ihr könnt es auch auf eure Beobachtungsliste setzen, 00:02:14.945 --> 00:02:17.627 eine automatische Bewertung vornehmen lassen, 00:02:17.627 --> 00:02:20.292 ob diese Änderung wohl in gutem Glauben geschehen ist oder nicht 00:02:20.292 --> 00:02:22.312 und schädlich oder nicht schädlich ist. 00:02:22.313 --> 00:02:24.228 Ich denke, das sind die beiden Bereiche. 00:02:24.228 --> 00:02:25.776 Also könnt ihr, wenn ihr wollt, 00:02:25.776 --> 00:02:29.778 euch auf nur die schädlichen, aber sinnvollen Änderungen konzentrieren. 00:02:29.778 --> 00:02:32.393 Wenn ihr euch besonders freundlich und einladend fühlt, 00:02:32.393 --> 00:02:34.272 könnt ihr den Editoren sagen: 00:02:34.272 --> 00:02:38.498 "Vielen Dank für euren Beitrag, so hättet ihr es machen sollen, 00:02:38.498 --> 00:02:40.511 aber trotzdem danke." 00:02:40.511 --> 00:02:42.056 Und wenn euch nicht danach ist, 00:02:42.056 --> 00:02:44.342 könnt ihr die nicht sinnvollen Änderungen durchgehen 00:02:44.342 --> 00:02:45.856 und die Vandalen wieder zurücknehmen. 00:02:47.474 --> 00:02:49.761 Ähnliches gilt auch bei der Bewertung von Entitäten. 00:02:49.762 --> 00:02:52.590 Anstatt also eine Änderung zu bewerten, was sie geändert hat, 00:02:52.591 --> 00:02:54.157 bewertet ihr die gesamte Revision 00:02:54.157 --> 00:02:56.523 und ich glaube, das ist das gleiche Qualitätsmaß, 00:02:56.523 --> 00:02:59.863 welches Lydia zu Beginn der Konferenz erwähnt hat. 00:03:00.372 --> 00:03:02.273 Hier oben gibt es ein Benutzer-Skript, 00:03:02.273 --> 00:03:04.499 welches euch eine Wertung von 1 bis 5 vorgibt. 00:03:04.499 --> 00:03:08.256 Ich glaube, das bezieht sich auf die Qualität des aktuellen Eintrags. 00:03:09.979 --> 00:03:13.287 Das Primary-Sources-Tool ist für jede Datenbank gedacht, 00:03:13.287 --> 00:03:15.268 die ihr importieren möchtet, 00:03:15.268 --> 00:03:18.274 die aberqualitativ nicht so gut ist, um sie direkt zu Wikidata hinzuzufügen, 00:03:18.274 --> 00:03:20.485 also fügt ihr es zu dem Primary-Source-Tool hinzu 00:03:20.485 --> 00:03:22.956 und dann können die Leute entscheiden, 00:03:22.956 --> 00:03:26.024 ob sie diese einzelnen Aussagen hinzufügen sollten oder nicht. 00:03:28.505 --> 00:03:30.321 Das Anzeigen von Koordinaten als Karten 00:03:30.321 --> 00:03:31.931 ist vorwiegend eine praktische Funktion, 00:03:31.931 --> 00:03:33.738 aber auch für die Qualitätskontrolle nützlich. 00:03:33.738 --> 00:03:34.970 Wenn ihr beispielsweise seht, 00:03:34.970 --> 00:03:36.848 dies soll Büro von Wikimedia Deutschland sein, 00:03:36.848 --> 00:03:39.400 aber die Koordinaten liegen irgendwo im Indischen Ozean, 00:03:39.401 --> 00:03:41.529 dann wisst ihr, dass da etwas nicht stimmt 00:03:41.530 --> 00:03:44.790 und ihr könnt es viel einfacher sehen als nur mit den Koordinaten. 00:03:46.262 --> 00:03:49.496 Dies ist ein Gadget mit dem Namen relativer Vollständigkeitsindikator, 00:03:49.496 --> 00:03:52.480 das euch dieses kleine Symbol hier zeigt, 00:03:53.007 --> 00:03:55.652 das euch sagt, für wie vollständig es diesen Punkt hält 00:03:55.652 --> 00:03:57.613 und auch welche Eigenschaften am ehesten fehlen. 00:03:57.614 --> 00:03:59.889 Das ist wirklich nützlich, wenn ihr eine Sache bearbeitet 00:03:59.889 --> 00:04:03.022 und ihr euch in einem Bereich befindet, mit dem ihr nicht sehr vertraut seid 00:04:03.022 --> 00:04:05.661 und ihr nicht wisst, welche Eigenschaften richtig sind. 00:04:05.662 --> 00:04:08.230 Dann ist dies ein sehr nützliches Gadget. 00:04:09.504 --> 00:04:11.401 Und wir haben Shape-Ausdrücke. 00:04:11.402 --> 00:04:15.624 Ich denke, Andrea oder Jose werden mehr darüber erzählen, 00:04:15.624 --> 00:04:17.933 aber das ist im Grunde eine sehr leistungsfähige Methode 00:04:17.933 --> 00:04:20.508 zum Vergleichen der Daten, die ihr habt, gegen das Schema, 00:04:20.508 --> 00:04:22.630 also welche Aussage sollten bestimmte Entitäten haben, 00:04:22.630 --> 00:04:24.939 mit welchen anderen Entitäten sollten diese verbunden sein 00:04:24.939 --> 00:04:26.349 und wie sollten diese aussehen? 00:04:26.349 --> 00:04:29.374 Und so könnt ihr Probleme auf diese Weise finden. 00:04:30.246 --> 00:04:32.361 Ich denke... Nein, da ist noch mehr. 00:04:32.362 --> 00:04:34.321 Das Integraality- oder Property-Dashboard 00:04:34.322 --> 00:04:37.023 gibt euch einen schnellen Überblick der Daten, die ihr bereits habt. 00:04:37.023 --> 00:04:39.285 Dies ist zum Beispiel aus dem WikiProject Red Pandas 00:04:39.517 --> 00:04:41.464 und ihr könnt sehen, dass wir ein Geschlecht 00:04:41.464 --> 00:04:43.561 für fast alle der roten Pandas haben, 00:04:43.561 --> 00:04:46.854 das Geburtsdatum variiert sehr im Bezug zum Zoo, aus dem sie stammen 00:04:46.854 --> 00:04:50.255 und wir haben fast keine toten Pandas, was wunderbar ist, 00:04:51.237 --> 00:04:52.780 weil sie so süß sind. 00:04:53.699 --> 00:04:55.654 Das ist also auch nützlich. 00:04:56.377 --> 00:04:59.185 Nun kommen wir zu den Themen, die aktuell anstehen. 00:04:59.889 --> 00:05:03.784 Wikidata Bridge oder auch bekannt als Client-Editing, 00:05:03.785 --> 00:05:07.076 also die Bearbeitung von Wikidata mittels Wikipedia-Infoboxen. 00:05:07.675 --> 00:05:11.265 Einerseits wird auf die Daten mehr Augenmerk gelegt, 00:05:11.265 --> 00:05:13.441 weil mehr Leute die Daten dort sehen können. 00:05:13.441 --> 00:05:17.100 Dies wird hoffentlich vermehrt den Gebrauch von Wikidata 00:05:17.100 --> 00:05:19.251 in den Wikipedias anregen und das bedeutet, 00:05:19.251 --> 00:05:21.213 dass mehr Leute davon Kenntnis bekommen können, 00:05:21.213 --> 00:05:23.747 wenn manche Daten veraltet sind und aktualisiert werden müssen, 00:05:23.747 --> 00:05:27.000 als wenn dies nur auf Wikidata sichtbar wäre. 00:05:28.630 --> 00:05:30.656 Es gibt auch kaputte Referenzen. 00:05:30.657 --> 00:05:33.986 Die Idee hier ist, dass wenn ihr den Wert einer Anweisung bearbeitet, 00:05:34.683 --> 00:05:37.059 ihr auch die Referenzen aktualisieren solltet, 00:05:37.059 --> 00:05:39.528 außer es handelt sich nur um einen Tippfehler oder Ähnliches. 00:05:39.897 --> 00:05:43.532 Und diese kaputten Referenzen weisen die Bearbeiter 00:05:43.532 --> 00:05:47.506 und auch andere Bearbeiter, die das sehen können, darauf hin, 00:05:47.506 --> 00:05:49.756 ob und welche anderen Änderungen vorgenommen wurden, 00:05:49.756 --> 00:05:52.471 den Wert der Anweisung und die nicht aktualisierte Referenz. 00:05:52.472 --> 00:05:56.766 Ihr könnt das dann korrigieren und entscheiden, ob es das war... 00:05:57.477 --> 00:06:00.496 oder noch mehr ansteht oder das tatsächlich so in Ordnung ist 00:06:00.496 --> 00:06:03.006 und ihr die Referenzen nicht aktualisieren müsst. 00:06:03.543 --> 00:06:05.996 Das bezieht sich auf signierte Anweisungen, 00:06:05.996 --> 00:06:09.251 die von einem Anliegen stammen, soweit ich weiß, 00:06:09.251 --> 00:06:12.355 dass einige Datenanbieter das zum Beispiel so handhaben... 00:06:14.131 --> 00:06:17.231 es gibt eine Anweisung, auf die von der UNESCO verwiesen wird oder so 00:06:17.232 --> 00:06:19.872 und dann zerstört plötzlich jemand die Anweisung 00:06:19.873 --> 00:06:22.196 und sie sind dann besorgt, dass es dann so aussieht, 00:06:22.827 --> 00:06:25.739 als ob der falsche veränderte Wert immer noch von der Organisation 00:06:25.739 --> 00:06:27.780 wie der UNESCO stamme, 00:06:27.780 --> 00:06:29.503 also können sie mit signierten Anweisungen 00:06:29.503 --> 00:06:31.488 solche Referenzen kryptografisch signieren. 00:06:31.488 --> 00:06:33.762 Das verhindert zwar keine Änderungen daran, 00:06:34.169 --> 00:06:37.034 aber zumindest, wenn jemand die Anweisung verfälscht 00:06:37.034 --> 00:06:40.255 oder sie in irgendeiner Weise verändert, dann ist die Signatur nicht mehr gültig, 00:06:40.255 --> 00:06:43.491 dann wisst ihr, dies entspricht nicht dem, was von der Organisation stammt. 00:06:43.491 --> 00:06:47.299 Vielleicht war es eine konforme Änderung und diese sollte neu signiert werden, 00:06:47.299 --> 00:06:50.760 aber vielleicht muss diese wieder rückgängig gemacht werden. 00:06:51.203 --> 00:06:54.166 Nun etwas, das auch sehr aufregend sein wird, denke ich, 00:06:54.166 --> 00:06:56.956 Citoid ist dieses erstaunliche System, das sie auf Wikipedia haben. 00:06:57.379 --> 00:07:01.266 Damit könnt ihr eine URL, einen Bezeichner oder eine ISBN 00:07:01.266 --> 00:07:04.759 oder Wikidata ID oder im Grunde alles in den Visual Editor einfügen 00:07:05.260 --> 00:07:08.041 und es spuckt eine Referenz aus, die schön formatiert ist, 00:07:08.041 --> 00:07:11.049 und dazu alle Daten, die ihr braucht, und der Gebrauch davon ist toll. 00:07:11.049 --> 00:07:14.337 Und im Vergleich dazu auf Wikidata, wenn ich einen Verweis hinzufügen möchte, 00:07:14.338 --> 00:07:17.271 muss ich normalerweise eine Referenz-URL, einen Titel, 00:07:17.271 --> 00:07:19.517 einen String des Autorennamen, Veröffentlichungsort, 00:07:19.517 --> 00:07:21.481 Veröffentlichungsdatum, Abfragedatum, 00:07:21.481 --> 00:07:24.991 zumindest diese angeben und das ist ärgerlich. 00:07:24.991 --> 00:07:29.261 Die Integration von Citoid in Wikibase wird hier hoffentlich Abhilfe bringen. 00:07:30.245 --> 00:07:33.604 Und ich denke, das war alles, was ich hatte, ja. 00:07:33.604 --> 00:07:36.520 Also gebe ich jetzt ab zu Cristina. 00:07:43.780 --> 00:07:45.171 Hi, ich bin Cristina. 00:07:45.171 --> 00:07:47.753 Ich bin wissenschaftliche Mitarbeiterin der Universität Zürich 00:07:47.753 --> 00:07:51.517 und ich bin auch aktives Mitglied der Schweizer Community. 00:07:52.698 --> 00:07:57.741 Als Claudia Müller-Birn und ich dies auf der WikidataCon einreichten, 00:07:57.741 --> 00:08:00.461 war es unser Anliegen, unsere Diskussion fortzusetzen, 00:08:00.461 --> 00:08:02.594 die wir Anfang des Jahres begonnen hatten 00:08:02.594 --> 00:08:07.442 mit einem Workshop für Datenqualität und einigen Sessions in Wikimania. 00:08:07.442 --> 00:08:10.535 Also das Ziel dieses Vortrags ist es, einige Ideen von uns 00:08:10.536 --> 00:08:14.432 und der Community anzusprechen, die wir aufgegriffen haben, 00:08:14.432 --> 00:08:16.560 und die Diskussion fortzusetzen. 00:08:16.561 --> 00:08:20.065 Wir möchten also weiterhin viel mit euch interagieren. 00:08:21.487 --> 00:08:23.371 Also was wir für sehr wichtig halten, 00:08:23.372 --> 00:08:27.580 ist, dass wir kontinuierlich jede Art von Benutzer in der Community fragen, 00:08:27.581 --> 00:08:29.030 was sie wirklich brauchen, 00:08:29.030 --> 00:08:32.000 welche Probleme sie mit der Datenqualität haben, 00:08:32.000 --> 00:08:34.760 nicht nur Bearbeiter, sondern auch die Leute, die programmieren 00:08:34.760 --> 00:08:37.510 oder einfach Daten verwenden, und auch Forscher, 00:08:37.510 --> 00:08:39.494 die den gesamten Bearbeitungsverlauf verwenden, 00:08:39.494 --> 00:08:41.620 um zu analysieren, was vor sich geht. 00:08:42.367 --> 00:08:46.021 Wir haben also eine Überprüfung von rund 80 Tools durchgeführt, 00:08:46.021 --> 00:08:49.251 die in Wikidata vorhanden sind, und wir haben sie ausgerichtet 00:08:49.251 --> 00:08:52.225 an verschiedenen Dimensionen der Datenqualität. 00:08:52.225 --> 00:08:54.510 Und was wir eigentlich bemerkten, 00:08:54.510 --> 00:08:57.681 viele davon waren für das Monitoring der Vollständigkeit gedacht, 00:08:57.682 --> 00:09:02.820 doch einige von ihnen ermöglichen auch Verknüpfungen. 00:09:02.820 --> 00:09:08.442 Es besteht jedoch ein großer Bedarf an Tools, die sich mit Vielfalt befassen. 00:09:08.443 --> 00:09:12.774 Das ist eines der Merkmale, die tatsächlich in Wikidata möglich sind. 00:09:12.774 --> 00:09:15.748 Insbesondere dieses Gestaltungsprinzip von Wikidata, 00:09:15.748 --> 00:09:17.901 wo wir Vielfalt haben können, 00:09:17.902 --> 00:09:20.508 also unterschiedliche Anweisungen mit unterschiedlichen Werten, 00:09:20.614 --> 00:09:22.236 die aus verschiedenen Quellen kommen. 00:09:22.236 --> 00:09:25.231 Da es sich um sekundäre Quellen handelt, haben wir nicht wirklich Werkzeuge, 00:09:25.231 --> 00:09:27.750 die uns zeigen, wie viele kumulierte Aussagen es gib 00:09:27.751 --> 00:09:30.889 und wie viele davon wir verbessern können und wie 00:09:30.890 --> 00:09:32.833 und wir wissen auch nicht wirklich, 00:09:32.833 --> 00:09:35.788 was die Gründe für die Vielfalt sind, die auftreten können. 00:09:36.491 --> 00:09:40.291 Also was wir besprochen haben auf diesen Community-Treffen, 00:09:40.291 --> 00:09:43.084 waren die Herausforderungen, die noch Aufmerksamkeit erfordern. 00:09:43.084 --> 00:09:46.989 Sehr toll zum Beispiel sind all diese Crowdsourcing-Communities, 00:09:46.989 --> 00:09:49.263 weil verschiedene Leute verschiedene Bereiche 00:09:49.263 --> 00:09:51.679 der Daten oder der Diagramme angehen 00:09:51.679 --> 00:09:54.615 und wir haben auch unterschiedliche Hintergrundkenntnisse. 00:09:54.616 --> 00:09:58.981 Tatsächlich ist es jedoch sehr schwierig, alles in etwas Konsistentes auszurichten, 00:09:58.981 --> 00:10:01.291 weil unterschiedliche Menschen 00:10:01.291 --> 00:10:04.920 unterschiedliche Eigenschaften auf unterschiedliche Weise nutzen 00:10:04.920 --> 00:10:08.511 und sie erwarten auch Unterschiedliches von Entitätsbeschreibungen. 00:10:09.003 --> 00:10:12.721 Die Leute meinten auch, dass sie mehr Werkzeuge brauchen, 00:10:12.722 --> 00:10:16.000 die einen besseren Überblick ermöglichen über den globalen Status der Dinge. 00:10:16.000 --> 00:10:20.733 Also welche Einheiten in Bezug auf Vollständigkeit fehlen, 00:10:20.733 --> 00:10:26.021 aber auch so etwas wie, woran die Leute gerade die meiste Zeit arbeiten, 00:10:26.021 --> 00:10:30.516 und sie erwähnen auch oft eine engere Zusammenarbeit 00:10:30.517 --> 00:10:33.311 nicht inur m Hinblick auf Sprachen, sondern die WikiProjects 00:10:33.311 --> 00:10:35.658 und die verschiedenen Wikimedia-Plattformen. 00:10:35.658 --> 00:10:38.859 Und wir haben alle transkribierten Kommentare veröffentlicht 00:10:38.860 --> 00:10:42.959 von all diesen Diskussionen in diesen Links hier in den Etherpads 00:10:42.959 --> 00:10:45.982 und auch auf der Wiki-Seite von Wikimania. 00:10:46.232 --> 00:10:48.481 Einige der Lösungen, die tatsächlich aufgetaucht sind, 00:10:48.481 --> 00:10:53.001 gingen in die Richtung, mehr Best Practices auszutauschen, 00:10:53.001 --> 00:10:55.762 die in verschiedenen WikiProjects entwickelt werden. 00:10:55.762 --> 00:10:57.989 Aber die Leute wollen auch Tools, 00:10:57.989 --> 00:11:01.239 die dabei helfen, die Arbeit in Teams zu organisieren, 00:11:01.239 --> 00:11:03.845 oder zumindest verstehen helfen, wer woran arbeitet, 00:11:03.845 --> 00:11:07.815 und sie erwähnten auch, dass sie sich mehr Anwendungsbeispiele wünschen 00:11:07.816 --> 00:11:12.019 und mehr Vorlagen, mit denen sie Dinge besser erstellen können. 00:11:12.946 --> 00:11:14.741 Und im Hinblick auf den Kontakt, 00:11:14.741 --> 00:11:18.525 den wir mit offenen staatlichen Datenorganisationen haben, 00:11:18.525 --> 00:11:22.973 und insbesondere stehe ich in Kontakt mit dem Kanton und der Stadt Zürich, 00:11:22.973 --> 00:11:26.207 sind diese sehr daran interessiert, mit Wikidata zu arbeiten 00:11:26.207 --> 00:11:30.490 weil sie wollen, dass ihre Daten für alle an dem Ort zugänglich sind, 00:11:30.490 --> 00:11:33.681 an dem Menschen Daten abrufen oder darauf zugreifen. 00:11:33.682 --> 00:11:36.550 Für sie wäre es wirklich interessant 00:11:36.551 --> 00:11:38.775 eine Art von Qualitätsindikatoren zu haben 00:11:38.775 --> 00:11:40.822 sowohl im Wiki, was bereits verwirklicht wird, 00:11:40.822 --> 00:11:42.664 als auch in SPARQL-Ergebnissen, 00:11:42.664 --> 00:11:44.947 um zu wissen, ob sie diesen Community-basierten Daten 00:11:44.947 --> 00:11:46.237 vertrauen können oder nicht. 00:11:46.237 --> 00:11:48.230 Weiterhin wollen sie auch wissen, 00:11:48.230 --> 00:11:51.417 welche Teile der eigenen Datensätze für Wikidata nützlich sind. 00:11:51.418 --> 00:11:53.071 Und sie hätten gerne ein Tool, 00:11:53.071 --> 00:11:56.041 mit dem sie dies automatisch beurteilen können. 00:11:56.041 --> 00:11:59.066 Sie benötigen auch eine Methode oder ein Werkzeug, 00:11:59.067 --> 00:12:02.817 das ihnen bei der Entscheidung hilft, ob sie ihre Daten importieren 00:12:02.817 --> 00:12:04.894 oder verknüpfen sollen, denn in einigen Fällen 00:12:04.895 --> 00:12:07.247 haben sie auch ihre eigenen verknüpften offenen Datensätze. 00:12:07.247 --> 00:12:09.746 Sie wissen also nicht, ob sie die Daten nur aufnehmen sollen 00:12:09.747 --> 00:12:13.274 oder weiterhin Links von den Datensätzen zu Wikidata erstellen sollen 00:12:13.274 --> 00:12:14.562 und umgekehrt. 00:12:14.950 --> 00:12:17.014 Und sie möchten auch wissen, 00:12:17.014 --> 00:12:20.044 auf welche Websites in Wikidata verwiesen wird. 00:12:20.044 --> 00:12:23.361 Und wenn sie eine solche Abfrage im Query Service ausführen, 00:12:23.362 --> 00:12:24.938 bekommen sie oft Zeitüberschreitungen. 00:12:24.938 --> 00:12:28.181 Vielleicht sollten wir wirklich mehr Werkzeuge schaffen, 00:12:28.181 --> 00:12:32.240 die ihnen helfen, diese Antworten auf ihre Fragen zu bekommen. 00:12:33.148 --> 00:12:35.768 Und davon abgesehen, 00:12:35.768 --> 00:12:39.361 uns als Wiki-Forschern fehlen manchmal auch bei den Zusammenfassungen 00:12:39.362 --> 00:12:42.023 der Änderungen einige Informationen. 00:12:42.024 --> 00:12:44.953 Ich erinnere mich daran, als wir daran arbeiteten, 00:12:44.954 --> 00:12:48.919 das unterschiedliche Verhalten der Bearbeiter zu verstehen 00:12:48.919 --> 00:12:53.403 im Hinblick auf Tools oder Bots, anonyme Benutzer und so weiter, 00:12:53.403 --> 00:12:58.744 fehlte uns zum Beispiel wirklich eine Standardmethode zum Nachverfolgen, 00:12:58.744 --> 00:13:00.982 ob Tools verwendet wurden. 00:13:00.982 --> 00:13:03.154 Und es gibt einige Tools, die das bereits tun 00:13:03.155 --> 00:13:05.230 wie PetScan und viele andere, 00:13:05.230 --> 00:13:07.720 aber vielleicht sollten wir in der Community 00:13:07.721 --> 00:13:10.130 öfter darüber diskutieren, wie Sie diese 00:13:10.130 --> 00:13:13.969 mit einer feinkörnigen Datenherkunft aufnehmen können. 00:13:13.969 --> 00:13:16.031 Weiterhin sind wir der Meinung, dass wir 00:13:16.031 --> 00:13:20.801 konkretere Datenqualitätsdimensionen berücksichtigen müssen, 00:13:20.802 --> 00:13:24.961 die sich auf verbundene Daten beziehen, aber nicht alle Arten von Daten. 00:13:24.962 --> 00:13:28.022 Deshalb haben wir einige Maßnahmen erarbeitet, 00:13:28.022 --> 00:13:30.782 um auf den Informationsgewinn tatsächlich zuzugreifen, 00:13:30.782 --> 00:13:33.881 der durch die Links aktiviert wird, und was wir damit meinen, ist, 00:13:33.882 --> 00:13:36.681 dass wenn wir Wikidata mit anderen Datensätzen verknüpfen, 00:13:36.682 --> 00:13:38.323 sollten wir auch daran denken, 00:13:38.323 --> 00:13:41.921 wie viel die Entitäten tatsächlich durch die Klassifizierung gewinnen, 00:13:41.922 --> 00:13:45.601 auch in der Beschreibung, aber auch in den Vokabeln, die sie verwenden. 00:13:45.602 --> 00:13:51.251 Also nur um ein sehr einfaches Beispiel zu geben, was ich damit meine, ist, 00:13:51.251 --> 00:13:54.269 was wir uns in diesem Fall vorstellen können, wäre, Wikidata 00:13:54.270 --> 00:13:57.651 oder das externe Rechenzentrum, das mit Wikidata verknüpft ist, 00:13:57.651 --> 00:14:00.487 dort haben wir die Entität einer Person, die Natasha Noy heißt, 00:14:00.487 --> 00:14:02.601 wir haben die Zugehörigkeit und andere Dinge 00:14:02.602 --> 00:14:05.239 und dann sagen wir: OK, wir verlinken zu einem externen Ort 00:14:05.240 --> 00:14:08.919 und diese Entität hat den gleichen Namen, tatsächlich haben wir den gleichen Wert. 00:14:08.920 --> 00:14:11.499 Was also besser wäre, ist, dass wir auf etwas verlinken, 00:14:11.499 --> 00:14:12.889 das einen anderen Namen hat. 00:14:12.889 --> 00:14:15.252 Das ist immer noch gültig, weil es zwei Möglichkeiten gibt, 00:14:15.252 --> 00:14:16.972 den Namen dieser Person zu schreiben 00:14:16.972 --> 00:14:19.714 und auch andere Informationen, die wir nicht in Wikidata haben 00:14:19.715 --> 00:14:21.922 oder auch nicht in einem anderen Datensatz haben. 00:14:22.390 --> 00:14:24.652 Aber was noch besser ist, ist, 00:14:24.653 --> 00:14:27.478 dass wir tatsächlich im Zieldatensatz suchen, 00:14:27.478 --> 00:14:29.633 da sie dort auch neue Möglichkeiten 00:14:29.633 --> 00:14:31.393 zur Klassifizierung der Informationen haben. 00:14:31.393 --> 00:14:35.354 Das ist also nicht nur eine Person, sondern in dem anderen Datensatz 00:14:35.355 --> 00:14:37.966 steht auch, ob es sei eine Frau oder etwas anderes, 00:14:37.966 --> 00:14:39.526 mit dem sie sich einordnen lässt. 00:14:39.526 --> 00:14:43.401 Und wenn in dem anderen Datensatz, viele andere Vokabeln verwendet werden, 00:14:43.402 --> 00:14:46.588 hilft das auch bei der gesamten Informationsbeschaffung. 00:14:47.371 --> 00:14:50.973 Damit möchte ich auch sagen, dass wir denken, 00:14:50.973 --> 00:14:55.809 dass wir gebündelte Abfragen besser präsentieren können, 00:14:55.810 --> 00:15:00.448 denn wenn wir uns das Abfrageprotokoll von Malyshev et al. ansehen, 00:15:01.285 --> 00:15:04.301 sehen wir, dass wir aus den organischen Abfragen 00:15:04.302 --> 00:15:06.921 nur sehr wenige gebündelte Suchergebnisse haben. 00:15:06.922 --> 00:15:12.501 Und tatsächlich ist Bündelung einer der Hauptvorteile von Verbindungsdaten. 00:15:12.501 --> 00:15:16.903 Also vielleicht brauchen die Community oder die Leute, die Wikidata benutzen, 00:15:16.903 --> 00:15:18.898 auch mehr Beispiele dazu. 00:15:18.898 --> 00:15:22.666 Und wenn wir uns die Liste der verwendeten Endpunkte ansehen, 00:15:22.667 --> 00:15:25.401 ist dies keine vollständige Liste und wir haben noch viele mehr. 00:15:25.402 --> 00:15:30.279 Natürlich wurden diese Daten aus Abfragen bis März 2018 analysiert, 00:15:30.469 --> 00:15:34.047 aber wir sollten uns jedoch die Liste der gebündelten Endpunkte ansehen, 00:15:34.047 --> 00:15:37.252 die wir haben und sehen, ob wir sie wirklich benutzen oder nicht. 00:15:37.813 --> 00:15:40.281 Also zwei Fragen, die ich für das Publikum habe, 00:15:40.281 --> 00:15:43.001 die wir nachher als Grundlage für eine Diskussion verwenden können: 00:15:43.001 --> 00:15:46.001 Welche Datenqualitätsprobleme sollten eurer Meinung nach behoben werden 00:15:46.002 --> 00:15:47.626 aufgrund eurer Bedürfnisse? 00:15:47.626 --> 00:15:50.401 Aber ebenso, wo braucht ihr mehr Automatisierung, 00:15:50.402 --> 00:15:53.243 die euch beim Bearbeiten oder dem Kontrollieren hilft. 00:15:53.736 --> 00:15:55.306 Das ist alles, vielen Dank. 00:16:05.740 --> 00:16:08.595 (Jose Emilio Labra) Okay, worüber ich sprechen werde, 00:16:08.595 --> 00:16:14.715 sind einige Tools, die wir im Zusammenhang mit Shape Expressions entwickelt haben. 00:16:15.536 --> 00:16:18.251 Also darüber möchte ich etwas erzählen. 00:16:18.251 --> 00:16:19.740 Ich bin Jose Emilio Labra, 00:16:19.740 --> 00:16:23.750 aber all diese Tools wurden von verschiedenen Leuten gemacht, 00:16:23.750 --> 00:16:26.740 hauptsächlich im Zusammenhang mit W3C ShEx, 00:16:26.740 --> 00:16:28.481 der Shape Expressions Community Group. 00:16:28.481 --> 00:16:29.719 ShEx Community Group. 00:16:30.144 --> 00:16:34.382 Also das erste Tool, das ich erwähnen möchte, ist RDFShape, 00:16:34.382 --> 00:16:36.082 dies ist ein allgemeines Werkzeug, 00:16:36.082 --> 00:16:40.499 weil Shape Expressions nicht nur für Wikidata sind. 00:16:40.499 --> 00:16:44.168 Shape Expressions ist eine Sprache zur allgemeinen Validierung von RDF. 00:16:44.168 --> 00:16:47.568 Dieses Tool wurde hauptsächlich von mir entwickelt 00:16:47.568 --> 00:16:50.880 und es ist ein Werkzeug, um RDF im Allgemeinen zu validieren. 00:16:50.881 --> 00:16:55.139 Wenn ihr also mehr über RDF erfahren wollt oder RDF validieren möchtet 00:16:55.140 --> 00:16:58.521 oder SPARQL-Endpunkte nicht nur in Wikidata, 00:16:58.521 --> 00:17:00.891 ist meine Empfehlung, dass ihr dieses Tool verwenden könnt. 00:17:00.891 --> 00:17:03.255 Auch zum Unterrichten. 00:17:03.255 --> 00:17:05.640 Ich bin Lehrer an der Universität 00:17:05.641 --> 00:17:07.991 und ich benutze es in meinem Semantic-Web-Kurs, 00:17:07.991 --> 00:17:09.321 um RDF zu unterrichten. 00:17:09.321 --> 00:17:12.350 Wenn ihr also RDF lernen möchtet, halte ich es für ein nützliches Werkzeug. 00:17:13.033 --> 00:17:15.997 Dies ist beispielsweise eine Visualisierung 00:17:15.997 --> 00:17:18.017 eines RDF-Diagramms mit dem Tool. 00:17:18.727 --> 00:17:22.643 Aber bevor ich letzten Monat hierher gekommen bin, 00:17:22.643 --> 00:17:27.003 habe ich einen Fork von rdfshape speziell für Wikidata erstellt, 00:17:27.003 --> 00:17:28.443 weil ich dachte... 00:17:28.443 --> 00:17:32.942 Es heißt WikiShape und ich habe es gestern als Geschenk für Wikidata präsentiert. 00:17:32.942 --> 00:17:34.751 Was ich also genommen habe, ist... 00:17:34.751 --> 00:17:39.791 Ich habe alles entfernt, was nicht mit Wikidata zu tun hatte 00:17:39.791 --> 00:17:44.801 und um einige Dinge zu hartcodieren, zum Beispiel den Wikidata-SPARQL-Endpunkt. 00:17:44.802 --> 00:17:49.041 Doch jetzt hat mich jemand gefragt, ob ich das auch für Wikibase machen könnte. 00:17:49.042 --> 00:17:52.000 Und es ist auch für Wikibase sehr einfach zu machen. 00:17:52.760 --> 00:17:56.280 Also dieses Tool, WikiShape, ist ziemlich neu. 00:17:57.015 --> 00:17:59.633 Ich denke, es funktioniert, die meisten Funktionen, 00:17:59.633 --> 00:18:02.529 aber es gibt einige Funktionen, die möglicherweise nicht funktionieren, 00:18:02.529 --> 00:18:05.231 und wenn ihr es versuchen wollt oder es verbessern wollt, 00:18:05.231 --> 00:18:06.391 sagt es mir bitte. 00:18:06.391 --> 00:18:08.503 Das sind also [unverständlich] Aufnahmen, 00:18:08.503 --> 00:18:11.515 aber ich denke, ich kann es auch so versuchen, 00:18:11.705 --> 00:18:13.263 Also lasst es uns versuchen. 00:18:14.933 --> 00:18:16.945 Mal sehen, ob es funktioniert. 00:18:16.953 --> 00:18:20.070 Zuerst muss ich da rausgehen... 00:18:22.453 --> 00:18:23.453 Hier. 00:18:24.226 --> 00:18:27.724 Okay, ja. Das ist also das Werkzeug hier. 00:18:28.204 --> 00:18:30.467 Dinge, die ihr mit dem Tool zum Beispiel machen könnt, 00:18:30.467 --> 00:18:35.275 sind, ihr könnt Schemas, Entitätsschemas überprüfen. 00:18:35.276 --> 00:18:37.482 Ihr wisst, dass es einen neuen Namespace gibt, 00:18:37.482 --> 00:18:38.762 der E-irgendwas heißt. 00:18:38.762 --> 00:18:44.485 Wenn ihr also hier zum Beispiel anfangt zu schreiben "Mensch"... 00:18:44.735 --> 00:18:48.812 Während ihr schreibt, könnt ihr mittels der Autovervollständigung prüfen. 00:18:48.812 --> 00:18:52.001 Dies ist zum Beispiel die Shape Expression für Mensch 00:18:52.790 --> 00:18:55.937 und das sind die Shape Expressions hier. 00:18:55.938 --> 00:18:59.841 Und wie ihr sehen könnt, hat dieser Editor Syntax-Hervorhebung, 00:18:59.842 --> 00:19:04.559 das ist... naja, vielleicht ist der Bildschirm zu klein. 00:19:05.676 --> 00:19:07.719 Ich kann versuchen, es größer zu machen. 00:19:09.194 --> 00:19:10.973 Vielleicht seht ihr es jetzt besser. 00:19:10.973 --> 00:19:14.241 Also... und das ist der Editor mit Syntax-Hervorhebung und er hat auch... 00:19:14.241 --> 00:19:17.851 dieser Editor stammt aus demselben Quellcode 00:19:17.851 --> 00:19:19.771 wie der Wikidata-Abfragedienst. 00:19:19.771 --> 00:19:23.750 Also zum Beispiel, wenn man mit der Maus hier schwebt, 00:19:23.750 --> 00:19:27.961 zeigt es die Beschriftungen der verschiedenen Eigenschaften. 00:19:27.962 --> 00:19:31.298 Also ich finde, das ist sehr hilfreich, weil jetzt... 00:19:32.588 --> 00:19:36.001 die Entitätsschemata in Wikidata 00:19:36.001 --> 00:19:38.477 sind nur eine Idee in einfachem Text. 00:19:38.501 --> 00:19:42.493 Aber ich denke, dieser Editor ist viel besser, weil er Autocomplete hat 00:19:42.494 --> 00:19:43.908 und er hat auch... 00:19:43.908 --> 00:19:48.241 Ich meine zum Beispiel, wenn ihr eine Einschränkung hinzufügen wolltet, 00:19:48.241 --> 00:19:51.570 sagt ihr "wdt:", 00:19:51.570 --> 00:19:53.754 und fangt an zu schreiben "author" 00:19:53.754 --> 00:19:56.884 und klickt dann mit Strg + Leertaste 00:19:56.884 --> 00:19:59.012 und es schlägt euch die verschiedenen Einträge vor. 00:19:59.012 --> 00:20:02.291 Das ist also ähnlich wie beim Wikidata-Abfragedienst, 00:20:02.291 --> 00:20:06.285 aber speziell für Shape Expressions, 00:20:06.285 --> 00:20:11.275 weil ich das Gefühl habe, Shape Expressions zu kreieren 00:20:11.715 --> 00:20:15.841 ist nicht schwieriger als das Schreiben von SPARQL-Abfragen. 00:20:15.842 --> 00:20:21.255 Manche Leute denken, dass es auf dem gleichen Niveau ist. 00:20:22.278 --> 00:20:24.746 Ich denke, es ist wahrscheinlich einfacher. 00:20:24.746 --> 00:20:27.521 Denn die Shape Expressions waren, als wir es entworfen haben, 00:20:27.521 --> 00:20:31.029 haben wir es getan, um die Arbeit zu vereinfachen. 00:20:31.029 --> 00:20:35.001 Okay, das ist eines der ersten Dinge, die ihr in diesen Editor habt 00:20:35.001 --> 00:20:36.620 für Shape Expressions. 00:20:37.371 --> 00:20:41.467 Und dann habt ihr zum Beispiel auch die Möglichkeit, zu visualisieren. 00:20:41.468 --> 00:20:44.801 Wenn man eine Shape Expression habt verwendet man zum Beispiel... 00:20:44.802 --> 00:20:49.386 Ich denke, "written" ist eine schöne Shape Expression, 00:20:49.386 --> 00:20:53.500 weil sie einige Beziehungen zwischen verschiedenen Dingen hat. 00:20:54.823 --> 00:20:58.160 Und das ist die UML-Visualisierung von schriftlichen Arbeiten. 00:20:58.161 --> 00:21:02.090 In UML sind die verschiedenen Eigenschaften leicht zu erkennen. 00:21:02.790 --> 00:21:06.794 Wenn ihr dies macht - mir wurde das klar, als ich das mit mehreren Leuten versuchte, 00:21:06.795 --> 00:21:09.216 finden diese einige Fehler in ihren Shape Expressions, 00:21:09.217 --> 00:21:11.028 denn es ist leicht zu erkennen, 00:21:11.028 --> 00:21:13.488 welche Eigenschaften fehlen oder was auch immer. 00:21:13.488 --> 00:21:15.991 Dann hier eine andere Möglichkeit ist, 00:21:15.991 --> 00:21:19.520 dass ihr auch validieren könnt, ich habe es hier, die Validierung. 00:21:20.496 --> 00:21:25.285 Ich glaube, ich hatte es in einem Label, vielleicht habe ich es geschlossen. 00:21:26.267 --> 00:21:30.988 Okay, aber ihr könnt beispielsweise hier Validate entities klicken, 00:21:32.308 --> 00:21:34.232 zum Beispiel... 00:21:35.404 --> 00:21:41.921 "q42" mit "e42", das ist Urheber. 00:21:42.818 --> 00:21:46.500 Mit "human" können wir es machen, glaube ich. 00:21:48.970 --> 00:21:50.131 Und dann ist es... 00:21:50.688 --> 00:21:56.248 es dauert eine Weile, weil dabei die SPARQL-Abfragen ausgeführt werden 00:21:56.248 --> 00:21:59.264 und jetzt, zum Beispiel, scheitert es am Netzwerk, aber... 00:21:59.657 --> 00:22:01.580 Also ihr könnt es versuchen. 00:22:02.759 --> 00:22:07.026 Gut, lasst uns mit der Präsentation der anderen Tools fortfahren. 00:22:07.026 --> 00:22:10.513 Mein Rat ist also, wenn ihr es versuchen möchtet 00:22:10.513 --> 00:22:12.783 und Feedback wollt, lasst es mich wissen. 00:22:13.133 --> 00:22:15.540 Also, um mit der Präsentation fortzufahren... 00:22:18.743 --> 00:22:20.277 Das ist also WikiShape. 00:22:23.800 --> 00:22:26.509 Dann, das habe ich schon erwähnt, 00:22:27.681 --> 00:22:30.277 gibt es den Shape Expressions Editor, 00:22:30.277 --> 00:22:34.402 das ist ein eigenständiges Projekt in GitHub. 00:22:35.505 --> 00:22:37.532 Ihr könnt es in eurem eigenen Projekt verwenden. 00:22:37.532 --> 00:22:41.036 Wenn ihr ein Tool für Shape Expression benötigt, 00:22:41.036 --> 00:22:45.635 könnt ihr es einfach in jedes andere Projekt einbetten. 00:22:45.636 --> 00:22:48.235 Das ist auf GitHub und ihr könnt es benutzen. 00:22:48.868 --> 00:22:51.970 Der gleiche Autor, einer meiner Schüler, 00:22:52.684 --> 00:22:55.704 hat auch einen Editor für Shape Expressions erstellt, 00:22:55.704 --> 00:22:57.789 ebenfalls inspiriert vom Wikidata-Abfragedienst, 00:22:57.789 --> 00:23:00.681 wo ihr in dieser Spalte 00:23:00.682 --> 00:23:05.033 diesen vorwiegend visuellen Editor für SPARQL-Abfragen habt, 00:23:05.033 --> 00:23:07.135 wo ihr diese Dinge bewerkstelligen könnt. 00:23:07.136 --> 00:23:09.123 Das ist also eine Bildschirmaufnahme. 00:23:09.123 --> 00:23:12.662 Ihr könnt sehen, dass dies die Shape Expressions im Text sind. 00:23:12.662 --> 00:23:15.745 Dies ist jedoch eine formularbasierte Shape Expression, 00:23:15.745 --> 00:23:18.505 bei der es wahrscheinlich etwas länger dauern würde. 00:23:18.505 --> 00:23:23.400 Hier könnt ihr die verschiedenen Zeilen in die verschiedenen Felder einfügen. 00:23:23.401 --> 00:23:25.800 Oay, dann gibt es ShExEr. 00:23:26.879 --> 00:23:27.943 Wir haben... 00:23:27.943 --> 00:23:31.883 das wird von einem Doktoranden an der Universität von Oviedo gemacht 00:23:31.883 --> 00:23:34.276 und er ist hier, damit er ShExEr präsentieren kann. 00:23:38.147 --> 00:23:40.024 (Danny) Hallo, ich bin Danny Fernández, 00:23:40.025 --> 00:23:43.800 Ich bin Doktorand an der Universität von Oviedo und arbeite mit Labra. 00:23:44.710 --> 00:23:47.725 Da uns die Zeit davon läuft, lasst uns dies schnell machen. 00:23:47.726 --> 00:23:52.641 Wir starten also keine Demo, sondern zeigen nur einige Screenshots. 00:23:52.642 --> 00:23:56.387 Okay, also die übliche Art, mit Shape Expressions zu arbeiten 00:23:56.387 --> 00:23:58.301 oder einer beliebigen Formsprache, ist, 00:23:58.301 --> 00:23:59.791 dass Sie einen Domain-Experten haben, 00:23:59.791 --> 00:24:02.313 der als Erstes definiert, wie der Graph aussehen soll 00:24:02.314 --> 00:24:03.756 einige Strukturen definiert 00:24:03.756 --> 00:24:05.746 und dann verwendet man diese Strukturen, 00:24:05.746 --> 00:24:07.750 um die tatsächlichen Daten dagegen zu validieren. 00:24:08.124 --> 00:24:11.641 Dieses Tool und auch diejenigen, die von Labra vorgestellt wurden, 00:24:11.642 --> 00:24:14.441 sind Allzweckwerkzeuge für jede RDF-Quelle. 00:24:14.442 --> 00:24:17.255 Es ist so konzipiert, dass es umgekehrt funktioniert. 00:24:17.255 --> 00:24:18.969 Man hat bereits einige Daten, 00:24:18.969 --> 00:24:23.165 Man wählt aus, welche Notizen die Form erhalten soll 00:24:23.165 --> 00:24:26.718 und dann extrahiert oder schließt man die Form automatisch. 00:24:26.719 --> 00:24:29.541 Also, auch wenn dies ein Allzweckwerkzeug ist, 00:24:29.541 --> 00:24:32.034 was wir für diese WikidataCon gemacht haben, 00:24:32.034 --> 00:24:34.254 ist diese schicke Schaltfläche. 00:24:34.254 --> 00:24:37.301 Wenn man darauf klickt, was im Wesentlichen passiert, ist, 00:24:37.301 --> 00:24:42.079 es gibt so viele Konfigurationsparameter 00:24:42.080 --> 00:24:46.251 und es konfiguriert es für die Arbeit mit dem Wikidata-Endpunkt 00:24:46.251 --> 00:24:47.971 und ich bin fast fertig, sorry. 00:24:48.733 --> 00:24:52.883 Sobald man diesen Knopf drückt, erhält man im Wesentlichen Folgendes. 00:24:52.884 --> 00:24:55.266 Nachdem man ausgewählt hat, welche Art von Notizen, 00:24:55.266 --> 00:24:59.360 was für Instanzen unserer Klasse, was auch immer man will, 00:24:59.361 --> 00:25:01.393 erhält man ein automatisches Schema. 00:25:02.319 --> 00:25:04.473 Alle Einschränkungen sind danach sortiert, 00:25:04.473 --> 00:25:07.112 wie viele Modi tatsächlich damit übereinstimmen. 00:25:07.112 --> 00:25:09.772 Man kann so die selteneren filtern und so weiter. 00:25:09.772 --> 00:25:12.466 Also wir haben da unten ein Poster über dieses Thema 00:25:12.466 --> 00:25:14.695 und ich werde unten und oben sein 00:25:14.695 --> 00:25:16.454 und überall den ganzen Tag. 00:25:16.455 --> 00:25:19.081 Wer also weiteres Interesse an diesem Tool hat, 00:25:19.082 --> 00:25:21.477 kann mich einfach während dieses Events ansprechen. 00:25:21.477 --> 00:25:24.624 Und jetzt werde ich Labra das Mikro zurückgeben, danke. 00:25:29.812 --> 00:25:32.578 (Jose) Also lasst uns mit den anderen Tools fortfahren. 00:25:32.579 --> 00:25:34.984 Ein anderes Werkzeug ist der ShapeDesigner. 00:25:34.984 --> 00:25:37.281 Andra, möchtest du jetzt den ShapeDesigner machen 00:25:37.281 --> 00:25:39.287 oder vielleicht später im Workshop? 00:25:39.287 --> 00:25:40.773 Es gibt einen Workshop... 00:25:40.773 --> 00:25:44.496 Heute Nachmittag gibt es einen Workshop speziell für Shape Expressions und... 00:25:45.265 --> 00:25:47.939 Die Idee ist, dass wir dort mehr in die Praxis gehen können, 00:25:47.940 --> 00:25:52.324 und wenn ihr etwas ShEx üben möchtet, könnt ihr es dort tun. 00:25:52.875 --> 00:25:55.470 Dieses Tool ist ShEx... und hier ist Eric, 00:25:55.470 --> 00:25:56.998 also kannst du es präsentieren. 00:25:57.969 --> 00:25:59.527 (Eric) Also einfach super schnell. 00:25:59.527 --> 00:26:01.259 Das, was ich sagen möchte, ist, 00:26:01.259 --> 00:26:05.501 dass ihr wahrscheinlich bereits die ShEx-Schnittstelle gesehen habt, 00:26:05.501 --> 00:26:07.601 die auf Wikidata zugeschnitten ist. 00:26:07.602 --> 00:26:12.930 Das ist effektiv vereinfacht und speziell auf Wikidata zugeschnitten 00:26:12.930 --> 00:26:15.767 da die Generische mehr Funktionen hat, 00:26:15.767 --> 00:26:18.257 sich aber herausstellte - ich dachte, ich sollte es erwähnen - 00:26:18.257 --> 00:26:20.238 weil eine dieser Funktionen besonders nützlich 00:26:20.238 --> 00:26:23.201 zum Debuggen von Wikidata-Schemas ist. 00:26:23.201 --> 00:26:28.984 Das heißt, wenn ihr hingeht und den Slurp-Modus wählt, 00:26:28.984 --> 00:26:31.504 was es tut, ist, es sagt, während ich validiere, 00:26:31.504 --> 00:26:34.504 möchte ich alle Tripel herausziehen und das bedeutet, 00:26:34.504 --> 00:26:36.274 wenn ich ein paar Ausfälle bekomme, 00:26:36.275 --> 00:26:39.676 kann ich durchgehen und anfangen, diese Fehler zu betrachten und zu sagen: 00:26:39.676 --> 00:26:41.980 Okay, was sind die Dreiergruppen, die hier drin sind - 00:26:41.980 --> 00:26:44.057 Entschuldigung, die Dreiergruppen sind da unten, 00:26:44.057 --> 00:26:46.201 dies ist nur ein Protokoll dessen, was passiert ist - 00:26:46.277 --> 00:26:49.250 und dann könnt ihr einfach da sitzen und in Echtzeit damit experimentieren, 00:26:49.250 --> 00:26:51.416 als würde man mit etwas spielen und es verändert sich. 00:26:51.416 --> 00:26:54.270 Es ist also eine schnellere Variante, um all diese Dinge zu erledigen. 00:26:55.231 --> 00:26:56.481 Dies ist ein ShExC-Formular. 00:26:56.482 --> 00:26:59.455 Dies ist etwas, was Joachim vorgeschlagen hatte, 00:27:00.035 --> 00:27:04.631 das nützlich sein könnte, um Wikidata-Dokumente zu füllen 00:27:04.631 --> 00:27:07.338 basierend auf einer Shape Expression für dieses Dokument. 00:27:08.095 --> 00:27:11.681 Dies ist nicht auf Wikidata zugeschnitten. 00:27:11.682 --> 00:27:14.041 Dies soll jedoch nur heißen, dass ihr ein Schema haben könnt 00:27:14.041 --> 00:27:15.922 und einige Anmerkungen, um genau zu sagen, 00:27:15.922 --> 00:27:17.623 wie ich das Schema gerendert haben möchte, 00:27:17.623 --> 00:27:19.319 und dann baut es einfach ein Formular auf. 00:27:19.319 --> 00:27:21.571 Wenn ihr Daten habt, kann es das Formular ausfüllen. 00:27:24.517 --> 00:27:26.164 PyShEx [unverständlich]. 00:27:28.025 --> 00:27:31.080 (Jose) Ich denke, das ist das Letzte. 00:27:31.821 --> 00:27:34.080 Ja, das letzte ist PyShEx. 00:27:34.675 --> 00:27:38.151 PyShEx ist eine Python-Implementierung von Shape Expressions. 00:27:39.193 --> 00:27:41.386 Ihr könnt das auch mit Jupyter Notebooks ausprobieren, 00:27:41.386 --> 00:27:42.680 wenn ihr so etwas wollt. 00:27:42.680 --> 00:27:44.432 Oay, das ist alles dazu. 00:27:52.916 --> 00:27:56.086 (Andra) Ich werde also über ein bestimmtes Projekt sprechen, 00:27:56.086 --> 00:27:58.244 an dem ich beteiligt bin, GenWiki genannt, 00:27:58.244 --> 00:28:04.347 und wo wir uns auch mit Qualitätsfragen beschäftigen. 00:28:04.347 --> 00:28:06.684 Aber bevor wir auf die Qualität eingehen, 00:28:06.685 --> 00:28:09.359 vielleicht eine kurze Einführung darüber, was GenWiki ist, 00:28:09.855 --> 00:28:13.515 und wir haben gerade einen Vordruck einer Arbeit veröffentlicht, 00:28:13.515 --> 00:28:18.160 die wir kürzlich geschrieben haben, welche die Details des Projekts erklärt. 00:28:19.821 --> 00:28:22.586 Ich sehe Leute fotografieren, aber im Grunde genommen, 00:28:22.586 --> 00:28:26.032 was Gene Wiki macht, es versucht, biomedizinische Daten, 00:28:26.032 --> 00:28:28.198 öffentliche Daten in Wikidata hinein zu bekommen 00:28:28.198 --> 00:28:32.280 und wir folgen einem bestimmten Muster, um diese Daten in Wikidata zu bekommen. 00:28:33.130 --> 00:28:36.809 Also, wenn wir ein neues Repository oder einen neuen Datensatz haben, 00:28:36.810 --> 00:28:39.330 der berechtigt ist, in Wikidata aufgenommen zu werden, 00:28:39.330 --> 00:28:41.523 ist der erste Schritt das Engagement der Gemeinschaft. 00:28:41.523 --> 00:28:43.784 Für eine Wikidata-Community ist dies nicht erforderlich, 00:28:43.785 --> 00:28:46.120 aber für eine lokale Forschungsgemeinschaft, 00:28:46.120 --> 00:28:50.285 und wir treffen uns persönlich oder online oder auf irgend einer Plattform 00:28:50.286 --> 00:28:52.881 und versuchen, ein Datenmodell zu entwickeln, 00:28:52.882 --> 00:28:56.197 das ihre Daten mit dem Wikidata-Modell verbindet. 00:28:56.197 --> 00:28:58.265 Also hier habe ich ein Bild von einem Workshop, 00:28:58.265 --> 00:29:00.115 der letztes Jahr hier stattgefunden hat. 00:29:00.115 --> 00:29:02.663 Wir haben dort versucht, einen bestimmten Datensatz anzuschauen 00:29:02.663 --> 00:29:05.280 und Sie sehen eine Menge Diskussionen, 00:29:05.281 --> 00:29:09.780 dann die Ausrichtung an schema.org und andere vorhandenen Ontologien. 00:29:10.320 --> 00:29:12.544 Und dann, am Ende des ersten Schritts, 00:29:12.544 --> 00:29:15.379 haben wir eine Whiteboard-Zeichnung des Schemas, 00:29:15.379 --> 00:29:17.396 das wir in Wikidata implementieren wollen. 00:29:17.396 --> 00:29:20.270 Was Sie dort sehen können, ziemlich offensichtlich, 00:29:20.270 --> 00:29:21.766 es ist im Hintergrund. 00:29:21.767 --> 00:29:25.240 Wir können heute sogar einige Schemata in diesem Panel erstellen. 00:29:26.480 --> 00:29:28.399 Sobald wir das Schema eingerichtet haben, 00:29:28.400 --> 00:29:31.432 versuchen wir als Nächstes, das Schema maschinenlesbar zu machen, 00:29:32.358 --> 00:29:34.522 weil man umsetzbare Modelle braucht, 00:29:34.522 --> 00:29:37.013 um die Daten zu überbrücken, die man einbringt 00:29:37.013 --> 00:29:39.690 aus jeder biomedizinischen Datenbank nach Wikidata. 00:29:40.393 --> 00:29:45.182 Und hier wenden wir Shape Expressions an. 00:29:46.471 --> 00:29:49.728 Und das verwenden wir, 00:29:49.728 --> 00:29:52.518 weil man mit Shape Expressions testen kann, 00:29:52.518 --> 00:29:57.040 ob der Datensatz tatsächlich... nein, man kann zuerst sehen, 00:29:57.041 --> 00:30:01.782 ob bereits vorhandene Daten in Wikidata dem gleichen Datenmodell folgen, 00:30:01.783 --> 00:30:04.718 das im vorherigen Prozess erreicht wurde. 00:30:04.719 --> 00:30:06.851 Dann können wir mit den Shape Expressions überprüfen: 00:30:06.851 --> 00:30:09.524 Okay, die Daten, die zu diesem Thema in Wikidata sind, 00:30:09.524 --> 00:30:12.259 müssen bereinigt werden oder wir müssen unser Modell 00:30:12.259 --> 00:30:15.013 an das Wikidata-Modell anpassen oder umgekehrt. 00:30:15.937 --> 00:30:19.867 Sobald das erledigt ist und wir anfangen, Bots zu schreiben, 00:30:20.670 --> 00:30:23.801 und die Bots sähen regelmäßig die Informationen, 00:30:23.802 --> 00:30:27.308 die in den primären Quellen ist, nach Wikidata. 00:30:27.706 --> 00:30:29.303 Und wenn die Bots fertig sind, 00:30:29.304 --> 00:30:33.001 schreiben wir diese Bots mit einer Plattform namens... 00:30:33.002 --> 00:30:36.201 mit einer Python-Bibliothek namens Wikidata Integrator. 00:30:36.202 --> 00:30:38.167 Diese kam aus unserem Projekt. 00:30:38.698 --> 00:30:42.921 Und sobald wir unsere Bots haben, benutzen wir eine Plattform namens Jenkins 00:30:42.921 --> 00:30:44.540 für die kontinuierliche integration. 00:30:44.540 --> 00:30:45.762 Und mit Jenkins 00:30:45.762 --> 00:30:51.160 aktualisieren wir ständig die primären Quellen mit Wikidata. 00:30:52.178 --> 00:30:55.889 Und dies ist ein Diagramm für die Arbeit, die ich zuvor erwähnt habe. 00:30:55.890 --> 00:30:57.411 Das ist unsere aktuelle Landschaft. 00:30:57.411 --> 00:31:02.059 Also jede orangefarbene Kiste da drauf ist eine primäre Ressource für Medikamente, 00:31:02.060 --> 00:31:07.827 Proteine, Gene, Krankheiten, chemische Verbindungen mit Wechselwirkung, 00:31:07.827 --> 00:31:10.870 und dieses Modell ist zu klein, um es jetzt zu lesen. 00:31:10.870 --> 00:31:14.510 Aber das ist die Datenbank, die Quellen, 00:31:14.770 --> 00:31:17.473 die wir in Wikidata verwalten 00:31:17.473 --> 00:31:20.475 und überbrücken zu den Primärquellen. 00:31:20.475 --> 00:31:22.355 Hier ist so ein Workflow. 00:31:22.870 --> 00:31:25.312 Einer unserer Partner ist die Disease Ontology. 00:31:25.312 --> 00:31:27.672 Die Disease Ontology ist eine CC0 Ontologie 00:31:28.179 --> 00:31:31.990 und die CC0 Ontologie hat einen eigenen Kurationszyklus 00:31:32.756 --> 00:31:35.736 und sie aktualisieren nur kontinuierlich die Disease Ontology, 00:31:35.737 --> 00:31:37.976 um den Krankheitsbereich 00:31:37.976 --> 00:31:40.336 oder die Interpretation von Krankheiten zu reflektieren. 00:31:40.336 --> 00:31:44.361 Und es gibt den Wikidata-Kurationszyklus ebenso für Krankheiten, 00:31:44.362 --> 00:31:48.266 wo die Wikidata-Community ständig überwacht, 00:31:48.266 --> 00:31:50.110 was auf Wikidata los ist. 00:31:50.226 --> 00:31:51.741 Und dann haben wir zwei Rollen, 00:31:51.741 --> 00:31:55.477 wir nennen sie umgangssprachlich den Gatekeeper-Kurator, 00:31:56.009 --> 00:31:59.561 und das waren ich und ein Kollege vor fünf Jahren, 00:31:59.562 --> 00:32:03.414 wo wir nur an unseren Computern saßen und Wikipedia und Wikidata überwachten 00:32:03.415 --> 00:32:08.451 und wenn es ein Problem gab, wurde es der primären Community gemeldet, 00:32:08.451 --> 00:32:11.765 die primäre Ressourcen, sie betrachteten die Implementierung und beschlossen: 00:32:11.765 --> 00:32:14.240 Okay, vertrauen wir dem Input aus Wikidata? 00:32:14.850 --> 00:32:18.555 Ja - dann wird erwägt, geht es in den Kreislauf, 00:32:18.555 --> 00:32:22.686 und die nächste Iteration ist Teil der Disease Ontology 00:32:22.687 --> 00:32:25.411 und wird in Wikidata zurückgespeist. 00:32:27.419 --> 00:32:31.282 Wir machen dasselbe für WikiPathways. 00:32:31.282 --> 00:32:36.601 WikiPathways ist ein von MediaWiki inspiriertes Pfad-Repository. 00:32:36.602 --> 00:32:39.943 Dieselbe Geschichte, es gibt bereits verschiedene Pfad-Ressourcen 00:32:39.943 --> 00:32:41.258 auf Wikidata. 00:32:41.258 --> 00:32:44.713 Möglicherweise gibt es Konflikte zwischen diesen Pfadressourcen 00:32:44.722 --> 00:32:46.701 und diese Konflikte werden zurückgemeldet 00:32:46.702 --> 00:32:49.521 von den Gatekeeper-Kuratoren zu dieser Community, 00:32:49.522 --> 00:32:53.715 und man pflegt die einzelnen Kurationszyklen. 00:32:53.715 --> 00:32:57.068 Aber wenn Sie sich an den vorherigen Zyklus erinnern, 00:32:57.069 --> 00:33:03.041 hier erwähnte ich nur zwei Zyklen, zwei Ressourcen. 00:33:03.566 --> 00:33:06.090 Das müssen wir für jede einzelne Ressource tun, die wir haben, 00:33:06.090 --> 00:33:08.062 und wir müssen alles, was vor sich geht, verwalten, 00:33:08.062 --> 00:33:09.335 denn wenn ich Kuration sage, 00:33:09.335 --> 00:33:11.691 meine ich wirklich, auf die Wikipedia-Top-Seiten zu gehen, 00:33:11.691 --> 00:33:14.746 auf die Wikidata-Top-Seiten zu gehen und das auszuprobieren. 00:33:14.746 --> 00:33:19.316 Das skaliert nicht mit den beiden Gatekeeper-Kuratoren, die wir hatten. 00:33:19.860 --> 00:33:22.777 Also, als ich 2016 an einer Konferenz teilgenommen habe, 00:33:22.778 --> 00:33:26.933 wo Eric einen Vortrag über Shape Expressions hielt, 00:33:26.934 --> 00:33:29.277 sprang ich auf den Zug und sagte: Okay, 00:33:29.278 --> 00:33:32.010 mit Hilfe von Shape Expressions können wir feststellen, 00:33:32.010 --> 00:33:34.240 welche Unterschiede in Wikidata bestehen 00:33:34.240 --> 00:33:38.320 und so können die Gatekeeper 00:33:38.320 --> 00:33:41.260 effizienter berichten in dem Log. 00:33:42.275 --> 00:33:46.019 Dieses Jahr war ich von der Schemaentität begeistert, 00:33:46.020 --> 00:33:49.015 denn jetzt können wir diese Entitätsschemata 00:33:49.015 --> 00:33:50.765 auf Wikidata speichern, 00:33:50.765 --> 00:33:53.336 auf Wikidata selbst, während es zuvor auf GitHub war. 00:33:53.860 --> 00:33:56.815 Und dies integriert mit der Wikidata-Oberfläche, 00:33:56.816 --> 00:33:59.350 man hat also Dinge wie Dokumentendiskussionen, 00:33:59.350 --> 00:34:01.020 man hat aber auch Revisionen. 00:34:01.020 --> 00:34:05.261 Ihr könnt also die Top-Seiten und die Revisionen in Wikidata nutzen, 00:34:05.262 --> 00:34:10.255 um darüber zu diskutieren, 00:34:10.255 --> 00:34:13.988 was in Wikidata ist und was in den primären Ressourcen. 00:34:14.966 --> 00:34:19.686 Also das, was Eric gerade vorgestellt hat, ist schon ein ziemlicher Vorteil. 00:34:19.686 --> 00:34:24.335 Also hier haben wir eine Shape Expression für das menschliche Gen erfunden 00:34:24.336 --> 00:34:30.225 und dann ließen wir es durch ShEx laufen und wie Sie sehen können, 00:34:30.225 --> 00:34:32.428 wir haben gerade erst eines. 00:34:32.429 --> 00:34:34.641 Es gibt ein Problem, das überwacht werden muss, 00:34:34.642 --> 00:34:37.316 es gibt ein Element, das nicht in dieses Schema passt, 00:34:37.316 --> 00:34:40.738 und dann können Sie bereits Schemaentitäten erstellen 00:34:40.738 --> 00:34:43.749 und Kurationsberichte basierend auf... 00:34:43.749 --> 00:34:46.240 und das an die verschiedenen Kurationsberichte senden. 00:34:48.058 --> 00:34:52.788 Aber die ShEx.js ist eine integrierte Schnittstelle 00:34:52.788 --> 00:34:55.860 und hier noch mal eine Folie zurück, mache ich nur zehn, 00:34:55.860 --> 00:35:00.362 aber wir haben Zehntausende und das skaliert wieder nicht. 00:35:00.362 --> 00:35:04.654 Der Wikidata Integrator unterstützt jetzt auch ShEx 00:35:04.998 --> 00:35:07.431 und dann können wir einfach Item-Loops verwenden, 00:35:07.431 --> 00:35:11.494 wo wir ja-nein, ja-nein, wahr-falsch, wahr-falsch sagen. 00:35:11.495 --> 00:35:12.616 Also nochmal, 00:35:13.065 --> 00:35:16.514 eine Steigerung der Effizienz beim Arbeiten mit den Berichten. 00:35:17.256 --> 00:35:22.662 Aber jetzt, in letzter Zeit, baut das auf dem Wikidata Query Service auf 00:35:22.961 --> 00:35:24.998 und wir haben das etwas gedrosselt, 00:35:24.999 --> 00:35:26.560 also nochmal, das skaliert nicht. 00:35:26.561 --> 00:35:28.522 Es ist also immer noch ein fortlaufender Prozess, 00:35:28.522 --> 00:35:31.532 wie man mit Modellen auf Wikidata umgeht. 00:35:32.012 --> 00:35:36.522 Und ShEx ist also nicht nur furchteinflössend, 00:35:36.522 --> 00:35:40.446 aber auch das Ausmaß ist einfach zu groß, um damit umzugehen. 00:35:41.068 --> 00:35:44.792 Also habe ich angefangen zu arbeiten, dies ist mein erster Proof of Concept 00:35:44.792 --> 00:35:46.192 oder meine erste Übung, 00:35:46.192 --> 00:35:48.022 wo ich ein Werkzeug namens yED verwendet habe 00:35:48.184 --> 00:35:52.280 und ich fing an, diese Shape Expressions zu zeichnen und weil... 00:35:52.490 --> 00:35:56.388 und dann dieses Schema neu zu generieren 00:35:56.388 --> 00:36:01.279 in dieses Schema in das JSON-Format der Shape-Ausdrücke, 00:36:01.280 --> 00:36:04.520 damit sich das einem Publikum öffnet, 00:36:04.521 --> 00:36:07.432 das von den Shape Expressions-Sprachen eingeschüchtert wird. 00:36:07.961 --> 00:36:12.308 Tatsächlich gibt es jedoch ein Problem mit diesen visuellen Beschreibungen, 00:36:12.309 --> 00:36:13.990 denn dies ist auch ein Schema, 00:36:13.990 --> 00:36:18.230 das tatsächlich von jemandem in yEd gezeichnet wurde. 00:36:18.230 --> 00:36:23.838 Und hier ist ein anderes, das schön ist. 00:36:23.838 --> 00:36:26.001 Ich hätte das gerne an meiner Wand, 00:36:26.001 --> 00:36:29.704 aber es ist immer noch nicht interoperabel. 00:36:30.740 --> 00:36:32.263 Ich möchte meinen Vortrag beenden... 00:36:32.263 --> 00:36:33.572 und es war das erste Mal, 00:36:33.572 --> 00:36:35.622 dass ich diese Folie gestohlen, gebraucht habe. 00:36:35.622 --> 00:36:37.728 Es ist eine Ehre, ihn im Publikum zu haben 00:36:37.728 --> 00:36:39.423 und ich mag das wirklich: 00:36:39.424 --> 00:36:42.362 "Die Leute denken, RDF ist eine Qual, weil es kompliziert ist. 00:36:42.362 --> 00:36:44.492 Die Wahrheit ist noch schlimmer, es ist so einfach, 00:36:45.581 --> 00:36:48.133 weil Sie mit realen Datenproblemen arbeiten müssen, 00:36:48.134 --> 00:36:50.031 die schrecklich kompliziert sind. 00:36:50.031 --> 00:36:51.601 Während Sie RDF vermeiden können, 00:36:51.601 --> 00:36:53.621 ist es schwieriger, komplizierte Daten 00:36:53.621 --> 00:36:55.761 und komplizierte Computerprobleme zu vermeiden." 00:36:55.761 --> 00:36:59.535 Hier geht es um RDF, aber ich denke, das gilt auch für das Modellieren. 00:37:00.112 --> 00:37:02.769 Mein Diskussionspunkt ist also, ob wir wirklich... 00:37:03.387 --> 00:37:05.882 Wie bringen wir das Modellieren voran? 00:37:05.882 --> 00:37:10.826 Sollen wir über ShEx oder visuelle Modelle sprechen oder... 00:37:11.426 --> 00:37:13.271 Wie machen wir weiter? 00:37:13.474 --> 00:37:14.840 Vielen Dank für Ihre Zeit. 00:37:19.751 --> 00:37:21.188 (Lydia) Vielen Dank. 00:37:21.692 --> 00:37:24.001 Würdest du nach vorne kommen, 00:37:24.002 --> 00:37:27.824 damit wir mit den Fragen aus dem Publikum anfangen können? 00:37:28.610 --> 00:37:30.203 Gibt es Fragen? 00:37:31.507 --> 00:37:32.507 Ja. 00:37:34.263 --> 00:37:37.028 Und ich denke, wegen der Kamera müssen wir... 00:37:38.835 --> 00:37:40.968 (Lydia) Ja. 00:37:43.094 --> 00:37:46.273 (Zuschauer1) Also eine Frage an Cristina, denke ich. 00:37:47.366 --> 00:37:51.641 Also du hast im Wortlaut den Begriff "Informationsgewinn" erwähnt 00:37:51.642 --> 00:37:53.529 bei der Verknüpfung mit anderen Systemen. 00:37:53.529 --> 00:37:55.959 Es gibt das informationstheoretische Maß Informationsgewinn, 00:37:55.959 --> 00:37:58.171 welches Statistik und Wahrscheinlichkeit verwendet. 00:37:58.192 --> 00:38:01.736 Hast du das... ich meine, hast du genau dieses Maß gemeint, 00:38:01.736 --> 00:38:04.173 den Informationsgewinn aus der Wahrscheinlichkeitstheorie, 00:38:04.174 --> 00:38:05.530 aus der Informationstheorie, 00:38:05.530 --> 00:38:07.228 oder verwendest du einfach dieses Konzept, 00:38:07.228 --> 00:38:09.258 um den Informationsgewinn irgendwie zu messen? 00:38:09.258 --> 00:38:13.016 Nein, also wir haben Maßnahmen definiert und umgesetzt, 00:38:13.695 --> 00:38:17.272 die die Shannon-Entropie verwenden, 00:38:17.682 --> 00:38:20.050 auf dies bezieht sich das. 00:38:20.050 --> 00:38:22.656 Ich wollte nicht auf die Details der konkreten Formeln eingehen... 00:38:22.656 --> 00:38:24.732 (Zuschauer1) Nein, klar, das war meine Frage. 00:38:24.732 --> 00:38:26.487 - (Cristina) Aber ja. - (Zuschauer1) Danke. 00:38:32.761 --> 00:38:35.047 (Zuschauer2) Ich habe eher einen Kommentar als eine Frage. 00:38:35.048 --> 00:38:36.336 (Lydia) Los geht es. 00:38:36.336 --> 00:38:39.840 (Zuschauer2) Es gab also viel Fokus auf der Item-Ebene 00:38:39.840 --> 00:38:42.547 bezüglich der Qualität und Vollständigkeit. 00:38:42.547 --> 00:38:44.514 Eines der Dinge, die mich beschäftigen, ist, 00:38:44.514 --> 00:38:47.279 dass wir nicht dasselbe auf Hierarchien anwenden 00:38:47.279 --> 00:38:49.521 und ich glaube, das wird uns ein Problem bereiten 00:38:49.521 --> 00:38:51.622 dass unsere Hierarchie oft nicht gut ist. 00:38:51.622 --> 00:38:53.713 Wir denken, dass dies ein echtes Problem wird 00:38:53.713 --> 00:38:55.974 beim Durchsuchen von Commons und anderen Dingen. 00:38:56.771 --> 00:38:58.962 Eine der Fähigkeiten, die wir realisieren können, ist, 00:38:58.962 --> 00:39:00.632 extern zu importieren -- 00:39:00.632 --> 00:39:04.842 Die Art und Weise, wie externe Thesauren ihre Hierarchien strukturieren 00:39:04.842 --> 00:39:10.291 mit der P4900 Qualifikation für Oberbegriffe. 00:39:11.037 --> 00:39:15.997 Aber was ich für sehr hilfreich halte, wären viel bessere Werkzeuge dafür. 00:39:15.997 --> 00:39:21.212 Damit kann man die Hierarchie eines externen Thesaurus importieren 00:39:21.212 --> 00:39:24.111 und das auf unsere Wikidata-Items abbilden. 00:39:24.111 --> 00:39:27.989 Sobald es mit diesen P4900-Qualifizierern zusammen funktioniert, 00:39:27.989 --> 00:39:31.494 kann man über SPARQL ziemlich gute Abfragen durchführen, 00:39:32.490 --> 00:39:37.534 um zu sehen, wo unsere Hierarchie von dieser externen Hierarchie abweicht. 00:39:37.534 --> 00:39:41.346 Zum Beispiel, Paula Morma, User PKM, wie ihr vielleicht wisst, 00:39:41.346 --> 00:39:43.510 hat viel über Mode ausgearbeitet. 00:39:43.510 --> 00:39:46.244 Das nutzen wir also, um die Hierarchie 00:39:46.244 --> 00:39:50.524 des Europeana Fashion Thesaurus zu übernehmen 00:39:50.524 --> 00:39:53.812 und die Getty AAT Mode-Thesaurus-Hierarchie, 00:39:53.812 --> 00:39:55.727 um dann zu sehen, wo die Lücken 00:39:55.727 --> 00:39:57.957 in unseren höhergestuften Items waren, 00:39:57.957 --> 00:40:01.281 was ein echtes Problem für uns ist, weil das oft Dinge sind, 00:40:01.281 --> 00:40:04.355 die nur als Seiten zur Disambiguierung auf Wikipedia existieren, 00:40:04.356 --> 00:40:09.270 Es fehlen also viele übergeordnete Elemente in unseren Hierarchien 00:40:09.271 --> 00:40:12.780 und das ist etwas, das wir in Bezug auf Qualität und Vollständigkeit 00:40:12.780 --> 00:40:14.480 ansprechen müssen. 00:40:14.480 --> 00:40:16.086 Aber was wirklich helfen würde, 00:40:16.643 --> 00:40:19.619 wäre ein besseres Werkzeug als der Dschungel der Pull-Skripte, 00:40:19.619 --> 00:40:20.992 die ich geschrieben habe. 00:40:20.992 --> 00:40:26.280 Wenn jemand das in ein PAWS-Notizbuch in Python schreiben könnte, 00:40:26.561 --> 00:40:29.731 um einen externen Thesaurus verwenden zu können, 00:40:29.731 --> 00:40:31.973 dessen Hierarchie zu verwenden, 00:40:31.973 --> 00:40:34.759 die als verknüpfte Daten verfügbar sein können oder nicht, 00:40:35.379 --> 00:40:40.580 um diese dann in Schnellanweisungen umzusetzen und P4900-Werte einzugeben. 00:40:41.005 --> 00:40:42.165 Und später dann, 00:40:42.166 --> 00:40:44.527 wenn unsere Darstellung vervollständigt wird, 00:40:44.528 --> 00:40:49.691 diese P4900s zu aktualisieren, denn sobald unsere Darstellung veraltet, 00:40:49.691 --> 00:40:51.447 dichter wird, 00:40:51.447 --> 00:40:55.377 müssen die Werte dieser Qualifikationsmerkmale geändert werden, 00:40:56.230 --> 00:40:58.296 um darzustellen, dass wir mehr aus ihrer Hierarchie 00:40:58.296 --> 00:40:59.866 in unserem System implementiert haben. 00:40:59.866 --> 00:41:03.728 Wenn jemand das tun könnte, wäre das sehr hilfreich, denke ich, 00:41:03.728 --> 00:41:07.121 und wir müssen uns auch andere Ansätze ansehen, 00:41:07.122 --> 00:41:10.762 um die Qualität und Vollständigkeit auf Hierarchieebene zu verbessern, 00:41:10.763 --> 00:41:12.503 nicht nur auf der Artikelebene. 00:41:13.308 --> 00:41:14.958 (Andra) Kann ich das ergänzen? 00:41:16.362 --> 00:41:19.901 Ja, und das machen wir tatsächlich 00:41:19.911 --> 00:41:22.472 und meine Empfehlung ist, die Shape Expression zu betrachten, 00:41:22.472 --> 00:41:25.479 die Finn gemacht hat mit den lexikalischen Daten, 00:41:25.479 --> 00:41:27.440 in denen er Shape Expressions erstellt 00:41:27.440 --> 00:41:29.240 und dann auf Autorenausdrücken aufbaut, 00:41:29.240 --> 00:41:31.649 so dass wir also dieses Konzept der verknüpften Formausdrücke 00:41:31.649 --> 00:41:32.739 in Wikidata haben. 00:41:32.739 --> 00:41:35.065 Insbesondere der Anwendungsfall, wenn ich richtig verstehe, 00:41:35.065 --> 00:41:37.183 entspricht genau dem, was wir in Gene Wiki machen. 00:41:37.184 --> 00:41:40.841 Man hat also die Disease Ontology, die in Wikidata importiert ist, 00:41:40.842 --> 00:41:44.681 dann kommen die Krankheitsdaten und wir wenden die Shape Expressions an, 00:41:44.682 --> 00:41:47.247 um zu sehen, ob das zu diesem Thesaurus passt. 00:41:47.248 --> 00:41:48.770 Und es gibt andere Thesauren 00:41:48.770 --> 00:41:50.920 oder andere Ontologien für kontrolliertes Vokabular, 00:41:50.920 --> 00:41:52.559 das noch in Wikidata rein muss 00:41:52.559 --> 00:41:55.261 und genau deshalb sind Shape Expressions so interessant, 00:41:55.261 --> 00:41:57.893 weil sie für die Disease Ontology möglich sind, 00:41:57.893 --> 00:41:59.614 man kann Shape Expressions für MeSH haben. 00:41:59.614 --> 00:42:01.761 Man kann sagen, ich möchte die Qualität überprüfen, 00:42:01.762 --> 00:42:06.297 weil man auch in Wikidata den Kontext bei einem kontrollierten Vokabular hat, 00:42:06.297 --> 00:42:09.503 dass man sagt, die Qualität entspricht dem, 00:42:09.503 --> 00:42:11.792 aber die Community stimmt euch nicht zu. 00:42:11.792 --> 00:42:13.921 Das Werkzeug ist also in der Tat vorhanden, 00:42:13.921 --> 00:42:16.762 aber jetzt müssen diese Modelle erstellt und angewendet werden 00:42:16.762 --> 00:42:18.513 auf die verschiedenen Anwendungsfälle. 00:42:18.811 --> 00:42:20.921 (Zuschauer2) Die Shape Expressions sind nützlich, 00:42:20.922 --> 00:42:25.765 sobald ihr die externe Ontologie in Wikidata abgebildet habt, 00:42:25.765 --> 00:42:29.549 aber mein Problem ist, dass dieser Zeitpunkt erst kommt. 00:42:29.549 --> 00:42:32.481 Momentan legt es nur offen, wie viel von der externen Ontologie 00:42:32.481 --> 00:42:34.882 noch nicht in Wikidata enthalten ist 00:42:34.882 --> 00:42:36.256 und wo die Lücken sind 00:42:36.257 --> 00:42:40.510 und dies ist, wo ich denke, dass viel robustere Werkzeuge, 00:42:40.510 --> 00:42:44.058 mit denen ihr erkennen könnt, was aus externen Ontologien fehlt, 00:42:44.058 --> 00:42:45.609 sehr hilfreich wären. 00:42:47.488 --> 00:42:48.952 Das größte Problem dort 00:42:48.952 --> 00:42:51.517 sind nicht so sehr die Werkzeuge, sondern mehr die Lizenzierung. 00:42:51.803 --> 00:42:55.249 Also das Einspielen der Ontologien in Wikidata ist ein Kinderspiel, 00:42:55.250 --> 00:42:59.295 aber die meisten Ontologien haben, wie kann ich das höflich sagen, 00:42:59.965 --> 00:43:03.424 restriktive Lizenzierung, daher sind diese nicht mit Wikidata kompatibel. 00:43:03.918 --> 00:43:06.961 (Zuschauer2) Es gibt eine große Anzahl von Thesauren im öffentlichen Sektor 00:43:06.961 --> 00:43:08.339 in kulturellen Bereichen. 00:43:08.339 --> 00:43:10.851 - (Andra) Dann müssen wir reden. - (Zuschauer2) Kein Problem. 00:43:10.852 --> 00:43:12.384 (Andra) Darüber müssen wir reden. 00:43:13.624 --> 00:43:17.522 (Zuschauer3) Der Kommentar, den ich machen möchte, 00:43:17.522 --> 00:43:19.402 ist eigentlich eine Antwort auf James. 00:43:19.402 --> 00:43:22.401 Also die Sache ist die, dass Hierarchien Graphen machen 00:43:22.374 --> 00:43:24.041 und wenn du ... 00:43:24.579 --> 00:43:27.759 Ich möchte im Grunde genommen über ein bekanntes Problem 00:43:27.759 --> 00:43:30.729 in Hierarchien sprechen, das sind zirkuläre Hierarchien, 00:43:30.821 --> 00:43:33.796 die auf sich selbst zurück führen, wenn es ein Problem gibt, 00:43:33.796 --> 00:43:35.992 das sollte man nicht in Hierarchien haben. 00:43:37.022 --> 00:43:41.295 Witzigerweise passiert dies häufig in Wikipedia-Kategorien, 00:43:41.295 --> 00:43:43.134 wir haben viele Kreise in Kategorien. 00:43:43.898 --> 00:43:46.612 Aber die gute Nachricht ist, dass dies... 00:43:47.713 --> 00:43:50.173 Technisch gesehen ist es ein PMP-vollständiges Problem. 00:43:50.173 --> 00:43:52.063 Also ihr könnt dies nicht einfach finden, 00:43:52.063 --> 00:43:53.773 wenn ihr ein Diagramm davon baut. 00:43:54.473 --> 00:43:57.046 Aber es gibt viele Methoden, die entwickelt wurden, 00:43:57.047 --> 00:44:00.624 um Probleme in diesen Hierarchiediagrammen zu finden. 00:44:00.625 --> 00:44:04.520 Es gibt einen Artikel 00:44:04.520 --> 00:44:07.955 namens Breaking Cycles in Noisy Hierarchies 00:44:07.956 --> 00:44:09.742 und der wurde verwendet, 00:44:09.742 --> 00:44:12.672 um die Kategorisierung der englischen Wikipedia zu erleichtern. 00:44:12.672 --> 00:44:15.480 Ihr könnt dies einfach nehmen und diese Hierarchien 00:44:15.480 --> 00:44:17.142 in Wikidata anwenden, 00:44:17.142 --> 00:44:19.540 und dann könnt ihr Dinge finden, die problematisch sind 00:44:19.541 --> 00:44:22.311 und diejenigen einfach entfernen, die Probleme verursachen, 00:44:22.311 --> 00:44:24.667 und die eigentlichen Probleme finden. 00:44:24.667 --> 00:44:27.080 Das ist also nur eine Idee, nur, damit ihr... 00:44:28.470 --> 00:44:29.930 (Zuschauer2) Das ist schön und gut, 00:44:29.931 --> 00:44:31.922 aber ich denke, ihr unterschätzt die Anzahl 00:44:31.922 --> 00:44:35.042 der schlechten Beziehungen in den Subklassen, die wir haben. 00:44:35.042 --> 00:44:39.680 Das ist, wie eine Stadt in einem völlig falschen Land zu haben 00:44:40.250 --> 00:44:44.664 und es gibt Werkzeuge in der Geographie, um so etwas zu identifizieren, 00:44:44.664 --> 00:44:49.201 und wir brauchen viel bessere Werkzeuge in Hierarchien, 00:44:49.202 --> 00:44:53.477 um zu identifizieren, wo das Äquivalent des Items für das Land 00:44:53.478 --> 00:44:58.023 vollständig fehlt oder tatsächlich in einer Subklasse eingeordnet ist, 00:44:58.023 --> 00:45:01.774 die eine völlig andere Bedeutung hat. 00:45:02.804 --> 00:45:07.165 (Lydia) Ja, ich denke, du sprichst etwas an, 00:45:07.166 --> 00:45:10.595 das ich und mein Team immer wieder von Leuten hören, 00:45:10.595 --> 00:45:13.520 die unsere Daten auch ziemlich häufig wiederverwenden, ja. 00:45:14.752 --> 00:45:16.758 Einzelne Datenpunkte könnten großartig sein, 00:45:16.758 --> 00:45:20.163 aber wenn ihr euch die Ontologie und so weiter ansehen müsst, 00:45:20.164 --> 00:45:21.857 dann wird es sehr... 00:45:22.388 --> 00:45:26.657 Und ich denke, eines der großen Probleme, warum dies passiert, ist, 00:45:26.657 --> 00:45:30.736 dass vieles, was auf Wikidata editiert wird, auf der Grundlage 00:45:30.736 --> 00:45:34.544 eines einzelnen Artikels basiert, ja. 00:45:34.545 --> 00:45:36.635 Ihr bearbeitet dieses Element, 00:45:37.653 --> 00:45:41.745 ohne zu bemerken, dass die Konsequenzen von globaler Natur sind 00:45:41.745 --> 00:45:44.245 im Bezug auf dem Rest des Diagramms zum Beispiel. 00:45:44.245 --> 00:45:50.040 Und wenn jemand eine Idee hat, wie man dies sichtbarer machen kann, 00:45:50.041 --> 00:45:53.221 die Folgen einer einzelnen lokalen Bearbeitung, 00:45:54.005 --> 00:45:56.537 ich denke, das wäre es wert, das herauszufinden, 00:45:57.550 --> 00:46:01.583 den Leuten besser zu zeigen, was die Folge ihrer Überarbeitung ist, 00:46:01.584 --> 00:46:03.574 die sie in gutem Glauben vornahmen, 00:46:04.481 --> 00:46:05.481 was das ist. 00:46:06.939 --> 00:46:12.027 Whoa! OK, fangen wir an mit, ja, du, dann du, dann du, dann du. 00:46:12.027 --> 00:46:14.064 (Zuschauer4) Nun, nach dieser Diskussion 00:46:14.064 --> 00:46:18.262 will ich nur meine Zustimmung geben zu dem, was James sagte. 00:46:18.263 --> 00:46:22.467 Also das Gefährlichste scheint im Wesentlichen die Hierarchie zu sein, 00:46:22.468 --> 00:46:25.482 nicht die Hierarchie, sondern allgemein die Semantik der Beziehungen 00:46:25.482 --> 00:46:28.022 der Subklassen aus Wikidata. 00:46:28.022 --> 00:46:32.561 Ich habe vor kurzem Sprachen studiert nur für die Zwecke dieser Konferenz 00:46:32.562 --> 00:46:35.257 und zum Beispiel finden Sie viele Fälle, 00:46:35.257 --> 00:46:39.463 wo eine Sprache sowohl Teil als auch Subklasse derselben Sache ist, okay. 00:46:39.463 --> 00:46:43.577 Man könnte auch sagen, dass wir eine flexible Ontologie haben. 00:46:43.577 --> 00:46:46.256 Wikidata gibt manchmal die Freiheit, dies auszudrücken, 00:46:46.256 --> 00:46:48.509 zum Beispiel, weil diese Ontologie der Sprachen 00:46:48.509 --> 00:46:50.721 auch politisch kompliziert ist, oder? 00:46:50.722 --> 00:46:53.000 Es ist sogar gut, in der Lage zu sein, 00:46:53.000 --> 00:46:55.038 ein gewisses Maß an Unsicherheit auszudrücken. 00:46:55.038 --> 00:46:57.983 Aber stellen Sie sich vor, wer daraus maschinell lesen möchte. 00:46:57.984 --> 00:46:59.468 Das ist also wirklich problematisch. 00:46:59.468 --> 00:47:00.992 Andererseits glaube ich nicht, 00:47:00.992 --> 00:47:03.686 dass Ontologie jemals von irgendwoher importiert wurde, 00:47:03.687 --> 00:47:05.491 das ist etwas, was ursprünglich von uns kommt. 00:47:05.491 --> 00:47:08.401 Wikipedia hat seit den Anfängen seinen Nutzen daraus gezogen, meine ich. 00:47:08.401 --> 00:47:11.324 Also frage ich mich, diese Sache mit den Shape Expressions-Ding ist toll. 00:47:11.325 --> 00:47:15.575 Das Validieren und Reparieren von Wikidata-Ontologien 00:47:15.576 --> 00:47:18.363 durch externe Ressourcen, schöne Idee. 00:47:18.886 --> 00:47:23.036 Werden wir letztendlich dort enden, dass wir externen Ontologien 00:47:23.036 --> 00:47:25.243 in Wikidata widerspiegeln? 00:47:25.441 --> 00:47:28.411 Und ebenso, was sollen wir mit dem Kern unserer Ontologie machen, 00:47:28.411 --> 00:47:30.642 der nie von externen Ressourcen verwendet wird, 00:47:30.643 --> 00:47:32.147 wie können wir das beheben? 00:47:32.147 --> 00:47:35.276 Und ich denke wirklich, dass das ein Problem für sich sein wird. 00:47:35.277 --> 00:47:39.010 Darauf müssen wir uns unabhängig von der Idee konzentrieren, 00:47:39.010 --> 00:47:41.256 Ontologien mit etwas Externem zu validieren. 00:47:49.353 --> 00:47:53.379 (Zuschauer5) Okay, die Constraints und Shapes sind sehr beeindruckend, 00:47:53.380 --> 00:47:54.704 was man damit machen kann, 00:47:55.205 --> 00:47:58.481 aber das Hauptanliegen ist nicht wirklich klar hervorgetreten. 00:47:58.482 --> 00:48:01.229 Das liegt daran, dass wir jetzt genauer definieren können, 00:48:01.229 --> 00:48:03.229 was wir von den Daten erwarten. 00:48:03.229 --> 00:48:06.893 Vorher muss jeder seine eigenen Tools und Skripte schreiben 00:48:06.894 --> 00:48:10.601 und so ist es sichtbarer und wir können darüber diskutieren. 00:48:10.602 --> 00:48:13.641 Aber weil es nicht darum geht, was falsch oder richtig ist, 00:48:13.642 --> 00:48:15.730 sondern um eine Erwartung 00:48:15.730 --> 00:48:17.505 und ihr werdet unterschiedliche Erwartungen 00:48:17.505 --> 00:48:18.883 und Diskussionen darüber haben, 00:48:18.883 --> 00:48:20.791 wie wir Dinge in Wikidata modellieren wollen, 00:48:21.246 --> 00:48:23.095 und das... 00:48:23.096 --> 00:48:26.200 Der aktuelle Stand ist nur ein Schritt in die richtige Richtung, 00:48:26.200 --> 00:48:29.601 denn jetzt braucht man sehr viel technisches Know-how, 00:48:29.601 --> 00:48:31.141 um da reinzukommen 00:48:31.141 --> 00:48:35.721 und wir brauchen bessere Möglichkeiten, um diese Constraints zu visualisieren, 00:48:35.722 --> 00:48:38.519 vielleicht um es in natürliche Sprache umzuwandeln, 00:48:38.519 --> 00:48:40.759 damit es die Leute besser verstehen können, 00:48:40.759 --> 00:48:43.768 aber es geht weniger darum, was falsch oder richtig ist. 00:48:44.925 --> 00:48:45.925 (Lydia) Ja. 00:48:50.986 --> 00:48:54.033 (Zuschauer6) Zu den Qualitätsproblemen möchte ich einfach hinzufügen, 00:48:54.033 --> 00:48:57.010 viele der Probleme, auf die ich gestoßen bin, 00:48:58.838 --> 00:49:02.330 waren Meinungsunterschiede zwischen Instanz von und Subklasse. 00:49:02.331 --> 00:49:05.963 Ich würde behaupten, Fehler in diesen Situationen 00:49:06.032 --> 00:49:11.422 und zu versuchen, diese zu finden, ist sehr zeitaufwändig. 00:49:11.522 --> 00:49:13.030 Ich bin auf so etwas gestoßen wie: 00:49:13.030 --> 00:49:15.040 "Oh, wenn ich sehr eindrucksvolle Items finde, 00:49:15.040 --> 00:49:16.281 die in etwa... 00:49:16.281 --> 00:49:18.758 und dann verwendet man alle Subklasseninstanzen, 00:49:18.758 --> 00:49:21.628 um alle abgeleiteten Anweisungen davon zu finden." 00:49:21.628 --> 00:49:26.215 Dies ist eine sehr nützliche Methode, um nach diesen Fehlern zu suchen. 00:49:26.215 --> 00:49:28.236 Aber ich war neugierig, ob Shape Expressions, 00:49:29.841 --> 00:49:31.262 ob es ... 00:49:31.262 --> 00:49:33.754 ob dies als Werkzeug zur Lösung 00:49:33.754 --> 00:49:36.774 dieser Probleme verwendet werden kann, aber ja... 00:49:40.514 --> 00:49:42.794 (Zuschauer7) Wenn es einen strukturellen Footprint hat... 00:49:45.720 --> 00:49:47.750 Wenn es einen strukturellen Footprint hat, 00:49:47.750 --> 00:49:49.370 der irgendwie fälschbar ist, 00:49:49.370 --> 00:49:51.281 ihr seht das und könnt sagen, das ist falsch, 00:49:51.281 --> 00:49:52.781 ja, dann kannst du das machen. 00:49:52.781 --> 00:49:56.921 Aber wenn es nur darum geht, es auf reale Objekte abzubilden, 00:49:56.922 --> 00:49:59.252 dann wirst du einfach viel, viel Hirnschmalz brauchen. 00:50:05.768 --> 00:50:08.631 (Zuschauer8) Hallo, Pablo Mendes von Apple Siri Knowledge. 00:50:09.154 --> 00:50:10.520 Wir sind hier, um herauszufinden, 00:50:10.520 --> 00:50:12.770 wie wir dem Projekt und der Community helfen können, 00:50:12.770 --> 00:50:15.645 aber Cristina machte den Fehler, zu fragen, was wir wollen. 00:50:16.471 --> 00:50:20.052 Also eine Sache, dich ich gerne sehen würde: 00:50:20.958 --> 00:50:23.521 Es geht viel um Überprüfbarkeit, 00:50:23.522 --> 00:50:26.372 was eines der Grundprinzipien des Projekts in der Gemeinschaft ist, 00:50:27.062 --> 00:50:28.590 und Vertrauenswürdigkeit. 00:50:28.590 --> 00:50:32.262 Nicht jede Aussage ist gleich, einige von ihnen sind heftig umstritten, 00:50:32.262 --> 00:50:33.933 einige von ihnen sind leicht zu lösen, 00:50:33.933 --> 00:50:36.071 wie das Geburtsdatum einer Person zu überprüfen. 00:50:36.071 --> 00:50:37.765 Wie ihr heute in der Keynote gesehen habt, 00:50:37.765 --> 00:50:39.535 ist Geschlechterproblematik komplizierter. 00:50:40.295 --> 00:50:42.250 Könnt ihr ein bisschen darüber diskutieren, 00:50:42.250 --> 00:50:44.791 was ihr aus diesem Bereich der Datenqualität wisst, 00:50:44.791 --> 00:50:47.521 über Vertrauenswürdigkeit und Überprüfbarkeit? 00:50:55.442 --> 00:50:58.268 Wenn es nicht viel ist, würde ich gerne viel mehr sehen. 00:51:00.646 --> 00:51:01.646 (Lydia) Ja. 00:51:03.314 --> 00:51:06.548 Dazu haben wir offenbar nicht viel zu sagen. 00:51:08.024 --> 00:51:10.070 (Andra) Ich denke, wir können viel tun, 00:51:10.070 --> 00:51:12.400 aber ich hatte gestern ein Gespräch mit dir. 00:51:12.400 --> 00:51:15.774 Mein Lieblingsbeispiel, das ich gestern gelernt habe und bereits veraltet ist, 00:51:15.774 --> 00:51:20.281 ist, wenn Sie zu Q2 gehen, was die Erde ist, 00:51:20.282 --> 00:51:23.343 da gibt eine Behauptung, die besagt, die Erde sei flach. 00:51:24.183 --> 00:51:26.055 Und ich liebe dieses Beispiel, 00:51:26.056 --> 00:51:27.781 weil es da draußen eine Community gibt, 00:51:27.781 --> 00:51:30.417 die das behauptet und sie haben nachprüfbare Ressourcen. 00:51:30.418 --> 00:51:32.254 Also ich denke, es ist ein echter Fall, 00:51:32.255 --> 00:51:34.641 der nicht abgelehnt werden sondern in Wikidata sein sollte. 00:51:34.642 --> 00:51:40.185 Und ich denke, dass Shape Expressions dort wirklich hilfreich sein können, 00:51:40.185 --> 00:51:42.022 weil man sagen kann: Okay, 00:51:42.022 --> 00:51:44.646 ich bin wirklich an diesem Anwendungsfall interessiert, 00:51:44.646 --> 00:51:47.509 oder dies ist ein Anwendungsfall, mit dem ihr nicht einverstanden seid. 00:51:47.509 --> 00:51:49.308 Es kann aber auch einen Anwendungsfall geben, 00:51:49.308 --> 00:51:51.149 bei dem ihr sagt, okay, das interessiert mich. 00:51:51.149 --> 00:51:53.449 Es gibt dieses Beispiel, wo ihr sagt, ich habe Glukose. 00:51:53.449 --> 00:51:55.841 Und Glukose, wenn man Biologe ist, 00:51:55.842 --> 00:51:58.627 interessiert man sich nicht für die chemischen Restriktionen 00:51:58.627 --> 00:52:00.317 des Glukosemoleküls, 00:52:00.317 --> 00:52:03.201 Glukose ist immer gleich. 00:52:03.202 --> 00:52:05.973 Aber wenn man Chemiker ist, zuckt man zusammen, wenn man das hört, 00:52:05.973 --> 00:52:08.191 man hast etwa 200... 00:52:08.191 --> 00:52:10.283 Dann kann man viele Shape Expressions nehmen, 00:52:10.283 --> 00:52:12.621 okay, ich komme mit... aus der Sicht eines Chemikers, 00:52:12.621 --> 00:52:13.887 ich wende das an. 00:52:13.887 --> 00:52:16.691 Und dann sagst du, ich gehe von einem biologischen Anwendungsfall aus, 00:52:16.691 --> 00:52:18.524 ich wende diese Shape Expression an. 00:52:18.524 --> 00:52:20.628 Und wenn ihr dann kollaborieren möchtet, 00:52:20.628 --> 00:52:22.951 ja, nun, dann solltet ihr mit Eric über ShEx-Maps sprechen. 00:52:23.500 --> 00:52:28.725 Und so... aber diese Reise beginnt gerade erst. 00:52:28.725 --> 00:52:32.238 Aber ich persönlich glaube, dass dies in diesem Bereich sehr entscheidend ist. 00:52:34.292 --> 00:52:35.565 (Lydia) Okay. Da drüben. 00:52:40.597 --> 00:52:43.505 (Zuschauerin1) Ich hatte einige Ideen 00:52:43.505 --> 00:52:46.035 zu einigen Punkten in den Diskussionen. 00:52:46.035 --> 00:52:48.772 Also werde ich versuchen, diese nicht zu vergessen... 00:52:48.772 --> 00:52:50.742 Ich hatte drei Ideen, also... 00:52:52.224 --> 00:52:54.981 Basierend auf dem, was James vor einer Weile gesagt hat, 00:52:54.981 --> 00:52:59.001 haben wir von Anfang an ein sehr, sehr großes Problem bei Wikidata 00:52:59.002 --> 00:53:01.574 bei der oberen Ontologie. 00:53:02.363 --> 00:53:05.339 Darüber haben wir vor zwei Jahren bei WikidataCon gesprochen 00:53:05.340 --> 00:53:07.432 und wir haben darüber bei Wikimania gesprochen. 00:53:07.432 --> 00:53:09.818 Bei jedem Wikidata-Treffen 00:53:09.818 --> 00:53:11.289 sprechen wir darüber, 00:53:11.289 --> 00:53:15.782 weil es ein sehr großes Problem direkt vor unseren Augen ist. 00:53:15.783 --> 00:53:19.738 Was eine Entität ist, was Arbeit ist, 00:53:19.738 --> 00:53:23.018 was ein Genre ist, Kunst, 00:53:23.018 --> 00:53:25.461 wirklich die wichtigsten Konzepte. 00:53:26.195 --> 00:53:30.512 Und das ist tatsächlich ein sehr schwacher Punkt 00:53:30.512 --> 00:53:33.118 im Bezug auf die globale Ontologie, 00:53:33.118 --> 00:53:37.453 weil die Leute versuchen, regelmäßig aufzuräumen 00:53:38.017 --> 00:53:41.047 und alles komplett kaputt gemacht haben. 00:53:42.516 --> 00:53:47.505 Ich denke, einige von euch erinnern sich vielleicht an den Typ, 00:53:47.505 --> 00:53:51.785 der in gutem Glauben absolut alle Städte auf der Welt durcheinander brachte. 00:53:51.785 --> 00:53:54.782 Das waren keine geografischen Objekte mehr, 00:53:55.198 --> 00:53:57.768 daher gibt es überall Verstöße gegen Constraints. 00:53:58.720 --> 00:54:00.278 Und es passierte in gutem Glauben, 00:54:00.278 --> 00:54:03.623 weil er eigentlich einen Fehler in einem Artikel korrigierte, 00:54:04.020 --> 00:54:05.782 aber alles brach zusammen. 00:54:06.349 --> 00:54:09.373 Und ich bin nicht sicher, wie wir das lösen können, 00:54:10.216 --> 00:54:14.386 da es eigentlich keine externe Einrichtung gibt, 00:54:14.386 --> 00:54:15.962 die wir verwenden könnten, 00:54:15.962 --> 00:54:18.490 weil alle daran arbeiten... 00:54:19.154 --> 00:54:22.041 Nun, wenn ich Datenbank für Kunst am Laufen habe, 00:54:22.042 --> 00:54:24.785 werde ich nur das verwendete Label für Kunst nehmen, 00:54:24.785 --> 00:54:27.742 ich kümmere mich nicht um das philosophische Konzept dessen, 00:54:27.742 --> 00:54:29.362 was eine Entität ist, 00:54:29.362 --> 00:54:31.201 und das ist eigentlich... 00:54:31.202 --> 00:54:34.561 Ich kenne keine Datenbank, die auf diesem Niveau arbeitet, 00:54:34.562 --> 00:54:36.967 aber das ist der schwächste Punkt von Wikidata. 00:54:37.936 --> 00:54:40.812 Und wahrscheinlich, wenn wir über Datenqualität sprechen, 00:54:40.812 --> 00:54:44.034 ist das eigentlich ein großer Teil davon, also... 00:54:44.034 --> 00:54:48.569 Und ich denke, es ist dasselbe, was wir gesagt haben... 00:54:48.569 --> 00:54:50.632 Oh, tut mir leid, ich wechsle das Thema 00:54:51.401 --> 00:54:55.774 Aber wir haben in verschiedenen Meetings über Qualitäten gesprochen, 00:54:55.774 --> 00:54:59.398 dass einige von uns eigentlich gute Modellierung machen, 00:54:59.399 --> 00:55:01.240 ShEx und solche Dinge tun. 00:55:01.967 --> 00:55:07.255 Die Leute sehen es nicht auf Wikidata, sie sehen ShEx nicht, 00:55:07.255 --> 00:55:11.232 Sie sehen das WikiProjekt nicht auf der Diskussionsseite und manchmal 00:55:11.232 --> 00:55:14.796 sehen sie nicht einmal die Diskussionsseiten von Eigenschaften, 00:55:14.958 --> 00:55:19.628 die ausdrücklich angeben, a), diese Eigenschaft wird dafür verwendet. 00:55:19.628 --> 00:55:23.758 Letzte Woche zum Beispiel habe ich Constraints einer Eigenschaft hinzugefügt. 00:55:23.758 --> 00:55:26.324 Das Constraint wurde ausdrücklich beschrieben 00:55:26.325 --> 00:55:28.690 in der Diskussion bei der Einführung der Eigenschaft. 00:55:28.690 --> 00:55:33.298 Ich hatte gerade den technischen Teil zum Hinzufügen der Constraint erstellt 00:55:33.298 --> 00:55:34.548 und jemanden meinte: 00:55:34.548 --> 00:55:37.258 "Was! Du hast alle meine Bearbeitungen zerstört!" 00:55:37.258 --> 00:55:41.542 Und die letzten zwei Jahre nutzte er die Eigenschaft auf die falsche Art. 00:55:41.542 --> 00:55:44.239 Und die Eigenschaft war eigentlich sehr klar, 00:55:44.239 --> 00:55:46.869 aber es gab keine Warnungen oder so etwas. 00:55:46.869 --> 00:55:49.922 Und so ist es auch beim Pink Pony, dass wir bei Wikimania gesagt haben, 00:55:49.922 --> 00:55:54.273 WikiProject sichtbarer zu machen oder ShEx sichtbarer zu machen, 00:55:54.273 --> 00:55:56.917 aber, und das hat Cristina gesagt, 00:55:56.917 --> 00:56:00.278 wir haben ein Problem mit der Sichtbarkeit 00:56:00.278 --> 00:56:02.368 der vorhandenen Lösungen. 00:56:02.368 --> 00:56:05.232 Und in dieser Session haben wir alle darüber geredet, 00:56:05.232 --> 00:56:06.993 wie man mehr mit ShEx arbeitet 00:56:06.993 --> 00:56:10.765 oder die Arbeit der Leute erleichtert, die alles korrigieren. 00:56:11.488 --> 00:56:15.718 Aber wir korrigieren seit dem ersten Tag von Wikidata 00:56:15.718 --> 00:56:20.741 und global verlieren wir und wir verlieren, weil, na ja, 00:56:20.741 --> 00:56:22.960 wenn ich weiß, dass Namen kompliziert sind, 00:56:22.961 --> 00:56:26.263 aber ich die einzige bin, die die Korrekturen macht, 00:56:26.532 --> 00:56:29.671 der Typ, der den lateinischen Namen hinzugefügt hat 00:56:29.672 --> 00:56:31.584 für alle chinesischen Forscher, 00:56:32.088 --> 00:56:34.266 dafür brauche ich Monate um das zu korrigieren. 00:56:34.266 --> 00:56:35.746 und ich kann es nicht alleine tun, 00:56:35.746 --> 00:56:38.654 und er hat einen großen Batch gemacht. 00:56:38.654 --> 00:56:40.241 Also brauchen wir wirklich... 00:56:40.242 --> 00:56:44.158 Wir haben mehr ein Sichtbarkeitsproblem als ein Werkzeugproblem, denke ich, 00:56:44.158 --> 00:56:45.873 weil wir viele Werkzeuge haben. 00:56:45.873 --> 00:56:50.035 (Lydia) Richtig, aber leider habe ich ein Zeichen bekommen, 00:56:50.035 --> 00:56:52.121 wir müssen das also abschließen. 00:56:52.122 --> 00:56:53.493 Vielen Dank für eure Kommentare. 00:56:53.493 --> 00:56:56.611 Ich hoffe, ihr werdet die Diskussion über den Tag fortführen 00:56:56.611 --> 00:56:58.087 und vielen Dank für euren Beitrag.