1 00:00:05,945 --> 00:00:09,506 Hallo allerseits zum Datenqualitätspanel. 2 00:00:10,288 --> 00:00:13,511 Datenqualität ist wichtig, weil immer mehr Menschen da draußen 3 00:00:13,511 --> 00:00:16,269 sich darauf verlassen, dass unsere Daten in einem guten Zustand sind. 4 00:00:16,269 --> 00:00:19,752 Daher werden wir über die Datenqualität sprechen 5 00:00:19,752 --> 00:00:25,298 und es werden vier Sprecher kurze Einführungen geben 6 00:00:25,298 --> 00:00:28,003 zu Themen im Zusammenhang mit der Datenqualität 7 00:00:28,003 --> 00:00:30,130 und im Anschluss folgen Fragen und Antworten. 8 00:00:30,130 --> 00:00:32,234 Und der Erste ist Lucas. 9 00:00:34,385 --> 00:00:35,385 Vielen Dank. 10 00:00:35,901 --> 00:00:39,899 Hallo, ich bin Lucas und beginne mit einer Übersicht 11 00:00:39,899 --> 00:00:43,806 der Datenqualitätstools, die wir bereits auf Wikidata haben 12 00:00:43,807 --> 00:00:46,231 und auch von einigen Dingen, die bald verfügbar sind. 13 00:00:46,932 --> 00:00:50,623 Und ich habe das alles in allgemeine Themen gruppiert 14 00:00:50,623 --> 00:00:53,621 wie Fehler sichtbarer machen, Probleme angehbar machen, 15 00:00:53,621 --> 00:00:56,673 den Daten mehr Aufmerksamkeit widmen, damit die Leute die Probleme bemerken, 16 00:00:56,945 --> 00:00:59,367 einige der häufigen Fehlerquellen beheben, 17 00:00:59,717 --> 00:01:02,517 die Qualität der vorhandenen Daten sichern 18 00:01:02,616 --> 00:01:04,210 und auch Datenpflege durch Menschen. 19 00:01:05,063 --> 00:01:09,998 Und die, welche derzeit verfügbar sind, beginnen mit Eigenschaftsbeschränkungen. 20 00:01:10,228 --> 00:01:12,521 Ihr habt dies wahrscheinlich bereits auf Wikidata gesehen, 21 00:01:12,521 --> 00:01:14,259 manchmal habt ihr diese Symbole, 22 00:01:14,530 --> 00:01:17,241 die die interne Konsistenz der Daten überprüfen. 23 00:01:17,242 --> 00:01:20,800 Wenn zum Beispiel ein Ereignis dem anderen folgt, 24 00:01:20,801 --> 00:01:23,760 dann sollte das andere Ereignis auch von diesem gefolgt werden, 25 00:01:23,761 --> 00:01:27,161 was auf dem WikidataCon-Item anscheinend fehlte. 26 00:01:27,162 --> 00:01:29,762 Keine Ahnung, dieses Feature ist erst ein paar Tage alt. 27 00:01:30,040 --> 00:01:34,681 Wenn dies für euch zu einschränkend oder zu einfach ist, gibt es auch 28 00:01:34,682 --> 00:01:37,950 den Query Service, mit dem ihr beliebige Kontrollen erstellen könnt, 29 00:01:37,950 --> 00:01:39,842 was natürlich bei vielen Dingen nützlich ist, 30 00:01:39,843 --> 00:01:44,383 aber ihr könnt diesen auch zum Auffinden von Fehlern verwenden. 31 00:01:44,383 --> 00:01:46,974 Also wenn ihr das Auftreten eines Fehlers bemerkt habt, 32 00:01:46,975 --> 00:01:49,499 dann könnt ihr nachschauen, ob es noch andere Orte gibt, 33 00:01:49,499 --> 00:01:51,828 wo Leute andere, ähnliche Fehler gemacht haben 34 00:01:51,828 --> 00:01:53,515 und dies mit dem Query Service finden. 35 00:01:53,515 --> 00:01:54,839 Ihr könnt auch beide kombinieren 36 00:01:54,839 --> 00:01:57,874 und nach Verstößen gegen Constraints im Query Service suchen, 37 00:01:57,875 --> 00:02:01,040 zum Beispiel nur die Verstöße in einigen Bereichen 38 00:02:01,040 --> 00:02:03,762 oder einem WikiProject, das für euch relevant ist. 39 00:02:03,762 --> 00:02:06,828 Leider sind die Resultate derzeit nicht vollständig. 40 00:02:08,232 --> 00:02:09,877 Es gibt eine Revisionswertung. 41 00:02:10,390 --> 00:02:12,666 Das ist... ich denke, das kam von den letzten Änderungen. 42 00:02:12,666 --> 00:02:14,944 Ihr könnt es auch auf eure Beobachtungsliste setzen, 43 00:02:14,945 --> 00:02:17,627 eine automatische Bewertung vornehmen lassen, 44 00:02:17,627 --> 00:02:20,292 ob diese Änderung wohl in gutem Glauben geschehen ist oder nicht 45 00:02:20,292 --> 00:02:22,312 und schädlich oder nicht schädlich ist. 46 00:02:22,313 --> 00:02:24,228 Ich denke, das sind die beiden Bereiche. 47 00:02:24,228 --> 00:02:25,776 Also könnt ihr, wenn ihr wollt, 48 00:02:25,776 --> 00:02:29,778 euch auf nur die schädlichen, aber sinnvollen Änderungen konzentrieren. 49 00:02:29,778 --> 00:02:32,393 Wenn ihr euch besonders freundlich und einladend fühlt, 50 00:02:32,393 --> 00:02:34,272 könnt ihr den Editoren sagen: 51 00:02:34,272 --> 00:02:38,498 "Vielen Dank für euren Beitrag, so hättet ihr es machen sollen, 52 00:02:38,498 --> 00:02:40,511 aber trotzdem danke." 53 00:02:40,511 --> 00:02:42,056 Und wenn euch nicht danach ist, 54 00:02:42,056 --> 00:02:44,342 könnt ihr die nicht sinnvollen Änderungen durchgehen 55 00:02:44,342 --> 00:02:45,856 und die Vandalen wieder zurücknehmen. 56 00:02:47,474 --> 00:02:49,761 Ähnliches gilt auch bei der Bewertung von Entitäten. 57 00:02:49,762 --> 00:02:52,590 Anstatt also eine Änderung zu bewerten, was sie geändert hat, 58 00:02:52,591 --> 00:02:54,157 bewertet ihr die gesamte Revision 59 00:02:54,157 --> 00:02:56,523 und ich glaube, das ist das gleiche Qualitätsmaß, 60 00:02:56,523 --> 00:02:59,863 welches Lydia zu Beginn der Konferenz erwähnt hat. 61 00:03:00,372 --> 00:03:02,273 Hier oben gibt es ein Benutzer-Skript, 62 00:03:02,273 --> 00:03:04,499 welches euch eine Wertung von 1 bis 5 vorgibt. 63 00:03:04,499 --> 00:03:08,256 Ich glaube, das bezieht sich auf die Qualität des aktuellen Eintrags. 64 00:03:09,979 --> 00:03:13,287 Das Primary-Sources-Tool ist für jede Datenbank gedacht, 65 00:03:13,287 --> 00:03:15,268 die ihr importieren möchtet, 66 00:03:15,268 --> 00:03:18,274 die aberqualitativ nicht so gut ist, um sie direkt zu Wikidata hinzuzufügen, 67 00:03:18,274 --> 00:03:20,485 also fügt ihr es zu dem Primary-Source-Tool hinzu 68 00:03:20,485 --> 00:03:22,956 und dann können die Leute entscheiden, 69 00:03:22,956 --> 00:03:26,024 ob sie diese einzelnen Aussagen hinzufügen sollten oder nicht. 70 00:03:28,505 --> 00:03:30,321 Das Anzeigen von Koordinaten als Karten 71 00:03:30,321 --> 00:03:31,931 ist vorwiegend eine praktische Funktion, 72 00:03:31,931 --> 00:03:33,738 aber auch für die Qualitätskontrolle nützlich. 73 00:03:33,738 --> 00:03:34,970 Wenn ihr beispielsweise seht, 74 00:03:34,970 --> 00:03:36,848 dies soll Büro von Wikimedia Deutschland sein, 75 00:03:36,848 --> 00:03:39,400 aber die Koordinaten liegen irgendwo im Indischen Ozean, 76 00:03:39,401 --> 00:03:41,529 dann wisst ihr, dass da etwas nicht stimmt 77 00:03:41,530 --> 00:03:44,790 und ihr könnt es viel einfacher sehen als nur mit den Koordinaten. 78 00:03:46,262 --> 00:03:49,496 Dies ist ein Gadget mit dem Namen relativer Vollständigkeitsindikator, 79 00:03:49,496 --> 00:03:52,480 das euch dieses kleine Symbol hier zeigt, 80 00:03:53,007 --> 00:03:55,652 das euch sagt, für wie vollständig es diesen Punkt hält 81 00:03:55,652 --> 00:03:57,613 und auch welche Eigenschaften am ehesten fehlen. 82 00:03:57,614 --> 00:03:59,889 Das ist wirklich nützlich, wenn ihr eine Sache bearbeitet 83 00:03:59,889 --> 00:04:03,022 und ihr euch in einem Bereich befindet, mit dem ihr nicht sehr vertraut seid 84 00:04:03,022 --> 00:04:05,661 und ihr nicht wisst, welche Eigenschaften richtig sind. 85 00:04:05,662 --> 00:04:08,230 Dann ist dies ein sehr nützliches Gadget. 86 00:04:09,504 --> 00:04:11,401 Und wir haben Shape-Ausdrücke. 87 00:04:11,402 --> 00:04:15,624 Ich denke, Andrea oder Jose werden mehr darüber erzählen, 88 00:04:15,624 --> 00:04:17,933 aber das ist im Grunde eine sehr leistungsfähige Methode 89 00:04:17,933 --> 00:04:20,508 zum Vergleichen der Daten, die ihr habt, gegen das Schema, 90 00:04:20,508 --> 00:04:22,630 also welche Aussage sollten bestimmte Entitäten haben, 91 00:04:22,630 --> 00:04:24,939 mit welchen anderen Entitäten sollten diese verbunden sein 92 00:04:24,939 --> 00:04:26,349 und wie sollten diese aussehen? 93 00:04:26,349 --> 00:04:29,374 Und so könnt ihr Probleme auf diese Weise finden. 94 00:04:30,246 --> 00:04:32,361 Ich denke... Nein, da ist noch mehr. 95 00:04:32,362 --> 00:04:34,321 Das Integraality- oder Property-Dashboard 96 00:04:34,322 --> 00:04:37,023 gibt euch einen schnellen Überblick der Daten, die ihr bereits habt. 97 00:04:37,023 --> 00:04:39,285 Dies ist zum Beispiel aus dem WikiProject Red Pandas 98 00:04:39,517 --> 00:04:41,464 und ihr könnt sehen, dass wir ein Geschlecht 99 00:04:41,464 --> 00:04:43,561 für fast alle der roten Pandas haben, 100 00:04:43,561 --> 00:04:46,854 das Geburtsdatum variiert sehr im Bezug zum Zoo, aus dem sie stammen 101 00:04:46,854 --> 00:04:50,255 und wir haben fast keine toten Pandas, was wunderbar ist, 102 00:04:51,237 --> 00:04:52,780 weil sie so süß sind. 103 00:04:53,699 --> 00:04:55,654 Das ist also auch nützlich. 104 00:04:56,377 --> 00:04:59,185 Nun kommen wir zu den Themen, die aktuell anstehen. 105 00:04:59,889 --> 00:05:03,784 Wikidata Bridge oder auch bekannt als Client-Editing, 106 00:05:03,785 --> 00:05:07,076 also die Bearbeitung von Wikidata mittels Wikipedia-Infoboxen. 107 00:05:07,675 --> 00:05:11,265 Einerseits wird auf die Daten mehr Augenmerk gelegt, 108 00:05:11,265 --> 00:05:13,441 weil mehr Leute die Daten dort sehen können. 109 00:05:13,441 --> 00:05:17,100 Dies wird hoffentlich vermehrt den Gebrauch von Wikidata 110 00:05:17,100 --> 00:05:19,251 in den Wikipedias anregen und das bedeutet, 111 00:05:19,251 --> 00:05:21,213 dass mehr Leute davon Kenntnis bekommen können, 112 00:05:21,213 --> 00:05:23,747 wenn manche Daten veraltet sind und aktualisiert werden müssen, 113 00:05:23,747 --> 00:05:27,000 als wenn dies nur auf Wikidata sichtbar wäre. 114 00:05:28,630 --> 00:05:30,656 Es gibt auch kaputte Referenzen. 115 00:05:30,657 --> 00:05:33,986 Die Idee hier ist, dass wenn ihr den Wert einer Anweisung bearbeitet, 116 00:05:34,683 --> 00:05:37,059 ihr auch die Referenzen aktualisieren solltet, 117 00:05:37,059 --> 00:05:39,528 außer es handelt sich nur um einen Tippfehler oder Ähnliches. 118 00:05:39,897 --> 00:05:43,532 Und diese kaputten Referenzen weisen die Bearbeiter 119 00:05:43,532 --> 00:05:47,506 und auch andere Bearbeiter, die das sehen können, darauf hin, 120 00:05:47,506 --> 00:05:49,756 ob und welche anderen Änderungen vorgenommen wurden, 121 00:05:49,756 --> 00:05:52,471 den Wert der Anweisung und die nicht aktualisierte Referenz. 122 00:05:52,472 --> 00:05:56,766 Ihr könnt das dann korrigieren und entscheiden, ob es das war... 123 00:05:57,477 --> 00:06:00,496 oder noch mehr ansteht oder das tatsächlich so in Ordnung ist 124 00:06:00,496 --> 00:06:03,006 und ihr die Referenzen nicht aktualisieren müsst. 125 00:06:03,543 --> 00:06:05,996 Das bezieht sich auf signierte Anweisungen, 126 00:06:05,996 --> 00:06:09,251 die von einem Anliegen stammen, soweit ich weiß, 127 00:06:09,251 --> 00:06:12,355 dass einige Datenanbieter das zum Beispiel so handhaben... 128 00:06:14,131 --> 00:06:17,231 es gibt eine Anweisung, auf die von der UNESCO verwiesen wird oder so 129 00:06:17,232 --> 00:06:19,872 und dann zerstört plötzlich jemand die Anweisung 130 00:06:19,873 --> 00:06:22,196 und sie sind dann besorgt, dass es dann so aussieht, 131 00:06:22,827 --> 00:06:25,739 als ob der falsche veränderte Wert immer noch von der Organisation 132 00:06:25,739 --> 00:06:27,780 wie der UNESCO stamme, 133 00:06:27,780 --> 00:06:29,503 also können sie mit signierten Anweisungen 134 00:06:29,503 --> 00:06:31,488 solche Referenzen kryptografisch signieren. 135 00:06:31,488 --> 00:06:33,762 Das verhindert zwar keine Änderungen daran, 136 00:06:34,169 --> 00:06:37,034 aber zumindest, wenn jemand die Anweisung verfälscht 137 00:06:37,034 --> 00:06:40,255 oder sie in irgendeiner Weise verändert, dann ist die Signatur nicht mehr gültig, 138 00:06:40,255 --> 00:06:43,491 dann wisst ihr, dies entspricht nicht dem, was von der Organisation stammt. 139 00:06:43,491 --> 00:06:47,299 Vielleicht war es eine konforme Änderung und diese sollte neu signiert werden, 140 00:06:47,299 --> 00:06:50,760 aber vielleicht muss diese wieder rückgängig gemacht werden. 141 00:06:51,203 --> 00:06:54,166 Nun etwas, das auch sehr aufregend sein wird, denke ich, 142 00:06:54,166 --> 00:06:56,956 Citoid ist dieses erstaunliche System, das sie auf Wikipedia haben. 143 00:06:57,379 --> 00:07:01,266 Damit könnt ihr eine URL, einen Bezeichner oder eine ISBN 144 00:07:01,266 --> 00:07:04,759 oder Wikidata ID oder im Grunde alles in den Visual Editor einfügen 145 00:07:05,260 --> 00:07:08,041 und es spuckt eine Referenz aus, die schön formatiert ist, 146 00:07:08,041 --> 00:07:11,049 und dazu alle Daten, die ihr braucht, und der Gebrauch davon ist toll. 147 00:07:11,049 --> 00:07:14,337 Und im Vergleich dazu auf Wikidata, wenn ich einen Verweis hinzufügen möchte, 148 00:07:14,338 --> 00:07:17,271 muss ich normalerweise eine Referenz-URL, einen Titel, 149 00:07:17,271 --> 00:07:19,517 einen String des Autorennamen, Veröffentlichungsort, 150 00:07:19,517 --> 00:07:21,481 Veröffentlichungsdatum, Abfragedatum, 151 00:07:21,481 --> 00:07:24,991 zumindest diese angeben und das ist ärgerlich. 152 00:07:24,991 --> 00:07:29,261 Die Integration von Citoid in Wikibase wird hier hoffentlich Abhilfe bringen. 153 00:07:30,245 --> 00:07:33,604 Und ich denke, das war alles, was ich hatte, ja. 154 00:07:33,604 --> 00:07:36,520 Also gebe ich jetzt ab zu Cristina. 155 00:07:43,780 --> 00:07:45,171 Hi, ich bin Cristina. 156 00:07:45,171 --> 00:07:47,753 Ich bin wissenschaftliche Mitarbeiterin der Universität Zürich 157 00:07:47,753 --> 00:07:51,517 und ich bin auch aktives Mitglied der Schweizer Community. 158 00:07:52,698 --> 00:07:57,741 Als Claudia Müller-Birn und ich dies auf der WikidataCon einreichten, 159 00:07:57,741 --> 00:08:00,461 war es unser Anliegen, unsere Diskussion fortzusetzen, 160 00:08:00,461 --> 00:08:02,594 die wir Anfang des Jahres begonnen hatten 161 00:08:02,594 --> 00:08:07,442 mit einem Workshop für Datenqualität und einigen Sessions in Wikimania. 162 00:08:07,442 --> 00:08:10,535 Also das Ziel dieses Vortrags ist es, einige Ideen von uns 163 00:08:10,536 --> 00:08:14,432 und der Community anzusprechen, die wir aufgegriffen haben, 164 00:08:14,432 --> 00:08:16,560 und die Diskussion fortzusetzen. 165 00:08:16,561 --> 00:08:20,065 Wir möchten also weiterhin viel mit euch interagieren. 166 00:08:21,487 --> 00:08:23,371 Also was wir für sehr wichtig halten, 167 00:08:23,372 --> 00:08:27,580 ist, dass wir kontinuierlich jede Art von Benutzer in der Community fragen, 168 00:08:27,581 --> 00:08:29,030 was sie wirklich brauchen, 169 00:08:29,030 --> 00:08:32,000 welche Probleme sie mit der Datenqualität haben, 170 00:08:32,000 --> 00:08:34,760 nicht nur Bearbeiter, sondern auch die Leute, die programmieren 171 00:08:34,760 --> 00:08:37,510 oder einfach Daten verwenden, und auch Forscher, 172 00:08:37,510 --> 00:08:39,494 die den gesamten Bearbeitungsverlauf verwenden, 173 00:08:39,494 --> 00:08:41,620 um zu analysieren, was vor sich geht. 174 00:08:42,367 --> 00:08:46,021 Wir haben also eine Überprüfung von rund 80 Tools durchgeführt, 175 00:08:46,021 --> 00:08:49,251 die in Wikidata vorhanden sind, und wir haben sie ausgerichtet 176 00:08:49,251 --> 00:08:52,225 an verschiedenen Dimensionen der Datenqualität. 177 00:08:52,225 --> 00:08:54,510 Und was wir eigentlich bemerkten, 178 00:08:54,510 --> 00:08:57,681 viele davon waren für das Monitoring der Vollständigkeit gedacht, 179 00:08:57,682 --> 00:09:02,820 doch einige von ihnen ermöglichen auch Verknüpfungen. 180 00:09:02,820 --> 00:09:08,442 Es besteht jedoch ein großer Bedarf an Tools, die sich mit Vielfalt befassen. 181 00:09:08,443 --> 00:09:12,774 Das ist eines der Merkmale, die tatsächlich in Wikidata möglich sind. 182 00:09:12,774 --> 00:09:15,748 Insbesondere dieses Gestaltungsprinzip von Wikidata, 183 00:09:15,748 --> 00:09:17,901 wo wir Vielfalt haben können, 184 00:09:17,902 --> 00:09:20,508 also unterschiedliche Anweisungen mit unterschiedlichen Werten, 185 00:09:20,614 --> 00:09:22,236 die aus verschiedenen Quellen kommen. 186 00:09:22,236 --> 00:09:25,231 Da es sich um sekundäre Quellen handelt, haben wir nicht wirklich Werkzeuge, 187 00:09:25,231 --> 00:09:27,750 die uns zeigen, wie viele kumulierte Aussagen es gib 188 00:09:27,751 --> 00:09:30,889 und wie viele davon wir verbessern können und wie 189 00:09:30,890 --> 00:09:32,833 und wir wissen auch nicht wirklich, 190 00:09:32,833 --> 00:09:35,788 was die Gründe für die Vielfalt sind, die auftreten können. 191 00:09:36,491 --> 00:09:40,291 Also was wir besprochen haben auf diesen Community-Treffen, 192 00:09:40,291 --> 00:09:43,084 waren die Herausforderungen, die noch Aufmerksamkeit erfordern. 193 00:09:43,084 --> 00:09:46,989 Sehr toll zum Beispiel sind all diese Crowdsourcing-Communities, 194 00:09:46,989 --> 00:09:49,263 weil verschiedene Leute verschiedene Bereiche 195 00:09:49,263 --> 00:09:51,679 der Daten oder der Diagramme angehen 196 00:09:51,679 --> 00:09:54,615 und wir haben auch unterschiedliche Hintergrundkenntnisse. 197 00:09:54,616 --> 00:09:58,981 Tatsächlich ist es jedoch sehr schwierig, alles in etwas Konsistentes auszurichten, 198 00:09:58,981 --> 00:10:01,291 weil unterschiedliche Menschen 199 00:10:01,291 --> 00:10:04,920 unterschiedliche Eigenschaften auf unterschiedliche Weise nutzen 200 00:10:04,920 --> 00:10:08,511 und sie erwarten auch Unterschiedliches von Entitätsbeschreibungen. 201 00:10:09,003 --> 00:10:12,721 Die Leute meinten auch, dass sie mehr Werkzeuge brauchen, 202 00:10:12,722 --> 00:10:16,000 die einen besseren Überblick ermöglichen über den globalen Status der Dinge. 203 00:10:16,000 --> 00:10:20,733 Also welche Einheiten in Bezug auf Vollständigkeit fehlen, 204 00:10:20,733 --> 00:10:26,021 aber auch so etwas wie, woran die Leute gerade die meiste Zeit arbeiten, 205 00:10:26,021 --> 00:10:30,516 und sie erwähnen auch oft eine engere Zusammenarbeit 206 00:10:30,517 --> 00:10:33,311 nicht inur m Hinblick auf Sprachen, sondern die WikiProjects 207 00:10:33,311 --> 00:10:35,658 und die verschiedenen Wikimedia-Plattformen. 208 00:10:35,658 --> 00:10:38,859 Und wir haben alle transkribierten Kommentare veröffentlicht 209 00:10:38,860 --> 00:10:42,959 von all diesen Diskussionen in diesen Links hier in den Etherpads 210 00:10:42,959 --> 00:10:45,982 und auch auf der Wiki-Seite von Wikimania. 211 00:10:46,232 --> 00:10:48,481 Einige der Lösungen, die tatsächlich aufgetaucht sind, 212 00:10:48,481 --> 00:10:53,001 gingen in die Richtung, mehr Best Practices auszutauschen, 213 00:10:53,001 --> 00:10:55,762 die in verschiedenen WikiProjects entwickelt werden. 214 00:10:55,762 --> 00:10:57,989 Aber die Leute wollen auch Tools, 215 00:10:57,989 --> 00:11:01,239 die dabei helfen, die Arbeit in Teams zu organisieren, 216 00:11:01,239 --> 00:11:03,845 oder zumindest verstehen helfen, wer woran arbeitet, 217 00:11:03,845 --> 00:11:07,815 und sie erwähnten auch, dass sie sich mehr Anwendungsbeispiele wünschen 218 00:11:07,816 --> 00:11:12,019 und mehr Vorlagen, mit denen sie Dinge besser erstellen können. 219 00:11:12,946 --> 00:11:14,741 Und im Hinblick auf den Kontakt, 220 00:11:14,741 --> 00:11:18,525 den wir mit offenen staatlichen Datenorganisationen haben, 221 00:11:18,525 --> 00:11:22,973 und insbesondere stehe ich in Kontakt mit dem Kanton und der Stadt Zürich, 222 00:11:22,973 --> 00:11:26,207 sind diese sehr daran interessiert, mit Wikidata zu arbeiten 223 00:11:26,207 --> 00:11:30,490 weil sie wollen, dass ihre Daten für alle an dem Ort zugänglich sind, 224 00:11:30,490 --> 00:11:33,681 an dem Menschen Daten abrufen oder darauf zugreifen. 225 00:11:33,682 --> 00:11:36,550 Für sie wäre es wirklich interessant 226 00:11:36,551 --> 00:11:38,775 eine Art von Qualitätsindikatoren zu haben 227 00:11:38,775 --> 00:11:40,822 sowohl im Wiki, was bereits verwirklicht wird, 228 00:11:40,822 --> 00:11:42,664 als auch in SPARQL-Ergebnissen, 229 00:11:42,664 --> 00:11:44,947 um zu wissen, ob sie diesen Community-basierten Daten 230 00:11:44,947 --> 00:11:46,237 vertrauen können oder nicht. 231 00:11:46,237 --> 00:11:48,230 Weiterhin wollen sie auch wissen, 232 00:11:48,230 --> 00:11:51,417 welche Teile der eigenen Datensätze für Wikidata nützlich sind. 233 00:11:51,418 --> 00:11:53,071 Und sie hätten gerne ein Tool, 234 00:11:53,071 --> 00:11:56,041 mit dem sie dies automatisch beurteilen können. 235 00:11:56,041 --> 00:11:59,066 Sie benötigen auch eine Methode oder ein Werkzeug, 236 00:11:59,067 --> 00:12:02,817 das ihnen bei der Entscheidung hilft, ob sie ihre Daten importieren 237 00:12:02,817 --> 00:12:04,894 oder verknüpfen sollen, denn in einigen Fällen 238 00:12:04,895 --> 00:12:07,247 haben sie auch ihre eigenen verknüpften offenen Datensätze. 239 00:12:07,247 --> 00:12:09,746 Sie wissen also nicht, ob sie die Daten nur aufnehmen sollen 240 00:12:09,747 --> 00:12:13,274 oder weiterhin Links von den Datensätzen zu Wikidata erstellen sollen 241 00:12:13,274 --> 00:12:14,562 und umgekehrt. 242 00:12:14,950 --> 00:12:17,014 Und sie möchten auch wissen, 243 00:12:17,014 --> 00:12:20,044 auf welche Websites in Wikidata verwiesen wird. 244 00:12:20,044 --> 00:12:23,361 Und wenn sie eine solche Abfrage im Query Service ausführen, 245 00:12:23,362 --> 00:12:24,938 bekommen sie oft Zeitüberschreitungen. 246 00:12:24,938 --> 00:12:28,181 Vielleicht sollten wir wirklich mehr Werkzeuge schaffen, 247 00:12:28,181 --> 00:12:32,240 die ihnen helfen, diese Antworten auf ihre Fragen zu bekommen. 248 00:12:33,148 --> 00:12:35,768 Und davon abgesehen, 249 00:12:35,768 --> 00:12:39,361 uns als Wiki-Forschern fehlen manchmal auch bei den Zusammenfassungen 250 00:12:39,362 --> 00:12:42,023 der Änderungen einige Informationen. 251 00:12:42,024 --> 00:12:44,953 Ich erinnere mich daran, als wir daran arbeiteten, 252 00:12:44,954 --> 00:12:48,919 das unterschiedliche Verhalten der Bearbeiter zu verstehen 253 00:12:48,919 --> 00:12:53,403 im Hinblick auf Tools oder Bots, anonyme Benutzer und so weiter, 254 00:12:53,403 --> 00:12:58,744 fehlte uns zum Beispiel wirklich eine Standardmethode zum Nachverfolgen, 255 00:12:58,744 --> 00:13:00,982 ob Tools verwendet wurden. 256 00:13:00,982 --> 00:13:03,154 Und es gibt einige Tools, die das bereits tun 257 00:13:03,155 --> 00:13:05,230 wie PetScan und viele andere, 258 00:13:05,230 --> 00:13:07,720 aber vielleicht sollten wir in der Community 259 00:13:07,721 --> 00:13:10,130 öfter darüber diskutieren, wie Sie diese 260 00:13:10,130 --> 00:13:13,969 mit einer feinkörnigen Datenherkunft aufnehmen können. 261 00:13:13,969 --> 00:13:16,031 Weiterhin sind wir der Meinung, dass wir 262 00:13:16,031 --> 00:13:20,801 konkretere Datenqualitätsdimensionen berücksichtigen müssen, 263 00:13:20,802 --> 00:13:24,961 die sich auf verbundene Daten beziehen, aber nicht alle Arten von Daten. 264 00:13:24,962 --> 00:13:28,022 Deshalb haben wir einige Maßnahmen erarbeitet, 265 00:13:28,022 --> 00:13:30,782 um auf den Informationsgewinn tatsächlich zuzugreifen, 266 00:13:30,782 --> 00:13:33,881 der durch die Links aktiviert wird, und was wir damit meinen, ist, 267 00:13:33,882 --> 00:13:36,681 dass wenn wir Wikidata mit anderen Datensätzen verknüpfen, 268 00:13:36,682 --> 00:13:38,323 sollten wir auch daran denken, 269 00:13:38,323 --> 00:13:41,921 wie viel die Entitäten tatsächlich durch die Klassifizierung gewinnen, 270 00:13:41,922 --> 00:13:45,601 auch in der Beschreibung, aber auch in den Vokabeln, die sie verwenden. 271 00:13:45,602 --> 00:13:51,251 Also nur um ein sehr einfaches Beispiel zu geben, was ich damit meine, ist, 272 00:13:51,251 --> 00:13:54,269 was wir uns in diesem Fall vorstellen können, wäre, Wikidata 273 00:13:54,270 --> 00:13:57,651 oder das externe Rechenzentrum, das mit Wikidata verknüpft ist, 274 00:13:57,651 --> 00:14:00,487 dort haben wir die Entität einer Person, die Natasha Noy heißt, 275 00:14:00,487 --> 00:14:02,601 wir haben die Zugehörigkeit und andere Dinge 276 00:14:02,602 --> 00:14:05,239 und dann sagen wir: OK, wir verlinken zu einem externen Ort 277 00:14:05,240 --> 00:14:08,919 und diese Entität hat den gleichen Namen, tatsächlich haben wir den gleichen Wert. 278 00:14:08,920 --> 00:14:11,499 Was also besser wäre, ist, dass wir auf etwas verlinken, 279 00:14:11,499 --> 00:14:12,889 das einen anderen Namen hat. 280 00:14:12,889 --> 00:14:15,252 Das ist immer noch gültig, weil es zwei Möglichkeiten gibt, 281 00:14:15,252 --> 00:14:16,972 den Namen dieser Person zu schreiben 282 00:14:16,972 --> 00:14:19,714 und auch andere Informationen, die wir nicht in Wikidata haben 283 00:14:19,715 --> 00:14:21,922 oder auch nicht in einem anderen Datensatz haben. 284 00:14:22,390 --> 00:14:24,652 Aber was noch besser ist, ist, 285 00:14:24,653 --> 00:14:27,478 dass wir tatsächlich im Zieldatensatz suchen, 286 00:14:27,478 --> 00:14:29,633 da sie dort auch neue Möglichkeiten 287 00:14:29,633 --> 00:14:31,393 zur Klassifizierung der Informationen haben. 288 00:14:31,393 --> 00:14:35,354 Das ist also nicht nur eine Person, sondern in dem anderen Datensatz 289 00:14:35,355 --> 00:14:37,966 steht auch, ob es sei eine Frau oder etwas anderes, 290 00:14:37,966 --> 00:14:39,526 mit dem sie sich einordnen lässt. 291 00:14:39,526 --> 00:14:43,401 Und wenn in dem anderen Datensatz, viele andere Vokabeln verwendet werden, 292 00:14:43,402 --> 00:14:46,588 hilft das auch bei der gesamten Informationsbeschaffung. 293 00:14:47,371 --> 00:14:50,973 Damit möchte ich auch sagen, dass wir denken, 294 00:14:50,973 --> 00:14:55,809 dass wir gebündelte Abfragen besser präsentieren können, 295 00:14:55,810 --> 00:15:00,448 denn wenn wir uns das Abfrageprotokoll von Malyshev et al. ansehen, 296 00:15:01,285 --> 00:15:04,301 sehen wir, dass wir aus den organischen Abfragen 297 00:15:04,302 --> 00:15:06,921 nur sehr wenige gebündelte Suchergebnisse haben. 298 00:15:06,922 --> 00:15:12,501 Und tatsächlich ist Bündelung einer der Hauptvorteile von Verbindungsdaten. 299 00:15:12,501 --> 00:15:16,903 Also vielleicht brauchen die Community oder die Leute, die Wikidata benutzen, 300 00:15:16,903 --> 00:15:18,898 auch mehr Beispiele dazu. 301 00:15:18,898 --> 00:15:22,666 Und wenn wir uns die Liste der verwendeten Endpunkte ansehen, 302 00:15:22,667 --> 00:15:25,401 ist dies keine vollständige Liste und wir haben noch viele mehr. 303 00:15:25,402 --> 00:15:30,279 Natürlich wurden diese Daten aus Abfragen bis März 2018 analysiert, 304 00:15:30,469 --> 00:15:34,047 aber wir sollten uns jedoch die Liste der gebündelten Endpunkte ansehen, 305 00:15:34,047 --> 00:15:37,252 die wir haben und sehen, ob wir sie wirklich benutzen oder nicht. 306 00:15:37,813 --> 00:15:40,281 Also zwei Fragen, die ich für das Publikum habe, 307 00:15:40,281 --> 00:15:43,001 die wir nachher als Grundlage für eine Diskussion verwenden können: 308 00:15:43,001 --> 00:15:46,001 Welche Datenqualitätsprobleme sollten eurer Meinung nach behoben werden 309 00:15:46,002 --> 00:15:47,626 aufgrund eurer Bedürfnisse? 310 00:15:47,626 --> 00:15:50,401 Aber ebenso, wo braucht ihr mehr Automatisierung, 311 00:15:50,402 --> 00:15:53,243 die euch beim Bearbeiten oder dem Kontrollieren hilft. 312 00:15:53,736 --> 00:15:55,306 Das ist alles, vielen Dank. 313 00:16:05,740 --> 00:16:08,595 (Jose Emilio Labra) Okay, worüber ich sprechen werde, 314 00:16:08,595 --> 00:16:14,715 sind einige Tools, die wir im Zusammenhang mit Shape Expressions entwickelt haben. 315 00:16:15,536 --> 00:16:18,251 Also darüber möchte ich etwas erzählen. 316 00:16:18,251 --> 00:16:19,740 Ich bin Jose Emilio Labra, 317 00:16:19,740 --> 00:16:23,750 aber all diese Tools wurden von verschiedenen Leuten gemacht, 318 00:16:23,750 --> 00:16:26,740 hauptsächlich im Zusammenhang mit W3C ShEx, 319 00:16:26,740 --> 00:16:28,481 der Shape Expressions Community Group. 320 00:16:28,481 --> 00:16:29,719 ShEx Community Group. 321 00:16:30,144 --> 00:16:34,382 Also das erste Tool, das ich erwähnen möchte, ist RDFShape, 322 00:16:34,382 --> 00:16:36,082 dies ist ein allgemeines Werkzeug, 323 00:16:36,082 --> 00:16:40,499 weil Shape Expressions nicht nur für Wikidata sind. 324 00:16:40,499 --> 00:16:44,168 Shape Expressions ist eine Sprache zur allgemeinen Validierung von RDF. 325 00:16:44,168 --> 00:16:47,568 Dieses Tool wurde hauptsächlich von mir entwickelt 326 00:16:47,568 --> 00:16:50,880 und es ist ein Werkzeug, um RDF im Allgemeinen zu validieren. 327 00:16:50,881 --> 00:16:55,139 Wenn ihr also mehr über RDF erfahren wollt oder RDF validieren möchtet 328 00:16:55,140 --> 00:16:58,521 oder SPARQL-Endpunkte nicht nur in Wikidata, 329 00:16:58,521 --> 00:17:00,891 ist meine Empfehlung, dass ihr dieses Tool verwenden könnt. 330 00:17:00,891 --> 00:17:03,255 Auch zum Unterrichten. 331 00:17:03,255 --> 00:17:05,640 Ich bin Lehrer an der Universität 332 00:17:05,641 --> 00:17:07,991 und ich benutze es in meinem Semantic-Web-Kurs, 333 00:17:07,991 --> 00:17:09,321 um RDF zu unterrichten. 334 00:17:09,321 --> 00:17:12,350 Wenn ihr also RDF lernen möchtet, halte ich es für ein nützliches Werkzeug. 335 00:17:13,033 --> 00:17:15,997 Dies ist beispielsweise eine Visualisierung 336 00:17:15,997 --> 00:17:18,017 eines RDF-Diagramms mit dem Tool. 337 00:17:18,727 --> 00:17:22,643 Aber bevor ich letzten Monat hierher gekommen bin, 338 00:17:22,643 --> 00:17:27,003 habe ich einen Fork von rdfshape speziell für Wikidata erstellt, 339 00:17:27,003 --> 00:17:28,443 weil ich dachte... 340 00:17:28,443 --> 00:17:32,942 Es heißt WikiShape und ich habe es gestern als Geschenk für Wikidata präsentiert. 341 00:17:32,942 --> 00:17:34,751 Was ich also genommen habe, ist... 342 00:17:34,751 --> 00:17:39,791 Ich habe alles entfernt, was nicht mit Wikidata zu tun hatte 343 00:17:39,791 --> 00:17:44,801 und um einige Dinge zu hartcodieren, zum Beispiel den Wikidata-SPARQL-Endpunkt. 344 00:17:44,802 --> 00:17:49,041 Doch jetzt hat mich jemand gefragt, ob ich das auch für Wikibase machen könnte. 345 00:17:49,042 --> 00:17:52,000 Und es ist auch für Wikibase sehr einfach zu machen. 346 00:17:52,760 --> 00:17:56,280 Also dieses Tool, WikiShape, ist ziemlich neu. 347 00:17:57,015 --> 00:17:59,633 Ich denke, es funktioniert, die meisten Funktionen, 348 00:17:59,633 --> 00:18:02,529 aber es gibt einige Funktionen, die möglicherweise nicht funktionieren, 349 00:18:02,529 --> 00:18:05,231 und wenn ihr es versuchen wollt oder es verbessern wollt, 350 00:18:05,231 --> 00:18:06,391 sagt es mir bitte. 351 00:18:06,391 --> 00:18:08,503 Das sind also [unverständlich] Aufnahmen, 352 00:18:08,503 --> 00:18:11,515 aber ich denke, ich kann es auch so versuchen, 353 00:18:11,705 --> 00:18:13,263 Also lasst es uns versuchen. 354 00:18:14,933 --> 00:18:16,945 Mal sehen, ob es funktioniert. 355 00:18:16,953 --> 00:18:20,070 Zuerst muss ich da rausgehen... 356 00:18:22,453 --> 00:18:23,453 Hier. 357 00:18:24,226 --> 00:18:27,724 Okay, ja. Das ist also das Werkzeug hier. 358 00:18:28,204 --> 00:18:30,467 Dinge, die ihr mit dem Tool zum Beispiel machen könnt, 359 00:18:30,467 --> 00:18:35,275 sind, ihr könnt Schemas, Entitätsschemas überprüfen. 360 00:18:35,276 --> 00:18:37,482 Ihr wisst, dass es einen neuen Namespace gibt, 361 00:18:37,482 --> 00:18:38,762 der E-irgendwas heißt. 362 00:18:38,762 --> 00:18:44,485 Wenn ihr also hier zum Beispiel anfangt zu schreiben "Mensch"... 363 00:18:44,735 --> 00:18:48,812 Während ihr schreibt, könnt ihr mittels der Autovervollständigung prüfen. 364 00:18:48,812 --> 00:18:52,001 Dies ist zum Beispiel die Shape Expression für Mensch 365 00:18:52,790 --> 00:18:55,937 und das sind die Shape Expressions hier. 366 00:18:55,938 --> 00:18:59,841 Und wie ihr sehen könnt, hat dieser Editor Syntax-Hervorhebung, 367 00:18:59,842 --> 00:19:04,559 das ist... naja, vielleicht ist der Bildschirm zu klein. 368 00:19:05,676 --> 00:19:07,719 Ich kann versuchen, es größer zu machen. 369 00:19:09,194 --> 00:19:10,973 Vielleicht seht ihr es jetzt besser. 370 00:19:10,973 --> 00:19:14,241 Also... und das ist der Editor mit Syntax-Hervorhebung und er hat auch... 371 00:19:14,241 --> 00:19:17,851 dieser Editor stammt aus demselben Quellcode 372 00:19:17,851 --> 00:19:19,771 wie der Wikidata-Abfragedienst. 373 00:19:19,771 --> 00:19:23,750 Also zum Beispiel, wenn man mit der Maus hier schwebt, 374 00:19:23,750 --> 00:19:27,961 zeigt es die Beschriftungen der verschiedenen Eigenschaften. 375 00:19:27,962 --> 00:19:31,298 Also ich finde, das ist sehr hilfreich, weil jetzt... 376 00:19:32,588 --> 00:19:36,001 die Entitätsschemata in Wikidata 377 00:19:36,001 --> 00:19:38,477 sind nur eine Idee in einfachem Text. 378 00:19:38,501 --> 00:19:42,493 Aber ich denke, dieser Editor ist viel besser, weil er Autocomplete hat 379 00:19:42,494 --> 00:19:43,908 und er hat auch... 380 00:19:43,908 --> 00:19:48,241 Ich meine zum Beispiel, wenn ihr eine Einschränkung hinzufügen wolltet, 381 00:19:48,241 --> 00:19:51,570 sagt ihr "wdt:", 382 00:19:51,570 --> 00:19:53,754 und fangt an zu schreiben "author" 383 00:19:53,754 --> 00:19:56,884 und klickt dann mit Strg + Leertaste 384 00:19:56,884 --> 00:19:59,012 und es schlägt euch die verschiedenen Einträge vor. 385 00:19:59,012 --> 00:20:02,291 Das ist also ähnlich wie beim Wikidata-Abfragedienst, 386 00:20:02,291 --> 00:20:06,285 aber speziell für Shape Expressions, 387 00:20:06,285 --> 00:20:11,275 weil ich das Gefühl habe, Shape Expressions zu kreieren 388 00:20:11,715 --> 00:20:15,841 ist nicht schwieriger als das Schreiben von SPARQL-Abfragen. 389 00:20:15,842 --> 00:20:21,255 Manche Leute denken, dass es auf dem gleichen Niveau ist. 390 00:20:22,278 --> 00:20:24,746 Ich denke, es ist wahrscheinlich einfacher. 391 00:20:24,746 --> 00:20:27,521 Denn die Shape Expressions waren, als wir es entworfen haben, 392 00:20:27,521 --> 00:20:31,029 haben wir es getan, um die Arbeit zu vereinfachen. 393 00:20:31,029 --> 00:20:35,001 Okay, das ist eines der ersten Dinge, die ihr in diesen Editor habt 394 00:20:35,001 --> 00:20:36,620 für Shape Expressions. 395 00:20:37,371 --> 00:20:41,467 Und dann habt ihr zum Beispiel auch die Möglichkeit, zu visualisieren. 396 00:20:41,468 --> 00:20:44,801 Wenn man eine Shape Expression habt verwendet man zum Beispiel... 397 00:20:44,802 --> 00:20:49,386 Ich denke, "written" ist eine schöne Shape Expression, 398 00:20:49,386 --> 00:20:53,500 weil sie einige Beziehungen zwischen verschiedenen Dingen hat. 399 00:20:54,823 --> 00:20:58,160 Und das ist die UML-Visualisierung von schriftlichen Arbeiten. 400 00:20:58,161 --> 00:21:02,090 In UML sind die verschiedenen Eigenschaften leicht zu erkennen. 401 00:21:02,790 --> 00:21:06,794 Wenn ihr dies macht - mir wurde das klar, als ich das mit mehreren Leuten versuchte, 402 00:21:06,795 --> 00:21:09,216 finden diese einige Fehler in ihren Shape Expressions, 403 00:21:09,217 --> 00:21:11,028 denn es ist leicht zu erkennen, 404 00:21:11,028 --> 00:21:13,488 welche Eigenschaften fehlen oder was auch immer. 405 00:21:13,488 --> 00:21:15,991 Dann hier eine andere Möglichkeit ist, 406 00:21:15,991 --> 00:21:19,520 dass ihr auch validieren könnt, ich habe es hier, die Validierung. 407 00:21:20,496 --> 00:21:25,285 Ich glaube, ich hatte es in einem Label, vielleicht habe ich es geschlossen. 408 00:21:26,267 --> 00:21:30,988 Okay, aber ihr könnt beispielsweise hier Validate entities klicken, 409 00:21:32,308 --> 00:21:34,232 zum Beispiel... 410 00:21:35,404 --> 00:21:41,921 "q42" mit "e42", das ist Urheber. 411 00:21:42,818 --> 00:21:46,500 Mit "human" können wir es machen, glaube ich. 412 00:21:48,970 --> 00:21:50,131 Und dann ist es... 413 00:21:50,688 --> 00:21:56,248 es dauert eine Weile, weil dabei die SPARQL-Abfragen ausgeführt werden 414 00:21:56,248 --> 00:21:59,264 und jetzt, zum Beispiel, scheitert es am Netzwerk, aber... 415 00:21:59,657 --> 00:22:01,580 Also ihr könnt es versuchen. 416 00:22:02,759 --> 00:22:07,026 Gut, lasst uns mit der Präsentation der anderen Tools fortfahren. 417 00:22:07,026 --> 00:22:10,513 Mein Rat ist also, wenn ihr es versuchen möchtet 418 00:22:10,513 --> 00:22:12,783 und Feedback wollt, lasst es mich wissen. 419 00:22:13,133 --> 00:22:15,540 Also, um mit der Präsentation fortzufahren... 420 00:22:18,743 --> 00:22:20,277 Das ist also WikiShape. 421 00:22:23,800 --> 00:22:26,509 Dann, das habe ich schon erwähnt, 422 00:22:27,681 --> 00:22:30,277 gibt es den Shape Expressions Editor, 423 00:22:30,277 --> 00:22:34,402 das ist ein eigenständiges Projekt in GitHub. 424 00:22:35,505 --> 00:22:37,532 Ihr könnt es in eurem eigenen Projekt verwenden. 425 00:22:37,532 --> 00:22:41,036 Wenn ihr ein Tool für Shape Expression benötigt, 426 00:22:41,036 --> 00:22:45,635 könnt ihr es einfach in jedes andere Projekt einbetten. 427 00:22:45,636 --> 00:22:48,235 Das ist auf GitHub und ihr könnt es benutzen. 428 00:22:48,868 --> 00:22:51,970 Der gleiche Autor, einer meiner Schüler, 429 00:22:52,684 --> 00:22:55,704 hat auch einen Editor für Shape Expressions erstellt, 430 00:22:55,704 --> 00:22:57,789 ebenfalls inspiriert vom Wikidata-Abfragedienst, 431 00:22:57,789 --> 00:23:00,681 wo ihr in dieser Spalte 432 00:23:00,682 --> 00:23:05,033 diesen vorwiegend visuellen Editor für SPARQL-Abfragen habt, 433 00:23:05,033 --> 00:23:07,135 wo ihr diese Dinge bewerkstelligen könnt. 434 00:23:07,136 --> 00:23:09,123 Das ist also eine Bildschirmaufnahme. 435 00:23:09,123 --> 00:23:12,662 Ihr könnt sehen, dass dies die Shape Expressions im Text sind. 436 00:23:12,662 --> 00:23:15,745 Dies ist jedoch eine formularbasierte Shape Expression, 437 00:23:15,745 --> 00:23:18,505 bei der es wahrscheinlich etwas länger dauern würde. 438 00:23:18,505 --> 00:23:23,400 Hier könnt ihr die verschiedenen Zeilen in die verschiedenen Felder einfügen. 439 00:23:23,401 --> 00:23:25,800 Oay, dann gibt es ShExEr. 440 00:23:26,879 --> 00:23:27,943 Wir haben... 441 00:23:27,943 --> 00:23:31,883 das wird von einem Doktoranden an der Universität von Oviedo gemacht 442 00:23:31,883 --> 00:23:34,276 und er ist hier, damit er ShExEr präsentieren kann. 443 00:23:38,147 --> 00:23:40,024 (Danny) Hallo, ich bin Danny Fernández, 444 00:23:40,025 --> 00:23:43,800 Ich bin Doktorand an der Universität von Oviedo und arbeite mit Labra. 445 00:23:44,710 --> 00:23:47,725 Da uns die Zeit davon läuft, lasst uns dies schnell machen. 446 00:23:47,726 --> 00:23:52,641 Wir starten also keine Demo, sondern zeigen nur einige Screenshots. 447 00:23:52,642 --> 00:23:56,387 Okay, also die übliche Art, mit Shape Expressions zu arbeiten 448 00:23:56,387 --> 00:23:58,301 oder einer beliebigen Formsprache, ist, 449 00:23:58,301 --> 00:23:59,791 dass Sie einen Domain-Experten haben, 450 00:23:59,791 --> 00:24:02,313 der als Erstes definiert, wie der Graph aussehen soll 451 00:24:02,314 --> 00:24:03,756 einige Strukturen definiert 452 00:24:03,756 --> 00:24:05,746 und dann verwendet man diese Strukturen, 453 00:24:05,746 --> 00:24:07,750 um die tatsächlichen Daten dagegen zu validieren. 454 00:24:08,124 --> 00:24:11,641 Dieses Tool und auch diejenigen, die von Labra vorgestellt wurden, 455 00:24:11,642 --> 00:24:14,441 sind Allzweckwerkzeuge für jede RDF-Quelle. 456 00:24:14,442 --> 00:24:17,255 Es ist so konzipiert, dass es umgekehrt funktioniert. 457 00:24:17,255 --> 00:24:18,969 Man hat bereits einige Daten, 458 00:24:18,969 --> 00:24:23,165 Man wählt aus, welche Notizen die Form erhalten soll 459 00:24:23,165 --> 00:24:26,718 und dann extrahiert oder schließt man die Form automatisch. 460 00:24:26,719 --> 00:24:29,541 Also, auch wenn dies ein Allzweckwerkzeug ist, 461 00:24:29,541 --> 00:24:32,034 was wir für diese WikidataCon gemacht haben, 462 00:24:32,034 --> 00:24:34,254 ist diese schicke Schaltfläche. 463 00:24:34,254 --> 00:24:37,301 Wenn man darauf klickt, was im Wesentlichen passiert, ist, 464 00:24:37,301 --> 00:24:42,079 es gibt so viele Konfigurationsparameter 465 00:24:42,080 --> 00:24:46,251 und es konfiguriert es für die Arbeit mit dem Wikidata-Endpunkt 466 00:24:46,251 --> 00:24:47,971 und ich bin fast fertig, sorry. 467 00:24:48,733 --> 00:24:52,883 Sobald man diesen Knopf drückt, erhält man im Wesentlichen Folgendes. 468 00:24:52,884 --> 00:24:55,266 Nachdem man ausgewählt hat, welche Art von Notizen, 469 00:24:55,266 --> 00:24:59,360 was für Instanzen unserer Klasse, was auch immer man will, 470 00:24:59,361 --> 00:25:01,393 erhält man ein automatisches Schema. 471 00:25:02,319 --> 00:25:04,473 Alle Einschränkungen sind danach sortiert, 472 00:25:04,473 --> 00:25:07,112 wie viele Modi tatsächlich damit übereinstimmen. 473 00:25:07,112 --> 00:25:09,772 Man kann so die selteneren filtern und so weiter. 474 00:25:09,772 --> 00:25:12,466 Also wir haben da unten ein Poster über dieses Thema 475 00:25:12,466 --> 00:25:14,695 und ich werde unten und oben sein 476 00:25:14,695 --> 00:25:16,454 und überall den ganzen Tag. 477 00:25:16,455 --> 00:25:19,081 Wer also weiteres Interesse an diesem Tool hat, 478 00:25:19,082 --> 00:25:21,477 kann mich einfach während dieses Events ansprechen. 479 00:25:21,477 --> 00:25:24,624 Und jetzt werde ich Labra das Mikro zurückgeben, danke. 480 00:25:29,812 --> 00:25:32,578 (Jose) Also lasst uns mit den anderen Tools fortfahren. 481 00:25:32,579 --> 00:25:34,984 Ein anderes Werkzeug ist der ShapeDesigner. 482 00:25:34,984 --> 00:25:37,281 Andra, möchtest du jetzt den ShapeDesigner machen 483 00:25:37,281 --> 00:25:39,287 oder vielleicht später im Workshop? 484 00:25:39,287 --> 00:25:40,773 Es gibt einen Workshop... 485 00:25:40,773 --> 00:25:44,496 Heute Nachmittag gibt es einen Workshop speziell für Shape Expressions und... 486 00:25:45,265 --> 00:25:47,939 Die Idee ist, dass wir dort mehr in die Praxis gehen können, 487 00:25:47,940 --> 00:25:52,324 und wenn ihr etwas ShEx üben möchtet, könnt ihr es dort tun. 488 00:25:52,875 --> 00:25:55,470 Dieses Tool ist ShEx... und hier ist Eric, 489 00:25:55,470 --> 00:25:56,998 also kannst du es präsentieren. 490 00:25:57,969 --> 00:25:59,527 (Eric) Also einfach super schnell. 491 00:25:59,527 --> 00:26:01,259 Das, was ich sagen möchte, ist, 492 00:26:01,259 --> 00:26:05,501 dass ihr wahrscheinlich bereits die ShEx-Schnittstelle gesehen habt, 493 00:26:05,501 --> 00:26:07,601 die auf Wikidata zugeschnitten ist. 494 00:26:07,602 --> 00:26:12,930 Das ist effektiv vereinfacht und speziell auf Wikidata zugeschnitten 495 00:26:12,930 --> 00:26:15,767 da die Generische mehr Funktionen hat, 496 00:26:15,767 --> 00:26:18,257 sich aber herausstellte - ich dachte, ich sollte es erwähnen - 497 00:26:18,257 --> 00:26:20,238 weil eine dieser Funktionen besonders nützlich 498 00:26:20,238 --> 00:26:23,201 zum Debuggen von Wikidata-Schemas ist. 499 00:26:23,201 --> 00:26:28,984 Das heißt, wenn ihr hingeht und den Slurp-Modus wählt, 500 00:26:28,984 --> 00:26:31,504 was es tut, ist, es sagt, während ich validiere, 501 00:26:31,504 --> 00:26:34,504 möchte ich alle Tripel herausziehen und das bedeutet, 502 00:26:34,504 --> 00:26:36,274 wenn ich ein paar Ausfälle bekomme, 503 00:26:36,275 --> 00:26:39,676 kann ich durchgehen und anfangen, diese Fehler zu betrachten und zu sagen: 504 00:26:39,676 --> 00:26:41,980 Okay, was sind die Dreiergruppen, die hier drin sind - 505 00:26:41,980 --> 00:26:44,057 Entschuldigung, die Dreiergruppen sind da unten, 506 00:26:44,057 --> 00:26:46,201 dies ist nur ein Protokoll dessen, was passiert ist - 507 00:26:46,277 --> 00:26:49,250 und dann könnt ihr einfach da sitzen und in Echtzeit damit experimentieren, 508 00:26:49,250 --> 00:26:51,416 als würde man mit etwas spielen und es verändert sich. 509 00:26:51,416 --> 00:26:54,270 Es ist also eine schnellere Variante, um all diese Dinge zu erledigen. 510 00:26:55,231 --> 00:26:56,481 Dies ist ein ShExC-Formular. 511 00:26:56,482 --> 00:26:59,455 Dies ist etwas, was Joachim vorgeschlagen hatte, 512 00:27:00,035 --> 00:27:04,631 das nützlich sein könnte, um Wikidata-Dokumente zu füllen 513 00:27:04,631 --> 00:27:07,338 basierend auf einer Shape Expression für dieses Dokument. 514 00:27:08,095 --> 00:27:11,681 Dies ist nicht auf Wikidata zugeschnitten. 515 00:27:11,682 --> 00:27:14,041 Dies soll jedoch nur heißen, dass ihr ein Schema haben könnt 516 00:27:14,041 --> 00:27:15,922 und einige Anmerkungen, um genau zu sagen, 517 00:27:15,922 --> 00:27:17,623 wie ich das Schema gerendert haben möchte, 518 00:27:17,623 --> 00:27:19,319 und dann baut es einfach ein Formular auf. 519 00:27:19,319 --> 00:27:21,571 Wenn ihr Daten habt, kann es das Formular ausfüllen. 520 00:27:24,517 --> 00:27:26,164 PyShEx [unverständlich]. 521 00:27:28,025 --> 00:27:31,080 (Jose) Ich denke, das ist das Letzte. 522 00:27:31,821 --> 00:27:34,080 Ja, das letzte ist PyShEx. 523 00:27:34,675 --> 00:27:38,151 PyShEx ist eine Python-Implementierung von Shape Expressions. 524 00:27:39,193 --> 00:27:41,386 Ihr könnt das auch mit Jupyter Notebooks ausprobieren, 525 00:27:41,386 --> 00:27:42,680 wenn ihr so etwas wollt. 526 00:27:42,680 --> 00:27:44,432 Oay, das ist alles dazu. 527 00:27:52,916 --> 00:27:56,086 (Andra) Ich werde also über ein bestimmtes Projekt sprechen, 528 00:27:56,086 --> 00:27:58,244 an dem ich beteiligt bin, GenWiki genannt, 529 00:27:58,244 --> 00:28:04,347 und wo wir uns auch mit Qualitätsfragen beschäftigen. 530 00:28:04,347 --> 00:28:06,684 Aber bevor wir auf die Qualität eingehen, 531 00:28:06,685 --> 00:28:09,359 vielleicht eine kurze Einführung darüber, was GenWiki ist, 532 00:28:09,855 --> 00:28:13,515 und wir haben gerade einen Vordruck einer Arbeit veröffentlicht, 533 00:28:13,515 --> 00:28:18,160 die wir kürzlich geschrieben haben, welche die Details des Projekts erklärt. 534 00:28:19,821 --> 00:28:22,586 Ich sehe Leute fotografieren, aber im Grunde genommen, 535 00:28:22,586 --> 00:28:26,032 was Gene Wiki macht, es versucht, biomedizinische Daten, 536 00:28:26,032 --> 00:28:28,198 öffentliche Daten in Wikidata hinein zu bekommen 537 00:28:28,198 --> 00:28:32,280 und wir folgen einem bestimmten Muster, um diese Daten in Wikidata zu bekommen. 538 00:28:33,130 --> 00:28:36,809 Also, wenn wir ein neues Repository oder einen neuen Datensatz haben, 539 00:28:36,810 --> 00:28:39,330 der berechtigt ist, in Wikidata aufgenommen zu werden, 540 00:28:39,330 --> 00:28:41,523 ist der erste Schritt das Engagement der Gemeinschaft. 541 00:28:41,523 --> 00:28:43,784 Für eine Wikidata-Community ist dies nicht erforderlich, 542 00:28:43,785 --> 00:28:46,120 aber für eine lokale Forschungsgemeinschaft, 543 00:28:46,120 --> 00:28:50,285 und wir treffen uns persönlich oder online oder auf irgend einer Plattform 544 00:28:50,286 --> 00:28:52,881 und versuchen, ein Datenmodell zu entwickeln, 545 00:28:52,882 --> 00:28:56,197 das ihre Daten mit dem Wikidata-Modell verbindet. 546 00:28:56,197 --> 00:28:58,265 Also hier habe ich ein Bild von einem Workshop, 547 00:28:58,265 --> 00:29:00,115 der letztes Jahr hier stattgefunden hat. 548 00:29:00,115 --> 00:29:02,663 Wir haben dort versucht, einen bestimmten Datensatz anzuschauen 549 00:29:02,663 --> 00:29:05,280 und Sie sehen eine Menge Diskussionen, 550 00:29:05,281 --> 00:29:09,780 dann die Ausrichtung an schema.org und andere vorhandenen Ontologien. 551 00:29:10,320 --> 00:29:12,544 Und dann, am Ende des ersten Schritts, 552 00:29:12,544 --> 00:29:15,379 haben wir eine Whiteboard-Zeichnung des Schemas, 553 00:29:15,379 --> 00:29:17,396 das wir in Wikidata implementieren wollen. 554 00:29:17,396 --> 00:29:20,270 Was Sie dort sehen können, ziemlich offensichtlich, 555 00:29:20,270 --> 00:29:21,766 es ist im Hintergrund. 556 00:29:21,767 --> 00:29:25,240 Wir können heute sogar einige Schemata in diesem Panel erstellen. 557 00:29:26,480 --> 00:29:28,399 Sobald wir das Schema eingerichtet haben, 558 00:29:28,400 --> 00:29:31,432 versuchen wir als Nächstes, das Schema maschinenlesbar zu machen, 559 00:29:32,358 --> 00:29:34,522 weil man umsetzbare Modelle braucht, 560 00:29:34,522 --> 00:29:37,013 um die Daten zu überbrücken, die man einbringt 561 00:29:37,013 --> 00:29:39,690 aus jeder biomedizinischen Datenbank nach Wikidata. 562 00:29:40,393 --> 00:29:45,182 Und hier wenden wir Shape Expressions an. 563 00:29:46,471 --> 00:29:49,728 Und das verwenden wir, 564 00:29:49,728 --> 00:29:52,518 weil man mit Shape Expressions testen kann, 565 00:29:52,518 --> 00:29:57,040 ob der Datensatz tatsächlich... nein, man kann zuerst sehen, 566 00:29:57,041 --> 00:30:01,782 ob bereits vorhandene Daten in Wikidata dem gleichen Datenmodell folgen, 567 00:30:01,783 --> 00:30:04,718 das im vorherigen Prozess erreicht wurde. 568 00:30:04,719 --> 00:30:06,851 Dann können wir mit den Shape Expressions überprüfen: 569 00:30:06,851 --> 00:30:09,524 Okay, die Daten, die zu diesem Thema in Wikidata sind, 570 00:30:09,524 --> 00:30:12,259 müssen bereinigt werden oder wir müssen unser Modell 571 00:30:12,259 --> 00:30:15,013 an das Wikidata-Modell anpassen oder umgekehrt. 572 00:30:15,937 --> 00:30:19,867 Sobald das erledigt ist und wir anfangen, Bots zu schreiben, 573 00:30:20,670 --> 00:30:23,801 und die Bots sähen regelmäßig die Informationen, 574 00:30:23,802 --> 00:30:27,308 die in den primären Quellen ist, nach Wikidata. 575 00:30:27,706 --> 00:30:29,303 Und wenn die Bots fertig sind, 576 00:30:29,304 --> 00:30:33,001 schreiben wir diese Bots mit einer Plattform namens... 577 00:30:33,002 --> 00:30:36,201 mit einer Python-Bibliothek namens Wikidata Integrator. 578 00:30:36,202 --> 00:30:38,167 Diese kam aus unserem Projekt. 579 00:30:38,698 --> 00:30:42,921 Und sobald wir unsere Bots haben, benutzen wir eine Plattform namens Jenkins 580 00:30:42,921 --> 00:30:44,540 für die kontinuierliche integration. 581 00:30:44,540 --> 00:30:45,762 Und mit Jenkins 582 00:30:45,762 --> 00:30:51,160 aktualisieren wir ständig die primären Quellen mit Wikidata. 583 00:30:52,178 --> 00:30:55,889 Und dies ist ein Diagramm für die Arbeit, die ich zuvor erwähnt habe. 584 00:30:55,890 --> 00:30:57,411 Das ist unsere aktuelle Landschaft. 585 00:30:57,411 --> 00:31:02,059 Also jede orangefarbene Kiste da drauf ist eine primäre Ressource für Medikamente, 586 00:31:02,060 --> 00:31:07,827 Proteine, Gene, Krankheiten, chemische Verbindungen mit Wechselwirkung, 587 00:31:07,827 --> 00:31:10,870 und dieses Modell ist zu klein, um es jetzt zu lesen. 588 00:31:10,870 --> 00:31:14,510 Aber das ist die Datenbank, die Quellen, 589 00:31:14,770 --> 00:31:17,473 die wir in Wikidata verwalten 590 00:31:17,473 --> 00:31:20,475 und überbrücken zu den Primärquellen. 591 00:31:20,475 --> 00:31:22,355 Hier ist so ein Workflow. 592 00:31:22,870 --> 00:31:25,312 Einer unserer Partner ist die Disease Ontology. 593 00:31:25,312 --> 00:31:27,672 Die Disease Ontology ist eine CC0 Ontologie 594 00:31:28,179 --> 00:31:31,990 und die CC0 Ontologie hat einen eigenen Kurationszyklus 595 00:31:32,756 --> 00:31:35,736 und sie aktualisieren nur kontinuierlich die Disease Ontology, 596 00:31:35,737 --> 00:31:37,976 um den Krankheitsbereich 597 00:31:37,976 --> 00:31:40,336 oder die Interpretation von Krankheiten zu reflektieren. 598 00:31:40,336 --> 00:31:44,361 Und es gibt den Wikidata-Kurationszyklus ebenso für Krankheiten, 599 00:31:44,362 --> 00:31:48,266 wo die Wikidata-Community ständig überwacht, 600 00:31:48,266 --> 00:31:50,110 was auf Wikidata los ist. 601 00:31:50,226 --> 00:31:51,741 Und dann haben wir zwei Rollen, 602 00:31:51,741 --> 00:31:55,477 wir nennen sie umgangssprachlich den Gatekeeper-Kurator, 603 00:31:56,009 --> 00:31:59,561 und das waren ich und ein Kollege vor fünf Jahren, 604 00:31:59,562 --> 00:32:03,414 wo wir nur an unseren Computern saßen und Wikipedia und Wikidata überwachten 605 00:32:03,415 --> 00:32:08,451 und wenn es ein Problem gab, wurde es der primären Community gemeldet, 606 00:32:08,451 --> 00:32:11,765 die primäre Ressourcen, sie betrachteten die Implementierung und beschlossen: 607 00:32:11,765 --> 00:32:14,240 Okay, vertrauen wir dem Input aus Wikidata? 608 00:32:14,850 --> 00:32:18,555 Ja - dann wird erwägt, geht es in den Kreislauf, 609 00:32:18,555 --> 00:32:22,686 und die nächste Iteration ist Teil der Disease Ontology 610 00:32:22,687 --> 00:32:25,411 und wird in Wikidata zurückgespeist. 611 00:32:27,419 --> 00:32:31,282 Wir machen dasselbe für WikiPathways. 612 00:32:31,282 --> 00:32:36,601 WikiPathways ist ein von MediaWiki inspiriertes Pfad-Repository. 613 00:32:36,602 --> 00:32:39,943 Dieselbe Geschichte, es gibt bereits verschiedene Pfad-Ressourcen 614 00:32:39,943 --> 00:32:41,258 auf Wikidata. 615 00:32:41,258 --> 00:32:44,713 Möglicherweise gibt es Konflikte zwischen diesen Pfadressourcen 616 00:32:44,722 --> 00:32:46,701 und diese Konflikte werden zurückgemeldet 617 00:32:46,702 --> 00:32:49,521 von den Gatekeeper-Kuratoren zu dieser Community, 618 00:32:49,522 --> 00:32:53,715 und man pflegt die einzelnen Kurationszyklen. 619 00:32:53,715 --> 00:32:57,068 Aber wenn Sie sich an den vorherigen Zyklus erinnern, 620 00:32:57,069 --> 00:33:03,041 hier erwähnte ich nur zwei Zyklen, zwei Ressourcen. 621 00:33:03,566 --> 00:33:06,090 Das müssen wir für jede einzelne Ressource tun, die wir haben, 622 00:33:06,090 --> 00:33:08,062 und wir müssen alles, was vor sich geht, verwalten, 623 00:33:08,062 --> 00:33:09,335 denn wenn ich Kuration sage, 624 00:33:09,335 --> 00:33:11,691 meine ich wirklich, auf die Wikipedia-Top-Seiten zu gehen, 625 00:33:11,691 --> 00:33:14,746 auf die Wikidata-Top-Seiten zu gehen und das auszuprobieren. 626 00:33:14,746 --> 00:33:19,316 Das skaliert nicht mit den beiden Gatekeeper-Kuratoren, die wir hatten. 627 00:33:19,860 --> 00:33:22,777 Also, als ich 2016 an einer Konferenz teilgenommen habe, 628 00:33:22,778 --> 00:33:26,933 wo Eric einen Vortrag über Shape Expressions hielt, 629 00:33:26,934 --> 00:33:29,277 sprang ich auf den Zug und sagte: Okay, 630 00:33:29,278 --> 00:33:32,010 mit Hilfe von Shape Expressions können wir feststellen, 631 00:33:32,010 --> 00:33:34,240 welche Unterschiede in Wikidata bestehen 632 00:33:34,240 --> 00:33:38,320 und so können die Gatekeeper 633 00:33:38,320 --> 00:33:41,260 effizienter berichten in dem Log. 634 00:33:42,275 --> 00:33:46,019 Dieses Jahr war ich von der Schemaentität begeistert, 635 00:33:46,020 --> 00:33:49,015 denn jetzt können wir diese Entitätsschemata 636 00:33:49,015 --> 00:33:50,765 auf Wikidata speichern, 637 00:33:50,765 --> 00:33:53,336 auf Wikidata selbst, während es zuvor auf GitHub war. 638 00:33:53,860 --> 00:33:56,815 Und dies integriert mit der Wikidata-Oberfläche, 639 00:33:56,816 --> 00:33:59,350 man hat also Dinge wie Dokumentendiskussionen, 640 00:33:59,350 --> 00:34:01,020 man hat aber auch Revisionen. 641 00:34:01,020 --> 00:34:05,261 Ihr könnt also die Top-Seiten und die Revisionen in Wikidata nutzen, 642 00:34:05,262 --> 00:34:10,255 um darüber zu diskutieren, 643 00:34:10,255 --> 00:34:13,988 was in Wikidata ist und was in den primären Ressourcen. 644 00:34:14,966 --> 00:34:19,686 Also das, was Eric gerade vorgestellt hat, ist schon ein ziemlicher Vorteil. 645 00:34:19,686 --> 00:34:24,335 Also hier haben wir eine Shape Expression für das menschliche Gen erfunden 646 00:34:24,336 --> 00:34:30,225 und dann ließen wir es durch ShEx laufen und wie Sie sehen können, 647 00:34:30,225 --> 00:34:32,428 wir haben gerade erst eines. 648 00:34:32,429 --> 00:34:34,641 Es gibt ein Problem, das überwacht werden muss, 649 00:34:34,642 --> 00:34:37,316 es gibt ein Element, das nicht in dieses Schema passt, 650 00:34:37,316 --> 00:34:40,738 und dann können Sie bereits Schemaentitäten erstellen 651 00:34:40,738 --> 00:34:43,749 und Kurationsberichte basierend auf... 652 00:34:43,749 --> 00:34:46,240 und das an die verschiedenen Kurationsberichte senden. 653 00:34:48,058 --> 00:34:52,788 Aber die ShEx.js ist eine integrierte Schnittstelle 654 00:34:52,788 --> 00:34:55,860 und hier noch mal eine Folie zurück, mache ich nur zehn, 655 00:34:55,860 --> 00:35:00,362 aber wir haben Zehntausende und das skaliert wieder nicht. 656 00:35:00,362 --> 00:35:04,654 Der Wikidata Integrator unterstützt jetzt auch ShEx 657 00:35:04,998 --> 00:35:07,431 und dann können wir einfach Item-Loops verwenden, 658 00:35:07,431 --> 00:35:11,494 wo wir ja-nein, ja-nein, wahr-falsch, wahr-falsch sagen. 659 00:35:11,495 --> 00:35:12,616 Also nochmal, 660 00:35:13,065 --> 00:35:16,514 eine Steigerung der Effizienz beim Arbeiten mit den Berichten. 661 00:35:17,256 --> 00:35:22,662 Aber jetzt, in letzter Zeit, baut das auf dem Wikidata Query Service auf 662 00:35:22,961 --> 00:35:24,998 und wir haben das etwas gedrosselt, 663 00:35:24,999 --> 00:35:26,560 also nochmal, das skaliert nicht. 664 00:35:26,561 --> 00:35:28,522 Es ist also immer noch ein fortlaufender Prozess, 665 00:35:28,522 --> 00:35:31,532 wie man mit Modellen auf Wikidata umgeht. 666 00:35:32,012 --> 00:35:36,522 Und ShEx ist also nicht nur furchteinflössend, 667 00:35:36,522 --> 00:35:40,446 aber auch das Ausmaß ist einfach zu groß, um damit umzugehen. 668 00:35:41,068 --> 00:35:44,792 Also habe ich angefangen zu arbeiten, dies ist mein erster Proof of Concept 669 00:35:44,792 --> 00:35:46,192 oder meine erste Übung, 670 00:35:46,192 --> 00:35:48,022 wo ich ein Werkzeug namens yED verwendet habe 671 00:35:48,184 --> 00:35:52,280 und ich fing an, diese Shape Expressions zu zeichnen und weil... 672 00:35:52,490 --> 00:35:56,388 und dann dieses Schema neu zu generieren 673 00:35:56,388 --> 00:36:01,279 in dieses Schema in das JSON-Format der Shape-Ausdrücke, 674 00:36:01,280 --> 00:36:04,520 damit sich das einem Publikum öffnet, 675 00:36:04,521 --> 00:36:07,432 das von den Shape Expressions-Sprachen eingeschüchtert wird. 676 00:36:07,961 --> 00:36:12,308 Tatsächlich gibt es jedoch ein Problem mit diesen visuellen Beschreibungen, 677 00:36:12,309 --> 00:36:13,990 denn dies ist auch ein Schema, 678 00:36:13,990 --> 00:36:18,230 das tatsächlich von jemandem in yEd gezeichnet wurde. 679 00:36:18,230 --> 00:36:23,838 Und hier ist ein anderes, das schön ist. 680 00:36:23,838 --> 00:36:26,001 Ich hätte das gerne an meiner Wand, 681 00:36:26,001 --> 00:36:29,704 aber es ist immer noch nicht interoperabel. 682 00:36:30,740 --> 00:36:32,263 Ich möchte meinen Vortrag beenden... 683 00:36:32,263 --> 00:36:33,572 und es war das erste Mal, 684 00:36:33,572 --> 00:36:35,622 dass ich diese Folie gestohlen, gebraucht habe. 685 00:36:35,622 --> 00:36:37,728 Es ist eine Ehre, ihn im Publikum zu haben 686 00:36:37,728 --> 00:36:39,423 und ich mag das wirklich: 687 00:36:39,424 --> 00:36:42,362 "Die Leute denken, RDF ist eine Qual, weil es kompliziert ist. 688 00:36:42,362 --> 00:36:44,492 Die Wahrheit ist noch schlimmer, es ist so einfach, 689 00:36:45,581 --> 00:36:48,133 weil Sie mit realen Datenproblemen arbeiten müssen, 690 00:36:48,134 --> 00:36:50,031 die schrecklich kompliziert sind. 691 00:36:50,031 --> 00:36:51,601 Während Sie RDF vermeiden können, 692 00:36:51,601 --> 00:36:53,621 ist es schwieriger, komplizierte Daten 693 00:36:53,621 --> 00:36:55,761 und komplizierte Computerprobleme zu vermeiden." 694 00:36:55,761 --> 00:36:59,535 Hier geht es um RDF, aber ich denke, das gilt auch für das Modellieren. 695 00:37:00,112 --> 00:37:02,769 Mein Diskussionspunkt ist also, ob wir wirklich... 696 00:37:03,387 --> 00:37:05,882 Wie bringen wir das Modellieren voran? 697 00:37:05,882 --> 00:37:10,826 Sollen wir über ShEx oder visuelle Modelle sprechen oder... 698 00:37:11,426 --> 00:37:13,271 Wie machen wir weiter? 699 00:37:13,474 --> 00:37:14,840 Vielen Dank für Ihre Zeit. 700 00:37:19,751 --> 00:37:21,188 (Lydia) Vielen Dank. 701 00:37:21,692 --> 00:37:24,001 Würdest du nach vorne kommen, 702 00:37:24,002 --> 00:37:27,824 damit wir mit den Fragen aus dem Publikum anfangen können? 703 00:37:28,610 --> 00:37:30,203 Gibt es Fragen? 704 00:37:31,507 --> 00:37:32,507 Ja. 705 00:37:34,263 --> 00:37:37,028 Und ich denke, wegen der Kamera müssen wir... 706 00:37:38,835 --> 00:37:40,968 (Lydia) Ja. 707 00:37:43,094 --> 00:37:46,273 (Zuschauer1) Also eine Frage an Cristina, denke ich. 708 00:37:47,366 --> 00:37:51,641 Also du hast im Wortlaut den Begriff "Informationsgewinn" erwähnt 709 00:37:51,642 --> 00:37:53,529 bei der Verknüpfung mit anderen Systemen. 710 00:37:53,529 --> 00:37:55,959 Es gibt das informationstheoretische Maß Informationsgewinn, 711 00:37:55,959 --> 00:37:58,171 welches Statistik und Wahrscheinlichkeit verwendet. 712 00:37:58,192 --> 00:38:01,736 Hast du das... ich meine, hast du genau dieses Maß gemeint, 713 00:38:01,736 --> 00:38:04,173 den Informationsgewinn aus der Wahrscheinlichkeitstheorie, 714 00:38:04,174 --> 00:38:05,530 aus der Informationstheorie, 715 00:38:05,530 --> 00:38:07,228 oder verwendest du einfach dieses Konzept, 716 00:38:07,228 --> 00:38:09,258 um den Informationsgewinn irgendwie zu messen? 717 00:38:09,258 --> 00:38:13,016 Nein, also wir haben Maßnahmen definiert und umgesetzt, 718 00:38:13,695 --> 00:38:17,272 die die Shannon-Entropie verwenden, 719 00:38:17,682 --> 00:38:20,050 auf dies bezieht sich das. 720 00:38:20,050 --> 00:38:22,656 Ich wollte nicht auf die Details der konkreten Formeln eingehen... 721 00:38:22,656 --> 00:38:24,732 (Zuschauer1) Nein, klar, das war meine Frage. 722 00:38:24,732 --> 00:38:26,487 - (Cristina) Aber ja. - (Zuschauer1) Danke. 723 00:38:32,761 --> 00:38:35,047 (Zuschauer2) Ich habe eher einen Kommentar als eine Frage. 724 00:38:35,048 --> 00:38:36,336 (Lydia) Los geht es. 725 00:38:36,336 --> 00:38:39,840 (Zuschauer2) Es gab also viel Fokus auf der Item-Ebene 726 00:38:39,840 --> 00:38:42,547 bezüglich der Qualität und Vollständigkeit. 727 00:38:42,547 --> 00:38:44,514 Eines der Dinge, die mich beschäftigen, ist, 728 00:38:44,514 --> 00:38:47,279 dass wir nicht dasselbe auf Hierarchien anwenden 729 00:38:47,279 --> 00:38:49,521 und ich glaube, das wird uns ein Problem bereiten 730 00:38:49,521 --> 00:38:51,622 dass unsere Hierarchie oft nicht gut ist. 731 00:38:51,622 --> 00:38:53,713 Wir denken, dass dies ein echtes Problem wird 732 00:38:53,713 --> 00:38:55,974 beim Durchsuchen von Commons und anderen Dingen. 733 00:38:56,771 --> 00:38:58,962 Eine der Fähigkeiten, die wir realisieren können, ist, 734 00:38:58,962 --> 00:39:00,632 extern zu importieren -- 735 00:39:00,632 --> 00:39:04,842 Die Art und Weise, wie externe Thesauren ihre Hierarchien strukturieren 736 00:39:04,842 --> 00:39:10,291 mit der P4900 Qualifikation für Oberbegriffe. 737 00:39:11,037 --> 00:39:15,997 Aber was ich für sehr hilfreich halte, wären viel bessere Werkzeuge dafür. 738 00:39:15,997 --> 00:39:21,212 Damit kann man die Hierarchie eines externen Thesaurus importieren 739 00:39:21,212 --> 00:39:24,111 und das auf unsere Wikidata-Items abbilden. 740 00:39:24,111 --> 00:39:27,989 Sobald es mit diesen P4900-Qualifizierern zusammen funktioniert, 741 00:39:27,989 --> 00:39:31,494 kann man über SPARQL ziemlich gute Abfragen durchführen, 742 00:39:32,490 --> 00:39:37,534 um zu sehen, wo unsere Hierarchie von dieser externen Hierarchie abweicht. 743 00:39:37,534 --> 00:39:41,346 Zum Beispiel, Paula Morma, User PKM, wie ihr vielleicht wisst, 744 00:39:41,346 --> 00:39:43,510 hat viel über Mode ausgearbeitet. 745 00:39:43,510 --> 00:39:46,244 Das nutzen wir also, um die Hierarchie 746 00:39:46,244 --> 00:39:50,524 des Europeana Fashion Thesaurus zu übernehmen 747 00:39:50,524 --> 00:39:53,812 und die Getty AAT Mode-Thesaurus-Hierarchie, 748 00:39:53,812 --> 00:39:55,727 um dann zu sehen, wo die Lücken 749 00:39:55,727 --> 00:39:57,957 in unseren höhergestuften Items waren, 750 00:39:57,957 --> 00:40:01,281 was ein echtes Problem für uns ist, weil das oft Dinge sind, 751 00:40:01,281 --> 00:40:04,355 die nur als Seiten zur Disambiguierung auf Wikipedia existieren, 752 00:40:04,356 --> 00:40:09,270 Es fehlen also viele übergeordnete Elemente in unseren Hierarchien 753 00:40:09,271 --> 00:40:12,780 und das ist etwas, das wir in Bezug auf Qualität und Vollständigkeit 754 00:40:12,780 --> 00:40:14,480 ansprechen müssen. 755 00:40:14,480 --> 00:40:16,086 Aber was wirklich helfen würde, 756 00:40:16,643 --> 00:40:19,619 wäre ein besseres Werkzeug als der Dschungel der Pull-Skripte, 757 00:40:19,619 --> 00:40:20,992 die ich geschrieben habe. 758 00:40:20,992 --> 00:40:26,280 Wenn jemand das in ein PAWS-Notizbuch in Python schreiben könnte, 759 00:40:26,561 --> 00:40:29,731 um einen externen Thesaurus verwenden zu können, 760 00:40:29,731 --> 00:40:31,973 dessen Hierarchie zu verwenden, 761 00:40:31,973 --> 00:40:34,759 die als verknüpfte Daten verfügbar sein können oder nicht, 762 00:40:35,379 --> 00:40:40,580 um diese dann in Schnellanweisungen umzusetzen und P4900-Werte einzugeben. 763 00:40:41,005 --> 00:40:42,165 Und später dann, 764 00:40:42,166 --> 00:40:44,527 wenn unsere Darstellung vervollständigt wird, 765 00:40:44,528 --> 00:40:49,691 diese P4900s zu aktualisieren, denn sobald unsere Darstellung veraltet, 766 00:40:49,691 --> 00:40:51,447 dichter wird, 767 00:40:51,447 --> 00:40:55,377 müssen die Werte dieser Qualifikationsmerkmale geändert werden, 768 00:40:56,230 --> 00:40:58,296 um darzustellen, dass wir mehr aus ihrer Hierarchie 769 00:40:58,296 --> 00:40:59,866 in unserem System implementiert haben. 770 00:40:59,866 --> 00:41:03,728 Wenn jemand das tun könnte, wäre das sehr hilfreich, denke ich, 771 00:41:03,728 --> 00:41:07,121 und wir müssen uns auch andere Ansätze ansehen, 772 00:41:07,122 --> 00:41:10,762 um die Qualität und Vollständigkeit auf Hierarchieebene zu verbessern, 773 00:41:10,763 --> 00:41:12,503 nicht nur auf der Artikelebene. 774 00:41:13,308 --> 00:41:14,958 (Andra) Kann ich das ergänzen? 775 00:41:16,362 --> 00:41:19,901 Ja, und das machen wir tatsächlich 776 00:41:19,911 --> 00:41:22,472 und meine Empfehlung ist, die Shape Expression zu betrachten, 777 00:41:22,472 --> 00:41:25,479 die Finn gemacht hat mit den lexikalischen Daten, 778 00:41:25,479 --> 00:41:27,440 in denen er Shape Expressions erstellt 779 00:41:27,440 --> 00:41:29,240 und dann auf Autorenausdrücken aufbaut, 780 00:41:29,240 --> 00:41:31,649 so dass wir also dieses Konzept der verknüpften Formausdrücke 781 00:41:31,649 --> 00:41:32,739 in Wikidata haben. 782 00:41:32,739 --> 00:41:35,065 Insbesondere der Anwendungsfall, wenn ich richtig verstehe, 783 00:41:35,065 --> 00:41:37,183 entspricht genau dem, was wir in Gene Wiki machen. 784 00:41:37,184 --> 00:41:40,841 Man hat also die Disease Ontology, die in Wikidata importiert ist, 785 00:41:40,842 --> 00:41:44,681 dann kommen die Krankheitsdaten und wir wenden die Shape Expressions an, 786 00:41:44,682 --> 00:41:47,247 um zu sehen, ob das zu diesem Thesaurus passt. 787 00:41:47,248 --> 00:41:48,770 Und es gibt andere Thesauren 788 00:41:48,770 --> 00:41:50,920 oder andere Ontologien für kontrolliertes Vokabular, 789 00:41:50,920 --> 00:41:52,559 das noch in Wikidata rein muss 790 00:41:52,559 --> 00:41:55,261 und genau deshalb sind Shape Expressions so interessant, 791 00:41:55,261 --> 00:41:57,893 weil sie für die Disease Ontology möglich sind, 792 00:41:57,893 --> 00:41:59,614 man kann Shape Expressions für MeSH haben. 793 00:41:59,614 --> 00:42:01,761 Man kann sagen, ich möchte die Qualität überprüfen, 794 00:42:01,762 --> 00:42:06,297 weil man auch in Wikidata den Kontext bei einem kontrollierten Vokabular hat, 795 00:42:06,297 --> 00:42:09,503 dass man sagt, die Qualität entspricht dem, 796 00:42:09,503 --> 00:42:11,792 aber die Community stimmt euch nicht zu. 797 00:42:11,792 --> 00:42:13,921 Das Werkzeug ist also in der Tat vorhanden, 798 00:42:13,921 --> 00:42:16,762 aber jetzt müssen diese Modelle erstellt und angewendet werden 799 00:42:16,762 --> 00:42:18,513 auf die verschiedenen Anwendungsfälle. 800 00:42:18,811 --> 00:42:20,921 (Zuschauer2) Die Shape Expressions sind nützlich, 801 00:42:20,922 --> 00:42:25,765 sobald ihr die externe Ontologie in Wikidata abgebildet habt, 802 00:42:25,765 --> 00:42:29,549 aber mein Problem ist, dass dieser Zeitpunkt erst kommt. 803 00:42:29,549 --> 00:42:32,481 Momentan legt es nur offen, wie viel von der externen Ontologie 804 00:42:32,481 --> 00:42:34,882 noch nicht in Wikidata enthalten ist 805 00:42:34,882 --> 00:42:36,256 und wo die Lücken sind 806 00:42:36,257 --> 00:42:40,510 und dies ist, wo ich denke, dass viel robustere Werkzeuge, 807 00:42:40,510 --> 00:42:44,058 mit denen ihr erkennen könnt, was aus externen Ontologien fehlt, 808 00:42:44,058 --> 00:42:45,609 sehr hilfreich wären. 809 00:42:47,488 --> 00:42:48,952 Das größte Problem dort 810 00:42:48,952 --> 00:42:51,517 sind nicht so sehr die Werkzeuge, sondern mehr die Lizenzierung. 811 00:42:51,803 --> 00:42:55,249 Also das Einspielen der Ontologien in Wikidata ist ein Kinderspiel, 812 00:42:55,250 --> 00:42:59,295 aber die meisten Ontologien haben, wie kann ich das höflich sagen, 813 00:42:59,965 --> 00:43:03,424 restriktive Lizenzierung, daher sind diese nicht mit Wikidata kompatibel. 814 00:43:03,918 --> 00:43:06,961 (Zuschauer2) Es gibt eine große Anzahl von Thesauren im öffentlichen Sektor 815 00:43:06,961 --> 00:43:08,339 in kulturellen Bereichen. 816 00:43:08,339 --> 00:43:10,851 - (Andra) Dann müssen wir reden. - (Zuschauer2) Kein Problem. 817 00:43:10,852 --> 00:43:12,384 (Andra) Darüber müssen wir reden. 818 00:43:13,624 --> 00:43:17,522 (Zuschauer3) Der Kommentar, den ich machen möchte, 819 00:43:17,522 --> 00:43:19,402 ist eigentlich eine Antwort auf James. 820 00:43:19,402 --> 00:43:22,401 Also die Sache ist die, dass Hierarchien Graphen machen 821 00:43:22,374 --> 00:43:24,041 und wenn du ... 822 00:43:24,579 --> 00:43:27,759 Ich möchte im Grunde genommen über ein bekanntes Problem 823 00:43:27,759 --> 00:43:30,729 in Hierarchien sprechen, das sind zirkuläre Hierarchien, 824 00:43:30,821 --> 00:43:33,796 die auf sich selbst zurück führen, wenn es ein Problem gibt, 825 00:43:33,796 --> 00:43:35,992 das sollte man nicht in Hierarchien haben. 826 00:43:37,022 --> 00:43:41,295 Witzigerweise passiert dies häufig in Wikipedia-Kategorien, 827 00:43:41,295 --> 00:43:43,134 wir haben viele Kreise in Kategorien. 828 00:43:43,898 --> 00:43:46,612 Aber die gute Nachricht ist, dass dies... 829 00:43:47,713 --> 00:43:50,173 Technisch gesehen ist es ein PMP-vollständiges Problem. 830 00:43:50,173 --> 00:43:52,063 Also ihr könnt dies nicht einfach finden, 831 00:43:52,063 --> 00:43:53,773 wenn ihr ein Diagramm davon baut. 832 00:43:54,473 --> 00:43:57,046 Aber es gibt viele Methoden, die entwickelt wurden, 833 00:43:57,047 --> 00:44:00,624 um Probleme in diesen Hierarchiediagrammen zu finden. 834 00:44:00,625 --> 00:44:04,520 Es gibt einen Artikel 835 00:44:04,520 --> 00:44:07,955 namens Breaking Cycles in Noisy Hierarchies 836 00:44:07,956 --> 00:44:09,742 und der wurde verwendet, 837 00:44:09,742 --> 00:44:12,672 um die Kategorisierung der englischen Wikipedia zu erleichtern. 838 00:44:12,672 --> 00:44:15,480 Ihr könnt dies einfach nehmen und diese Hierarchien 839 00:44:15,480 --> 00:44:17,142 in Wikidata anwenden, 840 00:44:17,142 --> 00:44:19,540 und dann könnt ihr Dinge finden, die problematisch sind 841 00:44:19,541 --> 00:44:22,311 und diejenigen einfach entfernen, die Probleme verursachen, 842 00:44:22,311 --> 00:44:24,667 und die eigentlichen Probleme finden. 843 00:44:24,667 --> 00:44:27,080 Das ist also nur eine Idee, nur, damit ihr... 844 00:44:28,470 --> 00:44:29,930 (Zuschauer2) Das ist schön und gut, 845 00:44:29,931 --> 00:44:31,922 aber ich denke, ihr unterschätzt die Anzahl 846 00:44:31,922 --> 00:44:35,042 der schlechten Beziehungen in den Subklassen, die wir haben. 847 00:44:35,042 --> 00:44:39,680 Das ist, wie eine Stadt in einem völlig falschen Land zu haben 848 00:44:40,250 --> 00:44:44,664 und es gibt Werkzeuge in der Geographie, um so etwas zu identifizieren, 849 00:44:44,664 --> 00:44:49,201 und wir brauchen viel bessere Werkzeuge in Hierarchien, 850 00:44:49,202 --> 00:44:53,477 um zu identifizieren, wo das Äquivalent des Items für das Land 851 00:44:53,478 --> 00:44:58,023 vollständig fehlt oder tatsächlich in einer Subklasse eingeordnet ist, 852 00:44:58,023 --> 00:45:01,774 die eine völlig andere Bedeutung hat. 853 00:45:02,804 --> 00:45:07,165 (Lydia) Ja, ich denke, du sprichst etwas an, 854 00:45:07,166 --> 00:45:10,595 das ich und mein Team immer wieder von Leuten hören, 855 00:45:10,595 --> 00:45:13,520 die unsere Daten auch ziemlich häufig wiederverwenden, ja. 856 00:45:14,752 --> 00:45:16,758 Einzelne Datenpunkte könnten großartig sein, 857 00:45:16,758 --> 00:45:20,163 aber wenn ihr euch die Ontologie und so weiter ansehen müsst, 858 00:45:20,164 --> 00:45:21,857 dann wird es sehr... 859 00:45:22,388 --> 00:45:26,657 Und ich denke, eines der großen Probleme, warum dies passiert, ist, 860 00:45:26,657 --> 00:45:30,736 dass vieles, was auf Wikidata editiert wird, auf der Grundlage 861 00:45:30,736 --> 00:45:34,544 eines einzelnen Artikels basiert, ja. 862 00:45:34,545 --> 00:45:36,635 Ihr bearbeitet dieses Element, 863 00:45:37,653 --> 00:45:41,745 ohne zu bemerken, dass die Konsequenzen von globaler Natur sind 864 00:45:41,745 --> 00:45:44,245 im Bezug auf dem Rest des Diagramms zum Beispiel. 865 00:45:44,245 --> 00:45:50,040 Und wenn jemand eine Idee hat, wie man dies sichtbarer machen kann, 866 00:45:50,041 --> 00:45:53,221 die Folgen einer einzelnen lokalen Bearbeitung, 867 00:45:54,005 --> 00:45:56,537 ich denke, das wäre es wert, das herauszufinden, 868 00:45:57,550 --> 00:46:01,583 den Leuten besser zu zeigen, was die Folge ihrer Überarbeitung ist, 869 00:46:01,584 --> 00:46:03,574 die sie in gutem Glauben vornahmen, 870 00:46:04,481 --> 00:46:05,481 was das ist. 871 00:46:06,939 --> 00:46:12,027 Whoa! OK, fangen wir an mit, ja, du, dann du, dann du, dann du. 872 00:46:12,027 --> 00:46:14,064 (Zuschauer4) Nun, nach dieser Diskussion 873 00:46:14,064 --> 00:46:18,262 will ich nur meine Zustimmung geben zu dem, was James sagte. 874 00:46:18,263 --> 00:46:22,467 Also das Gefährlichste scheint im Wesentlichen die Hierarchie zu sein, 875 00:46:22,468 --> 00:46:25,482 nicht die Hierarchie, sondern allgemein die Semantik der Beziehungen 876 00:46:25,482 --> 00:46:28,022 der Subklassen aus Wikidata. 877 00:46:28,022 --> 00:46:32,561 Ich habe vor kurzem Sprachen studiert nur für die Zwecke dieser Konferenz 878 00:46:32,562 --> 00:46:35,257 und zum Beispiel finden Sie viele Fälle, 879 00:46:35,257 --> 00:46:39,463 wo eine Sprache sowohl Teil als auch Subklasse derselben Sache ist, okay. 880 00:46:39,463 --> 00:46:43,577 Man könnte auch sagen, dass wir eine flexible Ontologie haben. 881 00:46:43,577 --> 00:46:46,256 Wikidata gibt manchmal die Freiheit, dies auszudrücken, 882 00:46:46,256 --> 00:46:48,509 zum Beispiel, weil diese Ontologie der Sprachen 883 00:46:48,509 --> 00:46:50,721 auch politisch kompliziert ist, oder? 884 00:46:50,722 --> 00:46:53,000 Es ist sogar gut, in der Lage zu sein, 885 00:46:53,000 --> 00:46:55,038 ein gewisses Maß an Unsicherheit auszudrücken. 886 00:46:55,038 --> 00:46:57,983 Aber stellen Sie sich vor, wer daraus maschinell lesen möchte. 887 00:46:57,984 --> 00:46:59,468 Das ist also wirklich problematisch. 888 00:46:59,468 --> 00:47:00,992 Andererseits glaube ich nicht, 889 00:47:00,992 --> 00:47:03,686 dass Ontologie jemals von irgendwoher importiert wurde, 890 00:47:03,687 --> 00:47:05,491 das ist etwas, was ursprünglich von uns kommt. 891 00:47:05,491 --> 00:47:08,401 Wikipedia hat seit den Anfängen seinen Nutzen daraus gezogen, meine ich. 892 00:47:08,401 --> 00:47:11,324 Also frage ich mich, diese Sache mit den Shape Expressions-Ding ist toll. 893 00:47:11,325 --> 00:47:15,575 Das Validieren und Reparieren von Wikidata-Ontologien 894 00:47:15,576 --> 00:47:18,363 durch externe Ressourcen, schöne Idee. 895 00:47:18,886 --> 00:47:23,036 Werden wir letztendlich dort enden, dass wir externen Ontologien 896 00:47:23,036 --> 00:47:25,243 in Wikidata widerspiegeln? 897 00:47:25,441 --> 00:47:28,411 Und ebenso, was sollen wir mit dem Kern unserer Ontologie machen, 898 00:47:28,411 --> 00:47:30,642 der nie von externen Ressourcen verwendet wird, 899 00:47:30,643 --> 00:47:32,147 wie können wir das beheben? 900 00:47:32,147 --> 00:47:35,276 Und ich denke wirklich, dass das ein Problem für sich sein wird. 901 00:47:35,277 --> 00:47:39,010 Darauf müssen wir uns unabhängig von der Idee konzentrieren, 902 00:47:39,010 --> 00:47:41,256 Ontologien mit etwas Externem zu validieren. 903 00:47:49,353 --> 00:47:53,379 (Zuschauer5) Okay, die Constraints und Shapes sind sehr beeindruckend, 904 00:47:53,380 --> 00:47:54,704 was man damit machen kann, 905 00:47:55,205 --> 00:47:58,481 aber das Hauptanliegen ist nicht wirklich klar hervorgetreten. 906 00:47:58,482 --> 00:48:01,229 Das liegt daran, dass wir jetzt genauer definieren können, 907 00:48:01,229 --> 00:48:03,229 was wir von den Daten erwarten. 908 00:48:03,229 --> 00:48:06,893 Vorher muss jeder seine eigenen Tools und Skripte schreiben 909 00:48:06,894 --> 00:48:10,601 und so ist es sichtbarer und wir können darüber diskutieren. 910 00:48:10,602 --> 00:48:13,641 Aber weil es nicht darum geht, was falsch oder richtig ist, 911 00:48:13,642 --> 00:48:15,730 sondern um eine Erwartung 912 00:48:15,730 --> 00:48:17,505 und ihr werdet unterschiedliche Erwartungen 913 00:48:17,505 --> 00:48:18,883 und Diskussionen darüber haben, 914 00:48:18,883 --> 00:48:20,791 wie wir Dinge in Wikidata modellieren wollen, 915 00:48:21,246 --> 00:48:23,095 und das... 916 00:48:23,096 --> 00:48:26,200 Der aktuelle Stand ist nur ein Schritt in die richtige Richtung, 917 00:48:26,200 --> 00:48:29,601 denn jetzt braucht man sehr viel technisches Know-how, 918 00:48:29,601 --> 00:48:31,141 um da reinzukommen 919 00:48:31,141 --> 00:48:35,721 und wir brauchen bessere Möglichkeiten, um diese Constraints zu visualisieren, 920 00:48:35,722 --> 00:48:38,519 vielleicht um es in natürliche Sprache umzuwandeln, 921 00:48:38,519 --> 00:48:40,759 damit es die Leute besser verstehen können, 922 00:48:40,759 --> 00:48:43,768 aber es geht weniger darum, was falsch oder richtig ist. 923 00:48:44,925 --> 00:48:45,925 (Lydia) Ja. 924 00:48:50,986 --> 00:48:54,033 (Zuschauer6) Zu den Qualitätsproblemen möchte ich einfach hinzufügen, 925 00:48:54,033 --> 00:48:57,010 viele der Probleme, auf die ich gestoßen bin, 926 00:48:58,838 --> 00:49:02,330 waren Meinungsunterschiede zwischen Instanz von und Subklasse. 927 00:49:02,331 --> 00:49:05,963 Ich würde behaupten, Fehler in diesen Situationen 928 00:49:06,032 --> 00:49:11,422 und zu versuchen, diese zu finden, ist sehr zeitaufwändig. 929 00:49:11,522 --> 00:49:13,030 Ich bin auf so etwas gestoßen wie: 930 00:49:13,030 --> 00:49:15,040 "Oh, wenn ich sehr eindrucksvolle Items finde, 931 00:49:15,040 --> 00:49:16,281 die in etwa... 932 00:49:16,281 --> 00:49:18,758 und dann verwendet man alle Subklasseninstanzen, 933 00:49:18,758 --> 00:49:21,628 um alle abgeleiteten Anweisungen davon zu finden." 934 00:49:21,628 --> 00:49:26,215 Dies ist eine sehr nützliche Methode, um nach diesen Fehlern zu suchen. 935 00:49:26,215 --> 00:49:28,236 Aber ich war neugierig, ob Shape Expressions, 936 00:49:29,841 --> 00:49:31,262 ob es ... 937 00:49:31,262 --> 00:49:33,754 ob dies als Werkzeug zur Lösung 938 00:49:33,754 --> 00:49:36,774 dieser Probleme verwendet werden kann, aber ja... 939 00:49:40,514 --> 00:49:42,794 (Zuschauer7) Wenn es einen strukturellen Footprint hat... 940 00:49:45,720 --> 00:49:47,750 Wenn es einen strukturellen Footprint hat, 941 00:49:47,750 --> 00:49:49,370 der irgendwie fälschbar ist, 942 00:49:49,370 --> 00:49:51,281 ihr seht das und könnt sagen, das ist falsch, 943 00:49:51,281 --> 00:49:52,781 ja, dann kannst du das machen. 944 00:49:52,781 --> 00:49:56,921 Aber wenn es nur darum geht, es auf reale Objekte abzubilden, 945 00:49:56,922 --> 00:49:59,252 dann wirst du einfach viel, viel Hirnschmalz brauchen. 946 00:50:05,768 --> 00:50:08,631 (Zuschauer8) Hallo, Pablo Mendes von Apple Siri Knowledge. 947 00:50:09,154 --> 00:50:10,520 Wir sind hier, um herauszufinden, 948 00:50:10,520 --> 00:50:12,770 wie wir dem Projekt und der Community helfen können, 949 00:50:12,770 --> 00:50:15,645 aber Cristina machte den Fehler, zu fragen, was wir wollen. 950 00:50:16,471 --> 00:50:20,052 Also eine Sache, dich ich gerne sehen würde: 951 00:50:20,958 --> 00:50:23,521 Es geht viel um Überprüfbarkeit, 952 00:50:23,522 --> 00:50:26,372 was eines der Grundprinzipien des Projekts in der Gemeinschaft ist, 953 00:50:27,062 --> 00:50:28,590 und Vertrauenswürdigkeit. 954 00:50:28,590 --> 00:50:32,262 Nicht jede Aussage ist gleich, einige von ihnen sind heftig umstritten, 955 00:50:32,262 --> 00:50:33,933 einige von ihnen sind leicht zu lösen, 956 00:50:33,933 --> 00:50:36,071 wie das Geburtsdatum einer Person zu überprüfen. 957 00:50:36,071 --> 00:50:37,765 Wie ihr heute in der Keynote gesehen habt, 958 00:50:37,765 --> 00:50:39,535 ist Geschlechterproblematik komplizierter. 959 00:50:40,295 --> 00:50:42,250 Könnt ihr ein bisschen darüber diskutieren, 960 00:50:42,250 --> 00:50:44,791 was ihr aus diesem Bereich der Datenqualität wisst, 961 00:50:44,791 --> 00:50:47,521 über Vertrauenswürdigkeit und Überprüfbarkeit? 962 00:50:55,442 --> 00:50:58,268 Wenn es nicht viel ist, würde ich gerne viel mehr sehen. 963 00:51:00,646 --> 00:51:01,646 (Lydia) Ja. 964 00:51:03,314 --> 00:51:06,548 Dazu haben wir offenbar nicht viel zu sagen. 965 00:51:08,024 --> 00:51:10,070 (Andra) Ich denke, wir können viel tun, 966 00:51:10,070 --> 00:51:12,400 aber ich hatte gestern ein Gespräch mit dir. 967 00:51:12,400 --> 00:51:15,774 Mein Lieblingsbeispiel, das ich gestern gelernt habe und bereits veraltet ist, 968 00:51:15,774 --> 00:51:20,281 ist, wenn Sie zu Q2 gehen, was die Erde ist, 969 00:51:20,282 --> 00:51:23,343 da gibt eine Behauptung, die besagt, die Erde sei flach. 970 00:51:24,183 --> 00:51:26,055 Und ich liebe dieses Beispiel, 971 00:51:26,056 --> 00:51:27,781 weil es da draußen eine Community gibt, 972 00:51:27,781 --> 00:51:30,417 die das behauptet und sie haben nachprüfbare Ressourcen. 973 00:51:30,418 --> 00:51:32,254 Also ich denke, es ist ein echter Fall, 974 00:51:32,255 --> 00:51:34,641 der nicht abgelehnt werden sondern in Wikidata sein sollte. 975 00:51:34,642 --> 00:51:40,185 Und ich denke, dass Shape Expressions dort wirklich hilfreich sein können, 976 00:51:40,185 --> 00:51:42,022 weil man sagen kann: Okay, 977 00:51:42,022 --> 00:51:44,646 ich bin wirklich an diesem Anwendungsfall interessiert, 978 00:51:44,646 --> 00:51:47,509 oder dies ist ein Anwendungsfall, mit dem ihr nicht einverstanden seid. 979 00:51:47,509 --> 00:51:49,308 Es kann aber auch einen Anwendungsfall geben, 980 00:51:49,308 --> 00:51:51,149 bei dem ihr sagt, okay, das interessiert mich. 981 00:51:51,149 --> 00:51:53,449 Es gibt dieses Beispiel, wo ihr sagt, ich habe Glukose. 982 00:51:53,449 --> 00:51:55,841 Und Glukose, wenn man Biologe ist, 983 00:51:55,842 --> 00:51:58,627 interessiert man sich nicht für die chemischen Restriktionen 984 00:51:58,627 --> 00:52:00,317 des Glukosemoleküls, 985 00:52:00,317 --> 00:52:03,201 Glukose ist immer gleich. 986 00:52:03,202 --> 00:52:05,973 Aber wenn man Chemiker ist, zuckt man zusammen, wenn man das hört, 987 00:52:05,973 --> 00:52:08,191 man hast etwa 200... 988 00:52:08,191 --> 00:52:10,283 Dann kann man viele Shape Expressions nehmen, 989 00:52:10,283 --> 00:52:12,621 okay, ich komme mit... aus der Sicht eines Chemikers, 990 00:52:12,621 --> 00:52:13,887 ich wende das an. 991 00:52:13,887 --> 00:52:16,691 Und dann sagst du, ich gehe von einem biologischen Anwendungsfall aus, 992 00:52:16,691 --> 00:52:18,524 ich wende diese Shape Expression an. 993 00:52:18,524 --> 00:52:20,628 Und wenn ihr dann kollaborieren möchtet, 994 00:52:20,628 --> 00:52:22,951 ja, nun, dann solltet ihr mit Eric über ShEx-Maps sprechen. 995 00:52:23,500 --> 00:52:28,725 Und so... aber diese Reise beginnt gerade erst. 996 00:52:28,725 --> 00:52:32,238 Aber ich persönlich glaube, dass dies in diesem Bereich sehr entscheidend ist. 997 00:52:34,292 --> 00:52:35,565 (Lydia) Okay. Da drüben. 998 00:52:40,597 --> 00:52:43,505 (Zuschauerin1) Ich hatte einige Ideen 999 00:52:43,505 --> 00:52:46,035 zu einigen Punkten in den Diskussionen. 1000 00:52:46,035 --> 00:52:48,772 Also werde ich versuchen, diese nicht zu vergessen... 1001 00:52:48,772 --> 00:52:50,742 Ich hatte drei Ideen, also... 1002 00:52:52,224 --> 00:52:54,981 Basierend auf dem, was James vor einer Weile gesagt hat, 1003 00:52:54,981 --> 00:52:59,001 haben wir von Anfang an ein sehr, sehr großes Problem bei Wikidata 1004 00:52:59,002 --> 00:53:01,574 bei der oberen Ontologie. 1005 00:53:02,363 --> 00:53:05,339 Darüber haben wir vor zwei Jahren bei WikidataCon gesprochen 1006 00:53:05,340 --> 00:53:07,432 und wir haben darüber bei Wikimania gesprochen. 1007 00:53:07,432 --> 00:53:09,818 Bei jedem Wikidata-Treffen 1008 00:53:09,818 --> 00:53:11,289 sprechen wir darüber, 1009 00:53:11,289 --> 00:53:15,782 weil es ein sehr großes Problem direkt vor unseren Augen ist. 1010 00:53:15,783 --> 00:53:19,738 Was eine Entität ist, was Arbeit ist, 1011 00:53:19,738 --> 00:53:23,018 was ein Genre ist, Kunst, 1012 00:53:23,018 --> 00:53:25,461 wirklich die wichtigsten Konzepte. 1013 00:53:26,195 --> 00:53:30,512 Und das ist tatsächlich ein sehr schwacher Punkt 1014 00:53:30,512 --> 00:53:33,118 im Bezug auf die globale Ontologie, 1015 00:53:33,118 --> 00:53:37,453 weil die Leute versuchen, regelmäßig aufzuräumen 1016 00:53:38,017 --> 00:53:41,047 und alles komplett kaputt gemacht haben. 1017 00:53:42,516 --> 00:53:47,505 Ich denke, einige von euch erinnern sich vielleicht an den Typ, 1018 00:53:47,505 --> 00:53:51,785 der in gutem Glauben absolut alle Städte auf der Welt durcheinander brachte. 1019 00:53:51,785 --> 00:53:54,782 Das waren keine geografischen Objekte mehr, 1020 00:53:55,198 --> 00:53:57,768 daher gibt es überall Verstöße gegen Constraints. 1021 00:53:58,720 --> 00:54:00,278 Und es passierte in gutem Glauben, 1022 00:54:00,278 --> 00:54:03,623 weil er eigentlich einen Fehler in einem Artikel korrigierte, 1023 00:54:04,020 --> 00:54:05,782 aber alles brach zusammen. 1024 00:54:06,349 --> 00:54:09,373 Und ich bin nicht sicher, wie wir das lösen können, 1025 00:54:10,216 --> 00:54:14,386 da es eigentlich keine externe Einrichtung gibt, 1026 00:54:14,386 --> 00:54:15,962 die wir verwenden könnten, 1027 00:54:15,962 --> 00:54:18,490 weil alle daran arbeiten... 1028 00:54:19,154 --> 00:54:22,041 Nun, wenn ich Datenbank für Kunst am Laufen habe, 1029 00:54:22,042 --> 00:54:24,785 werde ich nur das verwendete Label für Kunst nehmen, 1030 00:54:24,785 --> 00:54:27,742 ich kümmere mich nicht um das philosophische Konzept dessen, 1031 00:54:27,742 --> 00:54:29,362 was eine Entität ist, 1032 00:54:29,362 --> 00:54:31,201 und das ist eigentlich... 1033 00:54:31,202 --> 00:54:34,561 Ich kenne keine Datenbank, die auf diesem Niveau arbeitet, 1034 00:54:34,562 --> 00:54:36,967 aber das ist der schwächste Punkt von Wikidata. 1035 00:54:37,936 --> 00:54:40,812 Und wahrscheinlich, wenn wir über Datenqualität sprechen, 1036 00:54:40,812 --> 00:54:44,034 ist das eigentlich ein großer Teil davon, also... 1037 00:54:44,034 --> 00:54:48,569 Und ich denke, es ist dasselbe, was wir gesagt haben... 1038 00:54:48,569 --> 00:54:50,632 Oh, tut mir leid, ich wechsle das Thema 1039 00:54:51,401 --> 00:54:55,774 Aber wir haben in verschiedenen Meetings über Qualitäten gesprochen, 1040 00:54:55,774 --> 00:54:59,398 dass einige von uns eigentlich gute Modellierung machen, 1041 00:54:59,399 --> 00:55:01,240 ShEx und solche Dinge tun. 1042 00:55:01,967 --> 00:55:07,255 Die Leute sehen es nicht auf Wikidata, sie sehen ShEx nicht, 1043 00:55:07,255 --> 00:55:11,232 Sie sehen das WikiProjekt nicht auf der Diskussionsseite und manchmal 1044 00:55:11,232 --> 00:55:14,796 sehen sie nicht einmal die Diskussionsseiten von Eigenschaften, 1045 00:55:14,958 --> 00:55:19,628 die ausdrücklich angeben, a), diese Eigenschaft wird dafür verwendet. 1046 00:55:19,628 --> 00:55:23,758 Letzte Woche zum Beispiel habe ich Constraints einer Eigenschaft hinzugefügt. 1047 00:55:23,758 --> 00:55:26,324 Das Constraint wurde ausdrücklich beschrieben 1048 00:55:26,325 --> 00:55:28,690 in der Diskussion bei der Einführung der Eigenschaft. 1049 00:55:28,690 --> 00:55:33,298 Ich hatte gerade den technischen Teil zum Hinzufügen der Constraint erstellt 1050 00:55:33,298 --> 00:55:34,548 und jemanden meinte: 1051 00:55:34,548 --> 00:55:37,258 "Was! Du hast alle meine Bearbeitungen zerstört!" 1052 00:55:37,258 --> 00:55:41,542 Und die letzten zwei Jahre nutzte er die Eigenschaft auf die falsche Art. 1053 00:55:41,542 --> 00:55:44,239 Und die Eigenschaft war eigentlich sehr klar, 1054 00:55:44,239 --> 00:55:46,869 aber es gab keine Warnungen oder so etwas. 1055 00:55:46,869 --> 00:55:49,922 Und so ist es auch beim Pink Pony, dass wir bei Wikimania gesagt haben, 1056 00:55:49,922 --> 00:55:54,273 WikiProject sichtbarer zu machen oder ShEx sichtbarer zu machen, 1057 00:55:54,273 --> 00:55:56,917 aber, und das hat Cristina gesagt, 1058 00:55:56,917 --> 00:56:00,278 wir haben ein Problem mit der Sichtbarkeit 1059 00:56:00,278 --> 00:56:02,368 der vorhandenen Lösungen. 1060 00:56:02,368 --> 00:56:05,232 Und in dieser Session haben wir alle darüber geredet, 1061 00:56:05,232 --> 00:56:06,993 wie man mehr mit ShEx arbeitet 1062 00:56:06,993 --> 00:56:10,765 oder die Arbeit der Leute erleichtert, die alles korrigieren. 1063 00:56:11,488 --> 00:56:15,718 Aber wir korrigieren seit dem ersten Tag von Wikidata 1064 00:56:15,718 --> 00:56:20,741 und global verlieren wir und wir verlieren, weil, na ja, 1065 00:56:20,741 --> 00:56:22,960 wenn ich weiß, dass Namen kompliziert sind, 1066 00:56:22,961 --> 00:56:26,263 aber ich die einzige bin, die die Korrekturen macht, 1067 00:56:26,532 --> 00:56:29,671 der Typ, der den lateinischen Namen hinzugefügt hat 1068 00:56:29,672 --> 00:56:31,584 für alle chinesischen Forscher, 1069 00:56:32,088 --> 00:56:34,266 dafür brauche ich Monate um das zu korrigieren. 1070 00:56:34,266 --> 00:56:35,746 und ich kann es nicht alleine tun, 1071 00:56:35,746 --> 00:56:38,654 und er hat einen großen Batch gemacht. 1072 00:56:38,654 --> 00:56:40,241 Also brauchen wir wirklich... 1073 00:56:40,242 --> 00:56:44,158 Wir haben mehr ein Sichtbarkeitsproblem als ein Werkzeugproblem, denke ich, 1074 00:56:44,158 --> 00:56:45,873 weil wir viele Werkzeuge haben. 1075 00:56:45,873 --> 00:56:50,035 (Lydia) Richtig, aber leider habe ich ein Zeichen bekommen, 1076 00:56:50,035 --> 00:56:52,121 wir müssen das also abschließen. 1077 00:56:52,122 --> 00:56:53,493 Vielen Dank für eure Kommentare. 1078 00:56:53,493 --> 00:56:56,611 Ich hoffe, ihr werdet die Diskussion über den Tag fortführen 1079 00:56:56,611 --> 00:56:58,087 und vielen Dank für euren Beitrag.