Hallo allerseits zum Datenqualitätspanel. Datenqualität ist wichtig, weil immer mehr Menschen da draußen sich darauf verlassen, dass unsere Daten in einem guten Zustand sind. Daher werden wir über die Datenqualität sprechen und es werden vier Sprecher kurze Einführungen geben zu Themen im Zusammenhang mit der Datenqualität und im Anschluss folgen Fragen und Antworten. Und der Erste ist Lucas. Vielen Dank. Hallo, ich bin Lucas und beginne mit einer Übersicht der Datenqualitätstools, die wir bereits auf Wikidata haben und auch von einigen Dingen, die bald verfügbar sind. Und ich habe das alles in allgemeine Themen gruppiert wie Fehler sichtbarer machen, Probleme angehbar machen, den Daten mehr Aufmerksamkeit widmen, damit die Leute die Probleme bemerken, einige der häufigen Fehlerquellen beheben, die Qualität der vorhandenen Daten sichern und auch Datenpflege durch Menschen. Und die, welche derzeit verfügbar sind, beginnen mit Eigenschaftsbeschränkungen. Ihr habt dies wahrscheinlich bereits auf Wikidata gesehen, manchmal habt ihr diese Symbole, die die interne Konsistenz der Daten überprüfen. Wenn zum Beispiel ein Ereignis dem anderen folgt, dann sollte das andere Ereignis auch von diesem gefolgt werden, was auf dem WikidataCon-Item anscheinend fehlte. Keine Ahnung, dieses Feature ist erst ein paar Tage alt. Wenn dies für euch zu einschränkend oder zu einfach ist, gibt es auch den Query Service, mit dem ihr beliebige Kontrollen erstellen könnt, was natürlich bei vielen Dingen nützlich ist, aber ihr könnt diesen auch zum Auffinden von Fehlern verwenden. Also wenn ihr das Auftreten eines Fehlers bemerkt habt, dann könnt ihr nachschauen, ob es noch andere Orte gibt, wo Leute andere, ähnliche Fehler gemacht haben und dies mit dem Query Service finden. Ihr könnt auch beide kombinieren und nach Verstößen gegen Constraints im Query Service suchen, zum Beispiel nur die Verstöße in einigen Bereichen oder einem WikiProject, das für euch relevant ist. Leider sind die Resultate derzeit nicht vollständig. Es gibt eine Revisionswertung. Das ist... ich denke, das kam von den letzten Änderungen. Ihr könnt es auch auf eure Beobachtungsliste setzen, eine automatische Bewertung vornehmen lassen, ob diese Änderung wohl in gutem Glauben geschehen ist oder nicht und schädlich oder nicht schädlich ist. Ich denke, das sind die beiden Bereiche. Also könnt ihr, wenn ihr wollt, euch auf nur die schädlichen, aber sinnvollen Änderungen konzentrieren. Wenn ihr euch besonders freundlich und einladend fühlt, könnt ihr den Editoren sagen: "Vielen Dank für euren Beitrag, so hättet ihr es machen sollen, aber trotzdem danke." Und wenn euch nicht danach ist, könnt ihr die nicht sinnvollen Änderungen durchgehen und die Vandalen wieder zurücknehmen. Ähnliches gilt auch bei der Bewertung von Entitäten. Anstatt also eine Änderung zu bewerten, was sie geändert hat, bewertet ihr die gesamte Revision und ich glaube, das ist das gleiche Qualitätsmaß, welches Lydia zu Beginn der Konferenz erwähnt hat. Hier oben gibt es ein Benutzer-Skript, welches euch eine Wertung von 1 bis 5 vorgibt. Ich glaube, das bezieht sich auf die Qualität des aktuellen Eintrags. Das Primary-Sources-Tool ist für jede Datenbank gedacht, die ihr importieren möchtet, die aberqualitativ nicht so gut ist, um sie direkt zu Wikidata hinzuzufügen, also fügt ihr es zu dem Primary-Source-Tool hinzu und dann können die Leute entscheiden, ob sie diese einzelnen Aussagen hinzufügen sollten oder nicht. Das Anzeigen von Koordinaten als Karten ist vorwiegend eine praktische Funktion, aber auch für die Qualitätskontrolle nützlich. Wenn ihr beispielsweise seht, dies soll Büro von Wikimedia Deutschland sein, aber die Koordinaten liegen irgendwo im Indischen Ozean, dann wisst ihr, dass da etwas nicht stimmt und ihr könnt es viel einfacher sehen als nur mit den Koordinaten. Dies ist ein Gadget mit dem Namen relativer Vollständigkeitsindikator, das euch dieses kleine Symbol hier zeigt, das euch sagt, für wie vollständig es diesen Punkt hält und auch welche Eigenschaften am ehesten fehlen. Das ist wirklich nützlich, wenn ihr eine Sache bearbeitet und ihr euch in einem Bereich befindet, mit dem ihr nicht sehr vertraut seid und ihr nicht wisst, welche Eigenschaften richtig sind. Dann ist dies ein sehr nützliches Gadget. Und wir haben Shape-Ausdrücke. Ich denke, Andrea oder Jose werden mehr darüber erzählen, aber das ist im Grunde eine sehr leistungsfähige Methode zum Vergleichen der Daten, die ihr habt, gegen das Schema, also welche Aussage sollten bestimmte Entitäten haben, mit welchen anderen Entitäten sollten diese verbunden sein und wie sollten diese aussehen? Und so könnt ihr Probleme auf diese Weise finden. Ich denke... Nein, da ist noch mehr. Das Integraality- oder Property-Dashboard gibt euch einen schnellen Überblick der Daten, die ihr bereits habt. Dies ist zum Beispiel aus dem WikiProject Red Pandas und ihr könnt sehen, dass wir ein Geschlecht für fast alle der roten Pandas haben, das Geburtsdatum variiert sehr im Bezug zum Zoo, aus dem sie stammen und wir haben fast keine toten Pandas, was wunderbar ist, weil sie so süß sind. Das ist also auch nützlich. Nun kommen wir zu den Themen, die aktuell anstehen. Wikidata Bridge oder auch bekannt als Client-Editing, also die Bearbeitung von Wikidata mittels Wikipedia-Infoboxen. Einerseits wird auf die Daten mehr Augenmerk gelegt, weil mehr Leute die Daten dort sehen können. Dies wird hoffentlich vermehrt den Gebrauch von Wikidata in den Wikipedias anregen und das bedeutet, dass mehr Leute davon Kenntnis bekommen können, wenn manche Daten veraltet sind und aktualisiert werden müssen, als wenn dies nur auf Wikidata sichtbar wäre. Es gibt auch kaputte Referenzen. Die Idee hier ist, dass wenn ihr den Wert einer Anweisung bearbeitet, ihr auch die Referenzen aktualisieren solltet, außer es handelt sich nur um einen Tippfehler oder Ähnliches. Und diese kaputten Referenzen weisen die Bearbeiter und auch andere Bearbeiter, die das sehen können, darauf hin, ob und welche anderen Änderungen vorgenommen wurden, den Wert der Anweisung und die nicht aktualisierte Referenz. Ihr könnt das dann korrigieren und entscheiden, ob es das war... oder noch mehr ansteht oder das tatsächlich so in Ordnung ist und ihr die Referenzen nicht aktualisieren müsst. Das bezieht sich auf signierte Anweisungen, die von einem Anliegen stammen, soweit ich weiß, dass einige Datenanbieter das zum Beispiel so handhaben... es gibt eine Anweisung, auf die von der UNESCO verwiesen wird oder so und dann zerstört plötzlich jemand die Anweisung und sie sind dann besorgt, dass es dann so aussieht, als ob der falsche veränderte Wert immer noch von der Organisation wie der UNESCO stamme, also können sie mit signierten Anweisungen solche Referenzen kryptografisch signieren. Das verhindert zwar keine Änderungen daran, aber zumindest, wenn jemand die Anweisung verfälscht oder sie in irgendeiner Weise verändert, dann ist die Signatur nicht mehr gültig, dann wisst ihr, dies entspricht nicht dem, was von der Organisation stammt. Vielleicht war es eine konforme Änderung und diese sollte neu signiert werden, aber vielleicht muss diese wieder rückgängig gemacht werden. Nun etwas, das auch sehr aufregend sein wird, denke ich, Citoid ist dieses erstaunliche System, das sie auf Wikipedia haben. Damit könnt ihr eine URL, einen Bezeichner oder eine ISBN oder Wikidata ID oder im Grunde alles in den Visual Editor einfügen und es spuckt eine Referenz aus, die schön formatiert ist, und dazu alle Daten, die ihr braucht, und der Gebrauch davon ist toll. Und im Vergleich dazu auf Wikidata, wenn ich einen Verweis hinzufügen möchte, muss ich normalerweise eine Referenz-URL, einen Titel, einen String des Autorennamen, Veröffentlichungsort, Veröffentlichungsdatum, Abfragedatum, zumindest diese angeben und das ist ärgerlich. Die Integration von Citoid in Wikibase wird hier hoffentlich Abhilfe bringen. Und ich denke, das war alles, was ich hatte, ja. Also gebe ich jetzt ab zu Cristina. Hi, ich bin Cristina. Ich bin wissenschaftliche Mitarbeiterin der Universität Zürich und ich bin auch aktives Mitglied der Schweizer Community. Als Claudia Müller-Birn und ich dies auf der WikidataCon einreichten, war es unser Anliegen, unsere Diskussion fortzusetzen, die wir Anfang des Jahres begonnen hatten mit einem Workshop für Datenqualität und einigen Sessions in Wikimania. Also das Ziel dieses Vortrags ist es, einige Ideen von uns und der Community anzusprechen, die wir aufgegriffen haben, und die Diskussion fortzusetzen. Wir möchten also weiterhin viel mit euch interagieren. Also was wir für sehr wichtig halten, ist, dass wir kontinuierlich jede Art von Benutzer in der Community fragen, was sie wirklich brauchen, welche Probleme sie mit der Datenqualität haben, nicht nur Bearbeiter, sondern auch die Leute, die programmieren oder einfach Daten verwenden, und auch Forscher, die den gesamten Bearbeitungsverlauf verwenden, um zu analysieren, was vor sich geht. Wir haben also eine Überprüfung von rund 80 Tools durchgeführt, die in Wikidata vorhanden sind, und wir haben sie ausgerichtet an verschiedenen Dimensionen der Datenqualität. Und was wir eigentlich bemerkten, viele davon waren für das Monitoring der Vollständigkeit gedacht, doch einige von ihnen ermöglichen auch Verknüpfungen. Es besteht jedoch ein großer Bedarf an Tools, die sich mit Vielfalt befassen. Das ist eines der Merkmale, die tatsächlich in Wikidata möglich sind. Insbesondere dieses Gestaltungsprinzip von Wikidata, wo wir Vielfalt haben können, also unterschiedliche Anweisungen mit unterschiedlichen Werten, die aus verschiedenen Quellen kommen. Da es sich um sekundäre Quellen handelt, haben wir nicht wirklich Werkzeuge, die uns zeigen, wie viele kumulierte Aussagen es gib und wie viele davon wir verbessern können und wie und wir wissen auch nicht wirklich, was die Gründe für die Vielfalt sind, die auftreten können. Also was wir besprochen haben auf diesen Community-Treffen, waren die Herausforderungen, die noch Aufmerksamkeit erfordern. Sehr toll zum Beispiel sind all diese Crowdsourcing-Communities, weil verschiedene Leute verschiedene Bereiche der Daten oder der Diagramme angehen und wir haben auch unterschiedliche Hintergrundkenntnisse. Tatsächlich ist es jedoch sehr schwierig, alles in etwas Konsistentes auszurichten, weil unterschiedliche Menschen unterschiedliche Eigenschaften auf unterschiedliche Weise nutzen und sie erwarten auch Unterschiedliches von Entitätsbeschreibungen. Die Leute meinten auch, dass sie mehr Werkzeuge brauchen, die einen besseren Überblick ermöglichen über den globalen Status der Dinge. Also welche Einheiten in Bezug auf Vollständigkeit fehlen, aber auch so etwas wie, woran die Leute gerade die meiste Zeit arbeiten, und sie erwähnen auch oft eine engere Zusammenarbeit nicht inur m Hinblick auf Sprachen, sondern die WikiProjects und die verschiedenen Wikimedia-Plattformen. Und wir haben alle transkribierten Kommentare veröffentlicht von all diesen Diskussionen in diesen Links hier in den Etherpads und auch auf der Wiki-Seite von Wikimania. Einige der Lösungen, die tatsächlich aufgetaucht sind, gingen in die Richtung, mehr Best Practices auszutauschen, die in verschiedenen WikiProjects entwickelt werden. Aber die Leute wollen auch Tools, die dabei helfen, die Arbeit in Teams zu organisieren, oder zumindest verstehen helfen, wer woran arbeitet, und sie erwähnten auch, dass sie sich mehr Anwendungsbeispiele wünschen und mehr Vorlagen, mit denen sie Dinge besser erstellen können. Und im Hinblick auf den Kontakt, den wir mit offenen staatlichen Datenorganisationen haben, und insbesondere stehe ich in Kontakt mit dem Kanton und der Stadt Zürich, sind diese sehr daran interessiert, mit Wikidata zu arbeiten weil sie wollen, dass ihre Daten für alle an dem Ort zugänglich sind, an dem Menschen Daten abrufen oder darauf zugreifen. Für sie wäre es wirklich interessant eine Art von Qualitätsindikatoren zu haben sowohl im Wiki, was bereits verwirklicht wird, als auch in SPARQL-Ergebnissen, um zu wissen, ob sie diesen Community-basierten Daten vertrauen können oder nicht. Weiterhin wollen sie auch wissen, welche Teile der eigenen Datensätze für Wikidata nützlich sind. Und sie hätten gerne ein Tool, mit dem sie dies automatisch beurteilen können. Sie benötigen auch eine Methode oder ein Werkzeug, das ihnen bei der Entscheidung hilft, ob sie ihre Daten importieren oder verknüpfen sollen, denn in einigen Fällen haben sie auch ihre eigenen verknüpften offenen Datensätze. Sie wissen also nicht, ob sie die Daten nur aufnehmen sollen oder weiterhin Links von den Datensätzen zu Wikidata erstellen sollen und umgekehrt. Und sie möchten auch wissen, auf welche Websites in Wikidata verwiesen wird. Und wenn sie eine solche Abfrage im Query Service ausführen, bekommen sie oft Zeitüberschreitungen. Vielleicht sollten wir wirklich mehr Werkzeuge schaffen, die ihnen helfen, diese Antworten auf ihre Fragen zu bekommen. Und davon abgesehen, uns als Wiki-Forschern fehlen manchmal auch bei den Zusammenfassungen der Änderungen einige Informationen. Ich erinnere mich daran, als wir daran arbeiteten, das unterschiedliche Verhalten der Bearbeiter zu verstehen im Hinblick auf Tools oder Bots, anonyme Benutzer und so weiter, fehlte uns zum Beispiel wirklich eine Standardmethode zum Nachverfolgen, ob Tools verwendet wurden. Und es gibt einige Tools, die das bereits tun wie PetScan und viele andere, aber vielleicht sollten wir in der Community öfter darüber diskutieren, wie Sie diese mit einer feinkörnigen Datenherkunft aufnehmen können. Weiterhin sind wir der Meinung, dass wir konkretere Datenqualitätsdimensionen berücksichtigen müssen, die sich auf verbundene Daten beziehen, aber nicht alle Arten von Daten. Deshalb haben wir einige Maßnahmen erarbeitet, um auf den Informationsgewinn tatsächlich zuzugreifen, der durch die Links aktiviert wird, und was wir damit meinen, ist, dass wenn wir Wikidata mit anderen Datensätzen verknüpfen, sollten wir auch daran denken, wie viel die Entitäten tatsächlich durch die Klassifizierung gewinnen, auch in der Beschreibung, aber auch in den Vokabeln, die sie verwenden. Also nur um ein sehr einfaches Beispiel zu geben, was ich damit meine, ist, was wir uns in diesem Fall vorstellen können, wäre, Wikidata oder das externe Rechenzentrum, das mit Wikidata verknüpft ist, dort haben wir die Entität einer Person, die Natasha Noy heißt, wir haben die Zugehörigkeit und andere Dinge und dann sagen wir: OK, wir verlinken zu einem externen Ort und diese Entität hat den gleichen Namen, tatsächlich haben wir den gleichen Wert. Was also besser wäre, ist, dass wir auf etwas verlinken, das einen anderen Namen hat. Das ist immer noch gültig, weil es zwei Möglichkeiten gibt, den Namen dieser Person zu schreiben und auch andere Informationen, die wir nicht in Wikidata haben oder auch nicht in einem anderen Datensatz haben. Aber was noch besser ist, ist, dass wir tatsächlich im Zieldatensatz suchen, da sie dort auch neue Möglichkeiten zur Klassifizierung der Informationen haben. Das ist also nicht nur eine Person, sondern in dem anderen Datensatz steht auch, ob es sei eine Frau oder etwas anderes, mit dem sie sich einordnen lässt. Und wenn in dem anderen Datensatz, viele andere Vokabeln verwendet werden, hilft das auch bei der gesamten Informationsbeschaffung. Damit möchte ich auch sagen, dass wir denken, dass wir gebündelte Abfragen besser präsentieren können, denn wenn wir uns das Abfrageprotokoll von Malyshev et al. ansehen, sehen wir, dass wir aus den organischen Abfragen nur sehr wenige gebündelte Suchergebnisse haben. Und tatsächlich ist Bündelung einer der Hauptvorteile von Verbindungsdaten. Also vielleicht brauchen die Community oder die Leute, die Wikidata benutzen, auch mehr Beispiele dazu. Und wenn wir uns die Liste der verwendeten Endpunkte ansehen, ist dies keine vollständige Liste und wir haben noch viele mehr. Natürlich wurden diese Daten aus Abfragen bis März 2018 analysiert, aber wir sollten uns jedoch die Liste der gebündelten Endpunkte ansehen, die wir haben und sehen, ob wir sie wirklich benutzen oder nicht. Also zwei Fragen, die ich für das Publikum habe, die wir nachher als Grundlage für eine Diskussion verwenden können: Welche Datenqualitätsprobleme sollten eurer Meinung nach behoben werden aufgrund eurer Bedürfnisse? Aber ebenso, wo braucht ihr mehr Automatisierung, die euch beim Bearbeiten oder dem Kontrollieren hilft. Das ist alles, vielen Dank. (Jose Emilio Labra) Okay, worüber ich sprechen werde, sind einige Tools, die wir im Zusammenhang mit Shape Expressions entwickelt haben. Also darüber möchte ich etwas erzählen. Ich bin Jose Emilio Labra, aber all diese Tools wurden von verschiedenen Leuten gemacht, hauptsächlich im Zusammenhang mit W3C ShEx, der Shape Expressions Community Group. ShEx Community Group. Also das erste Tool, das ich erwähnen möchte, ist RDFShape, dies ist ein allgemeines Werkzeug, weil Shape Expressions nicht nur für Wikidata sind. Shape Expressions ist eine Sprache zur allgemeinen Validierung von RDF. Dieses Tool wurde hauptsächlich von mir entwickelt und es ist ein Werkzeug, um RDF im Allgemeinen zu validieren. Wenn ihr also mehr über RDF erfahren wollt oder RDF validieren möchtet oder SPARQL-Endpunkte nicht nur in Wikidata, ist meine Empfehlung, dass ihr dieses Tool verwenden könnt. Auch zum Unterrichten. Ich bin Lehrer an der Universität und ich benutze es in meinem Semantic-Web-Kurs, um RDF zu unterrichten. Wenn ihr also RDF lernen möchtet, halte ich es für ein nützliches Werkzeug. Dies ist beispielsweise eine Visualisierung eines RDF-Diagramms mit dem Tool. Aber bevor ich letzten Monat hierher gekommen bin, habe ich einen Fork von rdfshape speziell für Wikidata erstellt, weil ich dachte... Es heißt WikiShape und ich habe es gestern als Geschenk für Wikidata präsentiert. Was ich also genommen habe, ist... Ich habe alles entfernt, was nicht mit Wikidata zu tun hatte und um einige Dinge zu hartcodieren, zum Beispiel den Wikidata-SPARQL-Endpunkt. Doch jetzt hat mich jemand gefragt, ob ich das auch für Wikibase machen könnte. Und es ist auch für Wikibase sehr einfach zu machen. Also dieses Tool, WikiShape, ist ziemlich neu. Ich denke, es funktioniert, die meisten Funktionen, aber es gibt einige Funktionen, die möglicherweise nicht funktionieren, und wenn ihr es versuchen wollt oder es verbessern wollt, sagt es mir bitte. Das sind also [unverständlich] Aufnahmen, aber ich denke, ich kann es auch so versuchen, Also lasst es uns versuchen. Mal sehen, ob es funktioniert. Zuerst muss ich da rausgehen... Hier. Okay, ja. Das ist also das Werkzeug hier. Dinge, die ihr mit dem Tool zum Beispiel machen könnt, sind, ihr könnt Schemas, Entitätsschemas überprüfen. Ihr wisst, dass es einen neuen Namespace gibt, der E-irgendwas heißt. Wenn ihr also hier zum Beispiel anfangt zu schreiben "Mensch"... Während ihr schreibt, könnt ihr mittels der Autovervollständigung prüfen. Dies ist zum Beispiel die Shape Expression für Mensch und das sind die Shape Expressions hier. Und wie ihr sehen könnt, hat dieser Editor Syntax-Hervorhebung, das ist... naja, vielleicht ist der Bildschirm zu klein. Ich kann versuchen, es größer zu machen. Vielleicht seht ihr es jetzt besser. Also... und das ist der Editor mit Syntax-Hervorhebung und er hat auch... dieser Editor stammt aus demselben Quellcode wie der Wikidata-Abfragedienst. Also zum Beispiel, wenn man mit der Maus hier schwebt, zeigt es die Beschriftungen der verschiedenen Eigenschaften. Also ich finde, das ist sehr hilfreich, weil jetzt... die Entitätsschemata in Wikidata sind nur eine Idee in einfachem Text. Aber ich denke, dieser Editor ist viel besser, weil er Autocomplete hat und er hat auch... Ich meine zum Beispiel, wenn ihr eine Einschränkung hinzufügen wolltet, sagt ihr "wdt:", und fangt an zu schreiben "author" und klickt dann mit Strg + Leertaste und es schlägt euch die verschiedenen Einträge vor. Das ist also ähnlich wie beim Wikidata-Abfragedienst, aber speziell für Shape Expressions, weil ich das Gefühl habe, Shape Expressions zu kreieren ist nicht schwieriger als das Schreiben von SPARQL-Abfragen. Manche Leute denken, dass es auf dem gleichen Niveau ist. Ich denke, es ist wahrscheinlich einfacher. Denn die Shape Expressions waren, als wir es entworfen haben, haben wir es getan, um die Arbeit zu vereinfachen. Okay, das ist eines der ersten Dinge, die ihr in diesen Editor habt für Shape Expressions. Und dann habt ihr zum Beispiel auch die Möglichkeit, zu visualisieren. Wenn man eine Shape Expression habt verwendet man zum Beispiel... Ich denke, "written" ist eine schöne Shape Expression, weil sie einige Beziehungen zwischen verschiedenen Dingen hat. Und das ist die UML-Visualisierung von schriftlichen Arbeiten. In UML sind die verschiedenen Eigenschaften leicht zu erkennen. Wenn ihr dies macht - mir wurde das klar, als ich das mit mehreren Leuten versuchte, finden diese einige Fehler in ihren Shape Expressions, denn es ist leicht zu erkennen, welche Eigenschaften fehlen oder was auch immer. Dann hier eine andere Möglichkeit ist, dass ihr auch validieren könnt, ich habe es hier, die Validierung. Ich glaube, ich hatte es in einem Label, vielleicht habe ich es geschlossen. Okay, aber ihr könnt beispielsweise hier Validate entities klicken, zum Beispiel... "q42" mit "e42", das ist Urheber. Mit "human" können wir es machen, glaube ich. Und dann ist es... es dauert eine Weile, weil dabei die SPARQL-Abfragen ausgeführt werden und jetzt, zum Beispiel, scheitert es am Netzwerk, aber... Also ihr könnt es versuchen. Gut, lasst uns mit der Präsentation der anderen Tools fortfahren. Mein Rat ist also, wenn ihr es versuchen möchtet und Feedback wollt, lasst es mich wissen. Also, um mit der Präsentation fortzufahren... Das ist also WikiShape. Dann, das habe ich schon erwähnt, gibt es den Shape Expressions Editor, das ist ein eigenständiges Projekt in GitHub. Ihr könnt es in eurem eigenen Projekt verwenden. Wenn ihr ein Tool für Shape Expression benötigt, könnt ihr es einfach in jedes andere Projekt einbetten. Das ist auf GitHub und ihr könnt es benutzen. Der gleiche Autor, einer meiner Schüler, hat auch einen Editor für Shape Expressions erstellt, ebenfalls inspiriert vom Wikidata-Abfragedienst, wo ihr in dieser Spalte diesen vorwiegend visuellen Editor für SPARQL-Abfragen habt, wo ihr diese Dinge bewerkstelligen könnt. Das ist also eine Bildschirmaufnahme. Ihr könnt sehen, dass dies die Shape Expressions im Text sind. Dies ist jedoch eine formularbasierte Shape Expression, bei der es wahrscheinlich etwas länger dauern würde. Hier könnt ihr die verschiedenen Zeilen in die verschiedenen Felder einfügen. Oay, dann gibt es ShExEr. Wir haben... das wird von einem Doktoranden an der Universität von Oviedo gemacht und er ist hier, damit er ShExEr präsentieren kann. (Danny) Hallo, ich bin Danny Fernández, Ich bin Doktorand an der Universität von Oviedo und arbeite mit Labra. Da uns die Zeit davon läuft, lasst uns dies schnell machen. Wir starten also keine Demo, sondern zeigen nur einige Screenshots. Okay, also die übliche Art, mit Shape Expressions zu arbeiten oder einer beliebigen Formsprache, ist, dass Sie einen Domain-Experten haben, der als Erstes definiert, wie der Graph aussehen soll einige Strukturen definiert und dann verwendet man diese Strukturen, um die tatsächlichen Daten dagegen zu validieren. Dieses Tool und auch diejenigen, die von Labra vorgestellt wurden, sind Allzweckwerkzeuge für jede RDF-Quelle. Es ist so konzipiert, dass es umgekehrt funktioniert. Man hat bereits einige Daten, Man wählt aus, welche Notizen die Form erhalten soll und dann extrahiert oder schließt man die Form automatisch. Also, auch wenn dies ein Allzweckwerkzeug ist, was wir für diese WikidataCon gemacht haben, ist diese schicke Schaltfläche. Wenn man darauf klickt, was im Wesentlichen passiert, ist, es gibt so viele Konfigurationsparameter und es konfiguriert es für die Arbeit mit dem Wikidata-Endpunkt und ich bin fast fertig, sorry. Sobald man diesen Knopf drückt, erhält man im Wesentlichen Folgendes. Nachdem man ausgewählt hat, welche Art von Notizen, was für Instanzen unserer Klasse, was auch immer man will, erhält man ein automatisches Schema. Alle Einschränkungen sind danach sortiert, wie viele Modi tatsächlich damit übereinstimmen. Man kann so die selteneren filtern und so weiter. Also wir haben da unten ein Poster über dieses Thema und ich werde unten und oben sein und überall den ganzen Tag. Wer also weiteres Interesse an diesem Tool hat, kann mich einfach während dieses Events ansprechen. Und jetzt werde ich Labra das Mikro zurückgeben, danke. (Jose) Also lasst uns mit den anderen Tools fortfahren. Ein anderes Werkzeug ist der ShapeDesigner. Andra, möchtest du jetzt den ShapeDesigner machen oder vielleicht später im Workshop? Es gibt einen Workshop... Heute Nachmittag gibt es einen Workshop speziell für Shape Expressions und... Die Idee ist, dass wir dort mehr in die Praxis gehen können, und wenn ihr etwas ShEx üben möchtet, könnt ihr es dort tun. Dieses Tool ist ShEx... und hier ist Eric, also kannst du es präsentieren. (Eric) Also einfach super schnell. Das, was ich sagen möchte, ist, dass ihr wahrscheinlich bereits die ShEx-Schnittstelle gesehen habt, die auf Wikidata zugeschnitten ist. Das ist effektiv vereinfacht und speziell auf Wikidata zugeschnitten da die Generische mehr Funktionen hat, sich aber herausstellte - ich dachte, ich sollte es erwähnen - weil eine dieser Funktionen besonders nützlich zum Debuggen von Wikidata-Schemas ist. Das heißt, wenn ihr hingeht und den Slurp-Modus wählt, was es tut, ist, es sagt, während ich validiere, möchte ich alle Tripel herausziehen und das bedeutet, wenn ich ein paar Ausfälle bekomme, kann ich durchgehen und anfangen, diese Fehler zu betrachten und zu sagen: Okay, was sind die Dreiergruppen, die hier drin sind - Entschuldigung, die Dreiergruppen sind da unten, dies ist nur ein Protokoll dessen, was passiert ist - und dann könnt ihr einfach da sitzen und in Echtzeit damit experimentieren, als würde man mit etwas spielen und es verändert sich. Es ist also eine schnellere Variante, um all diese Dinge zu erledigen. Dies ist ein ShExC-Formular. Dies ist etwas, was Joachim vorgeschlagen hatte, das nützlich sein könnte, um Wikidata-Dokumente zu füllen basierend auf einer Shape Expression für dieses Dokument. Dies ist nicht auf Wikidata zugeschnitten. Dies soll jedoch nur heißen, dass ihr ein Schema haben könnt und einige Anmerkungen, um genau zu sagen, wie ich das Schema gerendert haben möchte, und dann baut es einfach ein Formular auf. Wenn ihr Daten habt, kann es das Formular ausfüllen. PyShEx [unverständlich]. (Jose) Ich denke, das ist das Letzte. Ja, das letzte ist PyShEx. PyShEx ist eine Python-Implementierung von Shape Expressions. Ihr könnt das auch mit Jupyter Notebooks ausprobieren, wenn ihr so etwas wollt. Oay, das ist alles dazu. (Andra) Ich werde also über ein bestimmtes Projekt sprechen, an dem ich beteiligt bin, GenWiki genannt, und wo wir uns auch mit Qualitätsfragen beschäftigen. Aber bevor wir auf die Qualität eingehen, vielleicht eine kurze Einführung darüber, was GenWiki ist, und wir haben gerade einen Vordruck einer Arbeit veröffentlicht, die wir kürzlich geschrieben haben, welche die Details des Projekts erklärt. Ich sehe Leute fotografieren, aber im Grunde genommen, was Gene Wiki macht, es versucht, biomedizinische Daten, öffentliche Daten in Wikidata hinein zu bekommen und wir folgen einem bestimmten Muster, um diese Daten in Wikidata zu bekommen. Also, wenn wir ein neues Repository oder einen neuen Datensatz haben, der berechtigt ist, in Wikidata aufgenommen zu werden, ist der erste Schritt das Engagement der Gemeinschaft. Für eine Wikidata-Community ist dies nicht erforderlich, aber für eine lokale Forschungsgemeinschaft, und wir treffen uns persönlich oder online oder auf irgend einer Plattform und versuchen, ein Datenmodell zu entwickeln, das ihre Daten mit dem Wikidata-Modell verbindet. Also hier habe ich ein Bild von einem Workshop, der letztes Jahr hier stattgefunden hat. Wir haben dort versucht, einen bestimmten Datensatz anzuschauen und Sie sehen eine Menge Diskussionen, dann die Ausrichtung an schema.org und andere vorhandenen Ontologien. Und dann, am Ende des ersten Schritts, haben wir eine Whiteboard-Zeichnung des Schemas, das wir in Wikidata implementieren wollen. Was Sie dort sehen können, ziemlich offensichtlich, es ist im Hintergrund. Wir können heute sogar einige Schemata in diesem Panel erstellen. Sobald wir das Schema eingerichtet haben, versuchen wir als Nächstes, das Schema maschinenlesbar zu machen, weil man umsetzbare Modelle braucht, um die Daten zu überbrücken, die man einbringt aus jeder biomedizinischen Datenbank nach Wikidata. Und hier wenden wir Shape Expressions an. Und das verwenden wir, weil man mit Shape Expressions testen kann, ob der Datensatz tatsächlich... nein, man kann zuerst sehen, ob bereits vorhandene Daten in Wikidata dem gleichen Datenmodell folgen, das im vorherigen Prozess erreicht wurde. Dann können wir mit den Shape Expressions überprüfen: Okay, die Daten, die zu diesem Thema in Wikidata sind, müssen bereinigt werden oder wir müssen unser Modell an das Wikidata-Modell anpassen oder umgekehrt. Sobald das erledigt ist und wir anfangen, Bots zu schreiben, und die Bots sähen regelmäßig die Informationen, die in den primären Quellen ist, nach Wikidata. Und wenn die Bots fertig sind, schreiben wir diese Bots mit einer Plattform namens... mit einer Python-Bibliothek namens Wikidata Integrator. Diese kam aus unserem Projekt. Und sobald wir unsere Bots haben, benutzen wir eine Plattform namens Jenkins für die kontinuierliche integration. Und mit Jenkins aktualisieren wir ständig die primären Quellen mit Wikidata. Und dies ist ein Diagramm für die Arbeit, die ich zuvor erwähnt habe. Das ist unsere aktuelle Landschaft. Also jede orangefarbene Kiste da drauf ist eine primäre Ressource für Medikamente, Proteine, Gene, Krankheiten, chemische Verbindungen mit Wechselwirkung, und dieses Modell ist zu klein, um es jetzt zu lesen. Aber das ist die Datenbank, die Quellen, die wir in Wikidata verwalten und überbrücken zu den Primärquellen. Hier ist so ein Workflow. Einer unserer Partner ist die Disease Ontology. Die Disease Ontology ist eine CC0 Ontologie und die CC0 Ontologie hat einen eigenen Kurationszyklus und sie aktualisieren nur kontinuierlich die Disease Ontology, um den Krankheitsbereich oder die Interpretation von Krankheiten zu reflektieren. Und es gibt den Wikidata-Kurationszyklus ebenso für Krankheiten, wo die Wikidata-Community ständig überwacht, was auf Wikidata los ist. Und dann haben wir zwei Rollen, wir nennen sie umgangssprachlich den Gatekeeper-Kurator, und das waren ich und ein Kollege vor fünf Jahren, wo wir nur an unseren Computern saßen und Wikipedia und Wikidata überwachten und wenn es ein Problem gab, wurde es der primären Community gemeldet, die primäre Ressourcen, sie betrachteten die Implementierung und beschlossen: Okay, vertrauen wir dem Input aus Wikidata? Ja - dann wird erwägt, geht es in den Kreislauf, und die nächste Iteration ist Teil der Disease Ontology und wird in Wikidata zurückgespeist. Wir machen dasselbe für WikiPathways. WikiPathways ist ein von MediaWiki inspiriertes Pfad-Repository. Dieselbe Geschichte, es gibt bereits verschiedene Pfad-Ressourcen auf Wikidata. Möglicherweise gibt es Konflikte zwischen diesen Pfadressourcen und diese Konflikte werden zurückgemeldet von den Gatekeeper-Kuratoren zu dieser Community, und man pflegt die einzelnen Kurationszyklen. Aber wenn Sie sich an den vorherigen Zyklus erinnern, hier erwähnte ich nur zwei Zyklen, zwei Ressourcen. Das müssen wir für jede einzelne Ressource tun, die wir haben, und wir müssen alles, was vor sich geht, verwalten, denn wenn ich Kuration sage, meine ich wirklich, auf die Wikipedia-Top-Seiten zu gehen, auf die Wikidata-Top-Seiten zu gehen und das auszuprobieren. Das skaliert nicht mit den beiden Gatekeeper-Kuratoren, die wir hatten. Also, als ich 2016 an einer Konferenz teilgenommen habe, wo Eric einen Vortrag über Shape Expressions hielt, sprang ich auf den Zug und sagte: Okay, mit Hilfe von Shape Expressions können wir feststellen, welche Unterschiede in Wikidata bestehen und so können die Gatekeeper effizienter berichten in dem Log. Dieses Jahr war ich von der Schemaentität begeistert, denn jetzt können wir diese Entitätsschemata auf Wikidata speichern, auf Wikidata selbst, während es zuvor auf GitHub war. Und dies integriert mit der Wikidata-Oberfläche, man hat also Dinge wie Dokumentendiskussionen, man hat aber auch Revisionen. Ihr könnt also die Top-Seiten und die Revisionen in Wikidata nutzen, um darüber zu diskutieren, was in Wikidata ist und was in den primären Ressourcen. Also das, was Eric gerade vorgestellt hat, ist schon ein ziemlicher Vorteil. Also hier haben wir eine Shape Expression für das menschliche Gen erfunden und dann ließen wir es durch ShEx laufen und wie Sie sehen können, wir haben gerade erst eines. Es gibt ein Problem, das überwacht werden muss, es gibt ein Element, das nicht in dieses Schema passt, und dann können Sie bereits Schemaentitäten erstellen und Kurationsberichte basierend auf... und das an die verschiedenen Kurationsberichte senden. Aber die ShEx.js ist eine integrierte Schnittstelle und hier noch mal eine Folie zurück, mache ich nur zehn, aber wir haben Zehntausende und das skaliert wieder nicht. Der Wikidata Integrator unterstützt jetzt auch ShEx und dann können wir einfach Item-Loops verwenden, wo wir ja-nein, ja-nein, wahr-falsch, wahr-falsch sagen. Also nochmal, eine Steigerung der Effizienz beim Arbeiten mit den Berichten. Aber jetzt, in letzter Zeit, baut das auf dem Wikidata Query Service auf und wir haben das etwas gedrosselt, also nochmal, das skaliert nicht. Es ist also immer noch ein fortlaufender Prozess, wie man mit Modellen auf Wikidata umgeht. Und ShEx ist also nicht nur furchteinflössend, aber auch das Ausmaß ist einfach zu groß, um damit umzugehen. Also habe ich angefangen zu arbeiten, dies ist mein erster Proof of Concept oder meine erste Übung, wo ich ein Werkzeug namens yED verwendet habe und ich fing an, diese Shape Expressions zu zeichnen und weil... und dann dieses Schema neu zu generieren in dieses Schema in das JSON-Format der Shape-Ausdrücke, damit sich das einem Publikum öffnet, das von den Shape Expressions-Sprachen eingeschüchtert wird. Tatsächlich gibt es jedoch ein Problem mit diesen visuellen Beschreibungen, denn dies ist auch ein Schema, das tatsächlich von jemandem in yEd gezeichnet wurde. Und hier ist ein anderes, das schön ist. Ich hätte das gerne an meiner Wand, aber es ist immer noch nicht interoperabel. Ich möchte meinen Vortrag beenden... und es war das erste Mal, dass ich diese Folie gestohlen, gebraucht habe. Es ist eine Ehre, ihn im Publikum zu haben und ich mag das wirklich: "Die Leute denken, RDF ist eine Qual, weil es kompliziert ist. Die Wahrheit ist noch schlimmer, es ist so einfach, weil Sie mit realen Datenproblemen arbeiten müssen, die schrecklich kompliziert sind. Während Sie RDF vermeiden können, ist es schwieriger, komplizierte Daten und komplizierte Computerprobleme zu vermeiden." Hier geht es um RDF, aber ich denke, das gilt auch für das Modellieren. Mein Diskussionspunkt ist also, ob wir wirklich... Wie bringen wir das Modellieren voran? Sollen wir über ShEx oder visuelle Modelle sprechen oder... Wie machen wir weiter? Vielen Dank für Ihre Zeit. (Lydia) Vielen Dank. Würdest du nach vorne kommen, damit wir mit den Fragen aus dem Publikum anfangen können? Gibt es Fragen? Ja. Und ich denke, wegen der Kamera müssen wir... (Lydia) Ja. (Zuschauer1) Also eine Frage an Cristina, denke ich. Also du hast im Wortlaut den Begriff "Informationsgewinn" erwähnt bei der Verknüpfung mit anderen Systemen. Es gibt das informationstheoretische Maß Informationsgewinn, welches Statistik und Wahrscheinlichkeit verwendet. Hast du das... ich meine, hast du genau dieses Maß gemeint, den Informationsgewinn aus der Wahrscheinlichkeitstheorie, aus der Informationstheorie, oder verwendest du einfach dieses Konzept, um den Informationsgewinn irgendwie zu messen? Nein, also wir haben Maßnahmen definiert und umgesetzt, die die Shannon-Entropie verwenden, auf dies bezieht sich das. Ich wollte nicht auf die Details der konkreten Formeln eingehen... (Zuschauer1) Nein, klar, das war meine Frage. - (Cristina) Aber ja. - (Zuschauer1) Danke. (Zuschauer2) Ich habe eher einen Kommentar als eine Frage. (Lydia) Los geht es. (Zuschauer2) Es gab also viel Fokus auf der Item-Ebene bezüglich der Qualität und Vollständigkeit. Eines der Dinge, die mich beschäftigen, ist, dass wir nicht dasselbe auf Hierarchien anwenden und ich glaube, das wird uns ein Problem bereiten dass unsere Hierarchie oft nicht gut ist. Wir denken, dass dies ein echtes Problem wird beim Durchsuchen von Commons und anderen Dingen. Eine der Fähigkeiten, die wir realisieren können, ist, extern zu importieren -- Die Art und Weise, wie externe Thesauren ihre Hierarchien strukturieren mit der P4900 Qualifikation für Oberbegriffe. Aber was ich für sehr hilfreich halte, wären viel bessere Werkzeuge dafür. Damit kann man die Hierarchie eines externen Thesaurus importieren und das auf unsere Wikidata-Items abbilden. Sobald es mit diesen P4900-Qualifizierern zusammen funktioniert, kann man über SPARQL ziemlich gute Abfragen durchführen, um zu sehen, wo unsere Hierarchie von dieser externen Hierarchie abweicht. Zum Beispiel, Paula Morma, User PKM, wie ihr vielleicht wisst, hat viel über Mode ausgearbeitet. Das nutzen wir also, um die Hierarchie des Europeana Fashion Thesaurus zu übernehmen und die Getty AAT Mode-Thesaurus-Hierarchie, um dann zu sehen, wo die Lücken in unseren höhergestuften Items waren, was ein echtes Problem für uns ist, weil das oft Dinge sind, die nur als Seiten zur Disambiguierung auf Wikipedia existieren, Es fehlen also viele übergeordnete Elemente in unseren Hierarchien und das ist etwas, das wir in Bezug auf Qualität und Vollständigkeit ansprechen müssen. Aber was wirklich helfen würde, wäre ein besseres Werkzeug als der Dschungel der Pull-Skripte, die ich geschrieben habe. Wenn jemand das in ein PAWS-Notizbuch in Python schreiben könnte, um einen externen Thesaurus verwenden zu können, dessen Hierarchie zu verwenden, die als verknüpfte Daten verfügbar sein können oder nicht, um diese dann in Schnellanweisungen umzusetzen und P4900-Werte einzugeben. Und später dann, wenn unsere Darstellung vervollständigt wird, diese P4900s zu aktualisieren, denn sobald unsere Darstellung veraltet, dichter wird, müssen die Werte dieser Qualifikationsmerkmale geändert werden, um darzustellen, dass wir mehr aus ihrer Hierarchie in unserem System implementiert haben. Wenn jemand das tun könnte, wäre das sehr hilfreich, denke ich, und wir müssen uns auch andere Ansätze ansehen, um die Qualität und Vollständigkeit auf Hierarchieebene zu verbessern, nicht nur auf der Artikelebene. (Andra) Kann ich das ergänzen? Ja, und das machen wir tatsächlich und meine Empfehlung ist, die Shape Expression zu betrachten, die Finn gemacht hat mit den lexikalischen Daten, in denen er Shape Expressions erstellt und dann auf Autorenausdrücken aufbaut, so dass wir also dieses Konzept der verknüpften Formausdrücke in Wikidata haben. Insbesondere der Anwendungsfall, wenn ich richtig verstehe, entspricht genau dem, was wir in Gene Wiki machen. Man hat also die Disease Ontology, die in Wikidata importiert ist, dann kommen die Krankheitsdaten und wir wenden die Shape Expressions an, um zu sehen, ob das zu diesem Thesaurus passt. Und es gibt andere Thesauren oder andere Ontologien für kontrolliertes Vokabular, das noch in Wikidata rein muss und genau deshalb sind Shape Expressions so interessant, weil sie für die Disease Ontology möglich sind, man kann Shape Expressions für MeSH haben. Man kann sagen, ich möchte die Qualität überprüfen, weil man auch in Wikidata den Kontext bei einem kontrollierten Vokabular hat, dass man sagt, die Qualität entspricht dem, aber die Community stimmt euch nicht zu. Das Werkzeug ist also in der Tat vorhanden, aber jetzt müssen diese Modelle erstellt und angewendet werden auf die verschiedenen Anwendungsfälle. (Zuschauer2) Die Shape Expressions sind nützlich, sobald ihr die externe Ontologie in Wikidata abgebildet habt, aber mein Problem ist, dass dieser Zeitpunkt erst kommt. Momentan legt es nur offen, wie viel von der externen Ontologie noch nicht in Wikidata enthalten ist und wo die Lücken sind und dies ist, wo ich denke, dass viel robustere Werkzeuge, mit denen ihr erkennen könnt, was aus externen Ontologien fehlt, sehr hilfreich wären. Das größte Problem dort sind nicht so sehr die Werkzeuge, sondern mehr die Lizenzierung. Also das Einspielen der Ontologien in Wikidata ist ein Kinderspiel, aber die meisten Ontologien haben, wie kann ich das höflich sagen, restriktive Lizenzierung, daher sind diese nicht mit Wikidata kompatibel. (Zuschauer2) Es gibt eine große Anzahl von Thesauren im öffentlichen Sektor in kulturellen Bereichen. - (Andra) Dann müssen wir reden. - (Zuschauer2) Kein Problem. (Andra) Darüber müssen wir reden. (Zuschauer3) Der Kommentar, den ich machen möchte, ist eigentlich eine Antwort auf James. Also die Sache ist die, dass Hierarchien Graphen machen und wenn du ... Ich möchte im Grunde genommen über ein bekanntes Problem in Hierarchien sprechen, das sind zirkuläre Hierarchien, die auf sich selbst zurück führen, wenn es ein Problem gibt, das sollte man nicht in Hierarchien haben. Witzigerweise passiert dies häufig in Wikipedia-Kategorien, wir haben viele Kreise in Kategorien. Aber die gute Nachricht ist, dass dies... Technisch gesehen ist es ein PMP-vollständiges Problem. Also ihr könnt dies nicht einfach finden, wenn ihr ein Diagramm davon baut. Aber es gibt viele Methoden, die entwickelt wurden, um Probleme in diesen Hierarchiediagrammen zu finden. Es gibt einen Artikel namens Breaking Cycles in Noisy Hierarchies und der wurde verwendet, um die Kategorisierung der englischen Wikipedia zu erleichtern. Ihr könnt dies einfach nehmen und diese Hierarchien in Wikidata anwenden, und dann könnt ihr Dinge finden, die problematisch sind und diejenigen einfach entfernen, die Probleme verursachen, und die eigentlichen Probleme finden. Das ist also nur eine Idee, nur, damit ihr... (Zuschauer2) Das ist schön und gut, aber ich denke, ihr unterschätzt die Anzahl der schlechten Beziehungen in den Subklassen, die wir haben. Das ist, wie eine Stadt in einem völlig falschen Land zu haben und es gibt Werkzeuge in der Geographie, um so etwas zu identifizieren, und wir brauchen viel bessere Werkzeuge in Hierarchien, um zu identifizieren, wo das Äquivalent des Items für das Land vollständig fehlt oder tatsächlich in einer Subklasse eingeordnet ist, die eine völlig andere Bedeutung hat. (Lydia) Ja, ich denke, du sprichst etwas an, das ich und mein Team immer wieder von Leuten hören, die unsere Daten auch ziemlich häufig wiederverwenden, ja. Einzelne Datenpunkte könnten großartig sein, aber wenn ihr euch die Ontologie und so weiter ansehen müsst, dann wird es sehr... Und ich denke, eines der großen Probleme, warum dies passiert, ist, dass vieles, was auf Wikidata editiert wird, auf der Grundlage eines einzelnen Artikels basiert, ja. Ihr bearbeitet dieses Element, ohne zu bemerken, dass die Konsequenzen von globaler Natur sind im Bezug auf dem Rest des Diagramms zum Beispiel. Und wenn jemand eine Idee hat, wie man dies sichtbarer machen kann, die Folgen einer einzelnen lokalen Bearbeitung, ich denke, das wäre es wert, das herauszufinden, den Leuten besser zu zeigen, was die Folge ihrer Überarbeitung ist, die sie in gutem Glauben vornahmen, was das ist. Whoa! OK, fangen wir an mit, ja, du, dann du, dann du, dann du. (Zuschauer4) Nun, nach dieser Diskussion will ich nur meine Zustimmung geben zu dem, was James sagte. Also das Gefährlichste scheint im Wesentlichen die Hierarchie zu sein, nicht die Hierarchie, sondern allgemein die Semantik der Beziehungen der Subklassen aus Wikidata. Ich habe vor kurzem Sprachen studiert nur für die Zwecke dieser Konferenz und zum Beispiel finden Sie viele Fälle, wo eine Sprache sowohl Teil als auch Subklasse derselben Sache ist, okay. Man könnte auch sagen, dass wir eine flexible Ontologie haben. Wikidata gibt manchmal die Freiheit, dies auszudrücken, zum Beispiel, weil diese Ontologie der Sprachen auch politisch kompliziert ist, oder? Es ist sogar gut, in der Lage zu sein, ein gewisses Maß an Unsicherheit auszudrücken. Aber stellen Sie sich vor, wer daraus maschinell lesen möchte. Das ist also wirklich problematisch. Andererseits glaube ich nicht, dass Ontologie jemals von irgendwoher importiert wurde, das ist etwas, was ursprünglich von uns kommt. Wikipedia hat seit den Anfängen seinen Nutzen daraus gezogen, meine ich. Also frage ich mich, diese Sache mit den Shape Expressions-Ding ist toll. Das Validieren und Reparieren von Wikidata-Ontologien durch externe Ressourcen, schöne Idee. Werden wir letztendlich dort enden, dass wir externen Ontologien in Wikidata widerspiegeln? Und ebenso, was sollen wir mit dem Kern unserer Ontologie machen, der nie von externen Ressourcen verwendet wird, wie können wir das beheben? Und ich denke wirklich, dass das ein Problem für sich sein wird. Darauf müssen wir uns unabhängig von der Idee konzentrieren, Ontologien mit etwas Externem zu validieren. (Zuschauer5) Okay, die Constraints und Shapes sind sehr beeindruckend, was man damit machen kann, aber das Hauptanliegen ist nicht wirklich klar hervorgetreten. Das liegt daran, dass wir jetzt genauer definieren können, was wir von den Daten erwarten. Vorher muss jeder seine eigenen Tools und Skripte schreiben und so ist es sichtbarer und wir können darüber diskutieren. Aber weil es nicht darum geht, was falsch oder richtig ist, sondern um eine Erwartung und ihr werdet unterschiedliche Erwartungen und Diskussionen darüber haben, wie wir Dinge in Wikidata modellieren wollen, und das... Der aktuelle Stand ist nur ein Schritt in die richtige Richtung, denn jetzt braucht man sehr viel technisches Know-how, um da reinzukommen und wir brauchen bessere Möglichkeiten, um diese Constraints zu visualisieren, vielleicht um es in natürliche Sprache umzuwandeln, damit es die Leute besser verstehen können, aber es geht weniger darum, was falsch oder richtig ist. (Lydia) Ja. (Zuschauer6) Zu den Qualitätsproblemen möchte ich einfach hinzufügen, viele der Probleme, auf die ich gestoßen bin, waren Meinungsunterschiede zwischen Instanz von und Subklasse. Ich würde behaupten, Fehler in diesen Situationen und zu versuchen, diese zu finden, ist sehr zeitaufwändig. Ich bin auf so etwas gestoßen wie: "Oh, wenn ich sehr eindrucksvolle Items finde, die in etwa... und dann verwendet man alle Subklasseninstanzen, um alle abgeleiteten Anweisungen davon zu finden." Dies ist eine sehr nützliche Methode, um nach diesen Fehlern zu suchen. Aber ich war neugierig, ob Shape Expressions, ob es ... ob dies als Werkzeug zur Lösung dieser Probleme verwendet werden kann, aber ja... (Zuschauer7) Wenn es einen strukturellen Footprint hat... Wenn es einen strukturellen Footprint hat, der irgendwie fälschbar ist, ihr seht das und könnt sagen, das ist falsch, ja, dann kannst du das machen. Aber wenn es nur darum geht, es auf reale Objekte abzubilden, dann wirst du einfach viel, viel Hirnschmalz brauchen. (Zuschauer8) Hallo, Pablo Mendes von Apple Siri Knowledge. Wir sind hier, um herauszufinden, wie wir dem Projekt und der Community helfen können, aber Cristina machte den Fehler, zu fragen, was wir wollen. Also eine Sache, dich ich gerne sehen würde: Es geht viel um Überprüfbarkeit, was eines der Grundprinzipien des Projekts in der Gemeinschaft ist, und Vertrauenswürdigkeit. Nicht jede Aussage ist gleich, einige von ihnen sind heftig umstritten, einige von ihnen sind leicht zu lösen, wie das Geburtsdatum einer Person zu überprüfen. Wie ihr heute in der Keynote gesehen habt, ist Geschlechterproblematik komplizierter. Könnt ihr ein bisschen darüber diskutieren, was ihr aus diesem Bereich der Datenqualität wisst, über Vertrauenswürdigkeit und Überprüfbarkeit? Wenn es nicht viel ist, würde ich gerne viel mehr sehen. (Lydia) Ja. Dazu haben wir offenbar nicht viel zu sagen. (Andra) Ich denke, wir können viel tun, aber ich hatte gestern ein Gespräch mit dir. Mein Lieblingsbeispiel, das ich gestern gelernt habe und bereits veraltet ist, ist, wenn Sie zu Q2 gehen, was die Erde ist, da gibt eine Behauptung, die besagt, die Erde sei flach. Und ich liebe dieses Beispiel, weil es da draußen eine Community gibt, die das behauptet und sie haben nachprüfbare Ressourcen. Also ich denke, es ist ein echter Fall, der nicht abgelehnt werden sondern in Wikidata sein sollte. Und ich denke, dass Shape Expressions dort wirklich hilfreich sein können, weil man sagen kann: Okay, ich bin wirklich an diesem Anwendungsfall interessiert, oder dies ist ein Anwendungsfall, mit dem ihr nicht einverstanden seid. Es kann aber auch einen Anwendungsfall geben, bei dem ihr sagt, okay, das interessiert mich. Es gibt dieses Beispiel, wo ihr sagt, ich habe Glukose. Und Glukose, wenn man Biologe ist, interessiert man sich nicht für die chemischen Restriktionen des Glukosemoleküls, Glukose ist immer gleich. Aber wenn man Chemiker ist, zuckt man zusammen, wenn man das hört, man hast etwa 200... Dann kann man viele Shape Expressions nehmen, okay, ich komme mit... aus der Sicht eines Chemikers, ich wende das an. Und dann sagst du, ich gehe von einem biologischen Anwendungsfall aus, ich wende diese Shape Expression an. Und wenn ihr dann kollaborieren möchtet, ja, nun, dann solltet ihr mit Eric über ShEx-Maps sprechen. Und so... aber diese Reise beginnt gerade erst. Aber ich persönlich glaube, dass dies in diesem Bereich sehr entscheidend ist. (Lydia) Okay. Da drüben. (Zuschauerin1) Ich hatte einige Ideen zu einigen Punkten in den Diskussionen. Also werde ich versuchen, diese nicht zu vergessen... Ich hatte drei Ideen, also... Basierend auf dem, was James vor einer Weile gesagt hat, haben wir von Anfang an ein sehr, sehr großes Problem bei Wikidata bei der oberen Ontologie. Darüber haben wir vor zwei Jahren bei WikidataCon gesprochen und wir haben darüber bei Wikimania gesprochen. Bei jedem Wikidata-Treffen sprechen wir darüber, weil es ein sehr großes Problem direkt vor unseren Augen ist. Was eine Entität ist, was Arbeit ist, was ein Genre ist, Kunst, wirklich die wichtigsten Konzepte. Und das ist tatsächlich ein sehr schwacher Punkt im Bezug auf die globale Ontologie, weil die Leute versuchen, regelmäßig aufzuräumen und alles komplett kaputt gemacht haben. Ich denke, einige von euch erinnern sich vielleicht an den Typ, der in gutem Glauben absolut alle Städte auf der Welt durcheinander brachte. Das waren keine geografischen Objekte mehr, daher gibt es überall Verstöße gegen Constraints. Und es passierte in gutem Glauben, weil er eigentlich einen Fehler in einem Artikel korrigierte, aber alles brach zusammen. Und ich bin nicht sicher, wie wir das lösen können, da es eigentlich keine externe Einrichtung gibt, die wir verwenden könnten, weil alle daran arbeiten... Nun, wenn ich Datenbank für Kunst am Laufen habe, werde ich nur das verwendete Label für Kunst nehmen, ich kümmere mich nicht um das philosophische Konzept dessen, was eine Entität ist, und das ist eigentlich... Ich kenne keine Datenbank, die auf diesem Niveau arbeitet, aber das ist der schwächste Punkt von Wikidata. Und wahrscheinlich, wenn wir über Datenqualität sprechen, ist das eigentlich ein großer Teil davon, also... Und ich denke, es ist dasselbe, was wir gesagt haben... Oh, tut mir leid, ich wechsle das Thema Aber wir haben in verschiedenen Meetings über Qualitäten gesprochen, dass einige von uns eigentlich gute Modellierung machen, ShEx und solche Dinge tun. Die Leute sehen es nicht auf Wikidata, sie sehen ShEx nicht, Sie sehen das WikiProjekt nicht auf der Diskussionsseite und manchmal sehen sie nicht einmal die Diskussionsseiten von Eigenschaften, die ausdrücklich angeben, a), diese Eigenschaft wird dafür verwendet. Letzte Woche zum Beispiel habe ich Constraints einer Eigenschaft hinzugefügt. Das Constraint wurde ausdrücklich beschrieben in der Diskussion bei der Einführung der Eigenschaft. Ich hatte gerade den technischen Teil zum Hinzufügen der Constraint erstellt und jemanden meinte: "Was! Du hast alle meine Bearbeitungen zerstört!" Und die letzten zwei Jahre nutzte er die Eigenschaft auf die falsche Art. Und die Eigenschaft war eigentlich sehr klar, aber es gab keine Warnungen oder so etwas. Und so ist es auch beim Pink Pony, dass wir bei Wikimania gesagt haben, WikiProject sichtbarer zu machen oder ShEx sichtbarer zu machen, aber, und das hat Cristina gesagt, wir haben ein Problem mit der Sichtbarkeit der vorhandenen Lösungen. Und in dieser Session haben wir alle darüber geredet, wie man mehr mit ShEx arbeitet oder die Arbeit der Leute erleichtert, die alles korrigieren. Aber wir korrigieren seit dem ersten Tag von Wikidata und global verlieren wir und wir verlieren, weil, na ja, wenn ich weiß, dass Namen kompliziert sind, aber ich die einzige bin, die die Korrekturen macht, der Typ, der den lateinischen Namen hinzugefügt hat für alle chinesischen Forscher, dafür brauche ich Monate um das zu korrigieren. und ich kann es nicht alleine tun, und er hat einen großen Batch gemacht. Also brauchen wir wirklich... Wir haben mehr ein Sichtbarkeitsproblem als ein Werkzeugproblem, denke ich, weil wir viele Werkzeuge haben. (Lydia) Richtig, aber leider habe ich ein Zeichen bekommen, wir müssen das also abschließen. Vielen Dank für eure Kommentare. Ich hoffe, ihr werdet die Diskussion über den Tag fortführen und vielen Dank für euren Beitrag.