-
Hallo allerseits zum
Datenqualitätspanel.
-
Datenqualität ist wichtig,
weil immer mehr Menschen da draußen
-
sich darauf verlassen, dass unsere Daten
in einem guten Zustand sind.
-
Daher werden wir
über die Datenqualität sprechen
-
und es werden vier Sprecher
kurze Einführungen geben
-
zu Themen im Zusammenhang
mit der Datenqualität
-
und im Anschluss
folgen Fragen und Antworten.
-
Und der Erste ist Lucas.
-
Vielen Dank.
-
Hallo, ich bin Lucas
und beginne mit einer Übersicht
-
der Datenqualitätstools,
die wir bereits auf Wikidata haben
-
und auch von einigen Dingen,
die bald verfügbar sind.
-
Und ich habe das alles
in allgemeine Themen gruppiert
-
wie Fehler sichtbarer machen,
Probleme angehbar machen,
-
den Daten mehr Aufmerksamkeit widmen,
damit die Leute die Probleme bemerken,
-
einige der häufigen Fehlerquellen beheben,
-
die Qualität der vorhandenen Daten sichern
-
und auch Datenpflege durch Menschen.
-
Und die, welche derzeit verfügbar sind,
beginnen mit Eigenschaftsbeschränkungen.
-
Ihr habt dies wahrscheinlich
bereits auf Wikidata gesehen,
-
manchmal habt ihr diese Symbole,
-
die die interne Konsistenz
der Daten überprüfen.
-
Wenn zum Beispiel
ein Ereignis dem anderen folgt,
-
dann sollte das andere Ereignis
auch von diesem gefolgt werden,
-
was auf dem WikidataCon-Item
anscheinend fehlte.
-
Keine Ahnung, dieses Feature
ist erst ein paar Tage alt.
-
Wenn dies für euch zu einschränkend
oder zu einfach ist, gibt es auch
-
den Query Service, mit dem ihr
beliebige Kontrollen erstellen könnt,
-
was natürlich
bei vielen Dingen nützlich ist,
-
aber ihr könnt diesen auch
zum Auffinden von Fehlern verwenden.
-
Also wenn ihr das Auftreten
eines Fehlers bemerkt habt,
-
dann könnt ihr nachschauen,
ob es noch andere Orte gibt,
-
wo Leute andere,
ähnliche Fehler gemacht haben
-
und dies mit dem Query Service finden.
-
Ihr könnt auch beide kombinieren
-
und nach Verstößen gegen Constraints
im Query Service suchen,
-
zum Beispiel nur die Verstöße
in einigen Bereichen
-
oder einem WikiProject,
das für euch relevant ist.
-
Leider sind die Resultate
derzeit nicht vollständig.
-
Es gibt eine Revisionswertung.
-
Das ist... ich denke, das kam
von den letzten Änderungen.
-
Ihr könnt es auch
auf eure Beobachtungsliste setzen,
-
eine automatische Bewertung
vornehmen lassen,
-
ob diese Änderung wohl
in gutem Glauben geschehen ist oder nicht
-
und schädlich oder nicht schädlich ist.
-
Ich denke, das sind die beiden Bereiche.
-
Also könnt ihr, wenn ihr wollt,
-
euch auf nur die schädlichen,
aber sinnvollen Änderungen konzentrieren.
-
Wenn ihr euch besonders
freundlich und einladend fühlt,
-
könnt ihr den Editoren sagen:
-
"Vielen Dank für euren Beitrag,
so hättet ihr es machen sollen,
-
aber trotzdem danke."
-
Und wenn euch nicht danach ist,
-
könnt ihr die nicht sinnvollen
Änderungen durchgehen
-
und die Vandalen wieder zurücknehmen.
-
Ähnliches gilt auch
bei der Bewertung von Entitäten.
-
Anstatt also eine Änderung zu bewerten,
was sie geändert hat,
-
bewertet ihr die gesamte Revision
-
und ich glaube, das ist
das gleiche Qualitätsmaß,
-
welches Lydia zu Beginn
der Konferenz erwähnt hat.
-
Hier oben gibt es ein Benutzer-Skript,
-
welches euch eine Wertung
von 1 bis 5 vorgibt.
-
Ich glaube, das bezieht sich
auf die Qualität des aktuellen Eintrags.
-
Das Primary-Sources-Tool
ist für jede Datenbank gedacht,
-
die ihr importieren möchtet,
-
die aberqualitativ nicht so gut ist,
um sie direkt zu Wikidata hinzuzufügen,
-
also fügt ihr es
zu dem Primary-Source-Tool hinzu
-
und dann können die Leute entscheiden,
-
ob sie diese einzelnen Aussagen
hinzufügen sollten oder nicht.
-
Das Anzeigen von Koordinaten als Karten
-
ist vorwiegend eine praktische Funktion,
-
aber auch für
die Qualitätskontrolle nützlich.
-
Wenn ihr beispielsweise seht,
-
dies soll Büro
von Wikimedia Deutschland sein,
-
aber die Koordinaten liegen
irgendwo im Indischen Ozean,
-
dann wisst ihr, dass da etwas nicht stimmt
-
und ihr könnt es viel einfacher sehen
als nur mit den Koordinaten.
-
Dies ist ein Gadget mit dem Namen
relativer Vollständigkeitsindikator,
-
das euch dieses kleine Symbol hier zeigt,
-
das euch sagt, für wie vollständig
es diesen Punkt hält
-
und auch welche Eigenschaften
am ehesten fehlen.
-
Das ist wirklich nützlich,
wenn ihr eine Sache bearbeitet
-
und ihr euch in einem Bereich befindet,
mit dem ihr nicht sehr vertraut seid
-
und ihr nicht wisst,
welche Eigenschaften richtig sind.
-
Dann ist dies ein sehr nützliches Gadget.
-
Und wir haben Shape-Ausdrücke.
-
Ich denke, Andrea oder Jose
werden mehr darüber erzählen,
-
aber das ist im Grunde
eine sehr leistungsfähige Methode
-
zum Vergleichen der Daten,
die ihr habt, gegen das Schema,
-
also welche Aussage sollten
bestimmte Entitäten haben,
-
mit welchen anderen Entitäten
sollten diese verbunden sein
-
und wie sollten diese aussehen?
-
Und so könnt ihr Probleme
auf diese Weise finden.
-
Ich denke... Nein, da ist noch mehr.
-
Das Integraality- oder Property-Dashboard
-
gibt euch einen schnellen Überblick
der Daten, die ihr bereits habt.
-
Dies ist zum Beispiel
aus dem WikiProject Red Pandas
-
und ihr könnt sehen,
dass wir ein Geschlecht
-
für fast alle der roten Pandas haben,
-
das Geburtsdatum variiert sehr
im Bezug zum Zoo, aus dem sie stammen
-
und wir haben fast keine toten Pandas,
was wunderbar ist,
-
weil sie so süß sind.
-
Das ist also auch nützlich.
-
Nun kommen wir zu den Themen,
die aktuell anstehen.
-
Wikidata Bridge oder auch
bekannt als Client-Editing,
-
also die Bearbeitung von Wikidata
mittels Wikipedia-Infoboxen.
-
Einerseits wird auf die Daten
mehr Augenmerk gelegt,
-
weil mehr Leute
die Daten dort sehen können.
-
Dies wird hoffentlich vermehrt
den Gebrauch von Wikidata
-
in den Wikipedias anregen
und das bedeutet,
-
dass mehr Leute davon
Kenntnis bekommen können,
-
wenn manche Daten veraltet sind
und aktualisiert werden müssen,
-
als wenn dies nur auf Wikidata
sichtbar wäre.
-
Es gibt auch kaputte Referenzen.
-
Die Idee hier ist, dass wenn ihr
den Wert einer Anweisung bearbeitet,
-
ihr auch die Referenzen
aktualisieren solltet,
-
außer es handelt sich nur
um einen Tippfehler oder Ähnliches.
-
Und diese kaputten Referenzen
weisen die Bearbeiter
-
und auch andere Bearbeiter,
die das sehen können, darauf hin,
-
ob und welche anderen Änderungen
vorgenommen wurden,
-
den Wert der Anweisung
und die nicht aktualisierte Referenz.
-
Ihr könnt das dann korrigieren
und entscheiden, ob es das war...
-
oder noch mehr ansteht
oder das tatsächlich so in Ordnung ist
-
und ihr die Referenzen
nicht aktualisieren müsst.
-
Das bezieht sich
auf signierte Anweisungen,
-
die von einem Anliegen stammen,
soweit ich weiß,
-
dass einige Datenanbieter
das zum Beispiel so handhaben...
-
es gibt eine Anweisung, auf die
von der UNESCO verwiesen wird oder so
-
und dann zerstört plötzlich
jemand die Anweisung
-
und sie sind dann besorgt,
dass es dann so aussieht,
-
als ob der falsche veränderte Wert
immer noch von der Organisation
-
wie der UNESCO stamme,
-
also können sie mit signierten Anweisungen
-
solche Referenzen
kryptografisch signieren.
-
Das verhindert zwar
keine Änderungen daran,
-
aber zumindest, wenn jemand
die Anweisung verfälscht
-
oder sie in irgendeiner Weise verändert,
dann ist die Signatur nicht mehr gültig,
-
dann wisst ihr, dies entspricht nicht dem,
was von der Organisation stammt.
-
Vielleicht war es eine konforme Änderung
und diese sollte neu signiert werden,
-
aber vielleicht muss diese
wieder rückgängig gemacht werden.
-
Nun etwas, das auch sehr aufregend
sein wird, denke ich,
-
Citoid ist dieses erstaunliche System,
das sie auf Wikipedia haben.
-
Damit könnt ihr eine URL,
einen Bezeichner oder eine ISBN
-
oder Wikidata ID oder im Grunde
alles in den Visual Editor einfügen
-
und es spuckt eine Referenz aus,
die schön formatiert ist,
-
und dazu alle Daten, die ihr braucht,
und der Gebrauch davon ist toll.
-
Und im Vergleich dazu auf Wikidata,
wenn ich einen Verweis hinzufügen möchte,
-
muss ich normalerweise
eine Referenz-URL, einen Titel,
-
einen String des Autorennamen,
Veröffentlichungsort,
-
Veröffentlichungsdatum, Abfragedatum,
-
zumindest diese angeben
und das ist ärgerlich.
-
Die Integration von Citoid in Wikibase
wird hier hoffentlich Abhilfe bringen.
-
Und ich denke, das war alles,
was ich hatte, ja.
-
Also gebe ich jetzt ab zu Cristina.
-
Hi, ich bin Cristina.
-
Ich bin wissenschaftliche Mitarbeiterin
der Universität Zürich
-
und ich bin auch aktives Mitglied
der Schweizer Community.
-
Als Claudia Müller-Birn und ich dies
auf der WikidataCon einreichten,
-
war es unser Anliegen,
unsere Diskussion fortzusetzen,
-
die wir Anfang des Jahres begonnen hatten
-
mit einem Workshop für Datenqualität
und einigen Sessions in Wikimania.
-
Also das Ziel dieses Vortrags ist es,
einige Ideen von uns
-
und der Community anzusprechen,
die wir aufgegriffen haben,
-
und die Diskussion fortzusetzen.
-
Wir möchten also weiterhin
viel mit euch interagieren.
-
Also was wir für sehr wichtig halten,
-
ist, dass wir kontinuierlich jede Art
von Benutzer in der Community fragen,
-
was sie wirklich brauchen,
-
welche Probleme sie
mit der Datenqualität haben,
-
nicht nur Bearbeiter,
sondern auch die Leute, die programmieren
-
oder einfach Daten verwenden,
und auch Forscher,
-
die den gesamten
Bearbeitungsverlauf verwenden,
-
um zu analysieren, was vor sich geht.
-
Wir haben also eine Überprüfung
von rund 80 Tools durchgeführt,
-
die in Wikidata vorhanden sind,
und wir haben sie ausgerichtet
-
an verschiedenen Dimensionen
der Datenqualität.
-
Und was wir eigentlich bemerkten,
-
viele davon waren für das Monitoring
der Vollständigkeit gedacht,
-
doch einige von ihnen ermöglichen
auch Verknüpfungen.
-
Es besteht jedoch ein großer Bedarf
an Tools, die sich mit Vielfalt befassen.
-
Das ist eines der Merkmale,
die tatsächlich in Wikidata möglich sind.
-
Insbesondere dieses Gestaltungsprinzip
von Wikidata,
-
wo wir Vielfalt haben können,
-
also unterschiedliche Anweisungen
mit unterschiedlichen Werten,
-
die aus verschiedenen Quellen kommen.
-
Da es sich um sekundäre Quellen handelt,
haben wir nicht wirklich Werkzeuge,
-
die uns zeigen, wie viele
kumulierte Aussagen es gib
-
und wie viele davon wir
verbessern können und wie
-
und wir wissen auch nicht wirklich,
-
was die Gründe für die Vielfalt sind,
die auftreten können.
-
Also was wir besprochen haben
auf diesen Community-Treffen,
-
waren die Herausforderungen,
die noch Aufmerksamkeit erfordern.
-
Sehr toll zum Beispiel sind
all diese Crowdsourcing-Communities,
-
weil verschiedene Leute
verschiedene Bereiche
-
der Daten oder der Diagramme angehen
-
und wir haben auch unterschiedliche
Hintergrundkenntnisse.
-
Tatsächlich ist es jedoch sehr schwierig,
alles in etwas Konsistentes auszurichten,
-
weil unterschiedliche Menschen
-
unterschiedliche Eigenschaften
auf unterschiedliche Weise nutzen
-
und sie erwarten auch Unterschiedliches
von Entitätsbeschreibungen.
-
Die Leute meinten auch,
dass sie mehr Werkzeuge brauchen,
-
die einen besseren Überblick ermöglichen
über den globalen Status der Dinge.
-
Also welche Einheiten in Bezug
auf Vollständigkeit fehlen,
-
aber auch so etwas wie, woran die Leute
gerade die meiste Zeit arbeiten,
-
und sie erwähnen auch oft
eine engere Zusammenarbeit
-
nicht inur m Hinblick auf Sprachen,
sondern die WikiProjects
-
und die verschiedenen
Wikimedia-Plattformen.
-
Und wir haben alle transkribierten
Kommentare veröffentlicht
-
von all diesen Diskussionen
in diesen Links hier in den Etherpads
-
und auch auf der Wiki-Seite von Wikimania.
-
Einige der Lösungen,
die tatsächlich aufgetaucht sind,
-
gingen in die Richtung,
mehr Best Practices auszutauschen,
-
die in verschiedenen WikiProjects
entwickelt werden.
-
Aber die Leute wollen auch Tools,
-
die dabei helfen,
die Arbeit in Teams zu organisieren,
-
oder zumindest verstehen helfen,
wer woran arbeitet,
-
und sie erwähnten auch, dass sie sich
mehr Anwendungsbeispiele wünschen
-
und mehr Vorlagen, mit denen sie
Dinge besser erstellen können.
-
Und im Hinblick auf den Kontakt,
-
den wir mit offenen staatlichen
Datenorganisationen haben,
-
und insbesondere stehe ich in Kontakt
mit dem Kanton und der Stadt Zürich,
-
sind diese sehr daran interessiert,
mit Wikidata zu arbeiten
-
weil sie wollen, dass ihre Daten
für alle an dem Ort zugänglich sind,
-
an dem Menschen Daten abrufen
oder darauf zugreifen.
-
Für sie wäre es wirklich interessant
-
eine Art von Qualitätsindikatoren
zu haben
-
sowohl im Wiki,
was bereits verwirklicht wird,
-
als auch in SPARQL-Ergebnissen,
-
um zu wissen, ob sie diesen
Community-basierten Daten
-
vertrauen können oder nicht.
-
Weiterhin wollen sie auch wissen,
-
welche Teile der eigenen Datensätze
für Wikidata nützlich sind.
-
Und sie hätten gerne ein Tool,
-
mit dem sie dies
automatisch beurteilen können.
-
Sie benötigen auch eine Methode
oder ein Werkzeug,
-
das ihnen bei der Entscheidung hilft,
ob sie ihre Daten importieren
-
oder verknüpfen sollen,
denn in einigen Fällen
-
haben sie auch ihre eigenen
verknüpften offenen Datensätze.
-
Sie wissen also nicht,
ob sie die Daten nur aufnehmen sollen
-
oder weiterhin Links von den Datensätzen
zu Wikidata erstellen sollen
-
und umgekehrt.
-
Und sie möchten auch wissen,
-
auf welche Websites in Wikidata
verwiesen wird.
-
Und wenn sie eine solche Abfrage
im Query Service ausführen,
-
bekommen sie oft Zeitüberschreitungen.
-
Vielleicht sollten wir wirklich
mehr Werkzeuge schaffen,
-
die ihnen helfen, diese Antworten
auf ihre Fragen zu bekommen.
-
Und davon abgesehen,
-
uns als Wiki-Forschern fehlen manchmal
auch bei den Zusammenfassungen
-
der Änderungen einige Informationen.
-
Ich erinnere mich daran,
als wir daran arbeiteten,
-
das unterschiedliche Verhalten
der Bearbeiter zu verstehen
-
im Hinblick auf Tools oder Bots,
anonyme Benutzer und so weiter,
-
fehlte uns zum Beispiel wirklich
eine Standardmethode zum Nachverfolgen,
-
ob Tools verwendet wurden.
-
Und es gibt einige Tools,
die das bereits tun
-
wie PetScan und viele andere,
-
aber vielleicht sollten wir
in der Community
-
öfter darüber diskutieren, wie Sie diese
-
mit einer feinkörnigen Datenherkunft
aufnehmen können.
-
Weiterhin sind wir der Meinung, dass wir
-
konkretere Datenqualitätsdimensionen
berücksichtigen müssen,
-
die sich auf verbundene Daten beziehen,
aber nicht alle Arten von Daten.
-
Deshalb haben wir
einige Maßnahmen erarbeitet,
-
um auf den Informationsgewinn
tatsächlich zuzugreifen,
-
der durch die Links aktiviert wird,
und was wir damit meinen, ist,
-
dass wenn wir Wikidata
mit anderen Datensätzen verknüpfen,
-
sollten wir auch daran denken,
-
wie viel die Entitäten tatsächlich
durch die Klassifizierung gewinnen,
-
auch in der Beschreibung, aber auch
in den Vokabeln, die sie verwenden.
-
Also nur um ein sehr einfaches Beispiel
zu geben, was ich damit meine, ist,
-
was wir uns in diesem Fall
vorstellen können, wäre, Wikidata
-
oder das externe Rechenzentrum,
das mit Wikidata verknüpft ist,
-
dort haben wir die Entität einer Person,
die Natasha Noy heißt,
-
wir haben die Zugehörigkeit
und andere Dinge
-
und dann sagen wir: OK,
wir verlinken zu einem externen Ort
-
und diese Entität hat den gleichen Namen,
tatsächlich haben wir den gleichen Wert.
-
Was also besser wäre, ist,
dass wir auf etwas verlinken,
-
das einen anderen Namen hat.
-
Das ist immer noch gültig,
weil es zwei Möglichkeiten gibt,
-
den Namen dieser Person zu schreiben
-
und auch andere Informationen,
die wir nicht in Wikidata haben
-
oder auch nicht in
einem anderen Datensatz haben.
-
Aber was noch besser ist, ist,
-
dass wir tatsächlich
im Zieldatensatz suchen,
-
da sie dort auch neue Möglichkeiten
-
zur Klassifizierung
der Informationen haben.
-
Das ist also nicht nur eine Person,
sondern in dem anderen Datensatz
-
steht auch, ob es sei eine Frau
oder etwas anderes,
-
mit dem sie sich einordnen lässt.
-
Und wenn in dem anderen Datensatz,
viele andere Vokabeln verwendet werden,
-
hilft das auch bei der gesamten
Informationsbeschaffung.
-
Damit möchte ich auch sagen,
dass wir denken,
-
dass wir gebündelte Abfragen
besser präsentieren können,
-
denn wenn wir uns das Abfrageprotokoll
von Malyshev et al. ansehen,
-
sehen wir, dass wir
aus den organischen Abfragen
-
nur sehr wenige gebündelte
Suchergebnisse haben.
-
Und tatsächlich ist Bündelung einer
der Hauptvorteile von Verbindungsdaten.
-
Also vielleicht brauchen die Community
oder die Leute, die Wikidata benutzen,
-
auch mehr Beispiele dazu.
-
Und wenn wir uns die Liste
der verwendeten Endpunkte ansehen,
-
ist dies keine vollständige Liste
und wir haben noch viele mehr.
-
Natürlich wurden diese Daten
aus Abfragen bis März 2018 analysiert,
-
aber wir sollten uns jedoch die Liste
der gebündelten Endpunkte ansehen,
-
die wir haben und sehen, ob wir sie
wirklich benutzen oder nicht.
-
Also zwei Fragen,
die ich für das Publikum habe,
-
die wir nachher als Grundlage
für eine Diskussion verwenden können:
-
Welche Datenqualitätsprobleme sollten
eurer Meinung nach behoben werden
-
aufgrund eurer Bedürfnisse?
-
Aber ebenso, wo braucht ihr
mehr Automatisierung,
-
die euch beim Bearbeiten
oder dem Kontrollieren hilft.
-
Das ist alles, vielen Dank.
-
(Jose Emilio Labra) Okay,
worüber ich sprechen werde,
-
sind einige Tools, die wir im Zusammenhang
mit Shape Expressions entwickelt haben.
-
Also darüber möchte ich etwas erzählen.
-
Ich bin Jose Emilio Labra,
-
aber all diese Tools wurden
von verschiedenen Leuten gemacht,
-
hauptsächlich im Zusammenhang
mit W3C ShEx,
-
der Shape Expressions Community Group.
-
ShEx Community Group.
-
Also das erste Tool, das ich
erwähnen möchte, ist RDFShape,
-
dies ist ein allgemeines Werkzeug,
-
weil Shape Expressions
nicht nur für Wikidata sind.
-
Shape Expressions ist eine Sprache
zur allgemeinen Validierung von RDF.
-
Dieses Tool wurde
hauptsächlich von mir entwickelt
-
und es ist ein Werkzeug,
um RDF im Allgemeinen zu validieren.
-
Wenn ihr also mehr über RDF
erfahren wollt oder RDF validieren möchtet
-
oder SPARQL-Endpunkte
nicht nur in Wikidata,
-
ist meine Empfehlung,
dass ihr dieses Tool verwenden könnt.
-
Auch zum Unterrichten.
-
Ich bin Lehrer an der Universität
-
und ich benutze es
in meinem Semantic-Web-Kurs,
-
um RDF zu unterrichten.
-
Wenn ihr also RDF lernen möchtet,
halte ich es für ein nützliches Werkzeug.
-
Dies ist beispielsweise
eine Visualisierung
-
eines RDF-Diagramms mit dem Tool.
-
Aber bevor ich letzten Monat
hierher gekommen bin,
-
habe ich einen Fork von rdfshape
speziell für Wikidata erstellt,
-
weil ich dachte...
-
Es heißt WikiShape und ich habe es gestern
als Geschenk für Wikidata präsentiert.
-
Was ich also genommen habe, ist...
-
Ich habe alles entfernt,
was nicht mit Wikidata zu tun hatte
-
und um einige Dinge zu hartcodieren,
zum Beispiel den Wikidata-SPARQL-Endpunkt.
-
Doch jetzt hat mich jemand gefragt, ob ich
das auch für Wikibase machen könnte.
-
Und es ist auch für Wikibase
sehr einfach zu machen.
-
Also dieses Tool, WikiShape,
ist ziemlich neu.
-
Ich denke, es funktioniert,
die meisten Funktionen,
-
aber es gibt einige Funktionen,
die möglicherweise nicht funktionieren,
-
und wenn ihr es versuchen wollt
oder es verbessern wollt,
-
sagt es mir bitte.
-
Das sind also [unverständlich] Aufnahmen,
-
aber ich denke,
ich kann es auch so versuchen,
-
Also lasst es uns versuchen.
-
Mal sehen, ob es funktioniert.
-
Zuerst muss ich da rausgehen...
-
Hier.
-
Okay, ja. Das ist also das Werkzeug hier.
-
Dinge, die ihr mit dem Tool
zum Beispiel machen könnt,
-
sind, ihr könnt Schemas,
Entitätsschemas überprüfen.
-
Ihr wisst, dass es
einen neuen Namespace gibt,
-
der E-irgendwas heißt.
-
Wenn ihr also hier zum Beispiel
anfangt zu schreiben "Mensch"...
-
Während ihr schreibt, könnt ihr
mittels der Autovervollständigung prüfen.
-
Dies ist zum Beispiel
die Shape Expression für Mensch
-
und das sind die Shape Expressions hier.
-
Und wie ihr sehen könnt,
hat dieser Editor Syntax-Hervorhebung,
-
das ist... naja,
vielleicht ist der Bildschirm zu klein.
-
Ich kann versuchen, es größer zu machen.
-
Vielleicht seht ihr es jetzt besser.
-
Also... und das ist der Editor
mit Syntax-Hervorhebung und er hat auch...
-
dieser Editor stammt
aus demselben Quellcode
-
wie der Wikidata-Abfragedienst.
-
Also zum Beispiel,
wenn man mit der Maus hier schwebt,
-
zeigt es die Beschriftungen
der verschiedenen Eigenschaften.
-
Also ich finde, das ist sehr hilfreich,
weil jetzt...
-
die Entitätsschemata in Wikidata
-
sind nur eine Idee in einfachem Text.
-
Aber ich denke, dieser Editor ist
viel besser, weil er Autocomplete hat
-
und er hat auch...
-
Ich meine zum Beispiel, wenn ihr
eine Einschränkung hinzufügen wolltet,
-
sagt ihr "wdt:",
-
und fangt an zu schreiben "author"
-
und klickt dann mit Strg + Leertaste
-
und es schlägt euch
die verschiedenen Einträge vor.
-
Das ist also ähnlich
wie beim Wikidata-Abfragedienst,
-
aber speziell für Shape Expressions,
-
weil ich das Gefühl habe,
Shape Expressions zu kreieren
-
ist nicht schwieriger als
das Schreiben von SPARQL-Abfragen.
-
Manche Leute denken, dass es
auf dem gleichen Niveau ist.
-
Ich denke, es ist
wahrscheinlich einfacher.
-
Denn die Shape Expressions waren,
als wir es entworfen haben,
-
haben wir es getan,
um die Arbeit zu vereinfachen.
-
Okay, das ist eines der ersten Dinge,
die ihr in diesen Editor habt
-
für Shape Expressions.
-
Und dann habt ihr zum Beispiel
auch die Möglichkeit, zu visualisieren.
-
Wenn man eine Shape Expression habt
verwendet man zum Beispiel...
-
Ich denke, "written"
ist eine schöne Shape Expression,
-
weil sie einige Beziehungen
zwischen verschiedenen Dingen hat.
-
Und das ist die UML-Visualisierung
von schriftlichen Arbeiten.
-
In UML sind die verschiedenen
Eigenschaften leicht zu erkennen.
-
Wenn ihr dies macht - mir wurde das klar,
als ich das mit mehreren Leuten versuchte,
-
finden diese einige Fehler
in ihren Shape Expressions,
-
denn es ist leicht zu erkennen,
-
welche Eigenschaften fehlen
oder was auch immer.
-
Dann hier eine andere Möglichkeit ist,
-
dass ihr auch validieren könnt,
ich habe es hier, die Validierung.
-
Ich glaube, ich hatte es in einem Label,
vielleicht habe ich es geschlossen.
-
Okay, aber ihr könnt beispielsweise hier
Validate entities klicken,
-
zum Beispiel...
-
"q42" mit "e42", das ist Urheber.
-
Mit "human" können wir
es machen, glaube ich.
-
Und dann ist es...
-
es dauert eine Weile, weil dabei
die SPARQL-Abfragen ausgeführt werden
-
und jetzt, zum Beispiel,
scheitert es am Netzwerk, aber...
-
Also ihr könnt es versuchen.
-
Gut, lasst uns mit der Präsentation
der anderen Tools fortfahren.
-
Mein Rat ist also,
wenn ihr es versuchen möchtet
-
und Feedback wollt, lasst es mich wissen.
-
Also, um mit der
Präsentation fortzufahren...
-
Das ist also WikiShape.
-
Dann, das habe ich schon erwähnt,
-
gibt es den Shape Expressions Editor,
-
das ist ein eigenständiges Projekt
in GitHub.
-
Ihr könnt es in eurem
eigenen Projekt verwenden.
-
Wenn ihr ein Tool für
Shape Expression benötigt,
-
könnt ihr es einfach in jedes
andere Projekt einbetten.
-
Das ist auf GitHub
und ihr könnt es benutzen.
-
Der gleiche Autor, einer meiner Schüler,
-
hat auch einen Editor
für Shape Expressions erstellt,
-
ebenfalls inspiriert
vom Wikidata-Abfragedienst,
-
wo ihr in dieser Spalte
-
diesen vorwiegend visuellen Editor
für SPARQL-Abfragen habt,
-
wo ihr diese Dinge bewerkstelligen könnt.
-
Das ist also eine Bildschirmaufnahme.
-
Ihr könnt sehen, dass dies
die Shape Expressions im Text sind.
-
Dies ist jedoch eine formularbasierte
Shape Expression,
-
bei der es wahrscheinlich
etwas länger dauern würde.
-
Hier könnt ihr die verschiedenen Zeilen
in die verschiedenen Felder einfügen.
-
Oay, dann gibt es ShExEr.
-
Wir haben...
-
das wird von einem Doktoranden
an der Universität von Oviedo gemacht
-
und er ist hier, damit er
ShExEr präsentieren kann.
-
(Danny) Hallo, ich bin Danny Fernández,
-
Ich bin Doktorand an der Universität
von Oviedo und arbeite mit Labra.
-
Da uns die Zeit davon läuft,
lasst uns dies schnell machen.
-
Wir starten also keine Demo,
sondern zeigen nur einige Screenshots.
-
Okay, also die übliche Art,
mit Shape Expressions zu arbeiten
-
oder einer beliebigen Formsprache, ist,
-
dass Sie einen Domain-Experten haben,
-
der als Erstes definiert,
wie der Graph aussehen soll
-
einige Strukturen definiert
-
und dann verwendet man diese Strukturen,
-
um die tatsächlichen Daten
dagegen zu validieren.
-
Dieses Tool und auch diejenigen,
die von Labra vorgestellt wurden,
-
sind Allzweckwerkzeuge
für jede RDF-Quelle.
-
Es ist so konzipiert,
dass es umgekehrt funktioniert.
-
Man hat bereits einige Daten,
-
Man wählt aus, welche Notizen
die Form erhalten soll
-
und dann extrahiert oder schließt
man die Form automatisch.
-
Also, auch wenn dies
ein Allzweckwerkzeug ist,
-
was wir für diese WikidataCon
gemacht haben,
-
ist diese schicke Schaltfläche.
-
Wenn man darauf klickt,
was im Wesentlichen passiert, ist,
-
es gibt so viele Konfigurationsparameter
-
und es konfiguriert es für die Arbeit
mit dem Wikidata-Endpunkt
-
und ich bin fast fertig, sorry.
-
Sobald man diesen Knopf drückt,
erhält man im Wesentlichen Folgendes.
-
Nachdem man ausgewählt hat,
welche Art von Notizen,
-
was für Instanzen unserer Klasse,
was auch immer man will,
-
erhält man ein automatisches Schema.
-
Alle Einschränkungen sind danach sortiert,
-
wie viele Modi tatsächlich
damit übereinstimmen.
-
Man kann so die selteneren filtern
und so weiter.
-
Also wir haben da unten
ein Poster über dieses Thema
-
und ich werde unten und oben sein
-
und überall den ganzen Tag.
-
Wer also weiteres Interesse
an diesem Tool hat,
-
kann mich einfach
während dieses Events ansprechen.
-
Und jetzt werde ich Labra
das Mikro zurückgeben, danke.
-
(Jose) Also lasst uns mit
den anderen Tools fortfahren.
-
Ein anderes Werkzeug
ist der ShapeDesigner.
-
Andra, möchtest du jetzt
den ShapeDesigner machen
-
oder vielleicht später im Workshop?
-
Es gibt einen Workshop...
-
Heute Nachmittag gibt es einen Workshop
speziell für Shape Expressions und...
-
Die Idee ist, dass wir dort
mehr in die Praxis gehen können,
-
und wenn ihr etwas ShEx üben möchtet,
könnt ihr es dort tun.
-
Dieses Tool ist ShEx... und hier ist Eric,
-
also kannst du es präsentieren.
-
(Eric) Also einfach super schnell.
-
Das, was ich sagen möchte, ist,
-
dass ihr wahrscheinlich bereits
die ShEx-Schnittstelle gesehen habt,
-
die auf Wikidata zugeschnitten ist.
-
Das ist effektiv vereinfacht
und speziell auf Wikidata zugeschnitten
-
da die Generische mehr Funktionen hat,
-
sich aber herausstellte -
ich dachte, ich sollte es erwähnen -
-
weil eine dieser Funktionen
besonders nützlich
-
zum Debuggen von Wikidata-Schemas ist.
-
Das heißt, wenn ihr hingeht
und den Slurp-Modus wählt,
-
was es tut, ist, es sagt,
während ich validiere,
-
möchte ich alle Tripel herausziehen
und das bedeutet,
-
wenn ich ein paar Ausfälle bekomme,
-
kann ich durchgehen und anfangen,
diese Fehler zu betrachten und zu sagen:
-
Okay, was sind die Dreiergruppen,
die hier drin sind -
-
Entschuldigung,
die Dreiergruppen sind da unten,
-
dies ist nur ein Protokoll dessen,
was passiert ist -
-
und dann könnt ihr einfach da sitzen
und in Echtzeit damit experimentieren,
-
als würde man mit etwas
spielen und es verändert sich.
-
Es ist also eine schnellere Variante,
um all diese Dinge zu erledigen.
-
Dies ist ein ShExC-Formular.
-
Dies ist etwas, was Joachim
vorgeschlagen hatte,
-
das nützlich sein könnte,
um Wikidata-Dokumente zu füllen
-
basierend auf einer Shape Expression
für dieses Dokument.
-
Dies ist nicht auf Wikidata zugeschnitten.
-
Dies soll jedoch nur heißen,
dass ihr ein Schema haben könnt
-
und einige Anmerkungen,
um genau zu sagen,
-
wie ich das Schema gerendert haben möchte,
-
und dann baut es einfach ein Formular auf.
-
Wenn ihr Daten habt,
kann es das Formular ausfüllen.
-
PyShEx [unverständlich].
-
(Jose) Ich denke, das ist das Letzte.
-
Ja, das letzte ist PyShEx.
-
PyShEx ist eine Python-Implementierung
von Shape Expressions.
-
Ihr könnt das auch
mit Jupyter Notebooks ausprobieren,
-
wenn ihr so etwas wollt.
-
Oay, das ist alles dazu.
-
(Andra) Ich werde also
über ein bestimmtes Projekt sprechen,
-
an dem ich beteiligt bin,
GenWiki genannt,
-
und wo wir uns auch
mit Qualitätsfragen beschäftigen.
-
Aber bevor wir auf die Qualität eingehen,
-
vielleicht eine kurze Einführung
darüber, was GenWiki ist,
-
und wir haben gerade einen Vordruck
einer Arbeit veröffentlicht,
-
die wir kürzlich geschrieben haben,
welche die Details des Projekts erklärt.
-
Ich sehe Leute fotografieren,
aber im Grunde genommen,
-
was Gene Wiki macht, es versucht,
biomedizinische Daten,
-
öffentliche Daten in Wikidata
hinein zu bekommen
-
und wir folgen einem bestimmten Muster,
um diese Daten in Wikidata zu bekommen.
-
Also, wenn wir ein neues Repository
oder einen neuen Datensatz haben,
-
der berechtigt ist,
in Wikidata aufgenommen zu werden,
-
ist der erste Schritt das
Engagement der Gemeinschaft.
-
Für eine Wikidata-Community
ist dies nicht erforderlich,
-
aber für eine lokale
Forschungsgemeinschaft,
-
und wir treffen uns persönlich oder online
oder auf irgend einer Plattform
-
und versuchen,
ein Datenmodell zu entwickeln,
-
das ihre Daten
mit dem Wikidata-Modell verbindet.
-
Also hier habe ich ein Bild
von einem Workshop,
-
der letztes Jahr hier stattgefunden hat.
-
Wir haben dort versucht, einen
bestimmten Datensatz anzuschauen
-
und Sie sehen eine Menge Diskussionen,
-
dann die Ausrichtung an schema.org
und andere vorhandenen Ontologien.
-
Und dann, am Ende des ersten Schritts,
-
haben wir eine Whiteboard-Zeichnung
des Schemas,
-
das wir in Wikidata implementieren wollen.
-
Was Sie dort sehen können,
ziemlich offensichtlich,
-
es ist im Hintergrund.
-
Wir können heute sogar einige Schemata
in diesem Panel erstellen.
-
Sobald wir das Schema eingerichtet haben,
-
versuchen wir als Nächstes,
das Schema maschinenlesbar zu machen,
-
weil man umsetzbare Modelle braucht,
-
um die Daten zu überbrücken,
die man einbringt
-
aus jeder biomedizinischen
Datenbank nach Wikidata.
-
Und hier wenden wir Shape Expressions an.
-
Und das verwenden wir,
-
weil man mit Shape Expressions
testen kann,
-
ob der Datensatz tatsächlich...
nein, man kann zuerst sehen,
-
ob bereits vorhandene Daten in Wikidata
dem gleichen Datenmodell folgen,
-
das im vorherigen Prozess erreicht wurde.
-
Dann können wir mit
den Shape Expressions überprüfen:
-
Okay, die Daten,
die zu diesem Thema in Wikidata sind,
-
müssen bereinigt werden
oder wir müssen unser Modell
-
an das Wikidata-Modell anpassen
oder umgekehrt.
-
Sobald das erledigt ist
und wir anfangen, Bots zu schreiben,
-
und die Bots sähen
regelmäßig die Informationen,
-
die in den primären Quellen ist,
nach Wikidata.
-
Und wenn die Bots fertig sind,
-
schreiben wir diese Bots
mit einer Plattform namens...
-
mit einer Python-Bibliothek
namens Wikidata Integrator.
-
Diese kam aus unserem Projekt.
-
Und sobald wir unsere Bots haben,
benutzen wir eine Plattform namens Jenkins
-
für die kontinuierliche integration.
-
Und mit Jenkins
-
aktualisieren wir ständig
die primären Quellen mit Wikidata.
-
Und dies ist ein Diagramm für die Arbeit,
die ich zuvor erwähnt habe.
-
Das ist unsere aktuelle Landschaft.
-
Also jede orangefarbene Kiste da drauf ist
eine primäre Ressource für Medikamente,
-
Proteine, Gene, Krankheiten,
chemische Verbindungen mit Wechselwirkung,
-
und dieses Modell ist zu klein,
um es jetzt zu lesen.
-
Aber das ist die Datenbank, die Quellen,
-
die wir in Wikidata verwalten
-
und überbrücken zu den Primärquellen.
-
Hier ist so ein Workflow.
-
Einer unserer Partner
ist die Disease Ontology.
-
Die Disease Ontology
ist eine CC0 Ontologie
-
und die CC0 Ontologie hat
einen eigenen Kurationszyklus
-
und sie aktualisieren nur
kontinuierlich die Disease Ontology,
-
um den Krankheitsbereich
-
oder die Interpretation
von Krankheiten zu reflektieren.
-
Und es gibt den Wikidata-Kurationszyklus
ebenso für Krankheiten,
-
wo die Wikidata-Community
ständig überwacht,
-
was auf Wikidata los ist.
-
Und dann haben wir zwei Rollen,
-
wir nennen sie umgangssprachlich
den Gatekeeper-Kurator,
-
und das waren ich und ein Kollege
vor fünf Jahren,
-
wo wir nur an unseren Computern saßen
und Wikipedia und Wikidata überwachten
-
und wenn es ein Problem gab, wurde es
der primären Community gemeldet,
-
die primäre Ressourcen, sie betrachteten
die Implementierung und beschlossen:
-
Okay, vertrauen wir
dem Input aus Wikidata?
-
Ja - dann wird erwägt,
geht es in den Kreislauf,
-
und die nächste Iteration
ist Teil der Disease Ontology
-
und wird in Wikidata zurückgespeist.
-
Wir machen dasselbe für WikiPathways.
-
WikiPathways ist ein von MediaWiki
inspiriertes Pfad-Repository.
-
Dieselbe Geschichte, es gibt bereits
verschiedene Pfad-Ressourcen
-
auf Wikidata.
-
Möglicherweise gibt es Konflikte
zwischen diesen Pfadressourcen
-
und diese Konflikte werden zurückgemeldet
-
von den Gatekeeper-Kuratoren
zu dieser Community,
-
und man pflegt
die einzelnen Kurationszyklen.
-
Aber wenn Sie sich an
den vorherigen Zyklus erinnern,
-
hier erwähnte ich nur zwei Zyklen,
zwei Ressourcen.
-
Das müssen wir für jede einzelne
Ressource tun, die wir haben,
-
und wir müssen alles,
was vor sich geht, verwalten,
-
denn wenn ich Kuration sage,
-
meine ich wirklich,
auf die Wikipedia-Top-Seiten zu gehen,
-
auf die Wikidata-Top-Seiten
zu gehen und das auszuprobieren.
-
Das skaliert nicht mit den beiden
Gatekeeper-Kuratoren, die wir hatten.
-
Also, als ich 2016 an einer
Konferenz teilgenommen habe,
-
wo Eric einen Vortrag
über Shape Expressions hielt,
-
sprang ich auf den Zug und sagte: Okay,
-
mit Hilfe von Shape Expressions
können wir feststellen,
-
welche Unterschiede in Wikidata bestehen
-
und so können die Gatekeeper
-
effizienter berichten in dem Log.
-
Dieses Jahr war ich von
der Schemaentität begeistert,
-
denn jetzt können wir
diese Entitätsschemata
-
auf Wikidata speichern,
-
auf Wikidata selbst,
während es zuvor auf GitHub war.
-
Und dies integriert mit
der Wikidata-Oberfläche,
-
man hat also Dinge
wie Dokumentendiskussionen,
-
man hat aber auch Revisionen.
-
Ihr könnt also die Top-Seiten
und die Revisionen in Wikidata nutzen,
-
um darüber zu diskutieren,
-
was in Wikidata ist
und was in den primären Ressourcen.
-
Also das, was Eric gerade vorgestellt hat,
ist schon ein ziemlicher Vorteil.
-
Also hier haben wir eine Shape Expression
für das menschliche Gen erfunden
-
und dann ließen wir es durch ShEx laufen
und wie Sie sehen können,
-
wir haben gerade erst eines.
-
Es gibt ein Problem,
das überwacht werden muss,
-
es gibt ein Element,
das nicht in dieses Schema passt,
-
und dann können Sie
bereits Schemaentitäten erstellen
-
und Kurationsberichte basierend auf...
-
und das an die verschiedenen
Kurationsberichte senden.
-
Aber die ShEx.js ist
eine integrierte Schnittstelle
-
und hier noch mal eine Folie zurück,
mache ich nur zehn,
-
aber wir haben Zehntausende
und das skaliert wieder nicht.
-
Der Wikidata Integrator
unterstützt jetzt auch ShEx
-
und dann können wir
einfach Item-Loops verwenden,
-
wo wir ja-nein, ja-nein,
wahr-falsch, wahr-falsch sagen.
-
Also nochmal,
-
eine Steigerung der Effizienz
beim Arbeiten mit den Berichten.
-
Aber jetzt, in letzter Zeit, baut das
auf dem Wikidata Query Service auf
-
und wir haben das etwas gedrosselt,
-
also nochmal, das skaliert nicht.
-
Es ist also immer noch
ein fortlaufender Prozess,
-
wie man mit Modellen auf Wikidata umgeht.
-
Und ShEx ist also nicht
nur furchteinflössend,
-
aber auch das Ausmaß ist einfach
zu groß, um damit umzugehen.
-
Also habe ich angefangen zu arbeiten,
dies ist mein erster Proof of Concept
-
oder meine erste Übung,
-
wo ich ein Werkzeug
namens yED verwendet habe
-
und ich fing an, diese Shape Expressions
zu zeichnen und weil...
-
und dann dieses Schema neu zu generieren
-
in dieses Schema in das JSON-Format
der Shape-Ausdrücke,
-
damit sich das einem Publikum öffnet,
-
das von den Shape Expressions-Sprachen
eingeschüchtert wird.
-
Tatsächlich gibt es jedoch ein Problem
mit diesen visuellen Beschreibungen,
-
denn dies ist auch ein Schema,
-
das tatsächlich von jemandem
in yEd gezeichnet wurde.
-
Und hier ist ein anderes, das schön ist.
-
Ich hätte das gerne an meiner Wand,
-
aber es ist immer noch nicht
interoperabel.
-
Ich möchte meinen Vortrag beenden...
-
und es war das erste Mal,
-
dass ich diese Folie gestohlen,
gebraucht habe.
-
Es ist eine Ehre, ihn im Publikum zu haben
-
und ich mag das wirklich:
-
"Die Leute denken, RDF ist eine Qual,
weil es kompliziert ist.
-
Die Wahrheit ist noch schlimmer,
es ist so einfach,
-
weil Sie mit realen Datenproblemen
arbeiten müssen,
-
die schrecklich kompliziert sind.
-
Während Sie RDF vermeiden können,
-
ist es schwieriger, komplizierte Daten
-
und komplizierte Computerprobleme
zu vermeiden."
-
Hier geht es um RDF, aber ich denke,
das gilt auch für das Modellieren.
-
Mein Diskussionspunkt ist also,
ob wir wirklich...
-
Wie bringen wir das Modellieren voran?
-
Sollen wir über ShEx
oder visuelle Modelle sprechen oder...
-
Wie machen wir weiter?
-
Vielen Dank für Ihre Zeit.
-
(Lydia) Vielen Dank.
-
Würdest du nach vorne kommen,
-
damit wir mit den Fragen
aus dem Publikum anfangen können?
-
Gibt es Fragen?
-
Ja.
-
Und ich denke,
wegen der Kamera müssen wir...
-
(Lydia) Ja.
-
(Zuschauer1) Also eine Frage
an Cristina, denke ich.
-
Also du hast im Wortlaut den Begriff
"Informationsgewinn" erwähnt
-
bei der Verknüpfung mit anderen Systemen.
-
Es gibt das informationstheoretische Maß
Informationsgewinn,
-
welches Statistik
und Wahrscheinlichkeit verwendet.
-
Hast du das... ich meine,
hast du genau dieses Maß gemeint,
-
den Informationsgewinn
aus der Wahrscheinlichkeitstheorie,
-
aus der Informationstheorie,
-
oder verwendest du einfach dieses Konzept,
-
um den Informationsgewinn
irgendwie zu messen?
-
Nein, also wir haben Maßnahmen
definiert und umgesetzt,
-
die die Shannon-Entropie verwenden,
-
auf dies bezieht sich das.
-
Ich wollte nicht auf die Details
der konkreten Formeln eingehen...
-
(Zuschauer1) Nein, klar,
das war meine Frage.
-
- (Cristina) Aber ja.
- (Zuschauer1) Danke.
-
(Zuschauer2) Ich habe eher
einen Kommentar als eine Frage.
-
(Lydia) Los geht es.
-
(Zuschauer2) Es gab also
viel Fokus auf der Item-Ebene
-
bezüglich der Qualität
und Vollständigkeit.
-
Eines der Dinge,
die mich beschäftigen, ist,
-
dass wir nicht dasselbe
auf Hierarchien anwenden
-
und ich glaube,
das wird uns ein Problem bereiten
-
dass unsere Hierarchie oft nicht gut ist.
-
Wir denken, dass dies
ein echtes Problem wird
-
beim Durchsuchen von Commons
und anderen Dingen.
-
Eine der Fähigkeiten,
die wir realisieren können, ist,
-
extern zu importieren --
-
Die Art und Weise, wie externe Thesauren
ihre Hierarchien strukturieren
-
mit der P4900 Qualifikation
für Oberbegriffe.
-
Aber was ich für sehr hilfreich halte,
wären viel bessere Werkzeuge dafür.
-
Damit kann man die Hierarchie
eines externen Thesaurus importieren
-
und das auf unsere
Wikidata-Items abbilden.
-
Sobald es mit diesen P4900-Qualifizierern
zusammen funktioniert,
-
kann man über SPARQL
ziemlich gute Abfragen durchführen,
-
um zu sehen, wo unsere Hierarchie
von dieser externen Hierarchie abweicht.
-
Zum Beispiel, Paula Morma,
User PKM, wie ihr vielleicht wisst,
-
hat viel über Mode ausgearbeitet.
-
Das nutzen wir also, um die Hierarchie
-
des Europeana Fashion Thesaurus
zu übernehmen
-
und die Getty AAT
Mode-Thesaurus-Hierarchie,
-
um dann zu sehen, wo die Lücken
-
in unseren höhergestuften Items waren,
-
was ein echtes Problem
für uns ist, weil das oft Dinge sind,
-
die nur als Seiten zur Disambiguierung
auf Wikipedia existieren,
-
Es fehlen also viele übergeordnete
Elemente in unseren Hierarchien
-
und das ist etwas, das wir in Bezug
auf Qualität und Vollständigkeit
-
ansprechen müssen.
-
Aber was wirklich helfen würde,
-
wäre ein besseres Werkzeug
als der Dschungel der Pull-Skripte,
-
die ich geschrieben habe.
-
Wenn jemand das in ein PAWS-Notizbuch
in Python schreiben könnte,
-
um einen externen Thesaurus
verwenden zu können,
-
dessen Hierarchie zu verwenden,
-
die als verknüpfte Daten
verfügbar sein können oder nicht,
-
um diese dann in Schnellanweisungen
umzusetzen und P4900-Werte einzugeben.
-
Und später dann,
-
wenn unsere Darstellung
vervollständigt wird,
-
diese P4900s zu aktualisieren,
denn sobald unsere Darstellung veraltet,
-
dichter wird,
-
müssen die Werte dieser
Qualifikationsmerkmale geändert werden,
-
um darzustellen, dass wir mehr
aus ihrer Hierarchie
-
in unserem System implementiert haben.
-
Wenn jemand das tun könnte,
wäre das sehr hilfreich, denke ich,
-
und wir müssen uns auch
andere Ansätze ansehen,
-
um die Qualität und Vollständigkeit
auf Hierarchieebene zu verbessern,
-
nicht nur auf der Artikelebene.
-
(Andra) Kann ich das ergänzen?
-
Ja, und das machen wir tatsächlich
-
und meine Empfehlung ist,
die Shape Expression zu betrachten,
-
die Finn gemacht hat
mit den lexikalischen Daten,
-
in denen er Shape Expressions erstellt
-
und dann auf Autorenausdrücken aufbaut,
-
so dass wir also dieses Konzept
der verknüpften Formausdrücke
-
in Wikidata haben.
-
Insbesondere der Anwendungsfall,
wenn ich richtig verstehe,
-
entspricht genau dem,
was wir in Gene Wiki machen.
-
Man hat also die Disease Ontology,
die in Wikidata importiert ist,
-
dann kommen die Krankheitsdaten
und wir wenden die Shape Expressions an,
-
um zu sehen, ob das
zu diesem Thesaurus passt.
-
Und es gibt andere Thesauren
-
oder andere Ontologien
für kontrolliertes Vokabular,
-
das noch in Wikidata rein muss
-
und genau deshalb sind
Shape Expressions so interessant,
-
weil sie für die Disease Ontology
möglich sind,
-
man kann Shape Expressions
für MeSH haben.
-
Man kann sagen, ich möchte
die Qualität überprüfen,
-
weil man auch in Wikidata den Kontext
bei einem kontrollierten Vokabular hat,
-
dass man sagt,
die Qualität entspricht dem,
-
aber die Community stimmt euch nicht zu.
-
Das Werkzeug ist also
in der Tat vorhanden,
-
aber jetzt müssen diese Modelle
erstellt und angewendet werden
-
auf die verschiedenen Anwendungsfälle.
-
(Zuschauer2)
Die Shape Expressions sind nützlich,
-
sobald ihr die externe Ontologie
in Wikidata abgebildet habt,
-
aber mein Problem ist,
dass dieser Zeitpunkt erst kommt.
-
Momentan legt es nur offen,
wie viel von der externen Ontologie
-
noch nicht in Wikidata enthalten ist
-
und wo die Lücken sind
-
und dies ist, wo ich denke,
dass viel robustere Werkzeuge,
-
mit denen ihr erkennen könnt,
was aus externen Ontologien fehlt,
-
sehr hilfreich wären.
-
Das größte Problem dort
-
sind nicht so sehr die Werkzeuge,
sondern mehr die Lizenzierung.
-
Also das Einspielen der Ontologien
in Wikidata ist ein Kinderspiel,
-
aber die meisten Ontologien haben,
wie kann ich das höflich sagen,
-
restriktive Lizenzierung, daher sind diese
nicht mit Wikidata kompatibel.
-
(Zuschauer2) Es gibt eine große Anzahl
von Thesauren im öffentlichen Sektor
-
in kulturellen Bereichen.
-
- (Andra) Dann müssen wir reden.
- (Zuschauer2) Kein Problem.
-
(Andra) Darüber müssen wir reden.
-
(Zuschauer3) Der Kommentar,
den ich machen möchte,
-
ist eigentlich eine Antwort auf James.
-
Also die Sache ist die,
dass Hierarchien Graphen machen
-
und wenn du ...
-
Ich möchte im Grunde genommen
über ein bekanntes Problem
-
in Hierarchien sprechen,
das sind zirkuläre Hierarchien,
-
die auf sich selbst zurück führen,
wenn es ein Problem gibt,
-
das sollte man nicht in Hierarchien haben.
-
Witzigerweise passiert dies
häufig in Wikipedia-Kategorien,
-
wir haben viele Kreise in Kategorien.
-
Aber die gute Nachricht ist, dass dies...
-
Technisch gesehen ist es
ein PMP-vollständiges Problem.
-
Also ihr könnt dies nicht einfach finden,
-
wenn ihr ein Diagramm davon baut.
-
Aber es gibt viele Methoden,
die entwickelt wurden,
-
um Probleme in diesen
Hierarchiediagrammen zu finden.
-
Es gibt einen Artikel
-
namens Breaking Cycles
in Noisy Hierarchies
-
und der wurde verwendet,
-
um die Kategorisierung
der englischen Wikipedia zu erleichtern.
-
Ihr könnt dies einfach nehmen
und diese Hierarchien
-
in Wikidata anwenden,
-
und dann könnt ihr Dinge finden,
die problematisch sind
-
und diejenigen einfach entfernen,
die Probleme verursachen,
-
und die eigentlichen Probleme finden.
-
Das ist also nur eine Idee,
nur, damit ihr...
-
(Zuschauer2) Das ist schön und gut,
-
aber ich denke,
ihr unterschätzt die Anzahl
-
der schlechten Beziehungen
in den Subklassen, die wir haben.
-
Das ist, wie eine Stadt in einem
völlig falschen Land zu haben
-
und es gibt Werkzeuge in der Geographie,
um so etwas zu identifizieren,
-
und wir brauchen viel bessere
Werkzeuge in Hierarchien,
-
um zu identifizieren, wo das
Äquivalent des Items für das Land
-
vollständig fehlt oder tatsächlich
in einer Subklasse eingeordnet ist,
-
die eine völlig andere Bedeutung hat.
-
(Lydia) Ja, ich denke,
du sprichst etwas an,
-
das ich und mein Team
immer wieder von Leuten hören,
-
die unsere Daten auch ziemlich
häufig wiederverwenden, ja.
-
Einzelne Datenpunkte
könnten großartig sein,
-
aber wenn ihr euch die Ontologie
und so weiter ansehen müsst,
-
dann wird es sehr...
-
Und ich denke, eines der großen Probleme,
warum dies passiert, ist,
-
dass vieles, was auf Wikidata
editiert wird, auf der Grundlage
-
eines einzelnen Artikels basiert, ja.
-
Ihr bearbeitet dieses Element,
-
ohne zu bemerken, dass die Konsequenzen
von globaler Natur sind
-
im Bezug auf dem Rest
des Diagramms zum Beispiel.
-
Und wenn jemand eine Idee hat,
wie man dies sichtbarer machen kann,
-
die Folgen einer einzelnen
lokalen Bearbeitung,
-
ich denke, das wäre es wert,
das herauszufinden,
-
den Leuten besser zu zeigen,
was die Folge ihrer Überarbeitung ist,
-
die sie in gutem Glauben vornahmen,
-
was das ist.
-
Whoa! OK, fangen wir an mit, ja,
du, dann du, dann du, dann du.
-
(Zuschauer4) Nun, nach dieser Diskussion
-
will ich nur meine Zustimmung geben
zu dem, was James sagte.
-
Also das Gefährlichste scheint
im Wesentlichen die Hierarchie zu sein,
-
nicht die Hierarchie, sondern allgemein
die Semantik der Beziehungen
-
der Subklassen aus Wikidata.
-
Ich habe vor kurzem Sprachen studiert
nur für die Zwecke dieser Konferenz
-
und zum Beispiel finden Sie viele Fälle,
-
wo eine Sprache sowohl Teil als auch
Subklasse derselben Sache ist, okay.
-
Man könnte auch sagen,
dass wir eine flexible Ontologie haben.
-
Wikidata gibt manchmal
die Freiheit, dies auszudrücken,
-
zum Beispiel, weil diese Ontologie
der Sprachen
-
auch politisch kompliziert ist, oder?
-
Es ist sogar gut, in der Lage zu sein,
-
ein gewisses Maß
an Unsicherheit auszudrücken.
-
Aber stellen Sie sich vor,
wer daraus maschinell lesen möchte.
-
Das ist also wirklich problematisch.
-
Andererseits glaube ich nicht,
-
dass Ontologie jemals
von irgendwoher importiert wurde,
-
das ist etwas,
was ursprünglich von uns kommt.
-
Wikipedia hat seit den Anfängen
seinen Nutzen daraus gezogen, meine ich.
-
Also frage ich mich, diese Sache
mit den Shape Expressions-Ding ist toll.
-
Das Validieren und Reparieren
von Wikidata-Ontologien
-
durch externe Ressourcen, schöne Idee.
-
Werden wir letztendlich dort enden,
dass wir externen Ontologien
-
in Wikidata widerspiegeln?
-
Und ebenso, was sollen wir
mit dem Kern unserer Ontologie machen,
-
der nie von externen Ressourcen
verwendet wird,
-
wie können wir das beheben?
-
Und ich denke wirklich,
dass das ein Problem für sich sein wird.
-
Darauf müssen wir uns unabhängig
von der Idee konzentrieren,
-
Ontologien mit etwas Externem
zu validieren.
-
(Zuschauer5) Okay, die Constraints
und Shapes sind sehr beeindruckend,
-
was man damit machen kann,
-
aber das Hauptanliegen ist
nicht wirklich klar hervorgetreten.
-
Das liegt daran, dass wir jetzt
genauer definieren können,
-
was wir von den Daten erwarten.
-
Vorher muss jeder seine eigenen
Tools und Skripte schreiben
-
und so ist es sichtbarer
und wir können darüber diskutieren.
-
Aber weil es nicht darum geht,
was falsch oder richtig ist,
-
sondern um eine Erwartung
-
und ihr werdet
unterschiedliche Erwartungen
-
und Diskussionen darüber haben,
-
wie wir Dinge in Wikidata
modellieren wollen,
-
und das...
-
Der aktuelle Stand ist nur
ein Schritt in die richtige Richtung,
-
denn jetzt braucht man
sehr viel technisches Know-how,
-
um da reinzukommen
-
und wir brauchen bessere Möglichkeiten,
um diese Constraints zu visualisieren,
-
vielleicht um es
in natürliche Sprache umzuwandeln,
-
damit es die Leute
besser verstehen können,
-
aber es geht weniger darum,
was falsch oder richtig ist.
-
(Lydia) Ja.
-
(Zuschauer6) Zu den Qualitätsproblemen
möchte ich einfach hinzufügen,
-
viele der Probleme,
auf die ich gestoßen bin,
-
waren Meinungsunterschiede
zwischen Instanz von und Subklasse.
-
Ich würde behaupten,
Fehler in diesen Situationen
-
und zu versuchen, diese zu finden,
ist sehr zeitaufwändig.
-
Ich bin auf so etwas gestoßen wie:
-
"Oh, wenn ich
sehr eindrucksvolle Items finde,
-
die in etwa...
-
und dann verwendet man
alle Subklasseninstanzen,
-
um alle abgeleiteten Anweisungen
davon zu finden."
-
Dies ist eine sehr nützliche Methode,
um nach diesen Fehlern zu suchen.
-
Aber ich war neugierig,
ob Shape Expressions,
-
ob es ...
-
ob dies als Werkzeug zur Lösung
-
dieser Probleme
verwendet werden kann, aber ja...
-
(Zuschauer7) Wenn es einen
strukturellen Footprint hat...
-
Wenn es einen strukturellen Footprint hat,
-
der irgendwie fälschbar ist,
-
ihr seht das und könnt sagen,
das ist falsch,
-
ja, dann kannst du das machen.
-
Aber wenn es nur darum geht,
es auf reale Objekte abzubilden,
-
dann wirst du einfach viel,
viel Hirnschmalz brauchen.
-
(Zuschauer8) Hallo, Pablo Mendes
von Apple Siri Knowledge.
-
Wir sind hier, um herauszufinden,
-
wie wir dem Projekt
und der Community helfen können,
-
aber Cristina machte den Fehler,
zu fragen, was wir wollen.
-
Also eine Sache,
dich ich gerne sehen würde:
-
Es geht viel um Überprüfbarkeit,
-
was eines der Grundprinzipien
des Projekts in der Gemeinschaft ist,
-
und Vertrauenswürdigkeit.
-
Nicht jede Aussage ist gleich,
einige von ihnen sind heftig umstritten,
-
einige von ihnen sind leicht zu lösen,
-
wie das Geburtsdatum
einer Person zu überprüfen.
-
Wie ihr heute in der Keynote gesehen habt,
-
ist Geschlechterproblematik komplizierter.
-
Könnt ihr ein bisschen
darüber diskutieren,
-
was ihr aus diesem Bereich
der Datenqualität wisst,
-
über Vertrauenswürdigkeit
und Überprüfbarkeit?
-
Wenn es nicht viel ist, würde ich
gerne viel mehr sehen.
-
(Lydia) Ja.
-
Dazu haben wir offenbar
nicht viel zu sagen.
-
(Andra) Ich denke, wir können viel tun,
-
aber ich hatte gestern
ein Gespräch mit dir.
-
Mein Lieblingsbeispiel, das ich gestern
gelernt habe und bereits veraltet ist,
-
ist, wenn Sie zu Q2 gehen,
was die Erde ist,
-
da gibt eine Behauptung,
die besagt, die Erde sei flach.
-
Und ich liebe dieses Beispiel,
-
weil es da draußen eine Community gibt,
-
die das behauptet und sie haben
nachprüfbare Ressourcen.
-
Also ich denke, es ist ein echter Fall,
-
der nicht abgelehnt werden
sondern in Wikidata sein sollte.
-
Und ich denke, dass Shape Expressions
dort wirklich hilfreich sein können,
-
weil man sagen kann: Okay,
-
ich bin wirklich an diesem
Anwendungsfall interessiert,
-
oder dies ist ein Anwendungsfall,
mit dem ihr nicht einverstanden seid.
-
Es kann aber auch
einen Anwendungsfall geben,
-
bei dem ihr sagt, okay,
das interessiert mich.
-
Es gibt dieses Beispiel,
wo ihr sagt, ich habe Glukose.
-
Und Glukose, wenn man Biologe ist,
-
interessiert man sich nicht für
die chemischen Restriktionen
-
des Glukosemoleküls,
-
Glukose ist immer gleich.
-
Aber wenn man Chemiker ist,
zuckt man zusammen, wenn man das hört,
-
man hast etwa 200...
-
Dann kann man
viele Shape Expressions nehmen,
-
okay, ich komme mit...
aus der Sicht eines Chemikers,
-
ich wende das an.
-
Und dann sagst du, ich gehe von
einem biologischen Anwendungsfall aus,
-
ich wende diese Shape Expression an.
-
Und wenn ihr dann kollaborieren möchtet,
-
ja, nun, dann solltet ihr mit Eric
über ShEx-Maps sprechen.
-
Und so... aber diese Reise
beginnt gerade erst.
-
Aber ich persönlich glaube, dass dies
in diesem Bereich sehr entscheidend ist.
-
(Lydia) Okay. Da drüben.
-
(Zuschauerin1) Ich hatte einige Ideen
-
zu einigen Punkten in den Diskussionen.
-
Also werde ich versuchen,
diese nicht zu vergessen...
-
Ich hatte drei Ideen, also...
-
Basierend auf dem, was James
vor einer Weile gesagt hat,
-
haben wir von Anfang an ein sehr,
sehr großes Problem bei Wikidata
-
bei der oberen Ontologie.
-
Darüber haben wir vor zwei Jahren
bei WikidataCon gesprochen
-
und wir haben darüber
bei Wikimania gesprochen.
-
Bei jedem Wikidata-Treffen
-
sprechen wir darüber,
-
weil es ein sehr großes Problem
direkt vor unseren Augen ist.
-
Was eine Entität ist, was Arbeit ist,
-
was ein Genre ist, Kunst,
-
wirklich die wichtigsten Konzepte.
-
Und das ist tatsächlich
ein sehr schwacher Punkt
-
im Bezug auf die globale Ontologie,
-
weil die Leute versuchen,
regelmäßig aufzuräumen
-
und alles komplett kaputt gemacht haben.
-
Ich denke, einige von euch
erinnern sich vielleicht an den Typ,
-
der in gutem Glauben absolut alle Städte
auf der Welt durcheinander brachte.
-
Das waren keine
geografischen Objekte mehr,
-
daher gibt es überall
Verstöße gegen Constraints.
-
Und es passierte in gutem Glauben,
-
weil er eigentlich einen Fehler
in einem Artikel korrigierte,
-
aber alles brach zusammen.
-
Und ich bin nicht sicher,
wie wir das lösen können,
-
da es eigentlich
keine externe Einrichtung gibt,
-
die wir verwenden könnten,
-
weil alle daran arbeiten...
-
Nun, wenn ich Datenbank
für Kunst am Laufen habe,
-
werde ich nur das verwendete Label
für Kunst nehmen,
-
ich kümmere mich nicht
um das philosophische Konzept dessen,
-
was eine Entität ist,
-
und das ist eigentlich...
-
Ich kenne keine Datenbank,
die auf diesem Niveau arbeitet,
-
aber das ist der schwächste
Punkt von Wikidata.
-
Und wahrscheinlich,
wenn wir über Datenqualität sprechen,
-
ist das eigentlich
ein großer Teil davon, also...
-
Und ich denke, es ist dasselbe,
was wir gesagt haben...
-
Oh, tut mir leid, ich wechsle das Thema
-
Aber wir haben in verschiedenen Meetings
über Qualitäten gesprochen,
-
dass einige von uns eigentlich
gute Modellierung machen,
-
ShEx und solche Dinge tun.
-
Die Leute sehen es nicht auf Wikidata,
sie sehen ShEx nicht,
-
Sie sehen das WikiProjekt nicht
auf der Diskussionsseite und manchmal
-
sehen sie nicht einmal
die Diskussionsseiten von Eigenschaften,
-
die ausdrücklich angeben, a),
diese Eigenschaft wird dafür verwendet.
-
Letzte Woche zum Beispiel habe ich
Constraints einer Eigenschaft hinzugefügt.
-
Das Constraint wurde
ausdrücklich beschrieben
-
in der Diskussion bei
der Einführung der Eigenschaft.
-
Ich hatte gerade den technischen Teil
zum Hinzufügen der Constraint erstellt
-
und jemanden meinte:
-
"Was! Du hast alle
meine Bearbeitungen zerstört!"
-
Und die letzten zwei Jahre nutzte
er die Eigenschaft auf die falsche Art.
-
Und die Eigenschaft
war eigentlich sehr klar,
-
aber es gab keine Warnungen oder so etwas.
-
Und so ist es auch beim Pink Pony,
dass wir bei Wikimania gesagt haben,
-
WikiProject sichtbarer zu machen
oder ShEx sichtbarer zu machen,
-
aber, und das hat Cristina gesagt,
-
wir haben ein Problem
mit der Sichtbarkeit
-
der vorhandenen Lösungen.
-
Und in dieser Session
haben wir alle darüber geredet,
-
wie man mehr mit ShEx arbeitet
-
oder die Arbeit der Leute erleichtert,
die alles korrigieren.
-
Aber wir korrigieren seit
dem ersten Tag von Wikidata
-
und global verlieren wir
und wir verlieren, weil, na ja,
-
wenn ich weiß,
dass Namen kompliziert sind,
-
aber ich die einzige bin,
die die Korrekturen macht,
-
der Typ, der den lateinischen
Namen hinzugefügt hat
-
für alle chinesischen Forscher,
-
dafür brauche ich Monate
um das zu korrigieren.
-
und ich kann es nicht alleine tun,
-
und er hat einen großen Batch gemacht.
-
Also brauchen wir wirklich...
-
Wir haben mehr ein Sichtbarkeitsproblem
als ein Werkzeugproblem, denke ich,
-
weil wir viele Werkzeuge haben.
-
(Lydia) Richtig, aber leider habe ich
ein Zeichen bekommen,
-
wir müssen das also abschließen.
-
Vielen Dank für eure Kommentare.
-
Ich hoffe, ihr werdet die Diskussion
über den Tag fortführen
-
und vielen Dank für euren Beitrag.