< Return to Video

cdn.media.ccc.de/.../wikidatacon2019-9-eng-Data_quality_panel_hd.mp4

  • 0:06 - 0:10
    Hallo allerseits zum
    Datenqualitätspanel.
  • 0:10 - 0:14
    Datenqualität ist wichtig,
    weil immer mehr Menschen da draußen
  • 0:14 - 0:16
    sich darauf verlassen, dass unsere Daten
    in einem guten Zustand sind.
  • 0:16 - 0:20
    Daher werden wir
    über die Datenqualität sprechen
  • 0:20 - 0:25
    und es werden vier Sprecher
    kurze Einführungen geben
  • 0:25 - 0:28
    zu Themen im Zusammenhang
    mit der Datenqualität
  • 0:28 - 0:30
    und im Anschluss
    folgen Fragen und Antworten.
  • 0:30 - 0:32
    Und der Erste ist Lucas.
  • 0:34 - 0:35
    Vielen Dank.
  • 0:36 - 0:40
    Hallo, ich bin Lucas
    und beginne mit einer Übersicht
  • 0:40 - 0:44
    der Datenqualitätstools,
    die wir bereits auf Wikidata haben
  • 0:44 - 0:46
    und auch von einigen Dingen,
    die bald verfügbar sind.
  • 0:47 - 0:51
    Und ich habe das alles
    in allgemeine Themen gruppiert
  • 0:51 - 0:54
    wie Fehler sichtbarer machen,
    Probleme angehbar machen,
  • 0:54 - 0:57
    den Daten mehr Aufmerksamkeit widmen,
    damit die Leute die Probleme bemerken,
  • 0:57 - 0:59
    einige der häufigen Fehlerquellen beheben,
  • 1:00 - 1:03
    die Qualität der vorhandenen Daten sichern
  • 1:03 - 1:04
    und auch Datenpflege durch Menschen.
  • 1:05 - 1:10
    Und die, welche derzeit verfügbar sind,
    beginnen mit Eigenschaftsbeschränkungen.
  • 1:10 - 1:13
    Ihr habt dies wahrscheinlich
    bereits auf Wikidata gesehen,
  • 1:13 - 1:14
    manchmal habt ihr diese Symbole,
  • 1:15 - 1:17
    die die interne Konsistenz
    der Daten überprüfen.
  • 1:17 - 1:21
    Wenn zum Beispiel
    ein Ereignis dem anderen folgt,
  • 1:21 - 1:24
    dann sollte das andere Ereignis
    auch von diesem gefolgt werden,
  • 1:24 - 1:27
    was auf dem WikidataCon-Item
    anscheinend fehlte.
  • 1:27 - 1:30
    Keine Ahnung, dieses Feature
    ist erst ein paar Tage alt.
  • 1:30 - 1:35
    Wenn dies für euch zu einschränkend
    oder zu einfach ist, gibt es auch
  • 1:35 - 1:38
    den Query Service, mit dem ihr
    beliebige Kontrollen erstellen könnt,
  • 1:38 - 1:40
    was natürlich
    bei vielen Dingen nützlich ist,
  • 1:40 - 1:44
    aber ihr könnt diesen auch
    zum Auffinden von Fehlern verwenden.
  • 1:44 - 1:47
    Also wenn ihr das Auftreten
    eines Fehlers bemerkt habt,
  • 1:47 - 1:49
    dann könnt ihr nachschauen,
    ob es noch andere Orte gibt,
  • 1:49 - 1:52
    wo Leute andere,
    ähnliche Fehler gemacht haben
  • 1:52 - 1:54
    und dies mit dem Query Service finden.
  • 1:54 - 1:55
    Ihr könnt auch beide kombinieren
  • 1:55 - 1:58
    und nach Verstößen gegen Constraints
    im Query Service suchen,
  • 1:58 - 2:01
    zum Beispiel nur die Verstöße
    in einigen Bereichen
  • 2:01 - 2:04
    oder einem WikiProject,
    das für euch relevant ist.
  • 2:04 - 2:07
    Leider sind die Resultate
    derzeit nicht vollständig.
  • 2:08 - 2:10
    Es gibt eine Revisionswertung.
  • 2:10 - 2:13
    Das ist... ich denke, das kam
    von den letzten Änderungen.
  • 2:13 - 2:15
    Ihr könnt es auch
    auf eure Beobachtungsliste setzen,
  • 2:15 - 2:18
    eine automatische Bewertung
    vornehmen lassen,
  • 2:18 - 2:20
    ob diese Änderung wohl
    in gutem Glauben geschehen ist oder nicht
  • 2:20 - 2:22
    und schädlich oder nicht schädlich ist.
  • 2:22 - 2:24
    Ich denke, das sind die beiden Bereiche.
  • 2:24 - 2:26
    Also könnt ihr, wenn ihr wollt,
  • 2:26 - 2:30
    euch auf nur die schädlichen,
    aber sinnvollen Änderungen konzentrieren.
  • 2:30 - 2:32
    Wenn ihr euch besonders
    freundlich und einladend fühlt,
  • 2:32 - 2:34
    könnt ihr den Editoren sagen:
  • 2:34 - 2:38
    "Vielen Dank für euren Beitrag,
    so hättet ihr es machen sollen,
  • 2:38 - 2:41
    aber trotzdem danke."
  • 2:41 - 2:42
    Und wenn euch nicht danach ist,
  • 2:42 - 2:44
    könnt ihr die nicht sinnvollen
    Änderungen durchgehen
  • 2:44 - 2:46
    und die Vandalen wieder zurücknehmen.
  • 2:47 - 2:50
    Ähnliches gilt auch
    bei der Bewertung von Entitäten.
  • 2:50 - 2:53
    Anstatt also eine Änderung zu bewerten,
    was sie geändert hat,
  • 2:53 - 2:54
    bewertet ihr die gesamte Revision
  • 2:54 - 2:57
    und ich glaube, das ist
    das gleiche Qualitätsmaß,
  • 2:57 - 3:00
    welches Lydia zu Beginn
    der Konferenz erwähnt hat.
  • 3:00 - 3:02
    Hier oben gibt es ein Benutzer-Skript,
  • 3:02 - 3:04
    welches euch eine Wertung
    von 1 bis 5 vorgibt.
  • 3:04 - 3:08
    Ich glaube, das bezieht sich
    auf die Qualität des aktuellen Eintrags.
  • 3:10 - 3:13
    Das Primary-Sources-Tool
    ist für jede Datenbank gedacht,
  • 3:13 - 3:15
    die ihr importieren möchtet,
  • 3:15 - 3:18
    die aberqualitativ nicht so gut ist,
    um sie direkt zu Wikidata hinzuzufügen,
  • 3:18 - 3:20
    also fügt ihr es
    zu dem Primary-Source-Tool hinzu
  • 3:20 - 3:23
    und dann können die Leute entscheiden,
  • 3:23 - 3:26
    ob sie diese einzelnen Aussagen
    hinzufügen sollten oder nicht.
  • 3:29 - 3:30
    Das Anzeigen von Koordinaten als Karten
  • 3:30 - 3:32
    ist vorwiegend eine praktische Funktion,
  • 3:32 - 3:34
    aber auch für
    die Qualitätskontrolle nützlich.
  • 3:34 - 3:35
    Wenn ihr beispielsweise seht,
  • 3:35 - 3:37
    dies soll Büro
    von Wikimedia Deutschland sein,
  • 3:37 - 3:39
    aber die Koordinaten liegen
    irgendwo im Indischen Ozean,
  • 3:39 - 3:42
    dann wisst ihr, dass da etwas nicht stimmt
  • 3:42 - 3:45
    und ihr könnt es viel einfacher sehen
    als nur mit den Koordinaten.
  • 3:46 - 3:49
    Dies ist ein Gadget mit dem Namen
    relativer Vollständigkeitsindikator,
  • 3:49 - 3:52
    das euch dieses kleine Symbol hier zeigt,
  • 3:53 - 3:56
    das euch sagt, für wie vollständig
    es diesen Punkt hält
  • 3:56 - 3:58
    und auch welche Eigenschaften
    am ehesten fehlen.
  • 3:58 - 4:00
    Das ist wirklich nützlich,
    wenn ihr eine Sache bearbeitet
  • 4:00 - 4:03
    und ihr euch in einem Bereich befindet,
    mit dem ihr nicht sehr vertraut seid
  • 4:03 - 4:06
    und ihr nicht wisst,
    welche Eigenschaften richtig sind.
  • 4:06 - 4:08
    Dann ist dies ein sehr nützliches Gadget.
  • 4:10 - 4:11
    Und wir haben Shape-Ausdrücke.
  • 4:11 - 4:16
    Ich denke, Andrea oder Jose
    werden mehr darüber erzählen,
  • 4:16 - 4:18
    aber das ist im Grunde
    eine sehr leistungsfähige Methode
  • 4:18 - 4:21
    zum Vergleichen der Daten,
    die ihr habt, gegen das Schema,
  • 4:21 - 4:23
    also welche Aussage sollten
    bestimmte Entitäten haben,
  • 4:23 - 4:25
    mit welchen anderen Entitäten
    sollten diese verbunden sein
  • 4:25 - 4:26
    und wie sollten diese aussehen?
  • 4:26 - 4:29
    Und so könnt ihr Probleme
    auf diese Weise finden.
  • 4:30 - 4:32
    Ich denke... Nein, da ist noch mehr.
  • 4:32 - 4:34
    Das Integraality- oder Property-Dashboard
  • 4:34 - 4:37
    gibt euch einen schnellen Überblick
    der Daten, die ihr bereits habt.
  • 4:37 - 4:39
    Dies ist zum Beispiel
    aus dem WikiProject Red Pandas
  • 4:40 - 4:41
    und ihr könnt sehen,
    dass wir ein Geschlecht
  • 4:41 - 4:44
    für fast alle der roten Pandas haben,
  • 4:44 - 4:47
    das Geburtsdatum variiert sehr
    im Bezug zum Zoo, aus dem sie stammen
  • 4:47 - 4:50
    und wir haben fast keine toten Pandas,
    was wunderbar ist,
  • 4:51 - 4:53
    weil sie so süß sind.
  • 4:54 - 4:56
    Das ist also auch nützlich.
  • 4:56 - 4:59
    Nun kommen wir zu den Themen,
    die aktuell anstehen.
  • 5:00 - 5:04
    Wikidata Bridge oder auch
    bekannt als Client-Editing,
  • 5:04 - 5:07
    also die Bearbeitung von Wikidata
    mittels Wikipedia-Infoboxen.
  • 5:08 - 5:11
    Einerseits wird auf die Daten
    mehr Augenmerk gelegt,
  • 5:11 - 5:13
    weil mehr Leute
    die Daten dort sehen können.
  • 5:13 - 5:17
    Dies wird hoffentlich vermehrt
    den Gebrauch von Wikidata
  • 5:17 - 5:19
    in den Wikipedias anregen
    und das bedeutet,
  • 5:19 - 5:21
    dass mehr Leute davon
    Kenntnis bekommen können,
  • 5:21 - 5:24
    wenn manche Daten veraltet sind
    und aktualisiert werden müssen,
  • 5:24 - 5:27
    als wenn dies nur auf Wikidata
    sichtbar wäre.
  • 5:29 - 5:31
    Es gibt auch kaputte Referenzen.
  • 5:31 - 5:34
    Die Idee hier ist, dass wenn ihr
    den Wert einer Anweisung bearbeitet,
  • 5:35 - 5:37
    ihr auch die Referenzen
    aktualisieren solltet,
  • 5:37 - 5:40
    außer es handelt sich nur
    um einen Tippfehler oder Ähnliches.
  • 5:40 - 5:44
    Und diese kaputten Referenzen
    weisen die Bearbeiter
  • 5:44 - 5:48
    und auch andere Bearbeiter,
    die das sehen können, darauf hin,
  • 5:48 - 5:50
    ob und welche anderen Änderungen
    vorgenommen wurden,
  • 5:50 - 5:52
    den Wert der Anweisung
    und die nicht aktualisierte Referenz.
  • 5:52 - 5:57
    Ihr könnt das dann korrigieren
    und entscheiden, ob es das war...
  • 5:57 - 6:00
    oder noch mehr ansteht
    oder das tatsächlich so in Ordnung ist
  • 6:00 - 6:03
    und ihr die Referenzen
    nicht aktualisieren müsst.
  • 6:04 - 6:06
    Das bezieht sich
    auf signierte Anweisungen,
  • 6:06 - 6:09
    die von einem Anliegen stammen,
    soweit ich weiß,
  • 6:09 - 6:12
    dass einige Datenanbieter
    das zum Beispiel so handhaben...
  • 6:14 - 6:17
    es gibt eine Anweisung, auf die
    von der UNESCO verwiesen wird oder so
  • 6:17 - 6:20
    und dann zerstört plötzlich
    jemand die Anweisung
  • 6:20 - 6:22
    und sie sind dann besorgt,
    dass es dann so aussieht,
  • 6:23 - 6:26
    als ob der falsche veränderte Wert
    immer noch von der Organisation
  • 6:26 - 6:28
    wie der UNESCO stamme,
  • 6:28 - 6:30
    also können sie mit signierten Anweisungen
  • 6:30 - 6:31
    solche Referenzen
    kryptografisch signieren.
  • 6:31 - 6:34
    Das verhindert zwar
    keine Änderungen daran,
  • 6:34 - 6:37
    aber zumindest, wenn jemand
    die Anweisung verfälscht
  • 6:37 - 6:40
    oder sie in irgendeiner Weise verändert,
    dann ist die Signatur nicht mehr gültig,
  • 6:40 - 6:43
    dann wisst ihr, dies entspricht nicht dem,
    was von der Organisation stammt.
  • 6:43 - 6:47
    Vielleicht war es eine konforme Änderung
    und diese sollte neu signiert werden,
  • 6:47 - 6:51
    aber vielleicht muss diese
    wieder rückgängig gemacht werden.
  • 6:51 - 6:54
    Nun etwas, das auch sehr aufregend
    sein wird, denke ich,
  • 6:54 - 6:57
    Citoid ist dieses erstaunliche System,
    das sie auf Wikipedia haben.
  • 6:57 - 7:01
    Damit könnt ihr eine URL,
    einen Bezeichner oder eine ISBN
  • 7:01 - 7:05
    oder Wikidata ID oder im Grunde
    alles in den Visual Editor einfügen
  • 7:05 - 7:08
    und es spuckt eine Referenz aus,
    die schön formatiert ist,
  • 7:08 - 7:11
    und dazu alle Daten, die ihr braucht,
    und der Gebrauch davon ist toll.
  • 7:11 - 7:14
    Und im Vergleich dazu auf Wikidata,
    wenn ich einen Verweis hinzufügen möchte,
  • 7:14 - 7:17
    muss ich normalerweise
    eine Referenz-URL, einen Titel,
  • 7:17 - 7:20
    einen String des Autorennamen,
    Veröffentlichungsort,
  • 7:20 - 7:21
    Veröffentlichungsdatum, Abfragedatum,
  • 7:21 - 7:25
    zumindest diese angeben
    und das ist ärgerlich.
  • 7:25 - 7:29
    Die Integration von Citoid in Wikibase
    wird hier hoffentlich Abhilfe bringen.
  • 7:30 - 7:34
    Und ich denke, das war alles,
    was ich hatte, ja.
  • 7:34 - 7:37
    Also gebe ich jetzt ab zu Cristina.
  • 7:44 - 7:45
    Hi, ich bin Cristina.
  • 7:45 - 7:48
    Ich bin wissenschaftliche Mitarbeiterin
    der Universität Zürich
  • 7:48 - 7:52
    und ich bin auch aktives Mitglied
    der Schweizer Community.
  • 7:53 - 7:58
    Als Claudia Müller-Birn und ich dies
    auf der WikidataCon einreichten,
  • 7:58 - 8:00
    war es unser Anliegen,
    unsere Diskussion fortzusetzen,
  • 8:00 - 8:03
    die wir Anfang des Jahres begonnen hatten
  • 8:03 - 8:07
    mit einem Workshop für Datenqualität
    und einigen Sessions in Wikimania.
  • 8:07 - 8:11
    Also das Ziel dieses Vortrags ist es,
    einige Ideen von uns
  • 8:11 - 8:14
    und der Community anzusprechen,
    die wir aufgegriffen haben,
  • 8:14 - 8:17
    und die Diskussion fortzusetzen.
  • 8:17 - 8:20
    Wir möchten also weiterhin
    viel mit euch interagieren.
  • 8:21 - 8:23
    Also was wir für sehr wichtig halten,
  • 8:23 - 8:28
    ist, dass wir kontinuierlich jede Art
    von Benutzer in der Community fragen,
  • 8:28 - 8:29
    was sie wirklich brauchen,
  • 8:29 - 8:32
    welche Probleme sie
    mit der Datenqualität haben,
  • 8:32 - 8:35
    nicht nur Bearbeiter,
    sondern auch die Leute, die programmieren
  • 8:35 - 8:38
    oder einfach Daten verwenden,
    und auch Forscher,
  • 8:38 - 8:39
    die den gesamten
    Bearbeitungsverlauf verwenden,
  • 8:39 - 8:42
    um zu analysieren, was vor sich geht.
  • 8:42 - 8:46
    Wir haben also eine Überprüfung
    von rund 80 Tools durchgeführt,
  • 8:46 - 8:49
    die in Wikidata vorhanden sind,
    und wir haben sie ausgerichtet
  • 8:49 - 8:52
    an verschiedenen Dimensionen
    der Datenqualität.
  • 8:52 - 8:55
    Und was wir eigentlich bemerkten,
  • 8:55 - 8:58
    viele davon waren für das Monitoring
    der Vollständigkeit gedacht,
  • 8:58 - 9:03
    doch einige von ihnen ermöglichen
    auch Verknüpfungen.
  • 9:03 - 9:08
    Es besteht jedoch ein großer Bedarf
    an Tools, die sich mit Vielfalt befassen.
  • 9:08 - 9:13
    Das ist eines der Merkmale,
    die tatsächlich in Wikidata möglich sind.
  • 9:13 - 9:16
    Insbesondere dieses Gestaltungsprinzip
    von Wikidata,
  • 9:16 - 9:18
    wo wir Vielfalt haben können,
  • 9:18 - 9:21
    also unterschiedliche Anweisungen
    mit unterschiedlichen Werten,
  • 9:21 - 9:22
    die aus verschiedenen Quellen kommen.
  • 9:22 - 9:25
    Da es sich um sekundäre Quellen handelt,
    haben wir nicht wirklich Werkzeuge,
  • 9:25 - 9:28
    die uns zeigen, wie viele
    kumulierte Aussagen es gib
  • 9:28 - 9:31
    und wie viele davon wir
    verbessern können und wie
  • 9:31 - 9:33
    und wir wissen auch nicht wirklich,
  • 9:33 - 9:36
    was die Gründe für die Vielfalt sind,
    die auftreten können.
  • 9:36 - 9:40
    Also was wir besprochen haben
    auf diesen Community-Treffen,
  • 9:40 - 9:43
    waren die Herausforderungen,
    die noch Aufmerksamkeit erfordern.
  • 9:43 - 9:47
    Sehr toll zum Beispiel sind
    all diese Crowdsourcing-Communities,
  • 9:47 - 9:49
    weil verschiedene Leute
    verschiedene Bereiche
  • 9:49 - 9:52
    der Daten oder der Diagramme angehen
  • 9:52 - 9:55
    und wir haben auch unterschiedliche
    Hintergrundkenntnisse.
  • 9:55 - 9:59
    Tatsächlich ist es jedoch sehr schwierig,
    alles in etwas Konsistentes auszurichten,
  • 9:59 - 10:01
    weil unterschiedliche Menschen
  • 10:01 - 10:05
    unterschiedliche Eigenschaften
    auf unterschiedliche Weise nutzen
  • 10:05 - 10:09
    und sie erwarten auch Unterschiedliches
    von Entitätsbeschreibungen.
  • 10:09 - 10:13
    Die Leute meinten auch,
    dass sie mehr Werkzeuge brauchen,
  • 10:13 - 10:16
    die einen besseren Überblick ermöglichen
    über den globalen Status der Dinge.
  • 10:16 - 10:21
    Also welche Einheiten in Bezug
    auf Vollständigkeit fehlen,
  • 10:21 - 10:26
    aber auch so etwas wie, woran die Leute
    gerade die meiste Zeit arbeiten,
  • 10:26 - 10:31
    und sie erwähnen auch oft
    eine engere Zusammenarbeit
  • 10:31 - 10:33
    nicht inur m Hinblick auf Sprachen,
    sondern die WikiProjects
  • 10:33 - 10:36
    und die verschiedenen
    Wikimedia-Plattformen.
  • 10:36 - 10:39
    Und wir haben alle transkribierten
    Kommentare veröffentlicht
  • 10:39 - 10:43
    von all diesen Diskussionen
    in diesen Links hier in den Etherpads
  • 10:43 - 10:46
    und auch auf der Wiki-Seite von Wikimania.
  • 10:46 - 10:48
    Einige der Lösungen,
    die tatsächlich aufgetaucht sind,
  • 10:48 - 10:53
    gingen in die Richtung,
    mehr Best Practices auszutauschen,
  • 10:53 - 10:56
    die in verschiedenen WikiProjects
    entwickelt werden.
  • 10:56 - 10:58
    Aber die Leute wollen auch Tools,
  • 10:58 - 11:01
    die dabei helfen,
    die Arbeit in Teams zu organisieren,
  • 11:01 - 11:04
    oder zumindest verstehen helfen,
    wer woran arbeitet,
  • 11:04 - 11:08
    und sie erwähnten auch, dass sie sich
    mehr Anwendungsbeispiele wünschen
  • 11:08 - 11:12
    und mehr Vorlagen, mit denen sie
    Dinge besser erstellen können.
  • 11:13 - 11:15
    Und im Hinblick auf den Kontakt,
  • 11:15 - 11:19
    den wir mit offenen staatlichen
    Datenorganisationen haben,
  • 11:19 - 11:23
    und insbesondere stehe ich in Kontakt
    mit dem Kanton und der Stadt Zürich,
  • 11:23 - 11:26
    sind diese sehr daran interessiert,
    mit Wikidata zu arbeiten
  • 11:26 - 11:30
    weil sie wollen, dass ihre Daten
    für alle an dem Ort zugänglich sind,
  • 11:30 - 11:34
    an dem Menschen Daten abrufen
    oder darauf zugreifen.
  • 11:34 - 11:37
    Für sie wäre es wirklich interessant
  • 11:37 - 11:39
    eine Art von Qualitätsindikatoren
    zu haben
  • 11:39 - 11:41
    sowohl im Wiki,
    was bereits verwirklicht wird,
  • 11:41 - 11:43
    als auch in SPARQL-Ergebnissen,
  • 11:43 - 11:45
    um zu wissen, ob sie diesen
    Community-basierten Daten
  • 11:45 - 11:46
    vertrauen können oder nicht.
  • 11:46 - 11:48
    Weiterhin wollen sie auch wissen,
  • 11:48 - 11:51
    welche Teile der eigenen Datensätze
    für Wikidata nützlich sind.
  • 11:51 - 11:53
    Und sie hätten gerne ein Tool,
  • 11:53 - 11:56
    mit dem sie dies
    automatisch beurteilen können.
  • 11:56 - 11:59
    Sie benötigen auch eine Methode
    oder ein Werkzeug,
  • 11:59 - 12:03
    das ihnen bei der Entscheidung hilft,
    ob sie ihre Daten importieren
  • 12:03 - 12:05
    oder verknüpfen sollen,
    denn in einigen Fällen
  • 12:05 - 12:07
    haben sie auch ihre eigenen
    verknüpften offenen Datensätze.
  • 12:07 - 12:10
    Sie wissen also nicht,
    ob sie die Daten nur aufnehmen sollen
  • 12:10 - 12:13
    oder weiterhin Links von den Datensätzen
    zu Wikidata erstellen sollen
  • 12:13 - 12:15
    und umgekehrt.
  • 12:15 - 12:17
    Und sie möchten auch wissen,
  • 12:17 - 12:20
    auf welche Websites in Wikidata
    verwiesen wird.
  • 12:20 - 12:23
    Und wenn sie eine solche Abfrage
    im Query Service ausführen,
  • 12:23 - 12:25
    bekommen sie oft Zeitüberschreitungen.
  • 12:25 - 12:28
    Vielleicht sollten wir wirklich
    mehr Werkzeuge schaffen,
  • 12:28 - 12:32
    die ihnen helfen, diese Antworten
    auf ihre Fragen zu bekommen.
  • 12:33 - 12:36
    Und davon abgesehen,
  • 12:36 - 12:39
    uns als Wiki-Forschern fehlen manchmal
    auch bei den Zusammenfassungen
  • 12:39 - 12:42
    der Änderungen einige Informationen.
  • 12:42 - 12:45
    Ich erinnere mich daran,
    als wir daran arbeiteten,
  • 12:45 - 12:49
    das unterschiedliche Verhalten
    der Bearbeiter zu verstehen
  • 12:49 - 12:53
    im Hinblick auf Tools oder Bots,
    anonyme Benutzer und so weiter,
  • 12:53 - 12:59
    fehlte uns zum Beispiel wirklich
    eine Standardmethode zum Nachverfolgen,
  • 12:59 - 13:01
    ob Tools verwendet wurden.
  • 13:01 - 13:03
    Und es gibt einige Tools,
    die das bereits tun
  • 13:03 - 13:05
    wie PetScan und viele andere,
  • 13:05 - 13:08
    aber vielleicht sollten wir
    in der Community
  • 13:08 - 13:10
    öfter darüber diskutieren, wie Sie diese
  • 13:10 - 13:14
    mit einer feinkörnigen Datenherkunft
    aufnehmen können.
  • 13:14 - 13:16
    Weiterhin sind wir der Meinung, dass wir
  • 13:16 - 13:21
    konkretere Datenqualitätsdimensionen
    berücksichtigen müssen,
  • 13:21 - 13:25
    die sich auf verbundene Daten beziehen,
    aber nicht alle Arten von Daten.
  • 13:25 - 13:28
    Deshalb haben wir
    einige Maßnahmen erarbeitet,
  • 13:28 - 13:31
    um auf den Informationsgewinn
    tatsächlich zuzugreifen,
  • 13:31 - 13:34
    der durch die Links aktiviert wird,
    und was wir damit meinen, ist,
  • 13:34 - 13:37
    dass wenn wir Wikidata
    mit anderen Datensätzen verknüpfen,
  • 13:37 - 13:38
    sollten wir auch daran denken,
  • 13:38 - 13:42
    wie viel die Entitäten tatsächlich
    durch die Klassifizierung gewinnen,
  • 13:42 - 13:46
    auch in der Beschreibung, aber auch
    in den Vokabeln, die sie verwenden.
  • 13:46 - 13:51
    Also nur um ein sehr einfaches Beispiel
    zu geben, was ich damit meine, ist,
  • 13:51 - 13:54
    was wir uns in diesem Fall
    vorstellen können, wäre, Wikidata
  • 13:54 - 13:58
    oder das externe Rechenzentrum,
    das mit Wikidata verknüpft ist,
  • 13:58 - 14:00
    dort haben wir die Entität einer Person,
    die Natasha Noy heißt,
  • 14:00 - 14:03
    wir haben die Zugehörigkeit
    und andere Dinge
  • 14:03 - 14:05
    und dann sagen wir: OK,
    wir verlinken zu einem externen Ort
  • 14:05 - 14:09
    und diese Entität hat den gleichen Namen,
    tatsächlich haben wir den gleichen Wert.
  • 14:09 - 14:11
    Was also besser wäre, ist,
    dass wir auf etwas verlinken,
  • 14:11 - 14:13
    das einen anderen Namen hat.
  • 14:13 - 14:15
    Das ist immer noch gültig,
    weil es zwei Möglichkeiten gibt,
  • 14:15 - 14:17
    den Namen dieser Person zu schreiben
  • 14:17 - 14:20
    und auch andere Informationen,
    die wir nicht in Wikidata haben
  • 14:20 - 14:22
    oder auch nicht in
    einem anderen Datensatz haben.
  • 14:22 - 14:25
    Aber was noch besser ist, ist,
  • 14:25 - 14:27
    dass wir tatsächlich
    im Zieldatensatz suchen,
  • 14:27 - 14:30
    da sie dort auch neue Möglichkeiten
  • 14:30 - 14:31
    zur Klassifizierung
    der Informationen haben.
  • 14:31 - 14:35
    Das ist also nicht nur eine Person,
    sondern in dem anderen Datensatz
  • 14:35 - 14:38
    steht auch, ob es sei eine Frau
    oder etwas anderes,
  • 14:38 - 14:40
    mit dem sie sich einordnen lässt.
  • 14:40 - 14:43
    Und wenn in dem anderen Datensatz,
    viele andere Vokabeln verwendet werden,
  • 14:43 - 14:47
    hilft das auch bei der gesamten
    Informationsbeschaffung.
  • 14:47 - 14:51
    Damit möchte ich auch sagen,
    dass wir denken,
  • 14:51 - 14:56
    dass wir gebündelte Abfragen
    besser präsentieren können,
  • 14:56 - 15:00
    denn wenn wir uns das Abfrageprotokoll
    von Malyshev et al. ansehen,
  • 15:01 - 15:04
    sehen wir, dass wir
    aus den organischen Abfragen
  • 15:04 - 15:07
    nur sehr wenige gebündelte
    Suchergebnisse haben.
  • 15:07 - 15:13
    Und tatsächlich ist Bündelung einer
    der Hauptvorteile von Verbindungsdaten.
  • 15:13 - 15:17
    Also vielleicht brauchen die Community
    oder die Leute, die Wikidata benutzen,
  • 15:17 - 15:19
    auch mehr Beispiele dazu.
  • 15:19 - 15:23
    Und wenn wir uns die Liste
    der verwendeten Endpunkte ansehen,
  • 15:23 - 15:25
    ist dies keine vollständige Liste
    und wir haben noch viele mehr.
  • 15:25 - 15:30
    Natürlich wurden diese Daten
    aus Abfragen bis März 2018 analysiert,
  • 15:30 - 15:34
    aber wir sollten uns jedoch die Liste
    der gebündelten Endpunkte ansehen,
  • 15:34 - 15:37
    die wir haben und sehen, ob wir sie
    wirklich benutzen oder nicht.
  • 15:38 - 15:40
    Also zwei Fragen,
    die ich für das Publikum habe,
  • 15:40 - 15:43
    die wir nachher als Grundlage
    für eine Diskussion verwenden können:
  • 15:43 - 15:46
    Welche Datenqualitätsprobleme sollten
    eurer Meinung nach behoben werden
  • 15:46 - 15:48
    aufgrund eurer Bedürfnisse?
  • 15:48 - 15:50
    Aber ebenso, wo braucht ihr
    mehr Automatisierung,
  • 15:50 - 15:53
    die euch beim Bearbeiten
    oder dem Kontrollieren hilft.
  • 15:54 - 15:55
    Das ist alles, vielen Dank.
  • 16:06 - 16:09
    (Jose Emilio Labra) Okay,
    worüber ich sprechen werde,
  • 16:09 - 16:15
    sind einige Tools, die wir im Zusammenhang
    mit Shape Expressions entwickelt haben.
  • 16:16 - 16:18
    Also darüber möchte ich etwas erzählen.
  • 16:18 - 16:20
    Ich bin Jose Emilio Labra,
  • 16:20 - 16:24
    aber all diese Tools wurden
    von verschiedenen Leuten gemacht,
  • 16:24 - 16:27
    hauptsächlich im Zusammenhang
    mit W3C ShEx,
  • 16:27 - 16:28
    der Shape Expressions Community Group.
  • 16:28 - 16:30
    ShEx Community Group.
  • 16:30 - 16:34
    Also das erste Tool, das ich
    erwähnen möchte, ist RDFShape,
  • 16:34 - 16:36
    dies ist ein allgemeines Werkzeug,
  • 16:36 - 16:40
    weil Shape Expressions
    nicht nur für Wikidata sind.
  • 16:40 - 16:44
    Shape Expressions ist eine Sprache
    zur allgemeinen Validierung von RDF.
  • 16:44 - 16:48
    Dieses Tool wurde
    hauptsächlich von mir entwickelt
  • 16:48 - 16:51
    und es ist ein Werkzeug,
    um RDF im Allgemeinen zu validieren.
  • 16:51 - 16:55
    Wenn ihr also mehr über RDF
    erfahren wollt oder RDF validieren möchtet
  • 16:55 - 16:59
    oder SPARQL-Endpunkte
    nicht nur in Wikidata,
  • 16:59 - 17:01
    ist meine Empfehlung,
    dass ihr dieses Tool verwenden könnt.
  • 17:01 - 17:03
    Auch zum Unterrichten.
  • 17:03 - 17:06
    Ich bin Lehrer an der Universität
  • 17:06 - 17:08
    und ich benutze es
    in meinem Semantic-Web-Kurs,
  • 17:08 - 17:09
    um RDF zu unterrichten.
  • 17:09 - 17:12
    Wenn ihr also RDF lernen möchtet,
    halte ich es für ein nützliches Werkzeug.
  • 17:13 - 17:16
    Dies ist beispielsweise
    eine Visualisierung
  • 17:16 - 17:18
    eines RDF-Diagramms mit dem Tool.
  • 17:19 - 17:23
    Aber bevor ich letzten Monat
    hierher gekommen bin,
  • 17:23 - 17:27
    habe ich einen Fork von rdfshape
    speziell für Wikidata erstellt,
  • 17:27 - 17:28
    weil ich dachte...
  • 17:28 - 17:33
    Es heißt WikiShape und ich habe es gestern
    als Geschenk für Wikidata präsentiert.
  • 17:33 - 17:35
    Was ich also genommen habe, ist...
  • 17:35 - 17:40
    Ich habe alles entfernt,
    was nicht mit Wikidata zu tun hatte
  • 17:40 - 17:45
    und um einige Dinge zu hartcodieren,
    zum Beispiel den Wikidata-SPARQL-Endpunkt.
  • 17:45 - 17:49
    Doch jetzt hat mich jemand gefragt, ob ich
    das auch für Wikibase machen könnte.
  • 17:49 - 17:52
    Und es ist auch für Wikibase
    sehr einfach zu machen.
  • 17:53 - 17:56
    Also dieses Tool, WikiShape,
    ist ziemlich neu.
  • 17:57 - 18:00
    Ich denke, es funktioniert,
    die meisten Funktionen,
  • 18:00 - 18:03
    aber es gibt einige Funktionen,
    die möglicherweise nicht funktionieren,
  • 18:03 - 18:05
    und wenn ihr es versuchen wollt
    oder es verbessern wollt,
  • 18:05 - 18:06
    sagt es mir bitte.
  • 18:06 - 18:09
    Das sind also [unverständlich] Aufnahmen,
  • 18:09 - 18:12
    aber ich denke,
    ich kann es auch so versuchen,
  • 18:12 - 18:13
    Also lasst es uns versuchen.
  • 18:15 - 18:17
    Mal sehen, ob es funktioniert.
  • 18:17 - 18:20
    Zuerst muss ich da rausgehen...
  • 18:22 - 18:23
    Hier.
  • 18:24 - 18:28
    Okay, ja. Das ist also das Werkzeug hier.
  • 18:28 - 18:30
    Dinge, die ihr mit dem Tool
    zum Beispiel machen könnt,
  • 18:30 - 18:35
    sind, ihr könnt Schemas,
    Entitätsschemas überprüfen.
  • 18:35 - 18:37
    Ihr wisst, dass es
    einen neuen Namespace gibt,
  • 18:37 - 18:39
    der E-irgendwas heißt.
  • 18:39 - 18:44
    Wenn ihr also hier zum Beispiel
    anfangt zu schreiben "Mensch"...
  • 18:45 - 18:49
    Während ihr schreibt, könnt ihr
    mittels der Autovervollständigung prüfen.
  • 18:49 - 18:52
    Dies ist zum Beispiel
    die Shape Expression für Mensch
  • 18:53 - 18:56
    und das sind die Shape Expressions hier.
  • 18:56 - 19:00
    Und wie ihr sehen könnt,
    hat dieser Editor Syntax-Hervorhebung,
  • 19:00 - 19:05
    das ist... naja,
    vielleicht ist der Bildschirm zu klein.
  • 19:06 - 19:08
    Ich kann versuchen, es größer zu machen.
  • 19:09 - 19:11
    Vielleicht seht ihr es jetzt besser.
  • 19:11 - 19:14
    Also... und das ist der Editor
    mit Syntax-Hervorhebung und er hat auch...
  • 19:14 - 19:18
    dieser Editor stammt
    aus demselben Quellcode
  • 19:18 - 19:20
    wie der Wikidata-Abfragedienst.
  • 19:20 - 19:24
    Also zum Beispiel,
    wenn man mit der Maus hier schwebt,
  • 19:24 - 19:28
    zeigt es die Beschriftungen
    der verschiedenen Eigenschaften.
  • 19:28 - 19:31
    Also ich finde, das ist sehr hilfreich,
    weil jetzt...
  • 19:33 - 19:36
    die Entitätsschemata in Wikidata
  • 19:36 - 19:38
    sind nur eine Idee in einfachem Text.
  • 19:39 - 19:42
    Aber ich denke, dieser Editor ist
    viel besser, weil er Autocomplete hat
  • 19:42 - 19:44
    und er hat auch...
  • 19:44 - 19:48
    Ich meine zum Beispiel, wenn ihr
    eine Einschränkung hinzufügen wolltet,
  • 19:48 - 19:52
    sagt ihr "wdt:",
  • 19:52 - 19:54
    und fangt an zu schreiben "author"
  • 19:54 - 19:57
    und klickt dann mit Strg + Leertaste
  • 19:57 - 19:59
    und es schlägt euch
    die verschiedenen Einträge vor.
  • 19:59 - 20:02
    Das ist also ähnlich
    wie beim Wikidata-Abfragedienst,
  • 20:02 - 20:06
    aber speziell für Shape Expressions,
  • 20:06 - 20:11
    weil ich das Gefühl habe,
    Shape Expressions zu kreieren
  • 20:12 - 20:16
    ist nicht schwieriger als
    das Schreiben von SPARQL-Abfragen.
  • 20:16 - 20:21
    Manche Leute denken, dass es
    auf dem gleichen Niveau ist.
  • 20:22 - 20:25
    Ich denke, es ist
    wahrscheinlich einfacher.
  • 20:25 - 20:28
    Denn die Shape Expressions waren,
    als wir es entworfen haben,
  • 20:28 - 20:31
    haben wir es getan,
    um die Arbeit zu vereinfachen.
  • 20:31 - 20:35
    Okay, das ist eines der ersten Dinge,
    die ihr in diesen Editor habt
  • 20:35 - 20:37
    für Shape Expressions.
  • 20:37 - 20:41
    Und dann habt ihr zum Beispiel
    auch die Möglichkeit, zu visualisieren.
  • 20:41 - 20:45
    Wenn man eine Shape Expression habt
    verwendet man zum Beispiel...
  • 20:45 - 20:49
    Ich denke, "written"
    ist eine schöne Shape Expression,
  • 20:49 - 20:54
    weil sie einige Beziehungen
    zwischen verschiedenen Dingen hat.
  • 20:55 - 20:58
    Und das ist die UML-Visualisierung
    von schriftlichen Arbeiten.
  • 20:58 - 21:02
    In UML sind die verschiedenen
    Eigenschaften leicht zu erkennen.
  • 21:03 - 21:07
    Wenn ihr dies macht - mir wurde das klar,
    als ich das mit mehreren Leuten versuchte,
  • 21:07 - 21:09
    finden diese einige Fehler
    in ihren Shape Expressions,
  • 21:09 - 21:11
    denn es ist leicht zu erkennen,
  • 21:11 - 21:13
    welche Eigenschaften fehlen
    oder was auch immer.
  • 21:13 - 21:16
    Dann hier eine andere Möglichkeit ist,
  • 21:16 - 21:20
    dass ihr auch validieren könnt,
    ich habe es hier, die Validierung.
  • 21:20 - 21:25
    Ich glaube, ich hatte es in einem Label,
    vielleicht habe ich es geschlossen.
  • 21:26 - 21:31
    Okay, aber ihr könnt beispielsweise hier
    Validate entities klicken,
  • 21:32 - 21:34
    zum Beispiel...
  • 21:35 - 21:42
    "q42" mit "e42", das ist Urheber.
  • 21:43 - 21:46
    Mit "human" können wir
    es machen, glaube ich.
  • 21:49 - 21:50
    Und dann ist es...
  • 21:51 - 21:56
    es dauert eine Weile, weil dabei
    die SPARQL-Abfragen ausgeführt werden
  • 21:56 - 21:59
    und jetzt, zum Beispiel,
    scheitert es am Netzwerk, aber...
  • 22:00 - 22:02
    Also ihr könnt es versuchen.
  • 22:03 - 22:07
    Gut, lasst uns mit der Präsentation
    der anderen Tools fortfahren.
  • 22:07 - 22:11
    Mein Rat ist also,
    wenn ihr es versuchen möchtet
  • 22:11 - 22:13
    und Feedback wollt, lasst es mich wissen.
  • 22:13 - 22:16
    Also, um mit der
    Präsentation fortzufahren...
  • 22:19 - 22:20
    Das ist also WikiShape.
  • 22:24 - 22:27
    Dann, das habe ich schon erwähnt,
  • 22:28 - 22:30
    gibt es den Shape Expressions Editor,
  • 22:30 - 22:34
    das ist ein eigenständiges Projekt
    in GitHub.
  • 22:36 - 22:38
    Ihr könnt es in eurem
    eigenen Projekt verwenden.
  • 22:38 - 22:41
    Wenn ihr ein Tool für
    Shape Expression benötigt,
  • 22:41 - 22:46
    könnt ihr es einfach in jedes
    andere Projekt einbetten.
  • 22:46 - 22:48
    Das ist auf GitHub
    und ihr könnt es benutzen.
  • 22:49 - 22:52
    Der gleiche Autor, einer meiner Schüler,
  • 22:53 - 22:56
    hat auch einen Editor
    für Shape Expressions erstellt,
  • 22:56 - 22:58
    ebenfalls inspiriert
    vom Wikidata-Abfragedienst,
  • 22:58 - 23:01
    wo ihr in dieser Spalte
  • 23:01 - 23:05
    diesen vorwiegend visuellen Editor
    für SPARQL-Abfragen habt,
  • 23:05 - 23:07
    wo ihr diese Dinge bewerkstelligen könnt.
  • 23:07 - 23:09
    Das ist also eine Bildschirmaufnahme.
  • 23:09 - 23:13
    Ihr könnt sehen, dass dies
    die Shape Expressions im Text sind.
  • 23:13 - 23:16
    Dies ist jedoch eine formularbasierte
    Shape Expression,
  • 23:16 - 23:19
    bei der es wahrscheinlich
    etwas länger dauern würde.
  • 23:19 - 23:23
    Hier könnt ihr die verschiedenen Zeilen
    in die verschiedenen Felder einfügen.
  • 23:23 - 23:26
    Oay, dann gibt es ShExEr.
  • 23:27 - 23:28
    Wir haben...
  • 23:28 - 23:32
    das wird von einem Doktoranden
    an der Universität von Oviedo gemacht
  • 23:32 - 23:34
    und er ist hier, damit er
    ShExEr präsentieren kann.
  • 23:38 - 23:40
    (Danny) Hallo, ich bin Danny Fernández,
  • 23:40 - 23:44
    Ich bin Doktorand an der Universität
    von Oviedo und arbeite mit Labra.
  • 23:45 - 23:48
    Da uns die Zeit davon läuft,
    lasst uns dies schnell machen.
  • 23:48 - 23:53
    Wir starten also keine Demo,
    sondern zeigen nur einige Screenshots.
  • 23:53 - 23:56
    Okay, also die übliche Art,
    mit Shape Expressions zu arbeiten
  • 23:56 - 23:58
    oder einer beliebigen Formsprache, ist,
  • 23:58 - 24:00
    dass Sie einen Domain-Experten haben,
  • 24:00 - 24:02
    der als Erstes definiert,
    wie der Graph aussehen soll
  • 24:02 - 24:04
    einige Strukturen definiert
  • 24:04 - 24:06
    und dann verwendet man diese Strukturen,
  • 24:06 - 24:08
    um die tatsächlichen Daten
    dagegen zu validieren.
  • 24:08 - 24:12
    Dieses Tool und auch diejenigen,
    die von Labra vorgestellt wurden,
  • 24:12 - 24:14
    sind Allzweckwerkzeuge
    für jede RDF-Quelle.
  • 24:14 - 24:17
    Es ist so konzipiert,
    dass es umgekehrt funktioniert.
  • 24:17 - 24:19
    Man hat bereits einige Daten,
  • 24:19 - 24:23
    Man wählt aus, welche Notizen
    die Form erhalten soll
  • 24:23 - 24:27
    und dann extrahiert oder schließt
    man die Form automatisch.
  • 24:27 - 24:30
    Also, auch wenn dies
    ein Allzweckwerkzeug ist,
  • 24:30 - 24:32
    was wir für diese WikidataCon
    gemacht haben,
  • 24:32 - 24:34
    ist diese schicke Schaltfläche.
  • 24:34 - 24:37
    Wenn man darauf klickt,
    was im Wesentlichen passiert, ist,
  • 24:37 - 24:42
    es gibt so viele Konfigurationsparameter
  • 24:42 - 24:46
    und es konfiguriert es für die Arbeit
    mit dem Wikidata-Endpunkt
  • 24:46 - 24:48
    und ich bin fast fertig, sorry.
  • 24:49 - 24:53
    Sobald man diesen Knopf drückt,
    erhält man im Wesentlichen Folgendes.
  • 24:53 - 24:55
    Nachdem man ausgewählt hat,
    welche Art von Notizen,
  • 24:55 - 24:59
    was für Instanzen unserer Klasse,
    was auch immer man will,
  • 24:59 - 25:01
    erhält man ein automatisches Schema.
  • 25:02 - 25:04
    Alle Einschränkungen sind danach sortiert,
  • 25:04 - 25:07
    wie viele Modi tatsächlich
    damit übereinstimmen.
  • 25:07 - 25:10
    Man kann so die selteneren filtern
    und so weiter.
  • 25:10 - 25:12
    Also wir haben da unten
    ein Poster über dieses Thema
  • 25:12 - 25:15
    und ich werde unten und oben sein
  • 25:15 - 25:16
    und überall den ganzen Tag.
  • 25:16 - 25:19
    Wer also weiteres Interesse
    an diesem Tool hat,
  • 25:19 - 25:21
    kann mich einfach
    während dieses Events ansprechen.
  • 25:21 - 25:25
    Und jetzt werde ich Labra
    das Mikro zurückgeben, danke.
  • 25:30 - 25:33
    (Jose) Also lasst uns mit
    den anderen Tools fortfahren.
  • 25:33 - 25:35
    Ein anderes Werkzeug
    ist der ShapeDesigner.
  • 25:35 - 25:37
    Andra, möchtest du jetzt
    den ShapeDesigner machen
  • 25:37 - 25:39
    oder vielleicht später im Workshop?
  • 25:39 - 25:41
    Es gibt einen Workshop...
  • 25:41 - 25:44
    Heute Nachmittag gibt es einen Workshop
    speziell für Shape Expressions und...
  • 25:45 - 25:48
    Die Idee ist, dass wir dort
    mehr in die Praxis gehen können,
  • 25:48 - 25:52
    und wenn ihr etwas ShEx üben möchtet,
    könnt ihr es dort tun.
  • 25:53 - 25:55
    Dieses Tool ist ShEx... und hier ist Eric,
  • 25:55 - 25:57
    also kannst du es präsentieren.
  • 25:58 - 26:00
    (Eric) Also einfach super schnell.
  • 26:00 - 26:01
    Das, was ich sagen möchte, ist,
  • 26:01 - 26:06
    dass ihr wahrscheinlich bereits
    die ShEx-Schnittstelle gesehen habt,
  • 26:06 - 26:08
    die auf Wikidata zugeschnitten ist.
  • 26:08 - 26:13
    Das ist effektiv vereinfacht
    und speziell auf Wikidata zugeschnitten
  • 26:13 - 26:16
    da die Generische mehr Funktionen hat,
  • 26:16 - 26:18
    sich aber herausstellte -
    ich dachte, ich sollte es erwähnen -
  • 26:18 - 26:20
    weil eine dieser Funktionen
    besonders nützlich
  • 26:20 - 26:23
    zum Debuggen von Wikidata-Schemas ist.
  • 26:23 - 26:29
    Das heißt, wenn ihr hingeht
    und den Slurp-Modus wählt,
  • 26:29 - 26:32
    was es tut, ist, es sagt,
    während ich validiere,
  • 26:32 - 26:35
    möchte ich alle Tripel herausziehen
    und das bedeutet,
  • 26:35 - 26:36
    wenn ich ein paar Ausfälle bekomme,
  • 26:36 - 26:40
    kann ich durchgehen und anfangen,
    diese Fehler zu betrachten und zu sagen:
  • 26:40 - 26:42
    Okay, was sind die Dreiergruppen,
    die hier drin sind -
  • 26:42 - 26:44
    Entschuldigung,
    die Dreiergruppen sind da unten,
  • 26:44 - 26:46
    dies ist nur ein Protokoll dessen,
    was passiert ist -
  • 26:46 - 26:49
    und dann könnt ihr einfach da sitzen
    und in Echtzeit damit experimentieren,
  • 26:49 - 26:51
    als würde man mit etwas
    spielen und es verändert sich.
  • 26:51 - 26:54
    Es ist also eine schnellere Variante,
    um all diese Dinge zu erledigen.
  • 26:55 - 26:56
    Dies ist ein ShExC-Formular.
  • 26:56 - 26:59
    Dies ist etwas, was Joachim
    vorgeschlagen hatte,
  • 27:00 - 27:05
    das nützlich sein könnte,
    um Wikidata-Dokumente zu füllen
  • 27:05 - 27:07
    basierend auf einer Shape Expression
    für dieses Dokument.
  • 27:08 - 27:12
    Dies ist nicht auf Wikidata zugeschnitten.
  • 27:12 - 27:14
    Dies soll jedoch nur heißen,
    dass ihr ein Schema haben könnt
  • 27:14 - 27:16
    und einige Anmerkungen,
    um genau zu sagen,
  • 27:16 - 27:18
    wie ich das Schema gerendert haben möchte,
  • 27:18 - 27:19
    und dann baut es einfach ein Formular auf.
  • 27:19 - 27:22
    Wenn ihr Daten habt,
    kann es das Formular ausfüllen.
  • 27:25 - 27:26
    PyShEx [unverständlich].
  • 27:28 - 27:31
    (Jose) Ich denke, das ist das Letzte.
  • 27:32 - 27:34
    Ja, das letzte ist PyShEx.
  • 27:35 - 27:38
    PyShEx ist eine Python-Implementierung
    von Shape Expressions.
  • 27:39 - 27:41
    Ihr könnt das auch
    mit Jupyter Notebooks ausprobieren,
  • 27:41 - 27:43
    wenn ihr so etwas wollt.
  • 27:43 - 27:44
    Oay, das ist alles dazu.
  • 27:53 - 27:56
    (Andra) Ich werde also
    über ein bestimmtes Projekt sprechen,
  • 27:56 - 27:58
    an dem ich beteiligt bin,
    GenWiki genannt,
  • 27:58 - 28:04
    und wo wir uns auch
    mit Qualitätsfragen beschäftigen.
  • 28:04 - 28:07
    Aber bevor wir auf die Qualität eingehen,
  • 28:07 - 28:09
    vielleicht eine kurze Einführung
    darüber, was GenWiki ist,
  • 28:10 - 28:14
    und wir haben gerade einen Vordruck
    einer Arbeit veröffentlicht,
  • 28:14 - 28:18
    die wir kürzlich geschrieben haben,
    welche die Details des Projekts erklärt.
  • 28:20 - 28:23
    Ich sehe Leute fotografieren,
    aber im Grunde genommen,
  • 28:23 - 28:26
    was Gene Wiki macht, es versucht,
    biomedizinische Daten,
  • 28:26 - 28:28
    öffentliche Daten in Wikidata
    hinein zu bekommen
  • 28:28 - 28:32
    und wir folgen einem bestimmten Muster,
    um diese Daten in Wikidata zu bekommen.
  • 28:33 - 28:37
    Also, wenn wir ein neues Repository
    oder einen neuen Datensatz haben,
  • 28:37 - 28:39
    der berechtigt ist,
    in Wikidata aufgenommen zu werden,
  • 28:39 - 28:42
    ist der erste Schritt das
    Engagement der Gemeinschaft.
  • 28:42 - 28:44
    Für eine Wikidata-Community
    ist dies nicht erforderlich,
  • 28:44 - 28:46
    aber für eine lokale
    Forschungsgemeinschaft,
  • 28:46 - 28:50
    und wir treffen uns persönlich oder online
    oder auf irgend einer Plattform
  • 28:50 - 28:53
    und versuchen,
    ein Datenmodell zu entwickeln,
  • 28:53 - 28:56
    das ihre Daten
    mit dem Wikidata-Modell verbindet.
  • 28:56 - 28:58
    Also hier habe ich ein Bild
    von einem Workshop,
  • 28:58 - 29:00
    der letztes Jahr hier stattgefunden hat.
  • 29:00 - 29:03
    Wir haben dort versucht, einen
    bestimmten Datensatz anzuschauen
  • 29:03 - 29:05
    und Sie sehen eine Menge Diskussionen,
  • 29:05 - 29:10
    dann die Ausrichtung an schema.org
    und andere vorhandenen Ontologien.
  • 29:10 - 29:13
    Und dann, am Ende des ersten Schritts,
  • 29:13 - 29:15
    haben wir eine Whiteboard-Zeichnung
    des Schemas,
  • 29:15 - 29:17
    das wir in Wikidata implementieren wollen.
  • 29:17 - 29:20
    Was Sie dort sehen können,
    ziemlich offensichtlich,
  • 29:20 - 29:22
    es ist im Hintergrund.
  • 29:22 - 29:25
    Wir können heute sogar einige Schemata
    in diesem Panel erstellen.
  • 29:26 - 29:28
    Sobald wir das Schema eingerichtet haben,
  • 29:28 - 29:31
    versuchen wir als Nächstes,
    das Schema maschinenlesbar zu machen,
  • 29:32 - 29:35
    weil man umsetzbare Modelle braucht,
  • 29:35 - 29:37
    um die Daten zu überbrücken,
    die man einbringt
  • 29:37 - 29:40
    aus jeder biomedizinischen
    Datenbank nach Wikidata.
  • 29:40 - 29:45
    Und hier wenden wir Shape Expressions an.
  • 29:46 - 29:50
    Und das verwenden wir,
  • 29:50 - 29:53
    weil man mit Shape Expressions
    testen kann,
  • 29:53 - 29:57
    ob der Datensatz tatsächlich...
    nein, man kann zuerst sehen,
  • 29:57 - 30:02
    ob bereits vorhandene Daten in Wikidata
    dem gleichen Datenmodell folgen,
  • 30:02 - 30:05
    das im vorherigen Prozess erreicht wurde.
  • 30:05 - 30:07
    Dann können wir mit
    den Shape Expressions überprüfen:
  • 30:07 - 30:10
    Okay, die Daten,
    die zu diesem Thema in Wikidata sind,
  • 30:10 - 30:12
    müssen bereinigt werden
    oder wir müssen unser Modell
  • 30:12 - 30:15
    an das Wikidata-Modell anpassen
    oder umgekehrt.
  • 30:16 - 30:20
    Sobald das erledigt ist
    und wir anfangen, Bots zu schreiben,
  • 30:21 - 30:24
    und die Bots sähen
    regelmäßig die Informationen,
  • 30:24 - 30:27
    die in den primären Quellen ist,
    nach Wikidata.
  • 30:28 - 30:29
    Und wenn die Bots fertig sind,
  • 30:29 - 30:33
    schreiben wir diese Bots
    mit einer Plattform namens...
  • 30:33 - 30:36
    mit einer Python-Bibliothek
    namens Wikidata Integrator.
  • 30:36 - 30:38
    Diese kam aus unserem Projekt.
  • 30:39 - 30:43
    Und sobald wir unsere Bots haben,
    benutzen wir eine Plattform namens Jenkins
  • 30:43 - 30:45
    für die kontinuierliche integration.
  • 30:45 - 30:46
    Und mit Jenkins
  • 30:46 - 30:51
    aktualisieren wir ständig
    die primären Quellen mit Wikidata.
  • 30:52 - 30:56
    Und dies ist ein Diagramm für die Arbeit,
    die ich zuvor erwähnt habe.
  • 30:56 - 30:57
    Das ist unsere aktuelle Landschaft.
  • 30:57 - 31:02
    Also jede orangefarbene Kiste da drauf ist
    eine primäre Ressource für Medikamente,
  • 31:02 - 31:08
    Proteine, Gene, Krankheiten,
    chemische Verbindungen mit Wechselwirkung,
  • 31:08 - 31:11
    und dieses Modell ist zu klein,
    um es jetzt zu lesen.
  • 31:11 - 31:15
    Aber das ist die Datenbank, die Quellen,
  • 31:15 - 31:17
    die wir in Wikidata verwalten
  • 31:17 - 31:20
    und überbrücken zu den Primärquellen.
  • 31:20 - 31:22
    Hier ist so ein Workflow.
  • 31:23 - 31:25
    Einer unserer Partner
    ist die Disease Ontology.
  • 31:25 - 31:28
    Die Disease Ontology
    ist eine CC0 Ontologie
  • 31:28 - 31:32
    und die CC0 Ontologie hat
    einen eigenen Kurationszyklus
  • 31:33 - 31:36
    und sie aktualisieren nur
    kontinuierlich die Disease Ontology,
  • 31:36 - 31:38
    um den Krankheitsbereich
  • 31:38 - 31:40
    oder die Interpretation
    von Krankheiten zu reflektieren.
  • 31:40 - 31:44
    Und es gibt den Wikidata-Kurationszyklus
    ebenso für Krankheiten,
  • 31:44 - 31:48
    wo die Wikidata-Community
    ständig überwacht,
  • 31:48 - 31:50
    was auf Wikidata los ist.
  • 31:50 - 31:52
    Und dann haben wir zwei Rollen,
  • 31:52 - 31:55
    wir nennen sie umgangssprachlich
    den Gatekeeper-Kurator,
  • 31:56 - 32:00
    und das waren ich und ein Kollege
    vor fünf Jahren,
  • 32:00 - 32:03
    wo wir nur an unseren Computern saßen
    und Wikipedia und Wikidata überwachten
  • 32:03 - 32:08
    und wenn es ein Problem gab, wurde es
    der primären Community gemeldet,
  • 32:08 - 32:12
    die primäre Ressourcen, sie betrachteten
    die Implementierung und beschlossen:
  • 32:12 - 32:14
    Okay, vertrauen wir
    dem Input aus Wikidata?
  • 32:15 - 32:19
    Ja - dann wird erwägt,
    geht es in den Kreislauf,
  • 32:19 - 32:23
    und die nächste Iteration
    ist Teil der Disease Ontology
  • 32:23 - 32:25
    und wird in Wikidata zurückgespeist.
  • 32:27 - 32:31
    Wir machen dasselbe für WikiPathways.
  • 32:31 - 32:37
    WikiPathways ist ein von MediaWiki
    inspiriertes Pfad-Repository.
  • 32:37 - 32:40
    Dieselbe Geschichte, es gibt bereits
    verschiedene Pfad-Ressourcen
  • 32:40 - 32:41
    auf Wikidata.
  • 32:41 - 32:45
    Möglicherweise gibt es Konflikte
    zwischen diesen Pfadressourcen
  • 32:45 - 32:47
    und diese Konflikte werden zurückgemeldet
  • 32:47 - 32:50
    von den Gatekeeper-Kuratoren
    zu dieser Community,
  • 32:50 - 32:54
    und man pflegt
    die einzelnen Kurationszyklen.
  • 32:54 - 32:57
    Aber wenn Sie sich an
    den vorherigen Zyklus erinnern,
  • 32:57 - 33:03
    hier erwähnte ich nur zwei Zyklen,
    zwei Ressourcen.
  • 33:04 - 33:06
    Das müssen wir für jede einzelne
    Ressource tun, die wir haben,
  • 33:06 - 33:08
    und wir müssen alles,
    was vor sich geht, verwalten,
  • 33:08 - 33:09
    denn wenn ich Kuration sage,
  • 33:09 - 33:12
    meine ich wirklich,
    auf die Wikipedia-Top-Seiten zu gehen,
  • 33:12 - 33:15
    auf die Wikidata-Top-Seiten
    zu gehen und das auszuprobieren.
  • 33:15 - 33:19
    Das skaliert nicht mit den beiden
    Gatekeeper-Kuratoren, die wir hatten.
  • 33:20 - 33:23
    Also, als ich 2016 an einer
    Konferenz teilgenommen habe,
  • 33:23 - 33:27
    wo Eric einen Vortrag
    über Shape Expressions hielt,
  • 33:27 - 33:29
    sprang ich auf den Zug und sagte: Okay,
  • 33:29 - 33:32
    mit Hilfe von Shape Expressions
    können wir feststellen,
  • 33:32 - 33:34
    welche Unterschiede in Wikidata bestehen
  • 33:34 - 33:38
    und so können die Gatekeeper
  • 33:38 - 33:41
    effizienter berichten in dem Log.
  • 33:42 - 33:46
    Dieses Jahr war ich von
    der Schemaentität begeistert,
  • 33:46 - 33:49
    denn jetzt können wir
    diese Entitätsschemata
  • 33:49 - 33:51
    auf Wikidata speichern,
  • 33:51 - 33:53
    auf Wikidata selbst,
    während es zuvor auf GitHub war.
  • 33:54 - 33:57
    Und dies integriert mit
    der Wikidata-Oberfläche,
  • 33:57 - 33:59
    man hat also Dinge
    wie Dokumentendiskussionen,
  • 33:59 - 34:01
    man hat aber auch Revisionen.
  • 34:01 - 34:05
    Ihr könnt also die Top-Seiten
    und die Revisionen in Wikidata nutzen,
  • 34:05 - 34:10
    um darüber zu diskutieren,
  • 34:10 - 34:14
    was in Wikidata ist
    und was in den primären Ressourcen.
  • 34:15 - 34:20
    Also das, was Eric gerade vorgestellt hat,
    ist schon ein ziemlicher Vorteil.
  • 34:20 - 34:24
    Also hier haben wir eine Shape Expression
    für das menschliche Gen erfunden
  • 34:24 - 34:30
    und dann ließen wir es durch ShEx laufen
    und wie Sie sehen können,
  • 34:30 - 34:32
    wir haben gerade erst eines.
  • 34:32 - 34:35
    Es gibt ein Problem,
    das überwacht werden muss,
  • 34:35 - 34:37
    es gibt ein Element,
    das nicht in dieses Schema passt,
  • 34:37 - 34:41
    und dann können Sie
    bereits Schemaentitäten erstellen
  • 34:41 - 34:44
    und Kurationsberichte basierend auf...
  • 34:44 - 34:46
    und das an die verschiedenen
    Kurationsberichte senden.
  • 34:48 - 34:53
    Aber die ShEx.js ist
    eine integrierte Schnittstelle
  • 34:53 - 34:56
    und hier noch mal eine Folie zurück,
    mache ich nur zehn,
  • 34:56 - 35:00
    aber wir haben Zehntausende
    und das skaliert wieder nicht.
  • 35:00 - 35:05
    Der Wikidata Integrator
    unterstützt jetzt auch ShEx
  • 35:05 - 35:07
    und dann können wir
    einfach Item-Loops verwenden,
  • 35:07 - 35:11
    wo wir ja-nein, ja-nein,
    wahr-falsch, wahr-falsch sagen.
  • 35:11 - 35:13
    Also nochmal,
  • 35:13 - 35:17
    eine Steigerung der Effizienz
    beim Arbeiten mit den Berichten.
  • 35:17 - 35:23
    Aber jetzt, in letzter Zeit, baut das
    auf dem Wikidata Query Service auf
  • 35:23 - 35:25
    und wir haben das etwas gedrosselt,
  • 35:25 - 35:27
    also nochmal, das skaliert nicht.
  • 35:27 - 35:29
    Es ist also immer noch
    ein fortlaufender Prozess,
  • 35:29 - 35:32
    wie man mit Modellen auf Wikidata umgeht.
  • 35:32 - 35:37
    Und ShEx ist also nicht
    nur furchteinflössend,
  • 35:37 - 35:40
    aber auch das Ausmaß ist einfach
    zu groß, um damit umzugehen.
  • 35:41 - 35:45
    Also habe ich angefangen zu arbeiten,
    dies ist mein erster Proof of Concept
  • 35:45 - 35:46
    oder meine erste Übung,
  • 35:46 - 35:48
    wo ich ein Werkzeug
    namens yED verwendet habe
  • 35:48 - 35:52
    und ich fing an, diese Shape Expressions
    zu zeichnen und weil...
  • 35:52 - 35:56
    und dann dieses Schema neu zu generieren
  • 35:56 - 36:01
    in dieses Schema in das JSON-Format
    der Shape-Ausdrücke,
  • 36:01 - 36:05
    damit sich das einem Publikum öffnet,
  • 36:05 - 36:07
    das von den Shape Expressions-Sprachen
    eingeschüchtert wird.
  • 36:08 - 36:12
    Tatsächlich gibt es jedoch ein Problem
    mit diesen visuellen Beschreibungen,
  • 36:12 - 36:14
    denn dies ist auch ein Schema,
  • 36:14 - 36:18
    das tatsächlich von jemandem
    in yEd gezeichnet wurde.
  • 36:18 - 36:24
    Und hier ist ein anderes, das schön ist.
  • 36:24 - 36:26
    Ich hätte das gerne an meiner Wand,
  • 36:26 - 36:30
    aber es ist immer noch nicht
    interoperabel.
  • 36:31 - 36:32
    Ich möchte meinen Vortrag beenden...
  • 36:32 - 36:34
    und es war das erste Mal,
  • 36:34 - 36:36
    dass ich diese Folie gestohlen,
    gebraucht habe.
  • 36:36 - 36:38
    Es ist eine Ehre, ihn im Publikum zu haben
  • 36:38 - 36:39
    und ich mag das wirklich:
  • 36:39 - 36:42
    "Die Leute denken, RDF ist eine Qual,
    weil es kompliziert ist.
  • 36:42 - 36:44
    Die Wahrheit ist noch schlimmer,
    es ist so einfach,
  • 36:46 - 36:48
    weil Sie mit realen Datenproblemen
    arbeiten müssen,
  • 36:48 - 36:50
    die schrecklich kompliziert sind.
  • 36:50 - 36:52
    Während Sie RDF vermeiden können,
  • 36:52 - 36:54
    ist es schwieriger, komplizierte Daten
  • 36:54 - 36:56
    und komplizierte Computerprobleme
    zu vermeiden."
  • 36:56 - 37:00
    Hier geht es um RDF, aber ich denke,
    das gilt auch für das Modellieren.
  • 37:00 - 37:03
    Mein Diskussionspunkt ist also,
    ob wir wirklich...
  • 37:03 - 37:06
    Wie bringen wir das Modellieren voran?
  • 37:06 - 37:11
    Sollen wir über ShEx
    oder visuelle Modelle sprechen oder...
  • 37:11 - 37:13
    Wie machen wir weiter?
  • 37:13 - 37:15
    Vielen Dank für Ihre Zeit.
  • 37:20 - 37:21
    (Lydia) Vielen Dank.
  • 37:22 - 37:24
    Würdest du nach vorne kommen,
  • 37:24 - 37:28
    damit wir mit den Fragen
    aus dem Publikum anfangen können?
  • 37:29 - 37:30
    Gibt es Fragen?
  • 37:32 - 37:33
    Ja.
  • 37:34 - 37:37
    Und ich denke,
    wegen der Kamera müssen wir...
  • 37:39 - 37:41
    (Lydia) Ja.
  • 37:43 - 37:46
    (Zuschauer1) Also eine Frage
    an Cristina, denke ich.
  • 37:47 - 37:52
    Also du hast im Wortlaut den Begriff
    "Informationsgewinn" erwähnt
  • 37:52 - 37:54
    bei der Verknüpfung mit anderen Systemen.
  • 37:54 - 37:56
    Es gibt das informationstheoretische Maß
    Informationsgewinn,
  • 37:56 - 37:58
    welches Statistik
    und Wahrscheinlichkeit verwendet.
  • 37:58 - 38:02
    Hast du das... ich meine,
    hast du genau dieses Maß gemeint,
  • 38:02 - 38:04
    den Informationsgewinn
    aus der Wahrscheinlichkeitstheorie,
  • 38:04 - 38:06
    aus der Informationstheorie,
  • 38:06 - 38:07
    oder verwendest du einfach dieses Konzept,
  • 38:07 - 38:09
    um den Informationsgewinn
    irgendwie zu messen?
  • 38:09 - 38:13
    Nein, also wir haben Maßnahmen
    definiert und umgesetzt,
  • 38:14 - 38:17
    die die Shannon-Entropie verwenden,
  • 38:18 - 38:20
    auf dies bezieht sich das.
  • 38:20 - 38:23
    Ich wollte nicht auf die Details
    der konkreten Formeln eingehen...
  • 38:23 - 38:25
    (Zuschauer1) Nein, klar,
    das war meine Frage.
  • 38:25 - 38:26
    - (Cristina) Aber ja.
    - (Zuschauer1) Danke.
  • 38:33 - 38:35
    (Zuschauer2) Ich habe eher
    einen Kommentar als eine Frage.
  • 38:35 - 38:36
    (Lydia) Los geht es.
  • 38:36 - 38:40
    (Zuschauer2) Es gab also
    viel Fokus auf der Item-Ebene
  • 38:40 - 38:43
    bezüglich der Qualität
    und Vollständigkeit.
  • 38:43 - 38:45
    Eines der Dinge,
    die mich beschäftigen, ist,
  • 38:45 - 38:47
    dass wir nicht dasselbe
    auf Hierarchien anwenden
  • 38:47 - 38:50
    und ich glaube,
    das wird uns ein Problem bereiten
  • 38:50 - 38:52
    dass unsere Hierarchie oft nicht gut ist.
  • 38:52 - 38:54
    Wir denken, dass dies
    ein echtes Problem wird
  • 38:54 - 38:56
    beim Durchsuchen von Commons
    und anderen Dingen.
  • 38:57 - 38:59
    Eine der Fähigkeiten,
    die wir realisieren können, ist,
  • 38:59 - 39:01
    extern zu importieren --
  • 39:01 - 39:05
    Die Art und Weise, wie externe Thesauren
    ihre Hierarchien strukturieren
  • 39:05 - 39:10
    mit der P4900 Qualifikation
    für Oberbegriffe.
  • 39:11 - 39:16
    Aber was ich für sehr hilfreich halte,
    wären viel bessere Werkzeuge dafür.
  • 39:16 - 39:21
    Damit kann man die Hierarchie
    eines externen Thesaurus importieren
  • 39:21 - 39:24
    und das auf unsere
    Wikidata-Items abbilden.
  • 39:24 - 39:28
    Sobald es mit diesen P4900-Qualifizierern
    zusammen funktioniert,
  • 39:28 - 39:31
    kann man über SPARQL
    ziemlich gute Abfragen durchführen,
  • 39:32 - 39:38
    um zu sehen, wo unsere Hierarchie
    von dieser externen Hierarchie abweicht.
  • 39:38 - 39:41
    Zum Beispiel, Paula Morma,
    User PKM, wie ihr vielleicht wisst,
  • 39:41 - 39:44
    hat viel über Mode ausgearbeitet.
  • 39:44 - 39:46
    Das nutzen wir also, um die Hierarchie
  • 39:46 - 39:51
    des Europeana Fashion Thesaurus
    zu übernehmen
  • 39:51 - 39:54
    und die Getty AAT
    Mode-Thesaurus-Hierarchie,
  • 39:54 - 39:56
    um dann zu sehen, wo die Lücken
  • 39:56 - 39:58
    in unseren höhergestuften Items waren,
  • 39:58 - 40:01
    was ein echtes Problem
    für uns ist, weil das oft Dinge sind,
  • 40:01 - 40:04
    die nur als Seiten zur Disambiguierung
    auf Wikipedia existieren,
  • 40:04 - 40:09
    Es fehlen also viele übergeordnete
    Elemente in unseren Hierarchien
  • 40:09 - 40:13
    und das ist etwas, das wir in Bezug
    auf Qualität und Vollständigkeit
  • 40:13 - 40:14
    ansprechen müssen.
  • 40:14 - 40:16
    Aber was wirklich helfen würde,
  • 40:17 - 40:20
    wäre ein besseres Werkzeug
    als der Dschungel der Pull-Skripte,
  • 40:20 - 40:21
    die ich geschrieben habe.
  • 40:21 - 40:26
    Wenn jemand das in ein PAWS-Notizbuch
    in Python schreiben könnte,
  • 40:27 - 40:30
    um einen externen Thesaurus
    verwenden zu können,
  • 40:30 - 40:32
    dessen Hierarchie zu verwenden,
  • 40:32 - 40:35
    die als verknüpfte Daten
    verfügbar sein können oder nicht,
  • 40:35 - 40:41
    um diese dann in Schnellanweisungen
    umzusetzen und P4900-Werte einzugeben.
  • 40:41 - 40:42
    Und später dann,
  • 40:42 - 40:45
    wenn unsere Darstellung
    vervollständigt wird,
  • 40:45 - 40:50
    diese P4900s zu aktualisieren,
    denn sobald unsere Darstellung veraltet,
  • 40:50 - 40:51
    dichter wird,
  • 40:51 - 40:55
    müssen die Werte dieser
    Qualifikationsmerkmale geändert werden,
  • 40:56 - 40:58
    um darzustellen, dass wir mehr
    aus ihrer Hierarchie
  • 40:58 - 41:00
    in unserem System implementiert haben.
  • 41:00 - 41:04
    Wenn jemand das tun könnte,
    wäre das sehr hilfreich, denke ich,
  • 41:04 - 41:07
    und wir müssen uns auch
    andere Ansätze ansehen,
  • 41:07 - 41:11
    um die Qualität und Vollständigkeit
    auf Hierarchieebene zu verbessern,
  • 41:11 - 41:13
    nicht nur auf der Artikelebene.
  • 41:13 - 41:15
    (Andra) Kann ich das ergänzen?
  • 41:16 - 41:20
    Ja, und das machen wir tatsächlich
  • 41:20 - 41:22
    und meine Empfehlung ist,
    die Shape Expression zu betrachten,
  • 41:22 - 41:25
    die Finn gemacht hat
    mit den lexikalischen Daten,
  • 41:25 - 41:27
    in denen er Shape Expressions erstellt
  • 41:27 - 41:29
    und dann auf Autorenausdrücken aufbaut,
  • 41:29 - 41:32
    so dass wir also dieses Konzept
    der verknüpften Formausdrücke
  • 41:32 - 41:33
    in Wikidata haben.
  • 41:33 - 41:35
    Insbesondere der Anwendungsfall,
    wenn ich richtig verstehe,
  • 41:35 - 41:37
    entspricht genau dem,
    was wir in Gene Wiki machen.
  • 41:37 - 41:41
    Man hat also die Disease Ontology,
    die in Wikidata importiert ist,
  • 41:41 - 41:45
    dann kommen die Krankheitsdaten
    und wir wenden die Shape Expressions an,
  • 41:45 - 41:47
    um zu sehen, ob das
    zu diesem Thesaurus passt.
  • 41:47 - 41:49
    Und es gibt andere Thesauren
  • 41:49 - 41:51
    oder andere Ontologien
    für kontrolliertes Vokabular,
  • 41:51 - 41:53
    das noch in Wikidata rein muss
  • 41:53 - 41:55
    und genau deshalb sind
    Shape Expressions so interessant,
  • 41:55 - 41:58
    weil sie für die Disease Ontology
    möglich sind,
  • 41:58 - 42:00
    man kann Shape Expressions
    für MeSH haben.
  • 42:00 - 42:02
    Man kann sagen, ich möchte
    die Qualität überprüfen,
  • 42:02 - 42:06
    weil man auch in Wikidata den Kontext
    bei einem kontrollierten Vokabular hat,
  • 42:06 - 42:10
    dass man sagt,
    die Qualität entspricht dem,
  • 42:10 - 42:12
    aber die Community stimmt euch nicht zu.
  • 42:12 - 42:14
    Das Werkzeug ist also
    in der Tat vorhanden,
  • 42:14 - 42:17
    aber jetzt müssen diese Modelle
    erstellt und angewendet werden
  • 42:17 - 42:19
    auf die verschiedenen Anwendungsfälle.
  • 42:19 - 42:21
    (Zuschauer2)
    Die Shape Expressions sind nützlich,
  • 42:21 - 42:26
    sobald ihr die externe Ontologie
    in Wikidata abgebildet habt,
  • 42:26 - 42:30
    aber mein Problem ist,
    dass dieser Zeitpunkt erst kommt.
  • 42:30 - 42:32
    Momentan legt es nur offen,
    wie viel von der externen Ontologie
  • 42:32 - 42:35
    noch nicht in Wikidata enthalten ist
  • 42:35 - 42:36
    und wo die Lücken sind
  • 42:36 - 42:41
    und dies ist, wo ich denke,
    dass viel robustere Werkzeuge,
  • 42:41 - 42:44
    mit denen ihr erkennen könnt,
    was aus externen Ontologien fehlt,
  • 42:44 - 42:46
    sehr hilfreich wären.
  • 42:47 - 42:49
    Das größte Problem dort
  • 42:49 - 42:52
    sind nicht so sehr die Werkzeuge,
    sondern mehr die Lizenzierung.
  • 42:52 - 42:55
    Also das Einspielen der Ontologien
    in Wikidata ist ein Kinderspiel,
  • 42:55 - 42:59
    aber die meisten Ontologien haben,
    wie kann ich das höflich sagen,
  • 43:00 - 43:03
    restriktive Lizenzierung, daher sind diese
    nicht mit Wikidata kompatibel.
  • 43:04 - 43:07
    (Zuschauer2) Es gibt eine große Anzahl
    von Thesauren im öffentlichen Sektor
  • 43:07 - 43:08
    in kulturellen Bereichen.
  • 43:08 - 43:11
    - (Andra) Dann müssen wir reden.
    - (Zuschauer2) Kein Problem.
  • 43:11 - 43:12
    (Andra) Darüber müssen wir reden.
  • 43:14 - 43:18
    (Zuschauer3) Der Kommentar,
    den ich machen möchte,
  • 43:18 - 43:19
    ist eigentlich eine Antwort auf James.
  • 43:19 - 43:22
    Also die Sache ist die,
    dass Hierarchien Graphen machen
  • 43:22 - 43:24
    und wenn du ...
  • 43:25 - 43:28
    Ich möchte im Grunde genommen
    über ein bekanntes Problem
  • 43:28 - 43:31
    in Hierarchien sprechen,
    das sind zirkuläre Hierarchien,
  • 43:31 - 43:34
    die auf sich selbst zurück führen,
    wenn es ein Problem gibt,
  • 43:34 - 43:36
    das sollte man nicht in Hierarchien haben.
  • 43:37 - 43:41
    Witzigerweise passiert dies
    häufig in Wikipedia-Kategorien,
  • 43:41 - 43:43
    wir haben viele Kreise in Kategorien.
  • 43:44 - 43:47
    Aber die gute Nachricht ist, dass dies...
  • 43:48 - 43:50
    Technisch gesehen ist es
    ein PMP-vollständiges Problem.
  • 43:50 - 43:52
    Also ihr könnt dies nicht einfach finden,
  • 43:52 - 43:54
    wenn ihr ein Diagramm davon baut.
  • 43:54 - 43:57
    Aber es gibt viele Methoden,
    die entwickelt wurden,
  • 43:57 - 44:01
    um Probleme in diesen
    Hierarchiediagrammen zu finden.
  • 44:01 - 44:05
    Es gibt einen Artikel
  • 44:05 - 44:08
    namens Breaking Cycles
    in Noisy Hierarchies
  • 44:08 - 44:10
    und der wurde verwendet,
  • 44:10 - 44:13
    um die Kategorisierung
    der englischen Wikipedia zu erleichtern.
  • 44:13 - 44:15
    Ihr könnt dies einfach nehmen
    und diese Hierarchien
  • 44:15 - 44:17
    in Wikidata anwenden,
  • 44:17 - 44:20
    und dann könnt ihr Dinge finden,
    die problematisch sind
  • 44:20 - 44:22
    und diejenigen einfach entfernen,
    die Probleme verursachen,
  • 44:22 - 44:25
    und die eigentlichen Probleme finden.
  • 44:25 - 44:27
    Das ist also nur eine Idee,
    nur, damit ihr...
  • 44:28 - 44:30
    (Zuschauer2) Das ist schön und gut,
  • 44:30 - 44:32
    aber ich denke,
    ihr unterschätzt die Anzahl
  • 44:32 - 44:35
    der schlechten Beziehungen
    in den Subklassen, die wir haben.
  • 44:35 - 44:40
    Das ist, wie eine Stadt in einem
    völlig falschen Land zu haben
  • 44:40 - 44:45
    und es gibt Werkzeuge in der Geographie,
    um so etwas zu identifizieren,
  • 44:45 - 44:49
    und wir brauchen viel bessere
    Werkzeuge in Hierarchien,
  • 44:49 - 44:53
    um zu identifizieren, wo das
    Äquivalent des Items für das Land
  • 44:53 - 44:58
    vollständig fehlt oder tatsächlich
    in einer Subklasse eingeordnet ist,
  • 44:58 - 45:02
    die eine völlig andere Bedeutung hat.
  • 45:03 - 45:07
    (Lydia) Ja, ich denke,
    du sprichst etwas an,
  • 45:07 - 45:11
    das ich und mein Team
    immer wieder von Leuten hören,
  • 45:11 - 45:14
    die unsere Daten auch ziemlich
    häufig wiederverwenden, ja.
  • 45:15 - 45:17
    Einzelne Datenpunkte
    könnten großartig sein,
  • 45:17 - 45:20
    aber wenn ihr euch die Ontologie
    und so weiter ansehen müsst,
  • 45:20 - 45:22
    dann wird es sehr...
  • 45:22 - 45:27
    Und ich denke, eines der großen Probleme,
    warum dies passiert, ist,
  • 45:27 - 45:31
    dass vieles, was auf Wikidata
    editiert wird, auf der Grundlage
  • 45:31 - 45:35
    eines einzelnen Artikels basiert, ja.
  • 45:35 - 45:37
    Ihr bearbeitet dieses Element,
  • 45:38 - 45:42
    ohne zu bemerken, dass die Konsequenzen
    von globaler Natur sind
  • 45:42 - 45:44
    im Bezug auf dem Rest
    des Diagramms zum Beispiel.
  • 45:44 - 45:50
    Und wenn jemand eine Idee hat,
    wie man dies sichtbarer machen kann,
  • 45:50 - 45:53
    die Folgen einer einzelnen
    lokalen Bearbeitung,
  • 45:54 - 45:57
    ich denke, das wäre es wert,
    das herauszufinden,
  • 45:58 - 46:02
    den Leuten besser zu zeigen,
    was die Folge ihrer Überarbeitung ist,
  • 46:02 - 46:04
    die sie in gutem Glauben vornahmen,
  • 46:04 - 46:05
    was das ist.
  • 46:07 - 46:12
    Whoa! OK, fangen wir an mit, ja,
    du, dann du, dann du, dann du.
  • 46:12 - 46:14
    (Zuschauer4) Nun, nach dieser Diskussion
  • 46:14 - 46:18
    will ich nur meine Zustimmung geben
    zu dem, was James sagte.
  • 46:18 - 46:22
    Also das Gefährlichste scheint
    im Wesentlichen die Hierarchie zu sein,
  • 46:22 - 46:25
    nicht die Hierarchie, sondern allgemein
    die Semantik der Beziehungen
  • 46:25 - 46:28
    der Subklassen aus Wikidata.
  • 46:28 - 46:33
    Ich habe vor kurzem Sprachen studiert
    nur für die Zwecke dieser Konferenz
  • 46:33 - 46:35
    und zum Beispiel finden Sie viele Fälle,
  • 46:35 - 46:39
    wo eine Sprache sowohl Teil als auch
    Subklasse derselben Sache ist, okay.
  • 46:39 - 46:44
    Man könnte auch sagen,
    dass wir eine flexible Ontologie haben.
  • 46:44 - 46:46
    Wikidata gibt manchmal
    die Freiheit, dies auszudrücken,
  • 46:46 - 46:49
    zum Beispiel, weil diese Ontologie
    der Sprachen
  • 46:49 - 46:51
    auch politisch kompliziert ist, oder?
  • 46:51 - 46:53
    Es ist sogar gut, in der Lage zu sein,
  • 46:53 - 46:55
    ein gewisses Maß
    an Unsicherheit auszudrücken.
  • 46:55 - 46:58
    Aber stellen Sie sich vor,
    wer daraus maschinell lesen möchte.
  • 46:58 - 46:59
    Das ist also wirklich problematisch.
  • 46:59 - 47:01
    Andererseits glaube ich nicht,
  • 47:01 - 47:04
    dass Ontologie jemals
    von irgendwoher importiert wurde,
  • 47:04 - 47:05
    das ist etwas,
    was ursprünglich von uns kommt.
  • 47:05 - 47:08
    Wikipedia hat seit den Anfängen
    seinen Nutzen daraus gezogen, meine ich.
  • 47:08 - 47:11
    Also frage ich mich, diese Sache
    mit den Shape Expressions-Ding ist toll.
  • 47:11 - 47:16
    Das Validieren und Reparieren
    von Wikidata-Ontologien
  • 47:16 - 47:18
    durch externe Ressourcen, schöne Idee.
  • 47:19 - 47:23
    Werden wir letztendlich dort enden,
    dass wir externen Ontologien
  • 47:23 - 47:25
    in Wikidata widerspiegeln?
  • 47:25 - 47:28
    Und ebenso, was sollen wir
    mit dem Kern unserer Ontologie machen,
  • 47:28 - 47:31
    der nie von externen Ressourcen
    verwendet wird,
  • 47:31 - 47:32
    wie können wir das beheben?
  • 47:32 - 47:35
    Und ich denke wirklich,
    dass das ein Problem für sich sein wird.
  • 47:35 - 47:39
    Darauf müssen wir uns unabhängig
    von der Idee konzentrieren,
  • 47:39 - 47:41
    Ontologien mit etwas Externem
    zu validieren.
  • 47:49 - 47:53
    (Zuschauer5) Okay, die Constraints
    und Shapes sind sehr beeindruckend,
  • 47:53 - 47:55
    was man damit machen kann,
  • 47:55 - 47:58
    aber das Hauptanliegen ist
    nicht wirklich klar hervorgetreten.
  • 47:58 - 48:01
    Das liegt daran, dass wir jetzt
    genauer definieren können,
  • 48:01 - 48:03
    was wir von den Daten erwarten.
  • 48:03 - 48:07
    Vorher muss jeder seine eigenen
    Tools und Skripte schreiben
  • 48:07 - 48:11
    und so ist es sichtbarer
    und wir können darüber diskutieren.
  • 48:11 - 48:14
    Aber weil es nicht darum geht,
    was falsch oder richtig ist,
  • 48:14 - 48:16
    sondern um eine Erwartung
  • 48:16 - 48:18
    und ihr werdet
    unterschiedliche Erwartungen
  • 48:18 - 48:19
    und Diskussionen darüber haben,
  • 48:19 - 48:21
    wie wir Dinge in Wikidata
    modellieren wollen,
  • 48:21 - 48:23
    und das...
  • 48:23 - 48:26
    Der aktuelle Stand ist nur
    ein Schritt in die richtige Richtung,
  • 48:26 - 48:30
    denn jetzt braucht man
    sehr viel technisches Know-how,
  • 48:30 - 48:31
    um da reinzukommen
  • 48:31 - 48:36
    und wir brauchen bessere Möglichkeiten,
    um diese Constraints zu visualisieren,
  • 48:36 - 48:39
    vielleicht um es
    in natürliche Sprache umzuwandeln,
  • 48:39 - 48:41
    damit es die Leute
    besser verstehen können,
  • 48:41 - 48:44
    aber es geht weniger darum,
    was falsch oder richtig ist.
  • 48:45 - 48:46
    (Lydia) Ja.
  • 48:51 - 48:54
    (Zuschauer6) Zu den Qualitätsproblemen
    möchte ich einfach hinzufügen,
  • 48:54 - 48:57
    viele der Probleme,
    auf die ich gestoßen bin,
  • 48:59 - 49:02
    waren Meinungsunterschiede
    zwischen Instanz von und Subklasse.
  • 49:02 - 49:06
    Ich würde behaupten,
    Fehler in diesen Situationen
  • 49:06 - 49:11
    und zu versuchen, diese zu finden,
    ist sehr zeitaufwändig.
  • 49:12 - 49:13
    Ich bin auf so etwas gestoßen wie:
  • 49:13 - 49:15
    "Oh, wenn ich
    sehr eindrucksvolle Items finde,
  • 49:15 - 49:16
    die in etwa...
  • 49:16 - 49:19
    und dann verwendet man
    alle Subklasseninstanzen,
  • 49:19 - 49:22
    um alle abgeleiteten Anweisungen
    davon zu finden."
  • 49:22 - 49:26
    Dies ist eine sehr nützliche Methode,
    um nach diesen Fehlern zu suchen.
  • 49:26 - 49:28
    Aber ich war neugierig,
    ob Shape Expressions,
  • 49:30 - 49:31
    ob es ...
  • 49:31 - 49:34
    ob dies als Werkzeug zur Lösung
  • 49:34 - 49:37
    dieser Probleme
    verwendet werden kann, aber ja...
  • 49:41 - 49:43
    (Zuschauer7) Wenn es einen
    strukturellen Footprint hat...
  • 49:46 - 49:48
    Wenn es einen strukturellen Footprint hat,
  • 49:48 - 49:49
    der irgendwie fälschbar ist,
  • 49:49 - 49:51
    ihr seht das und könnt sagen,
    das ist falsch,
  • 49:51 - 49:53
    ja, dann kannst du das machen.
  • 49:53 - 49:57
    Aber wenn es nur darum geht,
    es auf reale Objekte abzubilden,
  • 49:57 - 49:59
    dann wirst du einfach viel,
    viel Hirnschmalz brauchen.
  • 50:06 - 50:09
    (Zuschauer8) Hallo, Pablo Mendes
    von Apple Siri Knowledge.
  • 50:09 - 50:11
    Wir sind hier, um herauszufinden,
  • 50:11 - 50:13
    wie wir dem Projekt
    und der Community helfen können,
  • 50:13 - 50:16
    aber Cristina machte den Fehler,
    zu fragen, was wir wollen.
  • 50:16 - 50:20
    Also eine Sache,
    dich ich gerne sehen würde:
  • 50:21 - 50:24
    Es geht viel um Überprüfbarkeit,
  • 50:24 - 50:26
    was eines der Grundprinzipien
    des Projekts in der Gemeinschaft ist,
  • 50:27 - 50:29
    und Vertrauenswürdigkeit.
  • 50:29 - 50:32
    Nicht jede Aussage ist gleich,
    einige von ihnen sind heftig umstritten,
  • 50:32 - 50:34
    einige von ihnen sind leicht zu lösen,
  • 50:34 - 50:36
    wie das Geburtsdatum
    einer Person zu überprüfen.
  • 50:36 - 50:38
    Wie ihr heute in der Keynote gesehen habt,
  • 50:38 - 50:40
    ist Geschlechterproblematik komplizierter.
  • 50:40 - 50:42
    Könnt ihr ein bisschen
    darüber diskutieren,
  • 50:42 - 50:45
    was ihr aus diesem Bereich
    der Datenqualität wisst,
  • 50:45 - 50:48
    über Vertrauenswürdigkeit
    und Überprüfbarkeit?
  • 50:55 - 50:58
    Wenn es nicht viel ist, würde ich
    gerne viel mehr sehen.
  • 51:01 - 51:02
    (Lydia) Ja.
  • 51:03 - 51:07
    Dazu haben wir offenbar
    nicht viel zu sagen.
  • 51:08 - 51:10
    (Andra) Ich denke, wir können viel tun,
  • 51:10 - 51:12
    aber ich hatte gestern
    ein Gespräch mit dir.
  • 51:12 - 51:16
    Mein Lieblingsbeispiel, das ich gestern
    gelernt habe und bereits veraltet ist,
  • 51:16 - 51:20
    ist, wenn Sie zu Q2 gehen,
    was die Erde ist,
  • 51:20 - 51:23
    da gibt eine Behauptung,
    die besagt, die Erde sei flach.
  • 51:24 - 51:26
    Und ich liebe dieses Beispiel,
  • 51:26 - 51:28
    weil es da draußen eine Community gibt,
  • 51:28 - 51:30
    die das behauptet und sie haben
    nachprüfbare Ressourcen.
  • 51:30 - 51:32
    Also ich denke, es ist ein echter Fall,
  • 51:32 - 51:35
    der nicht abgelehnt werden
    sondern in Wikidata sein sollte.
  • 51:35 - 51:40
    Und ich denke, dass Shape Expressions
    dort wirklich hilfreich sein können,
  • 51:40 - 51:42
    weil man sagen kann: Okay,
  • 51:42 - 51:45
    ich bin wirklich an diesem
    Anwendungsfall interessiert,
  • 51:45 - 51:48
    oder dies ist ein Anwendungsfall,
    mit dem ihr nicht einverstanden seid.
  • 51:48 - 51:49
    Es kann aber auch
    einen Anwendungsfall geben,
  • 51:49 - 51:51
    bei dem ihr sagt, okay,
    das interessiert mich.
  • 51:51 - 51:53
    Es gibt dieses Beispiel,
    wo ihr sagt, ich habe Glukose.
  • 51:53 - 51:56
    Und Glukose, wenn man Biologe ist,
  • 51:56 - 51:59
    interessiert man sich nicht für
    die chemischen Restriktionen
  • 51:59 - 52:00
    des Glukosemoleküls,
  • 52:00 - 52:03
    Glukose ist immer gleich.
  • 52:03 - 52:06
    Aber wenn man Chemiker ist,
    zuckt man zusammen, wenn man das hört,
  • 52:06 - 52:08
    man hast etwa 200...
  • 52:08 - 52:10
    Dann kann man
    viele Shape Expressions nehmen,
  • 52:10 - 52:13
    okay, ich komme mit...
    aus der Sicht eines Chemikers,
  • 52:13 - 52:14
    ich wende das an.
  • 52:14 - 52:17
    Und dann sagst du, ich gehe von
    einem biologischen Anwendungsfall aus,
  • 52:17 - 52:19
    ich wende diese Shape Expression an.
  • 52:19 - 52:21
    Und wenn ihr dann kollaborieren möchtet,
  • 52:21 - 52:23
    ja, nun, dann solltet ihr mit Eric
    über ShEx-Maps sprechen.
  • 52:24 - 52:29
    Und so... aber diese Reise
    beginnt gerade erst.
  • 52:29 - 52:32
    Aber ich persönlich glaube, dass dies
    in diesem Bereich sehr entscheidend ist.
  • 52:34 - 52:36
    (Lydia) Okay. Da drüben.
  • 52:41 - 52:44
    (Zuschauerin1) Ich hatte einige Ideen
  • 52:44 - 52:46
    zu einigen Punkten in den Diskussionen.
  • 52:46 - 52:49
    Also werde ich versuchen,
    diese nicht zu vergessen...
  • 52:49 - 52:51
    Ich hatte drei Ideen, also...
  • 52:52 - 52:55
    Basierend auf dem, was James
    vor einer Weile gesagt hat,
  • 52:55 - 52:59
    haben wir von Anfang an ein sehr,
    sehr großes Problem bei Wikidata
  • 52:59 - 53:02
    bei der oberen Ontologie.
  • 53:02 - 53:05
    Darüber haben wir vor zwei Jahren
    bei WikidataCon gesprochen
  • 53:05 - 53:07
    und wir haben darüber
    bei Wikimania gesprochen.
  • 53:07 - 53:10
    Bei jedem Wikidata-Treffen
  • 53:10 - 53:11
    sprechen wir darüber,
  • 53:11 - 53:16
    weil es ein sehr großes Problem
    direkt vor unseren Augen ist.
  • 53:16 - 53:20
    Was eine Entität ist, was Arbeit ist,
  • 53:20 - 53:23
    was ein Genre ist, Kunst,
  • 53:23 - 53:25
    wirklich die wichtigsten Konzepte.
  • 53:26 - 53:31
    Und das ist tatsächlich
    ein sehr schwacher Punkt
  • 53:31 - 53:33
    im Bezug auf die globale Ontologie,
  • 53:33 - 53:37
    weil die Leute versuchen,
    regelmäßig aufzuräumen
  • 53:38 - 53:41
    und alles komplett kaputt gemacht haben.
  • 53:43 - 53:48
    Ich denke, einige von euch
    erinnern sich vielleicht an den Typ,
  • 53:48 - 53:52
    der in gutem Glauben absolut alle Städte
    auf der Welt durcheinander brachte.
  • 53:52 - 53:55
    Das waren keine
    geografischen Objekte mehr,
  • 53:55 - 53:58
    daher gibt es überall
    Verstöße gegen Constraints.
  • 53:59 - 54:00
    Und es passierte in gutem Glauben,
  • 54:00 - 54:04
    weil er eigentlich einen Fehler
    in einem Artikel korrigierte,
  • 54:04 - 54:06
    aber alles brach zusammen.
  • 54:06 - 54:09
    Und ich bin nicht sicher,
    wie wir das lösen können,
  • 54:10 - 54:14
    da es eigentlich
    keine externe Einrichtung gibt,
  • 54:14 - 54:16
    die wir verwenden könnten,
  • 54:16 - 54:18
    weil alle daran arbeiten...
  • 54:19 - 54:22
    Nun, wenn ich Datenbank
    für Kunst am Laufen habe,
  • 54:22 - 54:25
    werde ich nur das verwendete Label
    für Kunst nehmen,
  • 54:25 - 54:28
    ich kümmere mich nicht
    um das philosophische Konzept dessen,
  • 54:28 - 54:29
    was eine Entität ist,
  • 54:29 - 54:31
    und das ist eigentlich...
  • 54:31 - 54:35
    Ich kenne keine Datenbank,
    die auf diesem Niveau arbeitet,
  • 54:35 - 54:37
    aber das ist der schwächste
    Punkt von Wikidata.
  • 54:38 - 54:41
    Und wahrscheinlich,
    wenn wir über Datenqualität sprechen,
  • 54:41 - 54:44
    ist das eigentlich
    ein großer Teil davon, also...
  • 54:44 - 54:49
    Und ich denke, es ist dasselbe,
    was wir gesagt haben...
  • 54:49 - 54:51
    Oh, tut mir leid, ich wechsle das Thema
  • 54:51 - 54:56
    Aber wir haben in verschiedenen Meetings
    über Qualitäten gesprochen,
  • 54:56 - 54:59
    dass einige von uns eigentlich
    gute Modellierung machen,
  • 54:59 - 55:01
    ShEx und solche Dinge tun.
  • 55:02 - 55:07
    Die Leute sehen es nicht auf Wikidata,
    sie sehen ShEx nicht,
  • 55:07 - 55:11
    Sie sehen das WikiProjekt nicht
    auf der Diskussionsseite und manchmal
  • 55:11 - 55:15
    sehen sie nicht einmal
    die Diskussionsseiten von Eigenschaften,
  • 55:15 - 55:20
    die ausdrücklich angeben, a),
    diese Eigenschaft wird dafür verwendet.
  • 55:20 - 55:24
    Letzte Woche zum Beispiel habe ich
    Constraints einer Eigenschaft hinzugefügt.
  • 55:24 - 55:26
    Das Constraint wurde
    ausdrücklich beschrieben
  • 55:26 - 55:29
    in der Diskussion bei
    der Einführung der Eigenschaft.
  • 55:29 - 55:33
    Ich hatte gerade den technischen Teil
    zum Hinzufügen der Constraint erstellt
  • 55:33 - 55:35
    und jemanden meinte:
  • 55:35 - 55:37
    "Was! Du hast alle
    meine Bearbeitungen zerstört!"
  • 55:37 - 55:42
    Und die letzten zwei Jahre nutzte
    er die Eigenschaft auf die falsche Art.
  • 55:42 - 55:44
    Und die Eigenschaft
    war eigentlich sehr klar,
  • 55:44 - 55:47
    aber es gab keine Warnungen oder so etwas.
  • 55:47 - 55:50
    Und so ist es auch beim Pink Pony,
    dass wir bei Wikimania gesagt haben,
  • 55:50 - 55:54
    WikiProject sichtbarer zu machen
    oder ShEx sichtbarer zu machen,
  • 55:54 - 55:57
    aber, und das hat Cristina gesagt,
  • 55:57 - 56:00
    wir haben ein Problem
    mit der Sichtbarkeit
  • 56:00 - 56:02
    der vorhandenen Lösungen.
  • 56:02 - 56:05
    Und in dieser Session
    haben wir alle darüber geredet,
  • 56:05 - 56:07
    wie man mehr mit ShEx arbeitet
  • 56:07 - 56:11
    oder die Arbeit der Leute erleichtert,
    die alles korrigieren.
  • 56:11 - 56:16
    Aber wir korrigieren seit
    dem ersten Tag von Wikidata
  • 56:16 - 56:21
    und global verlieren wir
    und wir verlieren, weil, na ja,
  • 56:21 - 56:23
    wenn ich weiß,
    dass Namen kompliziert sind,
  • 56:23 - 56:26
    aber ich die einzige bin,
    die die Korrekturen macht,
  • 56:27 - 56:30
    der Typ, der den lateinischen
    Namen hinzugefügt hat
  • 56:30 - 56:32
    für alle chinesischen Forscher,
  • 56:32 - 56:34
    dafür brauche ich Monate
    um das zu korrigieren.
  • 56:34 - 56:36
    und ich kann es nicht alleine tun,
  • 56:36 - 56:39
    und er hat einen großen Batch gemacht.
  • 56:39 - 56:40
    Also brauchen wir wirklich...
  • 56:40 - 56:44
    Wir haben mehr ein Sichtbarkeitsproblem
    als ein Werkzeugproblem, denke ich,
  • 56:44 - 56:46
    weil wir viele Werkzeuge haben.
  • 56:46 - 56:50
    (Lydia) Richtig, aber leider habe ich
    ein Zeichen bekommen,
  • 56:50 - 56:52
    wir müssen das also abschließen.
  • 56:52 - 56:53
    Vielen Dank für eure Kommentare.
  • 56:53 - 56:57
    Ich hoffe, ihr werdet die Diskussion
    über den Tag fortführen
  • 56:57 - 56:58
    und vielen Dank für euren Beitrag.
Title:
cdn.media.ccc.de/.../wikidatacon2019-9-eng-Data_quality_panel_hd.mp4
Video Language:
English
Duration:
57:10

German subtitles

Revisions