WikiData und Sprachen
(Lydia) Vielen Dank.
Also, in dieser Konferenz sind
einige der großen Themen die Sprachen.
Ich möchte Ihnen einen Überblick
darüber geben, wo wir derzeit
beim Thema Sprachen stehen
und wie wir von hier aus
weitermachen können.
[Mehr Leuten mehr Zugang
zu mehr Wissen geben]
Bei Wikidata geht es darum, mehr Menschen
mehr Zugang zu mehr Wissen zu geben,
und Sprache ist ein wichtiger Teil davon,
dies Wirklichkeit werden zu lassen,
zumal immer mehr unseres Lebens
von der Technologie abhängt.
Und wie unser Hauptredner vorhin sagte,
fallen durch einen Teil der Technologie
die Menschen einfach zurück,
weil sie eine bestimmte Sprache
einfach nicht sprechen können,
und das ist nicht in Ordnung.
Deshalb wollen wir etwas
dagegen unternehmen.
Und um das zu ändern,
braucht man mindestens zwei Dinge.
Erstens muss man den Leuten Inhalte
in ihrer Sprache zur Verfügung stellen,
und zweitens muss man ihnen
in diesen Anwendungen
oder was immer man hat,
Interaktion in ihrer Sprache ermöglichen.
Und Wikidata hilft bei beiden davon.
Und die erste Sache,
der Inhalt in Ihrer Sprache,
das ist im Grunde das, was wir
an Objekten und Eigenschaften haben,
wie wir die Welt beschreiben.
Nun, das ist sicherlich nicht alles,
was man braucht,
aber es bringt einen ziemlich weit voran.
Die andere Sache ist
die Interaktion in Ihrer Sprache,
und hier kommen Lexeme ins Spiel.
Wenn Sie mit Ihrem digitalen
persönlichen Assistenten sprechen wollen
oder wenn Sie Ihr Gerät einen Text
und solche Dinge übersetzen lassen wollen.
Na gut, sehen wir uns
den Inhalt in Ihrer Sprache an.
Also, was wir an Objekten
und Eigenschaften haben.
Dafür sind Bezeichnungen in den Objekten
und Eigenschaften entscheidend.
Wir müssen wissen, wie diese Entität
genannt wird, über die wir sprechen.
Und anstatt über Q5 zu sprechen,
jemand, der Englisch spricht, weiß,
dass das ein "human" ist,
jemand, der Deutsch spricht, weiß,
dass das ein "Mensch" ist,
und ähnliche Dinge.
Also überbrücken diese Bezeichnungen
auf Objekten und Eigenschaften
die Kluft zwischen Mensch und Maschine.
Und Menschen und Menschen
machen mehr vorhandenes Wissen
für sie zugänglich.
Das ist ein schönes Ziel zum Anstreben.
Wie sieht es eigentlich aus?
Es sieht so aus.
Was Sie hier sehen, ist,
dass die meisten Objekte auf Wikidata
zwei Bezeichnungen haben,
also Bezeichnungen in zwei Sprachen.
Und danach nur eines und dann drei,
und dann wird es sehr düster.
(leises Lachen)
Ich denke, wir müssen es besser machen.
Aber andererseits
habe ich eigentlich erwartet,
dass es schlimmer sein würde.
Ich habe erwartet,
dass der Durchschnitt eines sein würde.
Deshalb war ich ziemlich froh,
zwei zu sehen. (lacht)
In Ordnung.
Aber es ist nicht nur interessant
zu wissen,
wie viele Bezeichnungen unsere
Objekte und Eigenschaften haben.
Es ist auch interessant zu sehen,
in welchen Sprachen.
Hier sehen Sie eine Grafik der Sprachen,
für die wir Bezeichnungen
auf den Objekten haben.
Der größte Teil davon ist also Sonstiges.
Ich habe also nur
die 100 wichtigsten Sprachen ausgewählt
und alles andere ist Sonstiges,
um diese Grafik lesbar zu machen.
Und dann gibt es noch
Englisch und Niederländisch,
Französisch
und, nicht zu vergessen, Asturisch.
- (Person 1) Juhu!
- (Lydia) Juhuu, jawohl!
Was Sie hier sehen,
ist also ein ziemliches Ungleichgewicht
und immer noch eine starke Konzentration
auf Englisch.
Eine andere Sache ist, wenn Sie sich
das Gleiche für Eigenschaften ansehen,
sieht es eigentlich besser aus.
Und teilweise kommt das davon, dass es
einfach viel weniger Eigenschaften waren.
Also haben auch kleinere Communites
eine Chance, damit Schritt zu halten.
Aber es ist auch ein ziemlich
wichtiger Teil von Wikidata,
dass man in seine Sprache
lokalisieren kann.
Das ist also gut.
Was ich hier mit Asturisch
hervorheben möchte, ist,
dass eine kleine Gemeinschaft
mit etwas Hingabe und Arbeit
wirklich einen großen Unterschied
machen kann,
und das ist wirklich cool.
Ein kleines Quiz für Sie.
Wenn Sie alle Eigenschaften
auf Wikidata nehmen,
die keine externen Identifikatoren sind,
welche hat dann die meisten Bezeichnungen,
also die meisten Sprachen?
(Publikum) [Gemurmel]
Ich höre eine gewisse Übereinstimmung
über die Instanz von?
Sie würden sich irren.
Es ist Bild. (lacht)
Also, ja, das sagt Ihnen,
wenn Sie eine der Sprachen sprechen,
in denen Instanz von
noch keine Bezeichnung hat,
sollten Sie sie vielleicht hinzufügen.
Es hat also derzeit 148 Bezeichnungen.
Aber das ist eine andere Folie.
Diese Grafik sagt uns etwas darüber,
wie viel Inhalt wir in einer bestimmten
Sprache zur Verfügung stellen
und wie viel von diesem Inhalt
tatsächlich genutzt wird.
Was Sie also sehen,
ist im Grunde eine Kurve,
bei der die meisten Inhalte
englische Beschriftungen haben,
in Englisch verfügbar sind
und viel genutzt werden.
Und dann geht sie abwärts.
Aber was Sie wiederum sehen,
sind Ausreißer,
die viel mehr Inhalte haben,
als Sie unbedingt erwarten würden,
und das ist wirklich, wirklich gut.
Das Problem ist immer noch,
dass es nicht oft verwendet wird.
Asturisch und Niederländisch
sollten höher stehen,
und ich denke, dass es echt nützlich ist,
diesen Gemeinden dabei zu helfen,
die Nutzung der gesammelten Daten
zu erhöhen.
Was diese und andere Analysen
uns gezeigt haben, ist eine gute Sache,
denn wir sehen,
dass stark genutzte Artikel
auch dazu neigen,
mehr Bezeichnungen zu haben
oder umgekehrt - das ist nicht ganz klar.
Und dann stellt sich die Frage,
ob wir nur die mächtigen Sprachen
bedienen.
Oder dienen wir allen?
Und was Sie hier sehen,
ist eine Gruppierung der Sprachen.
Die Sprachen, die in einer Gruppe sind,
haben oft gemeinsame Bezeichnungen.
Und Sie sehen, dass diese sich gruppieren.
Hier ist eine ähnliche Gruppierung,
in Farbe, basierend darauf,
wie lebendig, wie oft verwendet
und wie gefährdet die Sprache ist.
Und eine gute Sache, die Sie hier sehen,
ist, dass sichere Sprachen
und gefährdete Sprachen
nicht zwei verschiedene Cluster bilden,
sondern sie sind alle
miteinander vermischt,
was viel besser ist als umgekehrt,
wenn die sicheren Sprachen,
die mächtigen Sprachen,
sich nur gegenseitig aushelfen würden.
Nein, das ist nicht der Fall.
Und das ist wirklich eine gute Sache.
Als ich das sah, fand ich das sehr gut.
Hier ist eine ähnliche Sache,
bei der wir uns
den Status der Sprachen
und die Anzahl der Bezeichnungen
angesehen haben.
Was Sie sehen, ist ein klarer Sieg
für ungefährdete Sprachen,
wie zu erwarten ist.
Aber was Sie auch sehen, ist,
dass die Sprachen in Kategorie 2
und 3 und vielleicht sogar 4
eigentlich gar nicht so schlecht sind,
was ihre Darstellung in Wikidata
und anderen angeht.
Das festzustellen, ist wirklich gut.
Wenn man sich nun
die gleiche Sache anschaut,
wie viel von dem Inhalt
dieser Bezeichnungen
beispielsweise auf Wikipedia
tatsächlich verwendet wird,
dann sehen wir ein ähnliches Bild,
das wieder auftaucht.
Es zeigt uns, dass diese Communities
ihre Zeit tatsächlich gut nutzen,
indem sie beispielsweise Bezeichnungen
für stärker verwendete Artikel eintragen.
Es gibt Ausreißer, bei denen wir
meiner Meinung nach helfen können,
um diesen Communities zu helfen,
die Orte zu finden,
wo ihre Arbeit am wertvollsten wäre.
Aber insgesamt bin ich
mit diesem Bild zufrieden.
Nun, das war der Teil der Objekte
und Eigenschaften von Wikidata.
Betrachten wir nun die Interaktion
in Ihren Sprachen.
Also die Lexeme-Teile von Wikidata,
in denen wir Wörter und ihre Formen
und ihre Bedeutungen beschreiben.
Wir machen das jetzt
seit Mai letzten Jahres,
und der Inhalt ist gewachsen.
Sie können hier in Blau die Lexeme sehen
und dann in rot die Formen
auf diesen Lexemen
und in gelb die Bedeutung
auf diesen Lexemen.
Einige Communities--
dazu kommen wir später --
haben also viel Zeit damit verbracht,
Formen und Bedeutungen für ihre Lexeme
zu erstellen, was wirklich nützlich ist,
denn das bildet den Kern
des Datensatzes, den Sie benötigen.
Nun haben wir uns alle Sprachen angesehen,
die Lexeme auf Wikidata haben.
Die Wörter, die wir haben,
das sind im Moment 310 Sprachen.
Was ist Ihrer Meinung nach
die wichtigste Sprache,
wenn es um die Anzahl der Lexeme geht,
die derzeit in Wikidata enthalten sind?
(Publikum) [mehrere Zwischenrufe]
(Lydia) Hm?
(Person 2) Deutsch.
(Lydia) Entschuldigung,
ich habe es schon mal gehört.
Es ist Russisch.
Russisch hat einen großen Vorsprung.
Und nur um Ihnen
einen Eindruck zu geben,
es gibt verschiedene Meinungen,
aber ich habe zum Beispiel gelesen,
dass 1.000 bis 3.000 Wörter
Sie ungefähr auf Konversationsniveau
in einer anderen Sprache bringen
und 4.000 bis 10.000 Wörter
auf ein fortgeschrittenes Niveau.
Wir müssen also noch ein wenig aufholen.
Eine Sache, die Sie beachten sollten,
ist Baskisch hier
mit ungefähr 10.000 Lexemen.
Wenn man sich die Anzahl der Formen
für diese Lexeme ansieht,
ist Baskisch weit oben,
was wirklich cool ist,
und Sie sollten zu einem Vortrag gehen,
der Ihnen erklärt, warum das der Fall ist.
Wenn man sich nun die Anzahl
der Bedeutungen anschaut,
also was bedeuten die Wörter,
steht Baskisch sogar
ganz oben auf der Liste.
Ich denke, das verdient einen Applaus.
(Beifall)
Noch ein kurzes Quiz.
Welches ist das Lexem
mit den meisten Übersetzungen derzeit?
(Publikum) Katzen, Katzen, [unhörbar],
Douglas Adams, [unhörbar]
(Lydia) Alles gute Ratschläge, aber nein.
Es ist dies,
das russische Wort für "Wasser".
Also gut, wir haben jetzt
viel darüber gesprochen,
wie viele Lexeme, Formen
und Bedeutungen wir haben,
aber das ist nur eine Sache,
die man braucht.
Die andere Sache ist,
diese Lexeme, Formen und Bedeutungen
in maschinenlesbarer Form zu beschreiben.
Und dazu hat man Aussagen,
wie zum Beispiel zu Objekten.
Und eine der Eigenschaften,
die man verwendet,
ist ein Anwendungsbeispiel.
Wer also diese Daten verwendet,
kann verstehen, wie dieses Wort
im Kontext zu verwenden ist,
so dass es zum Beispiel
ein Zitat sein könnte.
Und hier liegt Polnisch ganz vorne.
Gute Arbeit, Polnisch-Sprecher.
Eine weitere Eigenschaft,
die wirklich nützlich ist, ist IPA,
also wie spricht man dieses Wort aus.
Russisch braucht offenbar
viele IPA-Erklärungen.
Aber noch einmal kommt Polnisch
gleich hinterher.
Und zu guter Letzt haben wir
auch noch eine Audioaussprache.
Das sind also Links
zu Dateien auf Commons,
in denen jemand das Wort ausspricht,
so dass Sie hören können,
wie ein Muttersprachler
das Wort ausspricht,
falls Sie zum Beispiel
IPA nicht lesen können.
Und es gibt ein wirklich nettes,
auf Wiki basierendes Projekt
namens Lingua Libre,
bei dem Sie mithelfen können,
Wörter in Ihrer Sprache aufzunehmen,
die dann zu den Lexemen auf Wikidata
hinzugefügt werden können,
damit andere Leute verstehen können,
wie Ihre Wörter ausgesprochen werden.
(Person 2) [undeutlich]
(Lydia) Wenn Sie
nach "Lingua Libre" suchen,
und ich bin sicher, dass es jemand
im Telegrammkanal posten kann.
Die Leute sind der Hammer.
Sie haben wirklich coole Sachen
mit Wikibase gemacht.
In Ordnung.
Dann ist die Frage, wie geht es weiter?
Basierend auf den Zahlen,
die ich Ihnen gerade gezeigt habe,
haben wir einen langen Weg zurückgelegt,
um mehr Menschen mehr Zugang
zu mehr Wissen zu geben,
was Sprachen auf Wikidata betrifft.
Aber es liegt auch noch
eine Menge Arbeit vor uns.
Einige der Dinge, die Sie
tun können, um zu helfen,
sind zum Beispiel Label-a-Thons,
wie Leute zusammenzubringen,
um Objekte in Wikidata zu bezeichnen,
oder einen Edit-a-Thon, um Lexeme
in Ihrer Sprache zu vervollständigen,
um die am häufigsten verwendeten Wörter
in Ihrer Sprache in Wikidata zu bestimmen.
Oder Sie können ein Werkzeug
wie Terminator verwenden,
das Ihnen hilft, die wichtigsten Elemente
in Ihrer Sprache zu finden,
bei denen noch keine Bezeichnung
vorhanden ist.
Am wichtigsten ist es, zu messen,
wie oft es in anderen Wikidata-Elementen
als Links in Aussagen verwendet wird.
Und beim Lexeme-Teil
geht es natürlich auch darum,
diese Lexeme zu erweitern
und weitere Aussagen hinzuzufügen,
so dass sie tatsächlich die Basis
für sinnvolle Anwendungen bilden können,
die darauf aufbauen.
Denn wir nähern uns
dieser kritischen Masse,
aber wir sind noch weit davon entfernt,
dass man darauf ernsthafte
Anwendungen aufbauen könnte.
Und ich hoffe, dass Sie alle
sich uns dabei anschließen werden.
Und damit komme ich schon
zu einer kleinen Hilfe
von unseren Freunden,
und Bruno, wollen Sie zu uns kommen
und mit uns über
lexikalische Masken sprechen?
(Bruno) Danke, Lydia.
Danke, dass Sie mir
die Zeit gegeben haben,
um diese Arbeit vorzustellen,
die wir bei Google Denny machen
und von der viele von Ihnen schon
gehört haben oder wissen.
Denn bei Google bin ich Linguist.
Ich freue mich also sehr, hier unter
anderen Sprachbegeisterten zu sein.
Wir bauen auch einige Lexika auf,
und wir haben diese Technologie
oder diesen Ansatz aufgebaut, von dem
wir glauben, dass er nützlich sein kann.
Nur um ein wenig
Hintergrundinformationen zu geben,
hier ist mein lexikografischer
Hintergrund, über den ich hier spreche.
Wenn wir eine Lexikon-Datenbank aufbauen,
ist es sehr schwierig, sie zu pflegen,
konsistent zu halten
und Daten auszutauschen,
wie Sie wahrscheinlich wissen.
Es gibt mehrere Versuche, die Funktionen
und die Eigenschaften zu vereinheitlichen,
die diese Lexeme
und diese Formen beschreiben,
und es ist kein gelöstes Problem.
Es gibt einige Vereinheitlichungsversuche
auf dieser Seite.
Aber was wirklich fehlt--
und dieses Problem hatten wir
zu Beginn unseres Projekts bei Google--
ist der Versuch,
eine interne Struktur zu schaffen,
die beschreibt, wie ein
lexikalischer Eintrag aussehen sollte,
welche Art von Daten oder welche Art
von Informationen wir haben
und welche Spezifikationen
erwartet werden.
Das ist es also, was wir mit dieser Sache
namens Lexikon-Maske herausgefunden haben.
Eine Lexikonmaske beschreibt,
was für einen Eintrag,
einen lexikografischen Eintrag,
erwartet wird, um vollständig zu sein,
sowohl in Bezug auf die Anzahl der Formen,
die Sie für ein Lexem erwarten,
als auch auf die Anzahl der Merkmale,
die Sie für jede dieser Formen erwarten.
Hier ist ein Beispiel
für italienische Adjektive.
Sie erwarten, dass Ihre Adjektive
auf Italienisch vier Formen haben,
und jede dieser Formen
hat eine spezifische Kombination
von Geschlechts- und Numerusmerkmalen.
Das erwarten wir
für die italienischen Adjektive.
Natürlich können Sie
sehr komplexe Masken haben,
wie die Konjugation
der französischen Verben,
die sehr umfangreich ist,
und ich zeige Ihnen nicht
weitere russische Masken,
weil diese nicht
auf den Bildschirm passen.
Und wir haben auch
einige detaillierte Spezifikationen,
weil wir unterscheiden auf der Formebene.
Hier haben Sie also russische Substantive,
die drei Numeri
und eine Reihe von Fällen
mit unterschiedlichen Formen haben,
aber sie haben auch eine Spezifikation
auf der Einstiegsebene,
die besagt, dass ein Substantiv vor allem
ein inhärentes Geschlecht
und ein inhärentes Belebtheitsmerkmal hat,
das ebenfalls in der Maske angegeben ist.
Wir wollen auch unterscheiden,
dass eine Maske
eine Spezifikation dafür gibt,
wie ein Eintrag aussehen sollte.
Aber Sie können kleinere Masken
für fehlerhafte Aspekte der Form
oder fehlerhafte Aspekte des Lexems haben,
die in der Sprache vorkommen.
Hier ist also die einfachste Version
der französischen Verben,
die nur die dritte Person Singular
für alle Wetterverben haben,
wie "es regnet" oder "es schneit",
wie im Englischen.
Wir unterscheiden also
diese beiden Stufen.
Und wie wir das bei Google verwenden,
ist, dass wir, wenn wir ein Lexikon haben,
das wir verwenden wollen,
die Maske benutzen, um die Lexika,
also alle Einträge,
wirklich buchstäblich
durch die Maske zu werfen
und zu sehen, welcher Eintrag
ein Problem in Bezug auf die Struktur hat.
Fehlt uns eine Form?
Fehlt uns ein Merkmal?
Und wenn es ein Problem gibt, führen wir
eine menschliche Validierung durch
oder einfach nur, um zu sehen,
ob es die Maske passiert.
Es ist also ein extrem
leistungsfähiges Werkzeug,
um die Qualität der Struktur
zu überprüfen.
Wir freuen uns also,
heute bekannt geben zu können,
dass wir grünes Licht erhalten haben,
unsere Maske freizugeben.
Dies ist also ein Schema.
Wenn Sie das wollen,
können wir es veröffentlichen
und wir werden es Wikidata
als ShEx-Dateien zur Verfügung stellen.
Dies ist eine ShEx-Datei
für deutsche Substantive,
und Denny arbeitet an der Konvertierung
von unserer internen Spezifikation
in eine Open-Source-Spezifikation.
Derzeit decken wir
mehr als 25 Sprachen ab.
Wir erwarten also Wachstum
auf unserer Seite,
aber wir suchen auch nach der Möglichkeit,
für andere Sprachen zusammenzuarbeiten.
Und eine der laufenden Kooperationen,
die zwischen Denny und Lukas stattfindet,
Lukas hat diese großartigen Werkzeuge,
um eine Benutzeroberfläche zu haben,
die dem Benutzer
oder dem Beitragenden hilft,
weitere Formen hinzuzufügen.
Wenn Sie also ein Adjektiv
auf Französisch hinzufügen möchten,
sagt Ihnen die Benutzeroberfläche,
wie viele Formen erwartet werden
und welche Art von Funktionen
diese Form haben sollte.
Unsere Maske hilft Ihnen, das Werkzeug
zu definieren und zu erweitern.
Das ist alles.
(Lydia) Ich danke Ihnen vielmals.
(Beifall)
In Ordnung. Gibt es Fragen?
Wollen Sie mehr über Lexeme sprechen?
- (Person 3) Ja.
- (Lydia) Ja. (lacht)
(Person 3) Meine Frage,
weil Sie davon sprachen,
mehr Menschen in mehr Sprachen
Zugang zu gewähren.
Aber es gibt eine Menge Sprachen,
die in Wikidata
nicht verwendet werden können.
Welche Lösung haben Sie also dafür?
(Lydia) Wenn Sie sagen, dass Wikidata
nicht verwendet werden kann,
sprechen Sie von der Eingabe
von Bezeichnungen?
(Person 3) Bezeichnungen,
Beschreibungen.
(Lydia) Richtig.
Bei Lexemes ist es also etwas anders,
weil wir dort diese Einschränkung
nicht haben.
Für Bezeichnungen
von Objekten und Eigenschaften
gibt es eine gewisse Einschränkung,
weil wir sicherstellen wollten,
dass nicht jeder
etwas völlig anderes macht
und es unüberschaubar wird.
Sogar eine kleine Communties,
die eine einzige Sprache wollen
und daran arbeiten möchten,
kommt zu uns und sprecht mit uns,
wir werden das einrichten.
(Person 3) Wir haben das
beim Prager Hackathon im Mai getan,
und wir haben bis fast August gebraucht,
um unsere Sprache verwenden zu können.
- (Lydia) Ja.
- (Person 3) Also, es ist sehr langsam.
(Lydia) Ja, es ist leider sehr langsam.
Wir arbeiten derzeit
mit dem Sprachausschuss
an der Lösung einiger grundlegender...
Zum Beispiel, eine Einigung
darüber zu erzielen,
welche Arten von Sprachen
tatsächlich "erlaubt" sind,
und das hat zu lange gedauert,
weshalb Ihre Anfrage wahrscheinlich
länger gedauert hat,
als sie hätte sein sollen.
(Person 3) Danke.
(Person 4) Vielen Dank.
Lydia, wenn Sie sich an die Statistiken
erinnern, die Sie gezeigt haben,
die Anzahl der Lexeme pro Sprache.
Haben Sie also alle Formen
als Datenpunkt gezählt
oder nur Lexeme?
(Lydia) Meinen Sie das?
Welches meinen Sie?
(Person 4) Ja, genau.
Wenn Sie sich erinnern,
zählt diese Zahl [unhörbar]
alle Formen für alle Lexeme
oder nur, wie viele Lexeme es gibt?
(Lydia) Nein, dies ist nur
die Anzahl von Lexemen.
(Person 4) Nur eine Anzahl
von Lexemen, okay.
Dann ist es also nur eine Statistik,
denn wenn es dann die Formen
zusammensetzen würde--
deshalb frage ich--
dann haben alle Sprachen
mit der Flexionsmorphologie,
wie Russisch, Serbisch,
Slowenisch und so weiter,
einen natürlichen Vorteil,
weil sie so viele haben.
(Lydia) Das wirkt sich also
auf diese Anzahl von Formen aus.
(Person 4) Ja, das war diese hier. Danke.
(Person 5) Also, ich hatte
eine kurze Frage über die...
Wenn wir über die eigentlichen
Objekte und Eigenschaften sprechen,
soweit ich weiß,
gibt es derzeit keine Möglichkeit,
eine tatsächliche Quelle
für die angegebenen Bezeichnungen
und Beschreibungen anzugeben.
Zum Beispiel, weil man,
wenn es sich um eine Eigenschaft
eines Objekts handelt,
kann man zum Beispiel
widersprüchliche Bezeichnungen erhalten.
(Lydia) Ja.
(Person 5) Diese Person ist also wie...
Wir haben zum Beispiel schon einmal
über indigene Dinge gesprochen.
Diese Person ist also nach dieser Quelle
ein norwegischer Künstler,
und nach dieser Quelle
ein samischer Künstler.
Oder, zum Beispiel, in der
estnischen Sprache hatten wir ein Problem,
bei dem wir die Terminologie
auf die offizielle Terminologie
in den offiziellen Lexika
umstellen mussten,
aber wir haben keine Möglichkeit,
wirklich anzugeben, warum,
was die Ursache dafür war
und warum das besser war
und was vorher da war.
Es war nur ich als zufällige Person,
die die Sache umgestellt hat
für jeden, der das sieht.
Gibt es also einen Plan, um dies
in irgendeiner Weise zu ermöglichen,
damit wir tatsächlich die richtigen
Quellen für die Sprachdaten haben?
(Lydia) Also, es ist teilweise möglich.
Wenn Sie zum Beispiel ein Objekt
für eine Person haben,
dann haben Sie eine Aussage,
den Vornamen, den Nachnamen
und so weiter, dieser Person,
und dann können Sie dort
die Referenz dafür angeben.
Ich zögere noch, mehr Komplexität
für Referenzen auf Bezeichnungen
und Beschreibungen hinzuzufügen,
aber wenn die Leute wirklich,
wirklich denken,
dass dies etwas ist,
das nicht durch eine Referenz
zu der Aussage abgedeckt ist,
dann lassen Sie uns darüber reden.
Aber ich fürchte, es wird
eine Menge Komplexität
für hoffentlich wenige Fälle hinzufügen,
aber ich bin bereit, mich vom Gegenteil
überzeugen zu lassen,
wenn die Leute wirklich
sehr stark davon überzeugt sind.
(Person 5) Wenn es hinzugefügt wird,
sollte es nicht Standardeinstellung sein,
das allen Anfängern der Benutzer
zu zeigen, auf jeden Fall.
Eher so: "Klicken Sie hier, wenn Sie
etwas Bestimmtes dazu sagen müssen".
(Lydia) Haben wir ein Gefühl dafür,
wie oft das eine Rolle spielen würde?
(Person 5) Auf Estnisch, zum Beispiel--
ich nehme an, das gilt auch
für andere Sprachen--
gibt es einen offiziellen Namen,
die tatsächlich legitime Übersetzung,
zum Beispiel ins Englische,
einer bestimmten Art
von Stadtgemeinde ist.
Das war zum Beispiel mein Anwendungsfall,
wo wir das Wort "Gemeinde"
verwendet haben,
das im estnischen Original
wie eine Kirchengemeinde gemeint war,
und das war der Ursprung,
aber das ist nicht die offizielle
Übersetzung, die Estland jetzt hat.
(Lydia) In diesem Fall würde ich es
als offizielle Namensangabe hinzufügen
und dort den Verweis hinzufügen.
(Person 5) Okay.
(Lydia) Weitere Fragen, ja?
(Person 6) Ich habe zwei kurze Kommentare.
Sie haben ausdrücklich Asturisch als eine
Sprache genannt, die gut funktioniert,
und ich denke,
das ist ein falsches Artefakt.
(Lydia) Erzählen Sie mir davon.
(Person 6) Ich glaube, es ist nur ein Bot,
der Personennamen wie Eigennamen einfügt
und sagt: "Nun, das ist genau
wie im Französischen oder Spanischen",
und es einfach massiv kopiert.
Ein Beweis dafür ist, dass man
diese Energie im Asturischen
nicht in Dingen sieht, die eigentlich
übersetzt werden müssen, wie Eigennamen
oder Namen von Objekten,
die keine Eigennamen sind.
(Lydia) Asaf, du brichst mir das Herz.
(Person 6) Ich weiß,
ich vermassle immer die Show,
aber ich habe auch gute Neuigkeiten,
was die Zahlen zur Aussprache betrifft.
Wie Sie wahrscheinlich wissen,
ist Commons voll von Aussprachedateien,
und zum Beispiel
gibt es im Niederländischen nicht weniger
als 300.000 Aussprachedateien
schon unter Commons
die nur irgendwie
aufgenommen werden müssen.
Wenn also jemand
nach einem Nebenprojekt sucht,
gibt es tonnenweise
klassifizierte, kategorisierte
Aussprachedateien unter Commons
unter der Kategorie "Aussprache"
nach Sprache.
Das wartet nur darauf,
mit Lexemen abgeglichen
und auf Lexeme gesetzt zu werden.
Und ich habe mich gefragt, ob Sie etwas
über den Fahrplan sagen können,
etwas darüber, wie viel Investitionen
oder was wir im kommenden Jahr
von Lexeme erwarten können,
denn ich kann es kaum erwarten.
(Lydia) Sie können nicht warten? (lacht)
- (Person 6) Auf mehr.
- (Lydia) Ja.
Im Moment konzentrieren wir uns
auf mehr über Wikibase und Datenqualität,
um zu sehen, wie viel Fahrt das bekommt,
und dann mehr Information darüber,
wo die Schwachpunkte als Nächstes liegen,
und dann wieder zur weiteren Verbesserung
der lexikografischen Daten zurückzukehren.
Und eines der Dinge, die ich
gerne von Ihnen hören würde,
ist, wo genau Sie
die nächsten Schritte sehen,
wo Sie Verbesserungen sehen wollen,
damit wir dann herausfinden können,
wie wir das erreichen können.
Aber natürlich haben Sie Recht,
es gibt noch so viel zu tun,
auch von der technischen Seite her.
(Person 7) Okay, als wir
die baskischen Wörter
mit Formen hochgeladen haben,
und Sie werden einige dieser Dinge sehen,
sagten wir beide letzte Woche:
"Oh, wir sind die Ersten bei etwas.
Es erscheint in der Presse,
und es ist wie:
"Oh, Baskisch, es ist das erste Mal,
das sie bei etwas die ersten sind".
(Lachen)
Und dann fragen die Leute:
"Okay, aber wofür ist das?"
Wir haben keine wirklich gute Antwort.
Ich meine, "Okay,
das wird Computern helfen,
unsere Sprache besser zu verstehen, ja,
aber was für Werkzeuge können wir
in der Zukunft herstellen?"
Und darauf haben wir keine gute Antwort.
Ich weiß also nicht, ob Sie
eine gute Antwort darauf haben.
(Lydia) (lacht) Ich weiß nicht,
ob ich eine gute Antwort habe,
aber ich habe eine Antwort.
Ich denke also, wie ich
schon sagte [unhörbar],
dass wir noch nicht
die kritische Masse erreicht haben,
in der man viele der wirklich
interessanten Werkzeuge bauen kann.
Aber es gibt bereits einige Werkzeuge.
Erst neulich hat Esther [Pandelia]
zum Beispiel
ein Werkzeug veröffentlicht,
mit dem man sehen kann,
ich glaube, es waren die Worte
auf einem Globus,
wo sie gesprochen werden,
woher sie kommen.
Wahrscheinlich irre ich mich da,
aber sie hatte auf dem Projekt-Chat
auf Wikidata geantwortet--
Sie können es dort nachschlagen.
Wir haben also
diese ersten Werkzeuge gesehen,
genau wie damals, als Wikidata begann.
Zuerst etwas - wie ein Netzwerk,
und wie: "Schau, da ist dieses Ding,
das sich mit diesem
anderen Ding verbindet".
Und je mehr Daten wir haben
und je mehr wir
eine kritische Masse erreicht haben,
desto leistungsfähigere Anwendungen
werden möglich,
Dinge wie Histropedia,
Dinge wie Fragen und Antworten
in Ihrem digitalen persönlichen
Assistenten, Platypus und so weiter.
Ähnliches sehen wir bei den Lexemen.
Wir befinden uns in einem Stadium,
in dem man so etwas wie diese kleinen,
hey, schau, es gibt eine Verbindung
zwischen den beiden Dingen,
und es gibt eine Übersetzung
dieses Wortes in dieses Sprachstadium,
und wenn wir es erweitern
und mehr Wörter beschreiben,
wird mehr möglich.
Was wird nun möglich?
Wie Ben, unser Hauptredner vorhin,
sprach über Übersetzungen,
über die Möglichkeit, von einer Sprache
in eine andere zu übersetzen.
Und Jens, mein Kollege,
er spricht immer davon,
dass die Europäische Union
einen Übersetzer sucht,
der aus dem Maltesischen ins Schwedische
übersetzen kann, war es Maltesisch?
- (Person 8) Estnisch.
- (Lydia) Estnisch.
Und das ist keine übliche Kombination.
Aber wenn man all diese Sprachen
an einem maschinenlesbaren Ort hat,
kann man das tun,
man kann ein Wörterbuch
von Estnisch nach Maltesisch
und zurück bekommen.
Also Sprachkombinationen
in Wörterbüchern abzudecken,
die vorher einfach nicht abgedeckt wurden,
weil es nicht genug Nachfrage
dafür gab, zum Beispiel,
um die Arbeit finanziell tragbar zu machen
und zu rechtfertigen.
Jetzt können wir das tun.
Dann die Texterstellung.
Lucie hat vorhin davon gesprochen,
wie sie mit Hattie
an der Textgenerierung arbeitet,
um Wikipedia-Artikel
in Minderheitensprachen zu erstellen,
und dazu braucht man Daten über Wörter,
und dazu muss man die Sprache verstehen.
Ja, und das sind nur einige,
die mir gerade in den Sinn kommen.
Vielleicht hat unser Publikum mehr Ideen,
was es tun möchte, wenn wir
all die herrlichen Daten haben.
(Person 9) Okay, ich werde vom Thema
Lexeme abweichen.
Ich werde die Frage stellen,
wie kann ich als Mitglied der Community
darauf Einfluss nehmen, dass die Priorität
auf die Aufgabe gelegt wird,
dass ein neuer Benutzer angeben kann,
welche Sprachen er sehen
und bearbeiten möchte,
ohne dass er geheime
verbale Vorlagenkenntnisse hat.
Vielleicht wird es dieses Jahr
diese technische Wunschliste
ohne Wikipedia-Themen geben.
Vielleicht gibt es eine Hoffnung, dass wir
alle über diese Sache abstimmen können,
die wir sieben Jahre lang
nicht geregelt haben.
Haben Sie also irgendwelche
Ideen und Kommentare dazu?
Sie sprechen also davon,
dass jemand, der nicht
in Wikidata eingeloggt ist,
seine Sprache nicht einfach ändern kann?
(Person 9) Nein, für [unhörbare] Benutzer.
(Lydia) Wenn sie also eingeloggt sind,
können sie ihre Sprache einfach
oben auf der Seite ändern,
und dann erscheint,
wo die Beschreibung [unhörbar] steht
und sie können sie bearbeiten.
(Person 9) Nun, eigentlich
ist der Arbeitsablauf oft so,
dass, wenn Sie mehrere Sprachen
haben wollen, diese angeboten werden,
das nicht immer der Fall ist.
(Lydia) Okay, vielleicht sollten wir uns
nach diesem Vortrag zusammensetzen
und Sie zeigen es mir.
Cool. Noch mehr Fragen?
Ja.
(Person 10) Danke für die Präsentation.
Können Sie den Stand
der Korrelation mit der
Wiktionary-Community kommentieren?
Soweit ich gesehen habe,
gab es einige Diskussionen
über den Import
einiger Elemente der Arbeit,
aber es scheint, Lizenzprobleme und einige
Meinungsverschiedenheiten usw. zu geben.
(Lydia) Das stimmt.
Die Wiktionary-Community
hat also viel Zeit
mit dem Aufbau
von Wiktionary verbracht.
Sie haben erstaunlich komplizierte
und komplexe Vorlagen gebaut,
um hübsche Tabellen zu erstellen,
die automatisch Formen für Sie
und alle möglichen
wirklich beeindruckenden
und verrückten Dinge erzeugen,
wenn Sie darüber nachdenken.
Und natürlich haben sie eine Menge Zeit
und Mühe in diese Arbeit investiert.
Und verständlicherweise wollen die nicht,
dass man sich das einfach grabscht.
einfach so.
Einiges davon kommt also von dort.
Und das ist gut so, das ist okay.
Die ersten Wiktionary-Communities
sprechen nun davon,
einige ihrer Daten
in Wikidata zu importieren.
Russisch, das Sie gesehen haben,
ist zum Beispiel einer dieser Fälle,
und ich erwarte, dass noch mehr
davon realisiert wird.
Aber es wird ein langsamer Prozess sein,
so wie die Übernahme der Daten
von Wikidata in Wikipedia
ein ziemlich langsamer Prozess war.
Auf der anderen Seite ist es einfacher,
die Daten, die in Lexemen
auf Wiktionary stehen,
tatsächlich zu nutzen,
so dass sie diese nutzen
und Daten zwischen den Wiktionaries
austauschen können,
was im Moment super schwer
bis unmöglich ist,
was verrückt ist, genau wie bei Wikipedia.
Warten Sie auf das Geburtstagsgeschenk.
(lacht)
Ja.
(Person 11) Als ich andersherum dachte,
wollte ich es eigentlich nicht sagen,
weil ich denke, es wird super albern sein,
aber ich denke, dass Wiktionary
bereits einige Inhalte hat,
und ich weiß, dass wir diese nicht
auf Wikidata übertragen können,
weil es einen Unterschied
in den Lizenzen gibt.
Aber ich dachte, dass wir vielleicht
etwas deswegen tun können.
Vielleicht, ich weiß nicht, können wir
die Erlaubnis der Communities einholen,
nachdem wir eine öffentliche
Abstimmung durchgeführt haben
und die aktiven Mitglieder
der Gemeinschaft abstimmen
und sagen können,
ob sie die Inhalte, für die sie
die Wikidata-Lexeme machen dürfen,
annehmen oder übertragen möchten.
Weil ich es einfach
für eine solche Verschwendung halte.
Also, das ist definitiv im Gespräch,
dass die Leute,
die in Wiktionary-Communities sind,
das dort zur Sprache bringen.
Ich denke, es wäre ein bisschen anmaßend,
wenn wir das erzwingen würden.
Aber, ja, ich denke, es ist
auf jeden Fall ein Gespräch wert.
Aber ich denke, es ist
auch wichtig, zu verstehen,
dass es einen Unterschied gibt
zwischen dem, was gesetzlich erlaubt ist
und was wir tun sollten,
und dem, was diese Leute
wollen oder nicht wollen.
Selbst wenn es also rechtlich erlaubt ist,
wenn einige Wiktionary-Communities
das nicht wollen,
wäre ich zumindest vorsichtig.
Ich denke, Sie brauchen das Mikro
für den Stream.
(Person 12) Also, offensichtlich
ist das alles sehr aufregend,
und ich denke sofort, wie kann ich
das meinen Studenten vermitteln
und wie kann ich es in die Kurse,
die Arbeit, die wir machen,
und die Bildungseinrichtungen integrieren.
Und mir fehlt im Moment
noch das Wissen,
aber ich denke,
die Dokumentation, die wir haben,
vielleicht verbessert werden könnte.
Das ist also eine Art Aufforderung,
coole Videos zu machen,
die erklären, wie es funktioniert,
denn wenn wir das haben,
können wir es nutzen,
und wir können Studenten an Bord ziehen,
und wir können den Leuten verständlich
machen, wie fantastisch das alles ist.
Und ja, denken Sie an die Dokumentation
und denken Sie an die Ausbildung, bitte.
Denn ich denke, es könnte
eine Menge getan werden.
Dies sind schon viele Aufgaben,
die auch mit...
na ja, ich würde nicht sagen
Grundschulen,
aber sicherlich auch mit jüngeren
Studenten durchgeführt werden könnten.
Und deshalb würde ich es gerne sehen,
dass dieses Potenzial genutzt wird,
und ich persönlich verstehe
noch nicht genug,
um Aufgaben zu erstellen
oder so etwas wie...
etwas Praktisches daraus zu machen.
Wenn also jemand hier Hilfe
oder Gedanken dazu hat,
würde ich mich sehr freuen,
Ihre Ideen zu hören, und Ihre auch.
(Lydia) Ja, lassen Sie uns darüber reden.
Noch Fragen?
Jemand anderes hat die Hand gehoben.
Ich habe vergessen, wer das war.
(Person 13) Wenn wir also nicht
aus Wiktionary importieren können,
gibt es eine konzertierte Anstrengung,
um andere öffentlich
zugängliche Quellen zu finden,
vielleicht alle Daten,
und eine Art Vorfilter,
um sie so zu organisieren,
dass sie von Leuten beim Import
einfach überprüft werden können?
Es gibt also erste Bemühungen.
Nach meinem Verständnis
ist das Baskische eine dieser Bemühungen.
Vielleicht möchten Sie
etwas mehr darüber sagen?
(Person 14) [unhörbar]
Okay, die eigentliche Antwort ist,
dafür zu bezahlen...
Ich meine, wir haben eine Vereinbarung
mit einem Auftragnehmer,
mit dem wir normalerweise
zusammenarbeiten.
Sie machen Wörterbücher--
viele Dinge, aber sie machen Wörterbücher.
Also haben wir mit ihnen vereinbart,
das Studenten-Wörterbuch
kostenlos zu machen,
wir würden die häufigsten Wörter
auswählen und damit beginnen,
es mit einer externen Kennung
und dem Schema der Dinge hochzuladen.
Aber es gab einige Diskussionen darüber,
es auf CC0 zu belassen,
weil sie das Wörterbuch
bei CC dabei haben,
und sie verstanden,
was der Unterschied war.
Es gab also einige Diskussionen.
Aber ich denke, dass wir in Zukunft
einige Werkzeuge oder Beispiele
zur Verfügung stellen können,
und ich denke, dass es
andere Wörterbücher geben wird,
mit denen wir umgehen können,
und ich denke auch, dass Wiktionary
in diese Richtung gehen sollte,
aber das ist eine weitere
umfangreiche Diskussion.
Und darüber hinaus
steht Lea auch in Kontakt
mit Leuten aus Okzitan,
die an okzitanischen
Wörterbüchern arbeiten,
und sie arbeiten derzeit an einer
sumerischen Zusammenarbeit.
Noch weitere Fragen?
(Person 15) Hallo! Wir sind die Leute,
die okzitanische Daten importieren wollen.
(Lydia) Aha! Perfekt!
(Person 15) Und wir haben
ein kleines Problem.
Wir wissen nicht, wie wir die Vielfalt
aller Lexeme darstellen können.
Wir haben sechs Dialekte,
und wir wollen für Lexeme angeben,
in welchem Dialekt es verwendet wird,
und wir haben keine richtige
C0-Anweisung, um das zu tun.
Solange das Segment also nicht existiert,
verhindert es, dass wir es
[unhörbar] machen,
weil wir es noch einmal machen müssen,
wenn wir die Anweisung exportieren können.
Und es ist kompliziert,
weil es eine Aussage ist,
die nicht von vielen Leuten gefragt wird,
weil es eine Aussage ist, die vor allem
Minderheitensprachen betrifft.
Sie werden also eine Person haben,
die das fragen kann.
Aber wie unsere baskischen Kollegen
kann es eine Person sein,
die Tausende von anderen antreibt,
also es ist vielleicht
nicht sehr viel verlangt,
aber es wird für uns sehr wichtig sein.
(Lydia) Haben Sie bereits einen neuen
Eigenschaftenvorschlag
oder brauchen Sie Hilfe
bei dessen Erstellung?
(Person 15) Wir haben
vor vier Monaten danach gefragt.
(Lydia) Na gut, dann holen wir uns
ein paar Leute,
die uns bei diesem
Eigenschaftenvorschlag helfen.
Ich bin sicher, es sind genug Leute
in diesem Raum, um dies zu ermöglichen.
(Person 15) Eigenschaftenvorschlag
[spricht Französisch].
Wir bekamen keine Antwort
und wissen nicht,
wie wir das machen sollen,
weil wir nicht in der
Wikidata-Community sind.
(Lydia) Ja, also gibt es hier Leute,
die Ihnen helfen können.
Vielleicht hebt jemand die Hand, um--
(Person 14) Nicht dafür.
Aber ich denke,
das ist ziemlich interessant,
dass nur die Variante der Form
auch geographisch, mit Koordinaten
oder einer Art von Kartierung,
damit umgehen kann.
Auch unterschiedliche
Aussprachen zu haben,
und ich denke, das ist etwas,
das in vielen Sprachen geschieht.
Wir sollten damit anfangen.
Und ich werde nach der Eigenschaft suchen.
(Lydia) Cool.
Sie erhalten also Unterstützung
für Ihren Eigenschaftenvorschlag.
Ich danke Ihnen.
In Ordnung, noch Fragen?
Finn.
Finn ist einer dieser Leute,
die auf lexikografischen Daten aufbauen.
(Finn) Es ist nur eine kleine Frage,
und es geht um Variationen
in der Rechtschreibung.
Es scheint, schwierig zu sein, sie in...
Man könnte natürlich mehrere Formen
für dasselbe Wort haben.
Ich weiß nicht, es scheint...
Wenn man es nicht so macht, scheint es,
schwierig zu sein, es zu spezifizieren...
oder ich weiß nicht,
ob es sich nur um eine kleine
technische Frage handelt oder ob...
(Lydia) Betrachten wir es gemeinsam.
Ich würde gerne ein Beispiel sehen.
Asaf.
(Asaf) Vielen Dank.
Ich kann ein sehr konkretes Beispiel aus
meiner Muttersprache, Hebräisch, nennen.
Im Hebräischen gibt es
zwei Hauptvarianten,
um fast jedes Wort auszudrücken,
weil die traditionelle Schreibweise
viele Vokale auslässt.
Und deshalb werden in modernen Ausgaben
der Bibel und der Poesie
diakritische Zeichen verwendet.
Diese diakritischen Zeichen werden
jedoch nie für moderne Prosa,
Zeitungstexte
oder Straßenschilder verwendet.
Der durchschnittliche tägliche Gebrauch
legt also zusätzliche Vokale hinein
und verwendet
die diakritischen Zeichen nicht,
weil sie natürlich umständlicher sind
und alle möglichen Regeln haben
und niemand die Regeln kennt.
Es gibt also grundsätzlich zwei Varianten.
Es gibt die alltägliche,
beiläufige Prosa-Variante,
und es gibt die Bibel oder die Poesie,
die immer in diesem traditionellen
diakritischierten Text vorkommen.
Um nützlich zu sein,
müsste Lexeme sowohl Varianten
jedes einzelnen Wortes
als auch jede einzelne Form
jedes einzelnen Wortes erkennen.
Das ist also ein sehr
umfassender Anwendungsfall
für offizielle stabile Varianten.
Es ist kein Dialekt,
es sind keine Regionen,
es sind im Grunde zwei nebeneinander
existierende morphologische Systeme.
Und auch ich weiß nicht genau,
wie ich das momentan
in Lexeme ausdrücken soll.
Das ist eine Sache, die mich--
als Teilantwort auf Magnus' Frage--
davon abhält, die Teile hochzuladen,
die aus dem größten hebräischen
Wörterbuch, das öffentlich zugänglich ist
und das ich seit einigen Jahren
digitalisiere, stammen.
Ein guter Teil davon ist fertig,
aber ich stelle es jetzt nicht auf Lexeme,
weil ich nicht genau weiß,
wie ich dieses Problem lösen soll.
(Lydia) In Ordnung,
lösen wir das Problem hier. (lacht)
Das muss doch möglich sein.
In Ordnung, noch Fragen?
Wenn nicht,
dann danke ich Ihnen vielmals.
(Beifall)