WikiData und Sprachen (Lydia) Vielen Dank. Also, in dieser Konferenz sind einige der großen Themen die Sprachen. Ich möchte Ihnen einen Überblick darüber geben, wo wir derzeit beim Thema Sprachen stehen und wie wir von hier aus weitermachen können. [Mehr Leuten mehr Zugang zu mehr Wissen geben] Bei Wikidata geht es darum, mehr Menschen mehr Zugang zu mehr Wissen zu geben, und Sprache ist ein wichtiger Teil davon, dies Wirklichkeit werden zu lassen, zumal immer mehr unseres Lebens von der Technologie abhängt. Und wie unser Hauptredner vorhin sagte, fallen durch einen Teil der Technologie die Menschen einfach zurück, weil sie eine bestimmte Sprache einfach nicht sprechen können, und das ist nicht in Ordnung. Deshalb wollen wir etwas dagegen unternehmen. Und um das zu ändern, braucht man mindestens zwei Dinge. Erstens muss man den Leuten Inhalte in ihrer Sprache zur Verfügung stellen, und zweitens muss man ihnen in diesen Anwendungen oder was immer man hat, Interaktion in ihrer Sprache ermöglichen. Und Wikidata hilft bei beiden davon. Und die erste Sache, der Inhalt in Ihrer Sprache, das ist im Grunde das, was wir an Objekten und Eigenschaften haben, wie wir die Welt beschreiben. Nun, das ist sicherlich nicht alles, was man braucht, aber es bringt einen ziemlich weit voran. Die andere Sache ist die Interaktion in Ihrer Sprache, und hier kommen Lexeme ins Spiel. Wenn Sie mit Ihrem digitalen persönlichen Assistenten sprechen wollen oder wenn Sie Ihr Gerät einen Text und solche Dinge übersetzen lassen wollen. Na gut, sehen wir uns den Inhalt in Ihrer Sprache an. Also, was wir an Objekten und Eigenschaften haben. Dafür sind Bezeichnungen in den Objekten und Eigenschaften entscheidend. Wir müssen wissen, wie diese Entität genannt wird, über die wir sprechen. Und anstatt über Q5 zu sprechen, jemand, der Englisch spricht, weiß, dass das ein "human" ist, jemand, der Deutsch spricht, weiß, dass das ein "Mensch" ist, und ähnliche Dinge. Also überbrücken diese Bezeichnungen auf Objekten und Eigenschaften die Kluft zwischen Mensch und Maschine. Und Menschen und Menschen machen mehr vorhandenes Wissen für sie zugänglich. Das ist ein schönes Ziel zum Anstreben. Wie sieht es eigentlich aus? Es sieht so aus. Was Sie hier sehen, ist, dass die meisten Objekte auf Wikidata zwei Bezeichnungen haben, also Bezeichnungen in zwei Sprachen. Und danach nur eines und dann drei, und dann wird es sehr düster. (leises Lachen) Ich denke, wir müssen es besser machen. Aber andererseits habe ich eigentlich erwartet, dass es schlimmer sein würde. Ich habe erwartet, dass der Durchschnitt eines sein würde. Deshalb war ich ziemlich froh, zwei zu sehen. (lacht) In Ordnung. Aber es ist nicht nur interessant zu wissen, wie viele Bezeichnungen unsere Objekte und Eigenschaften haben. Es ist auch interessant zu sehen, in welchen Sprachen. Hier sehen Sie eine Grafik der Sprachen, für die wir Bezeichnungen auf den Objekten haben. Der größte Teil davon ist also Sonstiges. Ich habe also nur die 100 wichtigsten Sprachen ausgewählt und alles andere ist Sonstiges, um diese Grafik lesbar zu machen. Und dann gibt es noch Englisch und Niederländisch, Französisch und, nicht zu vergessen, Asturisch. - (Person 1) Juhu! - (Lydia) Juhuu, jawohl! Was Sie hier sehen, ist also ein ziemliches Ungleichgewicht und immer noch eine starke Konzentration auf Englisch. Eine andere Sache ist, wenn Sie sich das Gleiche für Eigenschaften ansehen, sieht es eigentlich besser aus. Und teilweise kommt das davon, dass es einfach viel weniger Eigenschaften waren. Also haben auch kleinere Communites eine Chance, damit Schritt zu halten. Aber es ist auch ein ziemlich wichtiger Teil von Wikidata, dass man in seine Sprache lokalisieren kann. Das ist also gut. Was ich hier mit Asturisch hervorheben möchte, ist, dass eine kleine Gemeinschaft mit etwas Hingabe und Arbeit wirklich einen großen Unterschied machen kann, und das ist wirklich cool. Ein kleines Quiz für Sie. Wenn Sie alle Eigenschaften auf Wikidata nehmen, die keine externen Identifikatoren sind, welche hat dann die meisten Bezeichnungen, also die meisten Sprachen? (Publikum) [Gemurmel] Ich höre eine gewisse Übereinstimmung über die Instanz von? Sie würden sich irren. Es ist Bild. (lacht) Also, ja, das sagt Ihnen, wenn Sie eine der Sprachen sprechen, in denen Instanz von noch keine Bezeichnung hat, sollten Sie sie vielleicht hinzufügen. Es hat also derzeit 148 Bezeichnungen. Aber das ist eine andere Folie. Diese Grafik sagt uns etwas darüber, wie viel Inhalt wir in einer bestimmten Sprache zur Verfügung stellen und wie viel von diesem Inhalt tatsächlich genutzt wird. Was Sie also sehen, ist im Grunde eine Kurve, bei der die meisten Inhalte englische Beschriftungen haben, in Englisch verfügbar sind und viel genutzt werden. Und dann geht sie abwärts. Aber was Sie wiederum sehen, sind Ausreißer, die viel mehr Inhalte haben, als Sie unbedingt erwarten würden, und das ist wirklich, wirklich gut. Das Problem ist immer noch, dass es nicht oft verwendet wird. Asturisch und Niederländisch sollten höher stehen, und ich denke, dass es echt nützlich ist, diesen Gemeinden dabei zu helfen, die Nutzung der gesammelten Daten zu erhöhen. Was diese und andere Analysen uns gezeigt haben, ist eine gute Sache, denn wir sehen, dass stark genutzte Artikel auch dazu neigen, mehr Bezeichnungen zu haben oder umgekehrt - das ist nicht ganz klar. Und dann stellt sich die Frage, ob wir nur die mächtigen Sprachen bedienen. Oder dienen wir allen? Und was Sie hier sehen, ist eine Gruppierung der Sprachen. Die Sprachen, die in einer Gruppe sind, haben oft gemeinsame Bezeichnungen. Und Sie sehen, dass diese sich gruppieren. Hier ist eine ähnliche Gruppierung, in Farbe, basierend darauf, wie lebendig, wie oft verwendet und wie gefährdet die Sprache ist. Und eine gute Sache, die Sie hier sehen, ist, dass sichere Sprachen und gefährdete Sprachen nicht zwei verschiedene Cluster bilden, sondern sie sind alle miteinander vermischt, was viel besser ist als umgekehrt, wenn die sicheren Sprachen, die mächtigen Sprachen, sich nur gegenseitig aushelfen würden. Nein, das ist nicht der Fall. Und das ist wirklich eine gute Sache. Als ich das sah, fand ich das sehr gut. Hier ist eine ähnliche Sache, bei der wir uns den Status der Sprachen und die Anzahl der Bezeichnungen angesehen haben. Was Sie sehen, ist ein klarer Sieg für ungefährdete Sprachen, wie zu erwarten ist. Aber was Sie auch sehen, ist, dass die Sprachen in Kategorie 2 und 3 und vielleicht sogar 4 eigentlich gar nicht so schlecht sind, was ihre Darstellung in Wikidata und anderen angeht. Das festzustellen, ist wirklich gut. Wenn man sich nun die gleiche Sache anschaut, wie viel von dem Inhalt dieser Bezeichnungen beispielsweise auf Wikipedia tatsächlich verwendet wird, dann sehen wir ein ähnliches Bild, das wieder auftaucht. Es zeigt uns, dass diese Communities ihre Zeit tatsächlich gut nutzen, indem sie beispielsweise Bezeichnungen für stärker verwendete Artikel eintragen. Es gibt Ausreißer, bei denen wir meiner Meinung nach helfen können, um diesen Communities zu helfen, die Orte zu finden, wo ihre Arbeit am wertvollsten wäre. Aber insgesamt bin ich mit diesem Bild zufrieden. Nun, das war der Teil der Objekte und Eigenschaften von Wikidata. Betrachten wir nun die Interaktion in Ihren Sprachen. Also die Lexeme-Teile von Wikidata, in denen wir Wörter und ihre Formen und ihre Bedeutungen beschreiben. Wir machen das jetzt seit Mai letzten Jahres, und der Inhalt ist gewachsen. Sie können hier in Blau die Lexeme sehen und dann in rot die Formen auf diesen Lexemen und in gelb die Bedeutung auf diesen Lexemen. Einige Communities-- dazu kommen wir später -- haben also viel Zeit damit verbracht, Formen und Bedeutungen für ihre Lexeme zu erstellen, was wirklich nützlich ist, denn das bildet den Kern des Datensatzes, den Sie benötigen. Nun haben wir uns alle Sprachen angesehen, die Lexeme auf Wikidata haben. Die Wörter, die wir haben, das sind im Moment 310 Sprachen. Was ist Ihrer Meinung nach die wichtigste Sprache, wenn es um die Anzahl der Lexeme geht, die derzeit in Wikidata enthalten sind? (Publikum) [mehrere Zwischenrufe] (Lydia) Hm? (Person 2) Deutsch. (Lydia) Entschuldigung, ich habe es schon mal gehört. Es ist Russisch. Russisch hat einen großen Vorsprung. Und nur um Ihnen einen Eindruck zu geben, es gibt verschiedene Meinungen, aber ich habe zum Beispiel gelesen, dass 1.000 bis 3.000 Wörter Sie ungefähr auf Konversationsniveau in einer anderen Sprache bringen und 4.000 bis 10.000 Wörter auf ein fortgeschrittenes Niveau. Wir müssen also noch ein wenig aufholen. Eine Sache, die Sie beachten sollten, ist Baskisch hier mit ungefähr 10.000 Lexemen. Wenn man sich die Anzahl der Formen für diese Lexeme ansieht, ist Baskisch weit oben, was wirklich cool ist, und Sie sollten zu einem Vortrag gehen, der Ihnen erklärt, warum das der Fall ist. Wenn man sich nun die Anzahl der Bedeutungen anschaut, also was bedeuten die Wörter, steht Baskisch sogar ganz oben auf der Liste. Ich denke, das verdient einen Applaus. (Beifall) Noch ein kurzes Quiz. Welches ist das Lexem mit den meisten Übersetzungen derzeit? (Publikum) Katzen, Katzen, [unhörbar], Douglas Adams, [unhörbar] (Lydia) Alles gute Ratschläge, aber nein. Es ist dies, das russische Wort für "Wasser". Also gut, wir haben jetzt viel darüber gesprochen, wie viele Lexeme, Formen und Bedeutungen wir haben, aber das ist nur eine Sache, die man braucht. Die andere Sache ist, diese Lexeme, Formen und Bedeutungen in maschinenlesbarer Form zu beschreiben. Und dazu hat man Aussagen, wie zum Beispiel zu Objekten. Und eine der Eigenschaften, die man verwendet, ist ein Anwendungsbeispiel. Wer also diese Daten verwendet, kann verstehen, wie dieses Wort im Kontext zu verwenden ist, so dass es zum Beispiel ein Zitat sein könnte. Und hier liegt Polnisch ganz vorne. Gute Arbeit, Polnisch-Sprecher. Eine weitere Eigenschaft, die wirklich nützlich ist, ist IPA, also wie spricht man dieses Wort aus. Russisch braucht offenbar viele IPA-Erklärungen. Aber noch einmal kommt Polnisch gleich hinterher. Und zu guter Letzt haben wir auch noch eine Audioaussprache. Das sind also Links zu Dateien auf Commons, in denen jemand das Wort ausspricht, so dass Sie hören können, wie ein Muttersprachler das Wort ausspricht, falls Sie zum Beispiel IPA nicht lesen können. Und es gibt ein wirklich nettes, auf Wiki basierendes Projekt namens Lingua Libre, bei dem Sie mithelfen können, Wörter in Ihrer Sprache aufzunehmen, die dann zu den Lexemen auf Wikidata hinzugefügt werden können, damit andere Leute verstehen können, wie Ihre Wörter ausgesprochen werden. (Person 2) [undeutlich] (Lydia) Wenn Sie nach "Lingua Libre" suchen, und ich bin sicher, dass es jemand im Telegrammkanal posten kann. Die Leute sind der Hammer. Sie haben wirklich coole Sachen mit Wikibase gemacht. In Ordnung. Dann ist die Frage, wie geht es weiter? Basierend auf den Zahlen, die ich Ihnen gerade gezeigt habe, haben wir einen langen Weg zurückgelegt, um mehr Menschen mehr Zugang zu mehr Wissen zu geben, was Sprachen auf Wikidata betrifft. Aber es liegt auch noch eine Menge Arbeit vor uns. Einige der Dinge, die Sie tun können, um zu helfen, sind zum Beispiel Label-a-Thons, wie Leute zusammenzubringen, um Objekte in Wikidata zu bezeichnen, oder einen Edit-a-Thon, um Lexeme in Ihrer Sprache zu vervollständigen, um die am häufigsten verwendeten Wörter in Ihrer Sprache in Wikidata zu bestimmen. Oder Sie können ein Werkzeug wie Terminator verwenden, das Ihnen hilft, die wichtigsten Elemente in Ihrer Sprache zu finden, bei denen noch keine Bezeichnung vorhanden ist. Am wichtigsten ist es, zu messen, wie oft es in anderen Wikidata-Elementen als Links in Aussagen verwendet wird. Und beim Lexeme-Teil geht es natürlich auch darum, diese Lexeme zu erweitern und weitere Aussagen hinzuzufügen, so dass sie tatsächlich die Basis für sinnvolle Anwendungen bilden können, die darauf aufbauen. Denn wir nähern uns dieser kritischen Masse, aber wir sind noch weit davon entfernt, dass man darauf ernsthafte Anwendungen aufbauen könnte. Und ich hoffe, dass Sie alle sich uns dabei anschließen werden. Und damit komme ich schon zu einer kleinen Hilfe von unseren Freunden, und Bruno, wollen Sie zu uns kommen und mit uns über lexikalische Masken sprechen? (Bruno) Danke, Lydia. Danke, dass Sie mir die Zeit gegeben haben, um diese Arbeit vorzustellen, die wir bei Google Denny machen und von der viele von Ihnen schon gehört haben oder wissen. Denn bei Google bin ich Linguist. Ich freue mich also sehr, hier unter anderen Sprachbegeisterten zu sein. Wir bauen auch einige Lexika auf, und wir haben diese Technologie oder diesen Ansatz aufgebaut, von dem wir glauben, dass er nützlich sein kann. Nur um ein wenig Hintergrundinformationen zu geben, hier ist mein lexikografischer Hintergrund, über den ich hier spreche. Wenn wir eine Lexikon-Datenbank aufbauen, ist es sehr schwierig, sie zu pflegen, konsistent zu halten und Daten auszutauschen, wie Sie wahrscheinlich wissen. Es gibt mehrere Versuche, die Funktionen und die Eigenschaften zu vereinheitlichen, die diese Lexeme und diese Formen beschreiben, und es ist kein gelöstes Problem. Es gibt einige Vereinheitlichungsversuche auf dieser Seite. Aber was wirklich fehlt-- und dieses Problem hatten wir zu Beginn unseres Projekts bei Google-- ist der Versuch, eine interne Struktur zu schaffen, die beschreibt, wie ein lexikalischer Eintrag aussehen sollte, welche Art von Daten oder welche Art von Informationen wir haben und welche Spezifikationen erwartet werden. Das ist es also, was wir mit dieser Sache namens Lexikon-Maske herausgefunden haben. Eine Lexikonmaske beschreibt, was für einen Eintrag, einen lexikografischen Eintrag, erwartet wird, um vollständig zu sein, sowohl in Bezug auf die Anzahl der Formen, die Sie für ein Lexem erwarten, als auch auf die Anzahl der Merkmale, die Sie für jede dieser Formen erwarten. Hier ist ein Beispiel für italienische Adjektive. Sie erwarten, dass Ihre Adjektive auf Italienisch vier Formen haben, und jede dieser Formen hat eine spezifische Kombination von Geschlechts- und Numerusmerkmalen. Das erwarten wir für die italienischen Adjektive. Natürlich können Sie sehr komplexe Masken haben, wie die Konjugation der französischen Verben, die sehr umfangreich ist, und ich zeige Ihnen nicht weitere russische Masken, weil diese nicht auf den Bildschirm passen. Und wir haben auch einige detaillierte Spezifikationen, weil wir unterscheiden auf der Formebene. Hier haben Sie also russische Substantive, die drei Numeri und eine Reihe von Fällen mit unterschiedlichen Formen haben, aber sie haben auch eine Spezifikation auf der Einstiegsebene, die besagt, dass ein Substantiv vor allem ein inhärentes Geschlecht und ein inhärentes Belebtheitsmerkmal hat, das ebenfalls in der Maske angegeben ist. Wir wollen auch unterscheiden, dass eine Maske eine Spezifikation dafür gibt, wie ein Eintrag aussehen sollte. Aber Sie können kleinere Masken für fehlerhafte Aspekte der Form oder fehlerhafte Aspekte des Lexems haben, die in der Sprache vorkommen. Hier ist also die einfachste Version der französischen Verben, die nur die dritte Person Singular für alle Wetterverben haben, wie "es regnet" oder "es schneit", wie im Englischen. Wir unterscheiden also diese beiden Stufen. Und wie wir das bei Google verwenden, ist, dass wir, wenn wir ein Lexikon haben, das wir verwenden wollen, die Maske benutzen, um die Lexika, also alle Einträge, wirklich buchstäblich durch die Maske zu werfen und zu sehen, welcher Eintrag ein Problem in Bezug auf die Struktur hat. Fehlt uns eine Form? Fehlt uns ein Merkmal? Und wenn es ein Problem gibt, führen wir eine menschliche Validierung durch oder einfach nur, um zu sehen, ob es die Maske passiert. Es ist also ein extrem leistungsfähiges Werkzeug, um die Qualität der Struktur zu überprüfen. Wir freuen uns also, heute bekannt geben zu können, dass wir grünes Licht erhalten haben, unsere Maske freizugeben. Dies ist also ein Schema. Wenn Sie das wollen, können wir es veröffentlichen und wir werden es Wikidata als ShEx-Dateien zur Verfügung stellen. Dies ist eine ShEx-Datei für deutsche Substantive, und Denny arbeitet an der Konvertierung von unserer internen Spezifikation in eine Open-Source-Spezifikation. Derzeit decken wir mehr als 25 Sprachen ab. Wir erwarten also Wachstum auf unserer Seite, aber wir suchen auch nach der Möglichkeit, für andere Sprachen zusammenzuarbeiten. Und eine der laufenden Kooperationen, die zwischen Denny und Lukas stattfindet, Lukas hat diese großartigen Werkzeuge, um eine Benutzeroberfläche zu haben, die dem Benutzer oder dem Beitragenden hilft, weitere Formen hinzuzufügen. Wenn Sie also ein Adjektiv auf Französisch hinzufügen möchten, sagt Ihnen die Benutzeroberfläche, wie viele Formen erwartet werden und welche Art von Funktionen diese Form haben sollte. Unsere Maske hilft Ihnen, das Werkzeug zu definieren und zu erweitern. Das ist alles. (Lydia) Ich danke Ihnen vielmals. (Beifall) In Ordnung. Gibt es Fragen? Wollen Sie mehr über Lexeme sprechen? - (Person 3) Ja. - (Lydia) Ja. (lacht) (Person 3) Meine Frage, weil Sie davon sprachen, mehr Menschen in mehr Sprachen Zugang zu gewähren. Aber es gibt eine Menge Sprachen, die in Wikidata nicht verwendet werden können. Welche Lösung haben Sie also dafür? (Lydia) Wenn Sie sagen, dass Wikidata nicht verwendet werden kann, sprechen Sie von der Eingabe von Bezeichnungen? (Person 3) Bezeichnungen, Beschreibungen. (Lydia) Richtig. Bei Lexemes ist es also etwas anders, weil wir dort diese Einschränkung nicht haben. Für Bezeichnungen von Objekten und Eigenschaften gibt es eine gewisse Einschränkung, weil wir sicherstellen wollten, dass nicht jeder etwas völlig anderes macht und es unüberschaubar wird. Sogar eine kleine Communties, die eine einzige Sprache wollen und daran arbeiten möchten, kommt zu uns und sprecht mit uns, wir werden das einrichten. (Person 3) Wir haben das beim Prager Hackathon im Mai getan, und wir haben bis fast August gebraucht, um unsere Sprache verwenden zu können. - (Lydia) Ja. - (Person 3) Also, es ist sehr langsam. (Lydia) Ja, es ist leider sehr langsam. Wir arbeiten derzeit mit dem Sprachausschuss an der Lösung einiger grundlegender... Zum Beispiel, eine Einigung darüber zu erzielen, welche Arten von Sprachen tatsächlich "erlaubt" sind, und das hat zu lange gedauert, weshalb Ihre Anfrage wahrscheinlich länger gedauert hat, als sie hätte sein sollen. (Person 3) Danke. (Person 4) Vielen Dank. Lydia, wenn Sie sich an die Statistiken erinnern, die Sie gezeigt haben, die Anzahl der Lexeme pro Sprache. Haben Sie also alle Formen als Datenpunkt gezählt oder nur Lexeme? (Lydia) Meinen Sie das? Welches meinen Sie? (Person 4) Ja, genau. Wenn Sie sich erinnern, zählt diese Zahl [unhörbar] alle Formen für alle Lexeme oder nur, wie viele Lexeme es gibt? (Lydia) Nein, dies ist nur die Anzahl von Lexemen. (Person 4) Nur eine Anzahl von Lexemen, okay. Dann ist es also nur eine Statistik, denn wenn es dann die Formen zusammensetzen würde-- deshalb frage ich-- dann haben alle Sprachen mit der Flexionsmorphologie, wie Russisch, Serbisch, Slowenisch und so weiter, einen natürlichen Vorteil, weil sie so viele haben. (Lydia) Das wirkt sich also auf diese Anzahl von Formen aus. (Person 4) Ja, das war diese hier. Danke. (Person 5) Also, ich hatte eine kurze Frage über die... Wenn wir über die eigentlichen Objekte und Eigenschaften sprechen, soweit ich weiß, gibt es derzeit keine Möglichkeit, eine tatsächliche Quelle für die angegebenen Bezeichnungen und Beschreibungen anzugeben. Zum Beispiel, weil man, wenn es sich um eine Eigenschaft eines Objekts handelt, kann man zum Beispiel widersprüchliche Bezeichnungen erhalten. (Lydia) Ja. (Person 5) Diese Person ist also wie... Wir haben zum Beispiel schon einmal über indigene Dinge gesprochen. Diese Person ist also nach dieser Quelle ein norwegischer Künstler, und nach dieser Quelle ein samischer Künstler. Oder, zum Beispiel, in der estnischen Sprache hatten wir ein Problem, bei dem wir die Terminologie auf die offizielle Terminologie in den offiziellen Lexika umstellen mussten, aber wir haben keine Möglichkeit, wirklich anzugeben, warum, was die Ursache dafür war und warum das besser war und was vorher da war. Es war nur ich als zufällige Person, die die Sache umgestellt hat für jeden, der das sieht. Gibt es also einen Plan, um dies in irgendeiner Weise zu ermöglichen, damit wir tatsächlich die richtigen Quellen für die Sprachdaten haben? (Lydia) Also, es ist teilweise möglich. Wenn Sie zum Beispiel ein Objekt für eine Person haben, dann haben Sie eine Aussage, den Vornamen, den Nachnamen und so weiter, dieser Person, und dann können Sie dort die Referenz dafür angeben. Ich zögere noch, mehr Komplexität für Referenzen auf Bezeichnungen und Beschreibungen hinzuzufügen, aber wenn die Leute wirklich, wirklich denken, dass dies etwas ist, das nicht durch eine Referenz zu der Aussage abgedeckt ist, dann lassen Sie uns darüber reden. Aber ich fürchte, es wird eine Menge Komplexität für hoffentlich wenige Fälle hinzufügen, aber ich bin bereit, mich vom Gegenteil überzeugen zu lassen, wenn die Leute wirklich sehr stark davon überzeugt sind. (Person 5) Wenn es hinzugefügt wird, sollte es nicht Standardeinstellung sein, das allen Anfängern der Benutzer zu zeigen, auf jeden Fall. Eher so: "Klicken Sie hier, wenn Sie etwas Bestimmtes dazu sagen müssen". (Lydia) Haben wir ein Gefühl dafür, wie oft das eine Rolle spielen würde? (Person 5) Auf Estnisch, zum Beispiel-- ich nehme an, das gilt auch für andere Sprachen-- gibt es einen offiziellen Namen, die tatsächlich legitime Übersetzung, zum Beispiel ins Englische, einer bestimmten Art von Stadtgemeinde ist. Das war zum Beispiel mein Anwendungsfall, wo wir das Wort "Gemeinde" verwendet haben, das im estnischen Original wie eine Kirchengemeinde gemeint war, und das war der Ursprung, aber das ist nicht die offizielle Übersetzung, die Estland jetzt hat. (Lydia) In diesem Fall würde ich es als offizielle Namensangabe hinzufügen und dort den Verweis hinzufügen. (Person 5) Okay. (Lydia) Weitere Fragen, ja? (Person 6) Ich habe zwei kurze Kommentare. Sie haben ausdrücklich Asturisch als eine Sprache genannt, die gut funktioniert, und ich denke, das ist ein falsches Artefakt. (Lydia) Erzählen Sie mir davon. (Person 6) Ich glaube, es ist nur ein Bot, der Personennamen wie Eigennamen einfügt und sagt: "Nun, das ist genau wie im Französischen oder Spanischen", und es einfach massiv kopiert. Ein Beweis dafür ist, dass man diese Energie im Asturischen nicht in Dingen sieht, die eigentlich übersetzt werden müssen, wie Eigennamen oder Namen von Objekten, die keine Eigennamen sind. (Lydia) Asaf, du brichst mir das Herz. (Person 6) Ich weiß, ich vermassle immer die Show, aber ich habe auch gute Neuigkeiten, was die Zahlen zur Aussprache betrifft. Wie Sie wahrscheinlich wissen, ist Commons voll von Aussprachedateien, und zum Beispiel gibt es im Niederländischen nicht weniger als 300.000 Aussprachedateien schon unter Commons die nur irgendwie aufgenommen werden müssen. Wenn also jemand nach einem Nebenprojekt sucht, gibt es tonnenweise klassifizierte, kategorisierte Aussprachedateien unter Commons unter der Kategorie "Aussprache" nach Sprache. Das wartet nur darauf, mit Lexemen abgeglichen und auf Lexeme gesetzt zu werden. Und ich habe mich gefragt, ob Sie etwas über den Fahrplan sagen können, etwas darüber, wie viel Investitionen oder was wir im kommenden Jahr von Lexeme erwarten können, denn ich kann es kaum erwarten. (Lydia) Sie können nicht warten? (lacht) - (Person 6) Auf mehr. - (Lydia) Ja. Im Moment konzentrieren wir uns auf mehr über Wikibase und Datenqualität, um zu sehen, wie viel Fahrt das bekommt, und dann mehr Information darüber, wo die Schwachpunkte als Nächstes liegen, und dann wieder zur weiteren Verbesserung der lexikografischen Daten zurückzukehren. Und eines der Dinge, die ich gerne von Ihnen hören würde, ist, wo genau Sie die nächsten Schritte sehen, wo Sie Verbesserungen sehen wollen, damit wir dann herausfinden können, wie wir das erreichen können. Aber natürlich haben Sie Recht, es gibt noch so viel zu tun, auch von der technischen Seite her. (Person 7) Okay, als wir die baskischen Wörter mit Formen hochgeladen haben, und Sie werden einige dieser Dinge sehen, sagten wir beide letzte Woche: "Oh, wir sind die Ersten bei etwas. Es erscheint in der Presse, und es ist wie: "Oh, Baskisch, es ist das erste Mal, das sie bei etwas die ersten sind". (Lachen) Und dann fragen die Leute: "Okay, aber wofür ist das?" Wir haben keine wirklich gute Antwort. Ich meine, "Okay, das wird Computern helfen, unsere Sprache besser zu verstehen, ja, aber was für Werkzeuge können wir in der Zukunft herstellen?" Und darauf haben wir keine gute Antwort. Ich weiß also nicht, ob Sie eine gute Antwort darauf haben. (Lydia) (lacht) Ich weiß nicht, ob ich eine gute Antwort habe, aber ich habe eine Antwort. Ich denke also, wie ich schon sagte [unhörbar], dass wir noch nicht die kritische Masse erreicht haben, in der man viele der wirklich interessanten Werkzeuge bauen kann. Aber es gibt bereits einige Werkzeuge. Erst neulich hat Esther [Pandelia] zum Beispiel ein Werkzeug veröffentlicht, mit dem man sehen kann, ich glaube, es waren die Worte auf einem Globus, wo sie gesprochen werden, woher sie kommen. Wahrscheinlich irre ich mich da, aber sie hatte auf dem Projekt-Chat auf Wikidata geantwortet-- Sie können es dort nachschlagen. Wir haben also diese ersten Werkzeuge gesehen, genau wie damals, als Wikidata begann. Zuerst etwas - wie ein Netzwerk, und wie: "Schau, da ist dieses Ding, das sich mit diesem anderen Ding verbindet". Und je mehr Daten wir haben und je mehr wir eine kritische Masse erreicht haben, desto leistungsfähigere Anwendungen werden möglich, Dinge wie Histropedia, Dinge wie Fragen und Antworten in Ihrem digitalen persönlichen Assistenten, Platypus und so weiter. Ähnliches sehen wir bei den Lexemen. Wir befinden uns in einem Stadium, in dem man so etwas wie diese kleinen, hey, schau, es gibt eine Verbindung zwischen den beiden Dingen, und es gibt eine Übersetzung dieses Wortes in dieses Sprachstadium, und wenn wir es erweitern und mehr Wörter beschreiben, wird mehr möglich. Was wird nun möglich? Wie Ben, unser Hauptredner vorhin, sprach über Übersetzungen, über die Möglichkeit, von einer Sprache in eine andere zu übersetzen. Und Jens, mein Kollege, er spricht immer davon, dass die Europäische Union einen Übersetzer sucht, der aus dem Maltesischen ins Schwedische übersetzen kann, war es Maltesisch? - (Person 8) Estnisch. - (Lydia) Estnisch. Und das ist keine übliche Kombination. Aber wenn man all diese Sprachen an einem maschinenlesbaren Ort hat, kann man das tun, man kann ein Wörterbuch von Estnisch nach Maltesisch und zurück bekommen. Also Sprachkombinationen in Wörterbüchern abzudecken, die vorher einfach nicht abgedeckt wurden, weil es nicht genug Nachfrage dafür gab, zum Beispiel, um die Arbeit finanziell tragbar zu machen und zu rechtfertigen. Jetzt können wir das tun. Dann die Texterstellung. Lucie hat vorhin davon gesprochen, wie sie mit Hattie an der Textgenerierung arbeitet, um Wikipedia-Artikel in Minderheitensprachen zu erstellen, und dazu braucht man Daten über Wörter, und dazu muss man die Sprache verstehen. Ja, und das sind nur einige, die mir gerade in den Sinn kommen. Vielleicht hat unser Publikum mehr Ideen, was es tun möchte, wenn wir all die herrlichen Daten haben. (Person 9) Okay, ich werde vom Thema Lexeme abweichen. Ich werde die Frage stellen, wie kann ich als Mitglied der Community darauf Einfluss nehmen, dass die Priorität auf die Aufgabe gelegt wird, dass ein neuer Benutzer angeben kann, welche Sprachen er sehen und bearbeiten möchte, ohne dass er geheime verbale Vorlagenkenntnisse hat. Vielleicht wird es dieses Jahr diese technische Wunschliste ohne Wikipedia-Themen geben. Vielleicht gibt es eine Hoffnung, dass wir alle über diese Sache abstimmen können, die wir sieben Jahre lang nicht geregelt haben. Haben Sie also irgendwelche Ideen und Kommentare dazu? Sie sprechen also davon, dass jemand, der nicht in Wikidata eingeloggt ist, seine Sprache nicht einfach ändern kann? (Person 9) Nein, für [unhörbare] Benutzer. (Lydia) Wenn sie also eingeloggt sind, können sie ihre Sprache einfach oben auf der Seite ändern, und dann erscheint, wo die Beschreibung [unhörbar] steht und sie können sie bearbeiten. (Person 9) Nun, eigentlich ist der Arbeitsablauf oft so, dass, wenn Sie mehrere Sprachen haben wollen, diese angeboten werden, das nicht immer der Fall ist. (Lydia) Okay, vielleicht sollten wir uns nach diesem Vortrag zusammensetzen und Sie zeigen es mir. Cool. Noch mehr Fragen? Ja. (Person 10) Danke für die Präsentation. Können Sie den Stand der Korrelation mit der Wiktionary-Community kommentieren? Soweit ich gesehen habe, gab es einige Diskussionen über den Import einiger Elemente der Arbeit, aber es scheint, Lizenzprobleme und einige Meinungsverschiedenheiten usw. zu geben. (Lydia) Das stimmt. Die Wiktionary-Community hat also viel Zeit mit dem Aufbau von Wiktionary verbracht. Sie haben erstaunlich komplizierte und komplexe Vorlagen gebaut, um hübsche Tabellen zu erstellen, die automatisch Formen für Sie und alle möglichen wirklich beeindruckenden und verrückten Dinge erzeugen, wenn Sie darüber nachdenken. Und natürlich haben sie eine Menge Zeit und Mühe in diese Arbeit investiert. Und verständlicherweise wollen die nicht, dass man sich das einfach grabscht. einfach so. Einiges davon kommt also von dort. Und das ist gut so, das ist okay. Die ersten Wiktionary-Communities sprechen nun davon, einige ihrer Daten in Wikidata zu importieren. Russisch, das Sie gesehen haben, ist zum Beispiel einer dieser Fälle, und ich erwarte, dass noch mehr davon realisiert wird. Aber es wird ein langsamer Prozess sein, so wie die Übernahme der Daten von Wikidata in Wikipedia ein ziemlich langsamer Prozess war. Auf der anderen Seite ist es einfacher, die Daten, die in Lexemen auf Wiktionary stehen, tatsächlich zu nutzen, so dass sie diese nutzen und Daten zwischen den Wiktionaries austauschen können, was im Moment super schwer bis unmöglich ist, was verrückt ist, genau wie bei Wikipedia. Warten Sie auf das Geburtstagsgeschenk. (lacht) Ja. (Person 11) Als ich andersherum dachte, wollte ich es eigentlich nicht sagen, weil ich denke, es wird super albern sein, aber ich denke, dass Wiktionary bereits einige Inhalte hat, und ich weiß, dass wir diese nicht auf Wikidata übertragen können, weil es einen Unterschied in den Lizenzen gibt. Aber ich dachte, dass wir vielleicht etwas deswegen tun können. Vielleicht, ich weiß nicht, können wir die Erlaubnis der Communities einholen, nachdem wir eine öffentliche Abstimmung durchgeführt haben und die aktiven Mitglieder der Gemeinschaft abstimmen und sagen können, ob sie die Inhalte, für die sie die Wikidata-Lexeme machen dürfen, annehmen oder übertragen möchten. Weil ich es einfach für eine solche Verschwendung halte. Also, das ist definitiv im Gespräch, dass die Leute, die in Wiktionary-Communities sind, das dort zur Sprache bringen. Ich denke, es wäre ein bisschen anmaßend, wenn wir das erzwingen würden. Aber, ja, ich denke, es ist auf jeden Fall ein Gespräch wert. Aber ich denke, es ist auch wichtig, zu verstehen, dass es einen Unterschied gibt zwischen dem, was gesetzlich erlaubt ist und was wir tun sollten, und dem, was diese Leute wollen oder nicht wollen. Selbst wenn es also rechtlich erlaubt ist, wenn einige Wiktionary-Communities das nicht wollen, wäre ich zumindest vorsichtig. Ich denke, Sie brauchen das Mikro für den Stream. (Person 12) Also, offensichtlich ist das alles sehr aufregend, und ich denke sofort, wie kann ich das meinen Studenten vermitteln und wie kann ich es in die Kurse, die Arbeit, die wir machen, und die Bildungseinrichtungen integrieren. Und mir fehlt im Moment noch das Wissen, aber ich denke, die Dokumentation, die wir haben, vielleicht verbessert werden könnte. Das ist also eine Art Aufforderung, coole Videos zu machen, die erklären, wie es funktioniert, denn wenn wir das haben, können wir es nutzen, und wir können Studenten an Bord ziehen, und wir können den Leuten verständlich machen, wie fantastisch das alles ist. Und ja, denken Sie an die Dokumentation und denken Sie an die Ausbildung, bitte. Denn ich denke, es könnte eine Menge getan werden. Dies sind schon viele Aufgaben, die auch mit... na ja, ich würde nicht sagen Grundschulen, aber sicherlich auch mit jüngeren Studenten durchgeführt werden könnten. Und deshalb würde ich es gerne sehen, dass dieses Potenzial genutzt wird, und ich persönlich verstehe noch nicht genug, um Aufgaben zu erstellen oder so etwas wie... etwas Praktisches daraus zu machen. Wenn also jemand hier Hilfe oder Gedanken dazu hat, würde ich mich sehr freuen, Ihre Ideen zu hören, und Ihre auch. (Lydia) Ja, lassen Sie uns darüber reden. Noch Fragen? Jemand anderes hat die Hand gehoben. Ich habe vergessen, wer das war. (Person 13) Wenn wir also nicht aus Wiktionary importieren können, gibt es eine konzertierte Anstrengung, um andere öffentlich zugängliche Quellen zu finden, vielleicht alle Daten, und eine Art Vorfilter, um sie so zu organisieren, dass sie von Leuten beim Import einfach überprüft werden können? Es gibt also erste Bemühungen. Nach meinem Verständnis ist das Baskische eine dieser Bemühungen. Vielleicht möchten Sie etwas mehr darüber sagen? (Person 14) [unhörbar] Okay, die eigentliche Antwort ist, dafür zu bezahlen... Ich meine, wir haben eine Vereinbarung mit einem Auftragnehmer, mit dem wir normalerweise zusammenarbeiten. Sie machen Wörterbücher-- viele Dinge, aber sie machen Wörterbücher. Also haben wir mit ihnen vereinbart, das Studenten-Wörterbuch kostenlos zu machen, wir würden die häufigsten Wörter auswählen und damit beginnen, es mit einer externen Kennung und dem Schema der Dinge hochzuladen. Aber es gab einige Diskussionen darüber, es auf CC0 zu belassen, weil sie das Wörterbuch bei CC dabei haben, und sie verstanden, was der Unterschied war. Es gab also einige Diskussionen. Aber ich denke, dass wir in Zukunft einige Werkzeuge oder Beispiele zur Verfügung stellen können, und ich denke, dass es andere Wörterbücher geben wird, mit denen wir umgehen können, und ich denke auch, dass Wiktionary in diese Richtung gehen sollte, aber das ist eine weitere umfangreiche Diskussion. Und darüber hinaus steht Lea auch in Kontakt mit Leuten aus Okzitan, die an okzitanischen Wörterbüchern arbeiten, und sie arbeiten derzeit an einer sumerischen Zusammenarbeit. Noch weitere Fragen? (Person 15) Hallo! Wir sind die Leute, die okzitanische Daten importieren wollen. (Lydia) Aha! Perfekt! (Person 15) Und wir haben ein kleines Problem. Wir wissen nicht, wie wir die Vielfalt aller Lexeme darstellen können. Wir haben sechs Dialekte, und wir wollen für Lexeme angeben, in welchem Dialekt es verwendet wird, und wir haben keine richtige C0-Anweisung, um das zu tun. Solange das Segment also nicht existiert, verhindert es, dass wir es [unhörbar] machen, weil wir es noch einmal machen müssen, wenn wir die Anweisung exportieren können. Und es ist kompliziert, weil es eine Aussage ist, die nicht von vielen Leuten gefragt wird, weil es eine Aussage ist, die vor allem Minderheitensprachen betrifft. Sie werden also eine Person haben, die das fragen kann. Aber wie unsere baskischen Kollegen kann es eine Person sein, die Tausende von anderen antreibt, also es ist vielleicht nicht sehr viel verlangt, aber es wird für uns sehr wichtig sein. (Lydia) Haben Sie bereits einen neuen Eigenschaftenvorschlag oder brauchen Sie Hilfe bei dessen Erstellung? (Person 15) Wir haben vor vier Monaten danach gefragt. (Lydia) Na gut, dann holen wir uns ein paar Leute, die uns bei diesem Eigenschaftenvorschlag helfen. Ich bin sicher, es sind genug Leute in diesem Raum, um dies zu ermöglichen. (Person 15) Eigenschaftenvorschlag [spricht Französisch]. Wir bekamen keine Antwort und wissen nicht, wie wir das machen sollen, weil wir nicht in der Wikidata-Community sind. (Lydia) Ja, also gibt es hier Leute, die Ihnen helfen können. Vielleicht hebt jemand die Hand, um-- (Person 14) Nicht dafür. Aber ich denke, das ist ziemlich interessant, dass nur die Variante der Form auch geographisch, mit Koordinaten oder einer Art von Kartierung, damit umgehen kann. Auch unterschiedliche Aussprachen zu haben, und ich denke, das ist etwas, das in vielen Sprachen geschieht. Wir sollten damit anfangen. Und ich werde nach der Eigenschaft suchen. (Lydia) Cool. Sie erhalten also Unterstützung für Ihren Eigenschaftenvorschlag. Ich danke Ihnen. In Ordnung, noch Fragen? Finn. Finn ist einer dieser Leute, die auf lexikografischen Daten aufbauen. (Finn) Es ist nur eine kleine Frage, und es geht um Variationen in der Rechtschreibung. Es scheint, schwierig zu sein, sie in... Man könnte natürlich mehrere Formen für dasselbe Wort haben. Ich weiß nicht, es scheint... Wenn man es nicht so macht, scheint es, schwierig zu sein, es zu spezifizieren... oder ich weiß nicht, ob es sich nur um eine kleine technische Frage handelt oder ob... (Lydia) Betrachten wir es gemeinsam. Ich würde gerne ein Beispiel sehen. Asaf. (Asaf) Vielen Dank. Ich kann ein sehr konkretes Beispiel aus meiner Muttersprache, Hebräisch, nennen. Im Hebräischen gibt es zwei Hauptvarianten, um fast jedes Wort auszudrücken, weil die traditionelle Schreibweise viele Vokale auslässt. Und deshalb werden in modernen Ausgaben der Bibel und der Poesie diakritische Zeichen verwendet. Diese diakritischen Zeichen werden jedoch nie für moderne Prosa, Zeitungstexte oder Straßenschilder verwendet. Der durchschnittliche tägliche Gebrauch legt also zusätzliche Vokale hinein und verwendet die diakritischen Zeichen nicht, weil sie natürlich umständlicher sind und alle möglichen Regeln haben und niemand die Regeln kennt. Es gibt also grundsätzlich zwei Varianten. Es gibt die alltägliche, beiläufige Prosa-Variante, und es gibt die Bibel oder die Poesie, die immer in diesem traditionellen diakritischierten Text vorkommen. Um nützlich zu sein, müsste Lexeme sowohl Varianten jedes einzelnen Wortes als auch jede einzelne Form jedes einzelnen Wortes erkennen. Das ist also ein sehr umfassender Anwendungsfall für offizielle stabile Varianten. Es ist kein Dialekt, es sind keine Regionen, es sind im Grunde zwei nebeneinander existierende morphologische Systeme. Und auch ich weiß nicht genau, wie ich das momentan in Lexeme ausdrücken soll. Das ist eine Sache, die mich-- als Teilantwort auf Magnus' Frage-- davon abhält, die Teile hochzuladen, die aus dem größten hebräischen Wörterbuch, das öffentlich zugänglich ist und das ich seit einigen Jahren digitalisiere, stammen. Ein guter Teil davon ist fertig, aber ich stelle es jetzt nicht auf Lexeme, weil ich nicht genau weiß, wie ich dieses Problem lösen soll. (Lydia) In Ordnung, lösen wir das Problem hier. (lacht) Das muss doch möglich sein. In Ordnung, noch Fragen? Wenn nicht, dann danke ich Ihnen vielmals. (Beifall)