-
WikiData und Sprachen
-
(Lydia) Vielen Dank.
-
Also, in dieser Konferenz sind
einige der großen Themen die Sprachen.
-
Ich möchte Ihnen einen Überblick
darüber geben, wo wir derzeit
-
beim Thema Sprachen stehen
-
und wie wir von hier aus
weitermachen können.
-
[Mehr Leuten mehr Zugang
zu mehr Wissen geben]
-
Bei Wikidata geht es darum, mehr Menschen
mehr Zugang zu mehr Wissen zu geben,
-
und Sprache ist ein wichtiger Teil davon,
dies Wirklichkeit werden zu lassen,
-
zumal immer mehr unseres Lebens
von der Technologie abhängt.
-
Und wie unser Hauptredner vorhin sagte,
-
fallen durch einen Teil der Technologie
die Menschen einfach zurück,
-
weil sie eine bestimmte Sprache
einfach nicht sprechen können,
-
und das ist nicht in Ordnung.
-
Deshalb wollen wir etwas
dagegen unternehmen.
-
Und um das zu ändern,
braucht man mindestens zwei Dinge.
-
Erstens muss man den Leuten Inhalte
in ihrer Sprache zur Verfügung stellen,
-
und zweitens muss man ihnen
-
in diesen Anwendungen
oder was immer man hat,
-
Interaktion in ihrer Sprache ermöglichen.
-
Und Wikidata hilft bei beiden davon.
-
Und die erste Sache,
der Inhalt in Ihrer Sprache,
-
das ist im Grunde das, was wir
an Objekten und Eigenschaften haben,
-
wie wir die Welt beschreiben.
-
Nun, das ist sicherlich nicht alles,
was man braucht,
-
aber es bringt einen ziemlich weit voran.
-
Die andere Sache ist
die Interaktion in Ihrer Sprache,
-
und hier kommen Lexeme ins Spiel.
-
Wenn Sie mit Ihrem digitalen
persönlichen Assistenten sprechen wollen
-
oder wenn Sie Ihr Gerät einen Text
und solche Dinge übersetzen lassen wollen.
-
Na gut, sehen wir uns
den Inhalt in Ihrer Sprache an.
-
Also, was wir an Objekten
und Eigenschaften haben.
-
Dafür sind Bezeichnungen in den Objekten
und Eigenschaften entscheidend.
-
Wir müssen wissen, wie diese Entität
genannt wird, über die wir sprechen.
-
Und anstatt über Q5 zu sprechen,
-
jemand, der Englisch spricht, weiß,
dass das ein "human" ist,
-
jemand, der Deutsch spricht, weiß,
dass das ein "Mensch" ist,
-
und ähnliche Dinge.
-
Also überbrücken diese Bezeichnungen
auf Objekten und Eigenschaften
-
die Kluft zwischen Mensch und Maschine.
-
Und Menschen und Menschen
-
machen mehr vorhandenes Wissen
für sie zugänglich.
-
Das ist ein schönes Ziel zum Anstreben.
-
Wie sieht es eigentlich aus?
-
Es sieht so aus.
-
Was Sie hier sehen, ist,
-
dass die meisten Objekte auf Wikidata
zwei Bezeichnungen haben,
-
also Bezeichnungen in zwei Sprachen.
-
Und danach nur eines und dann drei,
-
und dann wird es sehr düster.
-
(leises Lachen)
-
Ich denke, wir müssen es besser machen.
-
Aber andererseits
habe ich eigentlich erwartet,
-
dass es schlimmer sein würde.
-
Ich habe erwartet,
dass der Durchschnitt eines sein würde.
-
Deshalb war ich ziemlich froh,
zwei zu sehen. (lacht)
-
In Ordnung.
-
Aber es ist nicht nur interessant
zu wissen,
-
wie viele Bezeichnungen unsere
Objekte und Eigenschaften haben.
-
Es ist auch interessant zu sehen,
in welchen Sprachen.
-
Hier sehen Sie eine Grafik der Sprachen,
-
für die wir Bezeichnungen
auf den Objekten haben.
-
Der größte Teil davon ist also Sonstiges.
-
Ich habe also nur
die 100 wichtigsten Sprachen ausgewählt
-
und alles andere ist Sonstiges,
um diese Grafik lesbar zu machen.
-
Und dann gibt es noch
Englisch und Niederländisch,
-
Französisch
-
und, nicht zu vergessen, Asturisch.
-
- (Person 1) Juhu!
- (Lydia) Juhuu, jawohl!
-
Was Sie hier sehen,
ist also ein ziemliches Ungleichgewicht
-
und immer noch eine starke Konzentration
auf Englisch.
-
Eine andere Sache ist, wenn Sie sich
das Gleiche für Eigenschaften ansehen,
-
sieht es eigentlich besser aus.
-
Und teilweise kommt das davon, dass es
einfach viel weniger Eigenschaften waren.
-
Also haben auch kleinere Communites
eine Chance, damit Schritt zu halten.
-
Aber es ist auch ein ziemlich
wichtiger Teil von Wikidata,
-
dass man in seine Sprache
lokalisieren kann.
-
Das ist also gut.
-
Was ich hier mit Asturisch
hervorheben möchte, ist,
-
dass eine kleine Gemeinschaft
mit etwas Hingabe und Arbeit
-
wirklich einen großen Unterschied
machen kann,
-
und das ist wirklich cool.
-
Ein kleines Quiz für Sie.
-
Wenn Sie alle Eigenschaften
auf Wikidata nehmen,
-
die keine externen Identifikatoren sind,
-
welche hat dann die meisten Bezeichnungen,
also die meisten Sprachen?
-
(Publikum) [Gemurmel]
-
Ich höre eine gewisse Übereinstimmung
über die Instanz von?
-
Sie würden sich irren.
-
Es ist Bild. (lacht)
-
Also, ja, das sagt Ihnen,
wenn Sie eine der Sprachen sprechen,
-
in denen Instanz von
noch keine Bezeichnung hat,
-
sollten Sie sie vielleicht hinzufügen.
-
Es hat also derzeit 148 Bezeichnungen.
-
Aber das ist eine andere Folie.
-
Diese Grafik sagt uns etwas darüber,
-
wie viel Inhalt wir in einer bestimmten
Sprache zur Verfügung stellen
-
und wie viel von diesem Inhalt
tatsächlich genutzt wird.
-
Was Sie also sehen,
ist im Grunde eine Kurve,
-
bei der die meisten Inhalte
englische Beschriftungen haben,
-
in Englisch verfügbar sind
und viel genutzt werden.
-
Und dann geht sie abwärts.
-
Aber was Sie wiederum sehen,
sind Ausreißer,
-
die viel mehr Inhalte haben,
als Sie unbedingt erwarten würden,
-
und das ist wirklich, wirklich gut.
-
Das Problem ist immer noch,
dass es nicht oft verwendet wird.
-
Asturisch und Niederländisch
sollten höher stehen,
-
und ich denke, dass es echt nützlich ist,
-
diesen Gemeinden dabei zu helfen,
-
die Nutzung der gesammelten Daten
zu erhöhen.
-
Was diese und andere Analysen
uns gezeigt haben, ist eine gute Sache,
-
denn wir sehen,
dass stark genutzte Artikel
-
auch dazu neigen,
mehr Bezeichnungen zu haben
-
oder umgekehrt - das ist nicht ganz klar.
-
Und dann stellt sich die Frage,
-
ob wir nur die mächtigen Sprachen
bedienen.
-
Oder dienen wir allen?
-
Und was Sie hier sehen,
ist eine Gruppierung der Sprachen.
-
Die Sprachen, die in einer Gruppe sind,
haben oft gemeinsame Bezeichnungen.
-
Und Sie sehen, dass diese sich gruppieren.
-
Hier ist eine ähnliche Gruppierung,
in Farbe, basierend darauf,
-
wie lebendig, wie oft verwendet
-
und wie gefährdet die Sprache ist.
-
Und eine gute Sache, die Sie hier sehen,
-
ist, dass sichere Sprachen
und gefährdete Sprachen
-
nicht zwei verschiedene Cluster bilden,
-
sondern sie sind alle
miteinander vermischt,
-
was viel besser ist als umgekehrt,
-
wenn die sicheren Sprachen,
die mächtigen Sprachen,
-
sich nur gegenseitig aushelfen würden.
-
Nein, das ist nicht der Fall.
-
Und das ist wirklich eine gute Sache.
-
Als ich das sah, fand ich das sehr gut.
-
Hier ist eine ähnliche Sache,
-
bei der wir uns
-
den Status der Sprachen
-
und die Anzahl der Bezeichnungen
angesehen haben.
-
Was Sie sehen, ist ein klarer Sieg
für ungefährdete Sprachen,
-
wie zu erwarten ist.
-
Aber was Sie auch sehen, ist,
-
dass die Sprachen in Kategorie 2
und 3 und vielleicht sogar 4
-
eigentlich gar nicht so schlecht sind,
-
was ihre Darstellung in Wikidata
und anderen angeht.
-
Das festzustellen, ist wirklich gut.
-
Wenn man sich nun
die gleiche Sache anschaut,
-
wie viel von dem Inhalt
dieser Bezeichnungen
-
beispielsweise auf Wikipedia
tatsächlich verwendet wird,
-
dann sehen wir ein ähnliches Bild,
das wieder auftaucht.
-
Es zeigt uns, dass diese Communities
ihre Zeit tatsächlich gut nutzen,
-
indem sie beispielsweise Bezeichnungen
für stärker verwendete Artikel eintragen.
-
Es gibt Ausreißer, bei denen wir
meiner Meinung nach helfen können,
-
um diesen Communities zu helfen,
-
die Orte zu finden,
wo ihre Arbeit am wertvollsten wäre.
-
Aber insgesamt bin ich
mit diesem Bild zufrieden.
-
Nun, das war der Teil der Objekte
und Eigenschaften von Wikidata.
-
Betrachten wir nun die Interaktion
in Ihren Sprachen.
-
Also die Lexeme-Teile von Wikidata,
-
in denen wir Wörter und ihre Formen
und ihre Bedeutungen beschreiben.
-
Wir machen das jetzt
seit Mai letzten Jahres,
-
und der Inhalt ist gewachsen.
-
Sie können hier in Blau die Lexeme sehen
-
und dann in rot die Formen
auf diesen Lexemen
-
und in gelb die Bedeutung
auf diesen Lexemen.
-
Einige Communities--
dazu kommen wir später --
-
haben also viel Zeit damit verbracht,
Formen und Bedeutungen für ihre Lexeme
-
zu erstellen, was wirklich nützlich ist,
-
denn das bildet den Kern
des Datensatzes, den Sie benötigen.
-
Nun haben wir uns alle Sprachen angesehen,
-
die Lexeme auf Wikidata haben.
-
Die Wörter, die wir haben,
-
das sind im Moment 310 Sprachen.
-
Was ist Ihrer Meinung nach
die wichtigste Sprache,
-
wenn es um die Anzahl der Lexeme geht,
die derzeit in Wikidata enthalten sind?
-
(Publikum) [mehrere Zwischenrufe]
-
(Lydia) Hm?
-
(Person 2) Deutsch.
-
(Lydia) Entschuldigung,
ich habe es schon mal gehört.
-
Es ist Russisch.
-
Russisch hat einen großen Vorsprung.
-
Und nur um Ihnen
einen Eindruck zu geben,
-
es gibt verschiedene Meinungen,
-
aber ich habe zum Beispiel gelesen,
dass 1.000 bis 3.000 Wörter
-
Sie ungefähr auf Konversationsniveau
in einer anderen Sprache bringen
-
und 4.000 bis 10.000 Wörter
auf ein fortgeschrittenes Niveau.
-
Wir müssen also noch ein wenig aufholen.
-
Eine Sache, die Sie beachten sollten,
ist Baskisch hier
-
mit ungefähr 10.000 Lexemen.
-
Wenn man sich die Anzahl der Formen
für diese Lexeme ansieht,
-
ist Baskisch weit oben,
-
was wirklich cool ist,
-
und Sie sollten zu einem Vortrag gehen,
der Ihnen erklärt, warum das der Fall ist.
-
Wenn man sich nun die Anzahl
der Bedeutungen anschaut,
-
also was bedeuten die Wörter,
-
steht Baskisch sogar
ganz oben auf der Liste.
-
Ich denke, das verdient einen Applaus.
-
(Beifall)
-
Noch ein kurzes Quiz.
-
Welches ist das Lexem
mit den meisten Übersetzungen derzeit?
-
(Publikum) Katzen, Katzen, [unhörbar],
Douglas Adams, [unhörbar]
-
(Lydia) Alles gute Ratschläge, aber nein.
-
Es ist dies,
das russische Wort für "Wasser".
-
Also gut, wir haben jetzt
viel darüber gesprochen,
-
wie viele Lexeme, Formen
und Bedeutungen wir haben,
-
aber das ist nur eine Sache,
die man braucht.
-
Die andere Sache ist,
-
diese Lexeme, Formen und Bedeutungen
-
in maschinenlesbarer Form zu beschreiben.
-
Und dazu hat man Aussagen,
wie zum Beispiel zu Objekten.
-
Und eine der Eigenschaften,
die man verwendet,
-
ist ein Anwendungsbeispiel.
-
Wer also diese Daten verwendet,
-
kann verstehen, wie dieses Wort
im Kontext zu verwenden ist,
-
so dass es zum Beispiel
ein Zitat sein könnte.
-
Und hier liegt Polnisch ganz vorne.
-
Gute Arbeit, Polnisch-Sprecher.
-
Eine weitere Eigenschaft,
die wirklich nützlich ist, ist IPA,
-
also wie spricht man dieses Wort aus.
-
Russisch braucht offenbar
viele IPA-Erklärungen.
-
Aber noch einmal kommt Polnisch
gleich hinterher.
-
Und zu guter Letzt haben wir
auch noch eine Audioaussprache.
-
Das sind also Links
zu Dateien auf Commons,
-
in denen jemand das Wort ausspricht,
-
so dass Sie hören können,
-
wie ein Muttersprachler
das Wort ausspricht,
-
falls Sie zum Beispiel
IPA nicht lesen können.
-
Und es gibt ein wirklich nettes,
auf Wiki basierendes Projekt
-
namens Lingua Libre,
-
bei dem Sie mithelfen können,
Wörter in Ihrer Sprache aufzunehmen,
-
die dann zu den Lexemen auf Wikidata
hinzugefügt werden können,
-
damit andere Leute verstehen können,
wie Ihre Wörter ausgesprochen werden.
-
(Person 2) [undeutlich]
-
(Lydia) Wenn Sie
nach "Lingua Libre" suchen,
-
und ich bin sicher, dass es jemand
im Telegrammkanal posten kann.
-
Die Leute sind der Hammer.
-
Sie haben wirklich coole Sachen
mit Wikibase gemacht.
-
In Ordnung.
-
Dann ist die Frage, wie geht es weiter?
-
Basierend auf den Zahlen,
die ich Ihnen gerade gezeigt habe,
-
haben wir einen langen Weg zurückgelegt,
-
um mehr Menschen mehr Zugang
zu mehr Wissen zu geben,
-
was Sprachen auf Wikidata betrifft.
-
Aber es liegt auch noch
eine Menge Arbeit vor uns.
-
Einige der Dinge, die Sie
tun können, um zu helfen,
-
sind zum Beispiel Label-a-Thons,
-
wie Leute zusammenzubringen,
um Objekte in Wikidata zu bezeichnen,
-
oder einen Edit-a-Thon, um Lexeme
in Ihrer Sprache zu vervollständigen,
-
um die am häufigsten verwendeten Wörter
in Ihrer Sprache in Wikidata zu bestimmen.
-
Oder Sie können ein Werkzeug
wie Terminator verwenden,
-
das Ihnen hilft, die wichtigsten Elemente
in Ihrer Sprache zu finden,
-
bei denen noch keine Bezeichnung
vorhanden ist.
-
Am wichtigsten ist es, zu messen,
-
wie oft es in anderen Wikidata-Elementen
als Links in Aussagen verwendet wird.
-
Und beim Lexeme-Teil
-
geht es natürlich auch darum,
diese Lexeme zu erweitern
-
und weitere Aussagen hinzuzufügen,
-
so dass sie tatsächlich die Basis
-
für sinnvolle Anwendungen bilden können,
die darauf aufbauen.
-
Denn wir nähern uns
dieser kritischen Masse,
-
aber wir sind noch weit davon entfernt,
-
dass man darauf ernsthafte
Anwendungen aufbauen könnte.
-
Und ich hoffe, dass Sie alle
sich uns dabei anschließen werden.
-
Und damit komme ich schon
-
zu einer kleinen Hilfe
von unseren Freunden,
-
und Bruno, wollen Sie zu uns kommen
-
und mit uns über
lexikalische Masken sprechen?
-
(Bruno) Danke, Lydia.
-
Danke, dass Sie mir
die Zeit gegeben haben,
-
um diese Arbeit vorzustellen,
die wir bei Google Denny machen
-
und von der viele von Ihnen schon
gehört haben oder wissen.
-
Denn bei Google bin ich Linguist.
-
Ich freue mich also sehr, hier unter
anderen Sprachbegeisterten zu sein.
-
Wir bauen auch einige Lexika auf,
-
und wir haben diese Technologie
-
oder diesen Ansatz aufgebaut, von dem
wir glauben, dass er nützlich sein kann.
-
Nur um ein wenig
Hintergrundinformationen zu geben,
-
hier ist mein lexikografischer
Hintergrund, über den ich hier spreche.
-
Wenn wir eine Lexikon-Datenbank aufbauen,
-
ist es sehr schwierig, sie zu pflegen,
konsistent zu halten
-
und Daten auszutauschen,
-
wie Sie wahrscheinlich wissen.
-
Es gibt mehrere Versuche, die Funktionen
und die Eigenschaften zu vereinheitlichen,
-
die diese Lexeme
und diese Formen beschreiben,
-
und es ist kein gelöstes Problem.
-
Es gibt einige Vereinheitlichungsversuche
auf dieser Seite.
-
Aber was wirklich fehlt--
-
und dieses Problem hatten wir
zu Beginn unseres Projekts bei Google--
-
ist der Versuch,
eine interne Struktur zu schaffen,
-
die beschreibt, wie ein
lexikalischer Eintrag aussehen sollte,
-
welche Art von Daten oder welche Art
von Informationen wir haben
-
und welche Spezifikationen
erwartet werden.
-
Das ist es also, was wir mit dieser Sache
namens Lexikon-Maske herausgefunden haben.
-
Eine Lexikonmaske beschreibt,
was für einen Eintrag,
-
einen lexikografischen Eintrag,
erwartet wird, um vollständig zu sein,
-
sowohl in Bezug auf die Anzahl der Formen,
die Sie für ein Lexem erwarten,
-
als auch auf die Anzahl der Merkmale,
die Sie für jede dieser Formen erwarten.
-
Hier ist ein Beispiel
für italienische Adjektive.
-
Sie erwarten, dass Ihre Adjektive
auf Italienisch vier Formen haben,
-
und jede dieser Formen
hat eine spezifische Kombination
-
von Geschlechts- und Numerusmerkmalen.
-
Das erwarten wir
für die italienischen Adjektive.
-
Natürlich können Sie
sehr komplexe Masken haben,
-
wie die Konjugation
der französischen Verben,
-
die sehr umfangreich ist,
-
und ich zeige Ihnen nicht
weitere russische Masken,
-
weil diese nicht
auf den Bildschirm passen.
-
Und wir haben auch
einige detaillierte Spezifikationen,
-
weil wir unterscheiden auf der Formebene.
-
Hier haben Sie also russische Substantive,
die drei Numeri
-
und eine Reihe von Fällen
mit unterschiedlichen Formen haben,
-
aber sie haben auch eine Spezifikation
auf der Einstiegsebene,
-
die besagt, dass ein Substantiv vor allem
-
ein inhärentes Geschlecht
und ein inhärentes Belebtheitsmerkmal hat,
-
das ebenfalls in der Maske angegeben ist.
-
Wir wollen auch unterscheiden,
dass eine Maske
-
eine Spezifikation dafür gibt,
wie ein Eintrag aussehen sollte.
-
Aber Sie können kleinere Masken
für fehlerhafte Aspekte der Form
-
oder fehlerhafte Aspekte des Lexems haben,
die in der Sprache vorkommen.
-
Hier ist also die einfachste Version
der französischen Verben,
-
die nur die dritte Person Singular
für alle Wetterverben haben,
-
wie "es regnet" oder "es schneit",
wie im Englischen.
-
Wir unterscheiden also
diese beiden Stufen.
-
Und wie wir das bei Google verwenden,
-
ist, dass wir, wenn wir ein Lexikon haben,
das wir verwenden wollen,
-
die Maske benutzen, um die Lexika,
also alle Einträge,
-
wirklich buchstäblich
durch die Maske zu werfen
-
und zu sehen, welcher Eintrag
ein Problem in Bezug auf die Struktur hat.
-
Fehlt uns eine Form?
Fehlt uns ein Merkmal?
-
Und wenn es ein Problem gibt, führen wir
eine menschliche Validierung durch
-
oder einfach nur, um zu sehen,
ob es die Maske passiert.
-
Es ist also ein extrem
leistungsfähiges Werkzeug,
-
um die Qualität der Struktur
zu überprüfen.
-
Wir freuen uns also,
heute bekannt geben zu können,
-
dass wir grünes Licht erhalten haben,
unsere Maske freizugeben.
-
Dies ist also ein Schema.
-
Wenn Sie das wollen,
können wir es veröffentlichen
-
und wir werden es Wikidata
als ShEx-Dateien zur Verfügung stellen.
-
Dies ist eine ShEx-Datei
für deutsche Substantive,
-
und Denny arbeitet an der Konvertierung
von unserer internen Spezifikation
-
in eine Open-Source-Spezifikation.
-
Derzeit decken wir
mehr als 25 Sprachen ab.
-
Wir erwarten also Wachstum
auf unserer Seite,
-
aber wir suchen auch nach der Möglichkeit,
für andere Sprachen zusammenzuarbeiten.
-
Und eine der laufenden Kooperationen,
die zwischen Denny und Lukas stattfindet,
-
Lukas hat diese großartigen Werkzeuge,
um eine Benutzeroberfläche zu haben,
-
die dem Benutzer
oder dem Beitragenden hilft,
-
weitere Formen hinzuzufügen.
-
Wenn Sie also ein Adjektiv
auf Französisch hinzufügen möchten,
-
sagt Ihnen die Benutzeroberfläche,
wie viele Formen erwartet werden
-
und welche Art von Funktionen
diese Form haben sollte.
-
Unsere Maske hilft Ihnen, das Werkzeug
zu definieren und zu erweitern.
-
Das ist alles.
-
(Lydia) Ich danke Ihnen vielmals.
-
(Beifall)
-
In Ordnung. Gibt es Fragen?
-
Wollen Sie mehr über Lexeme sprechen?
-
- (Person 3) Ja.
- (Lydia) Ja. (lacht)
-
(Person 3) Meine Frage,
weil Sie davon sprachen,
-
mehr Menschen in mehr Sprachen
Zugang zu gewähren.
-
Aber es gibt eine Menge Sprachen,
die in Wikidata
-
nicht verwendet werden können.
-
Welche Lösung haben Sie also dafür?
-
(Lydia) Wenn Sie sagen, dass Wikidata
nicht verwendet werden kann,
-
sprechen Sie von der Eingabe
von Bezeichnungen?
-
(Person 3) Bezeichnungen,
Beschreibungen.
-
(Lydia) Richtig.
Bei Lexemes ist es also etwas anders,
-
weil wir dort diese Einschränkung
nicht haben.
-
Für Bezeichnungen
von Objekten und Eigenschaften
-
gibt es eine gewisse Einschränkung,
-
weil wir sicherstellen wollten,
dass nicht jeder
-
etwas völlig anderes macht
-
und es unüberschaubar wird.
-
Sogar eine kleine Communties,
-
die eine einzige Sprache wollen
und daran arbeiten möchten,
-
kommt zu uns und sprecht mit uns,
wir werden das einrichten.
-
(Person 3) Wir haben das
beim Prager Hackathon im Mai getan,
-
und wir haben bis fast August gebraucht,
um unsere Sprache verwenden zu können.
-
- (Lydia) Ja.
- (Person 3) Also, es ist sehr langsam.
-
(Lydia) Ja, es ist leider sehr langsam.
-
Wir arbeiten derzeit
mit dem Sprachausschuss
-
an der Lösung einiger grundlegender...
-
Zum Beispiel, eine Einigung
darüber zu erzielen,
-
welche Arten von Sprachen
tatsächlich "erlaubt" sind,
-
und das hat zu lange gedauert,
-
weshalb Ihre Anfrage wahrscheinlich
länger gedauert hat,
-
als sie hätte sein sollen.
-
(Person 3) Danke.
-
(Person 4) Vielen Dank.
-
Lydia, wenn Sie sich an die Statistiken
erinnern, die Sie gezeigt haben,
-
die Anzahl der Lexeme pro Sprache.
-
Haben Sie also alle Formen
als Datenpunkt gezählt
-
oder nur Lexeme?
-
(Lydia) Meinen Sie das?
-
Welches meinen Sie?
-
(Person 4) Ja, genau.
-
Wenn Sie sich erinnern,
zählt diese Zahl [unhörbar]
-
alle Formen für alle Lexeme
oder nur, wie viele Lexeme es gibt?
-
(Lydia) Nein, dies ist nur
die Anzahl von Lexemen.
-
(Person 4) Nur eine Anzahl
von Lexemen, okay.
-
Dann ist es also nur eine Statistik,
-
denn wenn es dann die Formen
zusammensetzen würde--
-
deshalb frage ich--
-
dann haben alle Sprachen
mit der Flexionsmorphologie,
-
wie Russisch, Serbisch,
Slowenisch und so weiter,
-
einen natürlichen Vorteil,
weil sie so viele haben.
-
(Lydia) Das wirkt sich also
auf diese Anzahl von Formen aus.
-
(Person 4) Ja, das war diese hier. Danke.
-
(Person 5) Also, ich hatte
eine kurze Frage über die...
-
Wenn wir über die eigentlichen
Objekte und Eigenschaften sprechen,
-
soweit ich weiß,
-
gibt es derzeit keine Möglichkeit,
eine tatsächliche Quelle
-
für die angegebenen Bezeichnungen
und Beschreibungen anzugeben.
-
Zum Beispiel, weil man,
-
wenn es sich um eine Eigenschaft
eines Objekts handelt,
-
kann man zum Beispiel
widersprüchliche Bezeichnungen erhalten.
-
(Lydia) Ja.
-
(Person 5) Diese Person ist also wie...
-
Wir haben zum Beispiel schon einmal
über indigene Dinge gesprochen.
-
Diese Person ist also nach dieser Quelle
ein norwegischer Künstler,
-
und nach dieser Quelle
ein samischer Künstler.
-
Oder, zum Beispiel, in der
estnischen Sprache hatten wir ein Problem,
-
bei dem wir die Terminologie
auf die offizielle Terminologie
-
in den offiziellen Lexika
umstellen mussten,
-
aber wir haben keine Möglichkeit,
wirklich anzugeben, warum,
-
was die Ursache dafür war
-
und warum das besser war
und was vorher da war.
-
Es war nur ich als zufällige Person,
-
die die Sache umgestellt hat
für jeden, der das sieht.
-
Gibt es also einen Plan, um dies
in irgendeiner Weise zu ermöglichen,
-
damit wir tatsächlich die richtigen
Quellen für die Sprachdaten haben?
-
(Lydia) Also, es ist teilweise möglich.
-
Wenn Sie zum Beispiel ein Objekt
für eine Person haben,
-
dann haben Sie eine Aussage,
den Vornamen, den Nachnamen
-
und so weiter, dieser Person,
-
und dann können Sie dort
die Referenz dafür angeben.
-
Ich zögere noch, mehr Komplexität
-
für Referenzen auf Bezeichnungen
und Beschreibungen hinzuzufügen,
-
aber wenn die Leute wirklich,
wirklich denken,
-
dass dies etwas ist,
das nicht durch eine Referenz
-
zu der Aussage abgedeckt ist,
-
dann lassen Sie uns darüber reden.
-
Aber ich fürchte, es wird
eine Menge Komplexität
-
für hoffentlich wenige Fälle hinzufügen,
-
aber ich bin bereit, mich vom Gegenteil
überzeugen zu lassen,
-
wenn die Leute wirklich
sehr stark davon überzeugt sind.
-
(Person 5) Wenn es hinzugefügt wird,
sollte es nicht Standardeinstellung sein,
-
das allen Anfängern der Benutzer
zu zeigen, auf jeden Fall.
-
Eher so: "Klicken Sie hier, wenn Sie
etwas Bestimmtes dazu sagen müssen".
-
(Lydia) Haben wir ein Gefühl dafür,
wie oft das eine Rolle spielen würde?
-
(Person 5) Auf Estnisch, zum Beispiel--
-
ich nehme an, das gilt auch
für andere Sprachen--
-
gibt es einen offiziellen Namen,
die tatsächlich legitime Übersetzung,
-
zum Beispiel ins Englische,
-
einer bestimmten Art
von Stadtgemeinde ist.
-
Das war zum Beispiel mein Anwendungsfall,
-
wo wir das Wort "Gemeinde"
verwendet haben,
-
das im estnischen Original
wie eine Kirchengemeinde gemeint war,
-
und das war der Ursprung,
-
aber das ist nicht die offizielle
Übersetzung, die Estland jetzt hat.
-
(Lydia) In diesem Fall würde ich es
als offizielle Namensangabe hinzufügen
-
und dort den Verweis hinzufügen.
-
(Person 5) Okay.
-
(Lydia) Weitere Fragen, ja?
-
(Person 6) Ich habe zwei kurze Kommentare.
-
Sie haben ausdrücklich Asturisch als eine
Sprache genannt, die gut funktioniert,
-
und ich denke,
das ist ein falsches Artefakt.
-
(Lydia) Erzählen Sie mir davon.
-
(Person 6) Ich glaube, es ist nur ein Bot,
-
der Personennamen wie Eigennamen einfügt
-
und sagt: "Nun, das ist genau
wie im Französischen oder Spanischen",
-
und es einfach massiv kopiert.
-
Ein Beweis dafür ist, dass man
diese Energie im Asturischen
-
nicht in Dingen sieht, die eigentlich
übersetzt werden müssen, wie Eigennamen
-
oder Namen von Objekten,
die keine Eigennamen sind.
-
(Lydia) Asaf, du brichst mir das Herz.
-
(Person 6) Ich weiß,
ich vermassle immer die Show,
-
aber ich habe auch gute Neuigkeiten,
was die Zahlen zur Aussprache betrifft.
-
Wie Sie wahrscheinlich wissen,
ist Commons voll von Aussprachedateien,
-
und zum Beispiel
-
gibt es im Niederländischen nicht weniger
als 300.000 Aussprachedateien
-
schon unter Commons
-
die nur irgendwie
aufgenommen werden müssen.
-
Wenn also jemand
nach einem Nebenprojekt sucht,
-
gibt es tonnenweise
-
klassifizierte, kategorisierte
Aussprachedateien unter Commons
-
unter der Kategorie "Aussprache"
nach Sprache.
-
Das wartet nur darauf,
mit Lexemen abgeglichen
-
und auf Lexeme gesetzt zu werden.
-
Und ich habe mich gefragt, ob Sie etwas
über den Fahrplan sagen können,
-
etwas darüber, wie viel Investitionen
-
oder was wir im kommenden Jahr
von Lexeme erwarten können,
-
denn ich kann es kaum erwarten.
-
(Lydia) Sie können nicht warten? (lacht)
-
- (Person 6) Auf mehr.
- (Lydia) Ja.
-
Im Moment konzentrieren wir uns
auf mehr über Wikibase und Datenqualität,
-
um zu sehen, wie viel Fahrt das bekommt,
-
und dann mehr Information darüber,
wo die Schwachpunkte als Nächstes liegen,
-
und dann wieder zur weiteren Verbesserung
der lexikografischen Daten zurückzukehren.
-
Und eines der Dinge, die ich
gerne von Ihnen hören würde,
-
ist, wo genau Sie
die nächsten Schritte sehen,
-
wo Sie Verbesserungen sehen wollen,
-
damit wir dann herausfinden können,
wie wir das erreichen können.
-
Aber natürlich haben Sie Recht,
-
es gibt noch so viel zu tun,
auch von der technischen Seite her.
-
(Person 7) Okay, als wir
die baskischen Wörter
-
mit Formen hochgeladen haben,
-
und Sie werden einige dieser Dinge sehen,
-
sagten wir beide letzte Woche:
"Oh, wir sind die Ersten bei etwas.
-
Es erscheint in der Presse,
und es ist wie:
-
"Oh, Baskisch, es ist das erste Mal,
das sie bei etwas die ersten sind".
-
(Lachen)
-
Und dann fragen die Leute:
"Okay, aber wofür ist das?"
-
Wir haben keine wirklich gute Antwort.
-
Ich meine, "Okay,
-
das wird Computern helfen,
unsere Sprache besser zu verstehen, ja,
-
aber was für Werkzeuge können wir
in der Zukunft herstellen?"
-
Und darauf haben wir keine gute Antwort.
-
Ich weiß also nicht, ob Sie
eine gute Antwort darauf haben.
-
(Lydia) (lacht) Ich weiß nicht,
ob ich eine gute Antwort habe,
-
aber ich habe eine Antwort.
-
Ich denke also, wie ich
schon sagte [unhörbar],
-
dass wir noch nicht
die kritische Masse erreicht haben,
-
in der man viele der wirklich
interessanten Werkzeuge bauen kann.
-
Aber es gibt bereits einige Werkzeuge.
-
Erst neulich hat Esther [Pandelia]
zum Beispiel
-
ein Werkzeug veröffentlicht,
mit dem man sehen kann,
-
ich glaube, es waren die Worte
auf einem Globus,
-
wo sie gesprochen werden,
woher sie kommen.
-
Wahrscheinlich irre ich mich da,
-
aber sie hatte auf dem Projekt-Chat
auf Wikidata geantwortet--
-
Sie können es dort nachschlagen.
-
Wir haben also
diese ersten Werkzeuge gesehen,
-
genau wie damals, als Wikidata begann.
-
Zuerst etwas - wie ein Netzwerk,
-
und wie: "Schau, da ist dieses Ding,
-
das sich mit diesem
anderen Ding verbindet".
-
Und je mehr Daten wir haben
-
und je mehr wir
eine kritische Masse erreicht haben,
-
desto leistungsfähigere Anwendungen
werden möglich,
-
Dinge wie Histropedia,
-
Dinge wie Fragen und Antworten
-
in Ihrem digitalen persönlichen
Assistenten, Platypus und so weiter.
-
Ähnliches sehen wir bei den Lexemen.
-
Wir befinden uns in einem Stadium,
in dem man so etwas wie diese kleinen,
-
hey, schau, es gibt eine Verbindung
zwischen den beiden Dingen,
-
und es gibt eine Übersetzung
dieses Wortes in dieses Sprachstadium,
-
und wenn wir es erweitern
und mehr Wörter beschreiben,
-
wird mehr möglich.
-
Was wird nun möglich?
-
Wie Ben, unser Hauptredner vorhin,
sprach über Übersetzungen,
-
über die Möglichkeit, von einer Sprache
in eine andere zu übersetzen.
-
Und Jens, mein Kollege,
er spricht immer davon,
-
dass die Europäische Union
einen Übersetzer sucht,
-
der aus dem Maltesischen ins Schwedische
übersetzen kann, war es Maltesisch?
-
- (Person 8) Estnisch.
- (Lydia) Estnisch.
-
Und das ist keine übliche Kombination.
-
Aber wenn man all diese Sprachen
an einem maschinenlesbaren Ort hat,
-
kann man das tun,
-
man kann ein Wörterbuch
-
von Estnisch nach Maltesisch
und zurück bekommen.
-
Also Sprachkombinationen
in Wörterbüchern abzudecken,
-
die vorher einfach nicht abgedeckt wurden,
-
weil es nicht genug Nachfrage
dafür gab, zum Beispiel,
-
um die Arbeit finanziell tragbar zu machen
und zu rechtfertigen.
-
Jetzt können wir das tun.
-
Dann die Texterstellung.
-
Lucie hat vorhin davon gesprochen,
-
wie sie mit Hattie
an der Textgenerierung arbeitet,
-
um Wikipedia-Artikel
in Minderheitensprachen zu erstellen,
-
und dazu braucht man Daten über Wörter,
-
und dazu muss man die Sprache verstehen.
-
Ja, und das sind nur einige,
die mir gerade in den Sinn kommen.
-
Vielleicht hat unser Publikum mehr Ideen,
-
was es tun möchte, wenn wir
all die herrlichen Daten haben.
-
(Person 9) Okay, ich werde vom Thema
Lexeme abweichen.
-
Ich werde die Frage stellen,
-
wie kann ich als Mitglied der Community
-
darauf Einfluss nehmen, dass die Priorität
auf die Aufgabe gelegt wird,
-
dass ein neuer Benutzer angeben kann,
-
welche Sprachen er sehen
und bearbeiten möchte,
-
ohne dass er geheime
verbale Vorlagenkenntnisse hat.
-
Vielleicht wird es dieses Jahr
diese technische Wunschliste
-
ohne Wikipedia-Themen geben.
-
Vielleicht gibt es eine Hoffnung, dass wir
alle über diese Sache abstimmen können,
-
die wir sieben Jahre lang
nicht geregelt haben.
-
Haben Sie also irgendwelche
Ideen und Kommentare dazu?
-
Sie sprechen also davon,
-
dass jemand, der nicht
in Wikidata eingeloggt ist,
-
seine Sprache nicht einfach ändern kann?
-
(Person 9) Nein, für [unhörbare] Benutzer.
-
(Lydia) Wenn sie also eingeloggt sind,
-
können sie ihre Sprache einfach
oben auf der Seite ändern,
-
und dann erscheint,
-
wo die Beschreibung [unhörbar] steht
-
und sie können sie bearbeiten.
-
(Person 9) Nun, eigentlich
ist der Arbeitsablauf oft so,
-
dass, wenn Sie mehrere Sprachen
haben wollen, diese angeboten werden,
-
das nicht immer der Fall ist.
-
(Lydia) Okay, vielleicht sollten wir uns
nach diesem Vortrag zusammensetzen
-
und Sie zeigen es mir.
-
Cool. Noch mehr Fragen?
-
Ja.
-
(Person 10) Danke für die Präsentation.
-
Können Sie den Stand
-
der Korrelation mit der
Wiktionary-Community kommentieren?
-
Soweit ich gesehen habe,
gab es einige Diskussionen
-
über den Import
einiger Elemente der Arbeit,
-
aber es scheint, Lizenzprobleme und einige
Meinungsverschiedenheiten usw. zu geben.
-
(Lydia) Das stimmt.
-
Die Wiktionary-Community
hat also viel Zeit
-
mit dem Aufbau
von Wiktionary verbracht.
-
Sie haben erstaunlich komplizierte
-
und komplexe Vorlagen gebaut,
-
um hübsche Tabellen zu erstellen,
die automatisch Formen für Sie
-
und alle möglichen
wirklich beeindruckenden
-
und verrückten Dinge erzeugen,
wenn Sie darüber nachdenken.
-
Und natürlich haben sie eine Menge Zeit
und Mühe in diese Arbeit investiert.
-
Und verständlicherweise wollen die nicht,
-
dass man sich das einfach grabscht.
-
einfach so.
-
Einiges davon kommt also von dort.
-
Und das ist gut so, das ist okay.
-
Die ersten Wiktionary-Communities
sprechen nun davon,
-
einige ihrer Daten
in Wikidata zu importieren.
-
Russisch, das Sie gesehen haben,
ist zum Beispiel einer dieser Fälle,
-
und ich erwarte, dass noch mehr
davon realisiert wird.
-
Aber es wird ein langsamer Prozess sein,
-
so wie die Übernahme der Daten
von Wikidata in Wikipedia
-
ein ziemlich langsamer Prozess war.
-
Auf der anderen Seite ist es einfacher,
-
die Daten, die in Lexemen
auf Wiktionary stehen,
-
tatsächlich zu nutzen,
so dass sie diese nutzen
-
und Daten zwischen den Wiktionaries
austauschen können,
-
was im Moment super schwer
bis unmöglich ist,
-
was verrückt ist, genau wie bei Wikipedia.
-
Warten Sie auf das Geburtstagsgeschenk.
(lacht)
-
Ja.
-
(Person 11) Als ich andersherum dachte,
-
wollte ich es eigentlich nicht sagen,
weil ich denke, es wird super albern sein,
-
aber ich denke, dass Wiktionary
bereits einige Inhalte hat,
-
und ich weiß, dass wir diese nicht
auf Wikidata übertragen können,
-
weil es einen Unterschied
in den Lizenzen gibt.
-
Aber ich dachte, dass wir vielleicht
etwas deswegen tun können.
-
Vielleicht, ich weiß nicht, können wir
die Erlaubnis der Communities einholen,
-
nachdem wir eine öffentliche
Abstimmung durchgeführt haben
-
und die aktiven Mitglieder
der Gemeinschaft abstimmen
-
und sagen können,
-
ob sie die Inhalte, für die sie
die Wikidata-Lexeme machen dürfen,
-
annehmen oder übertragen möchten.
-
Weil ich es einfach
für eine solche Verschwendung halte.
-
Also, das ist definitiv im Gespräch,
dass die Leute,
-
die in Wiktionary-Communities sind,
das dort zur Sprache bringen.
-
Ich denke, es wäre ein bisschen anmaßend,
wenn wir das erzwingen würden.
-
Aber, ja, ich denke, es ist
auf jeden Fall ein Gespräch wert.
-
Aber ich denke, es ist
auch wichtig, zu verstehen,
-
dass es einen Unterschied gibt
zwischen dem, was gesetzlich erlaubt ist
-
und was wir tun sollten,
-
und dem, was diese Leute
wollen oder nicht wollen.
-
Selbst wenn es also rechtlich erlaubt ist,
-
wenn einige Wiktionary-Communities
das nicht wollen,
-
wäre ich zumindest vorsichtig.
-
Ich denke, Sie brauchen das Mikro
für den Stream.
-
(Person 12) Also, offensichtlich
ist das alles sehr aufregend,
-
und ich denke sofort, wie kann ich
das meinen Studenten vermitteln
-
und wie kann ich es in die Kurse,
-
die Arbeit, die wir machen,
und die Bildungseinrichtungen integrieren.
-
Und mir fehlt im Moment
-
noch das Wissen,
-
aber ich denke,
die Dokumentation, die wir haben,
-
vielleicht verbessert werden könnte.
-
Das ist also eine Art Aufforderung,
coole Videos zu machen,
-
die erklären, wie es funktioniert,
-
denn wenn wir das haben,
können wir es nutzen,
-
und wir können Studenten an Bord ziehen,
-
und wir können den Leuten verständlich
machen, wie fantastisch das alles ist.
-
Und ja, denken Sie an die Dokumentation
und denken Sie an die Ausbildung, bitte.
-
Denn ich denke, es könnte
eine Menge getan werden.
-
Dies sind schon viele Aufgaben,
die auch mit...
-
na ja, ich würde nicht sagen
Grundschulen,
-
aber sicherlich auch mit jüngeren
Studenten durchgeführt werden könnten.
-
Und deshalb würde ich es gerne sehen,
dass dieses Potenzial genutzt wird,
-
und ich persönlich verstehe
noch nicht genug,
-
um Aufgaben zu erstellen
oder so etwas wie...
-
etwas Praktisches daraus zu machen.
-
Wenn also jemand hier Hilfe
oder Gedanken dazu hat,
-
würde ich mich sehr freuen,
Ihre Ideen zu hören, und Ihre auch.
-
(Lydia) Ja, lassen Sie uns darüber reden.
-
Noch Fragen?
-
Jemand anderes hat die Hand gehoben.
-
Ich habe vergessen, wer das war.
-
(Person 13) Wenn wir also nicht
aus Wiktionary importieren können,
-
gibt es eine konzertierte Anstrengung,
-
um andere öffentlich
zugängliche Quellen zu finden,
-
vielleicht alle Daten,
-
und eine Art Vorfilter,
um sie so zu organisieren,
-
dass sie von Leuten beim Import
einfach überprüft werden können?
-
Es gibt also erste Bemühungen.
-
Nach meinem Verständnis
ist das Baskische eine dieser Bemühungen.
-
Vielleicht möchten Sie
etwas mehr darüber sagen?
-
(Person 14) [unhörbar]
-
Okay, die eigentliche Antwort ist,
dafür zu bezahlen...
-
Ich meine, wir haben eine Vereinbarung
mit einem Auftragnehmer,
-
mit dem wir normalerweise
zusammenarbeiten.
-
Sie machen Wörterbücher--
-
viele Dinge, aber sie machen Wörterbücher.
-
Also haben wir mit ihnen vereinbart,
-
das Studenten-Wörterbuch
kostenlos zu machen,
-
wir würden die häufigsten Wörter
auswählen und damit beginnen,
-
es mit einer externen Kennung
und dem Schema der Dinge hochzuladen.
-
Aber es gab einige Diskussionen darüber,
-
es auf CC0 zu belassen,
-
weil sie das Wörterbuch
bei CC dabei haben,
-
und sie verstanden,
was der Unterschied war.
-
Es gab also einige Diskussionen.
-
Aber ich denke, dass wir in Zukunft
einige Werkzeuge oder Beispiele
-
zur Verfügung stellen können,
-
und ich denke, dass es
andere Wörterbücher geben wird,
-
mit denen wir umgehen können,
-
und ich denke auch, dass Wiktionary
in diese Richtung gehen sollte,
-
aber das ist eine weitere
umfangreiche Diskussion.
-
Und darüber hinaus
-
steht Lea auch in Kontakt
mit Leuten aus Okzitan,
-
die an okzitanischen
Wörterbüchern arbeiten,
-
und sie arbeiten derzeit an einer
sumerischen Zusammenarbeit.
-
Noch weitere Fragen?
-
(Person 15) Hallo! Wir sind die Leute,
die okzitanische Daten importieren wollen.
-
(Lydia) Aha! Perfekt!
-
(Person 15) Und wir haben
ein kleines Problem.
-
Wir wissen nicht, wie wir die Vielfalt
aller Lexeme darstellen können.
-
Wir haben sechs Dialekte,
-
und wir wollen für Lexeme angeben,
in welchem Dialekt es verwendet wird,
-
und wir haben keine richtige
C0-Anweisung, um das zu tun.
-
Solange das Segment also nicht existiert,
-
verhindert es, dass wir es
[unhörbar] machen,
-
weil wir es noch einmal machen müssen,
-
wenn wir die Anweisung exportieren können.
-
Und es ist kompliziert,
weil es eine Aussage ist,
-
die nicht von vielen Leuten gefragt wird,
-
weil es eine Aussage ist, die vor allem
Minderheitensprachen betrifft.
-
Sie werden also eine Person haben,
die das fragen kann.
-
Aber wie unsere baskischen Kollegen
-
kann es eine Person sein,
die Tausende von anderen antreibt,
-
also es ist vielleicht
nicht sehr viel verlangt,
-
aber es wird für uns sehr wichtig sein.
-
(Lydia) Haben Sie bereits einen neuen
Eigenschaftenvorschlag
-
oder brauchen Sie Hilfe
bei dessen Erstellung?
-
(Person 15) Wir haben
vor vier Monaten danach gefragt.
-
(Lydia) Na gut, dann holen wir uns
ein paar Leute,
-
die uns bei diesem
Eigenschaftenvorschlag helfen.
-
Ich bin sicher, es sind genug Leute
in diesem Raum, um dies zu ermöglichen.
-
(Person 15) Eigenschaftenvorschlag
[spricht Französisch].
-
Wir bekamen keine Antwort
und wissen nicht,
-
wie wir das machen sollen,
-
weil wir nicht in der
Wikidata-Community sind.
-
(Lydia) Ja, also gibt es hier Leute,
die Ihnen helfen können.
-
Vielleicht hebt jemand die Hand, um--
-
(Person 14) Nicht dafür.
-
Aber ich denke,
das ist ziemlich interessant,
-
dass nur die Variante der Form
-
auch geographisch, mit Koordinaten
-
oder einer Art von Kartierung,
damit umgehen kann.
-
Auch unterschiedliche
Aussprachen zu haben,
-
und ich denke, das ist etwas,
das in vielen Sprachen geschieht.
-
Wir sollten damit anfangen.
-
Und ich werde nach der Eigenschaft suchen.
-
(Lydia) Cool.
-
Sie erhalten also Unterstützung
für Ihren Eigenschaftenvorschlag.
-
Ich danke Ihnen.
-
In Ordnung, noch Fragen?
-
Finn.
-
Finn ist einer dieser Leute,
-
die auf lexikografischen Daten aufbauen.
-
(Finn) Es ist nur eine kleine Frage,
-
und es geht um Variationen
in der Rechtschreibung.
-
Es scheint, schwierig zu sein, sie in...
-
Man könnte natürlich mehrere Formen
für dasselbe Wort haben.
-
Ich weiß nicht, es scheint...
-
Wenn man es nicht so macht, scheint es,
schwierig zu sein, es zu spezifizieren...
-
oder ich weiß nicht,
-
ob es sich nur um eine kleine
technische Frage handelt oder ob...
-
(Lydia) Betrachten wir es gemeinsam.
-
Ich würde gerne ein Beispiel sehen.
-
Asaf.
-
(Asaf) Vielen Dank.
-
Ich kann ein sehr konkretes Beispiel aus
meiner Muttersprache, Hebräisch, nennen.
-
Im Hebräischen gibt es
zwei Hauptvarianten,
-
um fast jedes Wort auszudrücken,
-
weil die traditionelle Schreibweise
-
viele Vokale auslässt.
-
Und deshalb werden in modernen Ausgaben
der Bibel und der Poesie
-
diakritische Zeichen verwendet.
-
Diese diakritischen Zeichen werden
jedoch nie für moderne Prosa,
-
Zeitungstexte
oder Straßenschilder verwendet.
-
Der durchschnittliche tägliche Gebrauch
legt also zusätzliche Vokale hinein
-
und verwendet
die diakritischen Zeichen nicht,
-
weil sie natürlich umständlicher sind
-
und alle möglichen Regeln haben
und niemand die Regeln kennt.
-
Es gibt also grundsätzlich zwei Varianten.
-
Es gibt die alltägliche,
beiläufige Prosa-Variante,
-
und es gibt die Bibel oder die Poesie,
-
die immer in diesem traditionellen
diakritischierten Text vorkommen.
-
Um nützlich zu sein,
-
müsste Lexeme sowohl Varianten
jedes einzelnen Wortes
-
als auch jede einzelne Form
jedes einzelnen Wortes erkennen.
-
Das ist also ein sehr
umfassender Anwendungsfall
-
für offizielle stabile Varianten.
-
Es ist kein Dialekt,
es sind keine Regionen,
-
es sind im Grunde zwei nebeneinander
existierende morphologische Systeme.
-
Und auch ich weiß nicht genau,
-
wie ich das momentan
in Lexeme ausdrücken soll.
-
Das ist eine Sache, die mich--
als Teilantwort auf Magnus' Frage--
-
davon abhält, die Teile hochzuladen,
-
die aus dem größten hebräischen
Wörterbuch, das öffentlich zugänglich ist
-
und das ich seit einigen Jahren
digitalisiere, stammen.
-
Ein guter Teil davon ist fertig,
-
aber ich stelle es jetzt nicht auf Lexeme,
-
weil ich nicht genau weiß,
wie ich dieses Problem lösen soll.
-
(Lydia) In Ordnung,
lösen wir das Problem hier. (lacht)
-
Das muss doch möglich sein.
-
In Ordnung, noch Fragen?
-
Wenn nicht,
dann danke ich Ihnen vielmals.
-
(Beifall)