-
Derzeit gibt es ungefähr 7500 Sprachen,
-
die auf dem Planeten gesprochen werden.
-
Von diesen sind schätzungsweise
-
etwa 70 Prozent in Gefahr,
-
nicht das Ende des 21. Jahrhunderts
zu überleben.
-
Jedes Mal, wenn eine Sprache stirbt,
-
zerstört es eine Verbindung,
-
die seit Hunderten
bis Tausenden von Jahren andauerte,
-
zur Kultur, zur Geschichte,
-
und zu Traditionen und Wissen.
-
Der Linguist Kenneth Hale sagte einmal,
-
dass jedes Mal, wenn eine Sprache stirbt,
-
ist wie eine Atombombe
auf den Louvre fallen zu lassen.
-
Die Frage ist also,
-
warum sterben Sprachen?
-
Nun, die einfache Antwort
könnte vielleicht lauten,
-
dass man sich vorstellen kann,
dass autoritäre Regierungen
-
Menschen am Sprechen
ihrer Muttersprache hindern,
-
Kinder werden für das Sprechen
ihrer Sprache in der Schule bestraft,
-
oder die Regierung schaltet Radiosender
-
in der Minderheitensprache ab.
-
Und das ist definitiv
in der Vergangenheit geschehen,
-
und bis zu einem gewissen Grad
geschieht das heute immer noch.
-
Aber die wirkliche Antwort ist,
-
dass es für die große Mehrheit der Fälle,
wo Sprachen aussterben,
-
eine viel einfachere und
leichter zu erklärende Antwort gibt.
-
Die Sprachen sterben aus, weil sie nicht
-
von einer Generation zur nächsten
weitergegeben werden.
-
Jedes Mal, wenn eine Person,
die eine Minderheitensprache spricht,
-
ein Kind hat, macht sie eine Rechnung auf.
-
Sie fragen sich,
-
"Gebe ich meine Sprache
an mein Kind weiter,
-
oder unterrichte ich stattdessen
nur die Mehrheitssprache"?
-
Im Wesentlichen ist es eine Waage,
-
auf die sie in ihrem Kopf zugreifen,
-
auf der einen Seite
-
jedes einzelne Mal in ihrem Leben,
-
wo sie Gelegenheit hatten,
ihre Muttersprache zu verwenden,
-
zur Kommunikation,
Zugang zu traditioneller Kultur,
-
wird ein Stein
auf der linken Seite platziert.
-
Und jedes Mal, wenn sie
nicht in der Lage sind,
-
ihre Muttersprache zu nutzen,
-
und sich auf die Mehrheitssprache
verlassen müssen,
-
wird ein Stein
auf der rechten Seite platziert.
-
Nun, aufgrund der Stärke und der Würde,
-
seine Muttersprache sprechen zu können,
-
wiegen die Steine auf der linken Seite
etwas schwerer.
-
Aber mit genügend Steinen
auf der rechten Seite,
-
kippt dann schließlich die Waage,
-
und dann, wenn eine Person
die Entscheidung trifft,
-
ihre Sprache weiterzugeben,
-
sehen sie ihre eigene Sprache
-
mehr als Last denn als Segen.
-
Die Frage ist also,
wie können wir das rückgängig machen?
-
Zunächst müssen wir
über die Tatsache nachdenken,
-
dass es für jede beliebige Sprache
-
bestimmte soziale Bereiche gibt,
in denen sie verwendet werden können.
-
Also, jede Sprache, die heute
als Muttersprache gesprochen wird,
-
kann in der eigenen Familie
verwendet werden.
-
Eine kleinere Zahl von Sprachen wird
innerhalb der Gemeinschaft verwendet,
-
eine kleinere Gruppe
vielleicht in der eigenen Region
-
und eine kleine Handvoll von Sprachen
-
kann für die internationale Kommunikation
verwendet werden.
-
Und dann sogar über diese Bereiche hinaus,
-
stellt sich die Frage,
ob jemand ihre Sprache
-
für Bildung oder Wirtschaft
oder Technik nutzen kann?
-
Um also besser zu erklären,
-
wovon ich hier spreche,
-
möchte ich eine Anekdote verwenden.
-
Nehmen wir an, dass Sie im Begriff sind,
-
Ihren Traumurlaub in Indien anzutreten,
-
und Sie haben einen achtstündigen
Zwischenstopp in Istanbul.
-
Nun, Sie haben nicht unbedingt
einen Besuch der Türkei geplant,
-
aber mit dem Zwischenstopp
und mit einem türkischen Freund,
-
der von einem tollen Restaurant nicht
weit vom Flughafen erzählt hat,
-
denkt man: "Hey, vielleicht schaue
ich während meines Aufenthalts vorbei."
-
Sie verlassen also den Flughafen,
-
kommen in Ihr Restaurant,
-
und sie geben Ihnen eine Speisekarte,
-
und die Speisekarte ist
vollständig auf Türkisch.
-
Nun, sagen wir mal,
für den Zweck dieser Übung,
-
dass Sie kein Türkisch sprechen.
-
Was machen Sie?
-
Nun, im besten Fall,
-
finden Sie vielleicht jemanden
der Ihre Muttersprache spricht,
-
Deutsch, Englisch et cetera.
-
Aber sagen wir, es ist nicht Ihr Glückstag
-
und niemand im Restaurant kann
Deutsch oder Englisch sprechen.
-
Was tun Sie also?
-
Nun, wenn Sie so wie ich sind,
und ich denke, die meisten von Ihnen,
-
nutzen Sie wahrscheinlich
eine technologische Lösung,
-
maschinelle Übersetzung
oder ein digitales Wörterbuch,
-
schlagen jedes Wort einzeln nach,
-
und können sich schließlich
ein köstliches türkisches Essen bestellen.
-
Stellen wir uns nun stattdessen
dieses Szenario vor,
-
in dem Sie der Muttersprachler
einer Minderheitensprache sind.
-
Sagen wir, Niedersorbisch.
-
Niedersorbisch
ist eine gefährdete Sprache,
-
wird hier in Deutschland gesprochen,
-
etwa 130 Kilometer südöstlich von hier,
-
nur von ein paar tausend Menschen,
meist ältere Menschen.
-
Nun, sagen wir, Ihre Muttersprache
ist Niedersorbisch.
-
Sie landen im Restaurant.
-
Die Chance, jemanden
im Restaurant zu finden,
-
der Ihre Muttersprache spricht,
ist außergewöhnlich niedrig.
-
Aber, noch einmal, Sie können einfach
zu einer technologischen Lösung greifen.
-
Allerdings für Ihre Muttersprache
-
existieren diese technologischen
Lösungen nicht.
-
Sie müssten sich
auf Deutsch oder Englisch
-
als Brücke ins Türkisch verlassen.
-
Sie bekommen am Ende natürlich immer
noch Ihr köstliches türkisches Essen,
-
aber beginnen nachzudenken,
wie schwierig dies gewesen wäre,
-
wenn Sie wie Ihr Großvater wären,
der überhaupt kein Deutsch sprach.
-
Dies ist nur ein kleiner Zwischenfall,
-
aber es wird einen Stein
auf der rechten Seite dieser Waage setzen
-
und Sie zum Nachdenken anregen,
-
vielleicht, wenn ich Kinder habe oder
vielleicht, wenn ich noch ein Kind habe,
-
die Last, die Sie auf sich genommen haben
-
ist es vielleicht nicht wert,
um Ihre Sprache zu behalten.
-
Und stellen Sie sich vor,
dies wäre ein Szenario,
-
das von wesentlich
größerer Bedeutung wäre,
-
wie zum Beispiel in einem Krankenhaus.
-
Nun, das ist der Punkt,
bei dem wir helfen können –
-
Mit "wir" meine ich, Sie und ich,
in diesem Raum können helfen.
-
Wir haben die Werkzeuge,
um dabei helfen zu können.
-
Wenn technologische Werkzeuge
für Menschen verfügbar sind,
-
die eine Minderheits- und
unterrepräsentierte Sprachen sprechen,
-
legt es einen kleinen Finger auf die
Waage, auf der linken Seite der Waage.
-
Jemand muss nicht unbedingt glauben,
-
sich auf eine Minderheitensprache
verlassen müssen,
-
um mit der Außenwelt zu interagieren,
-
weil es die sozialen Bereiche
-
ein bisschen mehr öffnet.
-
Also, natürlich die ideale Lösung ist,
-
maschinelle Übersetzung
in jeder Sprache der Welt zu haben.
-
Leider ist das aber
einfach nicht machbar.
-
Maschinelle Übersetzung
erfordert große Textkorpora,
-
und für viele dieser Sprachen,
-
die gefährdet oder
unterrepräsentiert sind,
-
sind solche Daten einfach nicht verfügbar.
-
Einige von ihnen sind
nicht einmal üblich geschrieben
-
und damit genügend Daten für eine
maschinelle Übersetzung zu erhalten,
-
ist unwahrscheinlich.
-
Aber was verfügbar ist,
sind lexikalische Daten.
-
Durch die Arbeit
vieler Sprachwissenschaftler
-
in den letzten paar hundert Jahren,
-
wurden Wörterbücher und Grammatiken
-
für die meisten Sprachen
der Welt produziert.
-
Leider sind aber die meisten dieser Werke
-
nicht zugänglich oder stehen
der Welt nicht zur Verfügung,
-
ganz zu schweigen von den Sprechern
dieser Minderheitensprachen.
-
Und es ist kein absichtlicher Prozess.
-
Oftmals ist es einfach so, dass
-
die anfängliche Druckauflage
dieser Wörterbücher klein war,
-
und die einzigen Kopien
-
verkümmern irgendwo
in einer Universitätsbibliothek.
-
Aber wir haben die Möglichkeit,
diese Daten der Welt zugänglich machen.
-
Die Wikimedia-Stiftung
ist eine der besten Organisationen,
-
ich würde sagen,
die beste Organisation in der Welt,
-
um Daten für die große Mehrheit
der Bevölkerung dieses Planeten
-
bereitzustellen.
-
Lassen Sie uns also daran arbeiten.
-
Also, um das ein wenig zu erklären,
-
was wir in dieser Hinsicht getan haben,
-
möchte ich Ihnen
meine Organisation, PanLex vorstellen,
-
die versucht, lexikalische Daten
zu diesem Zweck zu sammeln.
-
Wir haben vor etwa 12 Jahren begonnen,
-
als Forschungsprojekt
an der Universität von Washington.
-
Die Idee dahinter
-
war es, zu zeigen,
dass abgeleitete Übersetzungen
-
ein effektives Übersetzungsinstrument
schaffen können,
-
ein lexikalisches Übersetzungsinstrument.
-
Dies ist ein Beispiel
aus den PanLex-Daten.
-
Hier wird gezeigt, wie man
-
das Wort "ev" im Türkischen,
das heißt Haus, übersetzen kann,
-
nach Niedersorbisch,
-
die Sprache, die ich vorhin erwähnte.
-
Es ist also unwahrscheinlich,
-
ein Wörterbuch für Türkisch
nach Niedersorbisch zu finden,
-
aber durch das Durchlaufen
-
vieler, vieler verschiedener
Zwischensprachen,
-
können Sie effektive Übersetzungen
erstellen.
-
Sobald die Forschungsprojekte
das nachweisen konnten,
-
entschied Dr. Jonathan Pool,
der Gründer von PanLex,
-
"Nun, warum machen wir das nicht einfach?"
-
Er gründete
eine gemeinnützige Gesellschaft,
-
um lexikalische Daten zu sammeln
-
und zugänglich zu machen.
-
Das haben wir
in den letzten 12 Jahren getan.
-
In dieser Zeit haben wir Tausende und
Abertausende von Wörterbüchern gesammelt
-
und haben lexikalische Daten extrahiert,
-
und eine Datenbank zusammengestellt,
die es ermöglicht,
-
abgeleitete lexikalische Übersetzung
über alle der...
-
Unsere derzeitige Zahl
liegt bei etwa 5500
-
der 7500 Sprachen in der Welt.
-
Und natürlich versuchen
wir ständig, das zu erweitern
-
und die Daten jeder einzelnen Sprache
zu erweitern.
-
Die nächste Frage lautet also,
-
was können wir tun,
um gemeinsam daran zu arbeiten?
-
Wir bei PanLex sind extrem begeistert,
-
die Entwicklung bei lexikalischen Daten
zu sehen,
-
an denen Wikidata
in letzter Zeit gearbeitet hat.
-
Es ist sehr faszinierend,
Organisationen zu sehen,
-
die in einem sehr ähnlichen Bereich
arbeiten,
-
aber in verschiedenen Aspekten.
-
Und wir sind sehr gespannt
-
auf die Ergebnisse aus Wikidata.
-
Und auch wir freuen uns über
die Zusammenarbeit mit Wikidata.
-
Ich denke, dass die
besonderen Fähigkeiten,
-
die wir in den letzten 12 Jahren
entwickelt haben,
-
nicht nur in der Sammlung
von lexikalischen Daten,
-
sondern auch im Datenbankdesign,
-
was für Wikidata äußerst
nützlich sein könnte.
-
Und auf der anderen Seite
denke ich, dass –
-
Ich bin besonders gespannt
-
auf Wikidatas Fähigkeit,
Crowdsourcing von Daten durchzuführen.
-
Bei PanLex sind unsere Quellen
derzeit vollständig
-
gedruckte lexikalische Quellen oder
andere Arten von lexikalischen Quellen,
-
aber wir machen kein Crowdsourcing.
-
Wir haben einfach nicht
die Infrastruktur dafür
-
und natürlich ist die Wikimedia Foundation
-
der weltweite Experte für Crowdsourcing.
-
Ich freue mich darauf, genau zu sehen,
-
wie wir diese Fähigkeiten
gemeinsam anwenden können.
-
Aber insgesamt denke ich,
dass die Hauptsache ist,
-
wenn wir an diesen Dingen arbeiten,
-
es ist ein winziges Detail.
-
Wir beschäftigen uns
mit grammatikalischen Formen,
-
oder arbeiten uns durch Wörterbücher,
alte Wörterbücher,
-
oder manchmal kürzlich
veröffentlichte Wörterbücher
-
und beschäftigen uns
mit schriftlichen Wortformen,
-
und es fühlt sich sehr nah an.
-
Aber gelegentlich müssen wir daran denken,
einen Schritt zurückzutreten,
-
auch wenn das, was wir tun
-
sich manchmal sogar banal anfühlen kann,
-
aber die Arbeit, die wir tun,
ist äußerst wichtig.
-
Das ist meiner Meinung nach,
der absolut beste Weg,
-
wie wir gefährdete Sprachen
unterstützen können
-
und sicherstellen,
dass die sprachliche Vielfalt des Planeten
-
bis zum Ende dieses Jahrhunderts
oder länger bewahrt wird.
-
Es ist durchaus möglich,
dass die Arbeit, die wir heute tun,
-
darin resultieren kann,
-
dass Sprachen erhalten
und weitergegeben werden,
-
und nicht aussterben.
-
Also, nur zur Erinnerung,
-
wenn Sie an Ihrem Computer herumsitzen,
-
einen Eintrag bearbeiten,
-
und die Datenform
einer kleinen Minderheitensprache
-
für jedes einzelne Substantiv hinzufügen,
-
die kleine Sache, die Sie gerade machen,
-
könnte tatsächlich teilweise
dafür verantwortlich sein,
-
sicherzustellen, dass die Sprache
-
bis zum Ende des Jahrhunderts
oder länger überlebt.
-
Ich danke Ihnen sehr,
-
und ich möchte die Fragerunde eröffnen.
-
(Beifall)
-
(Person 1) Vielen Dank.
-
- Danke für Ihren Vortrag.
- (Yang) Ich danke Ihnen.
-
(Person 1) Ich habe eine Frage
zu den Wörterbüchern.
-
Sie sagten, dass Sie
mit gedruckten Wörterbüchern arbeiten?
-
- (Yang) Ja.
- (Person 1) Meine Frage ist,
-
was nehmen Sie aus diesen Wörterbüchern
-
und müssen Sie sich
mit dem Urheberrecht befassen?
-
(Yang) Ich habe erwartet, dass dies
die erste Frage ist, die ich bekomme.
-
(Gelächter)
-
Also, zunächst einmal für PanLex,
-
haben wir, gemäß unserer rechtlichen
Ressourcen, die wir konsultiert haben,
-
ist die Anordnung und Organisation
eines Wörterbuchs urheberrechtsfähig,
-
die Übersetzung selbst wird
nicht als urheberrechtsfähig angesehen.
-
Ein gutes Beispiel ist zum Beispiel
-
ein Telefonbuch, zumindest nach US-Recht,
-
ist urheberrechtsfähig.
-
Aber wenn man sagt,
-
dass die Telefonnummer
von Person X die Ziffer D ist,
-
ist das nicht urheberrechtsfähig.
-
Also, wie ich schon sagte,
-
laut unseren Rechtswissenschaftlern,
-
können wir so damit umgehen.
-
Aber selbst wenn das nicht
-
ein ausreichend solides
rechtliches Argument ist,
-
ist es wichtig,
-
dass die große Mehrheit dieser Daten
-
nicht urheberrechtlich geschützt ist.
-
Eine große Anzahl sind nicht mehr
urheberrechtlich geschützt
-
und kann somit verwendet werden.
-
Und die andere Sache ist,
dass zum Beispiel oft,
-
wenn wir mit ein kürzlich
erstellten gedruckten Wörterbuch,
-
anstatt es zu scannen
und mit OCR zu verarbeiten,
-
schicken wir der Person
einfach eine E-Mail.
-
Und es stellt sich heraus,
dass die meisten Linguisten
-
wirklich begeistert sind, dass ihre Daten
zugänglich gemacht werden können.
-
Und sie sagen: "Sicher, bitte,
-
stellen Sie einfach alles da rein,
und machen Sie es zugänglich".
-
Wie ich also sagte, haben wir,
zumindest nach unseren Rechtsgutachten,
-
die Fähigkeit, aber selbst
wenn Ihnen das nicht reicht,
-
ist es sehr leicht, diese Daten
öffentlich zugänglich zu machen.
-
- (Person 2) Vielen Dank. Hallo.
- (Yang) Hallo.
-
(Person 2) Können Sie
etwas mehr dazu sagen,
-
wie eine Person, die Niedersorbisch
spricht, auf die Daten zugreift?
-
Wie zum Beispiel speziell,
wie die Informationen zu ihnen gelangt,
-
und wie Sie dazu beitragen könnte,
sie zu überzeugen
-
um entweder die-–
-
(Yang) Großartige Frage,
und das ist eigentlich eine,
-
über die ich auch sehr viel nachdenke,
-
denn ich denke, wenn wir
über den Datenzugang sprechen,
-
gibt es tatsächlich mehrere Schritte.
-
Eine davon ist die Datenerhaltung,
dass die Daten nicht verschwinden.
-
Zweitens ist es sicherzustellen,
dass es interoperabel ist
-
und verwendet werden kann.
-
Und drittens ist sicherzustellen,
dass es verfügbar ist.
-
Also im Fall von PanLex,
-
haben wir eine API,
die verwendet werden kann,
-
aber nicht von einem Endnutzer
verwendet werden kann.
-
Aber wir haben
auch Schnittstellen entwickelt.
-
Und zum Beispiel, wenn Sie
auf translate.panlex.org gehen,
-
können Sie Übersetzungen
in unserer Datenbank vornehmen.
-
Wenn Sie mit der API herumspielen wollen,
gehen Sie einfach auf Dev.panlex.org
-
und Sie können auf der API
eine Reihe von Dingen finden,
-
oder einfach api.panlex.org.
-
Aber es gibt auch
noch einen weiteren Schritt,
-
das heißt, wenn Sie alle Ihre Daten
vollständig zugänglich machen,
-
mit Werkzeugen, die sehr nützlich sind,
um darauf zugreifen zu können,
-
wenn Sie die Werkzeuge
nicht wirklich promoten,
-
dann werden die Leute
sie nicht benutzen können.
-
Und das ist ehrlich gesagt eine Art...
-
die Sache,
über die nicht genug geredet wird,
-
und ich habe keine gute Antwort darauf.
-
Wie stellen wir sicher, dass –
-
Zum Beispiel,
ich habe mich erst vor kurzem,
-
noch vor wenigen Jahren
mit Wikidata vertraut gemacht,
-
und es ist genau die Art von Dingen,
die mich interessieren.
-
Also, wie promoten wir uns
selbst gegenüber anderen?
-
Ich lasse das als offene Frage stehen.
-
Wie gesagt,
ich habe keine gute Antwort dafür.
-
Aber natürlich, um das zu tun,
-
müssen wir noch erste Schritte machen.
-
(Person 3) Wenn wir
maschinelle Übersetzung wollen,
-
brauchen wir nicht
ein Translation Memory?
-
Ich bin mir nicht sicher,
ob die einzelnen Wörter,
-
die wir in Wikidata eingestellt haben,
-
oder diese kurzen Sätze,
die wir in Wikidata eingestellt haben,
-
entweder als gewöhnliche Wikidata-Elemente
oder als Wikidata-Lexeme,
-
ausreichend sind,
um eine korrekte Übersetzung zu machen.
-
Wir brauchen ganze Sätze,
zum Beispiel, für –
-
(Yang) Ja, absolut.
-
(Person 3) Und woher bekommen
wir diese Datenstruktur?
-
Ich bin mir nicht sicher,
ob das derzeit der Fall ist,
-
Wikidata kann sehr gut
-
mit dem Problem
eines Übersetzungsspeichers umgehen,
-
translatewiki.net,
-
diese Lücke zu füllen...
-
Sollten wir etwas in dieser Hinsicht tun,
oder sollten wir-–
-
(Yang) Ja, und ich weiß,
Ihre Frage zu schätzen.
-
Ich habe das schon einmal angesprochen,
-
aber ich würde es gerne
noch einmal wiederholen.
-
Genau das ist der Grund, dass PanLex
mit lexikalischen Daten arbeitet
-
und warum ich mich
über lexikalische Daten freue,
-
im Gegensatz zu –
nicht im Gegensatz zu, sondern zusätzlich
-
zu maschinellen Übersetzungsmaschinen
-
und maschineller Übersetzung
im Allgemeinen.
-
Wie Sie sagten, maschinelle Übersetzung
erfordert eine bestimmte Art von Daten
-
und keine Daten sind verfügbar
für die meisten Sprachen der Welt.
-
Für die große Mehrheit
der Sprachen der Welt
-
ist es einfach nicht verfügbar.
-
Aber das heißt nicht,
dass wir aufgeben sollten.
-
Warum?
-
Wenn ich meine türkische Speisekarte
übersetzen müsste,
-
dann wird die lexikalische Übersetzung
-
wahrscheinlich ein außergewöhnlich
gutes Werkzeug dafür sein.
-
Nun, ich sage nicht, dass Sie
die lexikalische Übersetzung
-
zur perfekten Übersetzung
von Absätzen verwenden können,
-
Mit lexikalischer Übersetzung
meine ich Wort für Wort,
-
und Wort-zu-Wort-Übersetzung
kann äußerst nützlich sein,
-
Es ist lustig, darüber nachzudenken,
-
wir hatten nicht Zugang zu
guter maschineller Übersetzung.
-
Nicht jeder hatte Zugang dazu
bis vor kurzem.
-
Und wir kamen immer noch
mit Wörterbüchern aus,
-
und sie sind
eine unglaublich gute Ressource.
-
Und die Daten sind verfügbar,
warum sollte man sie nicht
-
für die Welt als Ganzes und die Sprecher
dieser Sprachen verfügbar machen?
-
(Person 4) Hallo, welche
Mechanismen haben Sie
-
wenn die Gemeinschaft selbst –
ich bin hier drüben.
-
- (Yang) Wo sind Sie? Okay
- (Person 4) Ja, Entschuldigung. (lacht)
-
wenn die Gemeinschaft selbst
-
keinen Teil ihrer Daten
in PanLex haben möchte?
-
(Yang) Großartige Frage.
-
Die Art und Weise, wie wir damit arbeiten,
-
ist, wenn ein Wörterbuch
veröffentlicht wird
-
und der Öffentlichkeit
zugänglich gemacht wird,
-
ist das ein guter Hinweis.
-
Als ob man es in einem
Geschäft kaufen könnte
-
oder in einer Universitätsbibliothek,
-
oder eine öffentliche Bibliothek,
zu der jeder Zugang hat.
-
Das ist ein guter Hinweis,
dass diese Entscheidung getroffen wurde.
-
(Person 4) [unhörbar]
-
(Person 5) Könnten Sie bitte
in das Mikrofon sprechen?
-
(Yang) Können Sie das noch einmal sagen?
-
(Person 4) Linguisten haben nicht
immer die Erlaubnis der Gesellschaft,
-
Dinge zu veröffentlichen,
-
sie veröffentlichen oft Dinge
ohne die Zustimmung der Gemeinschaft.
-
(Yang) Und das ist absolut wahr.
-
Ich würde sagen, das ist ein –
-
es kommt vor.
-
Ich würde sagen, es ist allgemein
eine kleine Zahl von Fällen,
-
meist in ganz Nordamerika,
-
obwohl manchmal auch
bei südamerikanischen Sprachen.
-
Es ist etwas,
dass wir berücksichtigen müssen.
-
Wenn wir zum Beispiel
eine Nachricht erhalten würden,
-
dass die Daten,
die in PanLex enthalten sind,
-
nicht für weite Welt
zugänglich sein sollte,
-
dann würden wir sie natürlich entfernen.
-
(Person 4) Gut.
-
(Yang) Das bedeutet natürlich nicht,
-
dass wir das Urheberrecht
unbedingt berücksichtigen,
-
aber wir werden die traditionellen
Gemeinschaften beachten,
-
und das ist der große Unterschied.
-
(Person 4) Ja, das meine ich damit.
-
(Yang) Das ist ein interessanter Punkt,
-
was heißt,
-
dass manchmal es eine
wirklich große Frage ist,
-
wer für eine Sprache spricht.
-
Ich hatte tatsächlich einige Erlebnisse
im amerikanischen Südwesten
-
bei der Arbeit mit einigen Gruppen,
-
die an Eingeborenen-Sprachen,
die Pueblo-Sprachen dort arbeiten.
-
Es gibt also ungefähr
-
sechs Pueblo-Sprachen,
je nachdem, wie Sie es unterscheiden,
-
die in diesem Gebiet gesprochen werden.
-
Aber sie sind in
18 verschiedenen Pueblos unterteilt,
-
und jedes hat
seine eigene Stammesregierung,
-
und jede Regierung
kann eine andere Meinung haben,
-
ob ihre Sprache für Außenstehende
zugänglich sein sollte oder nicht.
-
Wie zum Beispiel Zuni Pueblo,
-
ist das einzige Pueblo,
das die Sprache der Zuni spricht.
-
Man fragt sie einfach.
-
Und sie sind stolz darauf,
dass ihre Sprache überall sein wird,
-
Sie haben es auf den Straßenschildern,
es ist großartig.
-
Aber für einige der anderen Sprachen,
-
haben Sie vielleicht
eine Gruppe, die sagt,
-
"Wir wollen nicht unsere Sprache
für Außenstehende zugänglich machen".
-
Das benachbarte Pueblo
mit der gleichen Sprache sagt,
-
"Wir wollen wirklich unsere Sprache
für Außenstehende
-
durch diese technologischen Werkzeuge
zugänglich machen,
-
weil wir wollen, dass unsere Sprache
weiterexistiert".
-
Und es wirft eine wirklich
interessante ethische Frage auf.
-
Denn wenn Sie einfach sagen,
-
"Gut, ich lasse das, weil diese Gruppe
sagte, wir sollen das lassen" –
-
dann benachteiligen sie
die zweite Gruppe,
-
weil sie aktiv wollen,
dass Sie diese Dinge ausschließen.
-
Ich glaube nicht, dass dies eine Frage
mit einer einfacher Antwort ist.
-
Aber ich würde das zumindest
in Bezug auf PanLex sagen.
-
Und wir haben das tatsächlich
bisher noch nicht erlebt,
-
soweit ich weiß.
-
Nun, das könnte teilweise
daran liegen, dass...
-
Um auf seine Frage zurückzukommen,
-
müssten wir uns vielleicht
mehr promoten. (lacht)
-
Aber im Allgemeinen, soweit ich weiß,
-
ist das bisher noch nicht passiert.
-
Aber unser Plan dafür ist,
wenn eine Gemeinschaft sagt,
-
dass Sie nicht ihre Daten
in einer Datenbank haben will,
-
dann entfernen wir sie.
-
(Person 4) Wir müssen damit in Wikidata
und Wikipedia umgehen...
-
- (Yang) Haben Sie?
- (Person 4) ...in Kommentaren.
-
- (Yang) Echt?
- (Person 4) Es ist ein Problem.
-
(Yang) Ja, kann ich mir bei Kommentaren
für Fotos oder bestimmte Dinge vorstellen.
-
- (Person 4) Korrekt.
- (Yang) Ja.
-
(Person 6) Hallo, ich habe eine Frage
zum Crowdsourcing-Aspekt.
-
Was das Befragen
einer Gemeinschaft betrifft,
-
um Daten für einen Datensatz
zu kommentieren oder hinzuzufügen,
-
eines der Dinge,
dass ein wenig einschüchtert,
-
als Redakteur kann ich nur sehen,
welche Dinge fehlen.
-
Aber wenn ich Zeit damit verbringe
und eine Idee habe,
-
gibt es eine Liste von Gegenständen
mit hoher Priorität,
-
was, glaube ich, sehr motivierend ist.
-
Und ich war neugierig,
ob Sie ein System haben,
-
was im Wesentlichen so ist wie,
-
wir kennen die Lücken
in unseren eigenen Daten,
-
wir haben linguistische Beweise,
-
dass, wenn wir diese mit Anmerkungen
versehen, den größten Einfluss hätten.
-
Ich kann mir also vorstellen,
-
dass das Lexem für "Haus"
sehr wirkungsvoll wäre,
-
vielleicht kein Lexem für Daten
oder Ähnliches.
-
Aber ich war neugierig,
wenn Sie das hätten,
-
ob das verwendet werden könnte,
-
um diese Bemühungen
der Gemeinschaft voranzutreiben.
-
(Yang) Großartige Frage.
-
Also Wikidata hat eine ganze Menge –
-
Entschuldigung, PanLex hat
eine ganze Menge von Swadesh-Listen.
-
Wir haben offenbar die größte Sammlung
von Swadesh-Listen weltweit,
-
was interessant ist.
-
Eine Swadesh-Liste ist
-
im Wesentlichen eine regulierte Liste
lexikalischer Elemente,
-
die für die Analyse von Sprachen
verwendet werden können.
-
Sie enthalten wirklich grundlegende Sätze.
-
Es gibt also verschiedenen Arten
von Swadesh-Listen.
-
Aber es gibt 100 oder 213 Einheiten
-
und sie könnten Wörter wie "Haus"
und "Auge" und "Haut" enthalten,
-
und grundsätzlich allgemeine Wörter,
die Sie in jeder Sprache finden sollten.
-
Das ist also wirklich
ein guter Ausgangspunkt dafür,
-
dass diese Daten zur Verfügung stehen.
-
Nun, wie ich bereits erwähnt habe,
-
Crowdsourcing ist etwas,
was wir noch nicht tun
-
und wir sind wirklich begeistert,
das machen zu können.
-
Ich freue mich wirklich darauf,
mit Menschen hier darüber zu sprechen,
-
wie Crowdsourcing genutzt werden kann
-
und die Logistik dahinter,
-
und das sind die Art von Fragen,
die dabei auftauchen können.
-
Die Antwort, die ich Ihnen geben kann,
-
dass wir eine Prioritätenliste haben –
-
dass wir definitiv
eine Prioritätenliste haben,
-
wenn es darum geht,
welche Sprachen wir suchen.
-
Wir suchen also nach Sprachen,
die von technologischen Lösungen
-
derzeit nicht berücksichtigt werden,
was oft Minderheitensprachen sind,
-
oder in der Regel Minderheitensprachen,
-
und diese dann zu priorisieren.
-
Aber in Bezug
auf einzelne lexikalische Elemente,
-
wie wir im Allgemeinen
neue Daten erhalten,
-
ist im Wesentlichen durch die Aufnahme
eines ganzen Wörterbuchs.
-
Wir verlassen uns auf die Auswahl von
lexikalischen Elementen des Wörterbuchs,
-
anstatt zu sagen, wir suchen wirklich
das Wort für "Haus" in jeder Sprache.
-
Aber wenn es um Daten-Crowdsourcing geht,
werden wir so etwas brauchen.
-
Dies ist also eine Gelegenheit
für Forschung und Wachstum.
-
(Person 7) Hallo, ich bin Victor,
und das ist großartig.
-
Da Sie hier Folien haben,
-
können Sie ein bisschen
über den technischen Status reden,
-
ob Sie derzeit Daten-
oder Informationsfluss
-
zwischen Wikidata und PanLex haben.
-
Ist das derzeit bereits implementiert,
und wie gehen Sie mit Informationen um,
-
die zwischen PanLex und Wikidata
hin und her wandern,
-
oder in einer Feedbackschleife enden.
-
(Yang) Wir haben eigentlich derzeit
keine formelle Verbindungen zu Wikidata,
-
und das ist, wo ich wieder
-
wirklich gespannt auf die Gespräche
innerhalb dieser Konferenz bin.
-
Wir hatten einige Interaktionen
mit Wiktionary,
-
aber Wikidata passt, ehrlich gesagt,
besser zum dem, was wir suchen.
-
Direktes lexikalisches Material bedeutet,
-
dass wir sehr viel weniger Datenanalyse
und -extraktion machen müssen,
-
Und deshalb lautet die Antwort,
-
wir wissen es noch nicht,
aber wir wollen es.
-
(Person 7) Und wenn nicht,
was sind die Hindernisse?
-
Wie wir sehen können, unterstützt
Wikidata bereits mehrere Sprachen,
-
aber wenn ich translate.panlex.org,
nachschlage,
-
unterstützen Sie offenbar
viele, viele Varianten,
-
viel mehr als Wikidata.
-
Wie erkennen Sie, ob da eine Lücke
-
zwischen Übersetzung
oder lexikalische Übersetzung ist,
-
Anwendung versus Aufwand,
-
beim Versuch,
eine Wissensstruktur abzubilden.
-
(Yang) Mapping-Kenntnisse werden
sehr interessant sein.
-
Wir haben sehr interessante Diskussionen,
-
wie Wikidata ihre lexikalischen Daten
organisiert, Ihre lexikalischen Daten,
-
und wie wir unsere lexikalischen Daten
organisieren.
-
Und es gibt subtile Unterschiede
-
die eine Mapping-Strategie
erfordern würde,
-
von denen einige nicht notwendigerweise
automatisch sein müssten,
-
aber wir könnten vielleicht Techniken
dafür entwickeln.
-
Sie nannten das Beispiel
der Sprachvarianten.
-
Wir neigen dazu, sehr
"haarspalterisch" zu sein,
-
wenn es um Sprachvarianten geht.
-
Mit anderen Worten,
wenn wir eine Quelle erhalten,
-
die sagt, dass dies der
gesprochene Dialekt
-
auf der linken Seite des Flusses
in Papua-Neuguinea dieser Sprache ist,
-
und eine weitere Quelle, die sagt,
das ist auf der rechten Seite des Flusses,
-
betrachten wir sie als getrennte Sprachen.
-
Und wir machen dies, um im Wesentlichen
die meisten Daten erhalten zu können.
-
Das so abzubilden, wie Wikidata es macht –
-
Eigentlich würde ich
gerne Gespräche führen,
-
wie die Sprachen
-
auf Wikidata gekennzeichnet sind.
-
Auch hier gehen wir mit einer
sehr "haarspalterischen" Strategie vor.
-
Wir stützen uns weitgehend
auf ISO 6393-Codes,
-
der vom Ethnologen bereitgestellt wird,
-
und dann für jeden einzelnen Code
sind dann mehrere Varianten erlaubt,
-
entweder für Skript-Varianten oder
regionale Dialekte oder Soziolekte
-
und so weiter.
-
Nochmals, Gelegenheit
zur Diskussion und Arbeit.
-
(Person 8) Hallo, ich würde gerne wissen
wenn Sie eine OCR-Pipeline haben
-
und vor allem, weil wir versucht haben,
OCR bei Maya durchzuführen,
-
und keine Ergebnisse erhalten haben.
-
Es versteht nichts –
-
- (Yang) Oh, ja! (lacht)
- (Person 8) Und... ja.
-
Wenn also Ihre Pipelines verfügbar sind.
-
Und das andere ist einfach
eine ISO-Code-Überschneidung,
-
wenn man manchmal sagt,
-
"Oh, das ist eine Sprache,
und dies ist eine andere Sprache",
-
aber es gibt Quellen,
die andere Dinge sagen,
-
wie Sie bereits erwähnten,
neigen sie dazu, sich zu überschneiden.
-
Also, wie machen Sie hier weiter...? Ja.
-
(Yang) Ja, das ist eine absolut
fantastische Frage.
-
Gefällt mir wirklich.
-
Wir haben also keine formalisierte
OCR-Pipeline an sich;
-
wir tun es Quelle für Quelle.
-
Einer der Gründe dafür ist,
weil wir oft Quellen haben,
-
die nicht OCR-kompatibel sein müssen
und für einige dieser Sprachen
-
verfügbar sind, und wir
konzentrieren uns auf diese,
-
weil der Arbeitsaufwand geringsten ist.
-
Aber natürlich, wenn wir wirklich tief
in unsere Quellen eintauchen wollen,
-
die in Rückstand sind, müssen wir
starke OCR-Pipelines entwickeln.
-
Aber es gibt noch einen weiteren Aspekt,
den Sie erwähnten...
-
die Leute, die OCR-Engines
entwickelt haben,
-
ich denke, dass sie nicht wissen, wie
man sie unter Stress testen kann.
-
Wissen Sie, was Spaß macht?
-
Versuchen Sie mal OCR bei
einem Russisch-Tibetischen Wörterbuch.
-
Wie sich herausstellt,
ist es wirklich schwer...
-
Wir gaben auf und stellten jemanden ein,
der es einfach abtippt,
-
was durchaus machbar war.
-
Und tatsächlich stellt sich heraus,
-
dass diese erstaunliche russische Frau
gelernt hatte, Tibetisch zu lesen,
-
damit sie dies abtippen konnte,
was super cool war.
-
Ich denke, wenn Sie
mit lateinischen Schriften arbeiten,
-
dann denke ich, dass OCR-Lösungen
entwickelt werden können,
-
die robuster sind,
die mit mehrsprachigen Quellen
-
umgehen können und erwarten,
eine zufällige Vier zu erhalten,
-
wenn Sie sich mit Maya-Quellen
aus dem 16. Jahrhundert befassen,
-
Sie wissen schon, mit der Ziffer vier.
-
Aber es gibt einige Quellen,
-
die OCR wahrscheinlich
niemals schaffen wird
-
oder einen so immensen Arbeitsaufwand
erfordert,
-
dass wir das tatsächlich nur wenig nutzen.
-
Wir haben ein weiteres Projekt
bei PanLex laufen,
-
die gesamte traditionelle Literatur
von Bali zu transkribieren,
-
und wir haben festgestellt,
-
dass bei den handschriftlichen
balinesischen Manuskripten
-
keine Chance mit OCR gibt.
-
Wir haben also einen Haufen
der Balinesen, um sie abzutippen,
-
und es ist ein wirklich
cooles Kulturprojekt auf Bali,
-
und es ist in die Nachrichten
gekommen und so weiter.
-
Ich würde also sagen,
-
dass Sie sich nicht unbedingt
auf OCR verlassen müssen,
-
aber es gibt eine Menge.
-
Gute OCR-Lösungen zu haben wäre also gut.
-
Außerdem, wenn jemand hier sich
mit super-mehrsprachigen-OCRs beschäftigt,
-
bitte reden Sie mit mir.
-
(Person 9)
Vielen Dank für Ihre Präsentation.
-
Sie sprachen über die Integration
zwischen PanLex und Wikidata,
-
aber nicht über Einzelheiten.
-
Ich habe also Ihre Datenlizenz überprüft,
und sie steht unter CC0.
-
- (Yang) Ja.
- (Person 9) Das ist großartig.
-
Es gibt also zwei mögliche Wege,
-
dass wir entweder
die Daten importieren können
-
oder wir können mit etwas Ähnlichem
wie der Freebase-Methode weitermachen,
-
wo wir die vollständige Datenbank
aus der Freebase haben,
-
und importieren,
eine Verbindung herstellen,
-
einen externen Identifier
zur Freebase-Datenbank.
-
Wenn Sie da etwas vorhaben,
denken Sie da ähnlich?
-
Oder Sie wollen nur...
-
eine unabhängige Datenbank,
die mit Wikidata verknüpft werden kann?
-
(Yang) Ja, das ist eine großartige Frage
-
und eigentlich den Sachen
einen Schritt voraus,
-
über die ich bereits nachgedacht habe,
-
teilweise, weil, wie ich schon sagte,
-
die Zusammenarbeit der beiden Datenbanken
zu erreichen
-
ist ein Schritt in sich selbst.
-
Ich denke, der erste Schritt,
-
ist buchstäblich nur
unsere Fähigkeiten zusammenzulegen.
-
Wir haben eine Menge Erfahrung
mit Dingen umzugehen,
-
wie der Klassifizierungen
von Eigenschaften einzelner Lexeme,
-
die ich gerne teilen würde.
-
Aber die Verknüpfung der Datenbanken
selbst wäre wunderbar.
-
Ich bin zu 100 Prozent dafür.
-
Ich glaube, es würde den Weg
-
von Wikidata zu PanLex etwas vereinfachen,
-
vielleicht bin ich voreingenommen,
-
denn ich kann mir vorstellen,
wie das funktionieren könnte.
-
Ja, im Wesentlichen,
solange Wikidata einverstanden
-
mit all diesen Lizenzfragen ist,
oder wir eine Lösung finden,
-
dann halte ich das
für eine großartige Idee.
-
Wir müssten nur noch Wege
zur Verknüpfung der Daten selbst finden.
-
Eine Sache, die ich mir vorstellen kann,
dass Bearbeitungen von Wikidata
-
sofort in die PanLex-Datenbank
übertragen werden,
-
ohne dass man es immer
wieder einspielen muss.
-
Wikidata als Crowdsource-Schnittstelle
für PanLex zu nutzen,
-
wäre wirklich großartig.
-
Und dann die Möglichkeit, PanLex
zur sofortigen Übersetzung zu nutzen,
-
Übersetzungen über die lexikalischen
Elemente von Wikidata zu machen –
-
das wäre herrlich.
-
(Person 10) Das ist wie der
Auditing-Prozess dieses semantischen Webs,
-
um Löcher durch Schlussfolgerungen
zu schließen.
-
Wenn wir diese Art
von Übersetzung weiterdenken,
-
wie gehen Sie
mit semantischer Fehlanpassung um
-
und grammatikalischen Ungleichgewichten?
-
Wenn Sie zum Beispiel versuchen,
etwas auf Deutsch zu übersetzen,
-
können Sie einfach
mehrere Wörter zusammenfügen
-
und etwas Vernünftiges erreichen,
-
und auf der anderen Seite,
glaube ich, lese ich manchmal,
-
dass nicht jede Sprache
das gleiche granulare System
-
für Farben hat, zum Beispiel.
-
(Yang) Sagen Sie, alle verwenden
ein anderes System für Farben
-
oder sind sie gleich?
-
(Person 10) Ich denke, dass es vielleicht
-
nur um die Evolution der Sprache geht,
-
dass sie anfangs mit Schwarz
und Weiß anfingen und dann –
-
(Yang) Ja, die Farbhierarchie.
-
Eigentlich ist Farbhierarchie
eine gute Möglichkeit,
-
zu veranschaulichen,
wie das funktioniert, richtig?
-
Also, im Wesentlichen,
wenn Sie eine einzige Pivotsprache haben –
-
Es ist interessant, wenn Sie Papiere
über maschinelle Übersetzungen lesen,
-
denn oft sprechen sie über
eine hypothetische Pivotsprache,
-
sie sagen: "Es gibt eine Pivot-Sprache".
-
und dann lesen sie das Papier
und sagen: "Das ist Englisch."
-
Und was diese Form
der lexikalischen Übersetzung macht,
-
ist, es durch viele verschiedene
Zwischensprachen zu schicken,
-
das hat die Wirkung,
dass es mit einer Menge
-
semantischer Mehrdeutigkeit umgehen kann.
-
Denn solange Sie es
durch die Sprachen schicken,
-
die die gleichen, einigermaßen ähnlichen
semantische Grenzen bei einem Wort haben,
-
dann können Sie das Problem
-
der semantischen Mehrdeutigkeit
durch die Pivotsprache vermeiden.
-
Die Farbhierarchie als Beispiel,
-
wenn Sie eine Sprache nehmen,
die ein einziges Farbwort
-
für Grün und Blau
-
und es in Ihrer Single-Pivot-Sprache
und als Blau übersetzt wird,
-
und dann in eine andere Sprache,
die dabei verschiedene Unklarheiten hat,
-
dann haben Sie am Ende
semantische Zweideutigkeit.
-
Aber wenn Sie es durch
andere Sprachen laufen lassen,
-
die auch einzelne lexikalische Begriffe
für Grün und Blau haben,
-
dann wird diese semantische Spezifität
-
an die Zielsprache weitergereicht.
-
Was die Aspekte
der grammatikalischen Merkmale betrifft,
-
PanLex hat in seiner Geschichte
in erster Linie,
-
im Wesentlichen Lexeme gesammelt,
im Wesentlichen lexikalische Formen.
-
Und mit im Wesentlichen meine ich,
-
was auch immer Sie als Stichwort
für ein Wörterbuch bekommen.
-
Wir müssen uns also
derzeit nicht unbedingt
-
auf das Sammeln grammatikalischer
Variantenformen konzentrieren,
-
nicht schriftliche Daten et cetera
oder Vergangenheits- und Gegenwartsform.
-
Aber das ist etwas, das wir untersuchen.
-
Eine Sache, die immer zu beachten ist,
-
dass unser Fokus –
-
auf unterrepräsentierte und gefährdete
Minderheitensprachen liegt,
-
wollen wir sicherstellen,
dass etwas verfügbar ist,
-
bevor wir es perfekt machen.
-
Ein Satz, den ich absolut liebe,
-
ist "Lass Perfektion nicht
der Feind des Guten sein",
-
und das ist es, was wir vorhaben.
-
Aber wir sind super interessiert
an der Idee,
-
mit grammatikalischen Formen
umgehen zu können,
-
und darüber zu übersetzen,
-
wir haben Untersuchungen durchgeführt,
aber noch nicht vollständig umgesetzt.
-
(Person 11) Also,
von den etwa 7500 Sprachen,
-
ich nehme an, Sie verlassen
sich auf Wörterbücher,
-
die für uns geschrieben werden,
aber haben alle diese Sprachen
-
standardisierte schriftliche Formen
und wie gehen Sie damit um...?
-
(Yang) Das ist eine großartige Frage.
-
Im Wesentlichen, ja, viele dieser Sprachen
sind, wie jeder weiß, ungeschrieben.
-
Jedoch jede Sprache,
für die ein Wörterbuch erstellt wurde,
-
hat eine Art von Rechtschreibung,
-
und wir verlassen uns
auf die Rechtschreibung des Wörterbuchs.
-
Wir machen gelegentlich einige
leichte Korrekturen der Orthographie,
-
wenn wir garantieren können,
dass sie im Grunde verlustfrei ist.
-
Aber wir neigen dazu,
sie so weit wie möglich zu vermeiden.
-
Also, wir sind nicht im Geschäft
-
der Entwicklung
von Orthographien für Sprachen,
-
weil sie sich oft nicht entwickelt haben,
-
auch wenn sie nicht wirklich
weit veröffentlicht wurden.
-
Also, zum Beispiel,
-
für viele Sprachen,
die in Neuguinea gesprochen werden,
-
gibt es vielleicht keine gemeinsame
verwendete orthographische Form,
-
aber einige Linguisten
lassen sich etwas einfallen
-
und das ist ein guter erster Schritt.
-
Wir sammeln auch phonetische Formen
wenn sie in Wörterbüchern verfügbar sind,
-
und das ist also ein weiterer Weg dahin,
-
im Wesentlichen eine IPA-Darstellung
des Wortes, wenn das verfügbar ist.
-
Das kann also auch genutzt werden.
-
Aber wir verwenden das
nicht normalerweise als Pivot,
-
weil das gewisse Unklarheiten einführt.
-
(Person 12) Vielen Dank,
das ist vielleicht eine sehr dumme Frage,
-
aber sind das nur die Zwischensprachen,
mit denen Sie arbeiten?
-
(Yang) Oh, nein. Oh, nein.
-
(Person 12) In Ordnung, ich danke Ihnen.
-
(Yang) Ich bin froh, dass Sie das fragen.
-
Dies ist also eigentlich
ein Screenshot-Schnappschuss
-
von translate.panlex.org.
-
Wenn Sie eine Übersetzung machen,
-
gibt es auf der rechten Seite
eine Liste der Übersetzungen.
-
Sie klicken auf die Schaltfläche ...,
und erhalten Sie eine solche Grafik.
-
Und dies zeigt die Zwischensprachen,
die Top 20 nach Punktzahl.
-
Wie wir die Punktzahl erstellen,
ist jetzt nicht so wichtig –
-
nach der verwendeten Punktzahl.
-
Aber für die Übersetzung, verwenden
wir tatsächlich weit mehr als 20.
-
Warum ich die Obergrenze
bei 20 Prozent setze, liegt daran,
-
das ist eigentlich
wie eine Art Physiksimulation.
-
Sie können die Dinge bewegen
und sie wackeln.
-
Wenn Sie mehr als 20 haben,
wird Ihr Computer wirklich wütend.
-
Es ist also eher eine Demonstration, ja.
-
(Person 13) Leila,
von der Wikimedia Foundation.
-
Nur eine Anmerkung zu –
-
Sie erwähnten die Wikimedia Foundation
ein paar Mal in Ihrer Präsentation,
-
Ich wollte sagen, wenn Sie jede Art
von Dateneinspielung vornehmen wollen,
-
oder eine Zusammenarbeit mit Wikidata,
-
wäre vielleicht Wikimedia Deutschland
ein besserer Ort,
-
mit dem man diese Gespräche führen kann?
-
Weil Wikidata lebt innerhalb
von Wikimedia Deutschland
-
und das Team ist da,
-
und auch die Gemeinschaft
von Freiwilligen rund um Wikidata
-
wäre der perfekte Ort für ein Gespräch
-
über jede Art der Einspielung
-
oder PanLex näher an Wikidata zu bringen.
-
(Yang) Großartig, vielen Dank,
-
denn ehrlich gesagt,
bin ich nicht wirklich vertraut
-
mit all den Feinheiten der Architektur,
-
wie alle Projekte sich
aufeinander beziehen.
-
Nach dem Lachen zu urteilen,
ist es wohl kompliziert.
-
Aber, ja, also im Grunde genommen
würden wir mit demjenigen reden wollen,
-
der für Wikidata verantwortlich ist.
-
Also einfach,
um eine Platzierung vorzunehmen,
-
wer auch immer für Wikidata
verantwortlich ist, ist derjenige,
-
mit dem wir reden wollen,
-
und das sind alle Freiwilligen.
-
Haben Sie noch weitere Fragen?
-
Okay, nun, wenn jemand am Ende
darüber hinaus noch weitere Fragen hat,
-
oder über die ich gesprochen habe –
Details und Einzelheiten dieser Dinge,
-
bitte kommen Sie und reden mit mir,
-
und wenn Sie mit allem,
was lexikalisches Zeug beinhaltet,
-
allem, was mit gefährdeten
Minderheitensprachen
-
und unterrepräsentierten Sprachen
zu tun hat,
-
und auch Unicode, was ich auch tue.
-
Vielen Dank also, und dafür, dass Sie
mich als Sprecher eingeladen haben.
-
Ich hoffe, dass es Ihnen gefallen hat.
-
(Beifall)