cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

Edit subtitles

0:06 - 0:09

Derzeit gibt es ungefähr 7500 Sprachen,
0:09 - 0:11

die auf dem Planeten gesprochen werden.
0:12 - 0:14

Von diesen sind schätzungsweise
0:14 - 0:16

etwa 70 Prozent in Gefahr,
0:16 - 0:21

nicht das Ende des 21. Jahrhunderts
zu überleben.
0:22 - 0:24

Jedes Mal, wenn eine Sprache stirbt,
0:25 - 0:27

zerstört es eine Verbindung,
0:27 - 0:31

die seit Hunderten
bis Tausenden von Jahren andauerte,
0:31 - 0:35

zur Kultur, zur Geschichte,
0:35 - 0:38

und zu Traditionen und Wissen.
0:39 - 0:42

Der Linguist Kenneth Hale sagte einmal,
0:42 - 0:44

dass jedes Mal, wenn eine Sprache stirbt,
0:44 - 0:47

ist wie eine Atombombe
auf den Louvre fallen zu lassen.
0:49 - 0:52

Die Frage ist also,
0:53 - 0:55

warum sterben Sprachen?
0:56 - 1:00

Nun, die einfache Antwort
könnte vielleicht lauten,
1:00 - 1:03

dass man sich vorstellen kann,
dass autoritäre Regierungen
1:03 - 1:05

Menschen am Sprechen
ihrer Muttersprache hindern,
1:06 - 1:10

Kinder werden für das Sprechen
ihrer Sprache in der Schule bestraft,
1:10 - 1:13

oder die Regierung schaltet Radiosender
1:13 - 1:15

in der Minderheitensprache ab.
1:15 - 1:17

Und das ist definitiv
in der Vergangenheit geschehen,
1:17 - 1:20

und bis zu einem gewissen Grad
geschieht das heute immer noch.
1:20 - 1:23

Aber die wirkliche Antwort ist,
1:23 - 1:27

dass es für die große Mehrheit der Fälle,
wo Sprachen aussterben,
1:27 - 1:31

eine viel einfachere und
leichter zu erklärende Antwort gibt.
1:34 - 1:37

Die Sprachen sterben aus, weil sie nicht
1:37 - 1:40

von einer Generation zur nächsten
weitergegeben werden.
1:42 - 1:45

Jedes Mal, wenn eine Person,
die eine Minderheitensprache spricht,
1:45 - 1:50

ein Kind hat, macht sie eine Rechnung auf.
1:51 - 1:53

Sie fragen sich,
1:54 - 1:56

"Gebe ich meine Sprache
an mein Kind weiter,
1:57 - 2:01

oder unterrichte ich stattdessen
nur die Mehrheitssprache"?
2:01 - 2:03

Im Wesentlichen ist es eine Waage,
2:04 - 2:06

auf die sie in ihrem Kopf zugreifen,
2:07 - 2:08

auf der einen Seite
2:10 - 2:12

jedes einzelne Mal in ihrem Leben,
2:12 - 2:14

wo sie Gelegenheit hatten,
ihre Muttersprache zu verwenden,
2:15 - 2:18

zur Kommunikation,
Zugang zu traditioneller Kultur,
2:20 - 2:22

wird ein Stein
auf der linken Seite platziert.
2:22 - 2:24

Und jedes Mal, wenn sie
nicht in der Lage sind,
2:24 - 2:26

ihre Muttersprache zu nutzen,
2:26 - 2:28

und sich auf die Mehrheitssprache
verlassen müssen,
2:28 - 2:30

wird ein Stein
auf der rechten Seite platziert.
2:32 - 2:35

Nun, aufgrund der Stärke und der Würde,
2:35 - 2:37

seine Muttersprache sprechen zu können,
2:37 - 2:39

wiegen die Steine auf der linken Seite
etwas schwerer.
2:39 - 2:42

Aber mit genügend Steinen
auf der rechten Seite,
2:43 - 2:45

kippt dann schließlich die Waage,
2:45 - 2:47

und dann, wenn eine Person
die Entscheidung trifft,
2:47 - 2:49

ihre Sprache weiterzugeben,
2:49 - 2:51

sehen sie ihre eigene Sprache
2:51 - 2:53

mehr als Last denn als Segen.
2:55 - 2:59

Die Frage ist also,
wie können wir das rückgängig machen?
2:59 - 3:02

Zunächst müssen wir
über die Tatsache nachdenken,
3:04 - 3:05

dass es für jede beliebige Sprache
3:05 - 3:08

bestimmte soziale Bereiche gibt,
in denen sie verwendet werden können.
3:08 - 3:11

Also, jede Sprache, die heute
als Muttersprache gesprochen wird,
3:11 - 3:13

kann in der eigenen Familie
verwendet werden.
3:14 - 3:17

Eine kleinere Zahl von Sprachen wird
innerhalb der Gemeinschaft verwendet,
3:17 - 3:19

eine kleinere Gruppe
vielleicht in der eigenen Region
3:19 - 3:22

und eine kleine Handvoll von Sprachen
3:23 - 3:25

kann für die internationale Kommunikation
verwendet werden.
3:26 - 3:29

Und dann sogar über diese Bereiche hinaus,
3:29 - 3:32

stellt sich die Frage,
ob jemand ihre Sprache
3:32 - 3:37

für Bildung oder Wirtschaft
oder Technik nutzen kann?
3:39 - 3:42

Um also besser zu erklären,
3:43 - 3:45

wovon ich hier spreche,
3:45 - 3:46

möchte ich eine Anekdote verwenden.
3:48 - 3:50

Nehmen wir an, dass Sie im Begriff sind,
3:50 - 3:52

Ihren Traumurlaub in Indien anzutreten,
3:53 - 3:56

und Sie haben einen achtstündigen
Zwischenstopp in Istanbul.
3:57 - 4:01

Nun, Sie haben nicht unbedingt
einen Besuch der Türkei geplant,
4:01 - 4:04

aber mit dem Zwischenstopp
und mit einem türkischen Freund,
4:04 - 4:08

der von einem tollen Restaurant nicht
weit vom Flughafen erzählt hat,
4:08 - 4:11

denkt man: "Hey, vielleicht schaue
ich während meines Aufenthalts vorbei."
4:11 - 4:13

Sie verlassen also den Flughafen,
4:14 - 4:15

kommen in Ihr Restaurant,
4:15 - 4:17

und sie geben Ihnen eine Speisekarte,
4:17 - 4:19

und die Speisekarte ist
vollständig auf Türkisch.
4:20 - 4:23

Nun, sagen wir mal,
für den Zweck dieser Übung,
4:23 - 4:24

dass Sie kein Türkisch sprechen.
4:25 - 4:27

Was machen Sie?
4:28 - 4:30

Nun, im besten Fall,
4:30 - 4:32

finden Sie vielleicht jemanden
der Ihre Muttersprache spricht,
4:32 - 4:34

Deutsch, Englisch et cetera.
4:36 - 4:38

Aber sagen wir, es ist nicht Ihr Glückstag
4:38 - 4:41

und niemand im Restaurant kann
Deutsch oder Englisch sprechen.
4:42 - 4:43

Was tun Sie also?
4:43 - 4:46

Nun, wenn Sie so wie ich sind,
und ich denke, die meisten von Ihnen,
4:46 - 4:48

nutzen Sie wahrscheinlich
eine technologische Lösung,
4:50 - 4:52

maschinelle Übersetzung
oder ein digitales Wörterbuch,
4:53 - 4:54

schlagen jedes Wort einzeln nach,
4:54 - 4:58

und können sich schließlich
ein köstliches türkisches Essen bestellen.
5:00 - 5:03

Stellen wir uns nun stattdessen
dieses Szenario vor,
5:04 - 5:06

in dem Sie der Muttersprachler
einer Minderheitensprache sind.
5:07 - 5:09

Sagen wir, Niedersorbisch.
5:09 - 5:11

Niedersorbisch
ist eine gefährdete Sprache,
5:11 - 5:13

wird hier in Deutschland gesprochen,
5:13 - 5:17

etwa 130 Kilometer südöstlich von hier,
5:18 - 5:21

nur von ein paar tausend Menschen,
meist ältere Menschen.
5:23 - 5:25

Nun, sagen wir, Ihre Muttersprache
ist Niedersorbisch.
5:25 - 5:27

Sie landen im Restaurant.
5:27 - 5:29

Die Chance, jemanden
im Restaurant zu finden,
5:29 - 5:31

der Ihre Muttersprache spricht,
ist außergewöhnlich niedrig.
5:32 - 5:36

Aber, noch einmal, Sie können einfach
zu einer technologischen Lösung greifen.
5:37 - 5:39

Allerdings für Ihre Muttersprache
5:39 - 5:42

existieren diese technologischen
Lösungen nicht.
5:42 - 5:45

Sie müssten sich
auf Deutsch oder Englisch
5:45 - 5:47

als Brücke ins Türkisch verlassen.
5:49 - 5:52

Sie bekommen am Ende natürlich immer
noch Ihr köstliches türkisches Essen,
5:52 - 5:55

aber beginnen nachzudenken,
wie schwierig dies gewesen wäre,
5:55 - 5:58

wenn Sie wie Ihr Großvater wären,
der überhaupt kein Deutsch sprach.
5:58 - 6:00

Dies ist nur ein kleiner Zwischenfall,
6:00 - 6:05

aber es wird einen Stein
auf der rechten Seite dieser Waage setzen
6:05 - 6:07

und Sie zum Nachdenken anregen,
6:07 - 6:10

vielleicht, wenn ich Kinder habe oder
vielleicht, wenn ich noch ein Kind habe,
6:11 - 6:15

die Last, die Sie auf sich genommen haben
6:15 - 6:17

ist es vielleicht nicht wert,
um Ihre Sprache zu behalten.
6:19 - 6:21

Und stellen Sie sich vor,
dies wäre ein Szenario,
6:21 - 6:26

das von wesentlich
größerer Bedeutung wäre,
6:26 - 6:28

wie zum Beispiel in einem Krankenhaus.
6:31 - 6:36

Nun, das ist der Punkt,
bei dem wir helfen können –
6:37 - 6:40

Mit "wir" meine ich, Sie und ich,
in diesem Raum können helfen.
6:41 - 6:43

Wir haben die Werkzeuge,
um dabei helfen zu können.
6:45 - 6:47

Wenn technologische Werkzeuge
für Menschen verfügbar sind,
6:47 - 6:50

die eine Minderheits- und
unterrepräsentierte Sprachen sprechen,
6:51 - 6:54

legt es einen kleinen Finger auf die
Waage, auf der linken Seite der Waage.
6:54 - 6:56

Jemand muss nicht unbedingt glauben,
6:56 - 6:58

sich auf eine Minderheitensprache
verlassen müssen,
6:58 - 6:59

um mit der Außenwelt zu interagieren,
7:00 - 7:05

weil es die sozialen Bereiche
7:05 - 7:06

ein bisschen mehr öffnet.
7:08 - 7:10

Also, natürlich die ideale Lösung ist,
7:10 - 7:13

maschinelle Übersetzung
in jeder Sprache der Welt zu haben.
7:13 - 7:17

Leider ist das aber
einfach nicht machbar.
7:17 - 7:20

Maschinelle Übersetzung
erfordert große Textkorpora,
7:20 - 7:21

und für viele dieser Sprachen,
7:21 - 7:23

die gefährdet oder
unterrepräsentiert sind,
7:23 - 7:25

sind solche Daten einfach nicht verfügbar.
7:26 - 7:28

Einige von ihnen sind
nicht einmal üblich geschrieben
7:29 - 7:33

und damit genügend Daten für eine
maschinelle Übersetzung zu erhalten,
7:33 - 7:34

ist unwahrscheinlich.
7:34 - 7:38

Aber was verfügbar ist,
sind lexikalische Daten.
7:40 - 7:43

Durch die Arbeit
vieler Sprachwissenschaftler
7:43 - 7:45

in den letzten paar hundert Jahren,
7:48 - 7:50

wurden Wörterbücher und Grammatiken
7:50 - 7:52

für die meisten Sprachen
der Welt produziert.
7:54 - 7:57

Leider sind aber die meisten dieser Werke
7:57 - 8:01

nicht zugänglich oder stehen
der Welt nicht zur Verfügung,
8:01 - 8:04

ganz zu schweigen von den Sprechern
dieser Minderheitensprachen.
8:05 - 8:06

Und es ist kein absichtlicher Prozess.
8:06 - 8:08

Oftmals ist es einfach so, dass
8:08 - 8:11

die anfängliche Druckauflage
dieser Wörterbücher klein war,
8:11 - 8:13

und die einzigen Kopien
8:13 - 8:16

verkümmern irgendwo
in einer Universitätsbibliothek.
8:18 - 8:23

Aber wir haben die Möglichkeit,
diese Daten der Welt zugänglich machen.
8:24 - 8:28

Die Wikimedia-Stiftung
ist eine der besten Organisationen,
8:28 - 8:31

ich würde sagen,
die beste Organisation in der Welt,
8:31 - 8:35

um Daten für die große Mehrheit
der Bevölkerung dieses Planeten
8:35 - 8:36

bereitzustellen.
8:39 - 8:40

Lassen Sie uns also daran arbeiten.
8:41 - 8:43

Also, um das ein wenig zu erklären,
8:43 - 8:45

was wir in dieser Hinsicht getan haben,
8:45 - 8:48

möchte ich Ihnen
meine Organisation, PanLex vorstellen,
8:49 - 8:54

die versucht, lexikalische Daten
zu diesem Zweck zu sammeln.
8:55 - 8:57

Wir haben vor etwa 12 Jahren begonnen,
8:57 - 9:00

als Forschungsprojekt
an der Universität von Washington.
9:00 - 9:01

Die Idee dahinter
9:01 - 9:04

war es, zu zeigen,
dass abgeleitete Übersetzungen
9:04 - 9:07

ein effektives Übersetzungsinstrument
schaffen können,
9:07 - 9:09

ein lexikalisches Übersetzungsinstrument.
9:09 - 9:12

Dies ist ein Beispiel
aus den PanLex-Daten.
9:13 - 9:14

Hier wird gezeigt, wie man
9:14 - 9:18

das Wort "ev" im Türkischen,
das heißt Haus, übersetzen kann,
9:18 - 9:20

nach Niedersorbisch,
9:20 - 9:21

die Sprache, die ich vorhin erwähnte.
9:21 - 9:23

Es ist also unwahrscheinlich,
9:24 - 9:26

ein Wörterbuch für Türkisch
nach Niedersorbisch zu finden,
9:26 - 9:28

aber durch das Durchlaufen
9:28 - 9:30

vieler, vieler verschiedener
Zwischensprachen,
9:30 - 9:33

können Sie effektive Übersetzungen
erstellen.
9:34 - 9:37

Sobald die Forschungsprojekte
das nachweisen konnten,
9:37 - 9:40

entschied Dr. Jonathan Pool,
der Gründer von PanLex,
9:41 - 9:44

"Nun, warum machen wir das nicht einfach?"
9:44 - 9:45

Er gründete
eine gemeinnützige Gesellschaft,
9:45 - 9:47

um lexikalische Daten zu sammeln
9:47 - 9:49

und zugänglich zu machen.
9:49 - 9:51

Das haben wir
in den letzten 12 Jahren getan.
9:51 - 9:55

In dieser Zeit haben wir Tausende und
Abertausende von Wörterbüchern gesammelt
9:55 - 9:56

und haben lexikalische Daten extrahiert,
9:56 - 9:59

und eine Datenbank zusammengestellt,
die es ermöglicht,
9:59 - 10:04

abgeleitete lexikalische Übersetzung
über alle der...
10:04 - 10:06

Unsere derzeitige Zahl
liegt bei etwa 5500
10:06 - 10:08

der 7500 Sprachen in der Welt.
10:09 - 10:12

Und natürlich versuchen
wir ständig, das zu erweitern
10:12 - 10:15

und die Daten jeder einzelnen Sprache
zu erweitern.
10:17 - 10:21

Die nächste Frage lautet also,
10:22 - 10:26

was können wir tun,
um gemeinsam daran zu arbeiten?
10:27 - 10:29

Wir bei PanLex sind extrem begeistert,
10:29 - 10:31

die Entwicklung bei lexikalischen Daten
zu sehen,
10:31 - 10:34

an denen Wikidata
in letzter Zeit gearbeitet hat.
10:35 - 10:38

Es ist sehr faszinierend,
Organisationen zu sehen,
10:38 - 10:39

die in einem sehr ähnlichen Bereich
arbeiten,
10:39 - 10:41

aber in verschiedenen Aspekten.
10:42 - 10:44

Und wir sind sehr gespannt
10:45 - 10:46

auf die Ergebnisse aus Wikidata.
10:46 - 10:51

Und auch wir freuen uns über
die Zusammenarbeit mit Wikidata.
10:54 - 10:56

Ich denke, dass die
besonderen Fähigkeiten,
10:56 - 10:58

die wir in den letzten 12 Jahren
entwickelt haben,
10:58 - 11:00

nicht nur in der Sammlung
von lexikalischen Daten,
11:00 - 11:02

sondern auch im Datenbankdesign,
11:02 - 11:04

was für Wikidata äußerst
nützlich sein könnte.
11:04 - 11:07

Und auf der anderen Seite
denke ich, dass –
11:08 - 11:11

Ich bin besonders gespannt
11:11 - 11:14

auf Wikidatas Fähigkeit,
Crowdsourcing von Daten durchzuführen.
11:15 - 11:18

Bei PanLex sind unsere Quellen
derzeit vollständig
11:18 - 11:21

gedruckte lexikalische Quellen oder
andere Arten von lexikalischen Quellen,
11:21 - 11:23

aber wir machen kein Crowdsourcing.
11:23 - 11:25

Wir haben einfach nicht
die Infrastruktur dafür
11:25 - 11:27

und natürlich ist die Wikimedia Foundation
11:27 - 11:29

der weltweite Experte für Crowdsourcing.
11:32 - 11:34

Ich freue mich darauf, genau zu sehen,
11:34 - 11:36

wie wir diese Fähigkeiten
gemeinsam anwenden können.
11:39 - 11:42

Aber insgesamt denke ich,
dass die Hauptsache ist,
11:42 - 11:43

wenn wir an diesen Dingen arbeiten,
11:43 - 11:45

es ist ein winziges Detail.
11:45 - 11:48

Wir beschäftigen uns
mit grammatikalischen Formen,
11:48 - 11:52

oder arbeiten uns durch Wörterbücher,
alte Wörterbücher,
11:52 - 11:54

oder manchmal kürzlich
veröffentlichte Wörterbücher
11:54 - 11:57

und beschäftigen uns
mit schriftlichen Wortformen,
11:57 - 12:00

und es fühlt sich sehr nah an.
12:00 - 12:03

Aber gelegentlich müssen wir daran denken,
einen Schritt zurückzutreten,
12:03 - 12:05

auch wenn das, was wir tun
12:06 - 12:09

sich manchmal sogar banal anfühlen kann,
12:10 - 12:12

aber die Arbeit, die wir tun,
ist äußerst wichtig.
12:13 - 12:16

Das ist meiner Meinung nach,
der absolut beste Weg,
12:16 - 12:19

wie wir gefährdete Sprachen
unterstützen können
12:19 - 12:21

und sicherstellen,
dass die sprachliche Vielfalt des Planeten
12:21 - 12:26

bis zum Ende dieses Jahrhunderts
oder länger bewahrt wird.
12:26 - 12:30

Es ist durchaus möglich,
dass die Arbeit, die wir heute tun,
12:30 - 12:32

darin resultieren kann,
12:32 - 12:35

dass Sprachen erhalten
und weitergegeben werden,
12:35 - 12:37

und nicht aussterben.
12:39 - 12:41

Also, nur zur Erinnerung,
12:41 - 12:43

wenn Sie an Ihrem Computer herumsitzen,
12:43 - 12:44

einen Eintrag bearbeiten,
12:44 - 12:50

und die Datenform
einer kleinen Minderheitensprache
12:50 - 12:52

für jedes einzelne Substantiv hinzufügen,
12:52 - 12:55

die kleine Sache, die Sie gerade machen,
12:55 - 12:58

könnte tatsächlich teilweise
dafür verantwortlich sein,
12:58 - 12:59

sicherzustellen, dass die Sprache
12:59 - 13:01

bis zum Ende des Jahrhunderts
oder länger überlebt.
13:03 - 13:04

Ich danke Ihnen sehr,
13:04 - 13:06

und ich möchte die Fragerunde eröffnen.
13:06 - 13:08

(Beifall)
13:24 - 13:25

(Person 1) Vielen Dank.
13:25 - 13:27

- Danke für Ihren Vortrag.
- (Yang) Ich danke Ihnen.
13:27 - 13:29

(Person 1) Ich habe eine Frage
zu den Wörterbüchern.
13:29 - 13:31

Sie sagten, dass Sie
mit gedruckten Wörterbüchern arbeiten?
13:31 - 13:33

- (Yang) Ja.
- (Person 1) Meine Frage ist,
13:33 - 13:35

was nehmen Sie aus diesen Wörterbüchern
13:35 - 13:38

und müssen Sie sich
mit dem Urheberrecht befassen?
13:38 - 13:41

(Yang) Ich habe erwartet, dass dies
die erste Frage ist, die ich bekomme.
13:41 - 13:43

(Gelächter)
13:43 - 13:46

Also, zunächst einmal für PanLex,
13:46 - 13:50

haben wir, gemäß unserer rechtlichen
Ressourcen, die wir konsultiert haben,
13:53 - 13:57

ist die Anordnung und Organisation
eines Wörterbuchs urheberrechtsfähig,
13:57 - 14:03

die Übersetzung selbst wird
nicht als urheberrechtsfähig angesehen.
14:04 - 14:06

Ein gutes Beispiel ist zum Beispiel
14:06 - 14:11

ein Telefonbuch, zumindest nach US-Recht,
14:11 - 14:12

ist urheberrechtsfähig.
14:12 - 14:13

Aber wenn man sagt,
14:13 - 14:17

dass die Telefonnummer
von Person X die Ziffer D ist,
14:17 - 14:18

ist das nicht urheberrechtsfähig.
14:22 - 14:23

Also, wie ich schon sagte,
14:23 - 14:25

laut unseren Rechtswissenschaftlern,
14:25 - 14:27

können wir so damit umgehen.
14:27 - 14:29

Aber selbst wenn das nicht
14:29 - 14:31

ein ausreichend solides
rechtliches Argument ist,
14:31 - 14:32

ist es wichtig,
14:32 - 14:36

dass die große Mehrheit dieser Daten
14:36 - 14:41

nicht urheberrechtlich geschützt ist.
14:41 - 14:43

Eine große Anzahl sind nicht mehr
urheberrechtlich geschützt
14:43 - 14:44

und kann somit verwendet werden.
14:44 - 14:47

Und die andere Sache ist,
dass zum Beispiel oft,
14:47 - 14:50

wenn wir mit ein kürzlich
erstellten gedruckten Wörterbuch,
14:50 - 14:52

anstatt es zu scannen
und mit OCR zu verarbeiten,
14:52 - 14:53

schicken wir der Person
einfach eine E-Mail.
14:53 - 14:56

Und es stellt sich heraus,
dass die meisten Linguisten
14:56 - 15:00

wirklich begeistert sind, dass ihre Daten
zugänglich gemacht werden können.
15:00 - 15:01

Und sie sagen: "Sicher, bitte,
15:01 - 15:04

stellen Sie einfach alles da rein,
und machen Sie es zugänglich".
15:06 - 15:08

Wie ich also sagte, haben wir,
zumindest nach unseren Rechtsgutachten,
15:08 - 15:11

die Fähigkeit, aber selbst
wenn Ihnen das nicht reicht,
15:11 - 15:16

ist es sehr leicht, diese Daten
öffentlich zugänglich zu machen.
15:26 - 15:28

- (Person 2) Vielen Dank. Hallo.
- (Yang) Hallo.
15:28 - 15:31

(Person 2) Können Sie
etwas mehr dazu sagen,
15:31 - 15:35

wie eine Person, die Niedersorbisch
spricht, auf die Daten zugreift?
15:35 - 15:38

Wie zum Beispiel speziell,
wie die Informationen zu ihnen gelangt,
15:38 - 15:41

und wie Sie dazu beitragen könnte,
sie zu überzeugen
15:41 - 15:42

um entweder die-–
15:42 - 15:45

(Yang) Großartige Frage,
und das ist eigentlich eine,
15:45 - 15:46

über die ich auch sehr viel nachdenke,
15:46 - 15:50

denn ich denke, wenn wir
über den Datenzugang sprechen,
15:50 - 15:53

gibt es tatsächlich mehrere Schritte.
15:53 - 15:56

Eine davon ist die Datenerhaltung,
dass die Daten nicht verschwinden.
15:56 - 15:59

Zweitens ist es sicherzustellen,
dass es interoperabel ist
15:59 - 16:02

und verwendet werden kann.
16:02 - 16:05

Und drittens ist sicherzustellen,
dass es verfügbar ist.
16:06 - 16:07

Also im Fall von PanLex,
16:07 - 16:10

haben wir eine API,
die verwendet werden kann,
16:10 - 16:12

aber nicht von einem Endnutzer
verwendet werden kann.
16:12 - 16:15

Aber wir haben
auch Schnittstellen entwickelt.
16:15 - 16:20

Und zum Beispiel, wenn Sie
auf translate.panlex.org gehen,
16:20 - 16:23

können Sie Übersetzungen
in unserer Datenbank vornehmen.
16:23 - 16:26

Wenn Sie mit der API herumspielen wollen,
gehen Sie einfach auf Dev.panlex.org
16:26 - 16:28

und Sie können auf der API
eine Reihe von Dingen finden,
16:28 - 16:29

oder einfach api.panlex.org.
16:31 - 16:33

Aber es gibt auch
noch einen weiteren Schritt,
16:33 - 16:37

das heißt, wenn Sie alle Ihre Daten
vollständig zugänglich machen,
16:37 - 16:41

mit Werkzeugen, die sehr nützlich sind,
um darauf zugreifen zu können,
16:41 - 16:43

wenn Sie die Werkzeuge
nicht wirklich promoten,
16:43 - 16:45

dann werden die Leute
sie nicht benutzen können.
16:45 - 16:47

Und das ist ehrlich gesagt eine Art...
16:49 - 16:51

die Sache,
über die nicht genug geredet wird,
16:51 - 16:53

und ich habe keine gute Antwort darauf.
16:53 - 16:55

Wie stellen wir sicher, dass –
16:55 - 16:57

Zum Beispiel,
ich habe mich erst vor kurzem,
16:57 - 17:00

noch vor wenigen Jahren
mit Wikidata vertraut gemacht,
17:00 - 17:02

und es ist genau die Art von Dingen,
die mich interessieren.
17:03 - 17:07

Also, wie promoten wir uns
selbst gegenüber anderen?
17:07 - 17:09

Ich lasse das als offene Frage stehen.
17:09 - 17:11

Wie gesagt,
ich habe keine gute Antwort dafür.
17:11 - 17:13

Aber natürlich, um das zu tun,
17:13 - 17:15

müssen wir noch erste Schritte machen.
17:22 - 17:25

(Person 3) Wenn wir
maschinelle Übersetzung wollen,
17:25 - 17:28

brauchen wir nicht
ein Translation Memory?
17:28 - 17:31

Ich bin mir nicht sicher,
ob die einzelnen Wörter,
17:31 - 17:33

die wir in Wikidata eingestellt haben,
17:33 - 17:37

oder diese kurzen Sätze,
die wir in Wikidata eingestellt haben,
17:37 - 17:41

entweder als gewöhnliche Wikidata-Elemente
oder als Wikidata-Lexeme,
17:41 - 17:44

ausreichend sind,
um eine korrekte Übersetzung zu machen.
17:44 - 17:47

Wir brauchen ganze Sätze,
zum Beispiel, für –
17:47 - 17:48

(Yang) Ja, absolut.
17:49 - 17:51

(Person 3) Und woher bekommen
wir diese Datenstruktur?
17:51 - 17:55

Ich bin mir nicht sicher,
ob das derzeit der Fall ist,
17:55 - 18:00

Wikidata kann sehr gut
18:00 - 18:03

mit dem Problem
eines Übersetzungsspeichers umgehen,
18:04 - 18:06

translatewiki.net,
18:06 - 18:09

diese Lücke zu füllen...
18:12 - 18:15

Sollten wir etwas in dieser Hinsicht tun,
oder sollten wir-–
18:15 - 18:17

(Yang) Ja, und ich weiß,
Ihre Frage zu schätzen.
18:17 - 18:19

Ich habe das schon einmal angesprochen,
18:19 - 18:21

aber ich würde es gerne
noch einmal wiederholen.
18:21 - 18:25

Genau das ist der Grund, dass PanLex
mit lexikalischen Daten arbeitet
18:25 - 18:27

und warum ich mich
über lexikalische Daten freue,
18:27 - 18:30

im Gegensatz zu –
nicht im Gegensatz zu, sondern zusätzlich
18:30 - 18:32

zu maschinellen Übersetzungsmaschinen
18:32 - 18:35

und maschineller Übersetzung
im Allgemeinen.
18:36 - 18:39

Wie Sie sagten, maschinelle Übersetzung
erfordert eine bestimmte Art von Daten
18:40 - 18:43

und keine Daten sind verfügbar
für die meisten Sprachen der Welt.
18:43 - 18:45

Für die große Mehrheit
der Sprachen der Welt
18:45 - 18:47

ist es einfach nicht verfügbar.
18:47 - 18:48

Aber das heißt nicht,
dass wir aufgeben sollten.
18:48 - 18:50

Warum?
18:51 - 18:54

Wenn ich meine türkische Speisekarte
übersetzen müsste,
18:55 - 18:56

dann wird die lexikalische Übersetzung
18:57 - 18:59

wahrscheinlich ein außergewöhnlich
gutes Werkzeug dafür sein.
18:59 - 19:02

Nun, ich sage nicht, dass Sie
die lexikalische Übersetzung
19:02 - 19:05

zur perfekten Übersetzung
von Absätzen verwenden können,
19:05 - 19:07

Mit lexikalischer Übersetzung
meine ich Wort für Wort,
19:07 - 19:10

und Wort-zu-Wort-Übersetzung
kann äußerst nützlich sein,
19:12 - 19:14

Es ist lustig, darüber nachzudenken,
19:14 - 19:17

wir hatten nicht Zugang zu
guter maschineller Übersetzung.
19:17 - 19:20

Nicht jeder hatte Zugang dazu
bis vor kurzem.
19:20 - 19:24

Und wir kamen immer noch
mit Wörterbüchern aus,
19:24 - 19:28

und sie sind
eine unglaublich gute Ressource.
19:28 - 19:31

Und die Daten sind verfügbar,
warum sollte man sie nicht
19:31 - 19:34

für die Welt als Ganzes und die Sprecher
dieser Sprachen verfügbar machen?
19:36 - 19:39

(Person 4) Hallo, welche
Mechanismen haben Sie
19:39 - 19:41

wenn die Gemeinschaft selbst –
ich bin hier drüben.
19:41 - 19:43

- (Yang) Wo sind Sie? Okay
- (Person 4) Ja, Entschuldigung. (lacht)
19:43 - 19:45

wenn die Gemeinschaft selbst
19:45 - 19:47

keinen Teil ihrer Daten
in PanLex haben möchte?
19:47 - 19:49

(Yang) Großartige Frage.
19:49 - 19:52

Die Art und Weise, wie wir damit arbeiten,
19:52 - 19:54

ist, wenn ein Wörterbuch
veröffentlicht wird
19:54 - 19:56

und der Öffentlichkeit
zugänglich gemacht wird,
19:56 - 19:58

ist das ein guter Hinweis.
19:58 - 20:00

Als ob man es in einem
Geschäft kaufen könnte
20:00 - 20:02

oder in einer Universitätsbibliothek,
20:02 - 20:05

oder eine öffentliche Bibliothek,
zu der jeder Zugang hat.
20:05 - 20:08

Das ist ein guter Hinweis,
dass diese Entscheidung getroffen wurde.
20:08 - 20:12

(Person 4) [unhörbar]
20:16 - 20:18

(Person 5) Könnten Sie bitte
in das Mikrofon sprechen?
20:19 - 20:20

(Yang) Können Sie das noch einmal sagen?
20:20 - 20:23

(Person 4) Linguisten haben nicht
immer die Erlaubnis der Gesellschaft,
20:23 - 20:24

Dinge zu veröffentlichen,
20:24 - 20:28

sie veröffentlichen oft Dinge
ohne die Zustimmung der Gemeinschaft.
20:28 - 20:30

(Yang) Und das ist absolut wahr.
20:30 - 20:33

Ich würde sagen, das ist ein –
20:33 - 20:34

es kommt vor.
20:34 - 20:37

Ich würde sagen, es ist allgemein
eine kleine Zahl von Fällen,
20:37 - 20:41

meist in ganz Nordamerika,
20:41 - 20:43

obwohl manchmal auch
bei südamerikanischen Sprachen.
20:45 - 20:46

Es ist etwas,
dass wir berücksichtigen müssen.
20:46 - 20:49

Wenn wir zum Beispiel
eine Nachricht erhalten würden,
20:49 - 20:52

dass die Daten,
die in PanLex enthalten sind,
20:52 - 20:56

nicht für weite Welt
zugänglich sein sollte,
20:56 - 20:58

dann würden wir sie natürlich entfernen.
20:58 - 20:59

(Person 4) Gut.
21:01 - 21:02

(Yang) Das bedeutet natürlich nicht,
21:02 - 21:04

dass wir das Urheberrecht
unbedingt berücksichtigen,
21:04 - 21:07

aber wir werden die traditionellen
Gemeinschaften beachten,
21:07 - 21:08

und das ist der große Unterschied.
21:08 - 21:10

(Person 4) Ja, das meine ich damit.
21:15 - 21:17

(Yang) Das ist ein interessanter Punkt,
21:17 - 21:18

was heißt,
21:19 - 21:21

dass manchmal es eine
wirklich große Frage ist,
21:21 - 21:23

wer für eine Sprache spricht.
21:23 - 21:28

Ich hatte tatsächlich einige Erlebnisse
im amerikanischen Südwesten
21:28 - 21:30

bei der Arbeit mit einigen Gruppen,
21:30 - 21:32

die an Eingeborenen-Sprachen,
die Pueblo-Sprachen dort arbeiten.
21:36 - 21:37

Es gibt also ungefähr
21:37 - 21:40

sechs Pueblo-Sprachen,
je nachdem, wie Sie es unterscheiden,
21:40 - 21:42

die in diesem Gebiet gesprochen werden.
21:42 - 21:44

Aber sie sind in
18 verschiedenen Pueblos unterteilt,
21:44 - 21:47

und jedes hat
seine eigene Stammesregierung,
21:47 - 21:50

und jede Regierung
kann eine andere Meinung haben,
21:50 - 21:54

ob ihre Sprache für Außenstehende
zugänglich sein sollte oder nicht.
21:57 - 21:58

Wie zum Beispiel Zuni Pueblo,
21:58 - 22:01

ist das einzige Pueblo,
das die Sprache der Zuni spricht.
22:02 - 22:03

Man fragt sie einfach.
22:03 - 22:05

Und sie sind stolz darauf,
dass ihre Sprache überall sein wird,
22:05 - 22:08

Sie haben es auf den Straßenschildern,
es ist großartig.
22:08 - 22:11

Aber für einige der anderen Sprachen,
22:11 - 22:12

haben Sie vielleicht
eine Gruppe, die sagt,
22:13 - 22:16

"Wir wollen nicht unsere Sprache
für Außenstehende zugänglich machen".
22:16 - 22:19

Das benachbarte Pueblo
mit der gleichen Sprache sagt,
22:19 - 22:22

"Wir wollen wirklich unsere Sprache
für Außenstehende
22:22 - 22:24

durch diese technologischen Werkzeuge
zugänglich machen,
22:24 - 22:27

weil wir wollen, dass unsere Sprache
weiterexistiert".
22:27 - 22:29

Und es wirft eine wirklich
interessante ethische Frage auf.
22:29 - 22:32

Denn wenn Sie einfach sagen,
22:32 - 22:35

"Gut, ich lasse das, weil diese Gruppe
sagte, wir sollen das lassen" –
22:35 - 22:37

dann benachteiligen sie
die zweite Gruppe,
22:37 - 22:39

weil sie aktiv wollen,
dass Sie diese Dinge ausschließen.
22:39 - 22:43

Ich glaube nicht, dass dies eine Frage
mit einer einfacher Antwort ist.
22:43 - 22:45

Aber ich würde das zumindest
in Bezug auf PanLex sagen.
22:45 - 22:49

Und wir haben das tatsächlich
bisher noch nicht erlebt,
22:49 - 22:50

soweit ich weiß.
22:51 - 22:53

Nun, das könnte teilweise
daran liegen, dass...
22:54 - 22:56

Um auf seine Frage zurückzukommen,
22:56 - 22:58

müssten wir uns vielleicht
mehr promoten. (lacht)
22:59 - 23:02

Aber im Allgemeinen, soweit ich weiß,
23:02 - 23:04

ist das bisher noch nicht passiert.
23:04 - 23:08

Aber unser Plan dafür ist,
wenn eine Gemeinschaft sagt,
23:08 - 23:11

dass Sie nicht ihre Daten
in einer Datenbank haben will,
23:11 - 23:12

dann entfernen wir sie.
23:12 - 23:14

(Person 4) Wir müssen damit in Wikidata
und Wikipedia umgehen...
23:14 - 23:16

- (Yang) Haben Sie?
- (Person 4) ...in Kommentaren.
23:16 - 23:18

- (Yang) Echt?
- (Person 4) Es ist ein Problem.
23:18 - 23:21

(Yang) Ja, kann ich mir bei Kommentaren
für Fotos oder bestimmte Dinge vorstellen.
23:21 - 23:23

- (Person 4) Korrekt.
- (Yang) Ja.
23:27 - 23:33

(Person 6) Hallo, ich habe eine Frage
zum Crowdsourcing-Aspekt.
23:34 - 23:37

Was das Befragen
einer Gemeinschaft betrifft,
23:37 - 23:40

um Daten für einen Datensatz
zu kommentieren oder hinzuzufügen,
23:41 - 23:44

eines der Dinge,
dass ein wenig einschüchtert,
23:45 - 23:49

als Redakteur kann ich nur sehen,
welche Dinge fehlen.
23:49 - 23:53

Aber wenn ich Zeit damit verbringe
und eine Idee habe,
23:54 - 23:57

gibt es eine Liste von Gegenständen
mit hoher Priorität,
23:58 - 24:01

was, glaube ich, sehr motivierend ist.
24:01 - 24:04

Und ich war neugierig,
ob Sie ein System haben,
24:04 - 24:06

was im Wesentlichen so ist wie,
24:06 - 24:08

wir kennen die Lücken
in unseren eigenen Daten,
24:08 - 24:11

wir haben linguistische Beweise,
24:11 - 24:16

dass, wenn wir diese mit Anmerkungen
versehen, den größten Einfluss hätten.
24:16 - 24:17

Ich kann mir also vorstellen,
24:18 - 24:21

dass das Lexem für "Haus"
sehr wirkungsvoll wäre,
24:21 - 24:25

vielleicht kein Lexem für Daten
oder Ähnliches.
24:25 - 24:29

Aber ich war neugierig,
wenn Sie das hätten,
24:30 - 24:33

ob das verwendet werden könnte,
24:33 - 24:36

um diese Bemühungen
der Gemeinschaft voranzutreiben.
24:36 - 24:37

(Yang) Großartige Frage.
24:37 - 24:41

Also Wikidata hat eine ganze Menge –
24:41 - 24:45

Entschuldigung, PanLex hat
eine ganze Menge von Swadesh-Listen.
24:45 - 24:48

Wir haben offenbar die größte Sammlung
von Swadesh-Listen weltweit,
24:48 - 24:49

was interessant ist.
24:49 - 24:50

Eine Swadesh-Liste ist
24:50 - 24:56

im Wesentlichen eine regulierte Liste
lexikalischer Elemente,
24:56 - 25:00

die für die Analyse von Sprachen
verwendet werden können.
25:00 - 25:03

Sie enthalten wirklich grundlegende Sätze.
25:03 - 25:05

Es gibt also verschiedenen Arten
von Swadesh-Listen.
25:05 - 25:07

Aber es gibt 100 oder 213 Einheiten
25:07 - 25:13

und sie könnten Wörter wie "Haus"
und "Auge" und "Haut" enthalten,
25:13 - 25:16

und grundsätzlich allgemeine Wörter,
die Sie in jeder Sprache finden sollten.
25:16 - 25:20

Das ist also wirklich
ein guter Ausgangspunkt dafür,
25:20 - 25:23

dass diese Daten zur Verfügung stehen.
25:29 - 25:31

Nun, wie ich bereits erwähnt habe,
25:31 - 25:34

Crowdsourcing ist etwas,
was wir noch nicht tun
25:34 - 25:36

und wir sind wirklich begeistert,
das machen zu können.
25:36 - 25:39

Ich freue mich wirklich darauf,
mit Menschen hier darüber zu sprechen,
25:39 - 25:43

wie Crowdsourcing genutzt werden kann
25:43 - 25:46

und die Logistik dahinter,
25:46 - 25:49

und das sind die Art von Fragen,
die dabei auftauchen können.
25:51 - 25:53

Die Antwort, die ich Ihnen geben kann,
25:53 - 25:55

dass wir eine Prioritätenliste haben –
25:55 - 25:58

dass wir definitiv
eine Prioritätenliste haben,
25:58 - 26:00

wenn es darum geht,
welche Sprachen wir suchen.
26:00 - 26:03

Wir suchen also nach Sprachen,
die von technologischen Lösungen
26:03 - 26:07

derzeit nicht berücksichtigt werden,
was oft Minderheitensprachen sind,
26:07 - 26:09

oder in der Regel Minderheitensprachen,
26:09 - 26:12

und diese dann zu priorisieren.
26:14 - 26:17

Aber in Bezug
auf einzelne lexikalische Elemente,
26:17 - 26:20

wie wir im Allgemeinen
neue Daten erhalten,
26:20 - 26:23

ist im Wesentlichen durch die Aufnahme
eines ganzen Wörterbuchs.
26:23 - 26:28

Wir verlassen uns auf die Auswahl von
lexikalischen Elementen des Wörterbuchs,
26:28 - 26:31

anstatt zu sagen, wir suchen wirklich
das Wort für "Haus" in jeder Sprache.
26:32 - 26:35

Aber wenn es um Daten-Crowdsourcing geht,
werden wir so etwas brauchen.
26:35 - 26:38

Dies ist also eine Gelegenheit
für Forschung und Wachstum.
26:40 - 26:43

(Person 7) Hallo, ich bin Victor,
und das ist großartig.
26:45 - 26:47

Da Sie hier Folien haben,
26:47 - 26:49

können Sie ein bisschen
über den technischen Status reden,
26:49 - 26:53

ob Sie derzeit Daten-
oder Informationsfluss
26:53 - 26:57

zwischen Wikidata und PanLex haben.
26:57 - 27:04

Ist das derzeit bereits implementiert,
und wie gehen Sie mit Informationen um,
27:04 - 27:06

die zwischen PanLex und Wikidata
hin und her wandern,
27:06 - 27:10

oder in einer Feedbackschleife enden.
27:10 - 27:14

(Yang) Wir haben eigentlich derzeit
keine formelle Verbindungen zu Wikidata,
27:14 - 27:15

und das ist, wo ich wieder
27:15 - 27:18

wirklich gespannt auf die Gespräche
innerhalb dieser Konferenz bin.
27:18 - 27:21

Wir hatten einige Interaktionen
mit Wiktionary,
27:22 - 27:27

aber Wikidata passt, ehrlich gesagt,
besser zum dem, was wir suchen.
27:27 - 27:29

Direktes lexikalisches Material bedeutet,
27:29 - 27:32

dass wir sehr viel weniger Datenanalyse
und -extraktion machen müssen,
27:33 - 27:35

Und deshalb lautet die Antwort,
27:35 - 27:37

wir wissen es noch nicht,
aber wir wollen es.
27:37 - 27:40

(Person 7) Und wenn nicht,
was sind die Hindernisse?
27:40 - 27:44

Wie wir sehen können, unterstützt
Wikidata bereits mehrere Sprachen,
27:44 - 27:47

aber wenn ich translate.panlex.org,
nachschlage,
27:47 - 27:49

unterstützen Sie offenbar
viele, viele Varianten,
27:49 - 27:51

viel mehr als Wikidata.
27:51 - 27:53

Wie erkennen Sie, ob da eine Lücke
27:53 - 27:57

zwischen Übersetzung
oder lexikalische Übersetzung ist,
27:57 - 28:00

Anwendung versus Aufwand,
28:00 - 28:04

beim Versuch,
eine Wissensstruktur abzubilden.
28:04 - 28:06

(Yang) Mapping-Kenntnisse werden
sehr interessant sein.
28:06 - 28:08

Wir haben sehr interessante Diskussionen,
28:08 - 28:14

wie Wikidata ihre lexikalischen Daten
organisiert, Ihre lexikalischen Daten,
28:14 - 28:16

und wie wir unsere lexikalischen Daten
organisieren.
28:16 - 28:18

Und es gibt subtile Unterschiede
28:18 - 28:21

die eine Mapping-Strategie
erfordern würde,
28:21 - 28:25

von denen einige nicht notwendigerweise
automatisch sein müssten,
28:25 - 28:27

aber wir könnten vielleicht Techniken
dafür entwickeln.
28:27 - 28:30

Sie nannten das Beispiel
der Sprachvarianten.
28:30 - 28:33

Wir neigen dazu, sehr
"haarspalterisch" zu sein,
28:33 - 28:34

wenn es um Sprachvarianten geht.
28:34 - 28:36

Mit anderen Worten,
wenn wir eine Quelle erhalten,
28:36 - 28:39

die sagt, dass dies der
gesprochene Dialekt
28:39 - 28:42

auf der linken Seite des Flusses
in Papua-Neuguinea dieser Sprache ist,
28:42 - 28:45

und eine weitere Quelle, die sagt,
das ist auf der rechten Seite des Flusses,
28:45 - 28:47

betrachten wir sie als getrennte Sprachen.
28:47 - 28:51

Und wir machen dies, um im Wesentlichen
die meisten Daten erhalten zu können.
28:52 - 28:54

Das so abzubilden, wie Wikidata es macht –
28:54 - 28:57

Eigentlich würde ich
gerne Gespräche führen,
28:57 - 29:01

wie die Sprachen
29:01 - 29:06

auf Wikidata gekennzeichnet sind.
29:08 - 29:12

Auch hier gehen wir mit einer
sehr "haarspalterischen" Strategie vor.
29:14 - 29:18

Wir stützen uns weitgehend
auf ISO 6393-Codes,
29:18 - 29:20

der vom Ethnologen bereitgestellt wird,
29:20 - 29:24

und dann für jeden einzelnen Code
sind dann mehrere Varianten erlaubt,
29:24 - 29:28

entweder für Skript-Varianten oder
regionale Dialekte oder Soziolekte
29:28 - 29:29

und so weiter.
29:30 - 29:33

Nochmals, Gelegenheit
zur Diskussion und Arbeit.
29:36 - 29:39

(Person 8) Hallo, ich würde gerne wissen
wenn Sie eine OCR-Pipeline haben
29:39 - 29:45

und vor allem, weil wir versucht haben,
OCR bei Maya durchzuführen,
29:45 - 29:48

und keine Ergebnisse erhalten haben.
29:48 - 29:50

Es versteht nichts –
29:50 - 29:53

- (Yang) Oh, ja! (lacht)
- (Person 8) Und... ja.
29:53 - 29:56

Wenn also Ihre Pipelines verfügbar sind.
29:56 - 30:00

Und das andere ist einfach
eine ISO-Code-Überschneidung,
30:00 - 30:02

wenn man manchmal sagt,
30:02 - 30:04

"Oh, das ist eine Sprache,
und dies ist eine andere Sprache",
30:04 - 30:07

aber es gibt Quellen,
die andere Dinge sagen,
30:07 - 30:10

wie Sie bereits erwähnten,
neigen sie dazu, sich zu überschneiden.
30:10 - 30:13

Also, wie machen Sie hier weiter...? Ja.
30:13 - 30:15

(Yang) Ja, das ist eine absolut
fantastische Frage.
30:15 - 30:17

Gefällt mir wirklich.
30:17 - 30:20

Wir haben also keine formalisierte
OCR-Pipeline an sich;
30:20 - 30:24

wir tun es Quelle für Quelle.
30:24 - 30:26

Einer der Gründe dafür ist,
weil wir oft Quellen haben,
30:26 - 30:29

die nicht OCR-kompatibel sein müssen
und für einige dieser Sprachen
30:29 - 30:31

verfügbar sind, und wir
konzentrieren uns auf diese,
30:31 - 30:33

weil der Arbeitsaufwand geringsten ist.
30:33 - 30:36

Aber natürlich, wenn wir wirklich tief
in unsere Quellen eintauchen wollen,
30:36 - 30:41

die in Rückstand sind, müssen wir
starke OCR-Pipelines entwickeln.
30:41 - 30:44

Aber es gibt noch einen weiteren Aspekt,
den Sie erwähnten...
30:44 - 30:49

die Leute, die OCR-Engines
entwickelt haben,
30:49 - 30:53

ich denke, dass sie nicht wissen, wie
man sie unter Stress testen kann.
30:53 - 30:55

Wissen Sie, was Spaß macht?
30:55 - 30:58

Versuchen Sie mal OCR bei
einem Russisch-Tibetischen Wörterbuch.
30:59 - 31:00

Wie sich herausstellt,
ist es wirklich schwer...
31:01 - 31:04

Wir gaben auf und stellten jemanden ein,
der es einfach abtippt,
31:04 - 31:06

was durchaus machbar war.
31:06 - 31:07

Und tatsächlich stellt sich heraus,
31:07 - 31:10

dass diese erstaunliche russische Frau
gelernt hatte, Tibetisch zu lesen,
31:10 - 31:13

damit sie dies abtippen konnte,
was super cool war.
31:15 - 31:18

Ich denke, wenn Sie
mit lateinischen Schriften arbeiten,
31:18 - 31:22

dann denke ich, dass OCR-Lösungen
entwickelt werden können,
31:22 - 31:25

die robuster sind,
die mit mehrsprachigen Quellen
31:25 - 31:27

umgehen können und erwarten,
eine zufällige Vier zu erhalten,
31:27 - 31:30

wenn Sie sich mit Maya-Quellen
aus dem 16. Jahrhundert befassen,
31:30 - 31:32

Sie wissen schon, mit der Ziffer vier.
31:32 - 31:38

Aber es gibt einige Quellen,
31:38 - 31:40

die OCR wahrscheinlich
niemals schaffen wird
31:40 - 31:42

oder einen so immensen Arbeitsaufwand
erfordert,
31:43 - 31:47

dass wir das tatsächlich nur wenig nutzen.
31:47 - 31:49

Wir haben ein weiteres Projekt
bei PanLex laufen,
31:49 - 31:54

die gesamte traditionelle Literatur
von Bali zu transkribieren,
31:54 - 31:55

und wir haben festgestellt,
31:55 - 31:58

dass bei den handschriftlichen
balinesischen Manuskripten
31:58 - 32:00

keine Chance mit OCR gibt.
32:00 - 32:02

Wir haben also einen Haufen
der Balinesen, um sie abzutippen,
32:02 - 32:05

und es ist ein wirklich
cooles Kulturprojekt auf Bali,
32:05 - 32:07

und es ist in die Nachrichten
gekommen und so weiter.
32:07 - 32:09

Ich würde also sagen,
32:09 - 32:11

dass Sie sich nicht unbedingt
auf OCR verlassen müssen,
32:11 - 32:13

aber es gibt eine Menge.
32:13 - 32:15

Gute OCR-Lösungen zu haben wäre also gut.
32:17 - 32:21

Außerdem, wenn jemand hier sich
mit super-mehrsprachigen-OCRs beschäftigt,
32:21 - 32:23

bitte reden Sie mit mir.
32:30 - 32:31

(Person 9)
Vielen Dank für Ihre Präsentation.
32:32 - 32:37

Sie sprachen über die Integration
zwischen PanLex und Wikidata,
32:37 - 32:39

aber nicht über Einzelheiten.
32:39 - 32:43

Ich habe also Ihre Datenlizenz überprüft,
und sie steht unter CC0.
32:43 - 32:44

- (Yang) Ja.
- (Person 9) Das ist großartig.
32:44 - 32:46

Es gibt also zwei mögliche Wege,
32:46 - 32:49

dass wir entweder
die Daten importieren können
32:49 - 32:53

oder wir können mit etwas Ähnlichem
wie der Freebase-Methode weitermachen,
32:53 - 32:56

wo wir die vollständige Datenbank
aus der Freebase haben,
32:56 - 32:59

und importieren,
eine Verbindung herstellen,
32:59 - 33:04

einen externen Identifier
zur Freebase-Datenbank.
33:04 - 33:08

Wenn Sie da etwas vorhaben,
denken Sie da ähnlich?
33:08 - 33:10

Oder Sie wollen nur...
33:15 - 33:19

eine unabhängige Datenbank,
die mit Wikidata verknüpft werden kann?
33:19 - 33:21

(Yang) Ja, das ist eine großartige Frage
33:21 - 33:23

und eigentlich den Sachen
einen Schritt voraus,
33:23 - 33:26

über die ich bereits nachgedacht habe,
33:26 - 33:30

teilweise, weil, wie ich schon sagte,
33:30 - 33:32

die Zusammenarbeit der beiden Datenbanken
zu erreichen
33:32 - 33:34

ist ein Schritt in sich selbst.
33:34 - 33:35

Ich denke, der erste Schritt,
33:35 - 33:38

ist buchstäblich nur
unsere Fähigkeiten zusammenzulegen.
33:38 - 33:40

Wir haben eine Menge Erfahrung
mit Dingen umzugehen,
33:40 - 33:43

wie der Klassifizierungen
von Eigenschaften einzelner Lexeme,
33:43 - 33:45

die ich gerne teilen würde.
33:46 - 33:49

Aber die Verknüpfung der Datenbanken
selbst wäre wunderbar.
33:49 - 33:51

Ich bin zu 100 Prozent dafür.
33:51 - 33:54

Ich glaube, es würde den Weg
33:54 - 33:56

von Wikidata zu PanLex etwas vereinfachen,
33:56 - 33:58

vielleicht bin ich voreingenommen,
33:58 - 34:00

denn ich kann mir vorstellen,
wie das funktionieren könnte.
34:02 - 34:06

Ja, im Wesentlichen,
solange Wikidata einverstanden
34:06 - 34:10

mit all diesen Lizenzfragen ist,
oder wir eine Lösung finden,
34:10 - 34:12

dann halte ich das
für eine großartige Idee.
34:13 - 34:16

Wir müssten nur noch Wege
zur Verknüpfung der Daten selbst finden.
34:16 - 34:22

Eine Sache, die ich mir vorstellen kann,
dass Bearbeitungen von Wikidata
34:23 - 34:26

sofort in die PanLex-Datenbank
übertragen werden,
34:26 - 34:31

ohne dass man es immer
wieder einspielen muss.
34:31 - 34:35

Wikidata als Crowdsource-Schnittstelle
für PanLex zu nutzen,
34:35 - 34:37

wäre wirklich großartig.
34:37 - 34:40

Und dann die Möglichkeit, PanLex
zur sofortigen Übersetzung zu nutzen,
34:40 - 34:42

Übersetzungen über die lexikalischen
Elemente von Wikidata zu machen –
34:42 - 34:44

das wäre herrlich.
34:55 - 35:00

(Person 10) Das ist wie der
Auditing-Prozess dieses semantischen Webs,
35:00 - 35:04

um Löcher durch Schlussfolgerungen
zu schließen.
35:06 - 35:10

Wenn wir diese Art
von Übersetzung weiterdenken,
35:10 - 35:13

wie gehen Sie
mit semantischer Fehlanpassung um
35:13 - 35:16

und grammatikalischen Ungleichgewichten?
35:16 - 35:19

Wenn Sie zum Beispiel versuchen,
etwas auf Deutsch zu übersetzen,
35:19 - 35:22

können Sie einfach
mehrere Wörter zusammenfügen
35:22 - 35:26

und etwas Vernünftiges erreichen,
35:26 - 35:29

und auf der anderen Seite,
glaube ich, lese ich manchmal,
35:33 - 35:38

dass nicht jede Sprache
das gleiche granulare System
35:38 - 35:40

für Farben hat, zum Beispiel.
35:42 - 35:44

(Yang) Sagen Sie, alle verwenden
ein anderes System für Farben
35:44 - 35:46

oder sind sie gleich?
35:46 - 35:47

(Person 10) Ich denke, dass es vielleicht
35:47 - 35:49

nur um die Evolution der Sprache geht,
35:49 - 35:52

dass sie anfangs mit Schwarz
und Weiß anfingen und dann –
35:52 - 35:53

(Yang) Ja, die Farbhierarchie.
35:53 - 35:56

Eigentlich ist Farbhierarchie
eine gute Möglichkeit,
35:56 - 35:58

zu veranschaulichen,
wie das funktioniert, richtig?
35:58 - 36:01

Also, im Wesentlichen,
wenn Sie eine einzige Pivotsprache haben –
36:02 - 36:05

Es ist interessant, wenn Sie Papiere
über maschinelle Übersetzungen lesen,
36:05 - 36:08

denn oft sprechen sie über
eine hypothetische Pivotsprache,
36:08 - 36:10

sie sagen: "Es gibt eine Pivot-Sprache".
36:10 - 36:12

und dann lesen sie das Papier
und sagen: "Das ist Englisch."
36:12 - 36:17

Und was diese Form
der lexikalischen Übersetzung macht,
36:17 - 36:20

ist, es durch viele verschiedene
Zwischensprachen zu schicken,
36:21 - 36:24

das hat die Wirkung,
dass es mit einer Menge
36:24 - 36:26

semantischer Mehrdeutigkeit umgehen kann.
36:26 - 36:28

Denn solange Sie es
durch die Sprachen schicken,
36:28 - 36:33

die die gleichen, einigermaßen ähnlichen
semantische Grenzen bei einem Wort haben,
36:33 - 36:37

dann können Sie das Problem
36:37 - 36:40

der semantischen Mehrdeutigkeit
durch die Pivotsprache vermeiden.
36:40 - 36:43

Die Farbhierarchie als Beispiel,
36:43 - 36:46

wenn Sie eine Sprache nehmen,
die ein einziges Farbwort
36:46 - 36:48

für Grün und Blau
36:48 - 36:53

und es in Ihrer Single-Pivot-Sprache
und als Blau übersetzt wird,
36:53 - 36:57

und dann in eine andere Sprache,
die dabei verschiedene Unklarheiten hat,
36:57 - 37:00

dann haben Sie am Ende
semantische Zweideutigkeit.
37:00 - 37:02

Aber wenn Sie es durch
andere Sprachen laufen lassen,
37:02 - 37:06

die auch einzelne lexikalische Begriffe
für Grün und Blau haben,
37:06 - 37:11

dann wird diese semantische Spezifität
37:11 - 37:17

an die Zielsprache weitergereicht.
37:18 - 37:21

Was die Aspekte
der grammatikalischen Merkmale betrifft,
37:21 - 37:23

PanLex hat in seiner Geschichte
in erster Linie,
37:23 - 37:29

im Wesentlichen Lexeme gesammelt,
im Wesentlichen lexikalische Formen.
37:30 - 37:32

Und mit im Wesentlichen meine ich,
37:32 - 37:34

was auch immer Sie als Stichwort
für ein Wörterbuch bekommen.
37:35 - 37:38

Wir müssen uns also
derzeit nicht unbedingt
37:38 - 37:41

auf das Sammeln grammatikalischer
Variantenformen konzentrieren,
37:41 - 37:45

nicht schriftliche Daten et cetera
oder Vergangenheits- und Gegenwartsform.
37:45 - 37:46

Aber das ist etwas, das wir untersuchen.
37:46 - 37:48

Eine Sache, die immer zu beachten ist,
37:48 - 37:51

dass unser Fokus –
37:51 - 37:54

auf unterrepräsentierte und gefährdete
Minderheitensprachen liegt,
37:55 - 37:58

wollen wir sicherstellen,
dass etwas verfügbar ist,
37:58 - 38:00

bevor wir es perfekt machen.
38:01 - 38:03

Ein Satz, den ich absolut liebe,
38:03 - 38:05

ist "Lass Perfektion nicht
der Feind des Guten sein",
38:05 - 38:07

und das ist es, was wir vorhaben.
38:07 - 38:09

Aber wir sind super interessiert
an der Idee,
38:09 - 38:12

mit grammatikalischen Formen
umgehen zu können,
38:12 - 38:14

und darüber zu übersetzen,
38:14 - 38:17

wir haben Untersuchungen durchgeführt,
aber noch nicht vollständig umgesetzt.
38:25 - 38:29

(Person 11) Also,
von den etwa 7500 Sprachen,
38:30 - 38:32

ich nehme an, Sie verlassen
sich auf Wörterbücher,
38:32 - 38:35

die für uns geschrieben werden,
aber haben alle diese Sprachen
38:35 - 38:38

standardisierte schriftliche Formen
und wie gehen Sie damit um...?
38:38 - 38:40

(Yang) Das ist eine großartige Frage.
38:42 - 38:48

Im Wesentlichen, ja, viele dieser Sprachen
sind, wie jeder weiß, ungeschrieben.
38:48 - 38:51

Jedoch jede Sprache,
für die ein Wörterbuch erstellt wurde,
38:51 - 38:52

hat eine Art von Rechtschreibung,
38:52 - 38:57

und wir verlassen uns
auf die Rechtschreibung des Wörterbuchs.
38:57 - 39:00

Wir machen gelegentlich einige
leichte Korrekturen der Orthographie,
39:00 - 39:03

wenn wir garantieren können,
dass sie im Grunde verlustfrei ist.
39:03 - 39:06

Aber wir neigen dazu,
sie so weit wie möglich zu vermeiden.
39:08 - 39:11

Also, wir sind nicht im Geschäft
39:11 - 39:13

der Entwicklung
von Orthographien für Sprachen,
39:13 - 39:15

weil sie sich oft nicht entwickelt haben,
39:15 - 39:17

auch wenn sie nicht wirklich
weit veröffentlicht wurden.
39:17 - 39:22

Also, zum Beispiel,
39:22 - 39:26

für viele Sprachen,
die in Neuguinea gesprochen werden,
39:26 - 39:29

gibt es vielleicht keine gemeinsame
verwendete orthographische Form,
39:29 - 39:31

aber einige Linguisten
lassen sich etwas einfallen
39:31 - 39:32

und das ist ein guter erster Schritt.
39:33 - 39:37

Wir sammeln auch phonetische Formen
wenn sie in Wörterbüchern verfügbar sind,
39:37 - 39:38

und das ist also ein weiterer Weg dahin,
39:38 - 39:42

im Wesentlichen eine IPA-Darstellung
des Wortes, wenn das verfügbar ist.
39:42 - 39:43

Das kann also auch genutzt werden.
39:43 - 39:46

Aber wir verwenden das
nicht normalerweise als Pivot,
39:46 - 39:48

weil das gewisse Unklarheiten einführt.
39:53 - 39:56

(Person 12) Vielen Dank,
das ist vielleicht eine sehr dumme Frage,
39:56 - 40:01

aber sind das nur die Zwischensprachen,
mit denen Sie arbeiten?
40:01 - 40:02

(Yang) Oh, nein. Oh, nein.
40:02 - 40:04

(Person 12) In Ordnung, ich danke Ihnen.
40:04 - 40:06

(Yang) Ich bin froh, dass Sie das fragen.
40:06 - 40:09

Dies ist also eigentlich
ein Screenshot-Schnappschuss
40:09 - 40:11

von translate.panlex.org.
40:11 - 40:13

Wenn Sie eine Übersetzung machen,
40:13 - 40:15

gibt es auf der rechten Seite
eine Liste der Übersetzungen.
40:15 - 40:18

Sie klicken auf die Schaltfläche ...,
und erhalten Sie eine solche Grafik.
40:18 - 40:24

Und dies zeigt die Zwischensprachen,
die Top 20 nach Punktzahl.
40:24 - 40:27

Wie wir die Punktzahl erstellen,
ist jetzt nicht so wichtig –
40:27 - 40:30

nach der verwendeten Punktzahl.
40:30 - 40:33

Aber für die Übersetzung, verwenden
wir tatsächlich weit mehr als 20.
40:33 - 40:36

Warum ich die Obergrenze
bei 20 Prozent setze, liegt daran,
40:36 - 40:38

das ist eigentlich
wie eine Art Physiksimulation.
40:38 - 40:40

Sie können die Dinge bewegen
und sie wackeln.
40:40 - 40:42

Wenn Sie mehr als 20 haben,
wird Ihr Computer wirklich wütend.
40:45 - 40:47

Es ist also eher eine Demonstration, ja.
40:56 - 40:58

(Person 13) Leila,
von der Wikimedia Foundation.
40:58 - 41:00

Nur eine Anmerkung zu –
41:00 - 41:03

Sie erwähnten die Wikimedia Foundation
ein paar Mal in Ihrer Präsentation,
41:03 - 41:07

Ich wollte sagen, wenn Sie jede Art
von Dateneinspielung vornehmen wollen,
41:07 - 41:08

oder eine Zusammenarbeit mit Wikidata,
41:09 - 41:11

wäre vielleicht Wikimedia Deutschland
ein besserer Ort,
41:11 - 41:13

mit dem man diese Gespräche führen kann?
41:13 - 41:16

Weil Wikidata lebt innerhalb
von Wikimedia Deutschland
41:16 - 41:18

und das Team ist da,
41:18 - 41:20

und auch die Gemeinschaft
von Freiwilligen rund um Wikidata
41:20 - 41:24

wäre der perfekte Ort für ein Gespräch
41:24 - 41:26

über jede Art der Einspielung
41:26 - 41:31

oder PanLex näher an Wikidata zu bringen.
41:32 - 41:33

(Yang) Großartig, vielen Dank,
41:33 - 41:35

denn ehrlich gesagt,
bin ich nicht wirklich vertraut
41:35 - 41:38

mit all den Feinheiten der Architektur,
41:38 - 41:40

wie alle Projekte sich
aufeinander beziehen.
41:40 - 41:42

Nach dem Lachen zu urteilen,
ist es wohl kompliziert.
41:42 - 41:46

Aber, ja, also im Grunde genommen
würden wir mit demjenigen reden wollen,
41:46 - 41:48

der für Wikidata verantwortlich ist.
41:48 - 41:52

Also einfach,
um eine Platzierung vorzunehmen,
41:53 - 41:55

wer auch immer für Wikidata
verantwortlich ist, ist derjenige,
41:55 - 41:56

mit dem wir reden wollen,
41:56 - 41:58

und das sind alle Freiwilligen.
42:03 - 42:05

Haben Sie noch weitere Fragen?
42:10 - 42:14

Okay, nun, wenn jemand am Ende
darüber hinaus noch weitere Fragen hat,
42:14 - 42:18

oder über die ich gesprochen habe –
Details und Einzelheiten dieser Dinge,
42:18 - 42:20

bitte kommen Sie und reden mit mir,
42:20 - 42:24

und wenn Sie mit allem,
was lexikalisches Zeug beinhaltet,
42:24 - 42:29

allem, was mit gefährdeten
Minderheitensprachen
42:29 - 42:30

und unterrepräsentierten Sprachen
zu tun hat,
42:30 - 42:34

und auch Unicode, was ich auch tue.
42:36 - 42:40

Vielen Dank also, und dafür, dass Sie
mich als Sprecher eingeladen haben.
42:40 - 42:42

Ich hoffe, dass es Ihnen gefallen hat.
42:42 - 42:44

(Beifall)

Title:: cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4
Video Language:: English
Duration:: 42:53

Bar Sch edited German subtitles for cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

German subtitles

Revisions

Revision 1 Uploaded

Bar Sch

cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

Revisions

Our website uses cookies

Operating cookies (Required)