< Return to Video

cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

  • 0:06 - 0:09
    Derzeit gibt es ungefähr 7500 Sprachen,
  • 0:09 - 0:11
    die auf dem Planeten gesprochen werden.
  • 0:12 - 0:14
    Von diesen sind schätzungsweise
  • 0:14 - 0:16
    etwa 70 Prozent in Gefahr,
  • 0:16 - 0:21
    nicht das Ende des 21. Jahrhunderts
    zu überleben.
  • 0:22 - 0:24
    Jedes Mal, wenn eine Sprache stirbt,
  • 0:25 - 0:27
    zerstört es eine Verbindung,
  • 0:27 - 0:31
    die seit Hunderten
    bis Tausenden von Jahren andauerte,
  • 0:31 - 0:35
    zur Kultur, zur Geschichte,
  • 0:35 - 0:38
    und zu Traditionen und Wissen.
  • 0:39 - 0:42
    Der Linguist Kenneth Hale sagte einmal,
  • 0:42 - 0:44
    dass jedes Mal, wenn eine Sprache stirbt,
  • 0:44 - 0:47
    ist wie eine Atombombe
    auf den Louvre fallen zu lassen.
  • 0:49 - 0:52
    Die Frage ist also,
  • 0:53 - 0:55
    warum sterben Sprachen?
  • 0:56 - 1:00
    Nun, die einfache Antwort
    könnte vielleicht lauten,
  • 1:00 - 1:03
    dass man sich vorstellen kann,
    dass autoritäre Regierungen
  • 1:03 - 1:05
    Menschen am Sprechen
    ihrer Muttersprache hindern,
  • 1:06 - 1:10
    Kinder werden für das Sprechen
    ihrer Sprache in der Schule bestraft,
  • 1:10 - 1:13
    oder die Regierung schaltet Radiosender
  • 1:13 - 1:15
    in der Minderheitensprache ab.
  • 1:15 - 1:17
    Und das ist definitiv
    in der Vergangenheit geschehen,
  • 1:17 - 1:20
    und bis zu einem gewissen Grad
    geschieht das heute immer noch.
  • 1:20 - 1:23
    Aber die wirkliche Antwort ist,
  • 1:23 - 1:27
    dass es für die große Mehrheit der Fälle,
    wo Sprachen aussterben,
  • 1:27 - 1:31
    eine viel einfachere und
    leichter zu erklärende Antwort gibt.
  • 1:34 - 1:37
    Die Sprachen sterben aus, weil sie nicht
  • 1:37 - 1:40
    von einer Generation zur nächsten
    weitergegeben werden.
  • 1:42 - 1:45
    Jedes Mal, wenn eine Person,
    die eine Minderheitensprache spricht,
  • 1:45 - 1:50
    ein Kind hat, macht sie eine Rechnung auf.
  • 1:51 - 1:53
    Sie fragen sich,
  • 1:54 - 1:56
    "Gebe ich meine Sprache
    an mein Kind weiter,
  • 1:57 - 2:01
    oder unterrichte ich stattdessen
    nur die Mehrheitssprache"?
  • 2:01 - 2:03
    Im Wesentlichen ist es eine Waage,
  • 2:04 - 2:06
    auf die sie in ihrem Kopf zugreifen,
  • 2:07 - 2:08
    auf der einen Seite
  • 2:10 - 2:12
    jedes einzelne Mal in ihrem Leben,
  • 2:12 - 2:14
    wo sie Gelegenheit hatten,
    ihre Muttersprache zu verwenden,
  • 2:15 - 2:18
    zur Kommunikation,
    Zugang zu traditioneller Kultur,
  • 2:20 - 2:22
    wird ein Stein
    auf der linken Seite platziert.
  • 2:22 - 2:24
    Und jedes Mal, wenn sie
    nicht in der Lage sind,
  • 2:24 - 2:26
    ihre Muttersprache zu nutzen,
  • 2:26 - 2:28
    und sich auf die Mehrheitssprache
    verlassen müssen,
  • 2:28 - 2:30
    wird ein Stein
    auf der rechten Seite platziert.
  • 2:32 - 2:35
    Nun, aufgrund der Stärke und der Würde,
  • 2:35 - 2:37
    seine Muttersprache sprechen zu können,
  • 2:37 - 2:39
    wiegen die Steine auf der linken Seite
    etwas schwerer.
  • 2:39 - 2:42
    Aber mit genügend Steinen
    auf der rechten Seite,
  • 2:43 - 2:45
    kippt dann schließlich die Waage,
  • 2:45 - 2:47
    und dann, wenn eine Person
    die Entscheidung trifft,
  • 2:47 - 2:49
    ihre Sprache weiterzugeben,
  • 2:49 - 2:51
    sehen sie ihre eigene Sprache
  • 2:51 - 2:53
    mehr als Last denn als Segen.
  • 2:55 - 2:59
    Die Frage ist also,
    wie können wir das rückgängig machen?
  • 2:59 - 3:02
    Zunächst müssen wir
    über die Tatsache nachdenken,
  • 3:04 - 3:05
    dass es für jede beliebige Sprache
  • 3:05 - 3:08
    bestimmte soziale Bereiche gibt,
    in denen sie verwendet werden können.
  • 3:08 - 3:11
    Also, jede Sprache, die heute
    als Muttersprache gesprochen wird,
  • 3:11 - 3:13
    kann in der eigenen Familie
    verwendet werden.
  • 3:14 - 3:17
    Eine kleinere Zahl von Sprachen wird
    innerhalb der Gemeinschaft verwendet,
  • 3:17 - 3:19
    eine kleinere Gruppe
    vielleicht in der eigenen Region
  • 3:19 - 3:22
    und eine kleine Handvoll von Sprachen
  • 3:23 - 3:25
    kann für die internationale Kommunikation
    verwendet werden.
  • 3:26 - 3:29
    Und dann sogar über diese Bereiche hinaus,
  • 3:29 - 3:32
    stellt sich die Frage,
    ob jemand ihre Sprache
  • 3:32 - 3:37
    für Bildung oder Wirtschaft
    oder Technik nutzen kann?
  • 3:39 - 3:42
    Um also besser zu erklären,
  • 3:43 - 3:45
    wovon ich hier spreche,
  • 3:45 - 3:46
    möchte ich eine Anekdote verwenden.
  • 3:48 - 3:50
    Nehmen wir an, dass Sie im Begriff sind,
  • 3:50 - 3:52
    Ihren Traumurlaub in Indien anzutreten,
  • 3:53 - 3:56
    und Sie haben einen achtstündigen
    Zwischenstopp in Istanbul.
  • 3:57 - 4:01
    Nun, Sie haben nicht unbedingt
    einen Besuch der Türkei geplant,
  • 4:01 - 4:04
    aber mit dem Zwischenstopp
    und mit einem türkischen Freund,
  • 4:04 - 4:08
    der von einem tollen Restaurant nicht
    weit vom Flughafen erzählt hat,
  • 4:08 - 4:11
    denkt man: "Hey, vielleicht schaue
    ich während meines Aufenthalts vorbei."
  • 4:11 - 4:13
    Sie verlassen also den Flughafen,
  • 4:14 - 4:15
    kommen in Ihr Restaurant,
  • 4:15 - 4:17
    und sie geben Ihnen eine Speisekarte,
  • 4:17 - 4:19
    und die Speisekarte ist
    vollständig auf Türkisch.
  • 4:20 - 4:23
    Nun, sagen wir mal,
    für den Zweck dieser Übung,
  • 4:23 - 4:24
    dass Sie kein Türkisch sprechen.
  • 4:25 - 4:27
    Was machen Sie?
  • 4:28 - 4:30
    Nun, im besten Fall,
  • 4:30 - 4:32
    finden Sie vielleicht jemanden
    der Ihre Muttersprache spricht,
  • 4:32 - 4:34
    Deutsch, Englisch et cetera.
  • 4:36 - 4:38
    Aber sagen wir, es ist nicht Ihr Glückstag
  • 4:38 - 4:41
    und niemand im Restaurant kann
    Deutsch oder Englisch sprechen.
  • 4:42 - 4:43
    Was tun Sie also?
  • 4:43 - 4:46
    Nun, wenn Sie so wie ich sind,
    und ich denke, die meisten von Ihnen,
  • 4:46 - 4:48
    nutzen Sie wahrscheinlich
    eine technologische Lösung,
  • 4:50 - 4:52
    maschinelle Übersetzung
    oder ein digitales Wörterbuch,
  • 4:53 - 4:54
    schlagen jedes Wort einzeln nach,
  • 4:54 - 4:58
    und können sich schließlich
    ein köstliches türkisches Essen bestellen.
  • 5:00 - 5:03
    Stellen wir uns nun stattdessen
    dieses Szenario vor,
  • 5:04 - 5:06
    in dem Sie der Muttersprachler
    einer Minderheitensprache sind.
  • 5:07 - 5:09
    Sagen wir, Niedersorbisch.
  • 5:09 - 5:11
    Niedersorbisch
    ist eine gefährdete Sprache,
  • 5:11 - 5:13
    wird hier in Deutschland gesprochen,
  • 5:13 - 5:17
    etwa 130 Kilometer südöstlich von hier,
  • 5:18 - 5:21
    nur von ein paar tausend Menschen,
    meist ältere Menschen.
  • 5:23 - 5:25
    Nun, sagen wir, Ihre Muttersprache
    ist Niedersorbisch.
  • 5:25 - 5:27
    Sie landen im Restaurant.
  • 5:27 - 5:29
    Die Chance, jemanden
    im Restaurant zu finden,
  • 5:29 - 5:31
    der Ihre Muttersprache spricht,
    ist außergewöhnlich niedrig.
  • 5:32 - 5:36
    Aber, noch einmal, Sie können einfach
    zu einer technologischen Lösung greifen.
  • 5:37 - 5:39
    Allerdings für Ihre Muttersprache
  • 5:39 - 5:42
    existieren diese technologischen
    Lösungen nicht.
  • 5:42 - 5:45
    Sie müssten sich
    auf Deutsch oder Englisch
  • 5:45 - 5:47
    als Brücke ins Türkisch verlassen.
  • 5:49 - 5:52
    Sie bekommen am Ende natürlich immer
    noch Ihr köstliches türkisches Essen,
  • 5:52 - 5:55
    aber beginnen nachzudenken,
    wie schwierig dies gewesen wäre,
  • 5:55 - 5:58
    wenn Sie wie Ihr Großvater wären,
    der überhaupt kein Deutsch sprach.
  • 5:58 - 6:00
    Dies ist nur ein kleiner Zwischenfall,
  • 6:00 - 6:05
    aber es wird einen Stein
    auf der rechten Seite dieser Waage setzen
  • 6:05 - 6:07
    und Sie zum Nachdenken anregen,
  • 6:07 - 6:10
    vielleicht, wenn ich Kinder habe oder
    vielleicht, wenn ich noch ein Kind habe,
  • 6:11 - 6:15
    die Last, die Sie auf sich genommen haben
  • 6:15 - 6:17
    ist es vielleicht nicht wert,
    um Ihre Sprache zu behalten.
  • 6:19 - 6:21
    Und stellen Sie sich vor,
    dies wäre ein Szenario,
  • 6:21 - 6:26
    das von wesentlich
    größerer Bedeutung wäre,
  • 6:26 - 6:28
    wie zum Beispiel in einem Krankenhaus.
  • 6:31 - 6:36
    Nun, das ist der Punkt,
    bei dem wir helfen können –
  • 6:37 - 6:40
    Mit "wir" meine ich, Sie und ich,
    in diesem Raum können helfen.
  • 6:41 - 6:43
    Wir haben die Werkzeuge,
    um dabei helfen zu können.
  • 6:45 - 6:47
    Wenn technologische Werkzeuge
    für Menschen verfügbar sind,
  • 6:47 - 6:50
    die eine Minderheits- und
    unterrepräsentierte Sprachen sprechen,
  • 6:51 - 6:54
    legt es einen kleinen Finger auf die
    Waage, auf der linken Seite der Waage.
  • 6:54 - 6:56
    Jemand muss nicht unbedingt glauben,
  • 6:56 - 6:58
    sich auf eine Minderheitensprache
    verlassen müssen,
  • 6:58 - 6:59
    um mit der Außenwelt zu interagieren,
  • 7:00 - 7:05
    weil es die sozialen Bereiche
  • 7:05 - 7:06
    ein bisschen mehr öffnet.
  • 7:08 - 7:10
    Also, natürlich die ideale Lösung ist,
  • 7:10 - 7:13
    maschinelle Übersetzung
    in jeder Sprache der Welt zu haben.
  • 7:13 - 7:17
    Leider ist das aber
    einfach nicht machbar.
  • 7:17 - 7:20
    Maschinelle Übersetzung
    erfordert große Textkorpora,
  • 7:20 - 7:21
    und für viele dieser Sprachen,
  • 7:21 - 7:23
    die gefährdet oder
    unterrepräsentiert sind,
  • 7:23 - 7:25
    sind solche Daten einfach nicht verfügbar.
  • 7:26 - 7:28
    Einige von ihnen sind
    nicht einmal üblich geschrieben
  • 7:29 - 7:33
    und damit genügend Daten für eine
    maschinelle Übersetzung zu erhalten,
  • 7:33 - 7:34
    ist unwahrscheinlich.
  • 7:34 - 7:38
    Aber was verfügbar ist,
    sind lexikalische Daten.
  • 7:40 - 7:43
    Durch die Arbeit
    vieler Sprachwissenschaftler
  • 7:43 - 7:45
    in den letzten paar hundert Jahren,
  • 7:48 - 7:50
    wurden Wörterbücher und Grammatiken
  • 7:50 - 7:52
    für die meisten Sprachen
    der Welt produziert.
  • 7:54 - 7:57
    Leider sind aber die meisten dieser Werke
  • 7:57 - 8:01
    nicht zugänglich oder stehen
    der Welt nicht zur Verfügung,
  • 8:01 - 8:04
    ganz zu schweigen von den Sprechern
    dieser Minderheitensprachen.
  • 8:05 - 8:06
    Und es ist kein absichtlicher Prozess.
  • 8:06 - 8:08
    Oftmals ist es einfach so, dass
  • 8:08 - 8:11
    die anfängliche Druckauflage
    dieser Wörterbücher klein war,
  • 8:11 - 8:13
    und die einzigen Kopien
  • 8:13 - 8:16
    verkümmern irgendwo
    in einer Universitätsbibliothek.
  • 8:18 - 8:23
    Aber wir haben die Möglichkeit,
    diese Daten der Welt zugänglich machen.
  • 8:24 - 8:28
    Die Wikimedia-Stiftung
    ist eine der besten Organisationen,
  • 8:28 - 8:31
    ich würde sagen,
    die beste Organisation in der Welt,
  • 8:31 - 8:35
    um Daten für die große Mehrheit
    der Bevölkerung dieses Planeten
  • 8:35 - 8:36
    bereitzustellen.
  • 8:39 - 8:40
    Lassen Sie uns also daran arbeiten.
  • 8:41 - 8:43
    Also, um das ein wenig zu erklären,
  • 8:43 - 8:45
    was wir in dieser Hinsicht getan haben,
  • 8:45 - 8:48
    möchte ich Ihnen
    meine Organisation, PanLex vorstellen,
  • 8:49 - 8:54
    die versucht, lexikalische Daten
    zu diesem Zweck zu sammeln.
  • 8:55 - 8:57
    Wir haben vor etwa 12 Jahren begonnen,
  • 8:57 - 9:00
    als Forschungsprojekt
    an der Universität von Washington.
  • 9:00 - 9:01
    Die Idee dahinter
  • 9:01 - 9:04
    war es, zu zeigen,
    dass abgeleitete Übersetzungen
  • 9:04 - 9:07
    ein effektives Übersetzungsinstrument
    schaffen können,
  • 9:07 - 9:09
    ein lexikalisches Übersetzungsinstrument.
  • 9:09 - 9:12
    Dies ist ein Beispiel
    aus den PanLex-Daten.
  • 9:13 - 9:14
    Hier wird gezeigt, wie man
  • 9:14 - 9:18
    das Wort "ev" im Türkischen,
    das heißt Haus, übersetzen kann,
  • 9:18 - 9:20
    nach Niedersorbisch,
  • 9:20 - 9:21
    die Sprache, die ich vorhin erwähnte.
  • 9:21 - 9:23
    Es ist also unwahrscheinlich,
  • 9:24 - 9:26
    ein Wörterbuch für Türkisch
    nach Niedersorbisch zu finden,
  • 9:26 - 9:28
    aber durch das Durchlaufen
  • 9:28 - 9:30
    vieler, vieler verschiedener
    Zwischensprachen,
  • 9:30 - 9:33
    können Sie effektive Übersetzungen
    erstellen.
  • 9:34 - 9:37
    Sobald die Forschungsprojekte
    das nachweisen konnten,
  • 9:37 - 9:40
    entschied Dr. Jonathan Pool,
    der Gründer von PanLex,
  • 9:41 - 9:44
    "Nun, warum machen wir das nicht einfach?"
  • 9:44 - 9:45
    Er gründete
    eine gemeinnützige Gesellschaft,
  • 9:45 - 9:47
    um lexikalische Daten zu sammeln
  • 9:47 - 9:49
    und zugänglich zu machen.
  • 9:49 - 9:51
    Das haben wir
    in den letzten 12 Jahren getan.
  • 9:51 - 9:55
    In dieser Zeit haben wir Tausende und
    Abertausende von Wörterbüchern gesammelt
  • 9:55 - 9:56
    und haben lexikalische Daten extrahiert,
  • 9:56 - 9:59
    und eine Datenbank zusammengestellt,
    die es ermöglicht,
  • 9:59 - 10:04
    abgeleitete lexikalische Übersetzung
    über alle der...
  • 10:04 - 10:06
    Unsere derzeitige Zahl
    liegt bei etwa 5500
  • 10:06 - 10:08
    der 7500 Sprachen in der Welt.
  • 10:09 - 10:12
    Und natürlich versuchen
    wir ständig, das zu erweitern
  • 10:12 - 10:15
    und die Daten jeder einzelnen Sprache
    zu erweitern.
  • 10:17 - 10:21
    Die nächste Frage lautet also,
  • 10:22 - 10:26
    was können wir tun,
    um gemeinsam daran zu arbeiten?
  • 10:27 - 10:29
    Wir bei PanLex sind extrem begeistert,
  • 10:29 - 10:31
    die Entwicklung bei lexikalischen Daten
    zu sehen,
  • 10:31 - 10:34
    an denen Wikidata
    in letzter Zeit gearbeitet hat.
  • 10:35 - 10:38
    Es ist sehr faszinierend,
    Organisationen zu sehen,
  • 10:38 - 10:39
    die in einem sehr ähnlichen Bereich
    arbeiten,
  • 10:39 - 10:41
    aber in verschiedenen Aspekten.
  • 10:42 - 10:44
    Und wir sind sehr gespannt
  • 10:45 - 10:46
    auf die Ergebnisse aus Wikidata.
  • 10:46 - 10:51
    Und auch wir freuen uns über
    die Zusammenarbeit mit Wikidata.
  • 10:54 - 10:56
    Ich denke, dass die
    besonderen Fähigkeiten,
  • 10:56 - 10:58
    die wir in den letzten 12 Jahren
    entwickelt haben,
  • 10:58 - 11:00
    nicht nur in der Sammlung
    von lexikalischen Daten,
  • 11:00 - 11:02
    sondern auch im Datenbankdesign,
  • 11:02 - 11:04
    was für Wikidata äußerst
    nützlich sein könnte.
  • 11:04 - 11:07
    Und auf der anderen Seite
    denke ich, dass –
  • 11:08 - 11:11
    Ich bin besonders gespannt
  • 11:11 - 11:14
    auf Wikidatas Fähigkeit,
    Crowdsourcing von Daten durchzuführen.
  • 11:15 - 11:18
    Bei PanLex sind unsere Quellen
    derzeit vollständig
  • 11:18 - 11:21
    gedruckte lexikalische Quellen oder
    andere Arten von lexikalischen Quellen,
  • 11:21 - 11:23
    aber wir machen kein Crowdsourcing.
  • 11:23 - 11:25
    Wir haben einfach nicht
    die Infrastruktur dafür
  • 11:25 - 11:27
    und natürlich ist die Wikimedia Foundation
  • 11:27 - 11:29
    der weltweite Experte für Crowdsourcing.
  • 11:32 - 11:34
    Ich freue mich darauf, genau zu sehen,
  • 11:34 - 11:36
    wie wir diese Fähigkeiten
    gemeinsam anwenden können.
  • 11:39 - 11:42
    Aber insgesamt denke ich,
    dass die Hauptsache ist,
  • 11:42 - 11:43
    wenn wir an diesen Dingen arbeiten,
  • 11:43 - 11:45
    es ist ein winziges Detail.
  • 11:45 - 11:48
    Wir beschäftigen uns
    mit grammatikalischen Formen,
  • 11:48 - 11:52
    oder arbeiten uns durch Wörterbücher,
    alte Wörterbücher,
  • 11:52 - 11:54
    oder manchmal kürzlich
    veröffentlichte Wörterbücher
  • 11:54 - 11:57
    und beschäftigen uns
    mit schriftlichen Wortformen,
  • 11:57 - 12:00
    und es fühlt sich sehr nah an.
  • 12:00 - 12:03
    Aber gelegentlich müssen wir daran denken,
    einen Schritt zurückzutreten,
  • 12:03 - 12:05
    auch wenn das, was wir tun
  • 12:06 - 12:09
    sich manchmal sogar banal anfühlen kann,
  • 12:10 - 12:12
    aber die Arbeit, die wir tun,
    ist äußerst wichtig.
  • 12:13 - 12:16
    Das ist meiner Meinung nach,
    der absolut beste Weg,
  • 12:16 - 12:19
    wie wir gefährdete Sprachen
    unterstützen können
  • 12:19 - 12:21
    und sicherstellen,
    dass die sprachliche Vielfalt des Planeten
  • 12:21 - 12:26
    bis zum Ende dieses Jahrhunderts
    oder länger bewahrt wird.
  • 12:26 - 12:30
    Es ist durchaus möglich,
    dass die Arbeit, die wir heute tun,
  • 12:30 - 12:32
    darin resultieren kann,
  • 12:32 - 12:35
    dass Sprachen erhalten
    und weitergegeben werden,
  • 12:35 - 12:37
    und nicht aussterben.
  • 12:39 - 12:41
    Also, nur zur Erinnerung,
  • 12:41 - 12:43
    wenn Sie an Ihrem Computer herumsitzen,
  • 12:43 - 12:44
    einen Eintrag bearbeiten,
  • 12:44 - 12:50
    und die Datenform
    einer kleinen Minderheitensprache
  • 12:50 - 12:52
    für jedes einzelne Substantiv hinzufügen,
  • 12:52 - 12:55
    die kleine Sache, die Sie gerade machen,
  • 12:55 - 12:58
    könnte tatsächlich teilweise
    dafür verantwortlich sein,
  • 12:58 - 12:59
    sicherzustellen, dass die Sprache
  • 12:59 - 13:01
    bis zum Ende des Jahrhunderts
    oder länger überlebt.
  • 13:03 - 13:04
    Ich danke Ihnen sehr,
  • 13:04 - 13:06
    und ich möchte die Fragerunde eröffnen.
  • 13:06 - 13:08
    (Beifall)
  • 13:24 - 13:25
    (Person 1) Vielen Dank.
  • 13:25 - 13:27
    - Danke für Ihren Vortrag.
    - (Yang) Ich danke Ihnen.
  • 13:27 - 13:29
    (Person 1) Ich habe eine Frage
    zu den Wörterbüchern.
  • 13:29 - 13:31
    Sie sagten, dass Sie
    mit gedruckten Wörterbüchern arbeiten?
  • 13:31 - 13:33
    - (Yang) Ja.
    - (Person 1) Meine Frage ist,
  • 13:33 - 13:35
    was nehmen Sie aus diesen Wörterbüchern
  • 13:35 - 13:38
    und müssen Sie sich
    mit dem Urheberrecht befassen?
  • 13:38 - 13:41
    (Yang) Ich habe erwartet, dass dies
    die erste Frage ist, die ich bekomme.
  • 13:41 - 13:43
    (Gelächter)
  • 13:43 - 13:46
    Also, zunächst einmal für PanLex,
  • 13:46 - 13:50
    haben wir, gemäß unserer rechtlichen
    Ressourcen, die wir konsultiert haben,
  • 13:53 - 13:57
    ist die Anordnung und Organisation
    eines Wörterbuchs urheberrechtsfähig,
  • 13:57 - 14:03
    die Übersetzung selbst wird
    nicht als urheberrechtsfähig angesehen.
  • 14:04 - 14:06
    Ein gutes Beispiel ist zum Beispiel
  • 14:06 - 14:11
    ein Telefonbuch, zumindest nach US-Recht,
  • 14:11 - 14:12
    ist urheberrechtsfähig.
  • 14:12 - 14:13
    Aber wenn man sagt,
  • 14:13 - 14:17
    dass die Telefonnummer
    von Person X die Ziffer D ist,
  • 14:17 - 14:18
    ist das nicht urheberrechtsfähig.
  • 14:22 - 14:23
    Also, wie ich schon sagte,
  • 14:23 - 14:25
    laut unseren Rechtswissenschaftlern,
  • 14:25 - 14:27
    können wir so damit umgehen.
  • 14:27 - 14:29
    Aber selbst wenn das nicht
  • 14:29 - 14:31
    ein ausreichend solides
    rechtliches Argument ist,
  • 14:31 - 14:32
    ist es wichtig,
  • 14:32 - 14:36
    dass die große Mehrheit dieser Daten
  • 14:36 - 14:41
    nicht urheberrechtlich geschützt ist.
  • 14:41 - 14:43
    Eine große Anzahl sind nicht mehr
    urheberrechtlich geschützt
  • 14:43 - 14:44
    und kann somit verwendet werden.
  • 14:44 - 14:47
    Und die andere Sache ist,
    dass zum Beispiel oft,
  • 14:47 - 14:50
    wenn wir mit ein kürzlich
    erstellten gedruckten Wörterbuch,
  • 14:50 - 14:52
    anstatt es zu scannen
    und mit OCR zu verarbeiten,
  • 14:52 - 14:53
    schicken wir der Person
    einfach eine E-Mail.
  • 14:53 - 14:56
    Und es stellt sich heraus,
    dass die meisten Linguisten
  • 14:56 - 15:00
    wirklich begeistert sind, dass ihre Daten
    zugänglich gemacht werden können.
  • 15:00 - 15:01
    Und sie sagen: "Sicher, bitte,
  • 15:01 - 15:04
    stellen Sie einfach alles da rein,
    und machen Sie es zugänglich".
  • 15:06 - 15:08
    Wie ich also sagte, haben wir,
    zumindest nach unseren Rechtsgutachten,
  • 15:08 - 15:11
    die Fähigkeit, aber selbst
    wenn Ihnen das nicht reicht,
  • 15:11 - 15:16
    ist es sehr leicht, diese Daten
    öffentlich zugänglich zu machen.
  • 15:26 - 15:28
    - (Person 2) Vielen Dank. Hallo.
    - (Yang) Hallo.
  • 15:28 - 15:31
    (Person 2) Können Sie
    etwas mehr dazu sagen,
  • 15:31 - 15:35
    wie eine Person, die Niedersorbisch
    spricht, auf die Daten zugreift?
  • 15:35 - 15:38
    Wie zum Beispiel speziell,
    wie die Informationen zu ihnen gelangt,
  • 15:38 - 15:41
    und wie Sie dazu beitragen könnte,
    sie zu überzeugen
  • 15:41 - 15:42
    um entweder die-–
  • 15:42 - 15:45
    (Yang) Großartige Frage,
    und das ist eigentlich eine,
  • 15:45 - 15:46
    über die ich auch sehr viel nachdenke,
  • 15:46 - 15:50
    denn ich denke, wenn wir
    über den Datenzugang sprechen,
  • 15:50 - 15:53
    gibt es tatsächlich mehrere Schritte.
  • 15:53 - 15:56
    Eine davon ist die Datenerhaltung,
    dass die Daten nicht verschwinden.
  • 15:56 - 15:59
    Zweitens ist es sicherzustellen,
    dass es interoperabel ist
  • 15:59 - 16:02
    und verwendet werden kann.
  • 16:02 - 16:05
    Und drittens ist sicherzustellen,
    dass es verfügbar ist.
  • 16:06 - 16:07
    Also im Fall von PanLex,
  • 16:07 - 16:10
    haben wir eine API,
    die verwendet werden kann,
  • 16:10 - 16:12
    aber nicht von einem Endnutzer
    verwendet werden kann.
  • 16:12 - 16:15
    Aber wir haben
    auch Schnittstellen entwickelt.
  • 16:15 - 16:20
    Und zum Beispiel, wenn Sie
    auf translate.panlex.org gehen,
  • 16:20 - 16:23
    können Sie Übersetzungen
    in unserer Datenbank vornehmen.
  • 16:23 - 16:26
    Wenn Sie mit der API herumspielen wollen,
    gehen Sie einfach auf Dev.panlex.org
  • 16:26 - 16:28
    und Sie können auf der API
    eine Reihe von Dingen finden,
  • 16:28 - 16:29
    oder einfach api.panlex.org.
  • 16:31 - 16:33
    Aber es gibt auch
    noch einen weiteren Schritt,
  • 16:33 - 16:37
    das heißt, wenn Sie alle Ihre Daten
    vollständig zugänglich machen,
  • 16:37 - 16:41
    mit Werkzeugen, die sehr nützlich sind,
    um darauf zugreifen zu können,
  • 16:41 - 16:43
    wenn Sie die Werkzeuge
    nicht wirklich promoten,
  • 16:43 - 16:45
    dann werden die Leute
    sie nicht benutzen können.
  • 16:45 - 16:47
    Und das ist ehrlich gesagt eine Art...
  • 16:49 - 16:51
    die Sache,
    über die nicht genug geredet wird,
  • 16:51 - 16:53
    und ich habe keine gute Antwort darauf.
  • 16:53 - 16:55
    Wie stellen wir sicher, dass –
  • 16:55 - 16:57
    Zum Beispiel,
    ich habe mich erst vor kurzem,
  • 16:57 - 17:00
    noch vor wenigen Jahren
    mit Wikidata vertraut gemacht,
  • 17:00 - 17:02
    und es ist genau die Art von Dingen,
    die mich interessieren.
  • 17:03 - 17:07
    Also, wie promoten wir uns
    selbst gegenüber anderen?
  • 17:07 - 17:09
    Ich lasse das als offene Frage stehen.
  • 17:09 - 17:11
    Wie gesagt,
    ich habe keine gute Antwort dafür.
  • 17:11 - 17:13
    Aber natürlich, um das zu tun,
  • 17:13 - 17:15
    müssen wir noch erste Schritte machen.
  • 17:22 - 17:25
    (Person 3) Wenn wir
    maschinelle Übersetzung wollen,
  • 17:25 - 17:28
    brauchen wir nicht
    ein Translation Memory?
  • 17:28 - 17:31
    Ich bin mir nicht sicher,
    ob die einzelnen Wörter,
  • 17:31 - 17:33
    die wir in Wikidata eingestellt haben,
  • 17:33 - 17:37
    oder diese kurzen Sätze,
    die wir in Wikidata eingestellt haben,
  • 17:37 - 17:41
    entweder als gewöhnliche Wikidata-Elemente
    oder als Wikidata-Lexeme,
  • 17:41 - 17:44
    ausreichend sind,
    um eine korrekte Übersetzung zu machen.
  • 17:44 - 17:47
    Wir brauchen ganze Sätze,
    zum Beispiel, für –
  • 17:47 - 17:48
    (Yang) Ja, absolut.
  • 17:49 - 17:51
    (Person 3) Und woher bekommen
    wir diese Datenstruktur?
  • 17:51 - 17:55
    Ich bin mir nicht sicher,
    ob das derzeit der Fall ist,
  • 17:55 - 18:00
    Wikidata kann sehr gut
  • 18:00 - 18:03
    mit dem Problem
    eines Übersetzungsspeichers umgehen,
  • 18:04 - 18:06
    translatewiki.net,
  • 18:06 - 18:09
    diese Lücke zu füllen...
  • 18:12 - 18:15
    Sollten wir etwas in dieser Hinsicht tun,
    oder sollten wir-–
  • 18:15 - 18:17
    (Yang) Ja, und ich weiß,
    Ihre Frage zu schätzen.
  • 18:17 - 18:19
    Ich habe das schon einmal angesprochen,
  • 18:19 - 18:21
    aber ich würde es gerne
    noch einmal wiederholen.
  • 18:21 - 18:25
    Genau das ist der Grund, dass PanLex
    mit lexikalischen Daten arbeitet
  • 18:25 - 18:27
    und warum ich mich
    über lexikalische Daten freue,
  • 18:27 - 18:30
    im Gegensatz zu –
    nicht im Gegensatz zu, sondern zusätzlich
  • 18:30 - 18:32
    zu maschinellen Übersetzungsmaschinen
  • 18:32 - 18:35
    und maschineller Übersetzung
    im Allgemeinen.
  • 18:36 - 18:39
    Wie Sie sagten, maschinelle Übersetzung
    erfordert eine bestimmte Art von Daten
  • 18:40 - 18:43
    und keine Daten sind verfügbar
    für die meisten Sprachen der Welt.
  • 18:43 - 18:45
    Für die große Mehrheit
    der Sprachen der Welt
  • 18:45 - 18:47
    ist es einfach nicht verfügbar.
  • 18:47 - 18:48
    Aber das heißt nicht,
    dass wir aufgeben sollten.
  • 18:48 - 18:50
    Warum?
  • 18:51 - 18:54
    Wenn ich meine türkische Speisekarte
    übersetzen müsste,
  • 18:55 - 18:56
    dann wird die lexikalische Übersetzung
  • 18:57 - 18:59
    wahrscheinlich ein außergewöhnlich
    gutes Werkzeug dafür sein.
  • 18:59 - 19:02
    Nun, ich sage nicht, dass Sie
    die lexikalische Übersetzung
  • 19:02 - 19:05
    zur perfekten Übersetzung
    von Absätzen verwenden können,
  • 19:05 - 19:07
    Mit lexikalischer Übersetzung
    meine ich Wort für Wort,
  • 19:07 - 19:10
    und Wort-zu-Wort-Übersetzung
    kann äußerst nützlich sein,
  • 19:12 - 19:14
    Es ist lustig, darüber nachzudenken,
  • 19:14 - 19:17
    wir hatten nicht Zugang zu
    guter maschineller Übersetzung.
  • 19:17 - 19:20
    Nicht jeder hatte Zugang dazu
    bis vor kurzem.
  • 19:20 - 19:24
    Und wir kamen immer noch
    mit Wörterbüchern aus,
  • 19:24 - 19:28
    und sie sind
    eine unglaublich gute Ressource.
  • 19:28 - 19:31
    Und die Daten sind verfügbar,
    warum sollte man sie nicht
  • 19:31 - 19:34
    für die Welt als Ganzes und die Sprecher
    dieser Sprachen verfügbar machen?
  • 19:36 - 19:39
    (Person 4) Hallo, welche
    Mechanismen haben Sie
  • 19:39 - 19:41
    wenn die Gemeinschaft selbst –
    ich bin hier drüben.
  • 19:41 - 19:43
    - (Yang) Wo sind Sie? Okay
    - (Person 4) Ja, Entschuldigung. (lacht)
  • 19:43 - 19:45
    wenn die Gemeinschaft selbst
  • 19:45 - 19:47
    keinen Teil ihrer Daten
    in PanLex haben möchte?
  • 19:47 - 19:49
    (Yang) Großartige Frage.
  • 19:49 - 19:52
    Die Art und Weise, wie wir damit arbeiten,
  • 19:52 - 19:54
    ist, wenn ein Wörterbuch
    veröffentlicht wird
  • 19:54 - 19:56
    und der Öffentlichkeit
    zugänglich gemacht wird,
  • 19:56 - 19:58
    ist das ein guter Hinweis.
  • 19:58 - 20:00
    Als ob man es in einem
    Geschäft kaufen könnte
  • 20:00 - 20:02
    oder in einer Universitätsbibliothek,
  • 20:02 - 20:05
    oder eine öffentliche Bibliothek,
    zu der jeder Zugang hat.
  • 20:05 - 20:08
    Das ist ein guter Hinweis,
    dass diese Entscheidung getroffen wurde.
  • 20:08 - 20:12
    (Person 4) [unhörbar]
  • 20:16 - 20:18
    (Person 5) Könnten Sie bitte
    in das Mikrofon sprechen?
  • 20:19 - 20:20
    (Yang) Können Sie das noch einmal sagen?
  • 20:20 - 20:23
    (Person 4) Linguisten haben nicht
    immer die Erlaubnis der Gesellschaft,
  • 20:23 - 20:24
    Dinge zu veröffentlichen,
  • 20:24 - 20:28
    sie veröffentlichen oft Dinge
    ohne die Zustimmung der Gemeinschaft.
  • 20:28 - 20:30
    (Yang) Und das ist absolut wahr.
  • 20:30 - 20:33
    Ich würde sagen, das ist ein –
  • 20:33 - 20:34
    es kommt vor.
  • 20:34 - 20:37
    Ich würde sagen, es ist allgemein
    eine kleine Zahl von Fällen,
  • 20:37 - 20:41
    meist in ganz Nordamerika,
  • 20:41 - 20:43
    obwohl manchmal auch
    bei südamerikanischen Sprachen.
  • 20:45 - 20:46
    Es ist etwas,
    dass wir berücksichtigen müssen.
  • 20:46 - 20:49
    Wenn wir zum Beispiel
    eine Nachricht erhalten würden,
  • 20:49 - 20:52
    dass die Daten,
    die in PanLex enthalten sind,
  • 20:52 - 20:56
    nicht für weite Welt
    zugänglich sein sollte,
  • 20:56 - 20:58
    dann würden wir sie natürlich entfernen.
  • 20:58 - 20:59
    (Person 4) Gut.
  • 21:01 - 21:02
    (Yang) Das bedeutet natürlich nicht,
  • 21:02 - 21:04
    dass wir das Urheberrecht
    unbedingt berücksichtigen,
  • 21:04 - 21:07
    aber wir werden die traditionellen
    Gemeinschaften beachten,
  • 21:07 - 21:08
    und das ist der große Unterschied.
  • 21:08 - 21:10
    (Person 4) Ja, das meine ich damit.
  • 21:15 - 21:17
    (Yang) Das ist ein interessanter Punkt,
  • 21:17 - 21:18
    was heißt,
  • 21:19 - 21:21
    dass manchmal es eine
    wirklich große Frage ist,
  • 21:21 - 21:23
    wer für eine Sprache spricht.
  • 21:23 - 21:28
    Ich hatte tatsächlich einige Erlebnisse
    im amerikanischen Südwesten
  • 21:28 - 21:30
    bei der Arbeit mit einigen Gruppen,
  • 21:30 - 21:32
    die an Eingeborenen-Sprachen,
    die Pueblo-Sprachen dort arbeiten.
  • 21:36 - 21:37
    Es gibt also ungefähr
  • 21:37 - 21:40
    sechs Pueblo-Sprachen,
    je nachdem, wie Sie es unterscheiden,
  • 21:40 - 21:42
    die in diesem Gebiet gesprochen werden.
  • 21:42 - 21:44
    Aber sie sind in
    18 verschiedenen Pueblos unterteilt,
  • 21:44 - 21:47
    und jedes hat
    seine eigene Stammesregierung,
  • 21:47 - 21:50
    und jede Regierung
    kann eine andere Meinung haben,
  • 21:50 - 21:54
    ob ihre Sprache für Außenstehende
    zugänglich sein sollte oder nicht.
  • 21:57 - 21:58
    Wie zum Beispiel Zuni Pueblo,
  • 21:58 - 22:01
    ist das einzige Pueblo,
    das die Sprache der Zuni spricht.
  • 22:02 - 22:03
    Man fragt sie einfach.
  • 22:03 - 22:05
    Und sie sind stolz darauf,
    dass ihre Sprache überall sein wird,
  • 22:05 - 22:08
    Sie haben es auf den Straßenschildern,
    es ist großartig.
  • 22:08 - 22:11
    Aber für einige der anderen Sprachen,
  • 22:11 - 22:12
    haben Sie vielleicht
    eine Gruppe, die sagt,
  • 22:13 - 22:16
    "Wir wollen nicht unsere Sprache
    für Außenstehende zugänglich machen".
  • 22:16 - 22:19
    Das benachbarte Pueblo
    mit der gleichen Sprache sagt,
  • 22:19 - 22:22
    "Wir wollen wirklich unsere Sprache
    für Außenstehende
  • 22:22 - 22:24
    durch diese technologischen Werkzeuge
    zugänglich machen,
  • 22:24 - 22:27
    weil wir wollen, dass unsere Sprache
    weiterexistiert".
  • 22:27 - 22:29
    Und es wirft eine wirklich
    interessante ethische Frage auf.
  • 22:29 - 22:32
    Denn wenn Sie einfach sagen,
  • 22:32 - 22:35
    "Gut, ich lasse das, weil diese Gruppe
    sagte, wir sollen das lassen" –
  • 22:35 - 22:37
    dann benachteiligen sie
    die zweite Gruppe,
  • 22:37 - 22:39
    weil sie aktiv wollen,
    dass Sie diese Dinge ausschließen.
  • 22:39 - 22:43
    Ich glaube nicht, dass dies eine Frage
    mit einer einfacher Antwort ist.
  • 22:43 - 22:45
    Aber ich würde das zumindest
    in Bezug auf PanLex sagen.
  • 22:45 - 22:49
    Und wir haben das tatsächlich
    bisher noch nicht erlebt,
  • 22:49 - 22:50
    soweit ich weiß.
  • 22:51 - 22:53
    Nun, das könnte teilweise
    daran liegen, dass...
  • 22:54 - 22:56
    Um auf seine Frage zurückzukommen,
  • 22:56 - 22:58
    müssten wir uns vielleicht
    mehr promoten. (lacht)
  • 22:59 - 23:02
    Aber im Allgemeinen, soweit ich weiß,
  • 23:02 - 23:04
    ist das bisher noch nicht passiert.
  • 23:04 - 23:08
    Aber unser Plan dafür ist,
    wenn eine Gemeinschaft sagt,
  • 23:08 - 23:11
    dass Sie nicht ihre Daten
    in einer Datenbank haben will,
  • 23:11 - 23:12
    dann entfernen wir sie.
  • 23:12 - 23:14
    (Person 4) Wir müssen damit in Wikidata
    und Wikipedia umgehen...
  • 23:14 - 23:16
    - (Yang) Haben Sie?
    - (Person 4) ...in Kommentaren.
  • 23:16 - 23:18
    - (Yang) Echt?
    - (Person 4) Es ist ein Problem.
  • 23:18 - 23:21
    (Yang) Ja, kann ich mir bei Kommentaren
    für Fotos oder bestimmte Dinge vorstellen.
  • 23:21 - 23:23
    - (Person 4) Korrekt.
    - (Yang) Ja.
  • 23:27 - 23:33
    (Person 6) Hallo, ich habe eine Frage
    zum Crowdsourcing-Aspekt.
  • 23:34 - 23:37
    Was das Befragen
    einer Gemeinschaft betrifft,
  • 23:37 - 23:40
    um Daten für einen Datensatz
    zu kommentieren oder hinzuzufügen,
  • 23:41 - 23:44
    eines der Dinge,
    dass ein wenig einschüchtert,
  • 23:45 - 23:49
    als Redakteur kann ich nur sehen,
    welche Dinge fehlen.
  • 23:49 - 23:53
    Aber wenn ich Zeit damit verbringe
    und eine Idee habe,
  • 23:54 - 23:57
    gibt es eine Liste von Gegenständen
    mit hoher Priorität,
  • 23:58 - 24:01
    was, glaube ich, sehr motivierend ist.
  • 24:01 - 24:04
    Und ich war neugierig,
    ob Sie ein System haben,
  • 24:04 - 24:06
    was im Wesentlichen so ist wie,
  • 24:06 - 24:08
    wir kennen die Lücken
    in unseren eigenen Daten,
  • 24:08 - 24:11
    wir haben linguistische Beweise,
  • 24:11 - 24:16
    dass, wenn wir diese mit Anmerkungen
    versehen, den größten Einfluss hätten.
  • 24:16 - 24:17
    Ich kann mir also vorstellen,
  • 24:18 - 24:21
    dass das Lexem für "Haus"
    sehr wirkungsvoll wäre,
  • 24:21 - 24:25
    vielleicht kein Lexem für Daten
    oder Ähnliches.
  • 24:25 - 24:29
    Aber ich war neugierig,
    wenn Sie das hätten,
  • 24:30 - 24:33
    ob das verwendet werden könnte,
  • 24:33 - 24:36
    um diese Bemühungen
    der Gemeinschaft voranzutreiben.
  • 24:36 - 24:37
    (Yang) Großartige Frage.
  • 24:37 - 24:41
    Also Wikidata hat eine ganze Menge –
  • 24:41 - 24:45
    Entschuldigung, PanLex hat
    eine ganze Menge von Swadesh-Listen.
  • 24:45 - 24:48
    Wir haben offenbar die größte Sammlung
    von Swadesh-Listen weltweit,
  • 24:48 - 24:49
    was interessant ist.
  • 24:49 - 24:50
    Eine Swadesh-Liste ist
  • 24:50 - 24:56
    im Wesentlichen eine regulierte Liste
    lexikalischer Elemente,
  • 24:56 - 25:00
    die für die Analyse von Sprachen
    verwendet werden können.
  • 25:00 - 25:03
    Sie enthalten wirklich grundlegende Sätze.
  • 25:03 - 25:05
    Es gibt also verschiedenen Arten
    von Swadesh-Listen.
  • 25:05 - 25:07
    Aber es gibt 100 oder 213 Einheiten
  • 25:07 - 25:13
    und sie könnten Wörter wie "Haus"
    und "Auge" und "Haut" enthalten,
  • 25:13 - 25:16
    und grundsätzlich allgemeine Wörter,
    die Sie in jeder Sprache finden sollten.
  • 25:16 - 25:20
    Das ist also wirklich
    ein guter Ausgangspunkt dafür,
  • 25:20 - 25:23
    dass diese Daten zur Verfügung stehen.
  • 25:29 - 25:31
    Nun, wie ich bereits erwähnt habe,
  • 25:31 - 25:34
    Crowdsourcing ist etwas,
    was wir noch nicht tun
  • 25:34 - 25:36
    und wir sind wirklich begeistert,
    das machen zu können.
  • 25:36 - 25:39
    Ich freue mich wirklich darauf,
    mit Menschen hier darüber zu sprechen,
  • 25:39 - 25:43
    wie Crowdsourcing genutzt werden kann
  • 25:43 - 25:46
    und die Logistik dahinter,
  • 25:46 - 25:49
    und das sind die Art von Fragen,
    die dabei auftauchen können.
  • 25:51 - 25:53
    Die Antwort, die ich Ihnen geben kann,
  • 25:53 - 25:55
    dass wir eine Prioritätenliste haben –
  • 25:55 - 25:58
    dass wir definitiv
    eine Prioritätenliste haben,
  • 25:58 - 26:00
    wenn es darum geht,
    welche Sprachen wir suchen.
  • 26:00 - 26:03
    Wir suchen also nach Sprachen,
    die von technologischen Lösungen
  • 26:03 - 26:07
    derzeit nicht berücksichtigt werden,
    was oft Minderheitensprachen sind,
  • 26:07 - 26:09
    oder in der Regel Minderheitensprachen,
  • 26:09 - 26:12
    und diese dann zu priorisieren.
  • 26:14 - 26:17
    Aber in Bezug
    auf einzelne lexikalische Elemente,
  • 26:17 - 26:20
    wie wir im Allgemeinen
    neue Daten erhalten,
  • 26:20 - 26:23
    ist im Wesentlichen durch die Aufnahme
    eines ganzen Wörterbuchs.
  • 26:23 - 26:28
    Wir verlassen uns auf die Auswahl von
    lexikalischen Elementen des Wörterbuchs,
  • 26:28 - 26:31
    anstatt zu sagen, wir suchen wirklich
    das Wort für "Haus" in jeder Sprache.
  • 26:32 - 26:35
    Aber wenn es um Daten-Crowdsourcing geht,
    werden wir so etwas brauchen.
  • 26:35 - 26:38
    Dies ist also eine Gelegenheit
    für Forschung und Wachstum.
  • 26:40 - 26:43
    (Person 7) Hallo, ich bin Victor,
    und das ist großartig.
  • 26:45 - 26:47
    Da Sie hier Folien haben,
  • 26:47 - 26:49
    können Sie ein bisschen
    über den technischen Status reden,
  • 26:49 - 26:53
    ob Sie derzeit Daten-
    oder Informationsfluss
  • 26:53 - 26:57
    zwischen Wikidata und PanLex haben.
  • 26:57 - 27:04
    Ist das derzeit bereits implementiert,
    und wie gehen Sie mit Informationen um,
  • 27:04 - 27:06
    die zwischen PanLex und Wikidata
    hin und her wandern,
  • 27:06 - 27:10
    oder in einer Feedbackschleife enden.
  • 27:10 - 27:14
    (Yang) Wir haben eigentlich derzeit
    keine formelle Verbindungen zu Wikidata,
  • 27:14 - 27:15
    und das ist, wo ich wieder
  • 27:15 - 27:18
    wirklich gespannt auf die Gespräche
    innerhalb dieser Konferenz bin.
  • 27:18 - 27:21
    Wir hatten einige Interaktionen
    mit Wiktionary,
  • 27:22 - 27:27
    aber Wikidata passt, ehrlich gesagt,
    besser zum dem, was wir suchen.
  • 27:27 - 27:29
    Direktes lexikalisches Material bedeutet,
  • 27:29 - 27:32
    dass wir sehr viel weniger Datenanalyse
    und -extraktion machen müssen,
  • 27:33 - 27:35
    Und deshalb lautet die Antwort,
  • 27:35 - 27:37
    wir wissen es noch nicht,
    aber wir wollen es.
  • 27:37 - 27:40
    (Person 7) Und wenn nicht,
    was sind die Hindernisse?
  • 27:40 - 27:44
    Wie wir sehen können, unterstützt
    Wikidata bereits mehrere Sprachen,
  • 27:44 - 27:47
    aber wenn ich translate.panlex.org,
    nachschlage,
  • 27:47 - 27:49
    unterstützen Sie offenbar
    viele, viele Varianten,
  • 27:49 - 27:51
    viel mehr als Wikidata.
  • 27:51 - 27:53
    Wie erkennen Sie, ob da eine Lücke
  • 27:53 - 27:57
    zwischen Übersetzung
    oder lexikalische Übersetzung ist,
  • 27:57 - 28:00
    Anwendung versus Aufwand,
  • 28:00 - 28:04
    beim Versuch,
    eine Wissensstruktur abzubilden.
  • 28:04 - 28:06
    (Yang) Mapping-Kenntnisse werden
    sehr interessant sein.
  • 28:06 - 28:08
    Wir haben sehr interessante Diskussionen,
  • 28:08 - 28:14
    wie Wikidata ihre lexikalischen Daten
    organisiert, Ihre lexikalischen Daten,
  • 28:14 - 28:16
    und wie wir unsere lexikalischen Daten
    organisieren.
  • 28:16 - 28:18
    Und es gibt subtile Unterschiede
  • 28:18 - 28:21
    die eine Mapping-Strategie
    erfordern würde,
  • 28:21 - 28:25
    von denen einige nicht notwendigerweise
    automatisch sein müssten,
  • 28:25 - 28:27
    aber wir könnten vielleicht Techniken
    dafür entwickeln.
  • 28:27 - 28:30
    Sie nannten das Beispiel
    der Sprachvarianten.
  • 28:30 - 28:33
    Wir neigen dazu, sehr
    "haarspalterisch" zu sein,
  • 28:33 - 28:34
    wenn es um Sprachvarianten geht.
  • 28:34 - 28:36
    Mit anderen Worten,
    wenn wir eine Quelle erhalten,
  • 28:36 - 28:39
    die sagt, dass dies der
    gesprochene Dialekt
  • 28:39 - 28:42
    auf der linken Seite des Flusses
    in Papua-Neuguinea dieser Sprache ist,
  • 28:42 - 28:45
    und eine weitere Quelle, die sagt,
    das ist auf der rechten Seite des Flusses,
  • 28:45 - 28:47
    betrachten wir sie als getrennte Sprachen.
  • 28:47 - 28:51
    Und wir machen dies, um im Wesentlichen
    die meisten Daten erhalten zu können.
  • 28:52 - 28:54
    Das so abzubilden, wie Wikidata es macht –
  • 28:54 - 28:57
    Eigentlich würde ich
    gerne Gespräche führen,
  • 28:57 - 29:01
    wie die Sprachen
  • 29:01 - 29:06
    auf Wikidata gekennzeichnet sind.
  • 29:08 - 29:12
    Auch hier gehen wir mit einer
    sehr "haarspalterischen" Strategie vor.
  • 29:14 - 29:18
    Wir stützen uns weitgehend
    auf ISO 6393-Codes,
  • 29:18 - 29:20
    der vom Ethnologen bereitgestellt wird,
  • 29:20 - 29:24
    und dann für jeden einzelnen Code
    sind dann mehrere Varianten erlaubt,
  • 29:24 - 29:28
    entweder für Skript-Varianten oder
    regionale Dialekte oder Soziolekte
  • 29:28 - 29:29
    und so weiter.
  • 29:30 - 29:33
    Nochmals, Gelegenheit
    zur Diskussion und Arbeit.
  • 29:36 - 29:39
    (Person 8) Hallo, ich würde gerne wissen
    wenn Sie eine OCR-Pipeline haben
  • 29:39 - 29:45
    und vor allem, weil wir versucht haben,
    OCR bei Maya durchzuführen,
  • 29:45 - 29:48
    und keine Ergebnisse erhalten haben.
  • 29:48 - 29:50
    Es versteht nichts –
  • 29:50 - 29:53
    - (Yang) Oh, ja! (lacht)
    - (Person 8) Und... ja.
  • 29:53 - 29:56
    Wenn also Ihre Pipelines verfügbar sind.
  • 29:56 - 30:00
    Und das andere ist einfach
    eine ISO-Code-Überschneidung,
  • 30:00 - 30:02
    wenn man manchmal sagt,
  • 30:02 - 30:04
    "Oh, das ist eine Sprache,
    und dies ist eine andere Sprache",
  • 30:04 - 30:07
    aber es gibt Quellen,
    die andere Dinge sagen,
  • 30:07 - 30:10
    wie Sie bereits erwähnten,
    neigen sie dazu, sich zu überschneiden.
  • 30:10 - 30:13
    Also, wie machen Sie hier weiter...? Ja.
  • 30:13 - 30:15
    (Yang) Ja, das ist eine absolut
    fantastische Frage.
  • 30:15 - 30:17
    Gefällt mir wirklich.
  • 30:17 - 30:20
    Wir haben also keine formalisierte
    OCR-Pipeline an sich;
  • 30:20 - 30:24
    wir tun es Quelle für Quelle.
  • 30:24 - 30:26
    Einer der Gründe dafür ist,
    weil wir oft Quellen haben,
  • 30:26 - 30:29
    die nicht OCR-kompatibel sein müssen
    und für einige dieser Sprachen
  • 30:29 - 30:31
    verfügbar sind, und wir
    konzentrieren uns auf diese,
  • 30:31 - 30:33
    weil der Arbeitsaufwand geringsten ist.
  • 30:33 - 30:36
    Aber natürlich, wenn wir wirklich tief
    in unsere Quellen eintauchen wollen,
  • 30:36 - 30:41
    die in Rückstand sind, müssen wir
    starke OCR-Pipelines entwickeln.
  • 30:41 - 30:44
    Aber es gibt noch einen weiteren Aspekt,
    den Sie erwähnten...
  • 30:44 - 30:49
    die Leute, die OCR-Engines
    entwickelt haben,
  • 30:49 - 30:53
    ich denke, dass sie nicht wissen, wie
    man sie unter Stress testen kann.
  • 30:53 - 30:55
    Wissen Sie, was Spaß macht?
  • 30:55 - 30:58
    Versuchen Sie mal OCR bei
    einem Russisch-Tibetischen Wörterbuch.
  • 30:59 - 31:00
    Wie sich herausstellt,
    ist es wirklich schwer...
  • 31:01 - 31:04
    Wir gaben auf und stellten jemanden ein,
    der es einfach abtippt,
  • 31:04 - 31:06
    was durchaus machbar war.
  • 31:06 - 31:07
    Und tatsächlich stellt sich heraus,
  • 31:07 - 31:10
    dass diese erstaunliche russische Frau
    gelernt hatte, Tibetisch zu lesen,
  • 31:10 - 31:13
    damit sie dies abtippen konnte,
    was super cool war.
  • 31:15 - 31:18
    Ich denke, wenn Sie
    mit lateinischen Schriften arbeiten,
  • 31:18 - 31:22
    dann denke ich, dass OCR-Lösungen
    entwickelt werden können,
  • 31:22 - 31:25
    die robuster sind,
    die mit mehrsprachigen Quellen
  • 31:25 - 31:27
    umgehen können und erwarten,
    eine zufällige Vier zu erhalten,
  • 31:27 - 31:30
    wenn Sie sich mit Maya-Quellen
    aus dem 16. Jahrhundert befassen,
  • 31:30 - 31:32
    Sie wissen schon, mit der Ziffer vier.
  • 31:32 - 31:38
    Aber es gibt einige Quellen,
  • 31:38 - 31:40
    die OCR wahrscheinlich
    niemals schaffen wird
  • 31:40 - 31:42
    oder einen so immensen Arbeitsaufwand
    erfordert,
  • 31:43 - 31:47
    dass wir das tatsächlich nur wenig nutzen.
  • 31:47 - 31:49
    Wir haben ein weiteres Projekt
    bei PanLex laufen,
  • 31:49 - 31:54
    die gesamte traditionelle Literatur
    von Bali zu transkribieren,
  • 31:54 - 31:55
    und wir haben festgestellt,
  • 31:55 - 31:58
    dass bei den handschriftlichen
    balinesischen Manuskripten
  • 31:58 - 32:00
    keine Chance mit OCR gibt.
  • 32:00 - 32:02
    Wir haben also einen Haufen
    der Balinesen, um sie abzutippen,
  • 32:02 - 32:05
    und es ist ein wirklich
    cooles Kulturprojekt auf Bali,
  • 32:05 - 32:07
    und es ist in die Nachrichten
    gekommen und so weiter.
  • 32:07 - 32:09
    Ich würde also sagen,
  • 32:09 - 32:11
    dass Sie sich nicht unbedingt
    auf OCR verlassen müssen,
  • 32:11 - 32:13
    aber es gibt eine Menge.
  • 32:13 - 32:15
    Gute OCR-Lösungen zu haben wäre also gut.
  • 32:17 - 32:21
    Außerdem, wenn jemand hier sich
    mit super-mehrsprachigen-OCRs beschäftigt,
  • 32:21 - 32:23
    bitte reden Sie mit mir.
  • 32:30 - 32:31
    (Person 9)
    Vielen Dank für Ihre Präsentation.
  • 32:32 - 32:37
    Sie sprachen über die Integration
    zwischen PanLex und Wikidata,
  • 32:37 - 32:39
    aber nicht über Einzelheiten.
  • 32:39 - 32:43
    Ich habe also Ihre Datenlizenz überprüft,
    und sie steht unter CC0.
  • 32:43 - 32:44
    - (Yang) Ja.
    - (Person 9) Das ist großartig.
  • 32:44 - 32:46
    Es gibt also zwei mögliche Wege,
  • 32:46 - 32:49
    dass wir entweder
    die Daten importieren können
  • 32:49 - 32:53
    oder wir können mit etwas Ähnlichem
    wie der Freebase-Methode weitermachen,
  • 32:53 - 32:56
    wo wir die vollständige Datenbank
    aus der Freebase haben,
  • 32:56 - 32:59
    und importieren,
    eine Verbindung herstellen,
  • 32:59 - 33:04
    einen externen Identifier
    zur Freebase-Datenbank.
  • 33:04 - 33:08
    Wenn Sie da etwas vorhaben,
    denken Sie da ähnlich?
  • 33:08 - 33:10
    Oder Sie wollen nur...
  • 33:15 - 33:19
    eine unabhängige Datenbank,
    die mit Wikidata verknüpft werden kann?
  • 33:19 - 33:21
    (Yang) Ja, das ist eine großartige Frage
  • 33:21 - 33:23
    und eigentlich den Sachen
    einen Schritt voraus,
  • 33:23 - 33:26
    über die ich bereits nachgedacht habe,
  • 33:26 - 33:30
    teilweise, weil, wie ich schon sagte,
  • 33:30 - 33:32
    die Zusammenarbeit der beiden Datenbanken
    zu erreichen
  • 33:32 - 33:34
    ist ein Schritt in sich selbst.
  • 33:34 - 33:35
    Ich denke, der erste Schritt,
  • 33:35 - 33:38
    ist buchstäblich nur
    unsere Fähigkeiten zusammenzulegen.
  • 33:38 - 33:40
    Wir haben eine Menge Erfahrung
    mit Dingen umzugehen,
  • 33:40 - 33:43
    wie der Klassifizierungen
    von Eigenschaften einzelner Lexeme,
  • 33:43 - 33:45
    die ich gerne teilen würde.
  • 33:46 - 33:49
    Aber die Verknüpfung der Datenbanken
    selbst wäre wunderbar.
  • 33:49 - 33:51
    Ich bin zu 100 Prozent dafür.
  • 33:51 - 33:54
    Ich glaube, es würde den Weg
  • 33:54 - 33:56
    von Wikidata zu PanLex etwas vereinfachen,
  • 33:56 - 33:58
    vielleicht bin ich voreingenommen,
  • 33:58 - 34:00
    denn ich kann mir vorstellen,
    wie das funktionieren könnte.
  • 34:02 - 34:06
    Ja, im Wesentlichen,
    solange Wikidata einverstanden
  • 34:06 - 34:10
    mit all diesen Lizenzfragen ist,
    oder wir eine Lösung finden,
  • 34:10 - 34:12
    dann halte ich das
    für eine großartige Idee.
  • 34:13 - 34:16
    Wir müssten nur noch Wege
    zur Verknüpfung der Daten selbst finden.
  • 34:16 - 34:22
    Eine Sache, die ich mir vorstellen kann,
    dass Bearbeitungen von Wikidata
  • 34:23 - 34:26
    sofort in die PanLex-Datenbank
    übertragen werden,
  • 34:26 - 34:31
    ohne dass man es immer
    wieder einspielen muss.
  • 34:31 - 34:35
    Wikidata als Crowdsource-Schnittstelle
    für PanLex zu nutzen,
  • 34:35 - 34:37
    wäre wirklich großartig.
  • 34:37 - 34:40
    Und dann die Möglichkeit, PanLex
    zur sofortigen Übersetzung zu nutzen,
  • 34:40 - 34:42
    Übersetzungen über die lexikalischen
    Elemente von Wikidata zu machen –
  • 34:42 - 34:44
    das wäre herrlich.
  • 34:55 - 35:00
    (Person 10) Das ist wie der
    Auditing-Prozess dieses semantischen Webs,
  • 35:00 - 35:04
    um Löcher durch Schlussfolgerungen
    zu schließen.
  • 35:06 - 35:10
    Wenn wir diese Art
    von Übersetzung weiterdenken,
  • 35:10 - 35:13
    wie gehen Sie
    mit semantischer Fehlanpassung um
  • 35:13 - 35:16
    und grammatikalischen Ungleichgewichten?
  • 35:16 - 35:19
    Wenn Sie zum Beispiel versuchen,
    etwas auf Deutsch zu übersetzen,
  • 35:19 - 35:22
    können Sie einfach
    mehrere Wörter zusammenfügen
  • 35:22 - 35:26
    und etwas Vernünftiges erreichen,
  • 35:26 - 35:29
    und auf der anderen Seite,
    glaube ich, lese ich manchmal,
  • 35:33 - 35:38
    dass nicht jede Sprache
    das gleiche granulare System
  • 35:38 - 35:40
    für Farben hat, zum Beispiel.
  • 35:42 - 35:44
    (Yang) Sagen Sie, alle verwenden
    ein anderes System für Farben
  • 35:44 - 35:46
    oder sind sie gleich?
  • 35:46 - 35:47
    (Person 10) Ich denke, dass es vielleicht
  • 35:47 - 35:49
    nur um die Evolution der Sprache geht,
  • 35:49 - 35:52
    dass sie anfangs mit Schwarz
    und Weiß anfingen und dann –
  • 35:52 - 35:53
    (Yang) Ja, die Farbhierarchie.
  • 35:53 - 35:56
    Eigentlich ist Farbhierarchie
    eine gute Möglichkeit,
  • 35:56 - 35:58
    zu veranschaulichen,
    wie das funktioniert, richtig?
  • 35:58 - 36:01
    Also, im Wesentlichen,
    wenn Sie eine einzige Pivotsprache haben –
  • 36:02 - 36:05
    Es ist interessant, wenn Sie Papiere
    über maschinelle Übersetzungen lesen,
  • 36:05 - 36:08
    denn oft sprechen sie über
    eine hypothetische Pivotsprache,
  • 36:08 - 36:10
    sie sagen: "Es gibt eine Pivot-Sprache".
  • 36:10 - 36:12
    und dann lesen sie das Papier
    und sagen: "Das ist Englisch."
  • 36:12 - 36:17
    Und was diese Form
    der lexikalischen Übersetzung macht,
  • 36:17 - 36:20
    ist, es durch viele verschiedene
    Zwischensprachen zu schicken,
  • 36:21 - 36:24
    das hat die Wirkung,
    dass es mit einer Menge
  • 36:24 - 36:26
    semantischer Mehrdeutigkeit umgehen kann.
  • 36:26 - 36:28
    Denn solange Sie es
    durch die Sprachen schicken,
  • 36:28 - 36:33
    die die gleichen, einigermaßen ähnlichen
    semantische Grenzen bei einem Wort haben,
  • 36:33 - 36:37
    dann können Sie das Problem
  • 36:37 - 36:40
    der semantischen Mehrdeutigkeit
    durch die Pivotsprache vermeiden.
  • 36:40 - 36:43
    Die Farbhierarchie als Beispiel,
  • 36:43 - 36:46
    wenn Sie eine Sprache nehmen,
    die ein einziges Farbwort
  • 36:46 - 36:48
    für Grün und Blau
  • 36:48 - 36:53
    und es in Ihrer Single-Pivot-Sprache
    und als Blau übersetzt wird,
  • 36:53 - 36:57
    und dann in eine andere Sprache,
    die dabei verschiedene Unklarheiten hat,
  • 36:57 - 37:00
    dann haben Sie am Ende
    semantische Zweideutigkeit.
  • 37:00 - 37:02
    Aber wenn Sie es durch
    andere Sprachen laufen lassen,
  • 37:02 - 37:06
    die auch einzelne lexikalische Begriffe
    für Grün und Blau haben,
  • 37:06 - 37:11
    dann wird diese semantische Spezifität
  • 37:11 - 37:17
    an die Zielsprache weitergereicht.
  • 37:18 - 37:21
    Was die Aspekte
    der grammatikalischen Merkmale betrifft,
  • 37:21 - 37:23
    PanLex hat in seiner Geschichte
    in erster Linie,
  • 37:23 - 37:29
    im Wesentlichen Lexeme gesammelt,
    im Wesentlichen lexikalische Formen.
  • 37:30 - 37:32
    Und mit im Wesentlichen meine ich,
  • 37:32 - 37:34
    was auch immer Sie als Stichwort
    für ein Wörterbuch bekommen.
  • 37:35 - 37:38
    Wir müssen uns also
    derzeit nicht unbedingt
  • 37:38 - 37:41
    auf das Sammeln grammatikalischer
    Variantenformen konzentrieren,
  • 37:41 - 37:45
    nicht schriftliche Daten et cetera
    oder Vergangenheits- und Gegenwartsform.
  • 37:45 - 37:46
    Aber das ist etwas, das wir untersuchen.
  • 37:46 - 37:48
    Eine Sache, die immer zu beachten ist,
  • 37:48 - 37:51
    dass unser Fokus –
  • 37:51 - 37:54
    auf unterrepräsentierte und gefährdete
    Minderheitensprachen liegt,
  • 37:55 - 37:58
    wollen wir sicherstellen,
    dass etwas verfügbar ist,
  • 37:58 - 38:00
    bevor wir es perfekt machen.
  • 38:01 - 38:03
    Ein Satz, den ich absolut liebe,
  • 38:03 - 38:05
    ist "Lass Perfektion nicht
    der Feind des Guten sein",
  • 38:05 - 38:07
    und das ist es, was wir vorhaben.
  • 38:07 - 38:09
    Aber wir sind super interessiert
    an der Idee,
  • 38:09 - 38:12
    mit grammatikalischen Formen
    umgehen zu können,
  • 38:12 - 38:14
    und darüber zu übersetzen,
  • 38:14 - 38:17
    wir haben Untersuchungen durchgeführt,
    aber noch nicht vollständig umgesetzt.
  • 38:25 - 38:29
    (Person 11) Also,
    von den etwa 7500 Sprachen,
  • 38:30 - 38:32
    ich nehme an, Sie verlassen
    sich auf Wörterbücher,
  • 38:32 - 38:35
    die für uns geschrieben werden,
    aber haben alle diese Sprachen
  • 38:35 - 38:38
    standardisierte schriftliche Formen
    und wie gehen Sie damit um...?
  • 38:38 - 38:40
    (Yang) Das ist eine großartige Frage.
  • 38:42 - 38:48
    Im Wesentlichen, ja, viele dieser Sprachen
    sind, wie jeder weiß, ungeschrieben.
  • 38:48 - 38:51
    Jedoch jede Sprache,
    für die ein Wörterbuch erstellt wurde,
  • 38:51 - 38:52
    hat eine Art von Rechtschreibung,
  • 38:52 - 38:57
    und wir verlassen uns
    auf die Rechtschreibung des Wörterbuchs.
  • 38:57 - 39:00
    Wir machen gelegentlich einige
    leichte Korrekturen der Orthographie,
  • 39:00 - 39:03
    wenn wir garantieren können,
    dass sie im Grunde verlustfrei ist.
  • 39:03 - 39:06
    Aber wir neigen dazu,
    sie so weit wie möglich zu vermeiden.
  • 39:08 - 39:11
    Also, wir sind nicht im Geschäft
  • 39:11 - 39:13
    der Entwicklung
    von Orthographien für Sprachen,
  • 39:13 - 39:15
    weil sie sich oft nicht entwickelt haben,
  • 39:15 - 39:17
    auch wenn sie nicht wirklich
    weit veröffentlicht wurden.
  • 39:17 - 39:22
    Also, zum Beispiel,
  • 39:22 - 39:26
    für viele Sprachen,
    die in Neuguinea gesprochen werden,
  • 39:26 - 39:29
    gibt es vielleicht keine gemeinsame
    verwendete orthographische Form,
  • 39:29 - 39:31
    aber einige Linguisten
    lassen sich etwas einfallen
  • 39:31 - 39:32
    und das ist ein guter erster Schritt.
  • 39:33 - 39:37
    Wir sammeln auch phonetische Formen
    wenn sie in Wörterbüchern verfügbar sind,
  • 39:37 - 39:38
    und das ist also ein weiterer Weg dahin,
  • 39:38 - 39:42
    im Wesentlichen eine IPA-Darstellung
    des Wortes, wenn das verfügbar ist.
  • 39:42 - 39:43
    Das kann also auch genutzt werden.
  • 39:43 - 39:46
    Aber wir verwenden das
    nicht normalerweise als Pivot,
  • 39:46 - 39:48
    weil das gewisse Unklarheiten einführt.
  • 39:53 - 39:56
    (Person 12) Vielen Dank,
    das ist vielleicht eine sehr dumme Frage,
  • 39:56 - 40:01
    aber sind das nur die Zwischensprachen,
    mit denen Sie arbeiten?
  • 40:01 - 40:02
    (Yang) Oh, nein. Oh, nein.
  • 40:02 - 40:04
    (Person 12) In Ordnung, ich danke Ihnen.
  • 40:04 - 40:06
    (Yang) Ich bin froh, dass Sie das fragen.
  • 40:06 - 40:09
    Dies ist also eigentlich
    ein Screenshot-Schnappschuss
  • 40:09 - 40:11
    von translate.panlex.org.
  • 40:11 - 40:13
    Wenn Sie eine Übersetzung machen,
  • 40:13 - 40:15
    gibt es auf der rechten Seite
    eine Liste der Übersetzungen.
  • 40:15 - 40:18
    Sie klicken auf die Schaltfläche ...,
    und erhalten Sie eine solche Grafik.
  • 40:18 - 40:24
    Und dies zeigt die Zwischensprachen,
    die Top 20 nach Punktzahl.
  • 40:24 - 40:27
    Wie wir die Punktzahl erstellen,
    ist jetzt nicht so wichtig –
  • 40:27 - 40:30
    nach der verwendeten Punktzahl.
  • 40:30 - 40:33
    Aber für die Übersetzung, verwenden
    wir tatsächlich weit mehr als 20.
  • 40:33 - 40:36
    Warum ich die Obergrenze
    bei 20 Prozent setze, liegt daran,
  • 40:36 - 40:38
    das ist eigentlich
    wie eine Art Physiksimulation.
  • 40:38 - 40:40
    Sie können die Dinge bewegen
    und sie wackeln.
  • 40:40 - 40:42
    Wenn Sie mehr als 20 haben,
    wird Ihr Computer wirklich wütend.
  • 40:45 - 40:47
    Es ist also eher eine Demonstration, ja.
  • 40:56 - 40:58
    (Person 13) Leila,
    von der Wikimedia Foundation.
  • 40:58 - 41:00
    Nur eine Anmerkung zu –
  • 41:00 - 41:03
    Sie erwähnten die Wikimedia Foundation
    ein paar Mal in Ihrer Präsentation,
  • 41:03 - 41:07
    Ich wollte sagen, wenn Sie jede Art
    von Dateneinspielung vornehmen wollen,
  • 41:07 - 41:08
    oder eine Zusammenarbeit mit Wikidata,
  • 41:09 - 41:11
    wäre vielleicht Wikimedia Deutschland
    ein besserer Ort,
  • 41:11 - 41:13
    mit dem man diese Gespräche führen kann?
  • 41:13 - 41:16
    Weil Wikidata lebt innerhalb
    von Wikimedia Deutschland
  • 41:16 - 41:18
    und das Team ist da,
  • 41:18 - 41:20
    und auch die Gemeinschaft
    von Freiwilligen rund um Wikidata
  • 41:20 - 41:24
    wäre der perfekte Ort für ein Gespräch
  • 41:24 - 41:26
    über jede Art der Einspielung
  • 41:26 - 41:31
    oder PanLex näher an Wikidata zu bringen.
  • 41:32 - 41:33
    (Yang) Großartig, vielen Dank,
  • 41:33 - 41:35
    denn ehrlich gesagt,
    bin ich nicht wirklich vertraut
  • 41:35 - 41:38
    mit all den Feinheiten der Architektur,
  • 41:38 - 41:40
    wie alle Projekte sich
    aufeinander beziehen.
  • 41:40 - 41:42
    Nach dem Lachen zu urteilen,
    ist es wohl kompliziert.
  • 41:42 - 41:46
    Aber, ja, also im Grunde genommen
    würden wir mit demjenigen reden wollen,
  • 41:46 - 41:48
    der für Wikidata verantwortlich ist.
  • 41:48 - 41:52
    Also einfach,
    um eine Platzierung vorzunehmen,
  • 41:53 - 41:55
    wer auch immer für Wikidata
    verantwortlich ist, ist derjenige,
  • 41:55 - 41:56
    mit dem wir reden wollen,
  • 41:56 - 41:58
    und das sind alle Freiwilligen.
  • 42:03 - 42:05
    Haben Sie noch weitere Fragen?
  • 42:10 - 42:14
    Okay, nun, wenn jemand am Ende
    darüber hinaus noch weitere Fragen hat,
  • 42:14 - 42:18
    oder über die ich gesprochen habe –
    Details und Einzelheiten dieser Dinge,
  • 42:18 - 42:20
    bitte kommen Sie und reden mit mir,
  • 42:20 - 42:24
    und wenn Sie mit allem,
    was lexikalisches Zeug beinhaltet,
  • 42:24 - 42:29
    allem, was mit gefährdeten
    Minderheitensprachen
  • 42:29 - 42:30
    und unterrepräsentierten Sprachen
    zu tun hat,
  • 42:30 - 42:34
    und auch Unicode, was ich auch tue.
  • 42:36 - 42:40
    Vielen Dank also, und dafür, dass Sie
    mich als Sprecher eingeladen haben.
  • 42:40 - 42:42
    Ich hoffe, dass es Ihnen gefallen hat.
  • 42:42 - 42:44
    (Beifall)
Title:
cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4
Video Language:
English
Duration:
42:53

German subtitles

Revisions