Return to Video

cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

  • 0:01 - 0:04
    WikiData und Sprachen
  • 0:06 - 0:07
    (Lydia) Vielen Dank.
  • 0:07 - 0:11
    Also, in dieser Konferenz sind
    einige der großen Themen die Sprachen.
  • 0:14 - 0:18
    Ich möchte Ihnen einen Überblick
    darüber geben, wo wir derzeit
  • 0:18 - 0:20
    beim Thema Sprachen stehen
  • 0:20 - 0:22
    und wie wir von hier aus
    weitermachen können.
  • 0:26 - 0:29
    [Mehr Leuten mehr Zugang
    zu mehr Wissen geben]
  • 0:29 - 0:33
    Bei Wikidata geht es darum, mehr Menschen
    mehr Zugang zu mehr Wissen zu geben,
  • 0:33 - 0:37
    und Sprache ist ein wichtiger Teil davon,
    dies Wirklichkeit werden zu lassen,
  • 0:38 - 0:43
    zumal immer mehr unseres Lebens
    von der Technologie abhängt.
  • 0:44 - 0:49
    Und wie unser Hauptredner vorhin sagte,
  • 0:50 - 0:52
    fallen durch einen Teil der Technologie
    die Menschen einfach zurück,
  • 0:52 - 0:55
    weil sie eine bestimmte Sprache
    einfach nicht sprechen können,
  • 0:55 - 0:57
    und das ist nicht in Ordnung.
  • 0:59 - 1:02
    Deshalb wollen wir etwas
    dagegen unternehmen.
  • 1:03 - 1:06
    Und um das zu ändern,
    braucht man mindestens zwei Dinge.
  • 1:06 - 1:11
    Erstens muss man den Leuten Inhalte
    in ihrer Sprache zur Verfügung stellen,
  • 1:11 - 1:13
    und zweitens muss man ihnen
  • 1:13 - 1:16
    in diesen Anwendungen
    oder was immer man hat,
  • 1:16 - 1:19
    Interaktion in ihrer Sprache ermöglichen.
  • 1:20 - 1:25
    Und Wikidata hilft bei beiden davon.
  • 1:25 - 1:28
    Und die erste Sache,
    der Inhalt in Ihrer Sprache,
  • 1:28 - 1:31
    das ist im Grunde das, was wir
    an Objekten und Eigenschaften haben,
  • 1:31 - 1:33
    wie wir die Welt beschreiben.
  • 1:33 - 1:35
    Nun, das ist sicherlich nicht alles,
    was man braucht,
  • 1:35 - 1:39
    aber es bringt einen ziemlich weit voran.
  • 1:40 - 1:42
    Die andere Sache ist
    die Interaktion in Ihrer Sprache,
  • 1:42 - 1:46
    und hier kommen Lexeme ins Spiel.
  • 1:46 - 1:49
    Wenn Sie mit Ihrem digitalen
    persönlichen Assistenten sprechen wollen
  • 1:49 - 1:55
    oder wenn Sie Ihr Gerät einen Text
    und solche Dinge übersetzen lassen wollen.
  • 1:56 - 1:59
    Na gut, sehen wir uns
    den Inhalt in Ihrer Sprache an.
  • 1:59 - 2:03
    Also, was wir an Objekten
    und Eigenschaften haben.
  • 2:05 - 2:10
    Dafür sind Bezeichnungen in den Objekten
    und Eigenschaften entscheidend.
  • 2:10 - 2:15
    Wir müssen wissen, wie diese Entität
    genannt wird, über die wir sprechen.
  • 2:16 - 2:20
    Und anstatt über Q5 zu sprechen,
  • 2:20 - 2:22
    jemand, der Englisch spricht, weiß,
    dass das ein "human" ist,
  • 2:22 - 2:25
    jemand, der Deutsch spricht, weiß,
    dass das ein "Mensch" ist,
  • 2:25 - 2:26
    und ähnliche Dinge.
  • 2:26 - 2:30
    Also überbrücken diese Bezeichnungen
    auf Objekten und Eigenschaften
  • 2:30 - 2:33
    die Kluft zwischen Mensch und Maschine.
  • 2:33 - 2:35
    Und Menschen und Menschen
  • 2:35 - 2:40
    machen mehr vorhandenes Wissen
    für sie zugänglich.
  • 2:43 - 2:46
    Das ist ein schönes Ziel zum Anstreben.
  • 2:46 - 2:48
    Wie sieht es eigentlich aus?
  • 2:48 - 2:50
    Es sieht so aus.
  • 2:51 - 2:53
    Was Sie hier sehen, ist,
  • 2:53 - 2:58
    dass die meisten Objekte auf Wikidata
    zwei Bezeichnungen haben,
  • 2:58 - 3:01
    also Bezeichnungen in zwei Sprachen.
  • 3:02 - 3:04
    Und danach nur eines und dann drei,
  • 3:04 - 3:06
    und dann wird es sehr düster.
  • 3:07 - 3:09
    (leises Lachen)
  • 3:10 - 3:13
    Ich denke, wir müssen es besser machen.
  • 3:14 - 3:16
    Aber andererseits
    habe ich eigentlich erwartet,
  • 3:16 - 3:18
    dass es schlimmer sein würde.
  • 3:18 - 3:20
    Ich habe erwartet,
    dass der Durchschnitt eines sein würde.
  • 3:20 - 3:23
    Deshalb war ich ziemlich froh,
    zwei zu sehen. (lacht)
  • 3:25 - 3:26
    In Ordnung.
  • 3:27 - 3:30
    Aber es ist nicht nur interessant
    zu wissen,
  • 3:30 - 3:34
    wie viele Bezeichnungen unsere
    Objekte und Eigenschaften haben.
  • 3:34 - 3:37
    Es ist auch interessant zu sehen,
    in welchen Sprachen.
  • 3:38 - 3:44
    Hier sehen Sie eine Grafik der Sprachen,
  • 3:44 - 3:47
    für die wir Bezeichnungen
    auf den Objekten haben.
  • 3:47 - 3:51
    Der größte Teil davon ist also Sonstiges.
  • 3:51 - 3:54
    Ich habe also nur
    die 100 wichtigsten Sprachen ausgewählt
  • 3:55 - 3:59
    und alles andere ist Sonstiges,
    um diese Grafik lesbar zu machen.
  • 4:00 - 4:02
    Und dann gibt es noch
    Englisch und Niederländisch,
  • 4:03 - 4:04
    Französisch
  • 4:06 - 4:09
    und, nicht zu vergessen, Asturisch.
  • 4:10 - 4:12
    - (Person 1) Juhu!
    - (Lydia) Juhuu, jawohl!
  • 4:14 - 4:17
    Was Sie hier sehen,
    ist also ein ziemliches Ungleichgewicht
  • 4:17 - 4:20
    und immer noch eine starke Konzentration
    auf Englisch.
  • 4:21 - 4:24
    Eine andere Sache ist, wenn Sie sich
    das Gleiche für Eigenschaften ansehen,
  • 4:24 - 4:26
    sieht es eigentlich besser aus.
  • 4:27 - 4:33
    Und teilweise kommt das davon, dass es
    einfach viel weniger Eigenschaften waren.
  • 4:33 - 4:37
    Also haben auch kleinere Communites
    eine Chance, damit Schritt zu halten.
  • 4:37 - 4:39
    Aber es ist auch ein ziemlich
    wichtiger Teil von Wikidata,
  • 4:39 - 4:41
    dass man in seine Sprache
    lokalisieren kann.
  • 4:41 - 4:42
    Das ist also gut.
  • 4:46 - 4:48
    Was ich hier mit Asturisch
    hervorheben möchte, ist,
  • 4:48 - 4:54
    dass eine kleine Gemeinschaft
    mit etwas Hingabe und Arbeit
  • 4:54 - 4:57
    wirklich einen großen Unterschied
    machen kann,
  • 4:57 - 4:58
    und das ist wirklich cool.
  • 5:02 - 5:03
    Ein kleines Quiz für Sie.
  • 5:03 - 5:05
    Wenn Sie alle Eigenschaften
    auf Wikidata nehmen,
  • 5:05 - 5:08
    die keine externen Identifikatoren sind,
  • 5:08 - 5:10
    welche hat dann die meisten Bezeichnungen,
    also die meisten Sprachen?
  • 5:11 - 5:14
    (Publikum) [Gemurmel]
  • 5:14 - 5:17
    Ich höre eine gewisse Übereinstimmung
    über die Instanz von?
  • 5:18 - 5:19
    Sie würden sich irren.
  • 5:20 - 5:22
    Es ist Bild. (lacht)
  • 5:23 - 5:26
    Also, ja, das sagt Ihnen,
    wenn Sie eine der Sprachen sprechen,
  • 5:26 - 5:29
    in denen Instanz von
    noch keine Bezeichnung hat,
  • 5:29 - 5:30
    sollten Sie sie vielleicht hinzufügen.
  • 5:32 - 5:36
    Es hat also derzeit 148 Bezeichnungen.
  • 5:38 - 5:41
    Aber das ist eine andere Folie.
  • 5:43 - 5:45
    Diese Grafik sagt uns etwas darüber,
  • 5:45 - 5:49
    wie viel Inhalt wir in einer bestimmten
    Sprache zur Verfügung stellen
  • 5:49 - 5:52
    und wie viel von diesem Inhalt
    tatsächlich genutzt wird.
  • 5:52 - 5:55
    Was Sie also sehen,
    ist im Grunde eine Kurve,
  • 5:55 - 5:59
    bei der die meisten Inhalte
    englische Beschriftungen haben,
  • 5:59 - 6:04
    in Englisch verfügbar sind
    und viel genutzt werden.
  • 6:04 - 6:06
    Und dann geht sie abwärts.
  • 6:06 - 6:09
    Aber was Sie wiederum sehen,
    sind Ausreißer,
  • 6:09 - 6:15
    die viel mehr Inhalte haben,
    als Sie unbedingt erwarten würden,
  • 6:17 - 6:20
    und das ist wirklich, wirklich gut.
  • 6:21 - 6:25
    Das Problem ist immer noch,
    dass es nicht oft verwendet wird.
  • 6:26 - 6:29
    Asturisch und Niederländisch
    sollten höher stehen,
  • 6:29 - 6:32
    und ich denke, dass es echt nützlich ist,
  • 6:33 - 6:36
    diesen Gemeinden dabei zu helfen,
  • 6:36 - 6:38
    die Nutzung der gesammelten Daten
    zu erhöhen.
  • 6:43 - 6:48
    Was diese und andere Analysen
    uns gezeigt haben, ist eine gute Sache,
  • 6:48 - 6:51
    denn wir sehen,
    dass stark genutzte Artikel
  • 6:51 - 6:55
    auch dazu neigen,
    mehr Bezeichnungen zu haben
  • 6:55 - 6:58
    oder umgekehrt - das ist nicht ganz klar.
  • 7:03 - 7:04
    Und dann stellt sich die Frage,
  • 7:05 - 7:07
    ob wir nur die mächtigen Sprachen
    bedienen.
  • 7:08 - 7:11
    Oder dienen wir allen?
  • 7:13 - 7:18
    Und was Sie hier sehen,
    ist eine Gruppierung der Sprachen.
  • 7:18 - 7:22
    Die Sprachen, die in einer Gruppe sind,
    haben oft gemeinsame Bezeichnungen.
  • 7:26 - 7:29
    Und Sie sehen, dass diese sich gruppieren.
  • 7:29 - 7:35
    Hier ist eine ähnliche Gruppierung,
    in Farbe, basierend darauf,
  • 7:35 - 7:39
    wie lebendig, wie oft verwendet
  • 7:40 - 7:43
    und wie gefährdet die Sprache ist.
  • 7:43 - 7:45
    Und eine gute Sache, die Sie hier sehen,
  • 7:45 - 7:49
    ist, dass sichere Sprachen
    und gefährdete Sprachen
  • 7:49 - 7:54
    nicht zwei verschiedene Cluster bilden,
  • 7:54 - 7:59
    sondern sie sind alle
    miteinander vermischt,
  • 8:00 - 8:05
    was viel besser ist als umgekehrt,
  • 8:05 - 8:09
    wenn die sicheren Sprachen,
    die mächtigen Sprachen,
  • 8:10 - 8:12
    sich nur gegenseitig aushelfen würden.
  • 8:13 - 8:14
    Nein, das ist nicht der Fall.
  • 8:14 - 8:17
    Und das ist wirklich eine gute Sache.
  • 8:17 - 8:20
    Als ich das sah, fand ich das sehr gut.
  • 8:23 - 8:25
    Hier ist eine ähnliche Sache,
  • 8:26 - 8:29
    bei der wir uns
  • 8:30 - 8:34
    den Status der Sprachen
  • 8:34 - 8:36
    und die Anzahl der Bezeichnungen
    angesehen haben.
  • 8:39 - 8:43
    Was Sie sehen, ist ein klarer Sieg
    für ungefährdete Sprachen,
  • 8:43 - 8:44
    wie zu erwarten ist.
  • 8:46 - 8:47
    Aber was Sie auch sehen, ist,
  • 8:47 - 8:54
    dass die Sprachen in Kategorie 2
    und 3 und vielleicht sogar 4
  • 8:54 - 8:59
    eigentlich gar nicht so schlecht sind,
  • 8:59 - 9:02
    was ihre Darstellung in Wikidata
    und anderen angeht.
  • 9:03 - 9:06
    Das festzustellen, ist wirklich gut.
  • 9:08 - 9:10
    Wenn man sich nun
    die gleiche Sache anschaut,
  • 9:10 - 9:12
    wie viel von dem Inhalt
    dieser Bezeichnungen
  • 9:12 - 9:15
    beispielsweise auf Wikipedia
    tatsächlich verwendet wird,
  • 9:17 - 9:23
    dann sehen wir ein ähnliches Bild,
    das wieder auftaucht.
  • 9:24 - 9:30
    Es zeigt uns, dass diese Communities
    ihre Zeit tatsächlich gut nutzen,
  • 9:30 - 9:35
    indem sie beispielsweise Bezeichnungen
    für stärker verwendete Artikel eintragen.
  • 9:36 - 9:40
    Es gibt Ausreißer, bei denen wir
    meiner Meinung nach helfen können,
  • 9:42 - 9:44
    um diesen Communities zu helfen,
  • 9:44 - 9:48
    die Orte zu finden,
    wo ihre Arbeit am wertvollsten wäre.
  • 9:49 - 9:53
    Aber insgesamt bin ich
    mit diesem Bild zufrieden.
  • 9:55 - 10:00
    Nun, das war der Teil der Objekte
    und Eigenschaften von Wikidata.
  • 10:01 - 10:03
    Betrachten wir nun die Interaktion
    in Ihren Sprachen.
  • 10:03 - 10:05
    Also die Lexeme-Teile von Wikidata,
  • 10:05 - 10:09
    in denen wir Wörter und ihre Formen
    und ihre Bedeutungen beschreiben.
  • 10:10 - 10:13
    Wir machen das jetzt
    seit Mai letzten Jahres,
  • 10:16 - 10:19
    und der Inhalt ist gewachsen.
  • 10:20 - 10:22
    Sie können hier in Blau die Lexeme sehen
  • 10:22 - 10:26
    und dann in rot die Formen
    auf diesen Lexemen
  • 10:26 - 10:30
    und in gelb die Bedeutung
    auf diesen Lexemen.
  • 10:31 - 10:34
    Einige Communities--
    dazu kommen wir später --
  • 10:34 - 10:40
    haben also viel Zeit damit verbracht,
    Formen und Bedeutungen für ihre Lexeme
  • 10:40 - 10:43
    zu erstellen, was wirklich nützlich ist,
  • 10:43 - 10:48
    denn das bildet den Kern
    des Datensatzes, den Sie benötigen.
  • 10:51 - 10:55
    Nun haben wir uns alle Sprachen angesehen,
  • 10:55 - 10:58
    die Lexeme auf Wikidata haben.
  • 10:58 - 11:01
    Die Wörter, die wir haben,
  • 11:02 - 11:04
    das sind im Moment 310 Sprachen.
  • 11:05 - 11:08
    Was ist Ihrer Meinung nach
    die wichtigste Sprache,
  • 11:08 - 11:12
    wenn es um die Anzahl der Lexeme geht,
    die derzeit in Wikidata enthalten sind?
  • 11:13 - 11:15
    (Publikum) [mehrere Zwischenrufe]
  • 11:19 - 11:20
    (Lydia) Hm?
  • 11:20 - 11:22
    (Person 2) Deutsch.
  • 11:22 - 11:24
    (Lydia) Entschuldigung,
    ich habe es schon mal gehört.
  • 11:24 - 11:25
    Es ist Russisch.
  • 11:28 - 11:30
    Russisch hat einen großen Vorsprung.
  • 11:32 - 11:34
    Und nur um Ihnen
    einen Eindruck zu geben,
  • 11:35 - 11:37
    es gibt verschiedene Meinungen,
  • 11:37 - 11:42
    aber ich habe zum Beispiel gelesen,
    dass 1.000 bis 3.000 Wörter
  • 11:42 - 11:45
    Sie ungefähr auf Konversationsniveau
    in einer anderen Sprache bringen
  • 11:45 - 11:49
    und 4.000 bis 10.000 Wörter
    auf ein fortgeschrittenes Niveau.
  • 11:52 - 11:55
    Wir müssen also noch ein wenig aufholen.
  • 11:58 - 12:03
    Eine Sache, die Sie beachten sollten,
    ist Baskisch hier
  • 12:03 - 12:08
    mit ungefähr 10.000 Lexemen.
  • 12:09 - 12:13
    Wenn man sich die Anzahl der Formen
    für diese Lexeme ansieht,
  • 12:14 - 12:16
    ist Baskisch weit oben,
  • 12:18 - 12:20
    was wirklich cool ist,
  • 12:20 - 12:25
    und Sie sollten zu einem Vortrag gehen,
    der Ihnen erklärt, warum das der Fall ist.
  • 12:27 - 12:30
    Wenn man sich nun die Anzahl
    der Bedeutungen anschaut,
  • 12:30 - 12:31
    also was bedeuten die Wörter,
  • 12:32 - 12:35
    steht Baskisch sogar
    ganz oben auf der Liste.
  • 12:35 - 12:37
    Ich denke, das verdient einen Applaus.
  • 12:37 - 12:39
    (Beifall)
  • 12:46 - 12:47
    Noch ein kurzes Quiz.
  • 12:47 - 12:50
    Welches ist das Lexem
    mit den meisten Übersetzungen derzeit?
  • 12:51 - 12:55
    (Publikum) Katzen, Katzen, [unhörbar],
    Douglas Adams, [unhörbar]
  • 12:57 - 13:00
    (Lydia) Alles gute Ratschläge, aber nein.
  • 13:01 - 13:04
    Es ist dies,
    das russische Wort für "Wasser".
  • 13:10 - 13:13
    Also gut, wir haben jetzt
    viel darüber gesprochen,
  • 13:13 - 13:16
    wie viele Lexeme, Formen
    und Bedeutungen wir haben,
  • 13:16 - 13:20
    aber das ist nur eine Sache,
    die man braucht.
  • 13:20 - 13:22
    Die andere Sache ist,
  • 13:22 - 13:25
    diese Lexeme, Formen und Bedeutungen
  • 13:25 - 13:27
    in maschinenlesbarer Form zu beschreiben.
  • 13:27 - 13:30
    Und dazu hat man Aussagen,
    wie zum Beispiel zu Objekten.
  • 13:31 - 13:35
    Und eine der Eigenschaften,
    die man verwendet,
  • 13:35 - 13:36
    ist ein Anwendungsbeispiel.
  • 13:36 - 13:39
    Wer also diese Daten verwendet,
  • 13:39 - 13:42
    kann verstehen, wie dieses Wort
    im Kontext zu verwenden ist,
  • 13:42 - 13:44
    so dass es zum Beispiel
    ein Zitat sein könnte.
  • 13:45 - 13:47
    Und hier liegt Polnisch ganz vorne.
  • 13:48 - 13:50
    Gute Arbeit, Polnisch-Sprecher.
  • 13:54 - 13:58
    Eine weitere Eigenschaft,
    die wirklich nützlich ist, ist IPA,
  • 13:58 - 14:00
    also wie spricht man dieses Wort aus.
  • 14:01 - 14:07
    Russisch braucht offenbar
    viele IPA-Erklärungen.
  • 14:10 - 14:13
    Aber noch einmal kommt Polnisch
    gleich hinterher.
  • 14:17 - 14:21
    Und zu guter Letzt haben wir
    auch noch eine Audioaussprache.
  • 14:21 - 14:23
    Das sind also Links
    zu Dateien auf Commons,
  • 14:23 - 14:26
    in denen jemand das Wort ausspricht,
  • 14:26 - 14:28
    so dass Sie hören können,
  • 14:28 - 14:30
    wie ein Muttersprachler
    das Wort ausspricht,
  • 14:30 - 14:33
    falls Sie zum Beispiel
    IPA nicht lesen können.
  • 14:35 - 14:39
    Und es gibt ein wirklich nettes,
    auf Wiki basierendes Projekt
  • 14:39 - 14:40
    namens Lingua Libre,
  • 14:41 - 14:45
    bei dem Sie mithelfen können,
    Wörter in Ihrer Sprache aufzunehmen,
  • 14:45 - 14:48
    die dann zu den Lexemen auf Wikidata
    hinzugefügt werden können,
  • 14:48 - 14:52
    damit andere Leute verstehen können,
    wie Ihre Wörter ausgesprochen werden.
  • 14:54 - 14:56
    (Person 2) [undeutlich]
  • 14:56 - 14:58
    (Lydia) Wenn Sie
    nach "Lingua Libre" suchen,
  • 14:58 - 15:01
    und ich bin sicher, dass es jemand
    im Telegrammkanal posten kann.
  • 15:03 - 15:05
    Die Leute sind der Hammer.
  • 15:05 - 15:07
    Sie haben wirklich coole Sachen
    mit Wikibase gemacht.
  • 15:09 - 15:11
    In Ordnung.
  • 15:13 - 15:17
    Dann ist die Frage, wie geht es weiter?
  • 15:19 - 15:22
    Basierend auf den Zahlen,
    die ich Ihnen gerade gezeigt habe,
  • 15:23 - 15:25
    haben wir einen langen Weg zurückgelegt,
  • 15:25 - 15:28
    um mehr Menschen mehr Zugang
    zu mehr Wissen zu geben,
  • 15:28 - 15:31
    was Sprachen auf Wikidata betrifft.
  • 15:33 - 15:36
    Aber es liegt auch noch
    eine Menge Arbeit vor uns.
  • 15:39 - 15:42
    Einige der Dinge, die Sie
    tun können, um zu helfen,
  • 15:42 - 15:45
    sind zum Beispiel Label-a-Thons,
  • 15:45 - 15:50
    wie Leute zusammenzubringen,
    um Objekte in Wikidata zu bezeichnen,
  • 15:51 - 15:55
    oder einen Edit-a-Thon, um Lexeme
    in Ihrer Sprache zu vervollständigen,
  • 15:55 - 15:59
    um die am häufigsten verwendeten Wörter
    in Ihrer Sprache in Wikidata zu bestimmen.
  • 16:01 - 16:03
    Oder Sie können ein Werkzeug
    wie Terminator verwenden,
  • 16:03 - 16:08
    das Ihnen hilft, die wichtigsten Elemente
    in Ihrer Sprache zu finden,
  • 16:08 - 16:12
    bei denen noch keine Bezeichnung
    vorhanden ist.
  • 16:13 - 16:18
    Am wichtigsten ist es, zu messen,
  • 16:18 - 16:22
    wie oft es in anderen Wikidata-Elementen
    als Links in Aussagen verwendet wird.
  • 16:26 - 16:30
    Und beim Lexeme-Teil
  • 16:31 - 16:35
    geht es natürlich auch darum,
    diese Lexeme zu erweitern
  • 16:35 - 16:41
    und weitere Aussagen hinzuzufügen,
  • 16:41 - 16:44
    so dass sie tatsächlich die Basis
  • 16:44 - 16:47
    für sinnvolle Anwendungen bilden können,
    die darauf aufbauen.
  • 16:48 - 16:51
    Denn wir nähern uns
    dieser kritischen Masse,
  • 16:51 - 16:53
    aber wir sind noch weit davon entfernt,
  • 16:53 - 16:57
    dass man darauf ernsthafte
    Anwendungen aufbauen könnte.
  • 16:58 - 17:02
    Und ich hoffe, dass Sie alle
    sich uns dabei anschließen werden.
  • 17:03 - 17:07
    Und damit komme ich schon
  • 17:07 - 17:09
    zu einer kleinen Hilfe
    von unseren Freunden,
  • 17:10 - 17:13
    und Bruno, wollen Sie zu uns kommen
  • 17:14 - 17:17
    und mit uns über
    lexikalische Masken sprechen?
  • 17:17 - 17:19
    (Bruno) Danke, Lydia.
  • 17:19 - 17:22
    Danke, dass Sie mir
    die Zeit gegeben haben,
  • 17:22 - 17:25
    um diese Arbeit vorzustellen,
    die wir bei Google Denny machen
  • 17:25 - 17:29
    und von der viele von Ihnen schon
    gehört haben oder wissen.
  • 17:30 - 17:32
    Denn bei Google bin ich Linguist.
  • 17:32 - 17:36
    Ich freue mich also sehr, hier unter
    anderen Sprachbegeisterten zu sein.
  • 17:37 - 17:39
    Wir bauen auch einige Lexika auf,
  • 17:39 - 17:42
    und wir haben diese Technologie
  • 17:42 - 17:46
    oder diesen Ansatz aufgebaut, von dem
    wir glauben, dass er nützlich sein kann.
  • 17:46 - 17:48
    Nur um ein wenig
    Hintergrundinformationen zu geben,
  • 17:48 - 17:52
    hier ist mein lexikografischer
    Hintergrund, über den ich hier spreche.
  • 17:53 - 17:55
    Wenn wir eine Lexikon-Datenbank aufbauen,
  • 17:55 - 17:59
    ist es sehr schwierig, sie zu pflegen,
    konsistent zu halten
  • 17:59 - 18:00
    und Daten auszutauschen,
  • 18:00 - 18:02
    wie Sie wahrscheinlich wissen.
  • 18:03 - 18:06
    Es gibt mehrere Versuche, die Funktionen
    und die Eigenschaften zu vereinheitlichen,
  • 18:06 - 18:09
    die diese Lexeme
    und diese Formen beschreiben,
  • 18:09 - 18:11
    und es ist kein gelöstes Problem.
  • 18:11 - 18:14
    Es gibt einige Vereinheitlichungsversuche
    auf dieser Seite.
  • 18:14 - 18:15
    Aber was wirklich fehlt--
  • 18:15 - 18:19
    und dieses Problem hatten wir
    zu Beginn unseres Projekts bei Google--
  • 18:19 - 18:22
    ist der Versuch,
    eine interne Struktur zu schaffen,
  • 18:22 - 18:26
    die beschreibt, wie ein
    lexikalischer Eintrag aussehen sollte,
  • 18:26 - 18:29
    welche Art von Daten oder welche Art
    von Informationen wir haben
  • 18:29 - 18:32
    und welche Spezifikationen
    erwartet werden.
  • 18:32 - 18:38
    Das ist es also, was wir mit dieser Sache
    namens Lexikon-Maske herausgefunden haben.
  • 18:39 - 18:44
    Eine Lexikonmaske beschreibt,
    was für einen Eintrag,
  • 18:44 - 18:47
    einen lexikografischen Eintrag,
    erwartet wird, um vollständig zu sein,
  • 18:47 - 18:51
    sowohl in Bezug auf die Anzahl der Formen,
    die Sie für ein Lexem erwarten,
  • 18:51 - 18:55
    als auch auf die Anzahl der Merkmale,
    die Sie für jede dieser Formen erwarten.
  • 18:56 - 18:58
    Hier ist ein Beispiel
    für italienische Adjektive.
  • 18:58 - 19:02
    Sie erwarten, dass Ihre Adjektive
    auf Italienisch vier Formen haben,
  • 19:02 - 19:05
    und jede dieser Formen
    hat eine spezifische Kombination
  • 19:05 - 19:08
    von Geschlechts- und Numerusmerkmalen.
  • 19:09 - 19:12
    Das erwarten wir
    für die italienischen Adjektive.
  • 19:12 - 19:16
    Natürlich können Sie
    sehr komplexe Masken haben,
  • 19:16 - 19:19
    wie die Konjugation
    der französischen Verben,
  • 19:19 - 19:20
    die sehr umfangreich ist,
  • 19:20 - 19:23
    und ich zeige Ihnen nicht
    weitere russische Masken,
  • 19:23 - 19:25
    weil diese nicht
    auf den Bildschirm passen.
  • 19:26 - 19:30
    Und wir haben auch
    einige detaillierte Spezifikationen,
  • 19:30 - 19:33
    weil wir unterscheiden auf der Formebene.
  • 19:33 - 19:37
    Hier haben Sie also russische Substantive,
    die drei Numeri
  • 19:37 - 19:40
    und eine Reihe von Fällen
    mit unterschiedlichen Formen haben,
  • 19:40 - 19:43
    aber sie haben auch eine Spezifikation
    auf der Einstiegsebene,
  • 19:43 - 19:46
    die besagt, dass ein Substantiv vor allem
  • 19:46 - 19:50
    ein inhärentes Geschlecht
    und ein inhärentes Belebtheitsmerkmal hat,
  • 19:50 - 19:52
    das ebenfalls in der Maske angegeben ist.
  • 19:55 - 19:58
    Wir wollen auch unterscheiden,
    dass eine Maske
  • 19:58 - 20:02
    eine Spezifikation dafür gibt,
    wie ein Eintrag aussehen sollte.
  • 20:02 - 20:07
    Aber Sie können kleinere Masken
    für fehlerhafte Aspekte der Form
  • 20:07 - 20:11
    oder fehlerhafte Aspekte des Lexems haben,
    die in der Sprache vorkommen.
  • 20:11 - 20:15
    Hier ist also die einfachste Version
    der französischen Verben,
  • 20:15 - 20:20
    die nur die dritte Person Singular
    für alle Wetterverben haben,
  • 20:20 - 20:24
    wie "es regnet" oder "es schneit",
    wie im Englischen.
  • 20:25 - 20:26
    Wir unterscheiden also
    diese beiden Stufen.
  • 20:27 - 20:30
    Und wie wir das bei Google verwenden,
  • 20:30 - 20:33
    ist, dass wir, wenn wir ein Lexikon haben,
    das wir verwenden wollen,
  • 20:33 - 20:37
    die Maske benutzen, um die Lexika,
    also alle Einträge,
  • 20:37 - 20:40
    wirklich buchstäblich
    durch die Maske zu werfen
  • 20:40 - 20:44
    und zu sehen, welcher Eintrag
    ein Problem in Bezug auf die Struktur hat.
  • 20:44 - 20:47
    Fehlt uns eine Form?
    Fehlt uns ein Merkmal?
  • 20:47 - 20:51
    Und wenn es ein Problem gibt, führen wir
    eine menschliche Validierung durch
  • 20:51 - 20:54
    oder einfach nur, um zu sehen,
    ob es die Maske passiert.
  • 20:54 - 20:56
    Es ist also ein extrem
    leistungsfähiges Werkzeug,
  • 20:56 - 20:58
    um die Qualität der Struktur
    zu überprüfen.
  • 20:59 - 21:02
    Wir freuen uns also,
    heute bekannt geben zu können,
  • 21:02 - 21:05
    dass wir grünes Licht erhalten haben,
    unsere Maske freizugeben.
  • 21:06 - 21:08
    Dies ist also ein Schema.
  • 21:08 - 21:10
    Wenn Sie das wollen,
    können wir es veröffentlichen
  • 21:10 - 21:13
    und wir werden es Wikidata
    als ShEx-Dateien zur Verfügung stellen.
  • 21:13 - 21:17
    Dies ist eine ShEx-Datei
    für deutsche Substantive,
  • 21:17 - 21:20
    und Denny arbeitet an der Konvertierung
    von unserer internen Spezifikation
  • 21:20 - 21:24
    in eine Open-Source-Spezifikation.
  • 21:24 - 21:27
    Derzeit decken wir
    mehr als 25 Sprachen ab.
  • 21:27 - 21:29
    Wir erwarten also Wachstum
    auf unserer Seite,
  • 21:29 - 21:34
    aber wir suchen auch nach der Möglichkeit,
    für andere Sprachen zusammenzuarbeiten.
  • 21:34 - 21:40
    Und eine der laufenden Kooperationen,
    die zwischen Denny und Lukas stattfindet,
  • 21:41 - 21:45
    Lukas hat diese großartigen Werkzeuge,
    um eine Benutzeroberfläche zu haben,
  • 21:45 - 21:49
    die dem Benutzer
    oder dem Beitragenden hilft,
  • 21:49 - 21:51
    weitere Formen hinzuzufügen.
  • 21:51 - 21:54
    Wenn Sie also ein Adjektiv
    auf Französisch hinzufügen möchten,
  • 21:54 - 21:59
    sagt Ihnen die Benutzeroberfläche,
    wie viele Formen erwartet werden
  • 21:59 - 22:02
    und welche Art von Funktionen
    diese Form haben sollte.
  • 22:02 - 22:06
    Unsere Maske hilft Ihnen, das Werkzeug
    zu definieren und zu erweitern.
  • 22:07 - 22:08
    Das ist alles.
  • 22:09 - 22:10
    (Lydia) Ich danke Ihnen vielmals.
  • 22:10 - 22:12
    (Beifall)
  • 22:14 - 22:17
    In Ordnung. Gibt es Fragen?
  • 22:17 - 22:19
    Wollen Sie mehr über Lexeme sprechen?
  • 22:20 - 22:21
    - (Person 3) Ja.
    - (Lydia) Ja. (lacht)
  • 22:33 - 22:36
    (Person 3) Meine Frage,
    weil Sie davon sprachen,
  • 22:36 - 22:39
    mehr Menschen in mehr Sprachen
    Zugang zu gewähren.
  • 22:39 - 22:41
    Aber es gibt eine Menge Sprachen,
    die in Wikidata
  • 22:41 - 22:43
    nicht verwendet werden können.
  • 22:43 - 22:45
    Welche Lösung haben Sie also dafür?
  • 22:46 - 22:48
    (Lydia) Wenn Sie sagen, dass Wikidata
    nicht verwendet werden kann,
  • 22:48 - 22:50
    sprechen Sie von der Eingabe
    von Bezeichnungen?
  • 22:50 - 22:52
    (Person 3) Bezeichnungen,
    Beschreibungen.
  • 22:52 - 22:55
    (Lydia) Richtig.
    Bei Lexemes ist es also etwas anders,
  • 22:55 - 22:58
    weil wir dort diese Einschränkung
    nicht haben.
  • 22:59 - 23:03
    Für Bezeichnungen
    von Objekten und Eigenschaften
  • 23:03 - 23:05
    gibt es eine gewisse Einschränkung,
  • 23:05 - 23:12
    weil wir sicherstellen wollten,
    dass nicht jeder
  • 23:12 - 23:14
    etwas völlig anderes macht
  • 23:14 - 23:17
    und es unüberschaubar wird.
  • 23:19 - 23:21
    Sogar eine kleine Communties,
  • 23:21 - 23:24
    die eine einzige Sprache wollen
    und daran arbeiten möchten,
  • 23:24 - 23:27
    kommt zu uns und sprecht mit uns,
    wir werden das einrichten.
  • 23:27 - 23:29
    (Person 3) Wir haben das
    beim Prager Hackathon im Mai getan,
  • 23:29 - 23:32
    und wir haben bis fast August gebraucht,
    um unsere Sprache verwenden zu können.
  • 23:32 - 23:35
    - (Lydia) Ja.
    - (Person 3) Also, es ist sehr langsam.
  • 23:35 - 23:37
    (Lydia) Ja, es ist leider sehr langsam.
  • 23:38 - 23:40
    Wir arbeiten derzeit
    mit dem Sprachausschuss
  • 23:40 - 23:46
    an der Lösung einiger grundlegender...
  • 23:50 - 23:52
    Zum Beispiel, eine Einigung
    darüber zu erzielen,
  • 23:52 - 23:55
    welche Arten von Sprachen
    tatsächlich "erlaubt" sind,
  • 23:56 - 23:59
    und das hat zu lange gedauert,
  • 24:00 - 24:03
    weshalb Ihre Anfrage wahrscheinlich
    länger gedauert hat,
  • 24:03 - 24:04
    als sie hätte sein sollen.
  • 24:05 - 24:06
    (Person 3) Danke.
  • 24:07 - 24:08
    (Person 4) Vielen Dank.
  • 24:08 - 24:11
    Lydia, wenn Sie sich an die Statistiken
    erinnern, die Sie gezeigt haben,
  • 24:11 - 24:13
    die Anzahl der Lexeme pro Sprache.
  • 24:13 - 24:18
    Haben Sie also alle Formen
    als Datenpunkt gezählt
  • 24:18 - 24:20
    oder nur Lexeme?
  • 24:21 - 24:23
    (Lydia) Meinen Sie das?
  • 24:23 - 24:24
    Welches meinen Sie?
  • 24:24 - 24:26
    (Person 4) Ja, genau.
  • 24:26 - 24:28
    Wenn Sie sich erinnern,
    zählt diese Zahl [unhörbar]
  • 24:28 - 24:32
    alle Formen für alle Lexeme
    oder nur, wie viele Lexeme es gibt?
  • 24:32 - 24:34
    (Lydia) Nein, dies ist nur
    die Anzahl von Lexemen.
  • 24:34 - 24:36
    (Person 4) Nur eine Anzahl
    von Lexemen, okay.
  • 24:36 - 24:37
    Dann ist es also nur eine Statistik,
  • 24:37 - 24:39
    denn wenn es dann die Formen
    zusammensetzen würde--
  • 24:39 - 24:41
    deshalb frage ich--
  • 24:41 - 24:43
    dann haben alle Sprachen
    mit der Flexionsmorphologie,
  • 24:43 - 24:45
    wie Russisch, Serbisch,
    Slowenisch und so weiter,
  • 24:45 - 24:48
    einen natürlichen Vorteil,
    weil sie so viele haben.
  • 24:48 - 24:52
    (Lydia) Das wirkt sich also
    auf diese Anzahl von Formen aus.
  • 24:52 - 24:54
    (Person 4) Ja, das war diese hier. Danke.
  • 24:57 - 25:00
    (Person 5) Also, ich hatte
    eine kurze Frage über die...
  • 25:01 - 25:07
    Wenn wir über die eigentlichen
    Objekte und Eigenschaften sprechen,
  • 25:07 - 25:09
    soweit ich weiß,
  • 25:09 - 25:12
    gibt es derzeit keine Möglichkeit,
    eine tatsächliche Quelle
  • 25:12 - 25:15
    für die angegebenen Bezeichnungen
    und Beschreibungen anzugeben.
  • 25:15 - 25:18
    Zum Beispiel, weil man,
  • 25:18 - 25:21
    wenn es sich um eine Eigenschaft
    eines Objekts handelt,
  • 25:21 - 25:24
    kann man zum Beispiel
    widersprüchliche Bezeichnungen erhalten.
  • 25:24 - 25:26
    (Lydia) Ja.
  • 25:26 - 25:28
    (Person 5) Diese Person ist also wie...
  • 25:28 - 25:31
    Wir haben zum Beispiel schon einmal
    über indigene Dinge gesprochen.
  • 25:31 - 25:36
    Diese Person ist also nach dieser Quelle
    ein norwegischer Künstler,
  • 25:36 - 25:39
    und nach dieser Quelle
    ein samischer Künstler.
  • 25:40 - 25:43
    Oder, zum Beispiel, in der
    estnischen Sprache hatten wir ein Problem,
  • 25:43 - 25:48
    bei dem wir die Terminologie
    auf die offizielle Terminologie
  • 25:48 - 25:49
    in den offiziellen Lexika
    umstellen mussten,
  • 25:49 - 25:52
    aber wir haben keine Möglichkeit,
    wirklich anzugeben, warum,
  • 25:52 - 25:54
    was die Ursache dafür war
  • 25:54 - 25:56
    und warum das besser war
    und was vorher da war.
  • 25:56 - 25:57
    Es war nur ich als zufällige Person,
  • 25:57 - 26:00
    die die Sache umgestellt hat
    für jeden, der das sieht.
  • 26:00 - 26:03
    Gibt es also einen Plan, um dies
    in irgendeiner Weise zu ermöglichen,
  • 26:03 - 26:06
    damit wir tatsächlich die richtigen
    Quellen für die Sprachdaten haben?
  • 26:07 - 26:11
    (Lydia) Also, es ist teilweise möglich.
  • 26:11 - 26:16
    Wenn Sie zum Beispiel ein Objekt
    für eine Person haben,
  • 26:17 - 26:21
    dann haben Sie eine Aussage,
    den Vornamen, den Nachnamen
  • 26:21 - 26:23
    und so weiter, dieser Person,
  • 26:23 - 26:26
    und dann können Sie dort
    die Referenz dafür angeben.
  • 26:28 - 26:32
    Ich zögere noch, mehr Komplexität
  • 26:32 - 26:35
    für Referenzen auf Bezeichnungen
    und Beschreibungen hinzuzufügen,
  • 26:35 - 26:39
    aber wenn die Leute wirklich,
    wirklich denken,
  • 26:39 - 26:43
    dass dies etwas ist,
    das nicht durch eine Referenz
  • 26:43 - 26:45
    zu der Aussage abgedeckt ist,
  • 26:45 - 26:47
    dann lassen Sie uns darüber reden.
  • 26:49 - 26:53
    Aber ich fürchte, es wird
    eine Menge Komplexität
  • 26:53 - 26:56
    für hoffentlich wenige Fälle hinzufügen,
  • 26:57 - 27:00
    aber ich bin bereit, mich vom Gegenteil
    überzeugen zu lassen,
  • 27:00 - 27:04
    wenn die Leute wirklich
    sehr stark davon überzeugt sind.
  • 27:04 - 27:08
    (Person 5) Wenn es hinzugefügt wird,
    sollte es nicht Standardeinstellung sein,
  • 27:08 - 27:12
    das allen Anfängern der Benutzer
    zu zeigen, auf jeden Fall.
  • 27:12 - 27:16
    Eher so: "Klicken Sie hier, wenn Sie
    etwas Bestimmtes dazu sagen müssen".
  • 27:18 - 27:23
    (Lydia) Haben wir ein Gefühl dafür,
    wie oft das eine Rolle spielen würde?
  • 27:25 - 27:26
    (Person 5) Auf Estnisch, zum Beispiel--
  • 27:26 - 27:29
    ich nehme an, das gilt auch
    für andere Sprachen--
  • 27:29 - 27:34
    gibt es einen offiziellen Namen,
    die tatsächlich legitime Übersetzung,
  • 27:34 - 27:36
    zum Beispiel ins Englische,
  • 27:36 - 27:40
    einer bestimmten Art
    von Stadtgemeinde ist.
  • 27:41 - 27:42
    Das war zum Beispiel mein Anwendungsfall,
  • 27:42 - 27:44
    wo wir das Wort "Gemeinde"
    verwendet haben,
  • 27:45 - 27:51
    das im estnischen Original
    wie eine Kirchengemeinde gemeint war,
  • 27:51 - 27:52
    und das war der Ursprung,
  • 27:52 - 27:55
    aber das ist nicht die offizielle
    Übersetzung, die Estland jetzt hat.
  • 27:55 - 27:59
    (Lydia) In diesem Fall würde ich es
    als offizielle Namensangabe hinzufügen
  • 27:59 - 28:01
    und dort den Verweis hinzufügen.
  • 28:02 - 28:03
    (Person 5) Okay.
  • 28:05 - 28:07
    (Lydia) Weitere Fragen, ja?
  • 28:08 - 28:10
    (Person 6) Ich habe zwei kurze Kommentare.
  • 28:10 - 28:14
    Sie haben ausdrücklich Asturisch als eine
    Sprache genannt, die gut funktioniert,
  • 28:14 - 28:16
    und ich denke,
    das ist ein falsches Artefakt.
  • 28:16 - 28:18
    (Lydia) Erzählen Sie mir davon.
  • 28:18 - 28:20
    (Person 6) Ich glaube, es ist nur ein Bot,
  • 28:20 - 28:24
    der Personennamen wie Eigennamen einfügt
  • 28:24 - 28:27
    und sagt: "Nun, das ist genau
    wie im Französischen oder Spanischen",
  • 28:27 - 28:29
    und es einfach massiv kopiert.
  • 28:29 - 28:33
    Ein Beweis dafür ist, dass man
    diese Energie im Asturischen
  • 28:33 - 28:37
    nicht in Dingen sieht, die eigentlich
    übersetzt werden müssen, wie Eigennamen
  • 28:37 - 28:40
    oder Namen von Objekten,
    die keine Eigennamen sind.
  • 28:40 - 28:41
    (Lydia) Asaf, du brichst mir das Herz.
  • 28:41 - 28:43
    (Person 6) Ich weiß,
    ich vermassle immer die Show,
  • 28:43 - 28:48
    aber ich habe auch gute Neuigkeiten,
    was die Zahlen zur Aussprache betrifft.
  • 28:49 - 28:54
    Wie Sie wahrscheinlich wissen,
    ist Commons voll von Aussprachedateien,
  • 28:54 - 28:55
    und zum Beispiel
  • 28:55 - 29:00
    gibt es im Niederländischen nicht weniger
    als 300.000 Aussprachedateien
  • 29:00 - 29:01
    schon unter Commons
  • 29:02 - 29:05
    die nur irgendwie
    aufgenommen werden müssen.
  • 29:05 - 29:08
    Wenn also jemand
    nach einem Nebenprojekt sucht,
  • 29:08 - 29:09
    gibt es tonnenweise
  • 29:09 - 29:13
    klassifizierte, kategorisierte
    Aussprachedateien unter Commons
  • 29:13 - 29:17
    unter der Kategorie "Aussprache"
    nach Sprache.
  • 29:17 - 29:20
    Das wartet nur darauf,
    mit Lexemen abgeglichen
  • 29:20 - 29:23
    und auf Lexeme gesetzt zu werden.
  • 29:23 - 29:27
    Und ich habe mich gefragt, ob Sie etwas
    über den Fahrplan sagen können,
  • 29:27 - 29:29
    etwas darüber, wie viel Investitionen
  • 29:29 - 29:32
    oder was wir im kommenden Jahr
    von Lexeme erwarten können,
  • 29:32 - 29:34
    denn ich kann es kaum erwarten.
  • 29:35 - 29:37
    (Lydia) Sie können nicht warten? (lacht)
  • 29:37 - 29:39
    - (Person 6) Auf mehr.
    - (Lydia) Ja.
  • 29:45 - 29:49
    Im Moment konzentrieren wir uns
    auf mehr über Wikibase und Datenqualität,
  • 29:51 - 29:55
    um zu sehen, wie viel Fahrt das bekommt,
  • 29:55 - 30:01
    und dann mehr Information darüber,
    wo die Schwachpunkte als Nächstes liegen,
  • 30:01 - 30:06
    und dann wieder zur weiteren Verbesserung
    der lexikografischen Daten zurückzukehren.
  • 30:07 - 30:10
    Und eines der Dinge, die ich
    gerne von Ihnen hören würde,
  • 30:10 - 30:14
    ist, wo genau Sie
    die nächsten Schritte sehen,
  • 30:14 - 30:16
    wo Sie Verbesserungen sehen wollen,
  • 30:16 - 30:20
    damit wir dann herausfinden können,
    wie wir das erreichen können.
  • 30:21 - 30:23
    Aber natürlich haben Sie Recht,
  • 30:23 - 30:26
    es gibt noch so viel zu tun,
    auch von der technischen Seite her.
  • 30:31 - 30:34
    (Person 7) Okay, als wir
    die baskischen Wörter
  • 30:34 - 30:36
    mit Formen hochgeladen haben,
  • 30:36 - 30:38
    und Sie werden einige dieser Dinge sehen,
  • 30:38 - 30:41
    sagten wir beide letzte Woche:
    "Oh, wir sind die Ersten bei etwas.
  • 30:43 - 30:45
    Es erscheint in der Presse,
    und es ist wie:
  • 30:45 - 30:49
    "Oh, Baskisch, es ist das erste Mal,
    das sie bei etwas die ersten sind".
  • 30:49 - 30:51
    (Lachen)
  • 30:51 - 30:53
    Und dann fragen die Leute:
    "Okay, aber wofür ist das?"
  • 30:55 - 30:57
    Wir haben keine wirklich gute Antwort.
  • 30:57 - 30:58
    Ich meine, "Okay,
  • 30:58 - 31:02
    das wird Computern helfen,
    unsere Sprache besser zu verstehen, ja,
  • 31:02 - 31:05
    aber was für Werkzeuge können wir
    in der Zukunft herstellen?"
  • 31:05 - 31:07
    Und darauf haben wir keine gute Antwort.
  • 31:07 - 31:10
    Ich weiß also nicht, ob Sie
    eine gute Antwort darauf haben.
  • 31:10 - 31:13
    (Lydia) (lacht) Ich weiß nicht,
    ob ich eine gute Antwort habe,
  • 31:13 - 31:15
    aber ich habe eine Antwort.
  • 31:15 - 31:20
    Ich denke also, wie ich
    schon sagte [unhörbar],
  • 31:20 - 31:23
    dass wir noch nicht
    die kritische Masse erreicht haben,
  • 31:23 - 31:26
    in der man viele der wirklich
    interessanten Werkzeuge bauen kann.
  • 31:26 - 31:28
    Aber es gibt bereits einige Werkzeuge.
  • 31:28 - 31:32
    Erst neulich hat Esther [Pandelia]
    zum Beispiel
  • 31:32 - 31:34
    ein Werkzeug veröffentlicht,
    mit dem man sehen kann,
  • 31:36 - 31:39
    ich glaube, es waren die Worte
    auf einem Globus,
  • 31:39 - 31:42
    wo sie gesprochen werden,
    woher sie kommen.
  • 31:42 - 31:44
    Wahrscheinlich irre ich mich da,
  • 31:44 - 31:47
    aber sie hatte auf dem Projekt-Chat
    auf Wikidata geantwortet--
  • 31:47 - 31:49
    Sie können es dort nachschlagen.
  • 31:50 - 31:52
    Wir haben also
    diese ersten Werkzeuge gesehen,
  • 31:52 - 31:55
    genau wie damals, als Wikidata begann.
  • 31:57 - 32:00
    Zuerst etwas - wie ein Netzwerk,
  • 32:00 - 32:02
    und wie: "Schau, da ist dieses Ding,
  • 32:02 - 32:04
    das sich mit diesem
    anderen Ding verbindet".
  • 32:05 - 32:07
    Und je mehr Daten wir haben
  • 32:07 - 32:10
    und je mehr wir
    eine kritische Masse erreicht haben,
  • 32:12 - 32:15
    desto leistungsfähigere Anwendungen
    werden möglich,
  • 32:16 - 32:18
    Dinge wie Histropedia,
  • 32:19 - 32:22
    Dinge wie Fragen und Antworten
  • 32:22 - 32:26
    in Ihrem digitalen persönlichen
    Assistenten, Platypus und so weiter.
  • 32:26 - 32:30
    Ähnliches sehen wir bei den Lexemen.
  • 32:31 - 32:35
    Wir befinden uns in einem Stadium,
    in dem man so etwas wie diese kleinen,
  • 32:35 - 32:37
    hey, schau, es gibt eine Verbindung
    zwischen den beiden Dingen,
  • 32:38 - 32:43
    und es gibt eine Übersetzung
    dieses Wortes in dieses Sprachstadium,
  • 32:43 - 32:48
    und wenn wir es erweitern
    und mehr Wörter beschreiben,
  • 32:48 - 32:49
    wird mehr möglich.
  • 32:49 - 32:52
    Was wird nun möglich?
  • 32:53 - 32:59
    Wie Ben, unser Hauptredner vorhin,
    sprach über Übersetzungen,
  • 33:00 - 33:03
    über die Möglichkeit, von einer Sprache
    in eine andere zu übersetzen.
  • 33:03 - 33:08
    Und Jens, mein Kollege,
    er spricht immer davon,
  • 33:08 - 33:11
    dass die Europäische Union
    einen Übersetzer sucht,
  • 33:11 - 33:17
    der aus dem Maltesischen ins Schwedische
    übersetzen kann, war es Maltesisch?
  • 33:17 - 33:19
    - (Person 8) Estnisch.
    - (Lydia) Estnisch.
  • 33:22 - 33:26
    Und das ist keine übliche Kombination.
  • 33:27 - 33:32
    Aber wenn man all diese Sprachen
    an einem maschinenlesbaren Ort hat,
  • 33:32 - 33:33
    kann man das tun,
  • 33:33 - 33:37
    man kann ein Wörterbuch
  • 33:37 - 33:42
    von Estnisch nach Maltesisch
    und zurück bekommen.
  • 33:43 - 33:46
    Also Sprachkombinationen
    in Wörterbüchern abzudecken,
  • 33:46 - 33:48
    die vorher einfach nicht abgedeckt wurden,
  • 33:48 - 33:51
    weil es nicht genug Nachfrage
    dafür gab, zum Beispiel,
  • 33:51 - 33:56
    um die Arbeit finanziell tragbar zu machen
    und zu rechtfertigen.
  • 33:56 - 33:57
    Jetzt können wir das tun.
  • 34:00 - 34:02
    Dann die Texterstellung.
  • 34:02 - 34:04
    Lucie hat vorhin davon gesprochen,
  • 34:04 - 34:10
    wie sie mit Hattie
    an der Textgenerierung arbeitet,
  • 34:10 - 34:15
    um Wikipedia-Artikel
    in Minderheitensprachen zu erstellen,
  • 34:15 - 34:20
    und dazu braucht man Daten über Wörter,
  • 34:20 - 34:23
    und dazu muss man die Sprache verstehen.
  • 34:24 - 34:28
    Ja, und das sind nur einige,
    die mir gerade in den Sinn kommen.
  • 34:29 - 34:30
    Vielleicht hat unser Publikum mehr Ideen,
  • 34:30 - 34:34
    was es tun möchte, wenn wir
    all die herrlichen Daten haben.
  • 34:38 - 34:41
    (Person 9) Okay, ich werde vom Thema
    Lexeme abweichen.
  • 34:41 - 34:43
    Ich werde die Frage stellen,
  • 34:43 - 34:46
    wie kann ich als Mitglied der Community
  • 34:46 - 34:50
    darauf Einfluss nehmen, dass die Priorität
    auf die Aufgabe gelegt wird,
  • 34:50 - 34:54
    dass ein neuer Benutzer angeben kann,
  • 34:54 - 34:57
    welche Sprachen er sehen
    und bearbeiten möchte,
  • 34:57 - 35:01
    ohne dass er geheime
    verbale Vorlagenkenntnisse hat.
  • 35:02 - 35:05
    Vielleicht wird es dieses Jahr
    diese technische Wunschliste
  • 35:05 - 35:07
    ohne Wikipedia-Themen geben.
  • 35:07 - 35:11
    Vielleicht gibt es eine Hoffnung, dass wir
    alle über diese Sache abstimmen können,
  • 35:11 - 35:14
    die wir sieben Jahre lang
    nicht geregelt haben.
  • 35:14 - 35:18
    Haben Sie also irgendwelche
    Ideen und Kommentare dazu?
  • 35:18 - 35:20
    Sie sprechen also davon,
  • 35:20 - 35:23
    dass jemand, der nicht
    in Wikidata eingeloggt ist,
  • 35:23 - 35:26
    seine Sprache nicht einfach ändern kann?
  • 35:26 - 35:28
    (Person 9) Nein, für [unhörbare] Benutzer.
  • 35:28 - 35:31
    (Lydia) Wenn sie also eingeloggt sind,
  • 35:31 - 35:35
    können sie ihre Sprache einfach
    oben auf der Seite ändern,
  • 35:36 - 35:38
    und dann erscheint,
  • 35:40 - 35:42
    wo die Beschreibung [unhörbar] steht
  • 35:42 - 35:44
    und sie können sie bearbeiten.
  • 35:46 - 35:49
    (Person 9) Nun, eigentlich
    ist der Arbeitsablauf oft so,
  • 35:49 - 35:52
    dass, wenn Sie mehrere Sprachen
    haben wollen, diese angeboten werden,
  • 35:52 - 35:55
    das nicht immer der Fall ist.
  • 35:55 - 35:58
    (Lydia) Okay, vielleicht sollten wir uns
    nach diesem Vortrag zusammensetzen
  • 35:58 - 36:00
    und Sie zeigen es mir.
  • 36:02 - 36:04
    Cool. Noch mehr Fragen?
  • 36:05 - 36:06
    Ja.
  • 36:12 - 36:13
    (Person 10) Danke für die Präsentation.
  • 36:14 - 36:16
    Können Sie den Stand
  • 36:16 - 36:19
    der Korrelation mit der
    Wiktionary-Community kommentieren?
  • 36:19 - 36:22
    Soweit ich gesehen habe,
    gab es einige Diskussionen
  • 36:22 - 36:26
    über den Import
    einiger Elemente der Arbeit,
  • 36:26 - 36:31
    aber es scheint, Lizenzprobleme und einige
    Meinungsverschiedenheiten usw. zu geben.
  • 36:31 - 36:32
    (Lydia) Das stimmt.
  • 36:32 - 36:36
    Die Wiktionary-Community
    hat also viel Zeit
  • 36:37 - 36:39
    mit dem Aufbau
    von Wiktionary verbracht.
  • 36:39 - 36:43
    Sie haben erstaunlich komplizierte
  • 36:43 - 36:48
    und komplexe Vorlagen gebaut,
  • 36:48 - 36:54
    um hübsche Tabellen zu erstellen,
    die automatisch Formen für Sie
  • 36:54 - 36:56
    und alle möglichen
    wirklich beeindruckenden
  • 36:56 - 37:01
    und verrückten Dinge erzeugen,
    wenn Sie darüber nachdenken.
  • 37:02 - 37:08
    Und natürlich haben sie eine Menge Zeit
    und Mühe in diese Arbeit investiert.
  • 37:09 - 37:13
    Und verständlicherweise wollen die nicht,
  • 37:13 - 37:17
    dass man sich das einfach grabscht.
  • 37:18 - 37:19
    einfach so.
  • 37:19 - 37:22
    Einiges davon kommt also von dort.
  • 37:23 - 37:25
    Und das ist gut so, das ist okay.
  • 37:26 - 37:32
    Die ersten Wiktionary-Communities
    sprechen nun davon,
  • 37:32 - 37:34
    einige ihrer Daten
    in Wikidata zu importieren.
  • 37:34 - 37:39
    Russisch, das Sie gesehen haben,
    ist zum Beispiel einer dieser Fälle,
  • 37:40 - 37:43
    und ich erwarte, dass noch mehr
    davon realisiert wird.
  • 37:44 - 37:47
    Aber es wird ein langsamer Prozess sein,
  • 37:47 - 37:49
    so wie die Übernahme der Daten
    von Wikidata in Wikipedia
  • 37:49 - 37:52
    ein ziemlich langsamer Prozess war.
  • 37:53 - 37:56
    Auf der anderen Seite ist es einfacher,
  • 37:56 - 38:00
    die Daten, die in Lexemen
    auf Wiktionary stehen,
  • 38:00 - 38:02
    tatsächlich zu nutzen,
    so dass sie diese nutzen
  • 38:02 - 38:06
    und Daten zwischen den Wiktionaries
    austauschen können,
  • 38:06 - 38:09
    was im Moment super schwer
    bis unmöglich ist,
  • 38:09 - 38:12
    was verrückt ist, genau wie bei Wikipedia.
  • 38:14 - 38:16
    Warten Sie auf das Geburtstagsgeschenk.
    (lacht)
  • 38:20 - 38:21
    Ja.
  • 38:23 - 38:25
    (Person 11) Als ich andersherum dachte,
  • 38:25 - 38:28
    wollte ich es eigentlich nicht sagen,
    weil ich denke, es wird super albern sein,
  • 38:28 - 38:32
    aber ich denke, dass Wiktionary
    bereits einige Inhalte hat,
  • 38:32 - 38:35
    und ich weiß, dass wir diese nicht
    auf Wikidata übertragen können,
  • 38:35 - 38:37
    weil es einen Unterschied
    in den Lizenzen gibt.
  • 38:37 - 38:40
    Aber ich dachte, dass wir vielleicht
    etwas deswegen tun können.
  • 38:40 - 38:46
    Vielleicht, ich weiß nicht, können wir
    die Erlaubnis der Communities einholen,
  • 38:46 - 38:51
    nachdem wir eine öffentliche
    Abstimmung durchgeführt haben
  • 38:52 - 38:56
    und die aktiven Mitglieder
    der Gemeinschaft abstimmen
  • 38:56 - 38:57
    und sagen können,
  • 38:57 - 39:03
    ob sie die Inhalte, für die sie
    die Wikidata-Lexeme machen dürfen,
  • 39:03 - 39:06
    annehmen oder übertragen möchten.
  • 39:06 - 39:09
    Weil ich es einfach
    für eine solche Verschwendung halte.
  • 39:10 - 39:14
    Also, das ist definitiv im Gespräch,
    dass die Leute,
  • 39:14 - 39:18
    die in Wiktionary-Communities sind,
    das dort zur Sprache bringen.
  • 39:18 - 39:24
    Ich denke, es wäre ein bisschen anmaßend,
    wenn wir das erzwingen würden.
  • 39:26 - 39:31
    Aber, ja, ich denke, es ist
    auf jeden Fall ein Gespräch wert.
  • 39:31 - 39:34
    Aber ich denke, es ist
    auch wichtig, zu verstehen,
  • 39:34 - 39:39
    dass es einen Unterschied gibt
    zwischen dem, was gesetzlich erlaubt ist
  • 39:39 - 39:43
    und was wir tun sollten,
  • 39:43 - 39:45
    und dem, was diese Leute
    wollen oder nicht wollen.
  • 39:46 - 39:47
    Selbst wenn es also rechtlich erlaubt ist,
  • 39:47 - 39:51
    wenn einige Wiktionary-Communities
    das nicht wollen,
  • 39:51 - 39:53
    wäre ich zumindest vorsichtig.
  • 39:59 - 40:02
    Ich denke, Sie brauchen das Mikro
    für den Stream.
  • 40:05 - 40:07
    (Person 12) Also, offensichtlich
    ist das alles sehr aufregend,
  • 40:08 - 40:12
    und ich denke sofort, wie kann ich
    das meinen Studenten vermitteln
  • 40:12 - 40:15
    und wie kann ich es in die Kurse,
  • 40:15 - 40:19
    die Arbeit, die wir machen,
    und die Bildungseinrichtungen integrieren.
  • 40:19 - 40:22
    Und mir fehlt im Moment
  • 40:23 - 40:24
    noch das Wissen,
  • 40:24 - 40:27
    aber ich denke,
    die Dokumentation, die wir haben,
  • 40:28 - 40:30
    vielleicht verbessert werden könnte.
  • 40:30 - 40:33
    Das ist also eine Art Aufforderung,
    coole Videos zu machen,
  • 40:33 - 40:36
    die erklären, wie es funktioniert,
  • 40:36 - 40:40
    denn wenn wir das haben,
    können wir es nutzen,
  • 40:40 - 40:42
    und wir können Studenten an Bord ziehen,
  • 40:42 - 40:47
    und wir können den Leuten verständlich
    machen, wie fantastisch das alles ist.
  • 40:47 - 40:52
    Und ja, denken Sie an die Dokumentation
    und denken Sie an die Ausbildung, bitte.
  • 40:52 - 40:54
    Denn ich denke, es könnte
    eine Menge getan werden.
  • 40:54 - 40:59
    Dies sind schon viele Aufgaben,
    die auch mit...
  • 41:00 - 41:02
    na ja, ich würde nicht sagen
    Grundschulen,
  • 41:02 - 41:05
    aber sicherlich auch mit jüngeren
    Studenten durchgeführt werden könnten.
  • 41:06 - 41:11
    Und deshalb würde ich es gerne sehen,
    dass dieses Potenzial genutzt wird,
  • 41:11 - 41:15
    und ich persönlich verstehe
    noch nicht genug,
  • 41:15 - 41:19
    um Aufgaben zu erstellen
    oder so etwas wie...
  • 41:20 - 41:22
    etwas Praktisches daraus zu machen.
  • 41:22 - 41:26
    Wenn also jemand hier Hilfe
    oder Gedanken dazu hat,
  • 41:26 - 41:30
    würde ich mich sehr freuen,
    Ihre Ideen zu hören, und Ihre auch.
  • 41:31 - 41:32
    (Lydia) Ja, lassen Sie uns darüber reden.
  • 41:35 - 41:37
    Noch Fragen?
  • 41:38 - 41:39
    Jemand anderes hat die Hand gehoben.
  • 41:39 - 41:41
    Ich habe vergessen, wer das war.
  • 41:46 - 41:50
    (Person 13) Wenn wir also nicht
    aus Wiktionary importieren können,
  • 41:50 - 41:52
    gibt es eine konzertierte Anstrengung,
  • 41:52 - 41:56
    um andere öffentlich
    zugängliche Quellen zu finden,
  • 41:56 - 41:57
    vielleicht alle Daten,
  • 41:59 - 42:03
    und eine Art Vorfilter,
    um sie so zu organisieren,
  • 42:03 - 42:08
    dass sie von Leuten beim Import
    einfach überprüft werden können?
  • 42:09 - 42:11
    Es gibt also erste Bemühungen.
  • 42:11 - 42:15
    Nach meinem Verständnis
    ist das Baskische eine dieser Bemühungen.
  • 42:15 - 42:17
    Vielleicht möchten Sie
    etwas mehr darüber sagen?
  • 42:18 - 42:20
    (Person 14) [unhörbar]
  • 42:23 - 42:27
    Okay, die eigentliche Antwort ist,
    dafür zu bezahlen...
  • 42:28 - 42:32
    Ich meine, wir haben eine Vereinbarung
    mit einem Auftragnehmer,
  • 42:32 - 42:34
    mit dem wir normalerweise
    zusammenarbeiten.
  • 42:35 - 42:38
    Sie machen Wörterbücher--
  • 42:40 - 42:42
    viele Dinge, aber sie machen Wörterbücher.
  • 42:42 - 42:45
    Also haben wir mit ihnen vereinbart,
  • 42:45 - 42:47
    das Studenten-Wörterbuch
    kostenlos zu machen,
  • 42:47 - 42:53
    wir würden die häufigsten Wörter
    auswählen und damit beginnen,
  • 42:53 - 42:56
    es mit einer externen Kennung
    und dem Schema der Dinge hochzuladen.
  • 42:56 - 43:00
    Aber es gab einige Diskussionen darüber,
  • 43:00 - 43:03
    es auf CC0 zu belassen,
  • 43:03 - 43:06
    weil sie das Wörterbuch
    bei CC dabei haben,
  • 43:07 - 43:10
    und sie verstanden,
    was der Unterschied war.
  • 43:10 - 43:14
    Es gab also einige Diskussionen.
  • 43:14 - 43:19
    Aber ich denke, dass wir in Zukunft
    einige Werkzeuge oder Beispiele
  • 43:19 - 43:21
    zur Verfügung stellen können,
  • 43:21 - 43:23
    und ich denke, dass es
    andere Wörterbücher geben wird,
  • 43:23 - 43:24
    mit denen wir umgehen können,
  • 43:24 - 43:29
    und ich denke auch, dass Wiktionary
    in diese Richtung gehen sollte,
  • 43:29 - 43:32
    aber das ist eine weitere
    umfangreiche Diskussion.
  • 43:33 - 43:34
    Und darüber hinaus
  • 43:34 - 43:39
    steht Lea auch in Kontakt
    mit Leuten aus Okzitan,
  • 43:39 - 43:42
    die an okzitanischen
    Wörterbüchern arbeiten,
  • 43:42 - 43:45
    und sie arbeiten derzeit an einer
    sumerischen Zusammenarbeit.
  • 43:52 - 43:53
    Noch weitere Fragen?
  • 44:01 - 44:05
    (Person 15) Hallo! Wir sind die Leute,
    die okzitanische Daten importieren wollen.
  • 44:05 - 44:07
    (Lydia) Aha! Perfekt!
  • 44:07 - 44:09
    (Person 15) Und wir haben
    ein kleines Problem.
  • 44:09 - 44:14
    Wir wissen nicht, wie wir die Vielfalt
    aller Lexeme darstellen können.
  • 44:14 - 44:18
    Wir haben sechs Dialekte,
  • 44:18 - 44:24
    und wir wollen für Lexeme angeben,
    in welchem Dialekt es verwendet wird,
  • 44:24 - 44:27
    und wir haben keine richtige
    C0-Anweisung, um das zu tun.
  • 44:27 - 44:31
    Solange das Segment also nicht existiert,
  • 44:32 - 44:34
    verhindert es, dass wir es
    [unhörbar] machen,
  • 44:34 - 44:38
    weil wir es noch einmal machen müssen,
  • 44:38 - 44:42
    wenn wir die Anweisung exportieren können.
  • 44:42 - 44:45
    Und es ist kompliziert,
    weil es eine Aussage ist,
  • 44:45 - 44:48
    die nicht von vielen Leuten gefragt wird,
  • 44:48 - 44:53
    weil es eine Aussage ist, die vor allem
    Minderheitensprachen betrifft.
  • 44:53 - 44:57
    Sie werden also eine Person haben,
    die das fragen kann.
  • 44:57 - 45:00
    Aber wie unsere baskischen Kollegen
  • 45:00 - 45:06
    kann es eine Person sein,
    die Tausende von anderen antreibt,
  • 45:06 - 45:11
    also es ist vielleicht
    nicht sehr viel verlangt,
  • 45:11 - 45:14
    aber es wird für uns sehr wichtig sein.
  • 45:15 - 45:17
    (Lydia) Haben Sie bereits einen neuen
    Eigenschaftenvorschlag
  • 45:17 - 45:19
    oder brauchen Sie Hilfe
    bei dessen Erstellung?
  • 45:22 - 45:24
    (Person 15) Wir haben
    vor vier Monaten danach gefragt.
  • 45:25 - 45:27
    (Lydia) Na gut, dann holen wir uns
    ein paar Leute,
  • 45:27 - 45:29
    die uns bei diesem
    Eigenschaftenvorschlag helfen.
  • 45:30 - 45:33
    Ich bin sicher, es sind genug Leute
    in diesem Raum, um dies zu ermöglichen.
  • 45:33 - 45:36
    (Person 15) Eigenschaftenvorschlag
    [spricht Französisch].
  • 45:37 - 45:39
    Wir bekamen keine Antwort
    und wissen nicht,
  • 45:39 - 45:40
    wie wir das machen sollen,
  • 45:40 - 45:43
    weil wir nicht in der
    Wikidata-Community sind.
  • 45:45 - 45:48
    (Lydia) Ja, also gibt es hier Leute,
    die Ihnen helfen können.
  • 45:48 - 45:51
    Vielleicht hebt jemand die Hand, um--
  • 45:52 - 45:54
    (Person 14) Nicht dafür.
  • 45:54 - 45:56
    Aber ich denke,
    das ist ziemlich interessant,
  • 45:56 - 45:59
    dass nur die Variante der Form
  • 45:59 - 46:03
    auch geographisch, mit Koordinaten
  • 46:03 - 46:05
    oder einer Art von Kartierung,
    damit umgehen kann.
  • 46:06 - 46:08
    Auch unterschiedliche
    Aussprachen zu haben,
  • 46:08 - 46:12
    und ich denke, das ist etwas,
    das in vielen Sprachen geschieht.
  • 46:13 - 46:16
    Wir sollten damit anfangen.
  • 46:16 - 46:19
    Und ich werde nach der Eigenschaft suchen.
  • 46:20 - 46:21
    (Lydia) Cool.
  • 46:21 - 46:24
    Sie erhalten also Unterstützung
    für Ihren Eigenschaftenvorschlag.
  • 46:26 - 46:27
    Ich danke Ihnen.
  • 46:28 - 46:30
    In Ordnung, noch Fragen?
  • 46:32 - 46:33
    Finn.
  • 46:34 - 46:35
    Finn ist einer dieser Leute,
  • 46:35 - 46:38
    die auf lexikografischen Daten aufbauen.
  • 46:38 - 46:40
    (Finn) Es ist nur eine kleine Frage,
  • 46:40 - 46:44
    und es geht um Variationen
    in der Rechtschreibung.
  • 46:45 - 46:48
    Es scheint, schwierig zu sein, sie in...
  • 46:49 - 46:53
    Man könnte natürlich mehrere Formen
    für dasselbe Wort haben.
  • 46:56 - 46:58
    Ich weiß nicht, es scheint...
  • 47:00 - 47:04
    Wenn man es nicht so macht, scheint es,
    schwierig zu sein, es zu spezifizieren...
  • 47:05 - 47:06
    oder ich weiß nicht,
  • 47:06 - 47:10
    ob es sich nur um eine kleine
    technische Frage handelt oder ob...
  • 47:10 - 47:11
    (Lydia) Betrachten wir es gemeinsam.
  • 47:12 - 47:15
    Ich würde gerne ein Beispiel sehen.
  • 47:17 - 47:18
    Asaf.
  • 47:27 - 47:28
    (Asaf) Vielen Dank.
  • 47:29 - 47:34
    Ich kann ein sehr konkretes Beispiel aus
    meiner Muttersprache, Hebräisch, nennen.
  • 47:34 - 47:38
    Im Hebräischen gibt es
    zwei Hauptvarianten,
  • 47:38 - 47:42
    um fast jedes Wort auszudrücken,
  • 47:43 - 47:47
    weil die traditionelle Schreibweise
  • 47:47 - 47:50
    viele Vokale auslässt.
  • 47:51 - 47:55
    Und deshalb werden in modernen Ausgaben
    der Bibel und der Poesie
  • 47:55 - 47:57
    diakritische Zeichen verwendet.
  • 47:57 - 48:03
    Diese diakritischen Zeichen werden
    jedoch nie für moderne Prosa,
  • 48:03 - 48:06
    Zeitungstexte
    oder Straßenschilder verwendet.
  • 48:06 - 48:11
    Der durchschnittliche tägliche Gebrauch
    legt also zusätzliche Vokale hinein
  • 48:12 - 48:14
    und verwendet
    die diakritischen Zeichen nicht,
  • 48:14 - 48:16
    weil sie natürlich umständlicher sind
  • 48:16 - 48:18
    und alle möglichen Regeln haben
    und niemand die Regeln kennt.
  • 48:19 - 48:21
    Es gibt also grundsätzlich zwei Varianten.
  • 48:21 - 48:25
    Es gibt die alltägliche,
    beiläufige Prosa-Variante,
  • 48:25 - 48:28
    und es gibt die Bibel oder die Poesie,
  • 48:28 - 48:32
    die immer in diesem traditionellen
    diakritischierten Text vorkommen.
  • 48:32 - 48:33
    Um nützlich zu sein,
  • 48:33 - 48:37
    müsste Lexeme sowohl Varianten
    jedes einzelnen Wortes
  • 48:37 - 48:40
    als auch jede einzelne Form
    jedes einzelnen Wortes erkennen.
  • 48:41 - 48:43
    Das ist also ein sehr
    umfassender Anwendungsfall
  • 48:43 - 48:46
    für offizielle stabile Varianten.
  • 48:46 - 48:49
    Es ist kein Dialekt,
    es sind keine Regionen,
  • 48:49 - 48:54
    es sind im Grunde zwei nebeneinander
    existierende morphologische Systeme.
  • 48:55 - 48:57
    Und auch ich weiß nicht genau,
  • 48:57 - 48:59
    wie ich das momentan
    in Lexeme ausdrücken soll.
  • 48:59 - 49:03
    Das ist eine Sache, die mich--
    als Teilantwort auf Magnus' Frage--
  • 49:03 - 49:05
    davon abhält, die Teile hochzuladen,
  • 49:05 - 49:09
    die aus dem größten hebräischen
    Wörterbuch, das öffentlich zugänglich ist
  • 49:09 - 49:13
    und das ich seit einigen Jahren
    digitalisiere, stammen.
  • 49:13 - 49:15
    Ein guter Teil davon ist fertig,
  • 49:15 - 49:17
    aber ich stelle es jetzt nicht auf Lexeme,
  • 49:17 - 49:20
    weil ich nicht genau weiß,
    wie ich dieses Problem lösen soll.
  • 49:20 - 49:23
    (Lydia) In Ordnung,
    lösen wir das Problem hier. (lacht)
  • 49:24 - 49:26
    Das muss doch möglich sein.
  • 49:30 - 49:32
    In Ordnung, noch Fragen?
  • 49:37 - 49:40
    Wenn nicht,
    dann danke ich Ihnen vielmals.
  • 49:41 - 49:43
    (Beifall)
Title:
cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4
Video Language:
English
Duration:
49:51

German subtitles

Revisions