cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

Edit subtitles

0:01 - 0:04

WikiData und Sprachen
0:06 - 0:07

(Lydia) Vielen Dank.
0:07 - 0:11

Also, in dieser Konferenz sind
einige der großen Themen die Sprachen.
0:14 - 0:18

Ich möchte Ihnen einen Überblick
darüber geben, wo wir derzeit
0:18 - 0:20

beim Thema Sprachen stehen
0:20 - 0:22

und wie wir von hier aus
weitermachen können.
0:26 - 0:29

[Mehr Leuten mehr Zugang
zu mehr Wissen geben]
0:29 - 0:33

Bei Wikidata geht es darum, mehr Menschen
mehr Zugang zu mehr Wissen zu geben,
0:33 - 0:37

und Sprache ist ein wichtiger Teil davon,
dies Wirklichkeit werden zu lassen,
0:38 - 0:43

zumal immer mehr unseres Lebens
von der Technologie abhängt.
0:44 - 0:49

Und wie unser Hauptredner vorhin sagte,
0:50 - 0:52

fallen durch einen Teil der Technologie
die Menschen einfach zurück,
0:52 - 0:55

weil sie eine bestimmte Sprache
einfach nicht sprechen können,
0:55 - 0:57

und das ist nicht in Ordnung.
0:59 - 1:02

Deshalb wollen wir etwas
dagegen unternehmen.
1:03 - 1:06

Und um das zu ändern,
braucht man mindestens zwei Dinge.
1:06 - 1:11

Erstens muss man den Leuten Inhalte
in ihrer Sprache zur Verfügung stellen,
1:11 - 1:13

und zweitens muss man ihnen
1:13 - 1:16

in diesen Anwendungen
oder was immer man hat,
1:16 - 1:19

Interaktion in ihrer Sprache ermöglichen.
1:20 - 1:25

Und Wikidata hilft bei beiden davon.
1:25 - 1:28

Und die erste Sache,
der Inhalt in Ihrer Sprache,
1:28 - 1:31

das ist im Grunde das, was wir
an Objekten und Eigenschaften haben,
1:31 - 1:33

wie wir die Welt beschreiben.
1:33 - 1:35

Nun, das ist sicherlich nicht alles,
was man braucht,
1:35 - 1:39

aber es bringt einen ziemlich weit voran.
1:40 - 1:42

Die andere Sache ist
die Interaktion in Ihrer Sprache,
1:42 - 1:46

und hier kommen Lexeme ins Spiel.
1:46 - 1:49

Wenn Sie mit Ihrem digitalen
persönlichen Assistenten sprechen wollen
1:49 - 1:55

oder wenn Sie Ihr Gerät einen Text
und solche Dinge übersetzen lassen wollen.
1:56 - 1:59

Na gut, sehen wir uns
den Inhalt in Ihrer Sprache an.
1:59 - 2:03

Also, was wir an Objekten
und Eigenschaften haben.
2:05 - 2:10

Dafür sind Bezeichnungen in den Objekten
und Eigenschaften entscheidend.
2:10 - 2:15

Wir müssen wissen, wie diese Entität
genannt wird, über die wir sprechen.
2:16 - 2:20

Und anstatt über Q5 zu sprechen,
2:20 - 2:22

jemand, der Englisch spricht, weiß,
dass das ein "human" ist,
2:22 - 2:25

jemand, der Deutsch spricht, weiß,
dass das ein "Mensch" ist,
2:25 - 2:26

und ähnliche Dinge.
2:26 - 2:30

Also überbrücken diese Bezeichnungen
auf Objekten und Eigenschaften
2:30 - 2:33

die Kluft zwischen Mensch und Maschine.
2:33 - 2:35

Und Menschen und Menschen
2:35 - 2:40

machen mehr vorhandenes Wissen
für sie zugänglich.
2:43 - 2:46

Das ist ein schönes Ziel zum Anstreben.
2:46 - 2:48

Wie sieht es eigentlich aus?
2:48 - 2:50

Es sieht so aus.
2:51 - 2:53

Was Sie hier sehen, ist,
2:53 - 2:58

dass die meisten Objekte auf Wikidata
zwei Bezeichnungen haben,
2:58 - 3:01

also Bezeichnungen in zwei Sprachen.
3:02 - 3:04

Und danach nur eines und dann drei,
3:04 - 3:06

und dann wird es sehr düster.
3:07 - 3:09

(leises Lachen)
3:10 - 3:13

Ich denke, wir müssen es besser machen.
3:14 - 3:16

Aber andererseits
habe ich eigentlich erwartet,
3:16 - 3:18

dass es schlimmer sein würde.
3:18 - 3:20

Ich habe erwartet,
dass der Durchschnitt eines sein würde.
3:20 - 3:23

Deshalb war ich ziemlich froh,
zwei zu sehen. (lacht)
3:25 - 3:26

In Ordnung.
3:27 - 3:30

Aber es ist nicht nur interessant
zu wissen,
3:30 - 3:34

wie viele Bezeichnungen unsere
Objekte und Eigenschaften haben.
3:34 - 3:37

Es ist auch interessant zu sehen,
in welchen Sprachen.
3:38 - 3:44

Hier sehen Sie eine Grafik der Sprachen,
3:44 - 3:47

für die wir Bezeichnungen
auf den Objekten haben.
3:47 - 3:51

Der größte Teil davon ist also Sonstiges.
3:51 - 3:54

Ich habe also nur
die 100 wichtigsten Sprachen ausgewählt
3:55 - 3:59

und alles andere ist Sonstiges,
um diese Grafik lesbar zu machen.
4:00 - 4:02

Und dann gibt es noch
Englisch und Niederländisch,
4:03 - 4:04

Französisch
4:06 - 4:09

und, nicht zu vergessen, Asturisch.
4:10 - 4:12

- (Person 1) Juhu!
- (Lydia) Juhuu, jawohl!
4:14 - 4:17

Was Sie hier sehen,
ist also ein ziemliches Ungleichgewicht
4:17 - 4:20

und immer noch eine starke Konzentration
auf Englisch.
4:21 - 4:24

Eine andere Sache ist, wenn Sie sich
das Gleiche für Eigenschaften ansehen,
4:24 - 4:26

sieht es eigentlich besser aus.
4:27 - 4:33

Und teilweise kommt das davon, dass es
einfach viel weniger Eigenschaften waren.
4:33 - 4:37

Also haben auch kleinere Communites
eine Chance, damit Schritt zu halten.
4:37 - 4:39

Aber es ist auch ein ziemlich
wichtiger Teil von Wikidata,
4:39 - 4:41

dass man in seine Sprache
lokalisieren kann.
4:41 - 4:42

Das ist also gut.
4:46 - 4:48

Was ich hier mit Asturisch
hervorheben möchte, ist,
4:48 - 4:54

dass eine kleine Gemeinschaft
mit etwas Hingabe und Arbeit
4:54 - 4:57

wirklich einen großen Unterschied
machen kann,
4:57 - 4:58

und das ist wirklich cool.
5:02 - 5:03

Ein kleines Quiz für Sie.
5:03 - 5:05

Wenn Sie alle Eigenschaften
auf Wikidata nehmen,
5:05 - 5:08

die keine externen Identifikatoren sind,
5:08 - 5:10

welche hat dann die meisten Bezeichnungen,
also die meisten Sprachen?
5:11 - 5:14

(Publikum) [Gemurmel]
5:14 - 5:17

Ich höre eine gewisse Übereinstimmung
über die Instanz von?
5:18 - 5:19

Sie würden sich irren.
5:20 - 5:22

Es ist Bild. (lacht)
5:23 - 5:26

Also, ja, das sagt Ihnen,
wenn Sie eine der Sprachen sprechen,
5:26 - 5:29

in denen Instanz von
noch keine Bezeichnung hat,
5:29 - 5:30

sollten Sie sie vielleicht hinzufügen.
5:32 - 5:36

Es hat also derzeit 148 Bezeichnungen.
5:38 - 5:41

Aber das ist eine andere Folie.
5:43 - 5:45

Diese Grafik sagt uns etwas darüber,
5:45 - 5:49

wie viel Inhalt wir in einer bestimmten
Sprache zur Verfügung stellen
5:49 - 5:52

und wie viel von diesem Inhalt
tatsächlich genutzt wird.
5:52 - 5:55

Was Sie also sehen,
ist im Grunde eine Kurve,
5:55 - 5:59

bei der die meisten Inhalte
englische Beschriftungen haben,
5:59 - 6:04

in Englisch verfügbar sind
und viel genutzt werden.
6:04 - 6:06

Und dann geht sie abwärts.
6:06 - 6:09

Aber was Sie wiederum sehen,
sind Ausreißer,
6:09 - 6:15

die viel mehr Inhalte haben,
als Sie unbedingt erwarten würden,
6:17 - 6:20

und das ist wirklich, wirklich gut.
6:21 - 6:25

Das Problem ist immer noch,
dass es nicht oft verwendet wird.
6:26 - 6:29

Asturisch und Niederländisch
sollten höher stehen,
6:29 - 6:32

und ich denke, dass es echt nützlich ist,
6:33 - 6:36

diesen Gemeinden dabei zu helfen,
6:36 - 6:38

die Nutzung der gesammelten Daten
zu erhöhen.
6:43 - 6:48

Was diese und andere Analysen
uns gezeigt haben, ist eine gute Sache,
6:48 - 6:51

denn wir sehen,
dass stark genutzte Artikel
6:51 - 6:55

auch dazu neigen,
mehr Bezeichnungen zu haben
6:55 - 6:58

oder umgekehrt - das ist nicht ganz klar.
7:03 - 7:04

Und dann stellt sich die Frage,
7:05 - 7:07

ob wir nur die mächtigen Sprachen
bedienen.
7:08 - 7:11

Oder dienen wir allen?
7:13 - 7:18

Und was Sie hier sehen,
ist eine Gruppierung der Sprachen.
7:18 - 7:22

Die Sprachen, die in einer Gruppe sind,
haben oft gemeinsame Bezeichnungen.
7:26 - 7:29

Und Sie sehen, dass diese sich gruppieren.
7:29 - 7:35

Hier ist eine ähnliche Gruppierung,
in Farbe, basierend darauf,
7:35 - 7:39

wie lebendig, wie oft verwendet
7:40 - 7:43

und wie gefährdet die Sprache ist.
7:43 - 7:45

Und eine gute Sache, die Sie hier sehen,
7:45 - 7:49

ist, dass sichere Sprachen
und gefährdete Sprachen
7:49 - 7:54

nicht zwei verschiedene Cluster bilden,
7:54 - 7:59

sondern sie sind alle
miteinander vermischt,
8:00 - 8:05

was viel besser ist als umgekehrt,
8:05 - 8:09

wenn die sicheren Sprachen,
die mächtigen Sprachen,
8:10 - 8:12

sich nur gegenseitig aushelfen würden.
8:13 - 8:14

Nein, das ist nicht der Fall.
8:14 - 8:17

Und das ist wirklich eine gute Sache.
8:17 - 8:20

Als ich das sah, fand ich das sehr gut.
8:23 - 8:25

Hier ist eine ähnliche Sache,
8:26 - 8:29

bei der wir uns
8:30 - 8:34

den Status der Sprachen
8:34 - 8:36

und die Anzahl der Bezeichnungen
angesehen haben.
8:39 - 8:43

Was Sie sehen, ist ein klarer Sieg
für ungefährdete Sprachen,
8:43 - 8:44

wie zu erwarten ist.
8:46 - 8:47

Aber was Sie auch sehen, ist,
8:47 - 8:54

dass die Sprachen in Kategorie 2
und 3 und vielleicht sogar 4
8:54 - 8:59

eigentlich gar nicht so schlecht sind,
8:59 - 9:02

was ihre Darstellung in Wikidata
und anderen angeht.
9:03 - 9:06

Das festzustellen, ist wirklich gut.
9:08 - 9:10

Wenn man sich nun
die gleiche Sache anschaut,
9:10 - 9:12

wie viel von dem Inhalt
dieser Bezeichnungen
9:12 - 9:15

beispielsweise auf Wikipedia
tatsächlich verwendet wird,
9:17 - 9:23

dann sehen wir ein ähnliches Bild,
das wieder auftaucht.
9:24 - 9:30

Es zeigt uns, dass diese Communities
ihre Zeit tatsächlich gut nutzen,
9:30 - 9:35

indem sie beispielsweise Bezeichnungen
für stärker verwendete Artikel eintragen.
9:36 - 9:40

Es gibt Ausreißer, bei denen wir
meiner Meinung nach helfen können,
9:42 - 9:44

um diesen Communities zu helfen,
9:44 - 9:48

die Orte zu finden,
wo ihre Arbeit am wertvollsten wäre.
9:49 - 9:53

Aber insgesamt bin ich
mit diesem Bild zufrieden.
9:55 - 10:00

Nun, das war der Teil der Objekte
und Eigenschaften von Wikidata.
10:01 - 10:03

Betrachten wir nun die Interaktion
in Ihren Sprachen.
10:03 - 10:05

Also die Lexeme-Teile von Wikidata,
10:05 - 10:09

in denen wir Wörter und ihre Formen
und ihre Bedeutungen beschreiben.
10:10 - 10:13

Wir machen das jetzt
seit Mai letzten Jahres,
10:16 - 10:19

und der Inhalt ist gewachsen.
10:20 - 10:22

Sie können hier in Blau die Lexeme sehen
10:22 - 10:26

und dann in rot die Formen
auf diesen Lexemen
10:26 - 10:30

und in gelb die Bedeutung
auf diesen Lexemen.
10:31 - 10:34

Einige Communities--
dazu kommen wir später --
10:34 - 10:40

haben also viel Zeit damit verbracht,
Formen und Bedeutungen für ihre Lexeme
10:40 - 10:43

zu erstellen, was wirklich nützlich ist,
10:43 - 10:48

denn das bildet den Kern
des Datensatzes, den Sie benötigen.
10:51 - 10:55

Nun haben wir uns alle Sprachen angesehen,
10:55 - 10:58

die Lexeme auf Wikidata haben.
10:58 - 11:01

Die Wörter, die wir haben,
11:02 - 11:04

das sind im Moment 310 Sprachen.
11:05 - 11:08

Was ist Ihrer Meinung nach
die wichtigste Sprache,
11:08 - 11:12

wenn es um die Anzahl der Lexeme geht,
die derzeit in Wikidata enthalten sind?
11:13 - 11:15

(Publikum) [mehrere Zwischenrufe]
11:19 - 11:20

(Lydia) Hm?
11:20 - 11:22

(Person 2) Deutsch.
11:22 - 11:24

(Lydia) Entschuldigung,
ich habe es schon mal gehört.
11:24 - 11:25

Es ist Russisch.
11:28 - 11:30

Russisch hat einen großen Vorsprung.
11:32 - 11:34

Und nur um Ihnen
einen Eindruck zu geben,
11:35 - 11:37

es gibt verschiedene Meinungen,
11:37 - 11:42

aber ich habe zum Beispiel gelesen,
dass 1.000 bis 3.000 Wörter
11:42 - 11:45

Sie ungefähr auf Konversationsniveau
in einer anderen Sprache bringen
11:45 - 11:49

und 4.000 bis 10.000 Wörter
auf ein fortgeschrittenes Niveau.
11:52 - 11:55

Wir müssen also noch ein wenig aufholen.
11:58 - 12:03

Eine Sache, die Sie beachten sollten,
ist Baskisch hier
12:03 - 12:08

mit ungefähr 10.000 Lexemen.
12:09 - 12:13

Wenn man sich die Anzahl der Formen
für diese Lexeme ansieht,
12:14 - 12:16

ist Baskisch weit oben,
12:18 - 12:20

was wirklich cool ist,
12:20 - 12:25

und Sie sollten zu einem Vortrag gehen,
der Ihnen erklärt, warum das der Fall ist.
12:27 - 12:30

Wenn man sich nun die Anzahl
der Bedeutungen anschaut,
12:30 - 12:31

also was bedeuten die Wörter,
12:32 - 12:35

steht Baskisch sogar
ganz oben auf der Liste.
12:35 - 12:37

Ich denke, das verdient einen Applaus.
12:37 - 12:39

(Beifall)
12:46 - 12:47

Noch ein kurzes Quiz.
12:47 - 12:50

Welches ist das Lexem
mit den meisten Übersetzungen derzeit?
12:51 - 12:55

(Publikum) Katzen, Katzen, [unhörbar],
Douglas Adams, [unhörbar]
12:57 - 13:00

(Lydia) Alles gute Ratschläge, aber nein.
13:01 - 13:04

Es ist dies,
das russische Wort für "Wasser".
13:10 - 13:13

Also gut, wir haben jetzt
viel darüber gesprochen,
13:13 - 13:16

wie viele Lexeme, Formen
und Bedeutungen wir haben,
13:16 - 13:20

aber das ist nur eine Sache,
die man braucht.
13:20 - 13:22

Die andere Sache ist,
13:22 - 13:25

diese Lexeme, Formen und Bedeutungen
13:25 - 13:27

in maschinenlesbarer Form zu beschreiben.
13:27 - 13:30

Und dazu hat man Aussagen,
wie zum Beispiel zu Objekten.
13:31 - 13:35

Und eine der Eigenschaften,
die man verwendet,
13:35 - 13:36

ist ein Anwendungsbeispiel.
13:36 - 13:39

Wer also diese Daten verwendet,
13:39 - 13:42

kann verstehen, wie dieses Wort
im Kontext zu verwenden ist,
13:42 - 13:44

so dass es zum Beispiel
ein Zitat sein könnte.
13:45 - 13:47

Und hier liegt Polnisch ganz vorne.
13:48 - 13:50

Gute Arbeit, Polnisch-Sprecher.
13:54 - 13:58

Eine weitere Eigenschaft,
die wirklich nützlich ist, ist IPA,
13:58 - 14:00

also wie spricht man dieses Wort aus.
14:01 - 14:07

Russisch braucht offenbar
viele IPA-Erklärungen.
14:10 - 14:13

Aber noch einmal kommt Polnisch
gleich hinterher.
14:17 - 14:21

Und zu guter Letzt haben wir
auch noch eine Audioaussprache.
14:21 - 14:23

Das sind also Links
zu Dateien auf Commons,
14:23 - 14:26

in denen jemand das Wort ausspricht,
14:26 - 14:28

so dass Sie hören können,
14:28 - 14:30

wie ein Muttersprachler
das Wort ausspricht,
14:30 - 14:33

falls Sie zum Beispiel
IPA nicht lesen können.
14:35 - 14:39

Und es gibt ein wirklich nettes,
auf Wiki basierendes Projekt
14:39 - 14:40

namens Lingua Libre,
14:41 - 14:45

bei dem Sie mithelfen können,
Wörter in Ihrer Sprache aufzunehmen,
14:45 - 14:48

die dann zu den Lexemen auf Wikidata
hinzugefügt werden können,
14:48 - 14:52

damit andere Leute verstehen können,
wie Ihre Wörter ausgesprochen werden.
14:54 - 14:56

(Person 2) [undeutlich]
14:56 - 14:58

(Lydia) Wenn Sie
nach "Lingua Libre" suchen,
14:58 - 15:01

und ich bin sicher, dass es jemand
im Telegrammkanal posten kann.
15:03 - 15:05

Die Leute sind der Hammer.
15:05 - 15:07

Sie haben wirklich coole Sachen
mit Wikibase gemacht.
15:09 - 15:11

In Ordnung.
15:13 - 15:17

Dann ist die Frage, wie geht es weiter?
15:19 - 15:22

Basierend auf den Zahlen,
die ich Ihnen gerade gezeigt habe,
15:23 - 15:25

haben wir einen langen Weg zurückgelegt,
15:25 - 15:28

um mehr Menschen mehr Zugang
zu mehr Wissen zu geben,
15:28 - 15:31

was Sprachen auf Wikidata betrifft.
15:33 - 15:36

Aber es liegt auch noch
eine Menge Arbeit vor uns.
15:39 - 15:42

Einige der Dinge, die Sie
tun können, um zu helfen,
15:42 - 15:45

sind zum Beispiel Label-a-Thons,
15:45 - 15:50

wie Leute zusammenzubringen,
um Objekte in Wikidata zu bezeichnen,
15:51 - 15:55

oder einen Edit-a-Thon, um Lexeme
in Ihrer Sprache zu vervollständigen,
15:55 - 15:59

um die am häufigsten verwendeten Wörter
in Ihrer Sprache in Wikidata zu bestimmen.
16:01 - 16:03

Oder Sie können ein Werkzeug
wie Terminator verwenden,
16:03 - 16:08

das Ihnen hilft, die wichtigsten Elemente
in Ihrer Sprache zu finden,
16:08 - 16:12

bei denen noch keine Bezeichnung
vorhanden ist.
16:13 - 16:18

Am wichtigsten ist es, zu messen,
16:18 - 16:22

wie oft es in anderen Wikidata-Elementen
als Links in Aussagen verwendet wird.
16:26 - 16:30

Und beim Lexeme-Teil
16:31 - 16:35

geht es natürlich auch darum,
diese Lexeme zu erweitern
16:35 - 16:41

und weitere Aussagen hinzuzufügen,
16:41 - 16:44

so dass sie tatsächlich die Basis
16:44 - 16:47

für sinnvolle Anwendungen bilden können,
die darauf aufbauen.
16:48 - 16:51

Denn wir nähern uns
dieser kritischen Masse,
16:51 - 16:53

aber wir sind noch weit davon entfernt,
16:53 - 16:57

dass man darauf ernsthafte
Anwendungen aufbauen könnte.
16:58 - 17:02

Und ich hoffe, dass Sie alle
sich uns dabei anschließen werden.
17:03 - 17:07

Und damit komme ich schon
17:07 - 17:09

zu einer kleinen Hilfe
von unseren Freunden,
17:10 - 17:13

und Bruno, wollen Sie zu uns kommen
17:14 - 17:17

und mit uns über
lexikalische Masken sprechen?
17:17 - 17:19

(Bruno) Danke, Lydia.
17:19 - 17:22

Danke, dass Sie mir
die Zeit gegeben haben,
17:22 - 17:25

um diese Arbeit vorzustellen,
die wir bei Google Denny machen
17:25 - 17:29

und von der viele von Ihnen schon
gehört haben oder wissen.
17:30 - 17:32

Denn bei Google bin ich Linguist.
17:32 - 17:36

Ich freue mich also sehr, hier unter
anderen Sprachbegeisterten zu sein.
17:37 - 17:39

Wir bauen auch einige Lexika auf,
17:39 - 17:42

und wir haben diese Technologie
17:42 - 17:46

oder diesen Ansatz aufgebaut, von dem
wir glauben, dass er nützlich sein kann.
17:46 - 17:48

Nur um ein wenig
Hintergrundinformationen zu geben,
17:48 - 17:52

hier ist mein lexikografischer
Hintergrund, über den ich hier spreche.
17:53 - 17:55

Wenn wir eine Lexikon-Datenbank aufbauen,
17:55 - 17:59

ist es sehr schwierig, sie zu pflegen,
konsistent zu halten
17:59 - 18:00

und Daten auszutauschen,
18:00 - 18:02

wie Sie wahrscheinlich wissen.
18:03 - 18:06

Es gibt mehrere Versuche, die Funktionen
und die Eigenschaften zu vereinheitlichen,
18:06 - 18:09

die diese Lexeme
und diese Formen beschreiben,
18:09 - 18:11

und es ist kein gelöstes Problem.
18:11 - 18:14

Es gibt einige Vereinheitlichungsversuche
auf dieser Seite.
18:14 - 18:15

Aber was wirklich fehlt--
18:15 - 18:19

und dieses Problem hatten wir
zu Beginn unseres Projekts bei Google--
18:19 - 18:22

ist der Versuch,
eine interne Struktur zu schaffen,
18:22 - 18:26

die beschreibt, wie ein
lexikalischer Eintrag aussehen sollte,
18:26 - 18:29

welche Art von Daten oder welche Art
von Informationen wir haben
18:29 - 18:32

und welche Spezifikationen
erwartet werden.
18:32 - 18:38

Das ist es also, was wir mit dieser Sache
namens Lexikon-Maske herausgefunden haben.
18:39 - 18:44

Eine Lexikonmaske beschreibt,
was für einen Eintrag,
18:44 - 18:47

einen lexikografischen Eintrag,
erwartet wird, um vollständig zu sein,
18:47 - 18:51

sowohl in Bezug auf die Anzahl der Formen,
die Sie für ein Lexem erwarten,
18:51 - 18:55

als auch auf die Anzahl der Merkmale,
die Sie für jede dieser Formen erwarten.
18:56 - 18:58

Hier ist ein Beispiel
für italienische Adjektive.
18:58 - 19:02

Sie erwarten, dass Ihre Adjektive
auf Italienisch vier Formen haben,
19:02 - 19:05

und jede dieser Formen
hat eine spezifische Kombination
19:05 - 19:08

von Geschlechts- und Numerusmerkmalen.
19:09 - 19:12

Das erwarten wir
für die italienischen Adjektive.
19:12 - 19:16

Natürlich können Sie
sehr komplexe Masken haben,
19:16 - 19:19

wie die Konjugation
der französischen Verben,
19:19 - 19:20

die sehr umfangreich ist,
19:20 - 19:23

und ich zeige Ihnen nicht
weitere russische Masken,
19:23 - 19:25

weil diese nicht
auf den Bildschirm passen.
19:26 - 19:30

Und wir haben auch
einige detaillierte Spezifikationen,
19:30 - 19:33

weil wir unterscheiden auf der Formebene.
19:33 - 19:37

Hier haben Sie also russische Substantive,
die drei Numeri
19:37 - 19:40

und eine Reihe von Fällen
mit unterschiedlichen Formen haben,
19:40 - 19:43

aber sie haben auch eine Spezifikation
auf der Einstiegsebene,
19:43 - 19:46

die besagt, dass ein Substantiv vor allem
19:46 - 19:50

ein inhärentes Geschlecht
und ein inhärentes Belebtheitsmerkmal hat,
19:50 - 19:52

das ebenfalls in der Maske angegeben ist.
19:55 - 19:58

Wir wollen auch unterscheiden,
dass eine Maske
19:58 - 20:02

eine Spezifikation dafür gibt,
wie ein Eintrag aussehen sollte.
20:02 - 20:07

Aber Sie können kleinere Masken
für fehlerhafte Aspekte der Form
20:07 - 20:11

oder fehlerhafte Aspekte des Lexems haben,
die in der Sprache vorkommen.
20:11 - 20:15

Hier ist also die einfachste Version
der französischen Verben,
20:15 - 20:20

die nur die dritte Person Singular
für alle Wetterverben haben,
20:20 - 20:24

wie "es regnet" oder "es schneit",
wie im Englischen.
20:25 - 20:26

Wir unterscheiden also
diese beiden Stufen.
20:27 - 20:30

Und wie wir das bei Google verwenden,
20:30 - 20:33

ist, dass wir, wenn wir ein Lexikon haben,
das wir verwenden wollen,
20:33 - 20:37

die Maske benutzen, um die Lexika,
also alle Einträge,
20:37 - 20:40

wirklich buchstäblich
durch die Maske zu werfen
20:40 - 20:44

und zu sehen, welcher Eintrag
ein Problem in Bezug auf die Struktur hat.
20:44 - 20:47

Fehlt uns eine Form?
Fehlt uns ein Merkmal?
20:47 - 20:51

Und wenn es ein Problem gibt, führen wir
eine menschliche Validierung durch
20:51 - 20:54

oder einfach nur, um zu sehen,
ob es die Maske passiert.
20:54 - 20:56

Es ist also ein extrem
leistungsfähiges Werkzeug,
20:56 - 20:58

um die Qualität der Struktur
zu überprüfen.
20:59 - 21:02

Wir freuen uns also,
heute bekannt geben zu können,
21:02 - 21:05

dass wir grünes Licht erhalten haben,
unsere Maske freizugeben.
21:06 - 21:08

Dies ist also ein Schema.
21:08 - 21:10

Wenn Sie das wollen,
können wir es veröffentlichen
21:10 - 21:13

und wir werden es Wikidata
als ShEx-Dateien zur Verfügung stellen.
21:13 - 21:17

Dies ist eine ShEx-Datei
für deutsche Substantive,
21:17 - 21:20

und Denny arbeitet an der Konvertierung
von unserer internen Spezifikation
21:20 - 21:24

in eine Open-Source-Spezifikation.
21:24 - 21:27

Derzeit decken wir
mehr als 25 Sprachen ab.
21:27 - 21:29

Wir erwarten also Wachstum
auf unserer Seite,
21:29 - 21:34

aber wir suchen auch nach der Möglichkeit,
für andere Sprachen zusammenzuarbeiten.
21:34 - 21:40

Und eine der laufenden Kooperationen,
die zwischen Denny und Lukas stattfindet,
21:41 - 21:45

Lukas hat diese großartigen Werkzeuge,
um eine Benutzeroberfläche zu haben,
21:45 - 21:49

die dem Benutzer
oder dem Beitragenden hilft,
21:49 - 21:51

weitere Formen hinzuzufügen.
21:51 - 21:54

Wenn Sie also ein Adjektiv
auf Französisch hinzufügen möchten,
21:54 - 21:59

sagt Ihnen die Benutzeroberfläche,
wie viele Formen erwartet werden
21:59 - 22:02

und welche Art von Funktionen
diese Form haben sollte.
22:02 - 22:06

Unsere Maske hilft Ihnen, das Werkzeug
zu definieren und zu erweitern.
22:07 - 22:08

Das ist alles.
22:09 - 22:10

(Lydia) Ich danke Ihnen vielmals.
22:10 - 22:12

(Beifall)
22:14 - 22:17

In Ordnung. Gibt es Fragen?
22:17 - 22:19

Wollen Sie mehr über Lexeme sprechen?
22:20 - 22:21

- (Person 3) Ja.
- (Lydia) Ja. (lacht)
22:33 - 22:36

(Person 3) Meine Frage,
weil Sie davon sprachen,
22:36 - 22:39

mehr Menschen in mehr Sprachen
Zugang zu gewähren.
22:39 - 22:41

Aber es gibt eine Menge Sprachen,
die in Wikidata
22:41 - 22:43

nicht verwendet werden können.
22:43 - 22:45

Welche Lösung haben Sie also dafür?
22:46 - 22:48

(Lydia) Wenn Sie sagen, dass Wikidata
nicht verwendet werden kann,
22:48 - 22:50

sprechen Sie von der Eingabe
von Bezeichnungen?
22:50 - 22:52

(Person 3) Bezeichnungen,
Beschreibungen.
22:52 - 22:55

(Lydia) Richtig.
Bei Lexemes ist es also etwas anders,
22:55 - 22:58

weil wir dort diese Einschränkung
nicht haben.
22:59 - 23:03

Für Bezeichnungen
von Objekten und Eigenschaften
23:03 - 23:05

gibt es eine gewisse Einschränkung,
23:05 - 23:12

weil wir sicherstellen wollten,
dass nicht jeder
23:12 - 23:14

etwas völlig anderes macht
23:14 - 23:17

und es unüberschaubar wird.
23:19 - 23:21

Sogar eine kleine Communties,
23:21 - 23:24

die eine einzige Sprache wollen
und daran arbeiten möchten,
23:24 - 23:27

kommt zu uns und sprecht mit uns,
wir werden das einrichten.
23:27 - 23:29

(Person 3) Wir haben das
beim Prager Hackathon im Mai getan,
23:29 - 23:32

und wir haben bis fast August gebraucht,
um unsere Sprache verwenden zu können.
23:32 - 23:35

- (Lydia) Ja.
- (Person 3) Also, es ist sehr langsam.
23:35 - 23:37

(Lydia) Ja, es ist leider sehr langsam.
23:38 - 23:40

Wir arbeiten derzeit
mit dem Sprachausschuss
23:40 - 23:46

an der Lösung einiger grundlegender...
23:50 - 23:52

Zum Beispiel, eine Einigung
darüber zu erzielen,
23:52 - 23:55

welche Arten von Sprachen
tatsächlich "erlaubt" sind,
23:56 - 23:59

und das hat zu lange gedauert,
24:00 - 24:03

weshalb Ihre Anfrage wahrscheinlich
länger gedauert hat,
24:03 - 24:04

als sie hätte sein sollen.
24:05 - 24:06

(Person 3) Danke.
24:07 - 24:08

(Person 4) Vielen Dank.
24:08 - 24:11

Lydia, wenn Sie sich an die Statistiken
erinnern, die Sie gezeigt haben,
24:11 - 24:13

die Anzahl der Lexeme pro Sprache.
24:13 - 24:18

Haben Sie also alle Formen
als Datenpunkt gezählt
24:18 - 24:20

oder nur Lexeme?
24:21 - 24:23

(Lydia) Meinen Sie das?
24:23 - 24:24

Welches meinen Sie?
24:24 - 24:26

(Person 4) Ja, genau.
24:26 - 24:28

Wenn Sie sich erinnern,
zählt diese Zahl [unhörbar]
24:28 - 24:32

alle Formen für alle Lexeme
oder nur, wie viele Lexeme es gibt?
24:32 - 24:34

(Lydia) Nein, dies ist nur
die Anzahl von Lexemen.
24:34 - 24:36

(Person 4) Nur eine Anzahl
von Lexemen, okay.
24:36 - 24:37

Dann ist es also nur eine Statistik,
24:37 - 24:39

denn wenn es dann die Formen
zusammensetzen würde--
24:39 - 24:41

deshalb frage ich--
24:41 - 24:43

dann haben alle Sprachen
mit der Flexionsmorphologie,
24:43 - 24:45

wie Russisch, Serbisch,
Slowenisch und so weiter,
24:45 - 24:48

einen natürlichen Vorteil,
weil sie so viele haben.
24:48 - 24:52

(Lydia) Das wirkt sich also
auf diese Anzahl von Formen aus.
24:52 - 24:54

(Person 4) Ja, das war diese hier. Danke.
24:57 - 25:00

(Person 5) Also, ich hatte
eine kurze Frage über die...
25:01 - 25:07

Wenn wir über die eigentlichen
Objekte und Eigenschaften sprechen,
25:07 - 25:09

soweit ich weiß,
25:09 - 25:12

gibt es derzeit keine Möglichkeit,
eine tatsächliche Quelle
25:12 - 25:15

für die angegebenen Bezeichnungen
und Beschreibungen anzugeben.
25:15 - 25:18

Zum Beispiel, weil man,
25:18 - 25:21

wenn es sich um eine Eigenschaft
eines Objekts handelt,
25:21 - 25:24

kann man zum Beispiel
widersprüchliche Bezeichnungen erhalten.
25:24 - 25:26

(Lydia) Ja.
25:26 - 25:28

(Person 5) Diese Person ist also wie...
25:28 - 25:31

Wir haben zum Beispiel schon einmal
über indigene Dinge gesprochen.
25:31 - 25:36

Diese Person ist also nach dieser Quelle
ein norwegischer Künstler,
25:36 - 25:39

und nach dieser Quelle
ein samischer Künstler.
25:40 - 25:43

Oder, zum Beispiel, in der
estnischen Sprache hatten wir ein Problem,
25:43 - 25:48

bei dem wir die Terminologie
auf die offizielle Terminologie
25:48 - 25:49

in den offiziellen Lexika
umstellen mussten,
25:49 - 25:52

aber wir haben keine Möglichkeit,
wirklich anzugeben, warum,
25:52 - 25:54

was die Ursache dafür war
25:54 - 25:56

und warum das besser war
und was vorher da war.
25:56 - 25:57

Es war nur ich als zufällige Person,
25:57 - 26:00

die die Sache umgestellt hat
für jeden, der das sieht.
26:00 - 26:03

Gibt es also einen Plan, um dies
in irgendeiner Weise zu ermöglichen,
26:03 - 26:06

damit wir tatsächlich die richtigen
Quellen für die Sprachdaten haben?
26:07 - 26:11

(Lydia) Also, es ist teilweise möglich.
26:11 - 26:16

Wenn Sie zum Beispiel ein Objekt
für eine Person haben,
26:17 - 26:21

dann haben Sie eine Aussage,
den Vornamen, den Nachnamen
26:21 - 26:23

und so weiter, dieser Person,
26:23 - 26:26

und dann können Sie dort
die Referenz dafür angeben.
26:28 - 26:32

Ich zögere noch, mehr Komplexität
26:32 - 26:35

für Referenzen auf Bezeichnungen
und Beschreibungen hinzuzufügen,
26:35 - 26:39

aber wenn die Leute wirklich,
wirklich denken,
26:39 - 26:43

dass dies etwas ist,
das nicht durch eine Referenz
26:43 - 26:45

zu der Aussage abgedeckt ist,
26:45 - 26:47

dann lassen Sie uns darüber reden.
26:49 - 26:53

Aber ich fürchte, es wird
eine Menge Komplexität
26:53 - 26:56

für hoffentlich wenige Fälle hinzufügen,
26:57 - 27:00

aber ich bin bereit, mich vom Gegenteil
überzeugen zu lassen,
27:00 - 27:04

wenn die Leute wirklich
sehr stark davon überzeugt sind.
27:04 - 27:08

(Person 5) Wenn es hinzugefügt wird,
sollte es nicht Standardeinstellung sein,
27:08 - 27:12

das allen Anfängern der Benutzer
zu zeigen, auf jeden Fall.
27:12 - 27:16

Eher so: "Klicken Sie hier, wenn Sie
etwas Bestimmtes dazu sagen müssen".
27:18 - 27:23

(Lydia) Haben wir ein Gefühl dafür,
wie oft das eine Rolle spielen würde?
27:25 - 27:26

(Person 5) Auf Estnisch, zum Beispiel--
27:26 - 27:29

ich nehme an, das gilt auch
für andere Sprachen--
27:29 - 27:34

gibt es einen offiziellen Namen,
die tatsächlich legitime Übersetzung,
27:34 - 27:36

zum Beispiel ins Englische,
27:36 - 27:40

einer bestimmten Art
von Stadtgemeinde ist.
27:41 - 27:42

Das war zum Beispiel mein Anwendungsfall,
27:42 - 27:44

wo wir das Wort "Gemeinde"
verwendet haben,
27:45 - 27:51

das im estnischen Original
wie eine Kirchengemeinde gemeint war,
27:51 - 27:52

und das war der Ursprung,
27:52 - 27:55

aber das ist nicht die offizielle
Übersetzung, die Estland jetzt hat.
27:55 - 27:59

(Lydia) In diesem Fall würde ich es
als offizielle Namensangabe hinzufügen
27:59 - 28:01

und dort den Verweis hinzufügen.
28:02 - 28:03

(Person 5) Okay.
28:05 - 28:07

(Lydia) Weitere Fragen, ja?
28:08 - 28:10

(Person 6) Ich habe zwei kurze Kommentare.
28:10 - 28:14

Sie haben ausdrücklich Asturisch als eine
Sprache genannt, die gut funktioniert,
28:14 - 28:16

und ich denke,
das ist ein falsches Artefakt.
28:16 - 28:18

(Lydia) Erzählen Sie mir davon.
28:18 - 28:20

(Person 6) Ich glaube, es ist nur ein Bot,
28:20 - 28:24

der Personennamen wie Eigennamen einfügt
28:24 - 28:27

und sagt: "Nun, das ist genau
wie im Französischen oder Spanischen",
28:27 - 28:29

und es einfach massiv kopiert.
28:29 - 28:33

Ein Beweis dafür ist, dass man
diese Energie im Asturischen
28:33 - 28:37

nicht in Dingen sieht, die eigentlich
übersetzt werden müssen, wie Eigennamen
28:37 - 28:40

oder Namen von Objekten,
die keine Eigennamen sind.
28:40 - 28:41

(Lydia) Asaf, du brichst mir das Herz.
28:41 - 28:43

(Person 6) Ich weiß,
ich vermassle immer die Show,
28:43 - 28:48

aber ich habe auch gute Neuigkeiten,
was die Zahlen zur Aussprache betrifft.
28:49 - 28:54

Wie Sie wahrscheinlich wissen,
ist Commons voll von Aussprachedateien,
28:54 - 28:55

und zum Beispiel
28:55 - 29:00

gibt es im Niederländischen nicht weniger
als 300.000 Aussprachedateien
29:00 - 29:01

schon unter Commons
29:02 - 29:05

die nur irgendwie
aufgenommen werden müssen.
29:05 - 29:08

Wenn also jemand
nach einem Nebenprojekt sucht,
29:08 - 29:09

gibt es tonnenweise
29:09 - 29:13

klassifizierte, kategorisierte
Aussprachedateien unter Commons
29:13 - 29:17

unter der Kategorie "Aussprache"
nach Sprache.
29:17 - 29:20

Das wartet nur darauf,
mit Lexemen abgeglichen
29:20 - 29:23

und auf Lexeme gesetzt zu werden.
29:23 - 29:27

Und ich habe mich gefragt, ob Sie etwas
über den Fahrplan sagen können,
29:27 - 29:29

etwas darüber, wie viel Investitionen
29:29 - 29:32

oder was wir im kommenden Jahr
von Lexeme erwarten können,
29:32 - 29:34

denn ich kann es kaum erwarten.
29:35 - 29:37

(Lydia) Sie können nicht warten? (lacht)
29:37 - 29:39

- (Person 6) Auf mehr.
- (Lydia) Ja.
29:45 - 29:49

Im Moment konzentrieren wir uns
auf mehr über Wikibase und Datenqualität,
29:51 - 29:55

um zu sehen, wie viel Fahrt das bekommt,
29:55 - 30:01

und dann mehr Information darüber,
wo die Schwachpunkte als Nächstes liegen,
30:01 - 30:06

und dann wieder zur weiteren Verbesserung
der lexikografischen Daten zurückzukehren.
30:07 - 30:10

Und eines der Dinge, die ich
gerne von Ihnen hören würde,
30:10 - 30:14

ist, wo genau Sie
die nächsten Schritte sehen,
30:14 - 30:16

wo Sie Verbesserungen sehen wollen,
30:16 - 30:20

damit wir dann herausfinden können,
wie wir das erreichen können.
30:21 - 30:23

Aber natürlich haben Sie Recht,
30:23 - 30:26

es gibt noch so viel zu tun,
auch von der technischen Seite her.
30:31 - 30:34

(Person 7) Okay, als wir
die baskischen Wörter
30:34 - 30:36

mit Formen hochgeladen haben,
30:36 - 30:38

und Sie werden einige dieser Dinge sehen,
30:38 - 30:41

sagten wir beide letzte Woche:
"Oh, wir sind die Ersten bei etwas.
30:43 - 30:45

Es erscheint in der Presse,
und es ist wie:
30:45 - 30:49

"Oh, Baskisch, es ist das erste Mal,
das sie bei etwas die ersten sind".
30:49 - 30:51

(Lachen)
30:51 - 30:53

Und dann fragen die Leute:
"Okay, aber wofür ist das?"
30:55 - 30:57

Wir haben keine wirklich gute Antwort.
30:57 - 30:58

Ich meine, "Okay,
30:58 - 31:02

das wird Computern helfen,
unsere Sprache besser zu verstehen, ja,
31:02 - 31:05

aber was für Werkzeuge können wir
in der Zukunft herstellen?"
31:05 - 31:07

Und darauf haben wir keine gute Antwort.
31:07 - 31:10

Ich weiß also nicht, ob Sie
eine gute Antwort darauf haben.
31:10 - 31:13

(Lydia) (lacht) Ich weiß nicht,
ob ich eine gute Antwort habe,
31:13 - 31:15

aber ich habe eine Antwort.
31:15 - 31:20

Ich denke also, wie ich
schon sagte [unhörbar],
31:20 - 31:23

dass wir noch nicht
die kritische Masse erreicht haben,
31:23 - 31:26

in der man viele der wirklich
interessanten Werkzeuge bauen kann.
31:26 - 31:28

Aber es gibt bereits einige Werkzeuge.
31:28 - 31:32

Erst neulich hat Esther [Pandelia]
zum Beispiel
31:32 - 31:34

ein Werkzeug veröffentlicht,
mit dem man sehen kann,
31:36 - 31:39

ich glaube, es waren die Worte
auf einem Globus,
31:39 - 31:42

wo sie gesprochen werden,
woher sie kommen.
31:42 - 31:44

Wahrscheinlich irre ich mich da,
31:44 - 31:47

aber sie hatte auf dem Projekt-Chat
auf Wikidata geantwortet--
31:47 - 31:49

Sie können es dort nachschlagen.
31:50 - 31:52

Wir haben also
diese ersten Werkzeuge gesehen,
31:52 - 31:55

genau wie damals, als Wikidata begann.
31:57 - 32:00

Zuerst etwas - wie ein Netzwerk,
32:00 - 32:02

und wie: "Schau, da ist dieses Ding,
32:02 - 32:04

das sich mit diesem
anderen Ding verbindet".
32:05 - 32:07

Und je mehr Daten wir haben
32:07 - 32:10

und je mehr wir
eine kritische Masse erreicht haben,
32:12 - 32:15

desto leistungsfähigere Anwendungen
werden möglich,
32:16 - 32:18

Dinge wie Histropedia,
32:19 - 32:22

Dinge wie Fragen und Antworten
32:22 - 32:26

in Ihrem digitalen persönlichen
Assistenten, Platypus und so weiter.
32:26 - 32:30

Ähnliches sehen wir bei den Lexemen.
32:31 - 32:35

Wir befinden uns in einem Stadium,
in dem man so etwas wie diese kleinen,
32:35 - 32:37

hey, schau, es gibt eine Verbindung
zwischen den beiden Dingen,
32:38 - 32:43

und es gibt eine Übersetzung
dieses Wortes in dieses Sprachstadium,
32:43 - 32:48

und wenn wir es erweitern
und mehr Wörter beschreiben,
32:48 - 32:49

wird mehr möglich.
32:49 - 32:52

Was wird nun möglich?
32:53 - 32:59

Wie Ben, unser Hauptredner vorhin,
sprach über Übersetzungen,
33:00 - 33:03

über die Möglichkeit, von einer Sprache
in eine andere zu übersetzen.
33:03 - 33:08

Und Jens, mein Kollege,
er spricht immer davon,
33:08 - 33:11

dass die Europäische Union
einen Übersetzer sucht,
33:11 - 33:17

der aus dem Maltesischen ins Schwedische
übersetzen kann, war es Maltesisch?
33:17 - 33:19

- (Person 8) Estnisch.
- (Lydia) Estnisch.
33:22 - 33:26

Und das ist keine übliche Kombination.
33:27 - 33:32

Aber wenn man all diese Sprachen
an einem maschinenlesbaren Ort hat,
33:32 - 33:33

kann man das tun,
33:33 - 33:37

man kann ein Wörterbuch
33:37 - 33:42

von Estnisch nach Maltesisch
und zurück bekommen.
33:43 - 33:46

Also Sprachkombinationen
in Wörterbüchern abzudecken,
33:46 - 33:48

die vorher einfach nicht abgedeckt wurden,
33:48 - 33:51

weil es nicht genug Nachfrage
dafür gab, zum Beispiel,
33:51 - 33:56

um die Arbeit finanziell tragbar zu machen
und zu rechtfertigen.
33:56 - 33:57

Jetzt können wir das tun.
34:00 - 34:02

Dann die Texterstellung.
34:02 - 34:04

Lucie hat vorhin davon gesprochen,
34:04 - 34:10

wie sie mit Hattie
an der Textgenerierung arbeitet,
34:10 - 34:15

um Wikipedia-Artikel
in Minderheitensprachen zu erstellen,
34:15 - 34:20

und dazu braucht man Daten über Wörter,
34:20 - 34:23

und dazu muss man die Sprache verstehen.
34:24 - 34:28

Ja, und das sind nur einige,
die mir gerade in den Sinn kommen.
34:29 - 34:30

Vielleicht hat unser Publikum mehr Ideen,
34:30 - 34:34

was es tun möchte, wenn wir
all die herrlichen Daten haben.
34:38 - 34:41

(Person 9) Okay, ich werde vom Thema
Lexeme abweichen.
34:41 - 34:43

Ich werde die Frage stellen,
34:43 - 34:46

wie kann ich als Mitglied der Community
34:46 - 34:50

darauf Einfluss nehmen, dass die Priorität
auf die Aufgabe gelegt wird,
34:50 - 34:54

dass ein neuer Benutzer angeben kann,
34:54 - 34:57

welche Sprachen er sehen
und bearbeiten möchte,
34:57 - 35:01

ohne dass er geheime
verbale Vorlagenkenntnisse hat.
35:02 - 35:05

Vielleicht wird es dieses Jahr
diese technische Wunschliste
35:05 - 35:07

ohne Wikipedia-Themen geben.
35:07 - 35:11

Vielleicht gibt es eine Hoffnung, dass wir
alle über diese Sache abstimmen können,
35:11 - 35:14

die wir sieben Jahre lang
nicht geregelt haben.
35:14 - 35:18

Haben Sie also irgendwelche
Ideen und Kommentare dazu?
35:18 - 35:20

Sie sprechen also davon,
35:20 - 35:23

dass jemand, der nicht
in Wikidata eingeloggt ist,
35:23 - 35:26

seine Sprache nicht einfach ändern kann?
35:26 - 35:28

(Person 9) Nein, für [unhörbare] Benutzer.
35:28 - 35:31

(Lydia) Wenn sie also eingeloggt sind,
35:31 - 35:35

können sie ihre Sprache einfach
oben auf der Seite ändern,
35:36 - 35:38

und dann erscheint,
35:40 - 35:42

wo die Beschreibung [unhörbar] steht
35:42 - 35:44

und sie können sie bearbeiten.
35:46 - 35:49

(Person 9) Nun, eigentlich
ist der Arbeitsablauf oft so,
35:49 - 35:52

dass, wenn Sie mehrere Sprachen
haben wollen, diese angeboten werden,
35:52 - 35:55

das nicht immer der Fall ist.
35:55 - 35:58

(Lydia) Okay, vielleicht sollten wir uns
nach diesem Vortrag zusammensetzen
35:58 - 36:00

und Sie zeigen es mir.
36:02 - 36:04

Cool. Noch mehr Fragen?
36:05 - 36:06

Ja.
36:12 - 36:13

(Person 10) Danke für die Präsentation.
36:14 - 36:16

Können Sie den Stand
36:16 - 36:19

der Korrelation mit der
Wiktionary-Community kommentieren?
36:19 - 36:22

Soweit ich gesehen habe,
gab es einige Diskussionen
36:22 - 36:26

über den Import
einiger Elemente der Arbeit,
36:26 - 36:31

aber es scheint, Lizenzprobleme und einige
Meinungsverschiedenheiten usw. zu geben.
36:31 - 36:32

(Lydia) Das stimmt.
36:32 - 36:36

Die Wiktionary-Community
hat also viel Zeit
36:37 - 36:39

mit dem Aufbau
von Wiktionary verbracht.
36:39 - 36:43

Sie haben erstaunlich komplizierte
36:43 - 36:48

und komplexe Vorlagen gebaut,
36:48 - 36:54

um hübsche Tabellen zu erstellen,
die automatisch Formen für Sie
36:54 - 36:56

und alle möglichen
wirklich beeindruckenden
36:56 - 37:01

und verrückten Dinge erzeugen,
wenn Sie darüber nachdenken.
37:02 - 37:08

Und natürlich haben sie eine Menge Zeit
und Mühe in diese Arbeit investiert.
37:09 - 37:13

Und verständlicherweise wollen die nicht,
37:13 - 37:17

dass man sich das einfach grabscht.
37:18 - 37:19

einfach so.
37:19 - 37:22

Einiges davon kommt also von dort.
37:23 - 37:25

Und das ist gut so, das ist okay.
37:26 - 37:32

Die ersten Wiktionary-Communities
sprechen nun davon,
37:32 - 37:34

einige ihrer Daten
in Wikidata zu importieren.
37:34 - 37:39

Russisch, das Sie gesehen haben,
ist zum Beispiel einer dieser Fälle,
37:40 - 37:43

und ich erwarte, dass noch mehr
davon realisiert wird.
37:44 - 37:47

Aber es wird ein langsamer Prozess sein,
37:47 - 37:49

so wie die Übernahme der Daten
von Wikidata in Wikipedia
37:49 - 37:52

ein ziemlich langsamer Prozess war.
37:53 - 37:56

Auf der anderen Seite ist es einfacher,
37:56 - 38:00

die Daten, die in Lexemen
auf Wiktionary stehen,
38:00 - 38:02

tatsächlich zu nutzen,
so dass sie diese nutzen
38:02 - 38:06

und Daten zwischen den Wiktionaries
austauschen können,
38:06 - 38:09

was im Moment super schwer
bis unmöglich ist,
38:09 - 38:12

was verrückt ist, genau wie bei Wikipedia.
38:14 - 38:16

Warten Sie auf das Geburtstagsgeschenk.
(lacht)
38:20 - 38:21

Ja.
38:23 - 38:25

(Person 11) Als ich andersherum dachte,
38:25 - 38:28

wollte ich es eigentlich nicht sagen,
weil ich denke, es wird super albern sein,
38:28 - 38:32

aber ich denke, dass Wiktionary
bereits einige Inhalte hat,
38:32 - 38:35

und ich weiß, dass wir diese nicht
auf Wikidata übertragen können,
38:35 - 38:37

weil es einen Unterschied
in den Lizenzen gibt.
38:37 - 38:40

Aber ich dachte, dass wir vielleicht
etwas deswegen tun können.
38:40 - 38:46

Vielleicht, ich weiß nicht, können wir
die Erlaubnis der Communities einholen,
38:46 - 38:51

nachdem wir eine öffentliche
Abstimmung durchgeführt haben
38:52 - 38:56

und die aktiven Mitglieder
der Gemeinschaft abstimmen
38:56 - 38:57

und sagen können,
38:57 - 39:03

ob sie die Inhalte, für die sie
die Wikidata-Lexeme machen dürfen,
39:03 - 39:06

annehmen oder übertragen möchten.
39:06 - 39:09

Weil ich es einfach
für eine solche Verschwendung halte.
39:10 - 39:14

Also, das ist definitiv im Gespräch,
dass die Leute,
39:14 - 39:18

die in Wiktionary-Communities sind,
das dort zur Sprache bringen.
39:18 - 39:24

Ich denke, es wäre ein bisschen anmaßend,
wenn wir das erzwingen würden.
39:26 - 39:31

Aber, ja, ich denke, es ist
auf jeden Fall ein Gespräch wert.
39:31 - 39:34

Aber ich denke, es ist
auch wichtig, zu verstehen,
39:34 - 39:39

dass es einen Unterschied gibt
zwischen dem, was gesetzlich erlaubt ist
39:39 - 39:43

und was wir tun sollten,
39:43 - 39:45

und dem, was diese Leute
wollen oder nicht wollen.
39:46 - 39:47

Selbst wenn es also rechtlich erlaubt ist,
39:47 - 39:51

wenn einige Wiktionary-Communities
das nicht wollen,
39:51 - 39:53

wäre ich zumindest vorsichtig.
39:59 - 40:02

Ich denke, Sie brauchen das Mikro
für den Stream.
40:05 - 40:07

(Person 12) Also, offensichtlich
ist das alles sehr aufregend,
40:08 - 40:12

und ich denke sofort, wie kann ich
das meinen Studenten vermitteln
40:12 - 40:15

und wie kann ich es in die Kurse,
40:15 - 40:19

die Arbeit, die wir machen,
und die Bildungseinrichtungen integrieren.
40:19 - 40:22

Und mir fehlt im Moment
40:23 - 40:24

noch das Wissen,
40:24 - 40:27

aber ich denke,
die Dokumentation, die wir haben,
40:28 - 40:30

vielleicht verbessert werden könnte.
40:30 - 40:33

Das ist also eine Art Aufforderung,
coole Videos zu machen,
40:33 - 40:36

die erklären, wie es funktioniert,
40:36 - 40:40

denn wenn wir das haben,
können wir es nutzen,
40:40 - 40:42

und wir können Studenten an Bord ziehen,
40:42 - 40:47

und wir können den Leuten verständlich
machen, wie fantastisch das alles ist.
40:47 - 40:52

Und ja, denken Sie an die Dokumentation
und denken Sie an die Ausbildung, bitte.
40:52 - 40:54

Denn ich denke, es könnte
eine Menge getan werden.
40:54 - 40:59

Dies sind schon viele Aufgaben,
die auch mit...
41:00 - 41:02

na ja, ich würde nicht sagen
Grundschulen,
41:02 - 41:05

aber sicherlich auch mit jüngeren
Studenten durchgeführt werden könnten.
41:06 - 41:11

Und deshalb würde ich es gerne sehen,
dass dieses Potenzial genutzt wird,
41:11 - 41:15

und ich persönlich verstehe
noch nicht genug,
41:15 - 41:19

um Aufgaben zu erstellen
oder so etwas wie...
41:20 - 41:22

etwas Praktisches daraus zu machen.
41:22 - 41:26

Wenn also jemand hier Hilfe
oder Gedanken dazu hat,
41:26 - 41:30

würde ich mich sehr freuen,
Ihre Ideen zu hören, und Ihre auch.
41:31 - 41:32

(Lydia) Ja, lassen Sie uns darüber reden.
41:35 - 41:37

Noch Fragen?
41:38 - 41:39

Jemand anderes hat die Hand gehoben.
41:39 - 41:41

Ich habe vergessen, wer das war.
41:46 - 41:50

(Person 13) Wenn wir also nicht
aus Wiktionary importieren können,
41:50 - 41:52

gibt es eine konzertierte Anstrengung,
41:52 - 41:56

um andere öffentlich
zugängliche Quellen zu finden,
41:56 - 41:57

vielleicht alle Daten,
41:59 - 42:03

und eine Art Vorfilter,
um sie so zu organisieren,
42:03 - 42:08

dass sie von Leuten beim Import
einfach überprüft werden können?
42:09 - 42:11

Es gibt also erste Bemühungen.
42:11 - 42:15

Nach meinem Verständnis
ist das Baskische eine dieser Bemühungen.
42:15 - 42:17

Vielleicht möchten Sie
etwas mehr darüber sagen?
42:18 - 42:20

(Person 14) [unhörbar]
42:23 - 42:27

Okay, die eigentliche Antwort ist,
dafür zu bezahlen...
42:28 - 42:32

Ich meine, wir haben eine Vereinbarung
mit einem Auftragnehmer,
42:32 - 42:34

mit dem wir normalerweise
zusammenarbeiten.
42:35 - 42:38

Sie machen Wörterbücher--
42:40 - 42:42

viele Dinge, aber sie machen Wörterbücher.
42:42 - 42:45

Also haben wir mit ihnen vereinbart,
42:45 - 42:47

das Studenten-Wörterbuch
kostenlos zu machen,
42:47 - 42:53

wir würden die häufigsten Wörter
auswählen und damit beginnen,
42:53 - 42:56

es mit einer externen Kennung
und dem Schema der Dinge hochzuladen.
42:56 - 43:00

Aber es gab einige Diskussionen darüber,
43:00 - 43:03

es auf CC0 zu belassen,
43:03 - 43:06

weil sie das Wörterbuch
bei CC dabei haben,
43:07 - 43:10

und sie verstanden,
was der Unterschied war.
43:10 - 43:14

Es gab also einige Diskussionen.
43:14 - 43:19

Aber ich denke, dass wir in Zukunft
einige Werkzeuge oder Beispiele
43:19 - 43:21

zur Verfügung stellen können,
43:21 - 43:23

und ich denke, dass es
andere Wörterbücher geben wird,
43:23 - 43:24

mit denen wir umgehen können,
43:24 - 43:29

und ich denke auch, dass Wiktionary
in diese Richtung gehen sollte,
43:29 - 43:32

aber das ist eine weitere
umfangreiche Diskussion.
43:33 - 43:34

Und darüber hinaus
43:34 - 43:39

steht Lea auch in Kontakt
mit Leuten aus Okzitan,
43:39 - 43:42

die an okzitanischen
Wörterbüchern arbeiten,
43:42 - 43:45

und sie arbeiten derzeit an einer
sumerischen Zusammenarbeit.
43:52 - 43:53

Noch weitere Fragen?
44:01 - 44:05

(Person 15) Hallo! Wir sind die Leute,
die okzitanische Daten importieren wollen.
44:05 - 44:07

(Lydia) Aha! Perfekt!
44:07 - 44:09

(Person 15) Und wir haben
ein kleines Problem.
44:09 - 44:14

Wir wissen nicht, wie wir die Vielfalt
aller Lexeme darstellen können.
44:14 - 44:18

Wir haben sechs Dialekte,
44:18 - 44:24

und wir wollen für Lexeme angeben,
in welchem Dialekt es verwendet wird,
44:24 - 44:27

und wir haben keine richtige
C0-Anweisung, um das zu tun.
44:27 - 44:31

Solange das Segment also nicht existiert,
44:32 - 44:34

verhindert es, dass wir es
[unhörbar] machen,
44:34 - 44:38

weil wir es noch einmal machen müssen,
44:38 - 44:42

wenn wir die Anweisung exportieren können.
44:42 - 44:45

Und es ist kompliziert,
weil es eine Aussage ist,
44:45 - 44:48

die nicht von vielen Leuten gefragt wird,
44:48 - 44:53

weil es eine Aussage ist, die vor allem
Minderheitensprachen betrifft.
44:53 - 44:57

Sie werden also eine Person haben,
die das fragen kann.
44:57 - 45:00

Aber wie unsere baskischen Kollegen
45:00 - 45:06

kann es eine Person sein,
die Tausende von anderen antreibt,
45:06 - 45:11

also es ist vielleicht
nicht sehr viel verlangt,
45:11 - 45:14

aber es wird für uns sehr wichtig sein.
45:15 - 45:17

(Lydia) Haben Sie bereits einen neuen
Eigenschaftenvorschlag
45:17 - 45:19

oder brauchen Sie Hilfe
bei dessen Erstellung?
45:22 - 45:24

(Person 15) Wir haben
vor vier Monaten danach gefragt.
45:25 - 45:27

(Lydia) Na gut, dann holen wir uns
ein paar Leute,
45:27 - 45:29

die uns bei diesem
Eigenschaftenvorschlag helfen.
45:30 - 45:33

Ich bin sicher, es sind genug Leute
in diesem Raum, um dies zu ermöglichen.
45:33 - 45:36

(Person 15) Eigenschaftenvorschlag
[spricht Französisch].
45:37 - 45:39

Wir bekamen keine Antwort
und wissen nicht,
45:39 - 45:40

wie wir das machen sollen,
45:40 - 45:43

weil wir nicht in der
Wikidata-Community sind.
45:45 - 45:48

(Lydia) Ja, also gibt es hier Leute,
die Ihnen helfen können.
45:48 - 45:51

Vielleicht hebt jemand die Hand, um--
45:52 - 45:54

(Person 14) Nicht dafür.
45:54 - 45:56

Aber ich denke,
das ist ziemlich interessant,
45:56 - 45:59

dass nur die Variante der Form
45:59 - 46:03

auch geographisch, mit Koordinaten
46:03 - 46:05

oder einer Art von Kartierung,
damit umgehen kann.
46:06 - 46:08

Auch unterschiedliche
Aussprachen zu haben,
46:08 - 46:12

und ich denke, das ist etwas,
das in vielen Sprachen geschieht.
46:13 - 46:16

Wir sollten damit anfangen.
46:16 - 46:19

Und ich werde nach der Eigenschaft suchen.
46:20 - 46:21

(Lydia) Cool.
46:21 - 46:24

Sie erhalten also Unterstützung
für Ihren Eigenschaftenvorschlag.
46:26 - 46:27

Ich danke Ihnen.
46:28 - 46:30

In Ordnung, noch Fragen?
46:32 - 46:33

Finn.
46:34 - 46:35

Finn ist einer dieser Leute,
46:35 - 46:38

die auf lexikografischen Daten aufbauen.
46:38 - 46:40

(Finn) Es ist nur eine kleine Frage,
46:40 - 46:44

und es geht um Variationen
in der Rechtschreibung.
46:45 - 46:48

Es scheint, schwierig zu sein, sie in...
46:49 - 46:53

Man könnte natürlich mehrere Formen
für dasselbe Wort haben.
46:56 - 46:58

Ich weiß nicht, es scheint...
47:00 - 47:04

Wenn man es nicht so macht, scheint es,
schwierig zu sein, es zu spezifizieren...
47:05 - 47:06

oder ich weiß nicht,
47:06 - 47:10

ob es sich nur um eine kleine
technische Frage handelt oder ob...
47:10 - 47:11

(Lydia) Betrachten wir es gemeinsam.
47:12 - 47:15

Ich würde gerne ein Beispiel sehen.
47:17 - 47:18

Asaf.
47:27 - 47:28

(Asaf) Vielen Dank.
47:29 - 47:34

Ich kann ein sehr konkretes Beispiel aus
meiner Muttersprache, Hebräisch, nennen.
47:34 - 47:38

Im Hebräischen gibt es
zwei Hauptvarianten,
47:38 - 47:42

um fast jedes Wort auszudrücken,
47:43 - 47:47

weil die traditionelle Schreibweise
47:47 - 47:50

viele Vokale auslässt.
47:51 - 47:55

Und deshalb werden in modernen Ausgaben
der Bibel und der Poesie
47:55 - 47:57

diakritische Zeichen verwendet.
47:57 - 48:03

Diese diakritischen Zeichen werden
jedoch nie für moderne Prosa,
48:03 - 48:06

Zeitungstexte
oder Straßenschilder verwendet.
48:06 - 48:11

Der durchschnittliche tägliche Gebrauch
legt also zusätzliche Vokale hinein
48:12 - 48:14

und verwendet
die diakritischen Zeichen nicht,
48:14 - 48:16

weil sie natürlich umständlicher sind
48:16 - 48:18

und alle möglichen Regeln haben
und niemand die Regeln kennt.
48:19 - 48:21

Es gibt also grundsätzlich zwei Varianten.
48:21 - 48:25

Es gibt die alltägliche,
beiläufige Prosa-Variante,
48:25 - 48:28

und es gibt die Bibel oder die Poesie,
48:28 - 48:32

die immer in diesem traditionellen
diakritischierten Text vorkommen.
48:32 - 48:33

Um nützlich zu sein,
48:33 - 48:37

müsste Lexeme sowohl Varianten
jedes einzelnen Wortes
48:37 - 48:40

als auch jede einzelne Form
jedes einzelnen Wortes erkennen.
48:41 - 48:43

Das ist also ein sehr
umfassender Anwendungsfall
48:43 - 48:46

für offizielle stabile Varianten.
48:46 - 48:49

Es ist kein Dialekt,
es sind keine Regionen,
48:49 - 48:54

es sind im Grunde zwei nebeneinander
existierende morphologische Systeme.
48:55 - 48:57

Und auch ich weiß nicht genau,
48:57 - 48:59

wie ich das momentan
in Lexeme ausdrücken soll.
48:59 - 49:03

Das ist eine Sache, die mich--
als Teilantwort auf Magnus' Frage--
49:03 - 49:05

davon abhält, die Teile hochzuladen,
49:05 - 49:09

die aus dem größten hebräischen
Wörterbuch, das öffentlich zugänglich ist
49:09 - 49:13

und das ich seit einigen Jahren
digitalisiere, stammen.
49:13 - 49:15

Ein guter Teil davon ist fertig,
49:15 - 49:17

aber ich stelle es jetzt nicht auf Lexeme,
49:17 - 49:20

weil ich nicht genau weiß,
wie ich dieses Problem lösen soll.
49:20 - 49:23

(Lydia) In Ordnung,
lösen wir das Problem hier. (lacht)
49:24 - 49:26

Das muss doch möglich sein.
49:30 - 49:32

In Ordnung, noch Fragen?
49:37 - 49:40

Wenn nicht,
dann danke ich Ihnen vielmals.
49:41 - 49:43

(Beifall)

Title:: cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4
Video Language:: English
Duration:: 49:51

Bar Sch edited German subtitles for cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

German subtitles

Revisions

Revision 1 Uploaded

Bar Sch

cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

Revisions

Our website uses cookies

Operating cookies (Required)