cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

Edit subtitles

0:06 - 0:09

Il existe environ 7 500 langues
0:09 - 0:11

parlées dans le monde aujourd'hui.
0:12 - 0:16

On estime qu'environ 70 % d'entre elles
0:16 - 0:20

risquent de disparaître
d'ici la fin du XXIe siècle.
0:22 - 0:24

La mort d'une langue
0:25 - 0:27

est la rupture d'un lien
0:27 - 0:31

qui a duré des centaines
voire des milliers d'années,
0:31 - 0:35

un lien avec la culture, avec l'histoire,
0:35 - 0:38

avec les traditions et le savoir.
0:39 - 0:42

Le linguiste Kenneth Hale a dit
0:42 - 0:44

que la mort d'une langue
0:44 - 0:47

serait comme larguer
une bombe en plein Louvre.
0:49 - 0:52

On se demande alors :
0:53 - 0:55

pourquoi les langues meurent-elles ?
0:56 - 1:00

Une réponse simple serait que
1:00 - 1:03

les gouvernements autoritaires
1:03 - 1:05

interdisent aux peuples
de parler leur langue natale,
1:06 - 1:10

punissent les enfants
s'ils le font à l'école,
1:10 - 1:14

ou ferment les stations de radio
de langues minoritaires.
1:15 - 1:17

Cela s'est déjà produit
1:17 - 1:19

et se produit encore aujourd'hui
dans une certaine mesure.
1:20 - 1:23

Pour être honnête,
1:23 - 1:27

dans la grande majorité des cas
de disparition des langues,
1:27 - 1:29

la réponse est beaucoup plus simple
1:29 - 1:33

et beaucoup plus facile à expliquer.
1:34 - 1:36

Les langues meurent
1:36 - 1:39

parce qu'elles ne sont pas transmises
d'une génération à une autre.
1:42 - 1:46

Lorsqu'un locuteur d'une langue
minoritaire a des enfants,
1:47 - 1:50

une équation s'impose à lui.
1:51 - 1:53

Il se demande...
1:54 - 1:56

s'il doit transmettre
sa langue natale à ses enfants
1:57 - 2:01

ou s'il doit se limiter
à leur apprendre la langue majoritaire.
2:01 - 2:03

En fait, dans sa tête,
2:04 - 2:06

il se représente une balance
2:07 - 2:08

qui, d'un côté,
2:09 - 2:14

chaque fois que l'opportunité
d'utiliser sa langue natale se présente
2:15 - 2:19

pour communiquer ou pour aborder
un aspect de la culture traditionnelle
2:20 - 2:22

une pierre est placée du côté gauche,
2:22 - 2:26

et dès qu'il se retrouve incapable
de parler sa langue natale
2:26 - 2:28

et obligé de parler la langue majoritaire,
2:28 - 2:30

une pierre est placée du côté droit.
2:32 - 2:35

Étant donné le sentiment
de force et de dignité
2:35 - 2:37

que confère le fait
de parler sa langue natale,
2:37 - 2:39

les pierres du côté gauche
ont tendance à peser plus lourd.
2:39 - 2:42

Mais s'il y a assez de pierres à droite,
2:43 - 2:45

la balance penchera
forcément de ce côté-là,
2:45 - 2:49

et lorsqu'une personne décide
de transmettre sa langue,
2:49 - 2:51

elle considère sa propre langue
2:51 - 2:53

comme un fardeau
plutôt qu'une bénédiction.
2:55 - 2:59

Comment donc inverser cela ?
2:59 - 3:02

Il faut d'abord s'interroger...
3:03 - 3:07

sur les sphères sociales
dans lesquelles une langue donnée
3:07 - 3:08

peut être parlée.
3:08 - 3:11

Toutes les langues natales
parlées de nos jours
3:11 - 3:13

peuvent être parlées au sein des familles.
3:14 - 3:17

Un ensemble limité de langues peuvent
être parlées au sein des communautés,
3:17 - 3:19

un autre encore plus limité
au niveau régional,
3:19 - 3:22

et seulement une poignée de langues
3:22 - 3:25

sont utilisées dans le cadre
de communications internationales.
3:26 - 3:29

Même au sein de ces sphères,
3:29 - 3:32

on se demande si l'on peut utiliser
telle ou telle langue
3:32 - 3:36

à des fins éducatives, commerciales
3:36 - 3:38

ou dans le domaine de la technologie.
3:39 - 3:42

Pour mieux illustrer
3:43 - 3:45

ce que je veux dire,
3:45 - 3:46

j'aimerais me servir d'une anecdote.
3:48 - 3:50

Disons que vous partez bientôt
3:50 - 3:52

pour des vacances de rêve en Inde
3:53 - 3:56

et que vous avez huit heures
d'escale à Istanbul.
3:57 - 4:01

Vous n'aviez pas vraiment prévu
de visiter la Turquie
4:01 - 4:04

mais vous avez un ami turque
4:04 - 4:06

qui vous propose de découvrir
un bon restaurant
4:06 - 4:07

pas très loin de l'aéroport,
4:08 - 4:11

vous vous dites : « J'y ferai un tour
durant mon escale. »
4:11 - 4:13

Vous quittez l'aéroport,
4:14 - 4:15

vous allez à votre restaurant,
4:15 - 4:17

et on vous donne le menu
4:17 - 4:19

qui se trouve être entièrement en turc.
4:20 - 4:23

Disons qu'à titre d'exemple,
4:23 - 4:24

vous ne parlez pas turc.
4:25 - 4:27

Que faites-vous ?
4:28 - 4:30

Si vous avez de la chance,
4:30 - 4:32

vous trouverez peut-être quelqu'un
qui parle votre langue natale,
4:32 - 4:34

l'allemand, l'anglais, etc.
4:36 - 4:38

Mais supposons que ce ne soit pas
votre jour de chance
4:38 - 4:41

et que personne dans le restaurant
ne parle allemand ou anglais.
4:42 - 4:43

Que faites-vous ?
4:43 - 4:46

Je suppose que, comme moi,
la plupart d'entre vous
4:46 - 4:48

recourrez à la technologie,
4:50 - 4:52

à une traduction automatique
ou un dictionnaire numérique,
4:52 - 4:54

que vous rechercherez
chaque mot séparément
4:54 - 4:58

et finirez par commander
un délicieux plat turque.
5:00 - 5:03

Imaginons plutôt que
5:04 - 5:06

vous parlez une langue minoritaire.
5:07 - 5:09

Le bas sorabe par exemple.
5:09 - 5:11

Le bas sorabe est une langue
menacée d'extinction,
5:11 - 5:12

parlée ici en Allemagne,
5:12 - 5:17

à environ 130 kilomètres au sud-est,
5:18 - 5:21

par quelques milliers de personnes,
âgées pour la plupart.
5:23 - 5:25

Disons que le bas sorabe
est votre langue natale.
5:25 - 5:27

Vous êtes dans le restaurant.
5:27 - 5:28

Les chances d'y trouver quelqu'un
5:28 - 5:31

qui parle votre langue natale
sont bien sûr exceptionnellement faibles.
5:32 - 5:36

Là aussi, vous pouvez avoir recours
à la technologie.
5:37 - 5:39

Toutefois, il n'existe pas
de solution technologique
5:39 - 5:42

adaptée à votre langue natale.
5:42 - 5:45

Vous devrez vous en remettre
à l'allemand ou à l'anglais
5:45 - 5:47

comme langue pivot
pour comprendre le turc.
5:49 - 5:52

Vous réussissez bien entendu
à commander un délicieux plat turc
5:52 - 5:55

mais vous vous demandez à quel point
cela aurait été difficile
5:55 - 5:57

pour votre grand-père par exemple
qui ne parle pas allemand.
5:58 - 6:00

Bien que ce ne soit qu'un petit incident,
6:00 - 6:05

la balance pencherait tout de même
un peu plus du côté droit
6:05 - 6:07

et vous vous direz peut-être,
6:07 - 6:10

le jour où vous auriez des enfants
ou d'autres enfants,
6:11 - 6:15

que la situation pénible
que vous avez vécue
6:15 - 6:17

fait que continuer à utiliser
votre langue natale soit inutile.
6:19 - 6:21

Imaginez encore si ce scénario
6:21 - 6:26

était d'une importance plus critique,
6:26 - 6:28

dans un cadre hospitalier par exemple.
6:31 - 6:36

C'est sur ce point
que nous pouvons intervenir,
6:37 - 6:40

par « nous », je veux dire
vous et moi, ici présents.
6:41 - 6:43

Nous avons les moyens d'intervenir.
6:45 - 6:47

Si des outils technologiques
sont accessibles
6:47 - 6:49

aux locuteurs de langues
minoritaires ou défavorisées,
6:51 - 6:54

la balance pencherait
légèrement du côté gauche.
6:54 - 6:56

Personne ne se dit forcément
6:56 - 6:58

qu'il doit parler une langue minoritaire
6:58 - 6:59

pour pouvoir interagir avec le monde,
7:00 - 7:06

les sphères sociales
en seraient plus ouvertes.
7:08 - 7:10

La solution idéale serait bien sûr
7:10 - 7:13

d'avoir accès à la traduction automatique
dans toutes les langues du monde.
7:13 - 7:17

Malheureusement, ce n'est
tout bonnement pas possible.
7:17 - 7:20

La traduction automatique nécessite
un vaste corpus de textes
7:20 - 7:21

et pour beaucoup de ces langues
7:21 - 7:23

qui sont en voie de disparition
ou défavorisées,
7:23 - 7:25

ces données ne sont pas disponibles.
7:26 - 7:28

Certaines de ces langues
ne sont même pas écrites
7:29 - 7:31

ce qui rend la collecte de données
7:31 - 7:33

pour alimenter un moteur
de traduction automatique
7:33 - 7:34

peu probable.
7:34 - 7:38

Ce qui est accessible par contre,
sont les données lexicales.
7:40 - 7:43

Grâce aux travaux de plusieurs linguistes
7:43 - 7:45

au cours des derniers siècles,
7:48 - 7:50

des dictionnaires
et des grammaires ont été créés
7:50 - 7:52

pour la plupart des langues du monde.
7:54 - 7:57

Malheureusement, la plupart de ces travaux
7:57 - 8:01

ne sont pas accessibles au monde,
8:01 - 8:04

encore moins aux populations
parlant ces langues minoritaires.
8:05 - 8:06

Ce n'est pas un processus délibéré,
8:06 - 8:11

il s'agit souvent d'une première édition
limitée de ces dictionnaires
8:11 - 8:14

et les seules copies qui existent
8:14 - 8:16

moisissent quelque part
dans une librairie universitaire.
8:18 - 8:21

Mais nous pouvons
nous emparer de ces données
8:21 - 8:23

et les rendre accessibles à tous.
8:24 - 8:28

La fondation Wikimedia
compte parmi les meilleures,
8:28 - 8:31

si ce n'est la meilleure au monde,
8:31 - 8:33

organisations à rendre
accessibles des données
8:33 - 8:37

à la majorité des populations du monde.
8:39 - 8:40

Penchons-nous sur cette question.
8:41 - 8:45

Pour expliquer un peu
notre travail à ce sujet,
8:45 - 8:48

j'aimerais vous présenter
mon organisation PanLex,
8:49 - 8:52

le but de cette organisation
8:52 - 8:54

est de collecter des données lexicales
pour les rendre accessibles.
8:55 - 8:57

Tout a commencé il y a 12 ans
8:57 - 9:00

à l'université de Washington,
dans le cadre d'un projet de recherche.
9:00 - 9:02

L'idée était de démontrer
qu'on pouvait créer
9:02 - 9:04

un outil de traduction efficace
9:04 - 9:07

à partir de traductions « induites »,
9:07 - 9:09

un outil de traduction lexical
pour ainsi dire.
9:09 - 9:12

Voici un exemple tiré
des données de PanLex.
9:12 - 9:14

C'est pour vous montrer comment traduire
9:14 - 9:18

le mot « ev » qui veut dire
« maison » en turc,
9:18 - 9:20

en bas sorabe,
9:20 - 9:21

la langue dont je vous parlais
tout à l'heure.
9:21 - 9:23

C'est très peu probable de trouver
9:24 - 9:26

des dictionnaires turc - bas sorabe,
9:26 - 9:28

mais en croisant le terme
9:28 - 9:30

avec plusieurs langues
intermédiaires différentes,
9:30 - 9:33

on peut créer des traductions efficaces.
9:34 - 9:37

Quand on a présenté ça
pour les projets de recherche,
9:37 - 9:40

le fondateur de PanLex,
Dr. Jonathan Pool,
9:41 - 9:44

s'est dit : « Pourquoi
ne ferait-on pas ça ? »
9:44 - 9:46

Il a donc lancé une organisation
à but non lucratif
9:46 - 9:49

pour collecter le plus données lexicales
possibles et les rendre accessibles.
9:49 - 9:51

Ça a été notre travail pendant
les 12 dernières années.
9:51 - 9:55

Durant ce temps, nous avons collecté
des milliers de dictionnaires,
9:55 - 9:58

en avons extrait des données lexicales,
et compilé une base de données
9:58 - 10:01

qui dispense des traductions
lexicales inférées
10:01 - 10:04

entre...
10:04 - 10:06

on compte présentement 5 500 langues
10:06 - 10:08

sur les 7 500 langues
parlées dans le monde.
10:09 - 10:11

Évidemment,
10:11 - 10:13

nous tendons continuellement
à élargir cette base de données
10:13 - 10:15

et à enrichir les données
de chaque langue.
10:17 - 10:21

La question qui se pose ensuite
10:22 - 10:26

est comment pouvons-nous
collaborer là-dessus ?
10:26 - 10:29

Chez PanLex, nous observons
le développement des données lexicales
10:29 - 10:31

sur lequel travaille Wikidata
10:31 - 10:34

avec beaucoup d'enthousiasme.
10:35 - 10:38

C'est très fascinant
de voir des organisations
10:38 - 10:39

travailler sur des aspects différents
10:39 - 10:41

d'une sphère similaire.
10:42 - 10:44

Nous attendons avec impatience
10:45 - 10:46

d'en voir les résultats.
10:46 - 10:51

Nous sommes également impatients
de collaborer avec Wikidata.
10:54 - 10:56

Je pense que les compétences spécifiques
10:56 - 10:58

que nous avons développées
depuis les 12 dernières années,
10:58 - 11:00

non seulement en collectant
des données lexicales
11:00 - 11:02

mais dans la conception
de notre base de données,
11:02 - 11:04

peuvent être très utiles pour Wikidata.
11:04 - 11:07

D'autre part, je pense que...
11:08 - 11:11

Les compétences de Wikidata
11:12 - 11:15

dans le crowdsourcing des données
sont très prometteuses.
11:15 - 11:18

Les sources actuelles de PanLex
11:18 - 11:21

sont des sources lexicales
imprimées ou autres,
11:21 - 11:23

mais nous ne faisons pas
de crowdsourcing.
11:23 - 11:25

Notre infrastructure ne nous le permet pas
11:25 - 11:27

et la fondation Wikimedia
11:27 - 11:29

est l'expert mondial du crowdsourcing.
11:30 - 11:34

Je suis impatient de collaborer
11:34 - 11:36

pour mettre en pratique ces compétences.
11:39 - 11:41

Mais le plus important je pense,
11:41 - 11:43

est le fait que dans notre travail,
11:43 - 11:45

le moindre détail compte.
11:45 - 11:48

Nous avons passé des heures
à examiner des formes grammaticales,
11:48 - 11:52

à feuilleter des dictionnaires
mordernes ou ancients,
11:52 - 11:54

parfois même des dictionnaires
récemment publiés,
11:54 - 11:57

et à s'attaquer
à la forme écrite des mots.
11:57 - 12:00

Ça a l'air très méticuleux.
12:00 - 12:03

Or, parfois, nous devons nous rappeler
que nous devons prendre du recul
12:03 - 12:05

dans le sens où même si cela...
12:06 - 12:09

peut parfois paraître banal,
12:10 - 12:12

notre travail est extrêmement important.
12:13 - 12:16

Je pense que c'est l'ultime moyen
12:16 - 12:19

de soutenir les langues menacées
12:19 - 12:21

et de nous assurer que
la diversité linguistique de la planète
12:21 - 12:26

survive jusqu'à la fin de ce siècle
voire longtemps plus tard.
12:26 - 12:30

Il est tout à fait possible
que notre travail aujourd'hui
12:30 - 12:35

contribue à la préservation,
à la transmission, et à la survie
12:35 - 12:37

des langues menacées.
12:39 - 12:41

Gardez donc à l'esprit
12:41 - 12:43

que si vous utilisez sur votre ordinateur
12:43 - 12:44

pour saisir une donnée
12:44 - 12:50

et que vous ajoutez les formes
de données d'une langue minoritaire
12:50 - 12:52

correspondant à chaque non,
12:52 - 12:55

le travail insignifiant
que vous faites en ce moment
12:55 - 12:59

peut contribuer à faire en sorte
que cette langue survive
12:59 - 13:01

jusqu'à la fin du siècle
voire plus longtemps.
13:03 - 13:04

Merci beaucoup,
13:04 - 13:06

je vais maintenant
prendre des questions.
13:06 - 13:08

(applaudissements)
13:24 - 13:25

(intervenant·e 1) Merci.
13:25 - 13:27

- Merci pour votre intervention.
- Merci à vous.
13:27 - 13:29

J'ai une question
concernant les dictionnaires.
13:29 - 13:31

Vous travaillez avec
des dictionnaires papier, n'est-ce pas ?
13:31 - 13:32

- Oui.
- J'aimerais savoir
13:32 - 13:35

ce que vous en prélevez
13:35 - 13:38

et s'il y a des soucis de droits d'auteur
à prendre en compte.
13:38 - 13:41

J'étais sûr que ce serait
la première question qu'on me poserait.
13:41 - 13:43

(rires)
13:43 - 13:46

Alors, chez PanLex,
13:46 - 13:50

selon les références légales
que nous avons consultées,
13:53 - 13:56

bien que l'agencement
et la structure d'un dictionnaire
13:56 - 13:57

soient soumis à des droits d'auteur,
13:57 - 14:03

la traduction en tant que telle
ne l'est pas.
14:04 - 14:07

Un annuaire par exemple
14:07 - 14:09

est soumis à des droits d'auteur,
14:09 - 14:12

du moins selon la loi américaine.
14:12 - 14:16

Mais dire que le numéro
de téléphone d'un Untel
14:16 - 14:18

est tel numéro ne l'est pas.
14:22 - 14:23

Comme je l'ai dit,
14:23 - 14:25

selon nos experts juridiques,
14:25 - 14:27

on peut aborder les choses
sous cet angle-là.
14:27 - 14:31

Même si cet argument légal
n'est pas assez solide,
14:31 - 14:32

il est important de garder à l'esprit
14:32 - 14:38

que la grande majorité
de ces données lexicales
14:39 - 14:41

sont libres de droits.
14:41 - 14:43

Un nombre important
de ces données sont libres de droits
14:43 - 14:44

et peuvent être librement utilisées.
14:44 - 14:47

En plus, la plupart du temps,
14:47 - 14:50

lorsqu'on travaille avec
un dictionnaire papier récent,
14:50 - 14:52

plutôt que de le scanner
ou de le passer à la ROC,
14:52 - 14:54

nous envoyons un email
à la personne qui l'a conçu.
14:54 - 14:58

Il se trouve que la plupart
des linguistes sont très contents
14:58 - 15:00

que leurs données puissent
êtres rendues accessibles.
15:00 - 15:02

« Bien sûr, allez-y, prenez tout
et rendez-le accessible. »
15:02 - 15:04

vous diront-ils.
15:06 - 15:08

Et donc selon nos experts juridiques,
15:08 - 15:09

nous avons au moins
cette possibilité,
15:09 - 15:12

et même si vous n'êtes pas
d'accord avec ça non plus,
15:12 - 15:16

Les données sont facilement
accessibles au public.
15:26 - 15:28

- (intervenant·e 2) Merci. Bonjour.
- Bonjour.
15:28 - 15:30

Pouvez-vous élaborer
15:30 - 15:33

sur la manière dont une personne
qui parle le bas sorabe
15:33 - 15:35

puisse accéder aux données ?
15:35 - 15:38

Plus précisément sur la manière
dont ces informations leur parviennent
15:38 - 15:41

et peuvent même les convaincre
15:41 - 15:43

soit pour essayer...
15:43 - 15:45

Très bonne question,
15:45 - 15:46

j'y réfléchis beaucoup également
15:46 - 15:50

parce que je pense que
lorsqu'il s'agit d'accès aux données,
15:50 - 15:53

cela se fait sur plusieurs étapes.
15:53 - 15:56

La conservation des données en est une,
il faut s'assurer de les préserver.
15:56 - 15:59

Deuxièmement, il faut
qu'elles soient interopérables
15:59 - 16:02

et donc utilisables.
16:02 - 16:05

Troisièmement, il faut
qu'elles soient accessibles.
16:06 - 16:07

Dans le cas de PanLex,
16:07 - 16:10

nous pouvons utiliser une API
16:10 - 16:12

mais l'utilisateur final n'y a
évidement pas accès.
16:12 - 16:15

Nous avons également
développé des interfaces.
16:15 - 16:20

Par exemple, si vous allez sur
« translate.panlex.org »,
16:20 - 16:23

vous pouvez effectuer des traductions
sur notre base de données.
16:23 - 16:26

Si vous voulez vous amuser un peu
avec l'API, allez sur « dev.panlex.org »
16:26 - 16:29

ou sur « api.palnex.org »
et vous y trouverez plein de choses.
16:31 - 16:33

Une autre étape à prendre en compte
16:33 - 16:37

est que même si vous rendez
toutes vos données accessibles
16:37 - 16:41

avec des outils très pratiques
permettant leur accessibilité,
16:41 - 16:43

si vous ne promouvez pas ces outils,
16:43 - 16:45

personne ne pourra utiliser ces données.
16:45 - 16:47

Pour être honnête,
16:49 - 16:51

cet aspect n'est pas suffisamment abordé
16:51 - 16:53

et je ne peux pas vous donner
la réponse adéquate.
16:53 - 16:55

Comment peut-on être sûr...
16:55 - 16:57

Disons par exemple
que je n'ai connu Wikidata
16:57 - 17:00

que très récemment,
quelques années auparavant,
17:00 - 17:02

et c'est le genre de choses
qui m'intéressent.
17:03 - 17:07

Comment peut-on se mettre en valeur ?
17:07 - 17:09

Laissons cette question ouverte.
17:09 - 17:11

Encore une fois, je n'ai pas
de réponse adéquate à cette question.
17:11 - 17:13

Bien sûr, pour y arriver,
17:13 - 17:15

on doit d'abord passer par
les premières étapes.
17:22 - 17:25

(intervenant·e 3) Si nous voulons bénéficier
de la traduction automatique,
17:25 - 17:28

n'avons-nous pas besoin
d'une mémoire de traduction ?
17:28 - 17:31

Je ne pense pas qu'entrer
des termes isolés
17:31 - 17:33

dans Wikidata,
17:33 - 17:37

ces courtes propositions
qu'on entre dans Wikidata,
17:37 - 17:41

qu'il s'agisse d'éléments ordinaires
ou de lexèmes Wikidata,
17:41 - 17:44

suffise pour effectuer
une traduction adéquate.
17:44 - 17:47

Nous avons besoin
de phrases complètes...
17:47 - 17:48

(Benjamin) Absolument.
17:49 - 17:51

Où trouvons-nous
ces structures de données ?
17:51 - 17:55

Je ne suis pas certain
17:55 - 18:00

que Wikidata puisse résoudre
18:00 - 18:03

la question de la mémoire de traduction
pour le moment.
18:04 - 18:06

« translatewiki.net »
18:06 - 18:09

pour aborder cette lacune...
18:12 - 18:15

Doit-on agir dans ce sens ou... ?
18:15 - 18:17

Oui, merci pour votre question.
18:17 - 18:19

J'en ai parlé un peu tout à l'heure,
18:19 - 18:20

mais je le répète avec plaisir.
18:21 - 18:23

C'est la raison précise pour laquelle
18:23 - 18:25

PanLex travaille
avec les données lexicales
18:25 - 18:27

et pour laquelle je me réjouis
au sujet des données lexicales
18:27 - 18:30

contrairement à...
18:30 - 18:32

Plutôt en plus des moteurs
de traduction automatique
18:32 - 18:35

et de la traduction automatique
en général.
18:36 - 18:39

Vous l'avez dit, la traduction automatique
nécessite des données spécifiques,
18:40 - 18:43

et ces données ne sont pas disponibles
pour la majorité des langues du monde.
18:43 - 18:45

Pour cette grande majorité,
18:45 - 18:47

elles ne sont
tout bonnement pas disponibles.
18:47 - 18:49

Ça ne veut pas dire que
nous devons baisser les bras.
18:49 - 18:50

Pourquoi ?
18:51 - 18:54

Si j'ai besoin de traduire
mon menu de restaurant turc,
18:55 - 18:59

la traduction lexicale serait
un très bon outil.
18:59 - 19:02

Je ne dis pas qu'on peut utiliser
la traduction lexicale
19:02 - 19:05

pour traduire des paragraphes
à la perfection.
19:05 - 19:07

Par traduction lexicale,
je veux dire du mot à mot,
19:07 - 19:10

et cette traduction lexicale
peut s'avérer très utile.
19:12 - 19:15

En fait, c'est amusant,
mais nous n'avons pas eu accès
19:15 - 19:17

à une bonne traduction automatique.
19:17 - 19:20

On n'y a eu accès que très récemment.
19:20 - 19:24

On se débrouillait bien
avec les dictionnaires,
19:24 - 19:28

et leur utilité est indéniable.
19:28 - 19:30

Les données sont disponibles
19:30 - 19:31

alors pourquoi ne pas
les rendre disponibles
19:31 - 19:34

au monde et à ceux
qui parlent ces langues ?
19:36 - 19:39

(intervenant·e 4) Bonjour, quels sont
les mécanismes en place
19:39 - 19:41

lorsque la communauté... Je suis ici !
19:41 - 19:43

- Où ça ? D'accord.
- Oui, pardon. (rit)
19:43 - 19:45

...lorsque la communauté en question
19:45 - 19:47

ne veut pas que PanLex obtienne
une partie de ces données ?
19:47 - 19:49

Bonne question.
19:49 - 19:52

Nous procédons comme suit :
19:52 - 19:56

si un dictionnaire est publié
et est mis à la disposition du public,
19:57 - 19:58

c'est un indicateur valide.
19:58 - 20:02

Vous pouvez l'acheter dans un magasin
ou dans une bibliothèque universitaire,
20:02 - 20:05

ou une bibliothèque publique
à la disposition de tous.
20:05 - 20:08

Cela indique bien
que la décision a déjà été prise.
20:08 - 20:12

[inaudible]
20:16 - 20:18

(intervenant·e 5) Pouvez-vous
parler dans le micro ?
20:19 - 20:20

Pouvez-vous répéter ça ?
20:20 - 20:23

(intervenant·e 5) Les linguistes n'ont pas
toujours la permission de la communauté
20:23 - 20:25

pour publier certaines choses,
20:25 - 20:28

ils le font souvent sans
le consentement de la communauté.
20:28 - 20:30

C'est vrai.
20:30 - 20:33

Je dirais que...
20:33 - 20:34

ça arrive.
20:34 - 20:37

Je dirais qu'en général,
les cas sont rares
20:37 - 20:41

et plutôt limités à l'Amérique du Nord,
20:41 - 20:43

parfois même à certaines langues
sud-américaines.
20:45 - 20:46

Il faut prendre ça en considération.
20:46 - 20:49

Si l'on portait à notre connaissance
20:49 - 20:52

que les données sur PanLex
20:52 - 20:56

ne devraient pas être accessibles
au reste du monde,
20:56 - 20:58

nous les supprimerions.
20:58 - 20:59

(intervenant·e 5) Très bien.
21:01 - 21:02

Ça ne veut pas dire,
bien entendu,
21:02 - 21:05

que nous prendrons en compte
les lois sur les droits d'auteur
21:05 - 21:07

mais nous prendre en compte
les communautés traditionnelles,
21:07 - 21:08

là réside la principale différence.
21:08 - 21:11

(intervenant·e 5) Oui, c'est ce que
je voulais dire.
21:15 - 21:17

Cela soulève un point très intéressant
21:17 - 21:18

en ce qui concerne
21:19 - 21:22

les représentants d'une langue.
21:23 - 21:28

J'ai visité le Sud-Ouest des États-Unis
21:28 - 21:30

pour collaborer avec des équipes
21:30 - 21:32

qui travaillent sur les langues
des indigènes Pueblos.
21:36 - 21:38

Ces indigènes parlent environ
21:38 - 21:40

six langues pueblos selon la région
21:40 - 21:42

qu'ils habitent.
21:42 - 21:44

Elles sont réparties
sur 18 pueblos différents
21:44 - 21:47

qui ont chacun
leur propre gouvernement tribal,
21:47 - 21:50

et ces gouvernements
ont des opinions divergentes
21:50 - 21:54

sur l'éventuelle accessibilité
de leur langue aux étrangers.
21:57 - 21:58

Le zuni, par exemple,
21:58 - 22:01

n'est parlé qu'au sein d'un seul pueblo.
22:03 - 22:05

Ils veulent vraiment que leur langue
soit accessible partout,
22:05 - 22:08

ils l'écrivent sur les panneaux
de signalisation et tout, c'est bien.
22:08 - 22:11

Mais pour certaines des autres langues,
22:11 - 22:13

les communautés qui les parlent
pourront vous dire :
22:13 - 22:16

« On ne veut pas que notre langue
soit accessible aux étrangers. »
22:16 - 22:19

Leurs voisins pueblos qui parlent
la même langue, qui vous diront :
22:19 - 22:22

« Nous voulons rendre notre langue
accessible aux étrangers
22:22 - 22:24

grâce à ces outils technologiques
22:24 - 22:27

parce que nous voulons
que notre langue survive. »
22:27 - 22:29

Cela soulève une question éthique
très intéressante.
22:29 - 22:32

Parce que si vous baissez les bras
en vous disant :
22:32 - 22:35

« C'est bon, j'arrête parce que
cette communauté veut que j'arrête, »
22:35 - 22:37

ne serait-ce pas injuste
envers le deuxième groupe
22:37 - 22:39

qui est convaincu de la nécessité
d'écarter ces choses-là.
22:39 - 22:43

Je ne pense pas que la réponse
à cette question soit facile à trouver.
22:43 - 22:45

Mais du moins en ce qui concerne PanLex...
22:45 - 22:49

D'ailleurs, nous n'avons jamais
été confronté à cette situation,
22:49 - 22:50

pour autant que je sache.
22:51 - 22:53

Ça pourrait être en partie parce que...
22:54 - 22:55

Pour revenir à sa question,
22:56 - 22:58

nous avons besoin
de plus de promotion. (rit)
22:59 - 23:02

Mais en général, à ma connaissance,
23:02 - 23:04

nous n'avons pas été confronté à ça.
23:04 - 23:07

Notre stratégie dans ce cas
23:07 - 23:11

est que si une communauté ne veut pas
de ses données dans une base de données,
23:11 - 23:12

nous les supprimons.
23:12 - 23:15

(intervenant·e 5) Nous avons abordé
le sujet dans Wikidata et Wikipedia...
23:15 - 23:16

- Ah bon ?
- (intervenant·e 5) Dans les commentaires.
23:16 - 23:18

- Vraiment ?
- (intervenant·e 5) Ça pose problème.
23:18 - 23:20

J'imagine, oui, surtout pour
des commentaires sur des photos ou autres.
23:20 - 23:22

(intervenant·e 5) Exactement.
23:27 - 23:33

(intervenant·e 6) J'ai une question
sur le crowdsourcing.
23:34 - 23:37

Pour ce qui est de demander
à une communauté
23:37 - 23:40

d'annoter ou d'entrer des données
dans un ensemble de données,
23:40 - 23:46

ce qui peut être intimidant
en tant qu'éditeur
23:46 - 23:49

c'est que je ne peux
voir que ce qui manque.
23:49 - 23:53

Mais si je vais y consacrer du temps
ayant une idée claire en tête,
23:54 - 23:57

que certains éléments sont prioritaires,
23:58 - 24:01

ça devient très motivant.
24:01 - 24:05

Je me demandais
si vous aviez un système qui...
24:06 - 24:08

Nous sommes conscients
des lacunes dans nos données,
24:08 - 24:12

les preuves linguistiques montrent
que si ces lacunes-là
24:12 - 24:16

avaient été annotées,
elles auraient un impact élevé.
24:16 - 24:17

J'imagine donc
24:18 - 24:21

qu'avoir le lexème correspondant
à « maison » est important,
24:21 - 24:25

plus important que le lexème
correspondant à « donnée » ou autre.
24:25 - 24:29

Je me demandais si vous aviez
un système pour ça,
24:30 - 24:35

si ça peut encourager les efforts
de ces communautés.
24:36 - 24:37

Bonne question.
24:37 - 24:41

Wikidata a beaucoup de...
24:41 - 24:45

Pardon, PanLex a beaucoup
de listes Swadesh.
24:45 - 24:47

Il parait qu'on a la plus vaste collection
de listes Swadesh au monde,
24:47 - 24:48

ce qui est intéressant.
24:48 - 24:50

Si vous ne savez pas
ce qu'est une liste Swadesh,
24:50 - 24:56

c'est une liste normalisée
d'éléments lexicaux
24:56 - 25:00

pouvant être utilisée
dans l'analyse des langues.
25:00 - 25:03

Elles contiennent des ensembles
de mots très basiques.
25:03 - 25:05

Il y a quelques différents types
de listes Swadesh.
25:05 - 25:07

Elles contiennent toutefois
100 ou 213 éléments
25:07 - 25:09

dont des mots comme
25:09 - 25:13

« maison » ou « œil » ou « peau »,
25:13 - 25:14

des mots généraux
25:14 - 25:16

que l'on trouve dans toutes les langues.
25:18 - 25:20

C'est un bon point de départ
25:20 - 25:23

pour avoir accès à ce genre de données.
25:29 - 25:31

Je le disais tout à l'heure,
25:31 - 25:33

nous ne faisons pas
de crowdsourcing pour le moment
25:33 - 25:36

et nous sommes très enthousiastes
à l'idée de pouvoir le faire un jour.
25:36 - 25:39

J'aimerais vraiment discuter de ce sujet
avec les personnes présentes,
25:39 - 25:43

de la manière dont
le crowdsourcing peut être utilisé
25:43 - 25:46

et la logistique impliquée,
25:46 - 25:49

c'est le genre de questions qui se posent.
25:51 - 25:53

Ce que je peux vous dire
25:53 - 25:55

c'est que nous avons
une liste de priorités...
25:55 - 25:58

En fait, nous avons effectivement
une liste de priorités
25:58 - 26:00

quant aux langues que nous recherchons.
26:00 - 26:02

Nous commençons par rechercher les langues
26:02 - 26:05

qui ne sont pas inclues
dans les solutions technologiques
26:05 - 26:07

et qui sont le plus souvent,
disons généralement,
26:07 - 26:09

des langues minoritaires,
26:09 - 26:12

et les privilégions.
26:14 - 26:17

En ce qui concerne
les éléments lexicaux isolés,
26:17 - 26:20

et du moment que c'est sous cette forme
que nous récoltons les nouvelles données,
26:20 - 26:23

il s'agit principalement d'ingérer
la totalité d'un dictionnaire.
26:23 - 26:26

Nous nous référons
au choix des éléments lexicaux
26:26 - 26:30

du dictionnaire, plutôt que
de rechercher le terme « maison »
26:30 - 26:32

dans chaque langue.
26:32 - 26:33

Pour ce qui est du crowdsourcing,
26:33 - 26:35

nous avons besoin
de quelque chose de similaire.
26:35 - 26:38

C'est une opportunité
de recherche et de développement.
26:40 - 26:43

(intervenant·e 7) Bonjour, je m'appelle
Victor et tout ceci est génial.
26:44 - 26:47

Par rapport à vos diapositives...
26:47 - 26:49

Pouvez-vous élaborer
sur la situation technique
26:49 - 26:54

où circulent les informations
entre Wikidata et PanLex
26:54 - 26:57

en place actuellement ?
26:57 - 27:00

Est-ce une situation déjà établie
27:00 - 27:04

ou sinon, comment faites-vous
27:04 - 27:07

en termes d'échange
ou de retour d'informations
27:07 - 27:10

entre PanLex et Wikidata ?
27:10 - 27:14

Nous n'avons pas de relation officielle
avec Wikidata actuellement
27:14 - 27:16

et encore une fois, je suis très content
27:16 - 27:18

de pouvoir aborder ce sujet
dans le cadre de cette conférence.
27:18 - 27:21

Nous avons eu quelques échanges
avec Wikitionary
27:22 - 27:25

mais honnêtement, Wikidata
serait une meilleure solution
27:25 - 27:27

pour le travail que nous faisons.
27:27 - 27:29

Avoir un accès direct
aux informations lexicales
27:29 - 27:31

signifie que nous auront moins
27:31 - 27:33

d'analyse et d'extraction
de données à faire.
27:33 - 27:37

Nous ne collaborons pas encore
mais nous espérons le faire.
27:37 - 27:40

(intervenant·e 7) Si ça ne se fait pas,
quels obstacles prévoyez-vous ?
27:40 - 27:44

Visiblement, Wikidata
prend en compte plusieurs langues,
27:44 - 27:47

mais lorsque je vais sur
« translate.panlex.org »,
27:47 - 27:49

je vois que vous travaillez
avec beaucoup de dialectes,
27:49 - 27:51

beaucoup plus que Wikidata.
27:51 - 27:53

Comment percevez-vous cet écart
27:53 - 27:57

entre la traduction lexicale d'abord,
27:57 - 28:00

telle qu'elle est appliquée,
28:00 - 28:04

et le fait d'essayer de dresser
une structure de connaissances ?
28:04 - 28:06

Schématiser des connaissances
peut s'avérer très intéressant.
28:06 - 28:07

Nous avons ardemment discuté
28:07 - 28:12

de la manière dont Wikidata
organise ses données lexicales,
28:12 - 28:14

vos données lexicales,
28:14 - 28:16

et celle dont nous organisons les nôtres.
28:16 - 28:21

Les différences subtiles qui existent
nécessitent une stratégie de modélisation,
28:21 - 28:25

certaines d'entre elles
ne seront pas automatiques
28:25 - 28:27

mais nous pourrions développer
des techniques pour y arriver.
28:27 - 28:31

Vous avez mentionné
les variantes linguistiques.
28:31 - 28:34

Nous sommes plutôt
« catégoriques » à ce sujet.
28:34 - 28:36

En d'autres termes,
si l'on porte à notre connaissance
28:36 - 28:39

que pour telle langue,
tel ou tel dialecte est parlé
28:39 - 28:41

du côté gauche de la rivière,
en Papouasie-Nouvelle-Guinée
28:41 - 28:43

et qu'une autre source nous affirme
28:43 - 28:45

que tel ou tel dialecte est parlé
du côté droit de la rivière,
28:45 - 28:47

nous les considérerons
comme deux langues à part,
28:47 - 28:51

et ce, pour préserver au mieux
les données que nous avons.
28:52 - 28:54

Pouvoir structurer tout ça
à la manière de Wikidata...
28:54 - 28:57

Ce que j'aimerais vraiment c'est discuter
28:57 - 29:01

de la manière dont les langues
29:01 - 29:06

sont désignées sur Wikidata.
29:08 - 29:12

Encore une fois, notre stratégie
est une stratégie de séparation.
29:14 - 29:17

Nous utilisons des codes ISO 6393
29:18 - 29:20

fournis par l'Ethnologue,
29:20 - 29:24

puis prévoyons plusieurs variantes
pour chaque code,
29:24 - 29:26

que ce soit pour les variantes écrites,
29:26 - 29:29

les dialectes régionaux
ou les sociolectes.
29:30 - 29:33

Là encore, la discussion est ouverte
et la collaboration est possible.
29:36 - 29:39

(femme 3) Bonjour, j'aimerais savoir
si vous avez un pipeline ROC
29:39 - 29:45

parce que nous avons essayé la ROC
pour les langues mayas
29:45 - 29:48

sans succès.
29:48 - 29:50

Ça ne comprend rien...
29:50 - 29:53

- Oui ! (rit)
- (intervenant·e 8) Oui...
29:53 - 29:56

Si vos pipelines sont disponibles...
29:56 - 30:00

Autre chose, à propos
du chevauchement des codes ISO,
30:00 - 30:02

on entend parfois :
30:02 - 30:04

« Ceci est une langue,
celle-ci en est une autre, »
30:04 - 30:07

d'autres sources disent autre chose,
30:07 - 30:10

comme vous le dites,
alors qu'elles se chevauchent.
30:10 - 30:13

Comment procédez-vous ?
30:13 - 30:15

Très bonne question.
30:15 - 30:17

J'apprécie énormément.
30:17 - 30:20

Nous n'avons pas de pipeline ROC
à proprement parler,
30:20 - 30:24

nous procédons source par source.
30:24 - 30:26

C'est parce que nous avons souvent
30:26 - 30:28

des sources qui ne nécessitent pas de ROC
30:28 - 30:30

et qui sont disponibles
pour certaines de ces langues.
30:30 - 30:33

Nous nous concentrons là-dessus
parce qu'elles demandent moins de travail.
30:33 - 30:35

Mais si nous voulons
nous intéresser de plus prêt
30:35 - 30:37

à l'une des sources
que nous avons accumulées,
30:37 - 30:41

nous devrons développer
des pipelines ROC solides.
30:41 - 30:44

Il y aussi le fait que,
comme vous l'avez mentionné,
30:44 - 30:49

ceux qui ont conçu les logiciels ROC
30:49 - 30:51

ne réalisent pas à quel point
30:51 - 30:53

ils peuvent être soumis
à des épreuves sous contraintes.
30:53 - 30:55

Et vous savez le plus drôle ?
30:55 - 30:58

Soumettre un dictionnaire
russe - tibétain à une ROC.
30:59 - 31:00

Il s'avère que c'est très difficile...
31:02 - 31:04

Nous y avons renoncé
et avons engagé quelqu'un pour tout taper,
31:04 - 31:06

ce qui était tout à fait faisable.
31:06 - 31:07

Il parait même que
31:07 - 31:10

cette dame russe exceptionnelle
a appris le tibétain
31:10 - 31:13

justement pour pouvoir faire ce travail,
ce qui vraiment génial.
31:15 - 31:18

Je pense que si vous avez affaire
à des caractères latins,
31:18 - 31:23

des solutions ROC robustes
peuvent être développées
31:23 - 31:25

pour traiter des sources
multilingues semblables,
31:25 - 31:27

il faudra s'attendre
à y trouver un quatre aléatoire,
31:27 - 31:28

si vous avez affaire
31:28 - 31:31

à des sources mayas du XVIe siècle,
le chiffre quatre.
31:32 - 31:38

Toutefois, il y a quelques sources
31:38 - 31:40

que la ROC ne pourra probablement
jamais vraiment traiter
31:40 - 31:42

ou qui nécessitent une quantité
de travail énorme,
31:43 - 31:47

dont nous pouvons profiter
un peu maintenant.
31:47 - 31:49

Nous travaillons
sur un autre projet chez PanLex
31:49 - 31:50

dans le cadre duquel nous transcrivons
31:50 - 31:54

toute la littérature
traditionnelle de Bali.
31:54 - 31:58

Nous avons trouvé
que pour les manuscrits balinais,
31:58 - 32:00

il n'y a pas moyen d'utiliser la ROC.
32:00 - 32:02

Nous avons donc demandé
à plusieurs balinais de les taper,
32:02 - 32:05

et c'est devenu un projet culturel
sympa à Bali,
32:05 - 32:07

c'est même passé aux infos et tout.
32:07 - 32:11

Je dirais qu'on n'est pas obligé
de recourir à la ROC,
32:11 - 32:13

même s'il y a trop de choses
qui nécessiteraient cela.
32:13 - 32:15

Avoir de bonnes solutions ROC
serait idéal.
32:17 - 32:21

D'ailleurs, s'il y en a qui s'intéressent
à la ROC multilingue,
32:21 - 32:23

venez me voir après !
32:30 - 32:31

(intervenant·e 9) Merci
pour votre présentation.
32:32 - 32:35

Vous avez parlé d'intégration
32:35 - 32:37

entre PanLex et Wikidata,
32:37 - 32:39

mais vous n'avez pas vraiment
fourni de détails.
32:39 - 32:43

J'ai vérifié votre licence,
vous êtres sous CC0.
32:43 - 32:44

- Oui.
- (homme 6) C'est génial.
32:44 - 32:46

Il y a deux possibilités :
32:46 - 32:49

soit on peut importer les données
32:49 - 32:53

soit on vire vers quelque chose
de semblable à Freebase,
32:53 - 32:56

où l'on a la base de données complète
depuis Freebase
32:56 - 32:59

qu'on a importée,
pour ensuite créer un lien,
32:59 - 33:04

un identifiant externe à la base
de données Freebase.
33:04 - 33:08

Si vous avez une idée en tête,
se rapproche-t-elle de ça ?
33:08 - 33:10

Ou vous voulez simplement créer...
33:15 - 33:19

une base de données indépendante
qui pourrait être liée à Wikidata ?
33:19 - 33:21

C'est une très bonne question
33:21 - 33:23

et je pense même que
ça a une longueur d'avance
33:23 - 33:26

sur ce que j'ai en tête,
33:26 - 33:30

en partie parce que
33:30 - 33:32

faire en sorte que les deux bases
de données collaborent
33:32 - 33:34

est une étape en soi.
33:34 - 33:35

Je pense que la première étape
33:35 - 33:38

serait la mise en commun
de nos compétences.
33:38 - 33:40

Nous avons beaucoup d'expérience
33:40 - 33:43

dans la classification des propriétés
de différents lexèmes
33:43 - 33:45

que je serai ravi de partager.
33:46 - 33:49

Mais lier les deux bases de données
serait formidable.
33:49 - 33:51

J'en suis parfaitement sûr.
33:51 - 33:54

Je pense que ce serait plus facile
33:54 - 33:56

de lier Wikidata à PanLex,
33:56 - 33:59

c'est peut-être subjectif de ma part
parce que je sais que ça peut marcher.
34:02 - 34:06

En fait, du moment
que Wikidata est satisfait
34:06 - 34:10

en ce qui concerne la licence,
ou que nous trouvons un arrangement,
34:10 - 34:12

ce serait une très bonne idée.
34:13 - 34:15

Il ne nous reste plus qu'à trouver
34:15 - 34:16

des moyens de lier
les données elles-mêmes.
34:16 - 34:22

Ce serait vraiment bien que
les modifications effectuées sur Wikidata
34:23 - 34:26

puissent immédiatement alimenter
la base de données PanLex,
34:26 - 34:29

sans avoir à réingérer...
34:31 - 34:36

et donc faire de Wikidata
une interface collaborative pour PanLex
34:36 - 34:37

serait vraiment génial.
34:37 - 34:40

La possibilité d'utiliser PanLex
pour des traductions immédiates,
34:40 - 34:42

d'effectuer des traductions à travers
les éléments lexicaux de Wikidata...
34:42 - 34:44

ce serait magnifique.
34:55 - 35:00

(intervenant·e 10) On dirait le processus
de vérification de la toile sémantique
35:00 - 35:04

pour combler des vides par interférence.
35:06 - 35:10

Si on réfléchit un peu plus
à ce genre de traduction,
35:10 - 35:13

comment gérez-vous les non-concordances
35:13 - 35:16

sémantiques et grammaticales ?
35:16 - 35:19

Par exemple, si vous essayez de traduire
quelque chose en allemand,
35:19 - 35:22

vous pouvez placer des mots ensemble
35:22 - 35:26

et avoir un résultat qui ait du sens,
35:26 - 35:29

mais d'un autre côté, j'ai lu que...
35:31 - 35:38

parfois, les langues ont
des systèmes granulaires différents
35:38 - 35:40

pour les couleurs, par exemple.
35:41 - 35:43

Vous dites que tous les systèmes
35:43 - 35:45

sont différents ou similaires ?
35:45 - 35:48

(intervenant·e 10) Je pense qu'il s'agit
plutôt de l'évolution des langues
35:48 - 35:52

où on ne désignait
que le noir et le blanc...
35:52 - 35:53

Oui, la hiérarchie des couleurs.
35:53 - 35:54

La hiérarchie des couleurs
35:54 - 35:57

est un bon moyen d'illustrer
comment ça marche.
35:58 - 36:01

Quand vous n'avez
qu'une seule langue pivot...
36:02 - 36:05

C'est très intéressant de lire des études
sur les traductions automatiques
36:05 - 36:08

où l'on mentionne souvent
l'existence d'une langue pivot théorique,
36:08 - 36:10

« il y a une langue pivot » lira-t-on,
36:10 - 36:12

ensuite il s'avère que c'est l'anglais.
36:12 - 36:17

À travers cette forme
de traduction lexicale,
36:17 - 36:20

le croisement de plusieurs langues
intermédiaires différentes
36:21 - 36:26

peut amener une meilleure gestion
de l’ambiguïté sémantique.
36:26 - 36:28

Du moment que le croisement
se fait à travers des langues
36:28 - 36:33

ayant des limites sémantiques
plutôt similaires,
36:33 - 36:37

vous pourrez éviter
36:37 - 36:40

d'introduire de l'ambiguïté sémantique
à travers une langue pivot.
36:40 - 36:43

Si on utilise la hiérarchie
des couleurs comme exemple,
36:43 - 36:44

si l'on prend une langue
36:44 - 36:46

qui a un seul terme
pour désigner le bleu et le vert
36:46 - 36:50

et le traduit en bleu
36:50 - 36:53

dans votre langue pivot unique
36:53 - 36:54

puis dans une autre langue différente
36:54 - 36:57

qui comporte des ambiguïtés différentes,
36:57 - 37:00

vous finirez par instaurer
une ambiguïté sémantique.
37:00 - 37:02

Mais si le croisement se fait
avec des langues
37:02 - 37:06

qui n'ont également qu'un seul
élément lexical pour le vert et le bleu,
37:06 - 37:11

la spécificité sémantique
37:11 - 37:17

est transmise à la langue cible.
37:18 - 37:21

En ce qui concerne
les caractéristiques grammaticales,
37:21 - 37:26

PanLex a collecté principalement
des lexèmes, des formes lexicales,
37:26 - 37:29

au cours de son histoire.
37:30 - 37:32

Je veux dire par là
37:32 - 37:34

les mots que vous trouvez
dans un dictionnaire.
37:35 - 37:38

Nous ne nous préoccupons pas
pour le moment
37:39 - 37:41

de recueillir des formes
de variantes grammaticales,
37:41 - 37:43

comme les données [inaudible], etc.
37:43 - 37:45

ou les formes conjuguées
du passé et du présent.
37:45 - 37:46

Mais nous y réfléchissons.
37:46 - 37:48

Autre chose qu'il est important
de se rappeler,
37:48 - 37:51

c'est que notre attention...
37:51 - 37:54

est portée sur les langues minoritaires
défavorisées et menacées,
37:55 - 37:58

nous visons la disponibilité
37:58 - 38:00

avant la perfection.
38:02 - 38:03

J'aime beaucoup le dicton :
38:03 - 38:05

« Le mieux est l'ennemi du bien »
38:05 - 38:07

c'est ce que nous comptons faire.
38:07 - 38:09

Mais l'idée de pouvoir manipuler
les formes grammaticales
38:09 - 38:12

et de pouvoir traduire
à travers les formes grammaticales,
38:12 - 38:14

nous intéresse beaucoup,
38:14 - 38:16

ce sont des choses
que nous avons étudiées
38:16 - 38:17

mais pas encore implémentées.
38:25 - 38:29

(intervenant·e 11) Donc sur ces 7 500 langues,
38:30 - 38:33

je suppose que vous utilisez
des dictionnaires conçus pour nous,
38:33 - 38:36

mais toutes ces langues ont-elles
des formes écrites standardisées ?
38:36 - 38:38

Comment faites-vous pour... ?
38:38 - 38:40

C'est une très bonne question.
38:42 - 38:45

Oui, beaucoup de ces langues,
38:45 - 38:48

vous le savez, n'ont pas de forme écrite.
38:48 - 38:51

Toutefois, toute langue pour laquelle
un dictionnaire a été conçu
38:51 - 38:52

possède une orthographe,
38:52 - 38:57

nous nous basons sur l'orthographe
conçue pour le dictionnaire.
38:57 - 39:00

Nous ajustons un peu l'orthographe parfois
39:01 - 39:03

dans la garantie
qu'il n'y ait pas de pertes.
39:03 - 39:05

Nous essayons d'éviter cela
autant que possible.
39:08 - 39:11

Nous ne nous mettons pas
39:11 - 39:13

à développer des orthographes
pour des langues,
39:13 - 39:15

parce qu'elles ne se sont pas
développées,
39:15 - 39:17

et même si elles ne sont pas
rendues publiques.
39:20 - 39:22

Par exemple,
39:22 - 39:26

pour les diverses langues parlées
en Nouvelle-Guinée,
39:26 - 39:29

il se peut qu'il n'y ait pas
d'orthographe commune,
39:29 - 39:31

mais certains linguistes les inventent
39:31 - 39:32

et c'est une bonne initiative.
39:33 - 39:35

Nous recueillons aussi
les formes phonétiques
39:35 - 39:37

si elles sont disponibles
dans les dictionnaires,
39:37 - 39:38

et c'est une autre façon de faire,
39:38 - 39:41

une représentation d'un mot selon l'API
39:41 - 39:42

si possible.
39:42 - 39:43

On pourrait utiliser ça aussi.
39:43 - 39:46

Mais on ne s'en sert pas comme pivot
39:46 - 39:48

parce que ça instaure des ambiguïtés.
39:53 - 39:55

(intervenant·e 12) Merci,
c'est peut-être une question bête
39:56 - 40:01

mais est-ce les seules langues
intermédiaires que vous utilisez ?
40:01 - 40:02

Non, non.
40:02 - 40:04

(intervenant·e 12) D'accord, merci.
40:04 - 40:06

Merci d'avoir posé la question.
40:06 - 40:11

Ceci est une capture d'écran
de « translate.panlex.org ».
40:11 - 40:13

Si vous effectuez une traduction,
40:13 - 40:15

vous aurez une liste
de traductions à droite.
40:15 - 40:18

Vous cliquez sur le bouton « ... »,
vous obtenez cette figure.
40:18 - 40:22

Cela montre les langues intermédiaires,
40:22 - 40:24

les 20 premières selon le score,
40:24 - 40:26

je pourrais vous en dire plus
40:26 - 40:27

mais ce n'est pas très important,
40:27 - 40:30

donc les langues utilisées selon le score.
40:30 - 40:33

Mais pour effectuer la traduction,
nous en utilisons plus que 20.
40:33 - 40:36

Je me limite à 20
parce que s'il y en a plus...
40:36 - 40:38

en fait, c'est une sorte
de simulation physique,
40:38 - 40:40

vous pouvez la faire bouger et elle remue.
40:40 - 40:42

S'il y a plus de 20 langues,
votre ordinateur en devient fou.
40:45 - 40:47

C'est plus une démonstration
qu'autre chose.
40:56 - 40:58

(femme 5) Je suis Leila,
de la fondation Wikimedia.
40:58 - 41:00

Une remarque à propos de...
41:00 - 41:02

Vous avez mentionné
la fondation Wikimedia
41:02 - 41:03

quelques fois dans votre présentation,
41:03 - 41:07

si vous voulez faire
de l'ingestion de données
41:07 - 41:08

ou que vous voulez collaborer
avec Wikidata,
41:09 - 41:11

peut-être que Wikimedia Deutschland
serait l'endroit plus approprié
41:11 - 41:13

pour ce genre d'échange ?
41:13 - 41:16

Wikidata fait partie
de Wikimedia Deutschland,
41:16 - 41:18

leurs équipes sont en Allemagne,
41:18 - 41:20

et la communauté de bénévoles de Wikidata
41:20 - 41:24

serait l'endroit idéal pour aborder
41:24 - 41:26

tout ce qui a trait aux ingestions
41:26 - 41:31

ou au rapprochement de PanLex à Wikidata.
41:32 - 41:33

Très bien, merci beaucoup,
41:33 - 41:35

Honnêtement, je ne connais pas bien
41:35 - 41:38

les subtilités de l'architecture
des projets
41:38 - 41:40

et la manière dont ils se relient.
41:40 - 41:42

D'après vos rires, c'est compliqué.
41:42 - 41:44

En fait, nous aimerions discuter
41:44 - 41:48

avec les responsables de Wikidata.
41:48 - 41:52

En gros, tous ceux qui sont responsables
41:53 - 41:56

de Wikidata nous intéressent,
41:56 - 41:58

c'est-à-dire vous tous bénévoles.
42:03 - 42:05

D'autres questions ?
42:10 - 42:14

Bon, si vous avez d'autres questions
sur ce que j'ai dit, sur autre chose,
42:14 - 42:18

ou sur les détails et les spécificités
de certaines choses,
42:18 - 42:20

venez m'en dire deux mots,
je suis à l'écoute.
42:20 - 42:24

Surtout si vous travaillez
avec les lexiques,
42:24 - 42:29

ou quoi que ce soit impliquant
des langues minoritaires menacées
42:29 - 42:30

ou défavorisées,
42:30 - 42:34

ou l'Unicode,
je travaille dessus également.
42:36 - 42:38

Merci beaucoup
42:38 - 42:40

et merci de m'avoir invité
à prendre la parole,
42:40 - 42:42

j'espère que vous avez apprécié
cette présentation.
42:42 - 42:44

(applaudissements)

Title:: cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4
Video Language:: English
Duration:: 42:53

Bar Sch edited French subtitles for cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

French subtitles

Revisions

Revision 1 Uploaded

Bar Sch

cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

Revisions

Our website uses cookies

Operating cookies (Required)