-
Il existe environ 7 500 langues
-
parlées dans le monde aujourd'hui.
-
On estime qu'environ 70 % d'entre elles
-
risquent de disparaître
d'ici la fin du XXIe siècle.
-
La mort d'une langue
-
est la rupture d'un lien
-
qui a duré des centaines
voire des milliers d'années,
-
un lien avec la culture, avec l'histoire,
-
avec les traditions et le savoir.
-
Le linguiste Kenneth Hale a dit
-
que la mort d'une langue
-
serait comme larguer
une bombe en plein Louvre.
-
On se demande alors :
-
pourquoi les langues meurent-elles ?
-
Une réponse simple serait que
-
les gouvernements autoritaires
-
interdisent aux peuples
de parler leur langue natale,
-
punissent les enfants
s'ils le font à l'école,
-
ou ferment les stations de radio
de langues minoritaires.
-
Cela s'est déjà produit
-
et se produit encore aujourd'hui
dans une certaine mesure.
-
Pour être honnête,
-
dans la grande majorité des cas
de disparition des langues,
-
la réponse est beaucoup plus simple
-
et beaucoup plus facile à expliquer.
-
Les langues meurent
-
parce qu'elles ne sont pas transmises
d'une génération à une autre.
-
Lorsqu'un locuteur d'une langue
minoritaire a des enfants,
-
une équation s'impose à lui.
-
Il se demande...
-
s'il doit transmettre
sa langue natale à ses enfants
-
ou s'il doit se limiter
à leur apprendre la langue majoritaire.
-
En fait, dans sa tête,
-
il se représente une balance
-
qui, d'un côté,
-
chaque fois que l'opportunité
d'utiliser sa langue natale se présente
-
pour communiquer ou pour aborder
un aspect de la culture traditionnelle
-
une pierre est placée du côté gauche,
-
et dès qu'il se retrouve incapable
de parler sa langue natale
-
et obligé de parler la langue majoritaire,
-
une pierre est placée du côté droit.
-
Étant donné le sentiment
de force et de dignité
-
que confère le fait
de parler sa langue natale,
-
les pierres du côté gauche
ont tendance à peser plus lourd.
-
Mais s'il y a assez de pierres à droite,
-
la balance penchera
forcément de ce côté-là,
-
et lorsqu'une personne décide
de transmettre sa langue,
-
elle considère sa propre langue
-
comme un fardeau
plutôt qu'une bénédiction.
-
Comment donc inverser cela ?
-
Il faut d'abord s'interroger...
-
sur les sphères sociales
dans lesquelles une langue donnée
-
peut être parlée.
-
Toutes les langues natales
parlées de nos jours
-
peuvent être parlées au sein des familles.
-
Un ensemble limité de langues peuvent
être parlées au sein des communautés,
-
un autre encore plus limité
au niveau régional,
-
et seulement une poignée de langues
-
sont utilisées dans le cadre
de communications internationales.
-
Même au sein de ces sphères,
-
on se demande si l'on peut utiliser
telle ou telle langue
-
à des fins éducatives, commerciales
-
ou dans le domaine de la technologie.
-
Pour mieux illustrer
-
ce que je veux dire,
-
j'aimerais me servir d'une anecdote.
-
Disons que vous partez bientôt
-
pour des vacances de rêve en Inde
-
et que vous avez huit heures
d'escale à Istanbul.
-
Vous n'aviez pas vraiment prévu
de visiter la Turquie
-
mais vous avez un ami turque
-
qui vous propose de découvrir
un bon restaurant
-
pas très loin de l'aéroport,
-
vous vous dites : « J'y ferai un tour
durant mon escale. »
-
Vous quittez l'aéroport,
-
vous allez à votre restaurant,
-
et on vous donne le menu
-
qui se trouve être entièrement en turc.
-
Disons qu'à titre d'exemple,
-
vous ne parlez pas turc.
-
Que faites-vous ?
-
Si vous avez de la chance,
-
vous trouverez peut-être quelqu'un
qui parle votre langue natale,
-
l'allemand, l'anglais, etc.
-
Mais supposons que ce ne soit pas
votre jour de chance
-
et que personne dans le restaurant
ne parle allemand ou anglais.
-
Que faites-vous ?
-
Je suppose que, comme moi,
la plupart d'entre vous
-
recourrez à la technologie,
-
à une traduction automatique
ou un dictionnaire numérique,
-
que vous rechercherez
chaque mot séparément
-
et finirez par commander
un délicieux plat turque.
-
Imaginons plutôt que
-
vous parlez une langue minoritaire.
-
Le bas sorabe par exemple.
-
Le bas sorabe est une langue
menacée d'extinction,
-
parlée ici en Allemagne,
-
à environ 130 kilomètres au sud-est,
-
par quelques milliers de personnes,
âgées pour la plupart.
-
Disons que le bas sorabe
est votre langue natale.
-
Vous êtes dans le restaurant.
-
Les chances d'y trouver quelqu'un
-
qui parle votre langue natale
sont bien sûr exceptionnellement faibles.
-
Là aussi, vous pouvez avoir recours
à la technologie.
-
Toutefois, il n'existe pas
de solution technologique
-
adaptée à votre langue natale.
-
Vous devrez vous en remettre
à l'allemand ou à l'anglais
-
comme langue pivot
pour comprendre le turc.
-
Vous réussissez bien entendu
à commander un délicieux plat turc
-
mais vous vous demandez à quel point
cela aurait été difficile
-
pour votre grand-père par exemple
qui ne parle pas allemand.
-
Bien que ce ne soit qu'un petit incident,
-
la balance pencherait tout de même
un peu plus du côté droit
-
et vous vous direz peut-être,
-
le jour où vous auriez des enfants
ou d'autres enfants,
-
que la situation pénible
que vous avez vécue
-
fait que continuer à utiliser
votre langue natale soit inutile.
-
Imaginez encore si ce scénario
-
était d'une importance plus critique,
-
dans un cadre hospitalier par exemple.
-
C'est sur ce point
que nous pouvons intervenir,
-
par « nous », je veux dire
vous et moi, ici présents.
-
Nous avons les moyens d'intervenir.
-
Si des outils technologiques
sont accessibles
-
aux locuteurs de langues
minoritaires ou défavorisées,
-
la balance pencherait
légèrement du côté gauche.
-
Personne ne se dit forcément
-
qu'il doit parler une langue minoritaire
-
pour pouvoir interagir avec le monde,
-
les sphères sociales
en seraient plus ouvertes.
-
La solution idéale serait bien sûr
-
d'avoir accès à la traduction automatique
dans toutes les langues du monde.
-
Malheureusement, ce n'est
tout bonnement pas possible.
-
La traduction automatique nécessite
un vaste corpus de textes
-
et pour beaucoup de ces langues
-
qui sont en voie de disparition
ou défavorisées,
-
ces données ne sont pas disponibles.
-
Certaines de ces langues
ne sont même pas écrites
-
ce qui rend la collecte de données
-
pour alimenter un moteur
de traduction automatique
-
peu probable.
-
Ce qui est accessible par contre,
sont les données lexicales.
-
Grâce aux travaux de plusieurs linguistes
-
au cours des derniers siècles,
-
des dictionnaires
et des grammaires ont été créés
-
pour la plupart des langues du monde.
-
Malheureusement, la plupart de ces travaux
-
ne sont pas accessibles au monde,
-
encore moins aux populations
parlant ces langues minoritaires.
-
Ce n'est pas un processus délibéré,
-
il s'agit souvent d'une première édition
limitée de ces dictionnaires
-
et les seules copies qui existent
-
moisissent quelque part
dans une librairie universitaire.
-
Mais nous pouvons
nous emparer de ces données
-
et les rendre accessibles à tous.
-
La fondation Wikimedia
compte parmi les meilleures,
-
si ce n'est la meilleure au monde,
-
organisations à rendre
accessibles des données
-
à la majorité des populations du monde.
-
Penchons-nous sur cette question.
-
Pour expliquer un peu
notre travail à ce sujet,
-
j'aimerais vous présenter
mon organisation PanLex,
-
le but de cette organisation
-
est de collecter des données lexicales
pour les rendre accessibles.
-
Tout a commencé il y a 12 ans
-
à l'université de Washington,
dans le cadre d'un projet de recherche.
-
L'idée était de démontrer
qu'on pouvait créer
-
un outil de traduction efficace
-
à partir de traductions « induites »,
-
un outil de traduction lexical
pour ainsi dire.
-
Voici un exemple tiré
des données de PanLex.
-
C'est pour vous montrer comment traduire
-
le mot « ev » qui veut dire
« maison » en turc,
-
en bas sorabe,
-
la langue dont je vous parlais
tout à l'heure.
-
C'est très peu probable de trouver
-
des dictionnaires turc - bas sorabe,
-
mais en croisant le terme
-
avec plusieurs langues
intermédiaires différentes,
-
on peut créer des traductions efficaces.
-
Quand on a présenté ça
pour les projets de recherche,
-
le fondateur de PanLex,
Dr. Jonathan Pool,
-
s'est dit : « Pourquoi
ne ferait-on pas ça ? »
-
Il a donc lancé une organisation
à but non lucratif
-
pour collecter le plus données lexicales
possibles et les rendre accessibles.
-
Ça a été notre travail pendant
les 12 dernières années.
-
Durant ce temps, nous avons collecté
des milliers de dictionnaires,
-
en avons extrait des données lexicales,
et compilé une base de données
-
qui dispense des traductions
lexicales inférées
-
entre...
-
on compte présentement 5 500 langues
-
sur les 7 500 langues
parlées dans le monde.
-
Évidemment,
-
nous tendons continuellement
à élargir cette base de données
-
et à enrichir les données
de chaque langue.
-
La question qui se pose ensuite
-
est comment pouvons-nous
collaborer là-dessus ?
-
Chez PanLex, nous observons
le développement des données lexicales
-
sur lequel travaille Wikidata
-
avec beaucoup d'enthousiasme.
-
C'est très fascinant
de voir des organisations
-
travailler sur des aspects différents
-
d'une sphère similaire.
-
Nous attendons avec impatience
-
d'en voir les résultats.
-
Nous sommes également impatients
de collaborer avec Wikidata.
-
Je pense que les compétences spécifiques
-
que nous avons développées
depuis les 12 dernières années,
-
non seulement en collectant
des données lexicales
-
mais dans la conception
de notre base de données,
-
peuvent être très utiles pour Wikidata.
-
D'autre part, je pense que...
-
Les compétences de Wikidata
-
dans le crowdsourcing des données
sont très prometteuses.
-
Les sources actuelles de PanLex
-
sont des sources lexicales
imprimées ou autres,
-
mais nous ne faisons pas
de crowdsourcing.
-
Notre infrastructure ne nous le permet pas
-
et la fondation Wikimedia
-
est l'expert mondial du crowdsourcing.
-
Je suis impatient de collaborer
-
pour mettre en pratique ces compétences.
-
Mais le plus important je pense,
-
est le fait que dans notre travail,
-
le moindre détail compte.
-
Nous avons passé des heures
à examiner des formes grammaticales,
-
à feuilleter des dictionnaires
mordernes ou ancients,
-
parfois même des dictionnaires
récemment publiés,
-
et à s'attaquer
à la forme écrite des mots.
-
Ça a l'air très méticuleux.
-
Or, parfois, nous devons nous rappeler
que nous devons prendre du recul
-
dans le sens où même si cela...
-
peut parfois paraître banal,
-
notre travail est extrêmement important.
-
Je pense que c'est l'ultime moyen
-
de soutenir les langues menacées
-
et de nous assurer que
la diversité linguistique de la planète
-
survive jusqu'à la fin de ce siècle
voire longtemps plus tard.
-
Il est tout à fait possible
que notre travail aujourd'hui
-
contribue à la préservation,
à la transmission, et à la survie
-
des langues menacées.
-
Gardez donc à l'esprit
-
que si vous utilisez sur votre ordinateur
-
pour saisir une donnée
-
et que vous ajoutez les formes
de données d'une langue minoritaire
-
correspondant à chaque non,
-
le travail insignifiant
que vous faites en ce moment
-
peut contribuer à faire en sorte
que cette langue survive
-
jusqu'à la fin du siècle
voire plus longtemps.
-
Merci beaucoup,
-
je vais maintenant
prendre des questions.
-
(applaudissements)
-
(intervenant·e 1) Merci.
-
- Merci pour votre intervention.
- Merci à vous.
-
J'ai une question
concernant les dictionnaires.
-
Vous travaillez avec
des dictionnaires papier, n'est-ce pas ?
-
- Oui.
- J'aimerais savoir
-
ce que vous en prélevez
-
et s'il y a des soucis de droits d'auteur
à prendre en compte.
-
J'étais sûr que ce serait
la première question qu'on me poserait.
-
(rires)
-
Alors, chez PanLex,
-
selon les références légales
que nous avons consultées,
-
bien que l'agencement
et la structure d'un dictionnaire
-
soient soumis à des droits d'auteur,
-
la traduction en tant que telle
ne l'est pas.
-
Un annuaire par exemple
-
est soumis à des droits d'auteur,
-
du moins selon la loi américaine.
-
Mais dire que le numéro
de téléphone d'un Untel
-
est tel numéro ne l'est pas.
-
Comme je l'ai dit,
-
selon nos experts juridiques,
-
on peut aborder les choses
sous cet angle-là.
-
Même si cet argument légal
n'est pas assez solide,
-
il est important de garder à l'esprit
-
que la grande majorité
de ces données lexicales
-
sont libres de droits.
-
Un nombre important
de ces données sont libres de droits
-
et peuvent être librement utilisées.
-
En plus, la plupart du temps,
-
lorsqu'on travaille avec
un dictionnaire papier récent,
-
plutôt que de le scanner
ou de le passer à la ROC,
-
nous envoyons un email
à la personne qui l'a conçu.
-
Il se trouve que la plupart
des linguistes sont très contents
-
que leurs données puissent
êtres rendues accessibles.
-
« Bien sûr, allez-y, prenez tout
et rendez-le accessible. »
-
vous diront-ils.
-
Et donc selon nos experts juridiques,
-
nous avons au moins
cette possibilité,
-
et même si vous n'êtes pas
d'accord avec ça non plus,
-
Les données sont facilement
accessibles au public.
-
- (intervenant·e 2) Merci. Bonjour.
- Bonjour.
-
Pouvez-vous élaborer
-
sur la manière dont une personne
qui parle le bas sorabe
-
puisse accéder aux données ?
-
Plus précisément sur la manière
dont ces informations leur parviennent
-
et peuvent même les convaincre
-
soit pour essayer...
-
Très bonne question,
-
j'y réfléchis beaucoup également
-
parce que je pense que
lorsqu'il s'agit d'accès aux données,
-
cela se fait sur plusieurs étapes.
-
La conservation des données en est une,
il faut s'assurer de les préserver.
-
Deuxièmement, il faut
qu'elles soient interopérables
-
et donc utilisables.
-
Troisièmement, il faut
qu'elles soient accessibles.
-
Dans le cas de PanLex,
-
nous pouvons utiliser une API
-
mais l'utilisateur final n'y a
évidement pas accès.
-
Nous avons également
développé des interfaces.
-
Par exemple, si vous allez sur
« translate.panlex.org »,
-
vous pouvez effectuer des traductions
sur notre base de données.
-
Si vous voulez vous amuser un peu
avec l'API, allez sur « dev.panlex.org »
-
ou sur « api.palnex.org »
et vous y trouverez plein de choses.
-
Une autre étape à prendre en compte
-
est que même si vous rendez
toutes vos données accessibles
-
avec des outils très pratiques
permettant leur accessibilité,
-
si vous ne promouvez pas ces outils,
-
personne ne pourra utiliser ces données.
-
Pour être honnête,
-
cet aspect n'est pas suffisamment abordé
-
et je ne peux pas vous donner
la réponse adéquate.
-
Comment peut-on être sûr...
-
Disons par exemple
que je n'ai connu Wikidata
-
que très récemment,
quelques années auparavant,
-
et c'est le genre de choses
qui m'intéressent.
-
Comment peut-on se mettre en valeur ?
-
Laissons cette question ouverte.
-
Encore une fois, je n'ai pas
de réponse adéquate à cette question.
-
Bien sûr, pour y arriver,
-
on doit d'abord passer par
les premières étapes.
-
(intervenant·e 3) Si nous voulons bénéficier
de la traduction automatique,
-
n'avons-nous pas besoin
d'une mémoire de traduction ?
-
Je ne pense pas qu'entrer
des termes isolés
-
dans Wikidata,
-
ces courtes propositions
qu'on entre dans Wikidata,
-
qu'il s'agisse d'éléments ordinaires
ou de lexèmes Wikidata,
-
suffise pour effectuer
une traduction adéquate.
-
Nous avons besoin
de phrases complètes...
-
(Benjamin) Absolument.
-
Où trouvons-nous
ces structures de données ?
-
Je ne suis pas certain
-
que Wikidata puisse résoudre
-
la question de la mémoire de traduction
pour le moment.
-
« translatewiki.net »
-
pour aborder cette lacune...
-
Doit-on agir dans ce sens ou... ?
-
Oui, merci pour votre question.
-
J'en ai parlé un peu tout à l'heure,
-
mais je le répète avec plaisir.
-
C'est la raison précise pour laquelle
-
PanLex travaille
avec les données lexicales
-
et pour laquelle je me réjouis
au sujet des données lexicales
-
contrairement à...
-
Plutôt en plus des moteurs
de traduction automatique
-
et de la traduction automatique
en général.
-
Vous l'avez dit, la traduction automatique
nécessite des données spécifiques,
-
et ces données ne sont pas disponibles
pour la majorité des langues du monde.
-
Pour cette grande majorité,
-
elles ne sont
tout bonnement pas disponibles.
-
Ça ne veut pas dire que
nous devons baisser les bras.
-
Pourquoi ?
-
Si j'ai besoin de traduire
mon menu de restaurant turc,
-
la traduction lexicale serait
un très bon outil.
-
Je ne dis pas qu'on peut utiliser
la traduction lexicale
-
pour traduire des paragraphes
à la perfection.
-
Par traduction lexicale,
je veux dire du mot à mot,
-
et cette traduction lexicale
peut s'avérer très utile.
-
En fait, c'est amusant,
mais nous n'avons pas eu accès
-
à une bonne traduction automatique.
-
On n'y a eu accès que très récemment.
-
On se débrouillait bien
avec les dictionnaires,
-
et leur utilité est indéniable.
-
Les données sont disponibles
-
alors pourquoi ne pas
les rendre disponibles
-
au monde et à ceux
qui parlent ces langues ?
-
(intervenant·e 4) Bonjour, quels sont
les mécanismes en place
-
lorsque la communauté... Je suis ici !
-
- Où ça ? D'accord.
- Oui, pardon. (rit)
-
...lorsque la communauté en question
-
ne veut pas que PanLex obtienne
une partie de ces données ?
-
Bonne question.
-
Nous procédons comme suit :
-
si un dictionnaire est publié
et est mis à la disposition du public,
-
c'est un indicateur valide.
-
Vous pouvez l'acheter dans un magasin
ou dans une bibliothèque universitaire,
-
ou une bibliothèque publique
à la disposition de tous.
-
Cela indique bien
que la décision a déjà été prise.
-
[inaudible]
-
(intervenant·e 5) Pouvez-vous
parler dans le micro ?
-
Pouvez-vous répéter ça ?
-
(intervenant·e 5) Les linguistes n'ont pas
toujours la permission de la communauté
-
pour publier certaines choses,
-
ils le font souvent sans
le consentement de la communauté.
-
C'est vrai.
-
Je dirais que...
-
ça arrive.
-
Je dirais qu'en général,
les cas sont rares
-
et plutôt limités à l'Amérique du Nord,
-
parfois même à certaines langues
sud-américaines.
-
Il faut prendre ça en considération.
-
Si l'on portait à notre connaissance
-
que les données sur PanLex
-
ne devraient pas être accessibles
au reste du monde,
-
nous les supprimerions.
-
(intervenant·e 5) Très bien.
-
Ça ne veut pas dire,
bien entendu,
-
que nous prendrons en compte
les lois sur les droits d'auteur
-
mais nous prendre en compte
les communautés traditionnelles,
-
là réside la principale différence.
-
(intervenant·e 5) Oui, c'est ce que
je voulais dire.
-
Cela soulève un point très intéressant
-
en ce qui concerne
-
les représentants d'une langue.
-
J'ai visité le Sud-Ouest des États-Unis
-
pour collaborer avec des équipes
-
qui travaillent sur les langues
des indigènes Pueblos.
-
Ces indigènes parlent environ
-
six langues pueblos selon la région
-
qu'ils habitent.
-
Elles sont réparties
sur 18 pueblos différents
-
qui ont chacun
leur propre gouvernement tribal,
-
et ces gouvernements
ont des opinions divergentes
-
sur l'éventuelle accessibilité
de leur langue aux étrangers.
-
Le zuni, par exemple,
-
n'est parlé qu'au sein d'un seul pueblo.
-
Ils veulent vraiment que leur langue
soit accessible partout,
-
ils l'écrivent sur les panneaux
de signalisation et tout, c'est bien.
-
Mais pour certaines des autres langues,
-
les communautés qui les parlent
pourront vous dire :
-
« On ne veut pas que notre langue
soit accessible aux étrangers. »
-
Leurs voisins pueblos qui parlent
la même langue, qui vous diront :
-
« Nous voulons rendre notre langue
accessible aux étrangers
-
grâce à ces outils technologiques
-
parce que nous voulons
que notre langue survive. »
-
Cela soulève une question éthique
très intéressante.
-
Parce que si vous baissez les bras
en vous disant :
-
« C'est bon, j'arrête parce que
cette communauté veut que j'arrête, »
-
ne serait-ce pas injuste
envers le deuxième groupe
-
qui est convaincu de la nécessité
d'écarter ces choses-là.
-
Je ne pense pas que la réponse
à cette question soit facile à trouver.
-
Mais du moins en ce qui concerne PanLex...
-
D'ailleurs, nous n'avons jamais
été confronté à cette situation,
-
pour autant que je sache.
-
Ça pourrait être en partie parce que...
-
Pour revenir à sa question,
-
nous avons besoin
de plus de promotion. (rit)
-
Mais en général, à ma connaissance,
-
nous n'avons pas été confronté à ça.
-
Notre stratégie dans ce cas
-
est que si une communauté ne veut pas
de ses données dans une base de données,
-
nous les supprimons.
-
(intervenant·e 5) Nous avons abordé
le sujet dans Wikidata et Wikipedia...
-
- Ah bon ?
- (intervenant·e 5) Dans les commentaires.
-
- Vraiment ?
- (intervenant·e 5) Ça pose problème.
-
J'imagine, oui, surtout pour
des commentaires sur des photos ou autres.
-
(intervenant·e 5) Exactement.
-
(intervenant·e 6) J'ai une question
sur le crowdsourcing.
-
Pour ce qui est de demander
à une communauté
-
d'annoter ou d'entrer des données
dans un ensemble de données,
-
ce qui peut être intimidant
en tant qu'éditeur
-
c'est que je ne peux
voir que ce qui manque.
-
Mais si je vais y consacrer du temps
ayant une idée claire en tête,
-
que certains éléments sont prioritaires,
-
ça devient très motivant.
-
Je me demandais
si vous aviez un système qui...
-
Nous sommes conscients
des lacunes dans nos données,
-
les preuves linguistiques montrent
que si ces lacunes-là
-
avaient été annotées,
elles auraient un impact élevé.
-
J'imagine donc
-
qu'avoir le lexème correspondant
à « maison » est important,
-
plus important que le lexème
correspondant à « donnée » ou autre.
-
Je me demandais si vous aviez
un système pour ça,
-
si ça peut encourager les efforts
de ces communautés.
-
Bonne question.
-
Wikidata a beaucoup de...
-
Pardon, PanLex a beaucoup
de listes Swadesh.
-
Il parait qu'on a la plus vaste collection
de listes Swadesh au monde,
-
ce qui est intéressant.
-
Si vous ne savez pas
ce qu'est une liste Swadesh,
-
c'est une liste normalisée
d'éléments lexicaux
-
pouvant être utilisée
dans l'analyse des langues.
-
Elles contiennent des ensembles
de mots très basiques.
-
Il y a quelques différents types
de listes Swadesh.
-
Elles contiennent toutefois
100 ou 213 éléments
-
dont des mots comme
-
« maison » ou « œil » ou « peau »,
-
des mots généraux
-
que l'on trouve dans toutes les langues.
-
C'est un bon point de départ
-
pour avoir accès à ce genre de données.
-
Je le disais tout à l'heure,
-
nous ne faisons pas
de crowdsourcing pour le moment
-
et nous sommes très enthousiastes
à l'idée de pouvoir le faire un jour.
-
J'aimerais vraiment discuter de ce sujet
avec les personnes présentes,
-
de la manière dont
le crowdsourcing peut être utilisé
-
et la logistique impliquée,
-
c'est le genre de questions qui se posent.
-
Ce que je peux vous dire
-
c'est que nous avons
une liste de priorités...
-
En fait, nous avons effectivement
une liste de priorités
-
quant aux langues que nous recherchons.
-
Nous commençons par rechercher les langues
-
qui ne sont pas inclues
dans les solutions technologiques
-
et qui sont le plus souvent,
disons généralement,
-
des langues minoritaires,
-
et les privilégions.
-
En ce qui concerne
les éléments lexicaux isolés,
-
et du moment que c'est sous cette forme
que nous récoltons les nouvelles données,
-
il s'agit principalement d'ingérer
la totalité d'un dictionnaire.
-
Nous nous référons
au choix des éléments lexicaux
-
du dictionnaire, plutôt que
de rechercher le terme « maison »
-
dans chaque langue.
-
Pour ce qui est du crowdsourcing,
-
nous avons besoin
de quelque chose de similaire.
-
C'est une opportunité
de recherche et de développement.
-
(intervenant·e 7) Bonjour, je m'appelle
Victor et tout ceci est génial.
-
Par rapport à vos diapositives...
-
Pouvez-vous élaborer
sur la situation technique
-
où circulent les informations
entre Wikidata et PanLex
-
en place actuellement ?
-
Est-ce une situation déjà établie
-
ou sinon, comment faites-vous
-
en termes d'échange
ou de retour d'informations
-
entre PanLex et Wikidata ?
-
Nous n'avons pas de relation officielle
avec Wikidata actuellement
-
et encore une fois, je suis très content
-
de pouvoir aborder ce sujet
dans le cadre de cette conférence.
-
Nous avons eu quelques échanges
avec Wikitionary
-
mais honnêtement, Wikidata
serait une meilleure solution
-
pour le travail que nous faisons.
-
Avoir un accès direct
aux informations lexicales
-
signifie que nous auront moins
-
d'analyse et d'extraction
de données à faire.
-
Nous ne collaborons pas encore
mais nous espérons le faire.
-
(intervenant·e 7) Si ça ne se fait pas,
quels obstacles prévoyez-vous ?
-
Visiblement, Wikidata
prend en compte plusieurs langues,
-
mais lorsque je vais sur
« translate.panlex.org »,
-
je vois que vous travaillez
avec beaucoup de dialectes,
-
beaucoup plus que Wikidata.
-
Comment percevez-vous cet écart
-
entre la traduction lexicale d'abord,
-
telle qu'elle est appliquée,
-
et le fait d'essayer de dresser
une structure de connaissances ?
-
Schématiser des connaissances
peut s'avérer très intéressant.
-
Nous avons ardemment discuté
-
de la manière dont Wikidata
organise ses données lexicales,
-
vos données lexicales,
-
et celle dont nous organisons les nôtres.
-
Les différences subtiles qui existent
nécessitent une stratégie de modélisation,
-
certaines d'entre elles
ne seront pas automatiques
-
mais nous pourrions développer
des techniques pour y arriver.
-
Vous avez mentionné
les variantes linguistiques.
-
Nous sommes plutôt
« catégoriques » à ce sujet.
-
En d'autres termes,
si l'on porte à notre connaissance
-
que pour telle langue,
tel ou tel dialecte est parlé
-
du côté gauche de la rivière,
en Papouasie-Nouvelle-Guinée
-
et qu'une autre source nous affirme
-
que tel ou tel dialecte est parlé
du côté droit de la rivière,
-
nous les considérerons
comme deux langues à part,
-
et ce, pour préserver au mieux
les données que nous avons.
-
Pouvoir structurer tout ça
à la manière de Wikidata...
-
Ce que j'aimerais vraiment c'est discuter
-
de la manière dont les langues
-
sont désignées sur Wikidata.
-
Encore une fois, notre stratégie
est une stratégie de séparation.
-
Nous utilisons des codes ISO 6393
-
fournis par l'Ethnologue,
-
puis prévoyons plusieurs variantes
pour chaque code,
-
que ce soit pour les variantes écrites,
-
les dialectes régionaux
ou les sociolectes.
-
Là encore, la discussion est ouverte
et la collaboration est possible.
-
(femme 3) Bonjour, j'aimerais savoir
si vous avez un pipeline ROC
-
parce que nous avons essayé la ROC
pour les langues mayas
-
sans succès.
-
Ça ne comprend rien...
-
- Oui ! (rit)
- (intervenant·e 8) Oui...
-
Si vos pipelines sont disponibles...
-
Autre chose, à propos
du chevauchement des codes ISO,
-
on entend parfois :
-
« Ceci est une langue,
celle-ci en est une autre, »
-
d'autres sources disent autre chose,
-
comme vous le dites,
alors qu'elles se chevauchent.
-
Comment procédez-vous ?
-
Très bonne question.
-
J'apprécie énormément.
-
Nous n'avons pas de pipeline ROC
à proprement parler,
-
nous procédons source par source.
-
C'est parce que nous avons souvent
-
des sources qui ne nécessitent pas de ROC
-
et qui sont disponibles
pour certaines de ces langues.
-
Nous nous concentrons là-dessus
parce qu'elles demandent moins de travail.
-
Mais si nous voulons
nous intéresser de plus prêt
-
à l'une des sources
que nous avons accumulées,
-
nous devrons développer
des pipelines ROC solides.
-
Il y aussi le fait que,
comme vous l'avez mentionné,
-
ceux qui ont conçu les logiciels ROC
-
ne réalisent pas à quel point
-
ils peuvent être soumis
à des épreuves sous contraintes.
-
Et vous savez le plus drôle ?
-
Soumettre un dictionnaire
russe - tibétain à une ROC.
-
Il s'avère que c'est très difficile...
-
Nous y avons renoncé
et avons engagé quelqu'un pour tout taper,
-
ce qui était tout à fait faisable.
-
Il parait même que
-
cette dame russe exceptionnelle
a appris le tibétain
-
justement pour pouvoir faire ce travail,
ce qui vraiment génial.
-
Je pense que si vous avez affaire
à des caractères latins,
-
des solutions ROC robustes
peuvent être développées
-
pour traiter des sources
multilingues semblables,
-
il faudra s'attendre
à y trouver un quatre aléatoire,
-
si vous avez affaire
-
à des sources mayas du XVIe siècle,
le chiffre quatre.
-
Toutefois, il y a quelques sources
-
que la ROC ne pourra probablement
jamais vraiment traiter
-
ou qui nécessitent une quantité
de travail énorme,
-
dont nous pouvons profiter
un peu maintenant.
-
Nous travaillons
sur un autre projet chez PanLex
-
dans le cadre duquel nous transcrivons
-
toute la littérature
traditionnelle de Bali.
-
Nous avons trouvé
que pour les manuscrits balinais,
-
il n'y a pas moyen d'utiliser la ROC.
-
Nous avons donc demandé
à plusieurs balinais de les taper,
-
et c'est devenu un projet culturel
sympa à Bali,
-
c'est même passé aux infos et tout.
-
Je dirais qu'on n'est pas obligé
de recourir à la ROC,
-
même s'il y a trop de choses
qui nécessiteraient cela.
-
Avoir de bonnes solutions ROC
serait idéal.
-
D'ailleurs, s'il y en a qui s'intéressent
à la ROC multilingue,
-
venez me voir après !
-
(intervenant·e 9) Merci
pour votre présentation.
-
Vous avez parlé d'intégration
-
entre PanLex et Wikidata,
-
mais vous n'avez pas vraiment
fourni de détails.
-
J'ai vérifié votre licence,
vous êtres sous CC0.
-
- Oui.
- (homme 6) C'est génial.
-
Il y a deux possibilités :
-
soit on peut importer les données
-
soit on vire vers quelque chose
de semblable à Freebase,
-
où l'on a la base de données complète
depuis Freebase
-
qu'on a importée,
pour ensuite créer un lien,
-
un identifiant externe à la base
de données Freebase.
-
Si vous avez une idée en tête,
se rapproche-t-elle de ça ?
-
Ou vous voulez simplement créer...
-
une base de données indépendante
qui pourrait être liée à Wikidata ?
-
C'est une très bonne question
-
et je pense même que
ça a une longueur d'avance
-
sur ce que j'ai en tête,
-
en partie parce que
-
faire en sorte que les deux bases
de données collaborent
-
est une étape en soi.
-
Je pense que la première étape
-
serait la mise en commun
de nos compétences.
-
Nous avons beaucoup d'expérience
-
dans la classification des propriétés
de différents lexèmes
-
que je serai ravi de partager.
-
Mais lier les deux bases de données
serait formidable.
-
J'en suis parfaitement sûr.
-
Je pense que ce serait plus facile
-
de lier Wikidata à PanLex,
-
c'est peut-être subjectif de ma part
parce que je sais que ça peut marcher.
-
En fait, du moment
que Wikidata est satisfait
-
en ce qui concerne la licence,
ou que nous trouvons un arrangement,
-
ce serait une très bonne idée.
-
Il ne nous reste plus qu'à trouver
-
des moyens de lier
les données elles-mêmes.
-
Ce serait vraiment bien que
les modifications effectuées sur Wikidata
-
puissent immédiatement alimenter
la base de données PanLex,
-
sans avoir à réingérer...
-
et donc faire de Wikidata
une interface collaborative pour PanLex
-
serait vraiment génial.
-
La possibilité d'utiliser PanLex
pour des traductions immédiates,
-
d'effectuer des traductions à travers
les éléments lexicaux de Wikidata...
-
ce serait magnifique.
-
(intervenant·e 10) On dirait le processus
de vérification de la toile sémantique
-
pour combler des vides par interférence.
-
Si on réfléchit un peu plus
à ce genre de traduction,
-
comment gérez-vous les non-concordances
-
sémantiques et grammaticales ?
-
Par exemple, si vous essayez de traduire
quelque chose en allemand,
-
vous pouvez placer des mots ensemble
-
et avoir un résultat qui ait du sens,
-
mais d'un autre côté, j'ai lu que...
-
parfois, les langues ont
des systèmes granulaires différents
-
pour les couleurs, par exemple.
-
Vous dites que tous les systèmes
-
sont différents ou similaires ?
-
(intervenant·e 10) Je pense qu'il s'agit
plutôt de l'évolution des langues
-
où on ne désignait
que le noir et le blanc...
-
Oui, la hiérarchie des couleurs.
-
La hiérarchie des couleurs
-
est un bon moyen d'illustrer
comment ça marche.
-
Quand vous n'avez
qu'une seule langue pivot...
-
C'est très intéressant de lire des études
sur les traductions automatiques
-
où l'on mentionne souvent
l'existence d'une langue pivot théorique,
-
« il y a une langue pivot » lira-t-on,
-
ensuite il s'avère que c'est l'anglais.
-
À travers cette forme
de traduction lexicale,
-
le croisement de plusieurs langues
intermédiaires différentes
-
peut amener une meilleure gestion
de l’ambiguïté sémantique.
-
Du moment que le croisement
se fait à travers des langues
-
ayant des limites sémantiques
plutôt similaires,
-
vous pourrez éviter
-
d'introduire de l'ambiguïté sémantique
à travers une langue pivot.
-
Si on utilise la hiérarchie
des couleurs comme exemple,
-
si l'on prend une langue
-
qui a un seul terme
pour désigner le bleu et le vert
-
et le traduit en bleu
-
dans votre langue pivot unique
-
puis dans une autre langue différente
-
qui comporte des ambiguïtés différentes,
-
vous finirez par instaurer
une ambiguïté sémantique.
-
Mais si le croisement se fait
avec des langues
-
qui n'ont également qu'un seul
élément lexical pour le vert et le bleu,
-
la spécificité sémantique
-
est transmise à la langue cible.
-
En ce qui concerne
les caractéristiques grammaticales,
-
PanLex a collecté principalement
des lexèmes, des formes lexicales,
-
au cours de son histoire.
-
Je veux dire par là
-
les mots que vous trouvez
dans un dictionnaire.
-
Nous ne nous préoccupons pas
pour le moment
-
de recueillir des formes
de variantes grammaticales,
-
comme les données [inaudible], etc.
-
ou les formes conjuguées
du passé et du présent.
-
Mais nous y réfléchissons.
-
Autre chose qu'il est important
de se rappeler,
-
c'est que notre attention...
-
est portée sur les langues minoritaires
défavorisées et menacées,
-
nous visons la disponibilité
-
avant la perfection.
-
J'aime beaucoup le dicton :
-
« Le mieux est l'ennemi du bien »
-
c'est ce que nous comptons faire.
-
Mais l'idée de pouvoir manipuler
les formes grammaticales
-
et de pouvoir traduire
à travers les formes grammaticales,
-
nous intéresse beaucoup,
-
ce sont des choses
que nous avons étudiées
-
mais pas encore implémentées.
-
(intervenant·e 11) Donc sur ces 7 500 langues,
-
je suppose que vous utilisez
des dictionnaires conçus pour nous,
-
mais toutes ces langues ont-elles
des formes écrites standardisées ?
-
Comment faites-vous pour... ?
-
C'est une très bonne question.
-
Oui, beaucoup de ces langues,
-
vous le savez, n'ont pas de forme écrite.
-
Toutefois, toute langue pour laquelle
un dictionnaire a été conçu
-
possède une orthographe,
-
nous nous basons sur l'orthographe
conçue pour le dictionnaire.
-
Nous ajustons un peu l'orthographe parfois
-
dans la garantie
qu'il n'y ait pas de pertes.
-
Nous essayons d'éviter cela
autant que possible.
-
Nous ne nous mettons pas
-
à développer des orthographes
pour des langues,
-
parce qu'elles ne se sont pas
développées,
-
et même si elles ne sont pas
rendues publiques.
-
Par exemple,
-
pour les diverses langues parlées
en Nouvelle-Guinée,
-
il se peut qu'il n'y ait pas
d'orthographe commune,
-
mais certains linguistes les inventent
-
et c'est une bonne initiative.
-
Nous recueillons aussi
les formes phonétiques
-
si elles sont disponibles
dans les dictionnaires,
-
et c'est une autre façon de faire,
-
une représentation d'un mot selon l'API
-
si possible.
-
On pourrait utiliser ça aussi.
-
Mais on ne s'en sert pas comme pivot
-
parce que ça instaure des ambiguïtés.
-
(intervenant·e 12) Merci,
c'est peut-être une question bête
-
mais est-ce les seules langues
intermédiaires que vous utilisez ?
-
Non, non.
-
(intervenant·e 12) D'accord, merci.
-
Merci d'avoir posé la question.
-
Ceci est une capture d'écran
de « translate.panlex.org ».
-
Si vous effectuez une traduction,
-
vous aurez une liste
de traductions à droite.
-
Vous cliquez sur le bouton « ... »,
vous obtenez cette figure.
-
Cela montre les langues intermédiaires,
-
les 20 premières selon le score,
-
je pourrais vous en dire plus
-
mais ce n'est pas très important,
-
donc les langues utilisées selon le score.
-
Mais pour effectuer la traduction,
nous en utilisons plus que 20.
-
Je me limite à 20
parce que s'il y en a plus...
-
en fait, c'est une sorte
de simulation physique,
-
vous pouvez la faire bouger et elle remue.
-
S'il y a plus de 20 langues,
votre ordinateur en devient fou.
-
C'est plus une démonstration
qu'autre chose.
-
(femme 5) Je suis Leila,
de la fondation Wikimedia.
-
Une remarque à propos de...
-
Vous avez mentionné
la fondation Wikimedia
-
quelques fois dans votre présentation,
-
si vous voulez faire
de l'ingestion de données
-
ou que vous voulez collaborer
avec Wikidata,
-
peut-être que Wikimedia Deutschland
serait l'endroit plus approprié
-
pour ce genre d'échange ?
-
Wikidata fait partie
de Wikimedia Deutschland,
-
leurs équipes sont en Allemagne,
-
et la communauté de bénévoles de Wikidata
-
serait l'endroit idéal pour aborder
-
tout ce qui a trait aux ingestions
-
ou au rapprochement de PanLex à Wikidata.
-
Très bien, merci beaucoup,
-
Honnêtement, je ne connais pas bien
-
les subtilités de l'architecture
des projets
-
et la manière dont ils se relient.
-
D'après vos rires, c'est compliqué.
-
En fait, nous aimerions discuter
-
avec les responsables de Wikidata.
-
En gros, tous ceux qui sont responsables
-
de Wikidata nous intéressent,
-
c'est-à-dire vous tous bénévoles.
-
D'autres questions ?
-
Bon, si vous avez d'autres questions
sur ce que j'ai dit, sur autre chose,
-
ou sur les détails et les spécificités
de certaines choses,
-
venez m'en dire deux mots,
je suis à l'écoute.
-
Surtout si vous travaillez
avec les lexiques,
-
ou quoi que ce soit impliquant
des langues minoritaires menacées
-
ou défavorisées,
-
ou l'Unicode,
je travaille dessus également.
-
Merci beaucoup
-
et merci de m'avoir invité
à prendre la parole,
-
j'espère que vous avez apprécié
cette présentation.
-
(applaudissements)