< Return to Video

cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4

  • 0:06 - 0:09
    Il existe environ 7 500 langues
  • 0:09 - 0:11
    parlées dans le monde aujourd'hui.
  • 0:12 - 0:16
    On estime qu'environ 70 % d'entre elles
  • 0:16 - 0:20
    risquent de disparaître
    d'ici la fin du XXIe siècle.
  • 0:22 - 0:24
    La mort d'une langue
  • 0:25 - 0:27
    est la rupture d'un lien
  • 0:27 - 0:31
    qui a duré des centaines
    voire des milliers d'années,
  • 0:31 - 0:35
    un lien avec la culture, avec l'histoire,
  • 0:35 - 0:38
    avec les traditions et le savoir.
  • 0:39 - 0:42
    Le linguiste Kenneth Hale a dit
  • 0:42 - 0:44
    que la mort d'une langue
  • 0:44 - 0:47
    serait comme larguer
    une bombe en plein Louvre.
  • 0:49 - 0:52
    On se demande alors :
  • 0:53 - 0:55
    pourquoi les langues meurent-elles ?
  • 0:56 - 1:00
    Une réponse simple serait que
  • 1:00 - 1:03
    les gouvernements autoritaires
  • 1:03 - 1:05
    interdisent aux peuples
    de parler leur langue natale,
  • 1:06 - 1:10
    punissent les enfants
    s'ils le font à l'école,
  • 1:10 - 1:14
    ou ferment les stations de radio
    de langues minoritaires.
  • 1:15 - 1:17
    Cela s'est déjà produit
  • 1:17 - 1:19
    et se produit encore aujourd'hui
    dans une certaine mesure.
  • 1:20 - 1:23
    Pour être honnête,
  • 1:23 - 1:27
    dans la grande majorité des cas
    de disparition des langues,
  • 1:27 - 1:29
    la réponse est beaucoup plus simple
  • 1:29 - 1:33
    et beaucoup plus facile à expliquer.
  • 1:34 - 1:36
    Les langues meurent
  • 1:36 - 1:39
    parce qu'elles ne sont pas transmises
    d'une génération à une autre.
  • 1:42 - 1:46
    Lorsqu'un locuteur d'une langue
    minoritaire a des enfants,
  • 1:47 - 1:50
    une équation s'impose à lui.
  • 1:51 - 1:53
    Il se demande...
  • 1:54 - 1:56
    s'il doit transmettre
    sa langue natale à ses enfants
  • 1:57 - 2:01
    ou s'il doit se limiter
    à leur apprendre la langue majoritaire.
  • 2:01 - 2:03
    En fait, dans sa tête,
  • 2:04 - 2:06
    il se représente une balance
  • 2:07 - 2:08
    qui, d'un côté,
  • 2:09 - 2:14
    chaque fois que l'opportunité
    d'utiliser sa langue natale se présente
  • 2:15 - 2:19
    pour communiquer ou pour aborder
    un aspect de la culture traditionnelle
  • 2:20 - 2:22
    une pierre est placée du côté gauche,
  • 2:22 - 2:26
    et dès qu'il se retrouve incapable
    de parler sa langue natale
  • 2:26 - 2:28
    et obligé de parler la langue majoritaire,
  • 2:28 - 2:30
    une pierre est placée du côté droit.
  • 2:32 - 2:35
    Étant donné le sentiment
    de force et de dignité
  • 2:35 - 2:37
    que confère le fait
    de parler sa langue natale,
  • 2:37 - 2:39
    les pierres du côté gauche
    ont tendance à peser plus lourd.
  • 2:39 - 2:42
    Mais s'il y a assez de pierres à droite,
  • 2:43 - 2:45
    la balance penchera
    forcément de ce côté-là,
  • 2:45 - 2:49
    et lorsqu'une personne décide
    de transmettre sa langue,
  • 2:49 - 2:51
    elle considère sa propre langue
  • 2:51 - 2:53
    comme un fardeau
    plutôt qu'une bénédiction.
  • 2:55 - 2:59
    Comment donc inverser cela ?
  • 2:59 - 3:02
    Il faut d'abord s'interroger...
  • 3:03 - 3:07
    sur les sphères sociales
    dans lesquelles une langue donnée
  • 3:07 - 3:08
    peut être parlée.
  • 3:08 - 3:11
    Toutes les langues natales
    parlées de nos jours
  • 3:11 - 3:13
    peuvent être parlées au sein des familles.
  • 3:14 - 3:17
    Un ensemble limité de langues peuvent
    être parlées au sein des communautés,
  • 3:17 - 3:19
    un autre encore plus limité
    au niveau régional,
  • 3:19 - 3:22
    et seulement une poignée de langues
  • 3:22 - 3:25
    sont utilisées dans le cadre
    de communications internationales.
  • 3:26 - 3:29
    Même au sein de ces sphères,
  • 3:29 - 3:32
    on se demande si l'on peut utiliser
    telle ou telle langue
  • 3:32 - 3:36
    à des fins éducatives, commerciales
  • 3:36 - 3:38
    ou dans le domaine de la technologie.
  • 3:39 - 3:42
    Pour mieux illustrer
  • 3:43 - 3:45
    ce que je veux dire,
  • 3:45 - 3:46
    j'aimerais me servir d'une anecdote.
  • 3:48 - 3:50
    Disons que vous partez bientôt
  • 3:50 - 3:52
    pour des vacances de rêve en Inde
  • 3:53 - 3:56
    et que vous avez huit heures
    d'escale à Istanbul.
  • 3:57 - 4:01
    Vous n'aviez pas vraiment prévu
    de visiter la Turquie
  • 4:01 - 4:04
    mais vous avez un ami turque
  • 4:04 - 4:06
    qui vous propose de découvrir
    un bon restaurant
  • 4:06 - 4:07
    pas très loin de l'aéroport,
  • 4:08 - 4:11
    vous vous dites : « J'y ferai un tour
    durant mon escale. »
  • 4:11 - 4:13
    Vous quittez l'aéroport,
  • 4:14 - 4:15
    vous allez à votre restaurant,
  • 4:15 - 4:17
    et on vous donne le menu
  • 4:17 - 4:19
    qui se trouve être entièrement en turc.
  • 4:20 - 4:23
    Disons qu'à titre d'exemple,
  • 4:23 - 4:24
    vous ne parlez pas turc.
  • 4:25 - 4:27
    Que faites-vous ?
  • 4:28 - 4:30
    Si vous avez de la chance,
  • 4:30 - 4:32
    vous trouverez peut-être quelqu'un
    qui parle votre langue natale,
  • 4:32 - 4:34
    l'allemand, l'anglais, etc.
  • 4:36 - 4:38
    Mais supposons que ce ne soit pas
    votre jour de chance
  • 4:38 - 4:41
    et que personne dans le restaurant
    ne parle allemand ou anglais.
  • 4:42 - 4:43
    Que faites-vous ?
  • 4:43 - 4:46
    Je suppose que, comme moi,
    la plupart d'entre vous
  • 4:46 - 4:48
    recourrez à la technologie,
  • 4:50 - 4:52
    à une traduction automatique
    ou un dictionnaire numérique,
  • 4:52 - 4:54
    que vous rechercherez
    chaque mot séparément
  • 4:54 - 4:58
    et finirez par commander
    un délicieux plat turque.
  • 5:00 - 5:03
    Imaginons plutôt que
  • 5:04 - 5:06
    vous parlez une langue minoritaire.
  • 5:07 - 5:09
    Le bas sorabe par exemple.
  • 5:09 - 5:11
    Le bas sorabe est une langue
    menacée d'extinction,
  • 5:11 - 5:12
    parlée ici en Allemagne,
  • 5:12 - 5:17
    à environ 130 kilomètres au sud-est,
  • 5:18 - 5:21
    par quelques milliers de personnes,
    âgées pour la plupart.
  • 5:23 - 5:25
    Disons que le bas sorabe
    est votre langue natale.
  • 5:25 - 5:27
    Vous êtes dans le restaurant.
  • 5:27 - 5:28
    Les chances d'y trouver quelqu'un
  • 5:28 - 5:31
    qui parle votre langue natale
    sont bien sûr exceptionnellement faibles.
  • 5:32 - 5:36
    Là aussi, vous pouvez avoir recours
    à la technologie.
  • 5:37 - 5:39
    Toutefois, il n'existe pas
    de solution technologique
  • 5:39 - 5:42
    adaptée à votre langue natale.
  • 5:42 - 5:45
    Vous devrez vous en remettre
    à l'allemand ou à l'anglais
  • 5:45 - 5:47
    comme langue pivot
    pour comprendre le turc.
  • 5:49 - 5:52
    Vous réussissez bien entendu
    à commander un délicieux plat turc
  • 5:52 - 5:55
    mais vous vous demandez à quel point
    cela aurait été difficile
  • 5:55 - 5:57
    pour votre grand-père par exemple
    qui ne parle pas allemand.
  • 5:58 - 6:00
    Bien que ce ne soit qu'un petit incident,
  • 6:00 - 6:05
    la balance pencherait tout de même
    un peu plus du côté droit
  • 6:05 - 6:07
    et vous vous direz peut-être,
  • 6:07 - 6:10
    le jour où vous auriez des enfants
    ou d'autres enfants,
  • 6:11 - 6:15
    que la situation pénible
    que vous avez vécue
  • 6:15 - 6:17
    fait que continuer à utiliser
    votre langue natale soit inutile.
  • 6:19 - 6:21
    Imaginez encore si ce scénario
  • 6:21 - 6:26
    était d'une importance plus critique,
  • 6:26 - 6:28
    dans un cadre hospitalier par exemple.
  • 6:31 - 6:36
    C'est sur ce point
    que nous pouvons intervenir,
  • 6:37 - 6:40
    par « nous », je veux dire
    vous et moi, ici présents.
  • 6:41 - 6:43
    Nous avons les moyens d'intervenir.
  • 6:45 - 6:47
    Si des outils technologiques
    sont accessibles
  • 6:47 - 6:49
    aux locuteurs de langues
    minoritaires ou défavorisées,
  • 6:51 - 6:54
    la balance pencherait
    légèrement du côté gauche.
  • 6:54 - 6:56
    Personne ne se dit forcément
  • 6:56 - 6:58
    qu'il doit parler une langue minoritaire
  • 6:58 - 6:59
    pour pouvoir interagir avec le monde,
  • 7:00 - 7:06
    les sphères sociales
    en seraient plus ouvertes.
  • 7:08 - 7:10
    La solution idéale serait bien sûr
  • 7:10 - 7:13
    d'avoir accès à la traduction automatique
    dans toutes les langues du monde.
  • 7:13 - 7:17
    Malheureusement, ce n'est
    tout bonnement pas possible.
  • 7:17 - 7:20
    La traduction automatique nécessite
    un vaste corpus de textes
  • 7:20 - 7:21
    et pour beaucoup de ces langues
  • 7:21 - 7:23
    qui sont en voie de disparition
    ou défavorisées,
  • 7:23 - 7:25
    ces données ne sont pas disponibles.
  • 7:26 - 7:28
    Certaines de ces langues
    ne sont même pas écrites
  • 7:29 - 7:31
    ce qui rend la collecte de données
  • 7:31 - 7:33
    pour alimenter un moteur
    de traduction automatique
  • 7:33 - 7:34
    peu probable.
  • 7:34 - 7:38
    Ce qui est accessible par contre,
    sont les données lexicales.
  • 7:40 - 7:43
    Grâce aux travaux de plusieurs linguistes
  • 7:43 - 7:45
    au cours des derniers siècles,
  • 7:48 - 7:50
    des dictionnaires
    et des grammaires ont été créés
  • 7:50 - 7:52
    pour la plupart des langues du monde.
  • 7:54 - 7:57
    Malheureusement, la plupart de ces travaux
  • 7:57 - 8:01
    ne sont pas accessibles au monde,
  • 8:01 - 8:04
    encore moins aux populations
    parlant ces langues minoritaires.
  • 8:05 - 8:06
    Ce n'est pas un processus délibéré,
  • 8:06 - 8:11
    il s'agit souvent d'une première édition
    limitée de ces dictionnaires
  • 8:11 - 8:14
    et les seules copies qui existent
  • 8:14 - 8:16
    moisissent quelque part
    dans une librairie universitaire.
  • 8:18 - 8:21
    Mais nous pouvons
    nous emparer de ces données
  • 8:21 - 8:23
    et les rendre accessibles à tous.
  • 8:24 - 8:28
    La fondation Wikimedia
    compte parmi les meilleures,
  • 8:28 - 8:31
    si ce n'est la meilleure au monde,
  • 8:31 - 8:33
    organisations à rendre
    accessibles des données
  • 8:33 - 8:37
    à la majorité des populations du monde.
  • 8:39 - 8:40
    Penchons-nous sur cette question.
  • 8:41 - 8:45
    Pour expliquer un peu
    notre travail à ce sujet,
  • 8:45 - 8:48
    j'aimerais vous présenter
    mon organisation PanLex,
  • 8:49 - 8:52
    le but de cette organisation
  • 8:52 - 8:54
    est de collecter des données lexicales
    pour les rendre accessibles.
  • 8:55 - 8:57
    Tout a commencé il y a 12 ans
  • 8:57 - 9:00
    à l'université de Washington,
    dans le cadre d'un projet de recherche.
  • 9:00 - 9:02
    L'idée était de démontrer
    qu'on pouvait créer
  • 9:02 - 9:04
    un outil de traduction efficace
  • 9:04 - 9:07
    à partir de traductions « induites »,
  • 9:07 - 9:09
    un outil de traduction lexical
    pour ainsi dire.
  • 9:09 - 9:12
    Voici un exemple tiré
    des données de PanLex.
  • 9:12 - 9:14
    C'est pour vous montrer comment traduire
  • 9:14 - 9:18
    le mot « ev » qui veut dire
    « maison » en turc,
  • 9:18 - 9:20
    en bas sorabe,
  • 9:20 - 9:21
    la langue dont je vous parlais
    tout à l'heure.
  • 9:21 - 9:23
    C'est très peu probable de trouver
  • 9:24 - 9:26
    des dictionnaires turc - bas sorabe,
  • 9:26 - 9:28
    mais en croisant le terme
  • 9:28 - 9:30
    avec plusieurs langues
    intermédiaires différentes,
  • 9:30 - 9:33
    on peut créer des traductions efficaces.
  • 9:34 - 9:37
    Quand on a présenté ça
    pour les projets de recherche,
  • 9:37 - 9:40
    le fondateur de PanLex,
    Dr. Jonathan Pool,
  • 9:41 - 9:44
    s'est dit : « Pourquoi
    ne ferait-on pas ça ? »
  • 9:44 - 9:46
    Il a donc lancé une organisation
    à but non lucratif
  • 9:46 - 9:49
    pour collecter le plus données lexicales
    possibles et les rendre accessibles.
  • 9:49 - 9:51
    Ça a été notre travail pendant
    les 12 dernières années.
  • 9:51 - 9:55
    Durant ce temps, nous avons collecté
    des milliers de dictionnaires,
  • 9:55 - 9:58
    en avons extrait des données lexicales,
    et compilé une base de données
  • 9:58 - 10:01
    qui dispense des traductions
    lexicales inférées
  • 10:01 - 10:04
    entre...
  • 10:04 - 10:06
    on compte présentement 5 500 langues
  • 10:06 - 10:08
    sur les 7 500 langues
    parlées dans le monde.
  • 10:09 - 10:11
    Évidemment,
  • 10:11 - 10:13
    nous tendons continuellement
    à élargir cette base de données
  • 10:13 - 10:15
    et à enrichir les données
    de chaque langue.
  • 10:17 - 10:21
    La question qui se pose ensuite
  • 10:22 - 10:26
    est comment pouvons-nous
    collaborer là-dessus ?
  • 10:26 - 10:29
    Chez PanLex, nous observons
    le développement des données lexicales
  • 10:29 - 10:31
    sur lequel travaille Wikidata
  • 10:31 - 10:34
    avec beaucoup d'enthousiasme.
  • 10:35 - 10:38
    C'est très fascinant
    de voir des organisations
  • 10:38 - 10:39
    travailler sur des aspects différents
  • 10:39 - 10:41
    d'une sphère similaire.
  • 10:42 - 10:44
    Nous attendons avec impatience
  • 10:45 - 10:46
    d'en voir les résultats.
  • 10:46 - 10:51
    Nous sommes également impatients
    de collaborer avec Wikidata.
  • 10:54 - 10:56
    Je pense que les compétences spécifiques
  • 10:56 - 10:58
    que nous avons développées
    depuis les 12 dernières années,
  • 10:58 - 11:00
    non seulement en collectant
    des données lexicales
  • 11:00 - 11:02
    mais dans la conception
    de notre base de données,
  • 11:02 - 11:04
    peuvent être très utiles pour Wikidata.
  • 11:04 - 11:07
    D'autre part, je pense que...
  • 11:08 - 11:11
    Les compétences de Wikidata
  • 11:12 - 11:15
    dans le crowdsourcing des données
    sont très prometteuses.
  • 11:15 - 11:18
    Les sources actuelles de PanLex
  • 11:18 - 11:21
    sont des sources lexicales
    imprimées ou autres,
  • 11:21 - 11:23
    mais nous ne faisons pas
    de crowdsourcing.
  • 11:23 - 11:25
    Notre infrastructure ne nous le permet pas
  • 11:25 - 11:27
    et la fondation Wikimedia
  • 11:27 - 11:29
    est l'expert mondial du crowdsourcing.
  • 11:30 - 11:34
    Je suis impatient de collaborer
  • 11:34 - 11:36
    pour mettre en pratique ces compétences.
  • 11:39 - 11:41
    Mais le plus important je pense,
  • 11:41 - 11:43
    est le fait que dans notre travail,
  • 11:43 - 11:45
    le moindre détail compte.
  • 11:45 - 11:48
    Nous avons passé des heures
    à examiner des formes grammaticales,
  • 11:48 - 11:52
    à feuilleter des dictionnaires
    mordernes ou ancients,
  • 11:52 - 11:54
    parfois même des dictionnaires
    récemment publiés,
  • 11:54 - 11:57
    et à s'attaquer
    à la forme écrite des mots.
  • 11:57 - 12:00
    Ça a l'air très méticuleux.
  • 12:00 - 12:03
    Or, parfois, nous devons nous rappeler
    que nous devons prendre du recul
  • 12:03 - 12:05
    dans le sens où même si cela...
  • 12:06 - 12:09
    peut parfois paraître banal,
  • 12:10 - 12:12
    notre travail est extrêmement important.
  • 12:13 - 12:16
    Je pense que c'est l'ultime moyen
  • 12:16 - 12:19
    de soutenir les langues menacées
  • 12:19 - 12:21
    et de nous assurer que
    la diversité linguistique de la planète
  • 12:21 - 12:26
    survive jusqu'à la fin de ce siècle
    voire longtemps plus tard.
  • 12:26 - 12:30
    Il est tout à fait possible
    que notre travail aujourd'hui
  • 12:30 - 12:35
    contribue à la préservation,
    à la transmission, et à la survie
  • 12:35 - 12:37
    des langues menacées.
  • 12:39 - 12:41
    Gardez donc à l'esprit
  • 12:41 - 12:43
    que si vous utilisez sur votre ordinateur
  • 12:43 - 12:44
    pour saisir une donnée
  • 12:44 - 12:50
    et que vous ajoutez les formes
    de données d'une langue minoritaire
  • 12:50 - 12:52
    correspondant à chaque non,
  • 12:52 - 12:55
    le travail insignifiant
    que vous faites en ce moment
  • 12:55 - 12:59
    peut contribuer à faire en sorte
    que cette langue survive
  • 12:59 - 13:01
    jusqu'à la fin du siècle
    voire plus longtemps.
  • 13:03 - 13:04
    Merci beaucoup,
  • 13:04 - 13:06
    je vais maintenant
    prendre des questions.
  • 13:06 - 13:08
    (applaudissements)
  • 13:24 - 13:25
    (intervenant·e 1) Merci.
  • 13:25 - 13:27
    - Merci pour votre intervention.
    - Merci à vous.
  • 13:27 - 13:29
    J'ai une question
    concernant les dictionnaires.
  • 13:29 - 13:31
    Vous travaillez avec
    des dictionnaires papier, n'est-ce pas ?
  • 13:31 - 13:32
    - Oui.
    - J'aimerais savoir
  • 13:32 - 13:35
    ce que vous en prélevez
  • 13:35 - 13:38
    et s'il y a des soucis de droits d'auteur
    à prendre en compte.
  • 13:38 - 13:41
    J'étais sûr que ce serait
    la première question qu'on me poserait.
  • 13:41 - 13:43
    (rires)
  • 13:43 - 13:46
    Alors, chez PanLex,
  • 13:46 - 13:50
    selon les références légales
    que nous avons consultées,
  • 13:53 - 13:56
    bien que l'agencement
    et la structure d'un dictionnaire
  • 13:56 - 13:57
    soient soumis à des droits d'auteur,
  • 13:57 - 14:03
    la traduction en tant que telle
    ne l'est pas.
  • 14:04 - 14:07
    Un annuaire par exemple
  • 14:07 - 14:09
    est soumis à des droits d'auteur,
  • 14:09 - 14:12
    du moins selon la loi américaine.
  • 14:12 - 14:16
    Mais dire que le numéro
    de téléphone d'un Untel
  • 14:16 - 14:18
    est tel numéro ne l'est pas.
  • 14:22 - 14:23
    Comme je l'ai dit,
  • 14:23 - 14:25
    selon nos experts juridiques,
  • 14:25 - 14:27
    on peut aborder les choses
    sous cet angle-là.
  • 14:27 - 14:31
    Même si cet argument légal
    n'est pas assez solide,
  • 14:31 - 14:32
    il est important de garder à l'esprit
  • 14:32 - 14:38
    que la grande majorité
    de ces données lexicales
  • 14:39 - 14:41
    sont libres de droits.
  • 14:41 - 14:43
    Un nombre important
    de ces données sont libres de droits
  • 14:43 - 14:44
    et peuvent être librement utilisées.
  • 14:44 - 14:47
    En plus, la plupart du temps,
  • 14:47 - 14:50
    lorsqu'on travaille avec
    un dictionnaire papier récent,
  • 14:50 - 14:52
    plutôt que de le scanner
    ou de le passer à la ROC,
  • 14:52 - 14:54
    nous envoyons un email
    à la personne qui l'a conçu.
  • 14:54 - 14:58
    Il se trouve que la plupart
    des linguistes sont très contents
  • 14:58 - 15:00
    que leurs données puissent
    êtres rendues accessibles.
  • 15:00 - 15:02
    « Bien sûr, allez-y, prenez tout
    et rendez-le accessible. »
  • 15:02 - 15:04
    vous diront-ils.
  • 15:06 - 15:08
    Et donc selon nos experts juridiques,
  • 15:08 - 15:09
    nous avons au moins
    cette possibilité,
  • 15:09 - 15:12
    et même si vous n'êtes pas
    d'accord avec ça non plus,
  • 15:12 - 15:16
    Les données sont facilement
    accessibles au public.
  • 15:26 - 15:28
    - (intervenant·e 2) Merci. Bonjour.
    - Bonjour.
  • 15:28 - 15:30
    Pouvez-vous élaborer
  • 15:30 - 15:33
    sur la manière dont une personne
    qui parle le bas sorabe
  • 15:33 - 15:35
    puisse accéder aux données ?
  • 15:35 - 15:38
    Plus précisément sur la manière
    dont ces informations leur parviennent
  • 15:38 - 15:41
    et peuvent même les convaincre
  • 15:41 - 15:43
    soit pour essayer...
  • 15:43 - 15:45
    Très bonne question,
  • 15:45 - 15:46
    j'y réfléchis beaucoup également
  • 15:46 - 15:50
    parce que je pense que
    lorsqu'il s'agit d'accès aux données,
  • 15:50 - 15:53
    cela se fait sur plusieurs étapes.
  • 15:53 - 15:56
    La conservation des données en est une,
    il faut s'assurer de les préserver.
  • 15:56 - 15:59
    Deuxièmement, il faut
    qu'elles soient interopérables
  • 15:59 - 16:02
    et donc utilisables.
  • 16:02 - 16:05
    Troisièmement, il faut
    qu'elles soient accessibles.
  • 16:06 - 16:07
    Dans le cas de PanLex,
  • 16:07 - 16:10
    nous pouvons utiliser une API
  • 16:10 - 16:12
    mais l'utilisateur final n'y a
    évidement pas accès.
  • 16:12 - 16:15
    Nous avons également
    développé des interfaces.
  • 16:15 - 16:20
    Par exemple, si vous allez sur
    « translate.panlex.org »,
  • 16:20 - 16:23
    vous pouvez effectuer des traductions
    sur notre base de données.
  • 16:23 - 16:26
    Si vous voulez vous amuser un peu
    avec l'API, allez sur « dev.panlex.org »
  • 16:26 - 16:29
    ou sur « api.palnex.org »
    et vous y trouverez plein de choses.
  • 16:31 - 16:33
    Une autre étape à prendre en compte
  • 16:33 - 16:37
    est que même si vous rendez
    toutes vos données accessibles
  • 16:37 - 16:41
    avec des outils très pratiques
    permettant leur accessibilité,
  • 16:41 - 16:43
    si vous ne promouvez pas ces outils,
  • 16:43 - 16:45
    personne ne pourra utiliser ces données.
  • 16:45 - 16:47
    Pour être honnête,
  • 16:49 - 16:51
    cet aspect n'est pas suffisamment abordé
  • 16:51 - 16:53
    et je ne peux pas vous donner
    la réponse adéquate.
  • 16:53 - 16:55
    Comment peut-on être sûr...
  • 16:55 - 16:57
    Disons par exemple
    que je n'ai connu Wikidata
  • 16:57 - 17:00
    que très récemment,
    quelques années auparavant,
  • 17:00 - 17:02
    et c'est le genre de choses
    qui m'intéressent.
  • 17:03 - 17:07
    Comment peut-on se mettre en valeur ?
  • 17:07 - 17:09
    Laissons cette question ouverte.
  • 17:09 - 17:11
    Encore une fois, je n'ai pas
    de réponse adéquate à cette question.
  • 17:11 - 17:13
    Bien sûr, pour y arriver,
  • 17:13 - 17:15
    on doit d'abord passer par
    les premières étapes.
  • 17:22 - 17:25
    (intervenant·e 3) Si nous voulons bénéficier
    de la traduction automatique,
  • 17:25 - 17:28
    n'avons-nous pas besoin
    d'une mémoire de traduction ?
  • 17:28 - 17:31
    Je ne pense pas qu'entrer
    des termes isolés
  • 17:31 - 17:33
    dans Wikidata,
  • 17:33 - 17:37
    ces courtes propositions
    qu'on entre dans Wikidata,
  • 17:37 - 17:41
    qu'il s'agisse d'éléments ordinaires
    ou de lexèmes Wikidata,
  • 17:41 - 17:44
    suffise pour effectuer
    une traduction adéquate.
  • 17:44 - 17:47
    Nous avons besoin
    de phrases complètes...
  • 17:47 - 17:48
    (Benjamin) Absolument.
  • 17:49 - 17:51
    Où trouvons-nous
    ces structures de données ?
  • 17:51 - 17:55
    Je ne suis pas certain
  • 17:55 - 18:00
    que Wikidata puisse résoudre
  • 18:00 - 18:03
    la question de la mémoire de traduction
    pour le moment.
  • 18:04 - 18:06
    « translatewiki.net »
  • 18:06 - 18:09
    pour aborder cette lacune...
  • 18:12 - 18:15
    Doit-on agir dans ce sens ou... ?
  • 18:15 - 18:17
    Oui, merci pour votre question.
  • 18:17 - 18:19
    J'en ai parlé un peu tout à l'heure,
  • 18:19 - 18:20
    mais je le répète avec plaisir.
  • 18:21 - 18:23
    C'est la raison précise pour laquelle
  • 18:23 - 18:25
    PanLex travaille
    avec les données lexicales
  • 18:25 - 18:27
    et pour laquelle je me réjouis
    au sujet des données lexicales
  • 18:27 - 18:30
    contrairement à...
  • 18:30 - 18:32
    Plutôt en plus des moteurs
    de traduction automatique
  • 18:32 - 18:35
    et de la traduction automatique
    en général.
  • 18:36 - 18:39
    Vous l'avez dit, la traduction automatique
    nécessite des données spécifiques,
  • 18:40 - 18:43
    et ces données ne sont pas disponibles
    pour la majorité des langues du monde.
  • 18:43 - 18:45
    Pour cette grande majorité,
  • 18:45 - 18:47
    elles ne sont
    tout bonnement pas disponibles.
  • 18:47 - 18:49
    Ça ne veut pas dire que
    nous devons baisser les bras.
  • 18:49 - 18:50
    Pourquoi ?
  • 18:51 - 18:54
    Si j'ai besoin de traduire
    mon menu de restaurant turc,
  • 18:55 - 18:59
    la traduction lexicale serait
    un très bon outil.
  • 18:59 - 19:02
    Je ne dis pas qu'on peut utiliser
    la traduction lexicale
  • 19:02 - 19:05
    pour traduire des paragraphes
    à la perfection.
  • 19:05 - 19:07
    Par traduction lexicale,
    je veux dire du mot à mot,
  • 19:07 - 19:10
    et cette traduction lexicale
    peut s'avérer très utile.
  • 19:12 - 19:15
    En fait, c'est amusant,
    mais nous n'avons pas eu accès
  • 19:15 - 19:17
    à une bonne traduction automatique.
  • 19:17 - 19:20
    On n'y a eu accès que très récemment.
  • 19:20 - 19:24
    On se débrouillait bien
    avec les dictionnaires,
  • 19:24 - 19:28
    et leur utilité est indéniable.
  • 19:28 - 19:30
    Les données sont disponibles
  • 19:30 - 19:31
    alors pourquoi ne pas
    les rendre disponibles
  • 19:31 - 19:34
    au monde et à ceux
    qui parlent ces langues ?
  • 19:36 - 19:39
    (intervenant·e 4) Bonjour, quels sont
    les mécanismes en place
  • 19:39 - 19:41
    lorsque la communauté... Je suis ici !
  • 19:41 - 19:43
    - Où ça ? D'accord.
    - Oui, pardon. (rit)
  • 19:43 - 19:45
    ...lorsque la communauté en question
  • 19:45 - 19:47
    ne veut pas que PanLex obtienne
    une partie de ces données ?
  • 19:47 - 19:49
    Bonne question.
  • 19:49 - 19:52
    Nous procédons comme suit :
  • 19:52 - 19:56
    si un dictionnaire est publié
    et est mis à la disposition du public,
  • 19:57 - 19:58
    c'est un indicateur valide.
  • 19:58 - 20:02
    Vous pouvez l'acheter dans un magasin
    ou dans une bibliothèque universitaire,
  • 20:02 - 20:05
    ou une bibliothèque publique
    à la disposition de tous.
  • 20:05 - 20:08
    Cela indique bien
    que la décision a déjà été prise.
  • 20:08 - 20:12
    [inaudible]
  • 20:16 - 20:18
    (intervenant·e 5) Pouvez-vous
    parler dans le micro ?
  • 20:19 - 20:20
    Pouvez-vous répéter ça ?
  • 20:20 - 20:23
    (intervenant·e 5) Les linguistes n'ont pas
    toujours la permission de la communauté
  • 20:23 - 20:25
    pour publier certaines choses,
  • 20:25 - 20:28
    ils le font souvent sans
    le consentement de la communauté.
  • 20:28 - 20:30
    C'est vrai.
  • 20:30 - 20:33
    Je dirais que...
  • 20:33 - 20:34
    ça arrive.
  • 20:34 - 20:37
    Je dirais qu'en général,
    les cas sont rares
  • 20:37 - 20:41
    et plutôt limités à l'Amérique du Nord,
  • 20:41 - 20:43
    parfois même à certaines langues
    sud-américaines.
  • 20:45 - 20:46
    Il faut prendre ça en considération.
  • 20:46 - 20:49
    Si l'on portait à notre connaissance
  • 20:49 - 20:52
    que les données sur PanLex
  • 20:52 - 20:56
    ne devraient pas être accessibles
    au reste du monde,
  • 20:56 - 20:58
    nous les supprimerions.
  • 20:58 - 20:59
    (intervenant·e 5) Très bien.
  • 21:01 - 21:02
    Ça ne veut pas dire,
    bien entendu,
  • 21:02 - 21:05
    que nous prendrons en compte
    les lois sur les droits d'auteur
  • 21:05 - 21:07
    mais nous prendre en compte
    les communautés traditionnelles,
  • 21:07 - 21:08
    là réside la principale différence.
  • 21:08 - 21:11
    (intervenant·e 5) Oui, c'est ce que
    je voulais dire.
  • 21:15 - 21:17
    Cela soulève un point très intéressant
  • 21:17 - 21:18
    en ce qui concerne
  • 21:19 - 21:22
    les représentants d'une langue.
  • 21:23 - 21:28
    J'ai visité le Sud-Ouest des États-Unis
  • 21:28 - 21:30
    pour collaborer avec des équipes
  • 21:30 - 21:32
    qui travaillent sur les langues
    des indigènes Pueblos.
  • 21:36 - 21:38
    Ces indigènes parlent environ
  • 21:38 - 21:40
    six langues pueblos selon la région
  • 21:40 - 21:42
    qu'ils habitent.
  • 21:42 - 21:44
    Elles sont réparties
    sur 18 pueblos différents
  • 21:44 - 21:47
    qui ont chacun
    leur propre gouvernement tribal,
  • 21:47 - 21:50
    et ces gouvernements
    ont des opinions divergentes
  • 21:50 - 21:54
    sur l'éventuelle accessibilité
    de leur langue aux étrangers.
  • 21:57 - 21:58
    Le zuni, par exemple,
  • 21:58 - 22:01
    n'est parlé qu'au sein d'un seul pueblo.
  • 22:03 - 22:05
    Ils veulent vraiment que leur langue
    soit accessible partout,
  • 22:05 - 22:08
    ils l'écrivent sur les panneaux
    de signalisation et tout, c'est bien.
  • 22:08 - 22:11
    Mais pour certaines des autres langues,
  • 22:11 - 22:13
    les communautés qui les parlent
    pourront vous dire :
  • 22:13 - 22:16
    « On ne veut pas que notre langue
    soit accessible aux étrangers. »
  • 22:16 - 22:19
    Leurs voisins pueblos qui parlent
    la même langue, qui vous diront :
  • 22:19 - 22:22
    « Nous voulons rendre notre langue
    accessible aux étrangers
  • 22:22 - 22:24
    grâce à ces outils technologiques
  • 22:24 - 22:27
    parce que nous voulons
    que notre langue survive. »
  • 22:27 - 22:29
    Cela soulève une question éthique
    très intéressante.
  • 22:29 - 22:32
    Parce que si vous baissez les bras
    en vous disant :
  • 22:32 - 22:35
    « C'est bon, j'arrête parce que
    cette communauté veut que j'arrête, »
  • 22:35 - 22:37
    ne serait-ce pas injuste
    envers le deuxième groupe
  • 22:37 - 22:39
    qui est convaincu de la nécessité
    d'écarter ces choses-là.
  • 22:39 - 22:43
    Je ne pense pas que la réponse
    à cette question soit facile à trouver.
  • 22:43 - 22:45
    Mais du moins en ce qui concerne PanLex...
  • 22:45 - 22:49
    D'ailleurs, nous n'avons jamais
    été confronté à cette situation,
  • 22:49 - 22:50
    pour autant que je sache.
  • 22:51 - 22:53
    Ça pourrait être en partie parce que...
  • 22:54 - 22:55
    Pour revenir à sa question,
  • 22:56 - 22:58
    nous avons besoin
    de plus de promotion. (rit)
  • 22:59 - 23:02
    Mais en général, à ma connaissance,
  • 23:02 - 23:04
    nous n'avons pas été confronté à ça.
  • 23:04 - 23:07
    Notre stratégie dans ce cas
  • 23:07 - 23:11
    est que si une communauté ne veut pas
    de ses données dans une base de données,
  • 23:11 - 23:12
    nous les supprimons.
  • 23:12 - 23:15
    (intervenant·e 5) Nous avons abordé
    le sujet dans Wikidata et Wikipedia...
  • 23:15 - 23:16
    - Ah bon ?
    - (intervenant·e 5) Dans les commentaires.
  • 23:16 - 23:18
    - Vraiment ?
    - (intervenant·e 5) Ça pose problème.
  • 23:18 - 23:20
    J'imagine, oui, surtout pour
    des commentaires sur des photos ou autres.
  • 23:20 - 23:22
    (intervenant·e 5) Exactement.
  • 23:27 - 23:33
    (intervenant·e 6) J'ai une question
    sur le crowdsourcing.
  • 23:34 - 23:37
    Pour ce qui est de demander
    à une communauté
  • 23:37 - 23:40
    d'annoter ou d'entrer des données
    dans un ensemble de données,
  • 23:40 - 23:46
    ce qui peut être intimidant
    en tant qu'éditeur
  • 23:46 - 23:49
    c'est que je ne peux
    voir que ce qui manque.
  • 23:49 - 23:53
    Mais si je vais y consacrer du temps
    ayant une idée claire en tête,
  • 23:54 - 23:57
    que certains éléments sont prioritaires,
  • 23:58 - 24:01
    ça devient très motivant.
  • 24:01 - 24:05
    Je me demandais
    si vous aviez un système qui...
  • 24:06 - 24:08
    Nous sommes conscients
    des lacunes dans nos données,
  • 24:08 - 24:12
    les preuves linguistiques montrent
    que si ces lacunes-là
  • 24:12 - 24:16
    avaient été annotées,
    elles auraient un impact élevé.
  • 24:16 - 24:17
    J'imagine donc
  • 24:18 - 24:21
    qu'avoir le lexème correspondant
    à « maison » est important,
  • 24:21 - 24:25
    plus important que le lexème
    correspondant à « donnée » ou autre.
  • 24:25 - 24:29
    Je me demandais si vous aviez
    un système pour ça,
  • 24:30 - 24:35
    si ça peut encourager les efforts
    de ces communautés.
  • 24:36 - 24:37
    Bonne question.
  • 24:37 - 24:41
    Wikidata a beaucoup de...
  • 24:41 - 24:45
    Pardon, PanLex a beaucoup
    de listes Swadesh.
  • 24:45 - 24:47
    Il parait qu'on a la plus vaste collection
    de listes Swadesh au monde,
  • 24:47 - 24:48
    ce qui est intéressant.
  • 24:48 - 24:50
    Si vous ne savez pas
    ce qu'est une liste Swadesh,
  • 24:50 - 24:56
    c'est une liste normalisée
    d'éléments lexicaux
  • 24:56 - 25:00
    pouvant être utilisée
    dans l'analyse des langues.
  • 25:00 - 25:03
    Elles contiennent des ensembles
    de mots très basiques.
  • 25:03 - 25:05
    Il y a quelques différents types
    de listes Swadesh.
  • 25:05 - 25:07
    Elles contiennent toutefois
    100 ou 213 éléments
  • 25:07 - 25:09
    dont des mots comme
  • 25:09 - 25:13
    « maison » ou « œil » ou « peau »,
  • 25:13 - 25:14
    des mots généraux
  • 25:14 - 25:16
    que l'on trouve dans toutes les langues.
  • 25:18 - 25:20
    C'est un bon point de départ
  • 25:20 - 25:23
    pour avoir accès à ce genre de données.
  • 25:29 - 25:31
    Je le disais tout à l'heure,
  • 25:31 - 25:33
    nous ne faisons pas
    de crowdsourcing pour le moment
  • 25:33 - 25:36
    et nous sommes très enthousiastes
    à l'idée de pouvoir le faire un jour.
  • 25:36 - 25:39
    J'aimerais vraiment discuter de ce sujet
    avec les personnes présentes,
  • 25:39 - 25:43
    de la manière dont
    le crowdsourcing peut être utilisé
  • 25:43 - 25:46
    et la logistique impliquée,
  • 25:46 - 25:49
    c'est le genre de questions qui se posent.
  • 25:51 - 25:53
    Ce que je peux vous dire
  • 25:53 - 25:55
    c'est que nous avons
    une liste de priorités...
  • 25:55 - 25:58
    En fait, nous avons effectivement
    une liste de priorités
  • 25:58 - 26:00
    quant aux langues que nous recherchons.
  • 26:00 - 26:02
    Nous commençons par rechercher les langues
  • 26:02 - 26:05
    qui ne sont pas inclues
    dans les solutions technologiques
  • 26:05 - 26:07
    et qui sont le plus souvent,
    disons généralement,
  • 26:07 - 26:09
    des langues minoritaires,
  • 26:09 - 26:12
    et les privilégions.
  • 26:14 - 26:17
    En ce qui concerne
    les éléments lexicaux isolés,
  • 26:17 - 26:20
    et du moment que c'est sous cette forme
    que nous récoltons les nouvelles données,
  • 26:20 - 26:23
    il s'agit principalement d'ingérer
    la totalité d'un dictionnaire.
  • 26:23 - 26:26
    Nous nous référons
    au choix des éléments lexicaux
  • 26:26 - 26:30
    du dictionnaire, plutôt que
    de rechercher le terme « maison »
  • 26:30 - 26:32
    dans chaque langue.
  • 26:32 - 26:33
    Pour ce qui est du crowdsourcing,
  • 26:33 - 26:35
    nous avons besoin
    de quelque chose de similaire.
  • 26:35 - 26:38
    C'est une opportunité
    de recherche et de développement.
  • 26:40 - 26:43
    (intervenant·e 7) Bonjour, je m'appelle
    Victor et tout ceci est génial.
  • 26:44 - 26:47
    Par rapport à vos diapositives...
  • 26:47 - 26:49
    Pouvez-vous élaborer
    sur la situation technique
  • 26:49 - 26:54
    où circulent les informations
    entre Wikidata et PanLex
  • 26:54 - 26:57
    en place actuellement ?
  • 26:57 - 27:00
    Est-ce une situation déjà établie
  • 27:00 - 27:04
    ou sinon, comment faites-vous
  • 27:04 - 27:07
    en termes d'échange
    ou de retour d'informations
  • 27:07 - 27:10
    entre PanLex et Wikidata ?
  • 27:10 - 27:14
    Nous n'avons pas de relation officielle
    avec Wikidata actuellement
  • 27:14 - 27:16
    et encore une fois, je suis très content
  • 27:16 - 27:18
    de pouvoir aborder ce sujet
    dans le cadre de cette conférence.
  • 27:18 - 27:21
    Nous avons eu quelques échanges
    avec Wikitionary
  • 27:22 - 27:25
    mais honnêtement, Wikidata
    serait une meilleure solution
  • 27:25 - 27:27
    pour le travail que nous faisons.
  • 27:27 - 27:29
    Avoir un accès direct
    aux informations lexicales
  • 27:29 - 27:31
    signifie que nous auront moins
  • 27:31 - 27:33
    d'analyse et d'extraction
    de données à faire.
  • 27:33 - 27:37
    Nous ne collaborons pas encore
    mais nous espérons le faire.
  • 27:37 - 27:40
    (intervenant·e 7) Si ça ne se fait pas,
    quels obstacles prévoyez-vous ?
  • 27:40 - 27:44
    Visiblement, Wikidata
    prend en compte plusieurs langues,
  • 27:44 - 27:47
    mais lorsque je vais sur
    « translate.panlex.org »,
  • 27:47 - 27:49
    je vois que vous travaillez
    avec beaucoup de dialectes,
  • 27:49 - 27:51
    beaucoup plus que Wikidata.
  • 27:51 - 27:53
    Comment percevez-vous cet écart
  • 27:53 - 27:57
    entre la traduction lexicale d'abord,
  • 27:57 - 28:00
    telle qu'elle est appliquée,
  • 28:00 - 28:04
    et le fait d'essayer de dresser
    une structure de connaissances ?
  • 28:04 - 28:06
    Schématiser des connaissances
    peut s'avérer très intéressant.
  • 28:06 - 28:07
    Nous avons ardemment discuté
  • 28:07 - 28:12
    de la manière dont Wikidata
    organise ses données lexicales,
  • 28:12 - 28:14
    vos données lexicales,
  • 28:14 - 28:16
    et celle dont nous organisons les nôtres.
  • 28:16 - 28:21
    Les différences subtiles qui existent
    nécessitent une stratégie de modélisation,
  • 28:21 - 28:25
    certaines d'entre elles
    ne seront pas automatiques
  • 28:25 - 28:27
    mais nous pourrions développer
    des techniques pour y arriver.
  • 28:27 - 28:31
    Vous avez mentionné
    les variantes linguistiques.
  • 28:31 - 28:34
    Nous sommes plutôt
    « catégoriques » à ce sujet.
  • 28:34 - 28:36
    En d'autres termes,
    si l'on porte à notre connaissance
  • 28:36 - 28:39
    que pour telle langue,
    tel ou tel dialecte est parlé
  • 28:39 - 28:41
    du côté gauche de la rivière,
    en Papouasie-Nouvelle-Guinée
  • 28:41 - 28:43
    et qu'une autre source nous affirme
  • 28:43 - 28:45
    que tel ou tel dialecte est parlé
    du côté droit de la rivière,
  • 28:45 - 28:47
    nous les considérerons
    comme deux langues à part,
  • 28:47 - 28:51
    et ce, pour préserver au mieux
    les données que nous avons.
  • 28:52 - 28:54
    Pouvoir structurer tout ça
    à la manière de Wikidata...
  • 28:54 - 28:57
    Ce que j'aimerais vraiment c'est discuter
  • 28:57 - 29:01
    de la manière dont les langues
  • 29:01 - 29:06
    sont désignées sur Wikidata.
  • 29:08 - 29:12
    Encore une fois, notre stratégie
    est une stratégie de séparation.
  • 29:14 - 29:17
    Nous utilisons des codes ISO 6393
  • 29:18 - 29:20
    fournis par l'Ethnologue,
  • 29:20 - 29:24
    puis prévoyons plusieurs variantes
    pour chaque code,
  • 29:24 - 29:26
    que ce soit pour les variantes écrites,
  • 29:26 - 29:29
    les dialectes régionaux
    ou les sociolectes.
  • 29:30 - 29:33
    Là encore, la discussion est ouverte
    et la collaboration est possible.
  • 29:36 - 29:39
    (femme 3) Bonjour, j'aimerais savoir
    si vous avez un pipeline ROC
  • 29:39 - 29:45
    parce que nous avons essayé la ROC
    pour les langues mayas
  • 29:45 - 29:48
    sans succès.
  • 29:48 - 29:50
    Ça ne comprend rien...
  • 29:50 - 29:53
    - Oui ! (rit)
    - (intervenant·e 8) Oui...
  • 29:53 - 29:56
    Si vos pipelines sont disponibles...
  • 29:56 - 30:00
    Autre chose, à propos
    du chevauchement des codes ISO,
  • 30:00 - 30:02
    on entend parfois :
  • 30:02 - 30:04
    « Ceci est une langue,
    celle-ci en est une autre, »
  • 30:04 - 30:07
    d'autres sources disent autre chose,
  • 30:07 - 30:10
    comme vous le dites,
    alors qu'elles se chevauchent.
  • 30:10 - 30:13
    Comment procédez-vous ?
  • 30:13 - 30:15
    Très bonne question.
  • 30:15 - 30:17
    J'apprécie énormément.
  • 30:17 - 30:20
    Nous n'avons pas de pipeline ROC
    à proprement parler,
  • 30:20 - 30:24
    nous procédons source par source.
  • 30:24 - 30:26
    C'est parce que nous avons souvent
  • 30:26 - 30:28
    des sources qui ne nécessitent pas de ROC
  • 30:28 - 30:30
    et qui sont disponibles
    pour certaines de ces langues.
  • 30:30 - 30:33
    Nous nous concentrons là-dessus
    parce qu'elles demandent moins de travail.
  • 30:33 - 30:35
    Mais si nous voulons
    nous intéresser de plus prêt
  • 30:35 - 30:37
    à l'une des sources
    que nous avons accumulées,
  • 30:37 - 30:41
    nous devrons développer
    des pipelines ROC solides.
  • 30:41 - 30:44
    Il y aussi le fait que,
    comme vous l'avez mentionné,
  • 30:44 - 30:49
    ceux qui ont conçu les logiciels ROC
  • 30:49 - 30:51
    ne réalisent pas à quel point
  • 30:51 - 30:53
    ils peuvent être soumis
    à des épreuves sous contraintes.
  • 30:53 - 30:55
    Et vous savez le plus drôle ?
  • 30:55 - 30:58
    Soumettre un dictionnaire
    russe - tibétain à une ROC.
  • 30:59 - 31:00
    Il s'avère que c'est très difficile...
  • 31:02 - 31:04
    Nous y avons renoncé
    et avons engagé quelqu'un pour tout taper,
  • 31:04 - 31:06
    ce qui était tout à fait faisable.
  • 31:06 - 31:07
    Il parait même que
  • 31:07 - 31:10
    cette dame russe exceptionnelle
    a appris le tibétain
  • 31:10 - 31:13
    justement pour pouvoir faire ce travail,
    ce qui vraiment génial.
  • 31:15 - 31:18
    Je pense que si vous avez affaire
    à des caractères latins,
  • 31:18 - 31:23
    des solutions ROC robustes
    peuvent être développées
  • 31:23 - 31:25
    pour traiter des sources
    multilingues semblables,
  • 31:25 - 31:27
    il faudra s'attendre
    à y trouver un quatre aléatoire,
  • 31:27 - 31:28
    si vous avez affaire
  • 31:28 - 31:31
    à des sources mayas du XVIe siècle,
    le chiffre quatre.
  • 31:32 - 31:38
    Toutefois, il y a quelques sources
  • 31:38 - 31:40
    que la ROC ne pourra probablement
    jamais vraiment traiter
  • 31:40 - 31:42
    ou qui nécessitent une quantité
    de travail énorme,
  • 31:43 - 31:47
    dont nous pouvons profiter
    un peu maintenant.
  • 31:47 - 31:49
    Nous travaillons
    sur un autre projet chez PanLex
  • 31:49 - 31:50
    dans le cadre duquel nous transcrivons
  • 31:50 - 31:54
    toute la littérature
    traditionnelle de Bali.
  • 31:54 - 31:58
    Nous avons trouvé
    que pour les manuscrits balinais,
  • 31:58 - 32:00
    il n'y a pas moyen d'utiliser la ROC.
  • 32:00 - 32:02
    Nous avons donc demandé
    à plusieurs balinais de les taper,
  • 32:02 - 32:05
    et c'est devenu un projet culturel
    sympa à Bali,
  • 32:05 - 32:07
    c'est même passé aux infos et tout.
  • 32:07 - 32:11
    Je dirais qu'on n'est pas obligé
    de recourir à la ROC,
  • 32:11 - 32:13
    même s'il y a trop de choses
    qui nécessiteraient cela.
  • 32:13 - 32:15
    Avoir de bonnes solutions ROC
    serait idéal.
  • 32:17 - 32:21
    D'ailleurs, s'il y en a qui s'intéressent
    à la ROC multilingue,
  • 32:21 - 32:23
    venez me voir après !
  • 32:30 - 32:31
    (intervenant·e 9) Merci
    pour votre présentation.
  • 32:32 - 32:35
    Vous avez parlé d'intégration
  • 32:35 - 32:37
    entre PanLex et Wikidata,
  • 32:37 - 32:39
    mais vous n'avez pas vraiment
    fourni de détails.
  • 32:39 - 32:43
    J'ai vérifié votre licence,
    vous êtres sous CC0.
  • 32:43 - 32:44
    - Oui.
    - (homme 6) C'est génial.
  • 32:44 - 32:46
    Il y a deux possibilités :
  • 32:46 - 32:49
    soit on peut importer les données
  • 32:49 - 32:53
    soit on vire vers quelque chose
    de semblable à Freebase,
  • 32:53 - 32:56
    où l'on a la base de données complète
    depuis Freebase
  • 32:56 - 32:59
    qu'on a importée,
    pour ensuite créer un lien,
  • 32:59 - 33:04
    un identifiant externe à la base
    de données Freebase.
  • 33:04 - 33:08
    Si vous avez une idée en tête,
    se rapproche-t-elle de ça ?
  • 33:08 - 33:10
    Ou vous voulez simplement créer...
  • 33:15 - 33:19
    une base de données indépendante
    qui pourrait être liée à Wikidata ?
  • 33:19 - 33:21
    C'est une très bonne question
  • 33:21 - 33:23
    et je pense même que
    ça a une longueur d'avance
  • 33:23 - 33:26
    sur ce que j'ai en tête,
  • 33:26 - 33:30
    en partie parce que
  • 33:30 - 33:32
    faire en sorte que les deux bases
    de données collaborent
  • 33:32 - 33:34
    est une étape en soi.
  • 33:34 - 33:35
    Je pense que la première étape
  • 33:35 - 33:38
    serait la mise en commun
    de nos compétences.
  • 33:38 - 33:40
    Nous avons beaucoup d'expérience
  • 33:40 - 33:43
    dans la classification des propriétés
    de différents lexèmes
  • 33:43 - 33:45
    que je serai ravi de partager.
  • 33:46 - 33:49
    Mais lier les deux bases de données
    serait formidable.
  • 33:49 - 33:51
    J'en suis parfaitement sûr.
  • 33:51 - 33:54
    Je pense que ce serait plus facile
  • 33:54 - 33:56
    de lier Wikidata à PanLex,
  • 33:56 - 33:59
    c'est peut-être subjectif de ma part
    parce que je sais que ça peut marcher.
  • 34:02 - 34:06
    En fait, du moment
    que Wikidata est satisfait
  • 34:06 - 34:10
    en ce qui concerne la licence,
    ou que nous trouvons un arrangement,
  • 34:10 - 34:12
    ce serait une très bonne idée.
  • 34:13 - 34:15
    Il ne nous reste plus qu'à trouver
  • 34:15 - 34:16
    des moyens de lier
    les données elles-mêmes.
  • 34:16 - 34:22
    Ce serait vraiment bien que
    les modifications effectuées sur Wikidata
  • 34:23 - 34:26
    puissent immédiatement alimenter
    la base de données PanLex,
  • 34:26 - 34:29
    sans avoir à réingérer...
  • 34:31 - 34:36
    et donc faire de Wikidata
    une interface collaborative pour PanLex
  • 34:36 - 34:37
    serait vraiment génial.
  • 34:37 - 34:40
    La possibilité d'utiliser PanLex
    pour des traductions immédiates,
  • 34:40 - 34:42
    d'effectuer des traductions à travers
    les éléments lexicaux de Wikidata...
  • 34:42 - 34:44
    ce serait magnifique.
  • 34:55 - 35:00
    (intervenant·e 10) On dirait le processus
    de vérification de la toile sémantique
  • 35:00 - 35:04
    pour combler des vides par interférence.
  • 35:06 - 35:10
    Si on réfléchit un peu plus
    à ce genre de traduction,
  • 35:10 - 35:13
    comment gérez-vous les non-concordances
  • 35:13 - 35:16
    sémantiques et grammaticales ?
  • 35:16 - 35:19
    Par exemple, si vous essayez de traduire
    quelque chose en allemand,
  • 35:19 - 35:22
    vous pouvez placer des mots ensemble
  • 35:22 - 35:26
    et avoir un résultat qui ait du sens,
  • 35:26 - 35:29
    mais d'un autre côté, j'ai lu que...
  • 35:31 - 35:38
    parfois, les langues ont
    des systèmes granulaires différents
  • 35:38 - 35:40
    pour les couleurs, par exemple.
  • 35:41 - 35:43
    Vous dites que tous les systèmes
  • 35:43 - 35:45
    sont différents ou similaires ?
  • 35:45 - 35:48
    (intervenant·e 10) Je pense qu'il s'agit
    plutôt de l'évolution des langues
  • 35:48 - 35:52
    où on ne désignait
    que le noir et le blanc...
  • 35:52 - 35:53
    Oui, la hiérarchie des couleurs.
  • 35:53 - 35:54
    La hiérarchie des couleurs
  • 35:54 - 35:57
    est un bon moyen d'illustrer
    comment ça marche.
  • 35:58 - 36:01
    Quand vous n'avez
    qu'une seule langue pivot...
  • 36:02 - 36:05
    C'est très intéressant de lire des études
    sur les traductions automatiques
  • 36:05 - 36:08
    où l'on mentionne souvent
    l'existence d'une langue pivot théorique,
  • 36:08 - 36:10
    « il y a une langue pivot » lira-t-on,
  • 36:10 - 36:12
    ensuite il s'avère que c'est l'anglais.
  • 36:12 - 36:17
    À travers cette forme
    de traduction lexicale,
  • 36:17 - 36:20
    le croisement de plusieurs langues
    intermédiaires différentes
  • 36:21 - 36:26
    peut amener une meilleure gestion
    de l’ambiguïté sémantique.
  • 36:26 - 36:28
    Du moment que le croisement
    se fait à travers des langues
  • 36:28 - 36:33
    ayant des limites sémantiques
    plutôt similaires,
  • 36:33 - 36:37
    vous pourrez éviter
  • 36:37 - 36:40
    d'introduire de l'ambiguïté sémantique
    à travers une langue pivot.
  • 36:40 - 36:43
    Si on utilise la hiérarchie
    des couleurs comme exemple,
  • 36:43 - 36:44
    si l'on prend une langue
  • 36:44 - 36:46
    qui a un seul terme
    pour désigner le bleu et le vert
  • 36:46 - 36:50
    et le traduit en bleu
  • 36:50 - 36:53
    dans votre langue pivot unique
  • 36:53 - 36:54
    puis dans une autre langue différente
  • 36:54 - 36:57
    qui comporte des ambiguïtés différentes,
  • 36:57 - 37:00
    vous finirez par instaurer
    une ambiguïté sémantique.
  • 37:00 - 37:02
    Mais si le croisement se fait
    avec des langues
  • 37:02 - 37:06
    qui n'ont également qu'un seul
    élément lexical pour le vert et le bleu,
  • 37:06 - 37:11
    la spécificité sémantique
  • 37:11 - 37:17
    est transmise à la langue cible.
  • 37:18 - 37:21
    En ce qui concerne
    les caractéristiques grammaticales,
  • 37:21 - 37:26
    PanLex a collecté principalement
    des lexèmes, des formes lexicales,
  • 37:26 - 37:29
    au cours de son histoire.
  • 37:30 - 37:32
    Je veux dire par là
  • 37:32 - 37:34
    les mots que vous trouvez
    dans un dictionnaire.
  • 37:35 - 37:38
    Nous ne nous préoccupons pas
    pour le moment
  • 37:39 - 37:41
    de recueillir des formes
    de variantes grammaticales,
  • 37:41 - 37:43
    comme les données [inaudible], etc.
  • 37:43 - 37:45
    ou les formes conjuguées
    du passé et du présent.
  • 37:45 - 37:46
    Mais nous y réfléchissons.
  • 37:46 - 37:48
    Autre chose qu'il est important
    de se rappeler,
  • 37:48 - 37:51
    c'est que notre attention...
  • 37:51 - 37:54
    est portée sur les langues minoritaires
    défavorisées et menacées,
  • 37:55 - 37:58
    nous visons la disponibilité
  • 37:58 - 38:00
    avant la perfection.
  • 38:02 - 38:03
    J'aime beaucoup le dicton :
  • 38:03 - 38:05
    « Le mieux est l'ennemi du bien »
  • 38:05 - 38:07
    c'est ce que nous comptons faire.
  • 38:07 - 38:09
    Mais l'idée de pouvoir manipuler
    les formes grammaticales
  • 38:09 - 38:12
    et de pouvoir traduire
    à travers les formes grammaticales,
  • 38:12 - 38:14
    nous intéresse beaucoup,
  • 38:14 - 38:16
    ce sont des choses
    que nous avons étudiées
  • 38:16 - 38:17
    mais pas encore implémentées.
  • 38:25 - 38:29
    (intervenant·e 11) Donc sur ces 7 500 langues,
  • 38:30 - 38:33
    je suppose que vous utilisez
    des dictionnaires conçus pour nous,
  • 38:33 - 38:36
    mais toutes ces langues ont-elles
    des formes écrites standardisées ?
  • 38:36 - 38:38
    Comment faites-vous pour... ?
  • 38:38 - 38:40
    C'est une très bonne question.
  • 38:42 - 38:45
    Oui, beaucoup de ces langues,
  • 38:45 - 38:48
    vous le savez, n'ont pas de forme écrite.
  • 38:48 - 38:51
    Toutefois, toute langue pour laquelle
    un dictionnaire a été conçu
  • 38:51 - 38:52
    possède une orthographe,
  • 38:52 - 38:57
    nous nous basons sur l'orthographe
    conçue pour le dictionnaire.
  • 38:57 - 39:00
    Nous ajustons un peu l'orthographe parfois
  • 39:01 - 39:03
    dans la garantie
    qu'il n'y ait pas de pertes.
  • 39:03 - 39:05
    Nous essayons d'éviter cela
    autant que possible.
  • 39:08 - 39:11
    Nous ne nous mettons pas
  • 39:11 - 39:13
    à développer des orthographes
    pour des langues,
  • 39:13 - 39:15
    parce qu'elles ne se sont pas
    développées,
  • 39:15 - 39:17
    et même si elles ne sont pas
    rendues publiques.
  • 39:20 - 39:22
    Par exemple,
  • 39:22 - 39:26
    pour les diverses langues parlées
    en Nouvelle-Guinée,
  • 39:26 - 39:29
    il se peut qu'il n'y ait pas
    d'orthographe commune,
  • 39:29 - 39:31
    mais certains linguistes les inventent
  • 39:31 - 39:32
    et c'est une bonne initiative.
  • 39:33 - 39:35
    Nous recueillons aussi
    les formes phonétiques
  • 39:35 - 39:37
    si elles sont disponibles
    dans les dictionnaires,
  • 39:37 - 39:38
    et c'est une autre façon de faire,
  • 39:38 - 39:41
    une représentation d'un mot selon l'API
  • 39:41 - 39:42
    si possible.
  • 39:42 - 39:43
    On pourrait utiliser ça aussi.
  • 39:43 - 39:46
    Mais on ne s'en sert pas comme pivot
  • 39:46 - 39:48
    parce que ça instaure des ambiguïtés.
  • 39:53 - 39:55
    (intervenant·e 12) Merci,
    c'est peut-être une question bête
  • 39:56 - 40:01
    mais est-ce les seules langues
    intermédiaires que vous utilisez ?
  • 40:01 - 40:02
    Non, non.
  • 40:02 - 40:04
    (intervenant·e 12) D'accord, merci.
  • 40:04 - 40:06
    Merci d'avoir posé la question.
  • 40:06 - 40:11
    Ceci est une capture d'écran
    de « translate.panlex.org ».
  • 40:11 - 40:13
    Si vous effectuez une traduction,
  • 40:13 - 40:15
    vous aurez une liste
    de traductions à droite.
  • 40:15 - 40:18
    Vous cliquez sur le bouton « ... »,
    vous obtenez cette figure.
  • 40:18 - 40:22
    Cela montre les langues intermédiaires,
  • 40:22 - 40:24
    les 20 premières selon le score,
  • 40:24 - 40:26
    je pourrais vous en dire plus
  • 40:26 - 40:27
    mais ce n'est pas très important,
  • 40:27 - 40:30
    donc les langues utilisées selon le score.
  • 40:30 - 40:33
    Mais pour effectuer la traduction,
    nous en utilisons plus que 20.
  • 40:33 - 40:36
    Je me limite à 20
    parce que s'il y en a plus...
  • 40:36 - 40:38
    en fait, c'est une sorte
    de simulation physique,
  • 40:38 - 40:40
    vous pouvez la faire bouger et elle remue.
  • 40:40 - 40:42
    S'il y a plus de 20 langues,
    votre ordinateur en devient fou.
  • 40:45 - 40:47
    C'est plus une démonstration
    qu'autre chose.
  • 40:56 - 40:58
    (femme 5) Je suis Leila,
    de la fondation Wikimedia.
  • 40:58 - 41:00
    Une remarque à propos de...
  • 41:00 - 41:02
    Vous avez mentionné
    la fondation Wikimedia
  • 41:02 - 41:03
    quelques fois dans votre présentation,
  • 41:03 - 41:07
    si vous voulez faire
    de l'ingestion de données
  • 41:07 - 41:08
    ou que vous voulez collaborer
    avec Wikidata,
  • 41:09 - 41:11
    peut-être que Wikimedia Deutschland
    serait l'endroit plus approprié
  • 41:11 - 41:13
    pour ce genre d'échange ?
  • 41:13 - 41:16
    Wikidata fait partie
    de Wikimedia Deutschland,
  • 41:16 - 41:18
    leurs équipes sont en Allemagne,
  • 41:18 - 41:20
    et la communauté de bénévoles de Wikidata
  • 41:20 - 41:24
    serait l'endroit idéal pour aborder
  • 41:24 - 41:26
    tout ce qui a trait aux ingestions
  • 41:26 - 41:31
    ou au rapprochement de PanLex à Wikidata.
  • 41:32 - 41:33
    Très bien, merci beaucoup,
  • 41:33 - 41:35
    Honnêtement, je ne connais pas bien
  • 41:35 - 41:38
    les subtilités de l'architecture
    des projets
  • 41:38 - 41:40
    et la manière dont ils se relient.
  • 41:40 - 41:42
    D'après vos rires, c'est compliqué.
  • 41:42 - 41:44
    En fait, nous aimerions discuter
  • 41:44 - 41:48
    avec les responsables de Wikidata.
  • 41:48 - 41:52
    En gros, tous ceux qui sont responsables
  • 41:53 - 41:56
    de Wikidata nous intéressent,
  • 41:56 - 41:58
    c'est-à-dire vous tous bénévoles.
  • 42:03 - 42:05
    D'autres questions ?
  • 42:10 - 42:14
    Bon, si vous avez d'autres questions
    sur ce que j'ai dit, sur autre chose,
  • 42:14 - 42:18
    ou sur les détails et les spécificités
    de certaines choses,
  • 42:18 - 42:20
    venez m'en dire deux mots,
    je suis à l'écoute.
  • 42:20 - 42:24
    Surtout si vous travaillez
    avec les lexiques,
  • 42:24 - 42:29
    ou quoi que ce soit impliquant
    des langues minoritaires menacées
  • 42:29 - 42:30
    ou défavorisées,
  • 42:30 - 42:34
    ou l'Unicode,
    je travaille dessus également.
  • 42:36 - 42:38
    Merci beaucoup
  • 42:38 - 42:40
    et merci de m'avoir invité
    à prendre la parole,
  • 42:40 - 42:42
    j'espère que vous avez apprécié
    cette présentation.
  • 42:42 - 42:44
    (applaudissements)
Title:
cdn.media.ccc.de/.../wikidatacon2019-14-eng-Keynote_Why_is_collecting_lexical_data_one_of_the_best_ways_we_can_help_support_underserved_and_endangered_languages_hd.mp4
Video Language:
English
Duration:
42:53

French subtitles

Revisions