Return to Video

cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

  • 0:03 - 0:05
    Wikidata et les langues
  • 0:05 - 0:06
    Où en sommes-nous ?
    Et après ?
  • 0:06 - 0:07
    (Lydia) Merci beaucoup.
  • 0:07 - 0:11
    L'un des sujets majeurs
    de cette conférence concerne les langues.
  • 0:14 - 0:19
    Je voudrais vous donner un aperçu
    du point où nous en sommes à ce jour
  • 0:19 - 0:20
    en ce qui concerne les langues
  • 0:20 - 0:22
    et quelles sont les prochaines étapes.
  • 0:29 - 0:30
    Le but de Wikidata est de donner
  • 0:30 - 0:33
    plus d'accès à plus de savoir
    à davantage de monde
  • 0:33 - 0:37
    et la langue est un aspect essentiel
    dans la réalisation de cet objectif,
  • 0:38 - 0:43
    d'autant plus que nos vies dépendent
    de plus en plus de la technologie.
  • 0:44 - 0:49
    Et comme le disait notre conférencier
    sur Keynote tout à l'heure,
  • 0:50 - 0:52
    une partie de cette technologie
    reste inaccessible à certains
  • 0:52 - 0:55
    du simple fait qu'ils ne parlent pas
    telle ou telle langue,
  • 0:55 - 0:58
    et ce n'est pas acceptable.
  • 0:59 - 1:02
    Donc nous voulons
    remédier à cette situation.
  • 1:03 - 1:06
    Et afin de changer cela,
    il faut au moins deux choses.
  • 1:06 - 1:11
    D'abord, on doit fournir des contenus
    aux gens dans leur propre langue,
  • 1:11 - 1:13
    et la deuxième chose,
  • 1:13 - 1:16
    c'est de leur fournir la possibilité
    d'interagir dans leur propre langue
  • 1:16 - 1:19
    avec des applications
    ou quoi que ce soit d'autre.
  • 1:20 - 1:25
    Wikidata contribue à satisfaire
    ces deux conditions.
  • 1:25 - 1:28
    La première d'entre elles,
    du contenu dans votre langue,
  • 1:28 - 1:31
    c'est globalement ce que nous avons
    dans les éléments et les propriétés,
  • 1:31 - 1:33
    la façon dont nous décrivons le monde.
  • 1:33 - 1:35
    Tout ce dont vous avez besoin
    n'y est certainement pas
  • 1:35 - 1:39
    mais il y a déjà de quoi bien avancer.
  • 1:40 - 1:42
    L'autre point, c'est l'interaction
    dans votre langue
  • 1:42 - 1:46
    et c'est là que les lexèmes
    entrent en jeu :
  • 1:46 - 1:49
    si vous voulez parler
    à votre assistant personnel numérique
  • 1:49 - 1:55
    ou que votre appareil
    vous traduise un texte ou autre.
  • 1:56 - 1:59
    Très bien, intéressons-nous
    aux contenus dans votre langue,
  • 1:59 - 2:04
    donc, à ce que nous avons
    sous la rubrique Éléments et Propriétés.
  • 2:05 - 2:10
    Les libellés sont essentiels
    pour ces éléments et propriétés.
  • 2:10 - 2:15
    Nous devons savoir comment s'appelle
    l'entité dont il est question.
  • 2:16 - 2:20
    Et plutôt que de parler de Q5,
  • 2:20 - 2:22
    un anglophone saura
    qu'il s'agit d'un « humain »,
  • 2:22 - 2:25
    un germanophone saura
    qu'il s'agit d'un « Mensch »,
  • 2:25 - 2:26
    ce genre de choses.
  • 2:26 - 2:30
    Donc, les libellés
    dans les éléments et les propriétés
  • 2:30 - 2:34
    font la liaison entre les humains
    et les machines
  • 2:34 - 2:35
    mais relient aussi les humains entre eux
  • 2:35 - 2:40
    en leur rendant davantage
    de savoir accessible.
  • 2:41 - 2:43
    À quoi ressemble notre couverture ?
  • 2:43 - 2:46
    L'intention est louable.
  • 2:46 - 2:48
    Mais voyons ce que cela donne
    dans les faits.
  • 2:48 - 2:50
    Cela ressemble à ça.
  • 2:51 - 2:52
    Ce que vous voyez ici,
  • 2:52 - 2:58
    c'est que la plupart des éléments
    dans Wikidata ont deux libellés,
  • 2:58 - 3:01
    donc des libellés dans deux langues.
  • 3:02 - 3:04
    Ensuite on passe à un, puis trois,
  • 3:04 - 3:06
    et au-delà, cela devient vraiment navrant.
  • 3:07 - 3:09
    (rires légers)
  • 3:10 - 3:13
    Je crois que nous devons
    faire mieux que ça.
  • 3:14 - 3:15
    Mais, d'un autre côté,
  • 3:15 - 3:17
    je m'attendais à pire, en fait.
  • 3:17 - 3:20
    Je m'attendais à ce que la moyenne
    soit d'une seule langue.
  • 3:20 - 3:23
    Donc, j'ai été agréablement surprise
    de voir que c'était deux.
  • 3:24 - 3:25
    Quelles langues couvrons-nous ?
  • 3:25 - 3:26
    Très bien.
  • 3:27 - 3:30
    Mais au-delà de l'intérêt de savoir
  • 3:30 - 3:34
    de combien de libellés disposent
    nos éléments et propriétés,
  • 3:34 - 3:37
    il est aussi intéressant de voir
    quelles sont les langues de ces libellés.
  • 3:38 - 3:44
    Voici un graphique présentant les langues
  • 3:44 - 3:47
    dans lesquelles nous avons des libellés
    pour les éléments.
  • 3:47 - 3:51
    La portion la plus grosse ici
    correspond à la catégorie Autres.
  • 3:51 - 3:54
    Alors, je n'ai détaillé
    que les 100 premières langues
  • 3:55 - 3:59
    donc tout le reste entre dans la catégorie
    Autres pour que le graphique soit lisible.
  • 4:00 - 4:02
    Ensuite viennent l'anglais
    et le néerlandais,
  • 4:03 - 4:04
    le français,
  • 4:06 - 4:09
    et n'oublions pas l'asturien.
  • 4:10 - 4:12
    - (un auditeur) Waouh !
    - (Lydia) Waouh, effectivement !
  • 4:14 - 4:17
    Donc ce qui apparaît ici
    est un déséquilibre considérable
  • 4:17 - 4:20
    avec toujours une nette
    prédominance de l'anglais.
  • 4:21 - 4:24
    Par ailleurs, si l'on regarde
    la même chose pour les propriétés,
  • 4:24 - 4:26
    le tableau est déjà mieux.
  • 4:27 - 4:33
    Je crois que cela tient en partie au fait
    qu'il y a beaucoup moins de propriétés,
  • 4:33 - 4:37
    ce qui fait que même des communautés
    plus petites peuvent assurer cette partie.
  • 4:37 - 4:39
    Mais cela constitue aussi
    une partie importante de Wikidata
  • 4:39 - 4:41
    de pouvoir les adapter dans votre langue.
  • 4:41 - 4:42
    Donc c'est un point positif.
  • 4:46 - 4:48
    Ce que je voulais souligner ici
    à propos de l'asturien,
  • 4:48 - 4:54
    c'est qu'une petite communauté
    peut vraiment se démarquer
  • 4:54 - 4:57
    par son investissement et son travail,
  • 4:57 - 4:58
    et c'est vraiment chouette.
  • 5:02 - 5:04
    Une petite devinette pour vous.
  • 5:04 - 5:05
    Si vous prenez toutes
    les propriétés de Wikidata
  • 5:05 - 5:08
    qui n'ont pas d'identifiants externes,
  • 5:08 - 5:11
    laquelle compte selon vous le plus grand
    nombre de libellés, donc de langues ?
  • 5:11 - 5:14
    (réponses inaudibles de l'auditoire)
  • 5:14 - 5:17
    Il semble se dégager une majorité
    pour « nature de l'élément ».
  • 5:18 - 5:20
    Ce serait une mauvaise réponse.
  • 5:20 - 5:22
    La réponse est « image ».
  • 5:23 - 5:26
    Donc, effectivement,
    si vous parlez l'une des langues
  • 5:26 - 5:29
    pour lesquelles « nature de l'élément »
    n'a pas encore de libellé,
  • 5:29 - 5:30
    vous savez ce qu'il vous reste à faire.
  • 5:32 - 5:36
    Donc, « image » dispose
    de 148 libellés actuellement.
  • 5:38 - 5:41
    Mais c'est une autre diapositive.
  • 5:43 - 5:44
    Ce graphique nous donne une idée
  • 5:44 - 5:49
    du volume de contenu que nous rendons
    accessible dans une langue donnée
  • 5:49 - 5:52
    et dans quelle proportion ce contenu
    est effectivement utilisé.
  • 5:52 - 5:55
    Donc en gros, on peut voir
    se dessiner une courbe
  • 5:55 - 5:59
    où la majorité des contenus
    disposant de libellés en anglais,
  • 5:59 - 6:04
    étant disponibles en anglais
    sont aussi largement utilisés.
  • 6:04 - 6:06
    Puis ça a tendance à diminuer.
  • 6:06 - 6:09
    Mais à nouveau,
    on peut noter des exceptions
  • 6:09 - 6:15
    qui ont beaucoup plus de contenus
    qu'on aurait pu s'y attendre,
  • 6:17 - 6:20
    et c'est une très bonne chose.
  • 6:21 - 6:25
    Le problème demeure que ces contenus
    ne sont pas très utilisés.
  • 6:26 - 6:29
    L'asturien et le néerlandais devraient
    être en meilleure position
  • 6:29 - 6:32
    et je crois qu'aider ces communautés
  • 6:33 - 6:36
    à accroître l'utilisation des données
    qu'elles ont rassemblées
  • 6:36 - 6:38
    est quelque chose de très utile.
  • 6:43 - 6:48
    Ce que cette analyse ainsi que d'autres
    nous ont révélé de positif,
  • 6:48 - 6:51
    c'est que les éléments les plus utilisés
  • 6:51 - 6:55
    ont aussi tendance
    à avoir plus de libellés
  • 6:55 - 6:59
    à moins que ça ne marche en sens inverse ;
    ce n'est pas tout à fait clair.
  • 7:03 - 7:05
    Et la question qui se pose alors, c'est :
  • 7:05 - 7:07
    Sommes-nous seulement au service
    des langues les plus puissantes ?
  • 7:08 - 7:11
    Ou sommes-nous
    au service de tout le monde ?
  • 7:13 - 7:18
    Et ce que vous voyez ici,
    ce sont des regroupements de langues.
  • 7:18 - 7:20
    Les langues que nous avons
    regroupées ensemble
  • 7:20 - 7:22
    ont tendance à avoir
    des libellés en commun.
  • 7:26 - 7:28
    Et vous voyez se former des faisceaux.
  • 7:29 - 7:34
    À présent, voici un même type
    de regroupement avec différentes couleurs,
  • 7:34 - 7:39
    selon que la langue est plus ou moins
    vivante, plus ou moins largement utilisée
  • 7:40 - 7:43
    ou menacée de disparition.
  • 7:43 - 7:45
    Et la bonne chose qui apparaît ici,
  • 7:45 - 7:50
    c'est que les langues dominantes
    et les langues menacées de disparition
  • 7:50 - 7:54
    ne constituent pas
    deux groupes différents,
  • 7:54 - 7:59
    mais qu'elles sont toutes
    mélangées ensemble,
  • 8:00 - 8:05
    ce qui est bien plus réjouissant
    que si la situation avait été inverse
  • 8:05 - 8:09
    et que les langues les plus assurées,
    les langues dominantes
  • 8:10 - 8:12
    s'étaient mutuellement soutenues.
  • 8:13 - 8:14
    Ce n'est pas le cas.
  • 8:14 - 8:17
    Et c'est une très bonne chose.
  • 8:17 - 8:20
    J'ai trouvé que c'était
    un très bon signe quand j'ai vu ça.
  • 8:23 - 8:25
    Voici un autre exemple similaire
  • 8:26 - 8:29
    où nous avons regardé
  • 8:30 - 8:34
    le statut des langues
  • 8:34 - 8:36
    et le nombre de libellés
    dont elles disposent.
  • 8:39 - 8:43
    Ce qui apparaît, c'est que les langues
    fortes dominent clairement,
  • 8:43 - 8:44
    comme on pouvait s'y attendre.
  • 8:46 - 8:47
    Mais ce que l'on voit aussi,
  • 8:47 - 8:54
    c'est que les langues des catégories 2,
    3 et peut-être même 4
  • 8:54 - 8:59
    ne s'en tirent pas si mal en fait,
  • 8:59 - 9:02
    au niveau de leur représentation
    sur Wikidata,
  • 9:03 - 9:06
    ce qui est vraiment
    un résultat réjouissant.
  • 9:08 - 9:09
    Maintenant, si on regarde
    la même chose
  • 9:09 - 9:12
    sous l'angle de la proportion
    de contenu de ces libellés
  • 9:12 - 9:15
    qui est effectivement utilisée
    dans Wikipédia, par exemple,
  • 9:17 - 9:23
    on voit à nouveau se dessiner
    la même tendance.
  • 9:24 - 9:30
    Et cela nous révèle que ces communautés
    font vraiment bon usage de leur temps
  • 9:30 - 9:35
    en créant des libellés pour les éléments
    les plus utilisés, par exemple.
  • 9:36 - 9:40
    Il y a des exceptions
    que nous devons pouvoir soutenir
  • 9:42 - 9:48
    en aidant ces communautés à mieux
    valoriser leur investissement.
  • 9:49 - 9:53
    Mais de façon générale,
    cette image me paraît réjouissante.
  • 9:55 - 10:00
    Voilà pour ce qui était de la partie
    éléments et propriétés de Wikidata.
  • 10:01 - 10:03
    Regardons à présent les interactions
    dans vos langues.
  • 10:03 - 10:05
    Donc le volet lexème de Wikidata,
  • 10:05 - 10:09
    où il s'agit de décrire les mots,
    leur forme et leur signification.
  • 10:10 - 10:13
    C'est un travail que nous avons
    démarré en mai de l'année dernière
  • 10:16 - 10:19
    et le contenu
    n'a cessé de se développer.
  • 10:20 - 10:22
    Ici, on voit les lexèmes en bleu,
  • 10:22 - 10:26
    en rouge, les formes de ces lexèmes
  • 10:26 - 10:30
    et en jaune, les significations
    de ces lexèmes.
  • 10:31 - 10:34
    Donc certaines communautés,
    nous y reviendrons plus tard,
  • 10:34 - 10:39
    ont consacré beaucoup de temps
    à créer des formes et des significations
  • 10:39 - 10:43
    pour leurs lexèmes, ce qui est très utile
  • 10:43 - 10:48
    car cela constitue l'essence
    des données dont vous avez besoin.
  • 10:51 - 10:55
    Maintenant, nous avons regardé
    toutes les langues
  • 10:55 - 10:58
    qui ont des lexèmes sur Wikidata,
  • 10:58 - 11:01
    donc les mots que nous avons.
  • 11:02 - 11:05
    Ces derniers sont
    actuellement en 310 langues.
  • 11:05 - 11:08
    Maintenant, quelle est,
    à votre avis, la première langue
  • 11:08 - 11:12
    en termes de nombre de lexèmes
    actuellement sur Wikidata ?
  • 11:12 - 11:15
    (réponses fusant de l'auditoire)
    Le suédois, le russe,
  • 11:15 - 11:16
    l'asturien, l'allemand
  • 11:16 - 11:20
    - (un intervenant parle hors micro)
    - Hein ?
  • 11:20 - 11:22
    (un autre intervenant) L'allemand.
  • 11:22 - 11:24
    Désolée, la bonne réponse a été donnée.
  • 11:24 - 11:26
    C'est le russe.
  • 11:28 - 11:30
    Le russe est loin devant.
  • 11:32 - 11:34
    Et pour vous donner une perspective,
  • 11:35 - 11:37
    les opinions divergent à ce sujet,
  • 11:37 - 11:42
    mais j'ai lu, par exemple,
    que connaître 1 000 à 3 000 mots
  • 11:42 - 11:45
    vous permet d'accéder au niveau
    courant dans une autre langue.
  • 11:45 - 11:50
    et qu'en connaître 4 000 à 10 000
    vous situe à un niveau avancé.
  • 11:52 - 11:55
    Donc nous avons encore
    du chemin à faire pour en arriver là.
  • 11:58 - 12:03
    J'aimerais attirer votre attention
    sur la langue basque
  • 12:03 - 12:08
    qui a environ 10 000 lexèmes.
  • 12:09 - 12:13
    Or, si vous regardez le nombre
    de formes pour ces lexèmes,
  • 12:14 - 12:16
    le basque est très bien placé,
  • 12:18 - 12:20
    ce qui est vraiment bien
  • 12:20 - 12:22
    et il serait intéressant
    d'assister à l'exposé
  • 12:22 - 12:25
    qui vous expliquera cet état de fait.
  • 12:27 - 12:31
    Maintenant, si on regarde le nombre
    de sens, ce que les mots signifient,
  • 12:32 - 12:35
    le basque arrive en tête de la liste.
  • 12:35 - 12:37
    Il me semble que cela mérite
    nos applaudissements.
  • 12:37 - 12:39
    (applaudissements)
  • 12:46 - 12:47
    Une autre devinette.
  • 12:47 - 12:51
    Quel est le lexème le plus traduit
    à l'heure actuelle, selon vous ?
  • 12:51 - 12:54
    (public) Les chats, les chats,
    Douglas Adams
  • 12:54 - 12:56
    (rires)
  • 12:57 - 13:00
    Ce sont toutes de bonnes idées, mais non.
  • 13:01 - 13:04
    Voici la bonne réponse :
    c'est le mot russe qui désigne l'eau.
  • 13:09 - 13:12
    Très bien, nous avons beaucoup parlé
  • 13:12 - 13:16
    du nombre de formes et de sens
    des lexèmes que nous avons,
  • 13:16 - 13:20
    mais ce n'est qu'une partie
    de ce dont vous avez besoin.
  • 13:20 - 13:22
    L'autre chose dont vous avez besoin
  • 13:22 - 13:25
    c'est une description
    des formes et des sens de ces lexèmes,
  • 13:25 - 13:28
    dans un format qui soit lisible
    par des machines.
  • 13:28 - 13:31
    Et pour cela, vous avez des déclarations,
    comme dans les éléments.
  • 13:31 - 13:36
    Et l'une des propriétés utilisées ici
    est l'exemple d'utilisation.
  • 13:36 - 13:39
    De sorte que quiconque utilisera
    cette donnée
  • 13:39 - 13:42
    pourra comprendre comment
    utiliser ce mot dans un contexte,
  • 13:42 - 13:45
    il peut s'agir
    d'une citation, par exemple.
  • 13:45 - 13:47
    Et dans ce domaine, le polonais assure !
  • 13:48 - 13:50
    Bien joué, à vous qui parlez polonais.
  • 13:54 - 13:58
    Une autre propriété qui est
    vraiment utile, c'est l'API,
  • 13:58 - 14:00
    donc la manière de prononcer le mot.
  • 14:01 - 14:08
    Il semble que le russe exige
    de nombreuses déclarations API.
  • 14:10 - 14:13
    Mais revoici le polonais
    en deuxième position.
  • 14:17 - 14:21
    Et enfin, nous avons
    la prononciation audio.
  • 14:21 - 14:23
    Il s'agit là de liens vers des fichiers
    hébergés sur les Commons
  • 14:23 - 14:26
    où un individu prononce le mot,
  • 14:26 - 14:28
    ce qui vous permet d'entendre
    le mot prononcé par quelqu'un
  • 14:28 - 14:30
    dont c'est la langue natale,
  • 14:30 - 14:33
    pour le cas où vous ne sauriez pas
    déchiffrer l'API, par exemple.
  • 14:35 - 14:39
    Et il existe un projet vraiment sympa
    sous l'impulsion de Wiki
  • 14:39 - 14:41
    qui s'appelle « Lingua Libre »
  • 14:41 - 14:45
    auquel vous pouvez contribuer
    en enregistrant des mots dans votre langue
  • 14:45 - 14:48
    qui pourront ensuite être ajoutés
    aux lexèmes sur Wikidata
  • 14:48 - 14:52
    afin que d'autres puissent
    apprendre à prononcer vos mots.
  • 14:54 - 14:56
    (propos inaudibles d'un intervenant)
  • 14:56 - 14:58
    Si vous recherchez « Lingua Libre »
  • 14:58 - 15:01
    et je suis sûre que quelqu'un
    pourra poster le lien sur Telegram.
  • 15:03 - 15:05
    Ces gars-là sont super.
  • 15:05 - 15:07
    Ils ont fait un travail formidable
    avec Wikibase.
  • 15:09 - 15:11
    Très bien.
  • 15:13 - 15:17
    La question qui se pose à présent est :
    quelles sont les prochaines étapes ?
  • 15:19 - 15:22
    Si l'on en croit les chiffres
    que je viens de vous montrer,
  • 15:23 - 15:25
    nous avons bien avancé
  • 15:25 - 15:28
    vers notre objectif de donner plus d'accès
    à plus de savoir à davantage de gens
  • 15:28 - 15:31
    dans le domaine des langues sur Wikidata.
  • 15:33 - 15:36
    Mais nous avons encore beaucoup
    de travail à accomplir.
  • 15:39 - 15:42
    Une des choses que vous pouvez faire
    pour contribuer au projet,
  • 15:42 - 15:45
    c'est par exemple de lancer
    une opération « libelléthon »,
  • 15:45 - 15:50
    consistant à inciter des gens
    à créer des libellés sur Wikidata
  • 15:51 - 15:55
    ou une campagne de révision
    des lexèmes dans votre langue
  • 15:55 - 15:57
    pour assurer la présence sur Wikidata
  • 15:57 - 16:00
    des mots les plus usités
    dans votre langue.
  • 16:01 - 16:03
    Vous pouvez aussi utiliser
    un outil comme Terminator
  • 16:03 - 16:07
    qui vous aide à identifier
    les éléments les plus importants
  • 16:07 - 16:12
    mais ne disposant pas encore
    d'un libellé dans votre langue.
  • 16:13 - 16:18
    Nous qualifions ici de « plus importants »
    les éléments les plus fréquemment utilisés
  • 16:18 - 16:23
    dans d'autres éléments Wikidata
    en tant que liens dans les déclarations.
  • 16:26 - 16:30
    Et bien entendu, pour la partie lexèmes,
  • 16:31 - 16:35
    à présent que nous avons couvert
    l'essentiel des lexèmes,
  • 16:35 - 16:41
    il s'agit de les élaborer
    en y ajoutant des déclarations
  • 16:41 - 16:44
    afin qu'ils puissent réellement
    construire les bases
  • 16:44 - 16:47
    sur lesquelles des applications
    significatives pourront se développer.
  • 16:48 - 16:51
    Parce que nous nous rapprochons
    de la masse critique
  • 16:51 - 16:54
    mais nous sommes encore loin
  • 16:54 - 16:57
    de la situation permettant de bâtir
    de sérieuses applications sur ces bases.
  • 16:58 - 17:02
    Et j'espère que vous allez tous
    joindre vos efforts pour atteindre ce but.
  • 17:03 - 17:07
    Ce qui m'amène tout droit
  • 17:07 - 17:10
    à solliciter les amis qui nous soutiennent
  • 17:10 - 17:13
    et Bruno, veux-tu bien me rejoindre
  • 17:14 - 17:17
    pour nous parler des masques lexicaux ?
  • 17:18 - 17:19
    (Bruno) Merci, Lydia.
  • 17:19 - 17:22
    Merci de m'accorder un petit moment
  • 17:22 - 17:24
    pour présenter ce travail
    que nous effectuons à Google
  • 17:24 - 17:30
    avec Denny et dont la plupart d'entre vous
    ont probablement entendu parler.
  • 17:30 - 17:32
    Parce que je suis linguiste
    chez Google,
  • 17:32 - 17:34
    et je suis aussi très heureux
    de me trouver ici
  • 17:34 - 17:37
    en compagnie d'autres
    passionnés des langues,
  • 17:37 - 17:39
    et chez Google, nous construisons
    aussi des lexiques
  • 17:39 - 17:42
    et nous avons développé cette technologie
  • 17:42 - 17:46
    ou cette approche dont nous pensons
    qu'elle peut vous être utile.
  • 17:46 - 17:48
    Pour vous expliquer un peu le contexte,
  • 17:48 - 17:52
    vous pouvez voir ici mes références
    en matière de lexicographie.
  • 17:53 - 17:55
    Pour créer une base
    de données lexicographiques,
  • 17:55 - 17:59
    nous consacrons beaucoup de temps
    et d'efforts à maintenir une cohérence
  • 17:59 - 18:00
    et à échanger des données,
  • 18:00 - 18:02
    comme vous le savez probablement.
  • 18:02 - 18:04
    Il existe plusieurs tentatives
  • 18:04 - 18:06
    visant à unifier les caractéristiques
    et les propriétés
  • 18:06 - 18:09
    qui décrivent ces lexèmes et ces formes
  • 18:09 - 18:11
    et la question n'est pas encore réglée
  • 18:11 - 18:14
    mais des tentatives sont en cours
    pour aller dans le sens d'une unification.
  • 18:14 - 18:15
    Mais ce qui manque réellement,
  • 18:15 - 18:17
    et c'est un problème auquel
    nous avons été confrontés
  • 18:17 - 18:19
    chez Google au début du projet,
  • 18:19 - 18:22
    c'est de tenter de construire
    une structure interne
  • 18:22 - 18:26
    décrivant à quoi devrait ressembler
    une entrée lexicale,
  • 18:26 - 18:29
    le type de données ou d'informations
    dont nous disposons
  • 18:29 - 18:32
    et le degré de spécification attendu.
  • 18:32 - 18:38
    Et voici ce à quoi nous avons abouti
    et qui s'appelle le « masque lexical ».
  • 18:39 - 18:44
    Un masque lexical décrit
    les données attendues
  • 18:44 - 18:47
    pour qu'une entrée lexicographique
    puisse être considérée comme complète
  • 18:47 - 18:51
    à la fois quant au nombre de formes
    qu'un lexème devrait avoir
  • 18:51 - 18:56
    et quant au nombre de caractéristiques
    attendues pour chacune de ces formes.
  • 18:56 - 18:58
    Voici un exemple portant
    sur les adjectifs italiens.
  • 18:58 - 19:02
    En italien, on devrait trouver
    quatre formes pour les adjectifs
  • 19:02 - 19:05
    et chacune de ces formes
    reflète une combinaison spécifique
  • 19:05 - 19:08
    de caractéristiques de genre et de nombre.
  • 19:09 - 19:13
    C'est ce qui est attendu
    en matière d'adjectifs italiens.
  • 19:13 - 19:16
    Bien sûr, on peut avoir des masques
    extrêmement complexes,
  • 19:16 - 19:21
    comme pour les conjugaisons françaises
    qui sont très fournies
  • 19:21 - 19:23
    et je ne vous présente pas
    un masque russe quel qu'il soit,
  • 19:23 - 19:25
    parce qu'il déborderait de l'écran.
  • 19:26 - 19:30
    Et nous avons aussi
    des spécifications détaillées
  • 19:30 - 19:33
    parce que nous distinguons
    ce qui se situe au niveau de la forme.
  • 19:33 - 19:38
    Donc ici vous voyez les noms russes
    qui comportent trois nombres
  • 19:38 - 19:40
    ainsi qu'un nombre de cas
    avec différentes formes
  • 19:40 - 19:43
    mais ils ont également
    une spécification au niveau de l'entrée
  • 19:43 - 19:46
    qui indique qu'un nom
  • 19:46 - 19:47
    a un genre inhérent
  • 19:47 - 19:50
    ainsi qu'une caractéristique
    d'animéité inhérente
  • 19:50 - 19:53
    qui est également précisée dans le masque.
  • 19:55 - 19:59
    Nous voulons aussi préciser
    qu'un masque indique une spécification
  • 19:59 - 20:02
    de ce à quoi devrait ressembler
    une entrée, de manière générale.
  • 20:02 - 20:07
    Mais vous pouvez avoir des masques
    plus petits en cas de formes réduites
  • 20:07 - 20:11
    ou d'aspects limités de l'utilisation
    du lexème dans la langue.
  • 20:11 - 20:15
    Voici par exemple la version
    la plus simple de verbes en français
  • 20:15 - 20:18
    qui ne se conjuguent qu'à la troisième
    personne du singulier,
  • 20:18 - 20:20
    les verbes désignant
    les phénomènes météorologiques
  • 20:20 - 20:24
    comme « il pleut » ou « il neige »,
    comme c'est aussi le cas en anglais.
  • 20:25 - 20:27
    Donc, nous faisons la distinction
    entre ces deux niveaux.
  • 20:27 - 20:30
    Et la façon dont nous utilisons
    cela chez Google,
  • 20:30 - 20:33
    quand nous avons un lexique
    que nous voulons utiliser,
  • 20:33 - 20:38
    nous utilisons le masque
    pour carrément y déverser le lexique
  • 20:38 - 20:40
    et toutes ses entrées,
    qui vont traverser le masque
  • 20:40 - 20:44
    et nous voyons quelles entrées posent
    un problème en termes de structure.
  • 20:44 - 20:47
    Manque-t-il une forme ?
    Manque-t-il une caractéristique ?
  • 20:47 - 20:49
    Et quand un problème se présente,
  • 20:49 - 20:51
    nous avons recours
    à une validation humaine
  • 20:51 - 20:54
    pour vérifier si l'entrée passe
    l'épreuve du masque.
  • 20:54 - 20:58
    C'est donc un outil extrêmement puissant
    pour vérifier la qualité de la structure.
  • 20:59 - 21:02
    Et nous sommes heureux
    de vous annoncer aujourd'hui
  • 21:02 - 21:05
    que nous avons eu le feu vert
    pour ouvrir notre masque à l'open source.
  • 21:06 - 21:07
    Donc voici le schéma.
  • 21:07 - 21:10
    Si vous le voulez, nous pouvons
    le mettre à disposition
  • 21:10 - 21:13
    et le fournir à Wikidata
    sous forme de fichiers Shex.
  • 21:13 - 21:17
    Voici un fichier Shex
    pour les noms allemands
  • 21:17 - 21:20
    et Denny travaille à le convertir
    pour passer de nos spécifications internes
  • 21:20 - 21:24
    à une spécification
    plus appropriée à l'open source
  • 21:24 - 21:28
    Nous couvrons actuellement
    plus de 25 langues.
  • 21:28 - 21:29
    Nous espérons développer
    cette offre de notre côté
  • 21:29 - 21:34
    mais nous y voyons aussi une opportunité
    de collaboration pour ajouter des langues.
  • 21:34 - 21:41
    Et l'une de ces collaborations est celle
    que Denny entretient avec Lukas.
  • 21:41 - 21:45
    Lukas dispose d'outils fantastiques
    permettant une interface utilisateur
  • 21:45 - 21:49
    pour permettre à l'utilisateur
    ou au contributeur
  • 21:49 - 21:51
    d'ajouter davantage de formes.
  • 21:51 - 21:54
    Donc si vous voulez ajouter
    un adjectif en français,
  • 21:54 - 21:59
    l'IU vous indiquera le nombre
    de formes à fournir
  • 21:59 - 22:02
    et les caractéristiques
    que ces formes devraient avoir.
  • 22:02 - 22:06
    Ainsi notre masque permettra à cet outil
    de s'affiner et de se développer.
  • 22:07 - 22:08
    Et voilà.
  • 22:09 - 22:10
    (Lydia) Merci infiniment.
  • 22:10 - 22:12
    (applaudissements)
  • 22:14 - 22:17
    (Lydia) Très bien.
    Avez-vous des questions ?
  • 22:17 - 22:19
    Souhaitez-vous que nous parlions
    davantage des lexèmes ?
  • 22:20 - 22:22
    - (intervenant 1) Oui.
    - (Lydia) Oui. (petit rire)
  • 22:33 - 22:35
    - (intervenant 1) Vous parliez
  • 22:35 - 22:39
    de donner plus d'accès
    à plus de gens dans plus de langues,
  • 22:39 - 22:42
    mais beaucoup de langues ne peuvent pas
    être utilisées dans Wikidata.
  • 22:42 - 22:45
    Quelle solution avez-vous
    pour résoudre cela ?
  • 22:45 - 22:48
    Quand vous dites qu'elles
    ne peuvent pas utiliser Wikidata,
  • 22:48 - 22:50
    est-ce que vous parlez
    d'intégrer des libellés ?
  • 22:50 - 22:53
    - (i.1) Des libellés, des descriptions.
    - D'accord.
  • 22:53 - 22:55
    Donc, en ce qui concerne
    les lexèmes, c'est un peu différent,
  • 22:55 - 22:58
    parce que cette restriction
    ne s'applique pas ici.
  • 22:59 - 23:05
    Pour les libellés des éléments
    et propriétés, des restrictions existent
  • 23:05 - 23:11
    parce que nous voulions nous assurer
  • 23:11 - 23:14
    que n'importe qui ne puisse pas
    faire n'importe quoi
  • 23:14 - 23:18
    et que cela devienne ingérable.
  • 23:19 - 23:23
    Si une communauté, même petite,
    veut ajouter une langue et y travailler,
  • 23:24 - 23:27
    venez en discuter avec nous
    et nous pourrons rendre cela possible.
  • 23:27 - 23:29
    (i.1) Nous l'avons fait à l'occasion
    du Hackathon de Prague en mai
  • 23:29 - 23:33
    et il nous a fallu attendre le mois d'août
    pour pouvoir utiliser notre langue.
  • 23:33 - 23:35
    - Oui.
    - (i.1) Donc, c'est très lent.
  • 23:35 - 23:38
    Oui, c'est malheureusement très lent.
  • 23:38 - 23:40
    Nous travaillons actuellement
    avec le Comité des langues
  • 23:40 - 23:46
    à la résolution
    de certains points fondamentaux...
  • 23:50 - 23:55
    Comme par exemple parvenir à un accord
    sur les langues qui sont « autorisées »
  • 23:56 - 23:59
    et cela nous a pris trop de temps,
  • 24:00 - 24:02
    ce qui explique pourquoi votre demande
  • 24:02 - 24:05
    a probablement mis plus de temps
    à aboutir qu'elle ne l'aurait dû.
  • 24:05 - 24:06
    (i.1) Merci.
  • 24:07 - 24:08
    (intervenant 2) Merci.
  • 24:08 - 24:11
    Lydia, vous vous souvenez des statistiques
    que vous nous avez montrées,
  • 24:11 - 24:13
    sur le nombre de lexèmes par langue ?
  • 24:13 - 24:18
    Avez-vous pris chaque forme
    comme unité de calcul
  • 24:18 - 24:20
    ou seulement les lexèmes ?
  • 24:21 - 24:23
    Vous faites référence à ceci ?
  • 24:23 - 24:26
    - De quelle diapo parlez-vous ?
    - (i.2) Oui, c'est exactement cela.
  • 24:26 - 24:28
    Si vous vous rappelez,
    ce nombre représente-t-il
  • 24:28 - 24:32
    toutes les formes de tous les lexèmes
    où seulement les lexèmes existants ?
  • 24:32 - 24:35
    - Non, ce sont seulement des lexèmes.
    - (i.2) Uniquement les lexèmes, d'accord.
  • 24:35 - 24:37
    Alors la statistique est correcte.
  • 24:37 - 24:39
    Parce que si vous aviez pris
    les formes en compte,
  • 24:39 - 24:41
    et c'est la raison de ma question,
  • 24:41 - 24:43
    alors toutes les langues ayant
    une morphologie flexionnelle
  • 24:43 - 24:45
    comme le russe, le serbe, le slovène, etc.
  • 24:45 - 24:48
    seraient naturellement avantagées
    tant elles ont de formes.
  • 24:48 - 24:52
    C'est ici que c'est manifeste,
    sur le nombre de formes.
  • 24:52 - 24:54
    (intervenant 2) Oui,
    c'était bien celle-ci. Merci.
  • 24:57 - 25:00
    (intervenant 3) Une petite question
    concernant...
  • 25:01 - 25:07
    Quand nous parlons des éléments
    et propriétés à proprement parler,
  • 25:07 - 25:09
    Pour autant que je sache,
  • 25:09 - 25:12
    il n'y a à l'heure actuelle aucun moyen
    d'identifier une source
  • 25:12 - 25:15
    pour n'importe lequel des libellés
    et descriptions qui sont fournis.
  • 25:15 - 25:18
    Donc, par exemple,
    quand vous parlez
  • 25:18 - 25:21
    d'une propriété d'un élément,
  • 25:21 - 25:25
    vous pouvez être confronté
    à des libellés contradictoires.
  • 25:25 - 25:26
    Oui.
  • 25:26 - 25:28
    (i.3) Donc, disons
    que telle personne est...
  • 25:28 - 25:31
    Nous parlions tout à l'heure
    des questions indigènes, par exemple.
  • 25:31 - 25:36
    Donc telle personne est un artiste
    norvégien selon telle source
  • 25:36 - 25:39
    et un artiste sami
    selon telle autre source.
  • 25:40 - 25:43
    Ou par exemple, la question
    s'est posée pour l'estonien
  • 25:43 - 25:48
    et nous avons dû revoir la terminologie
    en fonction de la terminologie officielle
  • 25:48 - 25:50
    telle qu'elle figure
    dans les lexiques officiels,
  • 25:50 - 25:52
    mais nous n'avons aucun moyen
    d'indiquer quelle en est la raison,
  • 25:52 - 25:54
    quelle en est la source
    et pourquoi c'est plus juste
  • 25:54 - 25:56
    que ce qu'il y avait avant.
  • 25:56 - 25:57
    C'est un simple quidam comme moi
  • 25:57 - 26:00
    qui a remplacé la donnée
    pour qui la verra.
  • 26:00 - 26:03
    Donc est-il prévu de rendre cela possible
    d'une manière ou d'une autre
  • 26:03 - 26:07
    afin que nous puissions avoir de vraies
    sources pour les données linguistiques ?
  • 26:07 - 26:12
    Alors, c'est en partie possible.
  • 26:12 - 26:16
    Donc, par exemple, quand vous avez
    un élément portant sur une personne,
  • 26:17 - 26:23
    vous avez dans les déclarations :
    prénom, nom, etc., de cette personne
  • 26:23 - 26:26
    et vous pouvez fournir la référence
    correspondante à ce niveau-là.
  • 26:28 - 26:33
    J'ai beaucoup de réserves
    quant à rendre les choses plus complexes
  • 26:33 - 26:36
    avec des références
    sur les libellés et les descriptions,
  • 26:36 - 26:39
    mais si les gens pensent vraiment
  • 26:39 - 26:45
    que c'est quelque chose qui n'est couvert
    par aucune référence sur la déclaration,
  • 26:45 - 26:47
    alors parlons-en.
  • 26:49 - 26:53
    Mais je crains que cela n'entraîne
    beaucoup de complexité
  • 26:53 - 26:57
    pour des occurrences dont j'espère
    qu'elles sont peu nombreuses,
  • 26:57 - 27:00
    mais je veux bien être
    convaincue du contraire,
  • 27:00 - 27:04
    si les gens y tiennent beaucoup.
  • 27:04 - 27:08
    (i.3) Je veux dire, si c'est ajouté
    ce ne devrait pas être impératif
  • 27:08 - 27:12
    et apparaître à tous les utilisateurs
    débutant dans l'interface en tout cas.
  • 27:12 - 27:14
    Plutôt quelque chose comme :
  • 27:14 - 27:17
    « Cliquez ici si vous avez
    des commentaires à faire à ce sujet ».
  • 27:18 - 27:23
    A-t-on une idée du nombre
    de cas où cela aurait de l'importance ?
  • 27:25 - 27:26
    (i.3) En estonien, par exemple,
  • 27:26 - 27:29
    et je suppose que c'est aussi le cas
    dans d'autres langues,
  • 27:29 - 27:34
    il existe un mot officiel,
    qui est la traduction légitime
  • 27:34 - 27:36
    par exemple, en anglais,
  • 27:36 - 27:40
    disons d'un type particulier
    de municipalité.
  • 27:40 - 27:42
    C'était mon cas pratique,
  • 27:42 - 27:44
    par exemple, où nous utilisions
    le mot « paroisse »
  • 27:45 - 27:51
    où effectivement le mot estonien original
    avait le sens de paroisse d'église
  • 27:51 - 27:52
    et c'était là l'origine du mot
  • 27:52 - 27:54
    mais ce n'est plus
    la traduction officielle
  • 27:54 - 27:55
    qu'en donne l'Estonie aujourd'hui.
  • 27:55 - 27:58
    Dans ce cas, je l'ajouterais
    dans les déclarations
  • 27:58 - 28:01
    en tant que nom officiel
    et c'est là que j'ajouterais la référence.
  • 28:02 - 28:03
    (intervenant 3) D'accord.
  • 28:05 - 28:07
    D'autres questions, oui ?
  • 28:08 - 28:10
    (intervenant 4) J'aimerais faire
    deux courtes remarques.
  • 28:10 - 28:14
    Vous avez mis l'asturien en avant
    comme une langue réussissant bien
  • 28:14 - 28:16
    et je pense qu'il s'agit
    d'un effet artificiel.
  • 28:16 - 28:18
    Dites-m'en plus.
  • 28:18 - 28:20
    (intervenant 4) Je pense
    que c'est juste un robot
  • 28:20 - 28:22
    - (i.4) qui a collé...
    - Oh non !
  • 28:22 - 28:24
    (i.4) des noms de personnes,
    des noms propres
  • 28:24 - 28:27
    et a dit : « C'est exactement
    comme en français ou en espagnol »,
  • 28:27 - 28:29
    et a tout copié en bloc.
  • 28:29 - 28:33
    Ce qui tend à prouver ça, c'est qu'on ne
    retrouve pas cette énergie en asturien
  • 28:33 - 28:36
    pour les choses qui exigent
    réellement un effort de traduction
  • 28:36 - 28:37
    comme les noms de propriétés
  • 28:37 - 28:40
    ou les noms des éléments
    qui ne sont pas des noms propres.
  • 28:40 - 28:41
    Asaf, vous me brisez le cœur.
  • 28:41 - 28:43
    (i.4) Je sais.
    J'aime bien gâcher la fête,
  • 28:43 - 28:49
    mais j'ai aussi de bonnes nouvelles
    au sujet des scores en prononciation.
  • 28:49 - 28:51
    Comme vous le savez probablement,
  • 28:51 - 28:54
    les Commons sont pleins
    de fichiers de prononciation
  • 28:54 - 28:55
    et par exemple
  • 28:55 - 28:59
    le néerlandais compte pas moins
    de 300 000 fichiers de prononciation
  • 28:59 - 29:02
    qui sont déjà dans les Commons
  • 29:02 - 29:05
    et qui ne demandent qu'à être ingérés.
  • 29:05 - 29:08
    Donc si quelqu'un est en recherche
    d'un projet connexe,
  • 29:08 - 29:09
    il existe des tonnes et des tonnes
  • 29:09 - 29:13
    de fichiers de prononciation, classés
    et catégorisés dans les Commons
  • 29:13 - 29:17
    sous la catégorie
    « Prononciation » par langue.
  • 29:17 - 29:23
    Il n'y a plus qu'à les faire correspondre
    aux lexèmes et les intégrer dans Lexèmes.
  • 29:23 - 29:25
    Et d'autre part, je me demandais
    si vous pourriez parler un peu
  • 29:25 - 29:27
    de la feuille de route,
  • 29:27 - 29:29
    nous dire un peu
    quel degré d'investissement
  • 29:29 - 29:32
    ou ce que nous pouvons attendre
    de Lexème pour l'année qui vient,
  • 29:32 - 29:35
    parce qu'en tout cas
    pour ma part, je brûle d'impatience.
  • 29:35 - 29:37
    Vous brûlez d'impatience ?
    (petit rire)
  • 29:37 - 29:40
    - (i.3) de voir la suite.
    - Oui (petit rire)
  • 29:45 - 29:48
    Actuellement, nous nous concentrons
    plutôt sur Wikibase
  • 29:48 - 29:50
    et la qualité des données
  • 29:51 - 29:55
    pour voir quel est l'attrait suscité,
  • 29:55 - 30:02
    puis l'augmenter davantage
    au niveau des points faibles
  • 30:02 - 30:06
    et ensuite revenir pour continuer
    à développer les données lexicographiques.
  • 30:07 - 30:10
    Et une des choses que j'aimerais
    entendre de votre part,
  • 30:10 - 30:14
    c'est quelles devraient précisément
    être les prochaines étapes selon vous.
  • 30:14 - 30:16
    où voulez-vous voir des améliorations
  • 30:16 - 30:20
    pour que nous puissions définir
    comment parvenir à les produire.
  • 30:21 - 30:23
    Mais bien sûr, vous avez raison,
  • 30:23 - 30:26
    il reste encore tant à faire,
    au niveau technique aussi.
  • 30:31 - 30:36
    (intervenant 5) Tandis que nous intégrions
    les mots basques avec leurs formes,
  • 30:36 - 30:38
    et ce genre de situations
    est assez fréquent,
  • 30:38 - 30:41
    nous nous disions, la semaine dernière :
    « Oh, nous sommes premiers quelque part »
  • 30:43 - 30:45
    ça sort dans la presse, c'est comme :
  • 30:45 - 30:49
    « Oh, c'est une première, les Basques sont
    premiers dans un domaine, chouette ! »
  • 30:49 - 30:51
    (rire)
  • 30:51 - 30:54
    Et alors les gens nous demandent :
    « C'est bien, mais à quoi ça sert ? »
  • 30:55 - 30:57
    Nous n'avons pas vraiment
    de bonne réponse à ça.
  • 30:57 - 30:58
    je veux dire, c'est pas mal,
  • 30:58 - 31:02
    cela permettra aux ordinateurs
    de comprendre davantage notre langue, oui,
  • 31:02 - 31:05
    mais quel genre d'outils
    pourrons-nous développer à l'avenir ?
  • 31:05 - 31:07
    Nous n'avons pas
    de bonne réponse à cette question.
  • 31:07 - 31:11
    Donc, je me demande si vous avez
    une bonne réponse à ça.
  • 31:11 - 31:13
    (petit rire) Je ne sais pas
    si c'est une bonne réponse,
  • 31:13 - 31:15
    mais j'ai une réponse.
  • 31:15 - 31:20
    Alors, je crois qu'à l'heure actuelle,
    comme je l'indiquais,
  • 31:20 - 31:22
    nous n'avons pas atteint
    cette masse critique
  • 31:22 - 31:26
    qui permet de construire bon nombre
    des outils vraiment intéressants.
  • 31:26 - 31:28
    Mais il existe déjà quelques outils.
  • 31:28 - 31:32
    Pas plus tard que l'autre jour,
    par exemple, Esther [Pandelia]
  • 31:32 - 31:34
    a mis à disposition un outil
    permettant de visualiser
  • 31:36 - 31:39
    je crois qu'il s'agissait
    des mots sur un globe,
  • 31:39 - 31:42
    l'endroit où ils sont le plus parlés,
    l'endroit dont ils sont originaires.
  • 31:43 - 31:44
    Je me trompe peut-être là-dessus,
  • 31:44 - 31:47
    mais elle a répondu sur la page
    Discussion Projet de Wikidata,
  • 31:47 - 31:49
    vous pouvez allez voir.
  • 31:50 - 31:52
    Donc, nous voyons apparaître
    ces premiers outils,
  • 31:52 - 31:56
    tout comme nous l'avons vu
    au démarrage de Wikidata,
  • 31:57 - 32:00
    d'abord comme une sorte de réseau,
  • 32:00 - 32:03
    puis : « Hé, mais il y a cette chose
    qui se connecte à cette autre chose ».
  • 32:05 - 32:07
    Et une fois que l'on a plus de données
  • 32:07 - 32:11
    et que l'on a atteint
    une sorte de masse critique,
  • 32:12 - 32:15
    de nouvelles applications
    plus puissantes deviennent possibles
  • 32:16 - 32:18
    des choses comme Histropedia,
  • 32:19 - 32:22
    des choses comme les questions-réponses
  • 32:22 - 32:27
    avec votre assistant personnel numérique,
    Platypus et ainsi de suite.
  • 32:27 - 32:30
    Et nous voyons le même phénomène
    se produire avec les lexèmes.
  • 32:31 - 32:35
    Nous en sommes au stade
    où vous pouvez construire ces petits
  • 32:35 - 32:37
    « Hé, il y a une connexion possible
    entre ces deux choses,
  • 32:38 - 32:43
    et il existe une traduction
    de ce mot dans cette langue ».
  • 32:43 - 32:48
    Et plus nous l'élaborons,
    plus nous décrivons de mots,
  • 32:48 - 32:50
    plus ces choses deviennent possibles.
  • 32:50 - 32:52
    Alors, qu'est-ce qui devient possible ?
  • 32:53 - 32:59
    Comme Ben, notre conférencier sur Keynote,
    le disait plus tôt : les traductions,
  • 33:00 - 33:03
    être capable de traduire
    d'une langue à une autre.
  • 33:03 - 33:08
    Et Jens, mon collègue, ne cesse de parler
  • 33:08 - 33:11
    de l'Union Européenne
    qui cherche un traducteur
  • 33:11 - 33:17
    capable de traduire
    du maltais au suédois, je crois.
  • 33:17 - 33:20
    - (intervenant 6) de l'estonien.
    - De l'estonien.
  • 33:22 - 33:26
    Et ce n'est pas là
    une combinaison habituelle,
  • 33:27 - 33:29
    mais une fois que toutes ces langues
    sont disponibles
  • 33:29 - 33:32
    dans un espace
    lisible par des machines,
  • 33:32 - 33:33
    c'est faisable,
  • 33:33 - 33:37
    on peut avoir un dictionnaire
  • 33:37 - 33:42
    estonien-maltais et vice-versa.
  • 33:43 - 33:46
    Donc assurer des combinaisons
    de langues dans des dictionnaires
  • 33:46 - 33:48
    qui n'ont jamais été réalisés auparavant
  • 33:48 - 33:51
    parce que la demande était insuffisante
  • 33:51 - 33:56
    pour en faire un projet financièrement
    viable qui justifie un tel travail.
  • 33:56 - 33:57
    Maintenant nous pouvons le faire.
  • 34:00 - 34:02
    Ensuite, la création de texte.
  • 34:02 - 34:04
    Lucie parlait tout à l'heure
  • 34:04 - 34:10
    de la manière dont elle travaille
    avec Hattie à générer du texte
  • 34:10 - 34:12
    pour commencer à diffuser
    des articles de Wikipédia
  • 34:12 - 34:15
    dans des langues minoritaires
  • 34:15 - 34:20
    et cela exige d'avoir
    des données sur les mots
  • 34:20 - 34:23
    et il faut comprendre la langue
    pour y parvenir.
  • 34:24 - 34:28
    Et oui, ce ne sont que quelques
    exemples qui me viennent à l'esprit.
  • 34:29 - 34:31
    Peut-être que notre auditoire
    a d'autres idées
  • 34:31 - 34:32
    quant à ce qu'ils voudraient faire
  • 34:32 - 34:35
    une fois que nous aurons
    toutes ces précieuses données.
  • 34:38 - 34:41
    (intervenant 7) Je vais un peu
    m'écarter du sujet des lexèmes.
  • 34:41 - 34:43
    Je voudrais poser cette question.
  • 34:43 - 34:46
    Quel impact puis-je avoir en tant
    que membre d'une communauté
  • 34:46 - 34:50
    pour faire d'une tâche une priorité,
  • 34:50 - 34:54
    afin qu'un nouvel utilisateur
    puisse indiquer les langues
  • 34:54 - 34:57
    qu'il souhaite voir et éditer
  • 34:57 - 35:01
    sans disposer d'une bulle secrète
    de connaissances formatées ?
  • 35:02 - 35:05
    Peut-être verrons-nous cette année
    cette liste de souhaits techniques exaucée
  • 35:05 - 35:07
    en dehors des thèmes de Wikipédia.
  • 35:07 - 35:10
    Peut-être pouvons-nous espérer
    un vote général sur ce point
  • 35:10 - 35:14
    que nous n'avons pas réussi
    à résoudre depuis sept ans.
  • 35:14 - 35:18
    Avez-vous des idées
    ou des commentaires à ce sujet ?
  • 35:18 - 35:20
    Vous faites référence au fait
  • 35:20 - 35:24
    qu'un utilisateur qui n'est pas
    connecté sur Wikidata
  • 35:24 - 35:26
    ne peut pas apporter facilement
    de changements sur sa langue ?
  • 35:26 - 35:28
    (intervenant 7) Non,
    je parle des utilisateurs.
  • 35:28 - 35:31
    Alors, s'ils sont connectés,
  • 35:31 - 35:35
    ils peuvent modifier leur langue
    en haut de la page
  • 35:36 - 35:38
    et là ils verront apparaître,
  • 35:40 - 35:42
    l'endroit où se trouvent
    les descriptions des libellés
  • 35:42 - 35:44
    et ils peuvent les modifier.
  • 35:46 - 35:49
    (intervenant 7) Eh bien, en fait,
    bien souvent, le processus est tel
  • 35:49 - 35:52
    que si vous voulez avoir plusieurs
    langues disponibles, elles le sont,
  • 35:52 - 35:55
    mais ce n'est pas toujours le cas.
  • 35:55 - 35:57
    D'accord, peut-être
    pouvons-nous en discuter
  • 35:57 - 36:00
    après cette conférence
    et vous me montrerez ?
  • 36:02 - 36:04
    Bien. D'autres questions ?
  • 36:06 - 36:07
    Oui.
  • 36:12 - 36:13
    (intervenant 8) Merci pour votre exposé.
  • 36:14 - 36:15
    Pouvez-vous nous parler
  • 36:15 - 36:19
    de l'état de la corrélation
    avec la communauté Wiktionary ?
  • 36:19 - 36:22
    D'après ce que j'en ai vu,
    il a été question lors de discussions
  • 36:22 - 36:26
    d'importer certains éléments
    qui sont le fruit de leur travail
  • 36:26 - 36:31
    mais il semble qu'il y ait des problèmes
    de licences et des désaccords, etc.
  • 36:31 - 36:32
    C'est exact.
  • 36:32 - 36:36
    Les communautés Wiktionary
    ont consacré énormément de temps
  • 36:37 - 36:39
    à la construction de Wiktionary.
  • 36:39 - 36:43
    Ils ont élaboré
  • 36:43 - 36:48
    des modèles incroyablement complexes
  • 36:48 - 36:51
    pour créer de beaux tableaux
  • 36:51 - 36:54
    qui vous génèrent
    automatiquement des formulaires
  • 36:54 - 36:56
    et toutes sortes de trucs impressionnants
  • 36:56 - 37:01
    et parfois vraiment dingues,
    quand on y pense.
  • 37:02 - 37:08
    Et bien sûr, ils y ont consacré
    énormément de temps et d'efforts.
  • 37:09 - 37:12
    On peut comprendre
  • 37:12 - 37:17
    qu'ils ne souhaitent pas
    qu'on puisse s'approprier tout ça
  • 37:18 - 37:19
    aussi facilement.
  • 37:19 - 37:22
    Donc c'est un peu ce qui se dit
    de ce côté-là.
  • 37:23 - 37:25
    Et c'est OK.
  • 37:26 - 37:32
    Maintenant, les premières communautés
    Wiktionary parlent de participer
  • 37:32 - 37:34
    et d'importer certaines
    de leurs données sur Wikidata.
  • 37:34 - 37:39
    Le russe, comme vous avez pu le voir
    par exemple fait partie de ces cas.
  • 37:40 - 37:42
    Et je m'attends à ce que d'autres suivent.
  • 37:44 - 37:47
    Mais ce sera un processus lent,
  • 37:47 - 37:49
    de même que l'adoption
    de données Wikidata sur Wikipedia
  • 37:49 - 37:52
    a également fait l'objet
    d'un processus assez lent.
  • 37:53 - 37:56
    Outre le fait que cela rend plus facile
  • 37:56 - 37:59
    l'utilisation des données
    comprises dans les lexèmes
  • 37:59 - 38:02
    sur Wiktionary, pour qu'ils puissent
    s'en servir et partager des données
  • 38:02 - 38:06
    entre les Wiktionnaires
    de différentes langues,
  • 38:06 - 38:09
    chose hyper difficile voire impossible
    à faire à l'heure actuelle,
  • 38:09 - 38:12
    ce qui est fou,
    comme ce fut le cas sur Wikipédia.
  • 38:14 - 38:17
    Attendons les cadeaux
    d'anniversaire ! (petit rire)
  • 38:20 - 38:21
    Oui.
  • 38:23 - 38:25
    (Intervenant 9) Je pensais
    à la situation inverse,
  • 38:25 - 38:28
    je ne voulais pas en parler
    parce que ça me semblait idiot,
  • 38:28 - 38:32
    mais je crois que Wiktionnary
    dispose déjà de certains contenus
  • 38:32 - 38:35
    et je sais qu'on ne peut pas
    les transférer sur Wikidata
  • 38:35 - 38:37
    en raison des différences de licences.
  • 38:37 - 38:40
    Mais je me disais que nous pourrions
    peut-être remédier à cela.
  • 38:40 - 38:46
    Peut-être peut-on obtenir
    la permission des communautés
  • 38:46 - 38:51
    après un vote général
  • 38:52 - 38:56
    au cours duquel la communauté,
    les membres actifs de la communauté
  • 38:56 - 39:03
    voteraient et diraient s'ils veulent
    ou acceptent de transférer les contenus
  • 39:03 - 39:06
    permettant de faire les lexèmes Wikidata.
  • 39:06 - 39:09
    Parce que ça me paraît
    être un vrai gâchis.
  • 39:10 - 39:13
    Donc, c'est certainement une conversation
  • 39:13 - 39:16
    que ceux qui sont membres
    de communautés Wiktionary
  • 39:16 - 39:18
    peuvent susciter entre eux
    et nous en serions heureux.
  • 39:18 - 39:25
    Je crois que ce serait un peu présomptueux
    de notre part de chercher à forcer cela.
  • 39:26 - 39:31
    Mais oui, cela mérite largement
    qu'on en discute.
  • 39:31 - 39:34
    Mais il me semble important de comprendre
  • 39:34 - 39:36
    qu'il faut faire la distinction
  • 39:36 - 39:39
    entre ce qui est faisable
    d'un point de vue légal,
  • 39:39 - 39:43
    ce que nous devrions faire
  • 39:43 - 39:45
    et ce que ces gens veulent faire ou pas.
  • 39:46 - 39:48
    Donc, même si c'est autorisé légalement,
  • 39:48 - 39:51
    si certaines communautés
    Wiktionary s'y opposent,
  • 39:51 - 39:54
    je crois que nous devrions être
    pour le moins prudents là-dessus.
  • 39:59 - 40:02
    Je crois qu'il vous faut un micro
    pour la retransmission.
  • 40:05 - 40:08
    (intervenant 10) Tout cela
    est bien sûr très enthousiasmant
  • 40:08 - 40:12
    et je me demande tout de suite comment
    je peux en faire profiter mes élèves
  • 40:12 - 40:16
    et intégrer cela à mes cours,
  • 40:16 - 40:19
    au travail que nous faisons,
    dans le cadre de l'éducation.
  • 40:19 - 40:22
    Et je ne dispose pas à ce jour
  • 40:23 - 40:24
    des connaissances suffisantes, d'abord,
  • 40:24 - 40:27
    mais je crois que la documentation
    dont nous disposons
  • 40:28 - 40:30
    pourrait peut-être être améliorée.
  • 40:30 - 40:33
    Donc, j'aimerais exprimer le souhait
    de voir réaliser des vidéos sympa
  • 40:33 - 40:36
    pour expliquer comment ça marche
  • 40:36 - 40:40
    parce que si nous avons cela,
    nous pourrons nous en servir
  • 40:40 - 40:42
    et impliquer les élèves
  • 40:42 - 40:47
    et nous pourrons faire savoir aux gens
    à quel point c'est fantastique.
  • 40:47 - 40:52
    Et oui, donc, s'il vous plaît, pensez
    à la documentation et à l'éducation.
  • 40:52 - 40:54
    Parce que je crois qu'on pourrait
    faire beaucoup de choses.
  • 40:54 - 40:59
    Il y a de nombreuses tâches
    qui pourraient être effectuées avec...
  • 41:00 - 41:02
    je ne dirais pas des élèves de primaire
  • 41:02 - 41:05
    mais certainement
    avec des élèves plus jeunes.
  • 41:06 - 41:11
    Et donc j'aimerais vraiment
    que ce potentiel soit mis à contribution
  • 41:11 - 41:15
    et personnellement,
    je ne m'y connais pas assez à ce stade
  • 41:15 - 41:20
    pour pouvoir créer
    des tâches ou créer...
  • 41:20 - 41:22
    faire quelque chose de pratique avec ça.
  • 41:22 - 41:26
    Donc, si quelqu'un peut apporter
    de l'aide, des idées à ce sujet,
  • 41:26 - 41:30
    ce serait une joie pour moi
    d'entendre vos idées et les vôtres aussi.
  • 41:31 - 41:32
    D'accord ! Discutons-en.
  • 41:35 - 41:37
    D'autres questions ?
  • 41:38 - 41:39
    Quelqu'un d'autre avait levé la main
  • 41:39 - 41:41
    mais je ne sais plus qui.
  • 41:46 - 41:50
    (intervenant 11) Donc, si nous ne pouvons
    pas importer des contenus de Wiktionary,
  • 41:50 - 41:52
    y a-t-il des efforts concertés
  • 41:52 - 41:56
    pour trouver d'autres ressources
    dans le domaine public
  • 41:56 - 41:57
    peut-être des données
  • 41:59 - 42:03
    que nous pourrions pré-filtrer, organiser
  • 42:03 - 42:08
    afin de les rendre facilement vérifiables
    pour que les gens puissent les importer ?
  • 42:09 - 42:11
    Alors, il y a
    des premiers efforts de faits.
  • 42:11 - 42:15
    J'ai cru comprendre que le basque
    était l'un de ces exemples.
  • 42:15 - 42:17
    Peut-être voudriez-vous
    nous en dire plus à ce sujet ?
  • 42:18 - 42:20
    (l'intervenant 12 parle hors micro)
  • 42:23 - 42:27
    OK, la réponse aujourd'hui
    c'est de payer pour cela,
  • 42:28 - 42:33
    je veux dire, nous avons passé un accord
    avec un de nos prestataires habituels,
  • 42:35 - 42:39
    Ils font des dictionnaires...
  • 42:40 - 42:43
    plein d'autres trucs aussi,
    mais ils font des dictionnaires.
  • 42:43 - 42:45
    Donc, nous nous sommes entendus
  • 42:45 - 42:47
    pour mettre en libre accès
    le dictionnaire des étudiants
  • 42:47 - 42:53
    qui comprend les mots les plus communs
    et nous avons commencé à le téléverser
  • 42:53 - 42:56
    avec un identifiant externe
    et ce genre de choses.
  • 42:56 - 43:03
    Mais il y a eu quelques discussions
    sur le fait de le laisser en CC0
  • 43:03 - 43:06
    parce que leur dictionnaire
    est sous licence Attribution
  • 43:06 - 43:10
    et ils ont compris sur quoi
    reposait la différence.
  • 43:10 - 43:14
    Donc, cela a donné lieu
    à quelques discussions.
  • 43:14 - 43:20
    Mais je crois que si nous pouvons
    fournir des outils ou des exemples,
  • 43:20 - 43:22
    je pense qu'il y aura à l'avenir
    d'autres dictionnaires
  • 43:22 - 43:24
    que nous pourrons traiter
  • 43:24 - 43:29
    et je crois que Wiktionary devrait
    aussi aller dans ce sens,
  • 43:29 - 43:32
    mais c'est une autre discussion de taille.
  • 43:33 - 43:34
    Et de plus,
  • 43:34 - 43:39
    Lea est aussi en contact
    avec des Occitans
  • 43:39 - 43:42
    qui travaillent
    sur des dictionnaires en occitan
  • 43:42 - 43:45
    et participent en ce moment
    à une collaboration autour du sumérien.
  • 43:52 - 43:53
    D'autres questions ?
  • 44:01 - 44:04
    (intervenant 13) Bonjour.
    Nous sommes justement ceux
  • 44:04 - 44:05
    qui souhaitent importer
    les données en occitan.
  • 44:05 - 44:07
    Ah, parfait !
  • 44:07 - 44:08
    (i.13) Et nous rencontrons
    un petit problème.
  • 44:09 - 44:14
    C'est que nous ignorons comment refléter
    les variantes de tous les lexèmes.
  • 44:14 - 44:18
    Nous avons six dialectes
  • 44:18 - 44:24
    et nous voudrions indiquer
    dans quel dialecte le lexème s'utilise,
  • 44:24 - 44:27
    mais nous n'avons pas
    de déclaration C0 pour faire cela
  • 44:27 - 44:31
    Donc, tant que cette section n'existe pas
  • 44:32 - 44:34
    cela nous empêche de l'intégrer
  • 44:34 - 44:38
    parce que nous devrions
    tout reprendre
  • 44:38 - 44:42
    le jour où nous pourrons
    exprimer cette déclaration.
  • 44:42 - 44:45
    Et c'est compliqué
    parce que c'est une déclaration
  • 44:45 - 44:48
    qui aura peu de demandeurs
  • 44:48 - 44:53
    étant donnée qu'elle concerne
    principalement des langues minoritaires.
  • 44:53 - 44:57
    Donc, il n'y aura
    qu'un demandeur pour cela.
  • 44:57 - 45:00
    Mais comme nos collègues basques
  • 45:00 - 45:02
    ce sera peut-être une personne
  • 45:02 - 45:06
    qui ouvrira une possibilité
    à des milliers d'autres,
  • 45:06 - 45:11
    donc ce n'est peut-être pas trop demander,
  • 45:11 - 45:14
    mais ce sera très important pour nous.
  • 45:15 - 45:18
    Avez-vous une proposition
    de nouvelle propriété déjà prête
  • 45:18 - 45:20
    ou avez-vous besoin d'aide
    pour la créer ?
  • 45:22 - 45:24
    (intervenant 13) Nous en avons fait
    la demande il y a quatre mois.
  • 45:25 - 45:29
    D'accord, alors voyons qui peut aider
    à sortir cette proposition de propriété.
  • 45:30 - 45:33
    Je suis sûre qu'il y a assez de gens
    dans cette salle pour que ça se fasse.
  • 45:33 - 45:36
    (i.13) Proposition de propriété
    « Variété de la forme ».
  • 45:36 - 45:37
    (l'intervenant 14 parle hors micro)
  • 45:37 - 45:40
    (i.13) Nous n'avons pas eu de réponse
    et nous ne savons pas le faire
  • 45:40 - 45:43
    parce que nous ne sommes pas
    dans la communauté Wikidata.
  • 45:45 - 45:49
    OK. Il y a des gens ici
    qui peuvent vous aider.
  • 45:49 - 45:52
    Peut-être que vous pouvez lever la main...
  • 45:53 - 45:54
    (i.15) Je suis d'accord.
  • 45:54 - 45:56
    Je crois que c'est très intéressant
  • 45:56 - 45:59
    que la variété de forme
  • 45:59 - 46:03
    peut aussi être corrélée
    d'un point de vue géographique
  • 46:03 - 46:05
    avec des coordonnées
    ou une forme de cartographie.
  • 46:06 - 46:08
    Et cela vaut aussi
    pour les variétés de prononciations
  • 46:08 - 46:12
    et je crois que c'est quelque chose
    qui se produit dans beaucoup de langues.
  • 46:13 - 46:16
    Nous devrions pouvoir
    mettre cela en place.
  • 46:16 - 46:19
    je vais faire des recherches
    pour cette propriété.
  • 46:20 - 46:21
    Chouette.
  • 46:21 - 46:24
    Donc vous allez avoir du soutien
    pour votre proposition de propriété.
  • 46:26 - 46:27
    Merci.
  • 46:28 - 46:30
    Très bien. D'autres questions ?
  • 46:32 - 46:33
    Finn.
  • 46:34 - 46:35
    Finn fait partie de ceux
  • 46:35 - 46:38
    qui construisent des choses
    à partir des données lexicographiques.
  • 46:38 - 46:40
    (Finn) C'est juste une petite question.
  • 46:40 - 46:44
    et elle concerne les variantes
    orthographiques.
  • 46:45 - 46:48
    Il semble qu'il soit difficile
    de les faire apparaître...
  • 46:49 - 46:53
    Bien sûr, il serait possible d'avoir
    de multiples formes pour un même mot.
  • 46:56 - 46:58
    Je ne sais pas. Ça me semble...
  • 47:00 - 47:04
    Si on ne le fait pas de cette manière,
    il semble difficile de préciser...
  • 47:05 - 47:06
    je ne sais pas si...
  • 47:06 - 47:10
    s'il s'agit d'un souci technique mineur
    ou si au contraire...
  • 47:10 - 47:11
    Voyons cela ensemble.
  • 47:12 - 47:15
    Je serais ravie de voir un exemple.
  • 47:17 - 47:18
    Asaf.
  • 47:27 - 47:28
    (Asaf) Merci.
  • 47:29 - 47:34
    Je peux vous donner un exemple concret
    dans ma langue maternelle, l'hébreu.
  • 47:34 - 47:39
    L'hébreu a deux variantes principales
  • 47:39 - 47:43
    pour exprimer quasiment chaque mot
  • 47:43 - 47:48
    parce que l'orthographe traditionnelle
  • 47:48 - 47:50
    se dispense d'un grand nombre de voyelles.
  • 47:51 - 47:55
    Et par conséquent, dans les éditions
    modernes de la Bible ou des poèmes,
  • 47:55 - 47:57
    des signes diacritiques sont utilisés.
  • 47:57 - 47:59
    Cependant, ces signes diacritiques
  • 47:59 - 48:03
    ne sont jamais utilisés
    dans la prose moderne,
  • 48:03 - 48:06
    dans la presse
    ou les panneaux indicateurs.
  • 48:06 - 48:11
    Donc, l'usage courant ajoute
    des voyelles supplémentaires
  • 48:12 - 48:14
    et n'utilise pas de signes diacritiques
  • 48:14 - 48:16
    par qu'ils sont évidemment
    plus encombrants,
  • 48:16 - 48:19
    qu'ils sont soumis à toutes sortes
    de règles que plus personne ne connaît.
  • 48:19 - 48:21
    Donc en gros, il y a deux variantes.
  • 48:21 - 48:25
    Il y a la variante propre à la prose
    usuelle de tous les jours
  • 48:25 - 48:28
    et celle de la Bible ou de la poésie
  • 48:28 - 48:30
    qui se présente toujours
    sous la forme traditionnelle
  • 48:30 - 48:32
    avec ses signes diacritiques.
  • 48:32 - 48:33
    Pour être utile,
  • 48:33 - 48:37
    le lexème devrait reconnaître les deux
    variétés pour chaque mot sans exception
  • 48:37 - 48:40
    et pour chaque forme de chaque mot.
  • 48:41 - 48:43
    Donc il s'agit là d'un cas
    pratique très complet
  • 48:43 - 48:46
    pour ce qui est des variantes
    officielles stables.
  • 48:46 - 48:49
    Il ne s'agit pas de dialectes,
    il ne s'agit pas de variantes régionales,
  • 48:49 - 48:54
    mais bien de deux systèmes
    morphologiques qui coexistent.
  • 48:55 - 48:59
    Et je ne sais pas bien non plus
    comment exprimer cela dans les lexèmes
  • 48:59 - 49:03
    et en réponse à la question de Magnus,
    c'est l'une des choses qui m'empêchent
  • 49:03 - 49:05
    de téléverser les parties déjà prêtes
  • 49:05 - 49:09
    du plus grand dictionnaire d'hébreu
    qui fait partie du domaine public
  • 49:09 - 49:13
    et que j'ai entrepris de numériser
    depuis maintenant plusieurs années.
  • 49:13 - 49:15
    Une portion conséquente est déjà prête
  • 49:15 - 49:17
    mais je ne l'intègre pas au lexème
    pour le moment
  • 49:17 - 49:20
    parce que je ne sais pas exactement
    comment résoudre ce problème.
  • 49:20 - 49:23
    Très bien, trouvons
    la solution ici même (petit rire)
  • 49:25 - 49:26
    Ce doit être possible.
  • 49:30 - 49:32
    Très bien, d'autres questions ?
  • 49:37 - 49:40
    Si vous n'avez plus de questions,
    merci à tous.
  • 49:41 - 49:43
    (applaudissements)
  • 49:46 - 49:48
    WIKI DATA 2019
    Wikidata et les langues
Title:
cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4
Video Language:
English
Duration:
49:51

French subtitles

Revisions