Wikidata et les langues
Où en sommes-nous ?
Et après ?
(Lydia) Merci beaucoup.
L'un des sujets majeurs
de cette conférence concerne les langues.
Je voudrais vous donner un aperçu
du point où nous en sommes à ce jour
en ce qui concerne les langues
et quelles sont les prochaines étapes.
Le but de Wikidata est de donner
plus d'accès à plus de savoir
à davantage de monde
et la langue est un aspect essentiel
dans la réalisation de cet objectif,
d'autant plus que nos vies dépendent
de plus en plus de la technologie.
Et comme le disait notre conférencier
sur Keynote tout à l'heure,
une partie de cette technologie
reste inaccessible à certains
du simple fait qu'ils ne parlent pas
telle ou telle langue,
et ce n'est pas acceptable.
Donc nous voulons
remédier à cette situation.
Et afin de changer cela,
il faut au moins deux choses.
D'abord, on doit fournir des contenus
aux gens dans leur propre langue,
et la deuxième chose,
c'est de leur fournir la possibilité
d'interagir dans leur propre langue
avec des applications
ou quoi que ce soit d'autre.
Wikidata contribue à satisfaire
ces deux conditions.
La première d'entre elles,
du contenu dans votre langue,
c'est globalement ce que nous avons
dans les éléments et les propriétés,
la façon dont nous décrivons le monde.
Tout ce dont vous avez besoin
n'y est certainement pas
mais il y a déjà de quoi bien avancer.
L'autre point, c'est l'interaction
dans votre langue
et c'est là que les lexèmes
entrent en jeu :
si vous voulez parler
à votre assistant personnel numérique
ou que votre appareil
vous traduise un texte ou autre.
Très bien, intéressons-nous
aux contenus dans votre langue,
donc, à ce que nous avons
sous la rubrique Éléments et Propriétés.
Les libellés sont essentiels
pour ces éléments et propriétés.
Nous devons savoir comment s'appelle
l'entité dont il est question.
Et plutôt que de parler de Q5,
un anglophone saura
qu'il s'agit d'un « humain »,
un germanophone saura
qu'il s'agit d'un « Mensch »,
ce genre de choses.
Donc, les libellés
dans les éléments et les propriétés
font la liaison entre les humains
et les machines
mais relient aussi les humains entre eux
en leur rendant davantage
de savoir accessible.
À quoi ressemble notre couverture ?
L'intention est louable.
Mais voyons ce que cela donne
dans les faits.
Cela ressemble à ça.
Ce que vous voyez ici,
c'est que la plupart des éléments
dans Wikidata ont deux libellés,
donc des libellés dans deux langues.
Ensuite on passe à un, puis trois,
et au-delà, cela devient vraiment navrant.
(rires légers)
Je crois que nous devons
faire mieux que ça.
Mais, d'un autre côté,
je m'attendais à pire, en fait.
Je m'attendais à ce que la moyenne
soit d'une seule langue.
Donc, j'ai été agréablement surprise
de voir que c'était deux.
Quelles langues couvrons-nous ?
Très bien.
Mais au-delà de l'intérêt de savoir
de combien de libellés disposent
nos éléments et propriétés,
il est aussi intéressant de voir
quelles sont les langues de ces libellés.
Voici un graphique présentant les langues
dans lesquelles nous avons des libellés
pour les éléments.
La portion la plus grosse ici
correspond à la catégorie Autres.
Alors, je n'ai détaillé
que les 100 premières langues
donc tout le reste entre dans la catégorie
Autres pour que le graphique soit lisible.
Ensuite viennent l'anglais
et le néerlandais,
le français,
et n'oublions pas l'asturien.
- (un auditeur) Waouh !
- (Lydia) Waouh, effectivement !
Donc ce qui apparaît ici
est un déséquilibre considérable
avec toujours une nette
prédominance de l'anglais.
Par ailleurs, si l'on regarde
la même chose pour les propriétés,
le tableau est déjà mieux.
Je crois que cela tient en partie au fait
qu'il y a beaucoup moins de propriétés,
ce qui fait que même des communautés
plus petites peuvent assurer cette partie.
Mais cela constitue aussi
une partie importante de Wikidata
de pouvoir les adapter dans votre langue.
Donc c'est un point positif.
Ce que je voulais souligner ici
à propos de l'asturien,
c'est qu'une petite communauté
peut vraiment se démarquer
par son investissement et son travail,
et c'est vraiment chouette.
Une petite devinette pour vous.
Si vous prenez toutes
les propriétés de Wikidata
qui n'ont pas d'identifiants externes,
laquelle compte selon vous le plus grand
nombre de libellés, donc de langues ?
(réponses inaudibles de l'auditoire)
Il semble se dégager une majorité
pour « nature de l'élément ».
Ce serait une mauvaise réponse.
La réponse est « image ».
Donc, effectivement,
si vous parlez l'une des langues
pour lesquelles « nature de l'élément »
n'a pas encore de libellé,
vous savez ce qu'il vous reste à faire.
Donc, « image » dispose
de 148 libellés actuellement.
Mais c'est une autre diapositive.
Ce graphique nous donne une idée
du volume de contenu que nous rendons
accessible dans une langue donnée
et dans quelle proportion ce contenu
est effectivement utilisé.
Donc en gros, on peut voir
se dessiner une courbe
où la majorité des contenus
disposant de libellés en anglais,
étant disponibles en anglais
sont aussi largement utilisés.
Puis ça a tendance à diminuer.
Mais à nouveau,
on peut noter des exceptions
qui ont beaucoup plus de contenus
qu'on aurait pu s'y attendre,
et c'est une très bonne chose.
Le problème demeure que ces contenus
ne sont pas très utilisés.
L'asturien et le néerlandais devraient
être en meilleure position
et je crois qu'aider ces communautés
à accroître l'utilisation des données
qu'elles ont rassemblées
est quelque chose de très utile.
Ce que cette analyse ainsi que d'autres
nous ont révélé de positif,
c'est que les éléments les plus utilisés
ont aussi tendance
à avoir plus de libellés
à moins que ça ne marche en sens inverse ;
ce n'est pas tout à fait clair.
Et la question qui se pose alors, c'est :
Sommes-nous seulement au service
des langues les plus puissantes ?
Ou sommes-nous
au service de tout le monde ?
Et ce que vous voyez ici,
ce sont des regroupements de langues.
Les langues que nous avons
regroupées ensemble
ont tendance à avoir
des libellés en commun.
Et vous voyez se former des faisceaux.
À présent, voici un même type
de regroupement avec différentes couleurs,
selon que la langue est plus ou moins
vivante, plus ou moins largement utilisée
ou menacée de disparition.
Et la bonne chose qui apparaît ici,
c'est que les langues dominantes
et les langues menacées de disparition
ne constituent pas
deux groupes différents,
mais qu'elles sont toutes
mélangées ensemble,
ce qui est bien plus réjouissant
que si la situation avait été inverse
et que les langues les plus assurées,
les langues dominantes
s'étaient mutuellement soutenues.
Ce n'est pas le cas.
Et c'est une très bonne chose.
J'ai trouvé que c'était
un très bon signe quand j'ai vu ça.
Voici un autre exemple similaire
où nous avons regardé
le statut des langues
et le nombre de libellés
dont elles disposent.
Ce qui apparaît, c'est que les langues
fortes dominent clairement,
comme on pouvait s'y attendre.
Mais ce que l'on voit aussi,
c'est que les langues des catégories 2,
3 et peut-être même 4
ne s'en tirent pas si mal en fait,
au niveau de leur représentation
sur Wikidata,
ce qui est vraiment
un résultat réjouissant.
Maintenant, si on regarde
la même chose
sous l'angle de la proportion
de contenu de ces libellés
qui est effectivement utilisée
dans Wikipédia, par exemple,
on voit à nouveau se dessiner
la même tendance.
Et cela nous révèle que ces communautés
font vraiment bon usage de leur temps
en créant des libellés pour les éléments
les plus utilisés, par exemple.
Il y a des exceptions
que nous devons pouvoir soutenir
en aidant ces communautés à mieux
valoriser leur investissement.
Mais de façon générale,
cette image me paraît réjouissante.
Voilà pour ce qui était de la partie
éléments et propriétés de Wikidata.
Regardons à présent les interactions
dans vos langues.
Donc le volet lexème de Wikidata,
où il s'agit de décrire les mots,
leur forme et leur signification.
C'est un travail que nous avons
démarré en mai de l'année dernière
et le contenu
n'a cessé de se développer.
Ici, on voit les lexèmes en bleu,
en rouge, les formes de ces lexèmes
et en jaune, les significations
de ces lexèmes.
Donc certaines communautés,
nous y reviendrons plus tard,
ont consacré beaucoup de temps
à créer des formes et des significations
pour leurs lexèmes, ce qui est très utile
car cela constitue l'essence
des données dont vous avez besoin.
Maintenant, nous avons regardé
toutes les langues
qui ont des lexèmes sur Wikidata,
donc les mots que nous avons.
Ces derniers sont
actuellement en 310 langues.
Maintenant, quelle est,
à votre avis, la première langue
en termes de nombre de lexèmes
actuellement sur Wikidata ?
(réponses fusant de l'auditoire)
Le suédois, le russe,
l'asturien, l'allemand
- (un intervenant parle hors micro)
- Hein ?
(un autre intervenant) L'allemand.
Désolée, la bonne réponse a été donnée.
C'est le russe.
Le russe est loin devant.
Et pour vous donner une perspective,
les opinions divergent à ce sujet,
mais j'ai lu, par exemple,
que connaître 1 000 à 3 000 mots
vous permet d'accéder au niveau
courant dans une autre langue.
et qu'en connaître 4 000 à 10 000
vous situe à un niveau avancé.
Donc nous avons encore
du chemin à faire pour en arriver là.
J'aimerais attirer votre attention
sur la langue basque
qui a environ 10 000 lexèmes.
Or, si vous regardez le nombre
de formes pour ces lexèmes,
le basque est très bien placé,
ce qui est vraiment bien
et il serait intéressant
d'assister à l'exposé
qui vous expliquera cet état de fait.
Maintenant, si on regarde le nombre
de sens, ce que les mots signifient,
le basque arrive en tête de la liste.
Il me semble que cela mérite
nos applaudissements.
(applaudissements)
Une autre devinette.
Quel est le lexème le plus traduit
à l'heure actuelle, selon vous ?
(public) Les chats, les chats,
Douglas Adams
(rires)
Ce sont toutes de bonnes idées, mais non.
Voici la bonne réponse :
c'est le mot russe qui désigne l'eau.
Très bien, nous avons beaucoup parlé
du nombre de formes et de sens
des lexèmes que nous avons,
mais ce n'est qu'une partie
de ce dont vous avez besoin.
L'autre chose dont vous avez besoin
c'est une description
des formes et des sens de ces lexèmes,
dans un format qui soit lisible
par des machines.
Et pour cela, vous avez des déclarations,
comme dans les éléments.
Et l'une des propriétés utilisées ici
est l'exemple d'utilisation.
De sorte que quiconque utilisera
cette donnée
pourra comprendre comment
utiliser ce mot dans un contexte,
il peut s'agir
d'une citation, par exemple.
Et dans ce domaine, le polonais assure !
Bien joué, à vous qui parlez polonais.
Une autre propriété qui est
vraiment utile, c'est l'API,
donc la manière de prononcer le mot.
Il semble que le russe exige
de nombreuses déclarations API.
Mais revoici le polonais
en deuxième position.
Et enfin, nous avons
la prononciation audio.
Il s'agit là de liens vers des fichiers
hébergés sur les Commons
où un individu prononce le mot,
ce qui vous permet d'entendre
le mot prononcé par quelqu'un
dont c'est la langue natale,
pour le cas où vous ne sauriez pas
déchiffrer l'API, par exemple.
Et il existe un projet vraiment sympa
sous l'impulsion de Wiki
qui s'appelle « Lingua Libre »
auquel vous pouvez contribuer
en enregistrant des mots dans votre langue
qui pourront ensuite être ajoutés
aux lexèmes sur Wikidata
afin que d'autres puissent
apprendre à prononcer vos mots.
(propos inaudibles d'un intervenant)
Si vous recherchez « Lingua Libre »
et je suis sûre que quelqu'un
pourra poster le lien sur Telegram.
Ces gars-là sont super.
Ils ont fait un travail formidable
avec Wikibase.
Très bien.
La question qui se pose à présent est :
quelles sont les prochaines étapes ?
Si l'on en croit les chiffres
que je viens de vous montrer,
nous avons bien avancé
vers notre objectif de donner plus d'accès
à plus de savoir à davantage de gens
dans le domaine des langues sur Wikidata.
Mais nous avons encore beaucoup
de travail à accomplir.
Une des choses que vous pouvez faire
pour contribuer au projet,
c'est par exemple de lancer
une opération « libelléthon »,
consistant à inciter des gens
à créer des libellés sur Wikidata
ou une campagne de révision
des lexèmes dans votre langue
pour assurer la présence sur Wikidata
des mots les plus usités
dans votre langue.
Vous pouvez aussi utiliser
un outil comme Terminator
qui vous aide à identifier
les éléments les plus importants
mais ne disposant pas encore
d'un libellé dans votre langue.
Nous qualifions ici de « plus importants »
les éléments les plus fréquemment utilisés
dans d'autres éléments Wikidata
en tant que liens dans les déclarations.
Et bien entendu, pour la partie lexèmes,
à présent que nous avons couvert
l'essentiel des lexèmes,
il s'agit de les élaborer
en y ajoutant des déclarations
afin qu'ils puissent réellement
construire les bases
sur lesquelles des applications
significatives pourront se développer.
Parce que nous nous rapprochons
de la masse critique
mais nous sommes encore loin
de la situation permettant de bâtir
de sérieuses applications sur ces bases.
Et j'espère que vous allez tous
joindre vos efforts pour atteindre ce but.
Ce qui m'amène tout droit
à solliciter les amis qui nous soutiennent
et Bruno, veux-tu bien me rejoindre
pour nous parler des masques lexicaux ?
(Bruno) Merci, Lydia.
Merci de m'accorder un petit moment
pour présenter ce travail
que nous effectuons à Google
avec Denny et dont la plupart d'entre vous
ont probablement entendu parler.
Parce que je suis linguiste
chez Google,
et je suis aussi très heureux
de me trouver ici
en compagnie d'autres
passionnés des langues,
et chez Google, nous construisons
aussi des lexiques
et nous avons développé cette technologie
ou cette approche dont nous pensons
qu'elle peut vous être utile.
Pour vous expliquer un peu le contexte,
vous pouvez voir ici mes références
en matière de lexicographie.
Pour créer une base
de données lexicographiques,
nous consacrons beaucoup de temps
et d'efforts à maintenir une cohérence
et à échanger des données,
comme vous le savez probablement.
Il existe plusieurs tentatives
visant à unifier les caractéristiques
et les propriétés
qui décrivent ces lexèmes et ces formes
et la question n'est pas encore réglée
mais des tentatives sont en cours
pour aller dans le sens d'une unification.
Mais ce qui manque réellement,
et c'est un problème auquel
nous avons été confrontés
chez Google au début du projet,
c'est de tenter de construire
une structure interne
décrivant à quoi devrait ressembler
une entrée lexicale,
le type de données ou d'informations
dont nous disposons
et le degré de spécification attendu.
Et voici ce à quoi nous avons abouti
et qui s'appelle le « masque lexical ».
Un masque lexical décrit
les données attendues
pour qu'une entrée lexicographique
puisse être considérée comme complète
à la fois quant au nombre de formes
qu'un lexème devrait avoir
et quant au nombre de caractéristiques
attendues pour chacune de ces formes.
Voici un exemple portant
sur les adjectifs italiens.
En italien, on devrait trouver
quatre formes pour les adjectifs
et chacune de ces formes
reflète une combinaison spécifique
de caractéristiques de genre et de nombre.
C'est ce qui est attendu
en matière d'adjectifs italiens.
Bien sûr, on peut avoir des masques
extrêmement complexes,
comme pour les conjugaisons françaises
qui sont très fournies
et je ne vous présente pas
un masque russe quel qu'il soit,
parce qu'il déborderait de l'écran.
Et nous avons aussi
des spécifications détaillées
parce que nous distinguons
ce qui se situe au niveau de la forme.
Donc ici vous voyez les noms russes
qui comportent trois nombres
ainsi qu'un nombre de cas
avec différentes formes
mais ils ont également
une spécification au niveau de l'entrée
qui indique qu'un nom
a un genre inhérent
ainsi qu'une caractéristique
d'animéité inhérente
qui est également précisée dans le masque.
Nous voulons aussi préciser
qu'un masque indique une spécification
de ce à quoi devrait ressembler
une entrée, de manière générale.
Mais vous pouvez avoir des masques
plus petits en cas de formes réduites
ou d'aspects limités de l'utilisation
du lexème dans la langue.
Voici par exemple la version
la plus simple de verbes en français
qui ne se conjuguent qu'à la troisième
personne du singulier,
les verbes désignant
les phénomènes météorologiques
comme « il pleut » ou « il neige »,
comme c'est aussi le cas en anglais.
Donc, nous faisons la distinction
entre ces deux niveaux.
Et la façon dont nous utilisons
cela chez Google,
quand nous avons un lexique
que nous voulons utiliser,
nous utilisons le masque
pour carrément y déverser le lexique
et toutes ses entrées,
qui vont traverser le masque
et nous voyons quelles entrées posent
un problème en termes de structure.
Manque-t-il une forme ?
Manque-t-il une caractéristique ?
Et quand un problème se présente,
nous avons recours
à une validation humaine
pour vérifier si l'entrée passe
l'épreuve du masque.
C'est donc un outil extrêmement puissant
pour vérifier la qualité de la structure.
Et nous sommes heureux
de vous annoncer aujourd'hui
que nous avons eu le feu vert
pour ouvrir notre masque à l'open source.
Donc voici le schéma.
Si vous le voulez, nous pouvons
le mettre à disposition
et le fournir à Wikidata
sous forme de fichiers Shex.
Voici un fichier Shex
pour les noms allemands
et Denny travaille à le convertir
pour passer de nos spécifications internes
à une spécification
plus appropriée à l'open source
Nous couvrons actuellement
plus de 25 langues.
Nous espérons développer
cette offre de notre côté
mais nous y voyons aussi une opportunité
de collaboration pour ajouter des langues.
Et l'une de ces collaborations est celle
que Denny entretient avec Lukas.
Lukas dispose d'outils fantastiques
permettant une interface utilisateur
pour permettre à l'utilisateur
ou au contributeur
d'ajouter davantage de formes.
Donc si vous voulez ajouter
un adjectif en français,
l'IU vous indiquera le nombre
de formes à fournir
et les caractéristiques
que ces formes devraient avoir.
Ainsi notre masque permettra à cet outil
de s'affiner et de se développer.
Et voilà.
(Lydia) Merci infiniment.
(applaudissements)
(Lydia) Très bien.
Avez-vous des questions ?
Souhaitez-vous que nous parlions
davantage des lexèmes ?
- (intervenant 1) Oui.
- (Lydia) Oui. (petit rire)
- (intervenant 1) Vous parliez
de donner plus d'accès
à plus de gens dans plus de langues,
mais beaucoup de langues ne peuvent pas
être utilisées dans Wikidata.
Quelle solution avez-vous
pour résoudre cela ?
Quand vous dites qu'elles
ne peuvent pas utiliser Wikidata,
est-ce que vous parlez
d'intégrer des libellés ?
- (i.1) Des libellés, des descriptions.
- D'accord.
Donc, en ce qui concerne
les lexèmes, c'est un peu différent,
parce que cette restriction
ne s'applique pas ici.
Pour les libellés des éléments
et propriétés, des restrictions existent
parce que nous voulions nous assurer
que n'importe qui ne puisse pas
faire n'importe quoi
et que cela devienne ingérable.
Si une communauté, même petite,
veut ajouter une langue et y travailler,
venez en discuter avec nous
et nous pourrons rendre cela possible.
(i.1) Nous l'avons fait à l'occasion
du Hackathon de Prague en mai
et il nous a fallu attendre le mois d'août
pour pouvoir utiliser notre langue.
- Oui.
- (i.1) Donc, c'est très lent.
Oui, c'est malheureusement très lent.
Nous travaillons actuellement
avec le Comité des langues
à la résolution
de certains points fondamentaux...
Comme par exemple parvenir à un accord
sur les langues qui sont « autorisées »
et cela nous a pris trop de temps,
ce qui explique pourquoi votre demande
a probablement mis plus de temps
à aboutir qu'elle ne l'aurait dû.
(i.1) Merci.
(intervenant 2) Merci.
Lydia, vous vous souvenez des statistiques
que vous nous avez montrées,
sur le nombre de lexèmes par langue ?
Avez-vous pris chaque forme
comme unité de calcul
ou seulement les lexèmes ?
Vous faites référence à ceci ?
- De quelle diapo parlez-vous ?
- (i.2) Oui, c'est exactement cela.
Si vous vous rappelez,
ce nombre représente-t-il
toutes les formes de tous les lexèmes
où seulement les lexèmes existants ?
- Non, ce sont seulement des lexèmes.
- (i.2) Uniquement les lexèmes, d'accord.
Alors la statistique est correcte.
Parce que si vous aviez pris
les formes en compte,
et c'est la raison de ma question,
alors toutes les langues ayant
une morphologie flexionnelle
comme le russe, le serbe, le slovène, etc.
seraient naturellement avantagées
tant elles ont de formes.
C'est ici que c'est manifeste,
sur le nombre de formes.
(intervenant 2) Oui,
c'était bien celle-ci. Merci.
(intervenant 3) Une petite question
concernant...
Quand nous parlons des éléments
et propriétés à proprement parler,
Pour autant que je sache,
il n'y a à l'heure actuelle aucun moyen
d'identifier une source
pour n'importe lequel des libellés
et descriptions qui sont fournis.
Donc, par exemple,
quand vous parlez
d'une propriété d'un élément,
vous pouvez être confronté
à des libellés contradictoires.
Oui.
(i.3) Donc, disons
que telle personne est...
Nous parlions tout à l'heure
des questions indigènes, par exemple.
Donc telle personne est un artiste
norvégien selon telle source
et un artiste sami
selon telle autre source.
Ou par exemple, la question
s'est posée pour l'estonien
et nous avons dû revoir la terminologie
en fonction de la terminologie officielle
telle qu'elle figure
dans les lexiques officiels,
mais nous n'avons aucun moyen
d'indiquer quelle en est la raison,
quelle en est la source
et pourquoi c'est plus juste
que ce qu'il y avait avant.
C'est un simple quidam comme moi
qui a remplacé la donnée
pour qui la verra.
Donc est-il prévu de rendre cela possible
d'une manière ou d'une autre
afin que nous puissions avoir de vraies
sources pour les données linguistiques ?
Alors, c'est en partie possible.
Donc, par exemple, quand vous avez
un élément portant sur une personne,
vous avez dans les déclarations :
prénom, nom, etc., de cette personne
et vous pouvez fournir la référence
correspondante à ce niveau-là.
J'ai beaucoup de réserves
quant à rendre les choses plus complexes
avec des références
sur les libellés et les descriptions,
mais si les gens pensent vraiment
que c'est quelque chose qui n'est couvert
par aucune référence sur la déclaration,
alors parlons-en.
Mais je crains que cela n'entraîne
beaucoup de complexité
pour des occurrences dont j'espère
qu'elles sont peu nombreuses,
mais je veux bien être
convaincue du contraire,
si les gens y tiennent beaucoup.
(i.3) Je veux dire, si c'est ajouté
ce ne devrait pas être impératif
et apparaître à tous les utilisateurs
débutant dans l'interface en tout cas.
Plutôt quelque chose comme :
« Cliquez ici si vous avez
des commentaires à faire à ce sujet ».
A-t-on une idée du nombre
de cas où cela aurait de l'importance ?
(i.3) En estonien, par exemple,
et je suppose que c'est aussi le cas
dans d'autres langues,
il existe un mot officiel,
qui est la traduction légitime
par exemple, en anglais,
disons d'un type particulier
de municipalité.
C'était mon cas pratique,
par exemple, où nous utilisions
le mot « paroisse »
où effectivement le mot estonien original
avait le sens de paroisse d'église
et c'était là l'origine du mot
mais ce n'est plus
la traduction officielle
qu'en donne l'Estonie aujourd'hui.
Dans ce cas, je l'ajouterais
dans les déclarations
en tant que nom officiel
et c'est là que j'ajouterais la référence.
(intervenant 3) D'accord.
D'autres questions, oui ?
(intervenant 4) J'aimerais faire
deux courtes remarques.
Vous avez mis l'asturien en avant
comme une langue réussissant bien
et je pense qu'il s'agit
d'un effet artificiel.
Dites-m'en plus.
(intervenant 4) Je pense
que c'est juste un robot
- (i.4) qui a collé...
- Oh non !
(i.4) des noms de personnes,
des noms propres
et a dit : « C'est exactement
comme en français ou en espagnol »,
et a tout copié en bloc.
Ce qui tend à prouver ça, c'est qu'on ne
retrouve pas cette énergie en asturien
pour les choses qui exigent
réellement un effort de traduction
comme les noms de propriétés
ou les noms des éléments
qui ne sont pas des noms propres.
Asaf, vous me brisez le cœur.
(i.4) Je sais.
J'aime bien gâcher la fête,
mais j'ai aussi de bonnes nouvelles
au sujet des scores en prononciation.
Comme vous le savez probablement,
les Commons sont pleins
de fichiers de prononciation
et par exemple
le néerlandais compte pas moins
de 300 000 fichiers de prononciation
qui sont déjà dans les Commons
et qui ne demandent qu'à être ingérés.
Donc si quelqu'un est en recherche
d'un projet connexe,
il existe des tonnes et des tonnes
de fichiers de prononciation, classés
et catégorisés dans les Commons
sous la catégorie
« Prononciation » par langue.
Il n'y a plus qu'à les faire correspondre
aux lexèmes et les intégrer dans Lexèmes.
Et d'autre part, je me demandais
si vous pourriez parler un peu
de la feuille de route,
nous dire un peu
quel degré d'investissement
ou ce que nous pouvons attendre
de Lexème pour l'année qui vient,
parce qu'en tout cas
pour ma part, je brûle d'impatience.
Vous brûlez d'impatience ?
(petit rire)
- (i.3) de voir la suite.
- Oui (petit rire)
Actuellement, nous nous concentrons
plutôt sur Wikibase
et la qualité des données
pour voir quel est l'attrait suscité,
puis l'augmenter davantage
au niveau des points faibles
et ensuite revenir pour continuer
à développer les données lexicographiques.
Et une des choses que j'aimerais
entendre de votre part,
c'est quelles devraient précisément
être les prochaines étapes selon vous.
où voulez-vous voir des améliorations
pour que nous puissions définir
comment parvenir à les produire.
Mais bien sûr, vous avez raison,
il reste encore tant à faire,
au niveau technique aussi.
(intervenant 5) Tandis que nous intégrions
les mots basques avec leurs formes,
et ce genre de situations
est assez fréquent,
nous nous disions, la semaine dernière :
« Oh, nous sommes premiers quelque part »
ça sort dans la presse, c'est comme :
« Oh, c'est une première, les Basques sont
premiers dans un domaine, chouette ! »
(rire)
Et alors les gens nous demandent :
« C'est bien, mais à quoi ça sert ? »
Nous n'avons pas vraiment
de bonne réponse à ça.
je veux dire, c'est pas mal,
cela permettra aux ordinateurs
de comprendre davantage notre langue, oui,
mais quel genre d'outils
pourrons-nous développer à l'avenir ?
Nous n'avons pas
de bonne réponse à cette question.
Donc, je me demande si vous avez
une bonne réponse à ça.
(petit rire) Je ne sais pas
si c'est une bonne réponse,
mais j'ai une réponse.
Alors, je crois qu'à l'heure actuelle,
comme je l'indiquais,
nous n'avons pas atteint
cette masse critique
qui permet de construire bon nombre
des outils vraiment intéressants.
Mais il existe déjà quelques outils.
Pas plus tard que l'autre jour,
par exemple, Esther [Pandelia]
a mis à disposition un outil
permettant de visualiser
je crois qu'il s'agissait
des mots sur un globe,
l'endroit où ils sont le plus parlés,
l'endroit dont ils sont originaires.
Je me trompe peut-être là-dessus,
mais elle a répondu sur la page
Discussion Projet de Wikidata,
vous pouvez allez voir.
Donc, nous voyons apparaître
ces premiers outils,
tout comme nous l'avons vu
au démarrage de Wikidata,
d'abord comme une sorte de réseau,
puis : « Hé, mais il y a cette chose
qui se connecte à cette autre chose ».
Et une fois que l'on a plus de données
et que l'on a atteint
une sorte de masse critique,
de nouvelles applications
plus puissantes deviennent possibles
des choses comme Histropedia,
des choses comme les questions-réponses
avec votre assistant personnel numérique,
Platypus et ainsi de suite.
Et nous voyons le même phénomène
se produire avec les lexèmes.
Nous en sommes au stade
où vous pouvez construire ces petits
« Hé, il y a une connexion possible
entre ces deux choses,
et il existe une traduction
de ce mot dans cette langue ».
Et plus nous l'élaborons,
plus nous décrivons de mots,
plus ces choses deviennent possibles.
Alors, qu'est-ce qui devient possible ?
Comme Ben, notre conférencier sur Keynote,
le disait plus tôt : les traductions,
être capable de traduire
d'une langue à une autre.
Et Jens, mon collègue, ne cesse de parler
de l'Union Européenne
qui cherche un traducteur
capable de traduire
du maltais au suédois, je crois.
- (intervenant 6) de l'estonien.
- De l'estonien.
Et ce n'est pas là
une combinaison habituelle,
mais une fois que toutes ces langues
sont disponibles
dans un espace
lisible par des machines,
c'est faisable,
on peut avoir un dictionnaire
estonien-maltais et vice-versa.
Donc assurer des combinaisons
de langues dans des dictionnaires
qui n'ont jamais été réalisés auparavant
parce que la demande était insuffisante
pour en faire un projet financièrement
viable qui justifie un tel travail.
Maintenant nous pouvons le faire.
Ensuite, la création de texte.
Lucie parlait tout à l'heure
de la manière dont elle travaille
avec Hattie à générer du texte
pour commencer à diffuser
des articles de Wikipédia
dans des langues minoritaires
et cela exige d'avoir
des données sur les mots
et il faut comprendre la langue
pour y parvenir.
Et oui, ce ne sont que quelques
exemples qui me viennent à l'esprit.
Peut-être que notre auditoire
a d'autres idées
quant à ce qu'ils voudraient faire
une fois que nous aurons
toutes ces précieuses données.
(intervenant 7) Je vais un peu
m'écarter du sujet des lexèmes.
Je voudrais poser cette question.
Quel impact puis-je avoir en tant
que membre d'une communauté
pour faire d'une tâche une priorité,
afin qu'un nouvel utilisateur
puisse indiquer les langues
qu'il souhaite voir et éditer
sans disposer d'une bulle secrète
de connaissances formatées ?
Peut-être verrons-nous cette année
cette liste de souhaits techniques exaucée
en dehors des thèmes de Wikipédia.
Peut-être pouvons-nous espérer
un vote général sur ce point
que nous n'avons pas réussi
à résoudre depuis sept ans.
Avez-vous des idées
ou des commentaires à ce sujet ?
Vous faites référence au fait
qu'un utilisateur qui n'est pas
connecté sur Wikidata
ne peut pas apporter facilement
de changements sur sa langue ?
(intervenant 7) Non,
je parle des utilisateurs.
Alors, s'ils sont connectés,
ils peuvent modifier leur langue
en haut de la page
et là ils verront apparaître,
l'endroit où se trouvent
les descriptions des libellés
et ils peuvent les modifier.
(intervenant 7) Eh bien, en fait,
bien souvent, le processus est tel
que si vous voulez avoir plusieurs
langues disponibles, elles le sont,
mais ce n'est pas toujours le cas.
D'accord, peut-être
pouvons-nous en discuter
après cette conférence
et vous me montrerez ?
Bien. D'autres questions ?
Oui.
(intervenant 8) Merci pour votre exposé.
Pouvez-vous nous parler
de l'état de la corrélation
avec la communauté Wiktionary ?
D'après ce que j'en ai vu,
il a été question lors de discussions
d'importer certains éléments
qui sont le fruit de leur travail
mais il semble qu'il y ait des problèmes
de licences et des désaccords, etc.
C'est exact.
Les communautés Wiktionary
ont consacré énormément de temps
à la construction de Wiktionary.
Ils ont élaboré
des modèles incroyablement complexes
pour créer de beaux tableaux
qui vous génèrent
automatiquement des formulaires
et toutes sortes de trucs impressionnants
et parfois vraiment dingues,
quand on y pense.
Et bien sûr, ils y ont consacré
énormément de temps et d'efforts.
On peut comprendre
qu'ils ne souhaitent pas
qu'on puisse s'approprier tout ça
aussi facilement.
Donc c'est un peu ce qui se dit
de ce côté-là.
Et c'est OK.
Maintenant, les premières communautés
Wiktionary parlent de participer
et d'importer certaines
de leurs données sur Wikidata.
Le russe, comme vous avez pu le voir
par exemple fait partie de ces cas.
Et je m'attends à ce que d'autres suivent.
Mais ce sera un processus lent,
de même que l'adoption
de données Wikidata sur Wikipedia
a également fait l'objet
d'un processus assez lent.
Outre le fait que cela rend plus facile
l'utilisation des données
comprises dans les lexèmes
sur Wiktionary, pour qu'ils puissent
s'en servir et partager des données
entre les Wiktionnaires
de différentes langues,
chose hyper difficile voire impossible
à faire à l'heure actuelle,
ce qui est fou,
comme ce fut le cas sur Wikipédia.
Attendons les cadeaux
d'anniversaire ! (petit rire)
Oui.
(Intervenant 9) Je pensais
à la situation inverse,
je ne voulais pas en parler
parce que ça me semblait idiot,
mais je crois que Wiktionnary
dispose déjà de certains contenus
et je sais qu'on ne peut pas
les transférer sur Wikidata
en raison des différences de licences.
Mais je me disais que nous pourrions
peut-être remédier à cela.
Peut-être peut-on obtenir
la permission des communautés
après un vote général
au cours duquel la communauté,
les membres actifs de la communauté
voteraient et diraient s'ils veulent
ou acceptent de transférer les contenus
permettant de faire les lexèmes Wikidata.
Parce que ça me paraît
être un vrai gâchis.
Donc, c'est certainement une conversation
que ceux qui sont membres
de communautés Wiktionary
peuvent susciter entre eux
et nous en serions heureux.
Je crois que ce serait un peu présomptueux
de notre part de chercher à forcer cela.
Mais oui, cela mérite largement
qu'on en discute.
Mais il me semble important de comprendre
qu'il faut faire la distinction
entre ce qui est faisable
d'un point de vue légal,
ce que nous devrions faire
et ce que ces gens veulent faire ou pas.
Donc, même si c'est autorisé légalement,
si certaines communautés
Wiktionary s'y opposent,
je crois que nous devrions être
pour le moins prudents là-dessus.
Je crois qu'il vous faut un micro
pour la retransmission.
(intervenant 10) Tout cela
est bien sûr très enthousiasmant
et je me demande tout de suite comment
je peux en faire profiter mes élèves
et intégrer cela à mes cours,
au travail que nous faisons,
dans le cadre de l'éducation.
Et je ne dispose pas à ce jour
des connaissances suffisantes, d'abord,
mais je crois que la documentation
dont nous disposons
pourrait peut-être être améliorée.
Donc, j'aimerais exprimer le souhait
de voir réaliser des vidéos sympa
pour expliquer comment ça marche
parce que si nous avons cela,
nous pourrons nous en servir
et impliquer les élèves
et nous pourrons faire savoir aux gens
à quel point c'est fantastique.
Et oui, donc, s'il vous plaît, pensez
à la documentation et à l'éducation.
Parce que je crois qu'on pourrait
faire beaucoup de choses.
Il y a de nombreuses tâches
qui pourraient être effectuées avec...
je ne dirais pas des élèves de primaire
mais certainement
avec des élèves plus jeunes.
Et donc j'aimerais vraiment
que ce potentiel soit mis à contribution
et personnellement,
je ne m'y connais pas assez à ce stade
pour pouvoir créer
des tâches ou créer...
faire quelque chose de pratique avec ça.
Donc, si quelqu'un peut apporter
de l'aide, des idées à ce sujet,
ce serait une joie pour moi
d'entendre vos idées et les vôtres aussi.
D'accord ! Discutons-en.
D'autres questions ?
Quelqu'un d'autre avait levé la main
mais je ne sais plus qui.
(intervenant 11) Donc, si nous ne pouvons
pas importer des contenus de Wiktionary,
y a-t-il des efforts concertés
pour trouver d'autres ressources
dans le domaine public
peut-être des données
que nous pourrions pré-filtrer, organiser
afin de les rendre facilement vérifiables
pour que les gens puissent les importer ?
Alors, il y a
des premiers efforts de faits.
J'ai cru comprendre que le basque
était l'un de ces exemples.
Peut-être voudriez-vous
nous en dire plus à ce sujet ?
(l'intervenant 12 parle hors micro)
OK, la réponse aujourd'hui
c'est de payer pour cela,
je veux dire, nous avons passé un accord
avec un de nos prestataires habituels,
Ils font des dictionnaires...
plein d'autres trucs aussi,
mais ils font des dictionnaires.
Donc, nous nous sommes entendus
pour mettre en libre accès
le dictionnaire des étudiants
qui comprend les mots les plus communs
et nous avons commencé à le téléverser
avec un identifiant externe
et ce genre de choses.
Mais il y a eu quelques discussions
sur le fait de le laisser en CC0
parce que leur dictionnaire
est sous licence Attribution
et ils ont compris sur quoi
reposait la différence.
Donc, cela a donné lieu
à quelques discussions.
Mais je crois que si nous pouvons
fournir des outils ou des exemples,
je pense qu'il y aura à l'avenir
d'autres dictionnaires
que nous pourrons traiter
et je crois que Wiktionary devrait
aussi aller dans ce sens,
mais c'est une autre discussion de taille.
Et de plus,
Lea est aussi en contact
avec des Occitans
qui travaillent
sur des dictionnaires en occitan
et participent en ce moment
à une collaboration autour du sumérien.
D'autres questions ?
(intervenant 13) Bonjour.
Nous sommes justement ceux
qui souhaitent importer
les données en occitan.
Ah, parfait !
(i.13) Et nous rencontrons
un petit problème.
C'est que nous ignorons comment refléter
les variantes de tous les lexèmes.
Nous avons six dialectes
et nous voudrions indiquer
dans quel dialecte le lexème s'utilise,
mais nous n'avons pas
de déclaration C0 pour faire cela
Donc, tant que cette section n'existe pas
cela nous empêche de l'intégrer
parce que nous devrions
tout reprendre
le jour où nous pourrons
exprimer cette déclaration.
Et c'est compliqué
parce que c'est une déclaration
qui aura peu de demandeurs
étant donnée qu'elle concerne
principalement des langues minoritaires.
Donc, il n'y aura
qu'un demandeur pour cela.
Mais comme nos collègues basques
ce sera peut-être une personne
qui ouvrira une possibilité
à des milliers d'autres,
donc ce n'est peut-être pas trop demander,
mais ce sera très important pour nous.
Avez-vous une proposition
de nouvelle propriété déjà prête
ou avez-vous besoin d'aide
pour la créer ?
(intervenant 13) Nous en avons fait
la demande il y a quatre mois.
D'accord, alors voyons qui peut aider
à sortir cette proposition de propriété.
Je suis sûre qu'il y a assez de gens
dans cette salle pour que ça se fasse.
(i.13) Proposition de propriété
« Variété de la forme ».
(l'intervenant 14 parle hors micro)
(i.13) Nous n'avons pas eu de réponse
et nous ne savons pas le faire
parce que nous ne sommes pas
dans la communauté Wikidata.
OK. Il y a des gens ici
qui peuvent vous aider.
Peut-être que vous pouvez lever la main...
(i.15) Je suis d'accord.
Je crois que c'est très intéressant
que la variété de forme
peut aussi être corrélée
d'un point de vue géographique
avec des coordonnées
ou une forme de cartographie.
Et cela vaut aussi
pour les variétés de prononciations
et je crois que c'est quelque chose
qui se produit dans beaucoup de langues.
Nous devrions pouvoir
mettre cela en place.
je vais faire des recherches
pour cette propriété.
Chouette.
Donc vous allez avoir du soutien
pour votre proposition de propriété.
Merci.
Très bien. D'autres questions ?
Finn.
Finn fait partie de ceux
qui construisent des choses
à partir des données lexicographiques.
(Finn) C'est juste une petite question.
et elle concerne les variantes
orthographiques.
Il semble qu'il soit difficile
de les faire apparaître...
Bien sûr, il serait possible d'avoir
de multiples formes pour un même mot.
Je ne sais pas. Ça me semble...
Si on ne le fait pas de cette manière,
il semble difficile de préciser...
je ne sais pas si...
s'il s'agit d'un souci technique mineur
ou si au contraire...
Voyons cela ensemble.
Je serais ravie de voir un exemple.
Asaf.
(Asaf) Merci.
Je peux vous donner un exemple concret
dans ma langue maternelle, l'hébreu.
L'hébreu a deux variantes principales
pour exprimer quasiment chaque mot
parce que l'orthographe traditionnelle
se dispense d'un grand nombre de voyelles.
Et par conséquent, dans les éditions
modernes de la Bible ou des poèmes,
des signes diacritiques sont utilisés.
Cependant, ces signes diacritiques
ne sont jamais utilisés
dans la prose moderne,
dans la presse
ou les panneaux indicateurs.
Donc, l'usage courant ajoute
des voyelles supplémentaires
et n'utilise pas de signes diacritiques
par qu'ils sont évidemment
plus encombrants,
qu'ils sont soumis à toutes sortes
de règles que plus personne ne connaît.
Donc en gros, il y a deux variantes.
Il y a la variante propre à la prose
usuelle de tous les jours
et celle de la Bible ou de la poésie
qui se présente toujours
sous la forme traditionnelle
avec ses signes diacritiques.
Pour être utile,
le lexème devrait reconnaître les deux
variétés pour chaque mot sans exception
et pour chaque forme de chaque mot.
Donc il s'agit là d'un cas
pratique très complet
pour ce qui est des variantes
officielles stables.
Il ne s'agit pas de dialectes,
il ne s'agit pas de variantes régionales,
mais bien de deux systèmes
morphologiques qui coexistent.
Et je ne sais pas bien non plus
comment exprimer cela dans les lexèmes
et en réponse à la question de Magnus,
c'est l'une des choses qui m'empêchent
de téléverser les parties déjà prêtes
du plus grand dictionnaire d'hébreu
qui fait partie du domaine public
et que j'ai entrepris de numériser
depuis maintenant plusieurs années.
Une portion conséquente est déjà prête
mais je ne l'intègre pas au lexème
pour le moment
parce que je ne sais pas exactement
comment résoudre ce problème.
Très bien, trouvons
la solution ici même (petit rire)
Ce doit être possible.
Très bien, d'autres questions ?
Si vous n'avez plus de questions,
merci à tous.
(applaudissements)
WIKI DATA 2019
Wikidata et les langues