-
Wikidata et les langues
-
Où en sommes-nous ?
Et après ?
-
(Lydia) Merci beaucoup.
-
L'un des sujets majeurs
de cette conférence concerne les langues.
-
Je voudrais vous donner un aperçu
du point où nous en sommes à ce jour
-
en ce qui concerne les langues
-
et quelles sont les prochaines étapes.
-
Le but de Wikidata est de donner
-
plus d'accès à plus de savoir
à davantage de monde
-
et la langue est un aspect essentiel
dans la réalisation de cet objectif,
-
d'autant plus que nos vies dépendent
de plus en plus de la technologie.
-
Et comme le disait notre conférencier
sur Keynote tout à l'heure,
-
une partie de cette technologie
reste inaccessible à certains
-
du simple fait qu'ils ne parlent pas
telle ou telle langue,
-
et ce n'est pas acceptable.
-
Donc nous voulons
remédier à cette situation.
-
Et afin de changer cela,
il faut au moins deux choses.
-
D'abord, on doit fournir des contenus
aux gens dans leur propre langue,
-
et la deuxième chose,
-
c'est de leur fournir la possibilité
d'interagir dans leur propre langue
-
avec des applications
ou quoi que ce soit d'autre.
-
Wikidata contribue à satisfaire
ces deux conditions.
-
La première d'entre elles,
du contenu dans votre langue,
-
c'est globalement ce que nous avons
dans les éléments et les propriétés,
-
la façon dont nous décrivons le monde.
-
Tout ce dont vous avez besoin
n'y est certainement pas
-
mais il y a déjà de quoi bien avancer.
-
L'autre point, c'est l'interaction
dans votre langue
-
et c'est là que les lexèmes
entrent en jeu :
-
si vous voulez parler
à votre assistant personnel numérique
-
ou que votre appareil
vous traduise un texte ou autre.
-
Très bien, intéressons-nous
aux contenus dans votre langue,
-
donc, à ce que nous avons
sous la rubrique Éléments et Propriétés.
-
Les libellés sont essentiels
pour ces éléments et propriétés.
-
Nous devons savoir comment s'appelle
l'entité dont il est question.
-
Et plutôt que de parler de Q5,
-
un anglophone saura
qu'il s'agit d'un « humain »,
-
un germanophone saura
qu'il s'agit d'un « Mensch »,
-
ce genre de choses.
-
Donc, les libellés
dans les éléments et les propriétés
-
font la liaison entre les humains
et les machines
-
mais relient aussi les humains entre eux
-
en leur rendant davantage
de savoir accessible.
-
À quoi ressemble notre couverture ?
-
L'intention est louable.
-
Mais voyons ce que cela donne
dans les faits.
-
Cela ressemble à ça.
-
Ce que vous voyez ici,
-
c'est que la plupart des éléments
dans Wikidata ont deux libellés,
-
donc des libellés dans deux langues.
-
Ensuite on passe à un, puis trois,
-
et au-delà, cela devient vraiment navrant.
-
(rires légers)
-
Je crois que nous devons
faire mieux que ça.
-
Mais, d'un autre côté,
-
je m'attendais à pire, en fait.
-
Je m'attendais à ce que la moyenne
soit d'une seule langue.
-
Donc, j'ai été agréablement surprise
de voir que c'était deux.
-
Quelles langues couvrons-nous ?
-
Très bien.
-
Mais au-delà de l'intérêt de savoir
-
de combien de libellés disposent
nos éléments et propriétés,
-
il est aussi intéressant de voir
quelles sont les langues de ces libellés.
-
Voici un graphique présentant les langues
-
dans lesquelles nous avons des libellés
pour les éléments.
-
La portion la plus grosse ici
correspond à la catégorie Autres.
-
Alors, je n'ai détaillé
que les 100 premières langues
-
donc tout le reste entre dans la catégorie
Autres pour que le graphique soit lisible.
-
Ensuite viennent l'anglais
et le néerlandais,
-
le français,
-
et n'oublions pas l'asturien.
-
- (un auditeur) Waouh !
- (Lydia) Waouh, effectivement !
-
Donc ce qui apparaît ici
est un déséquilibre considérable
-
avec toujours une nette
prédominance de l'anglais.
-
Par ailleurs, si l'on regarde
la même chose pour les propriétés,
-
le tableau est déjà mieux.
-
Je crois que cela tient en partie au fait
qu'il y a beaucoup moins de propriétés,
-
ce qui fait que même des communautés
plus petites peuvent assurer cette partie.
-
Mais cela constitue aussi
une partie importante de Wikidata
-
de pouvoir les adapter dans votre langue.
-
Donc c'est un point positif.
-
Ce que je voulais souligner ici
à propos de l'asturien,
-
c'est qu'une petite communauté
peut vraiment se démarquer
-
par son investissement et son travail,
-
et c'est vraiment chouette.
-
Une petite devinette pour vous.
-
Si vous prenez toutes
les propriétés de Wikidata
-
qui n'ont pas d'identifiants externes,
-
laquelle compte selon vous le plus grand
nombre de libellés, donc de langues ?
-
(réponses inaudibles de l'auditoire)
-
Il semble se dégager une majorité
pour « nature de l'élément ».
-
Ce serait une mauvaise réponse.
-
La réponse est « image ».
-
Donc, effectivement,
si vous parlez l'une des langues
-
pour lesquelles « nature de l'élément »
n'a pas encore de libellé,
-
vous savez ce qu'il vous reste à faire.
-
Donc, « image » dispose
de 148 libellés actuellement.
-
Mais c'est une autre diapositive.
-
Ce graphique nous donne une idée
-
du volume de contenu que nous rendons
accessible dans une langue donnée
-
et dans quelle proportion ce contenu
est effectivement utilisé.
-
Donc en gros, on peut voir
se dessiner une courbe
-
où la majorité des contenus
disposant de libellés en anglais,
-
étant disponibles en anglais
sont aussi largement utilisés.
-
Puis ça a tendance à diminuer.
-
Mais à nouveau,
on peut noter des exceptions
-
qui ont beaucoup plus de contenus
qu'on aurait pu s'y attendre,
-
et c'est une très bonne chose.
-
Le problème demeure que ces contenus
ne sont pas très utilisés.
-
L'asturien et le néerlandais devraient
être en meilleure position
-
et je crois qu'aider ces communautés
-
à accroître l'utilisation des données
qu'elles ont rassemblées
-
est quelque chose de très utile.
-
Ce que cette analyse ainsi que d'autres
nous ont révélé de positif,
-
c'est que les éléments les plus utilisés
-
ont aussi tendance
à avoir plus de libellés
-
à moins que ça ne marche en sens inverse ;
ce n'est pas tout à fait clair.
-
Et la question qui se pose alors, c'est :
-
Sommes-nous seulement au service
des langues les plus puissantes ?
-
Ou sommes-nous
au service de tout le monde ?
-
Et ce que vous voyez ici,
ce sont des regroupements de langues.
-
Les langues que nous avons
regroupées ensemble
-
ont tendance à avoir
des libellés en commun.
-
Et vous voyez se former des faisceaux.
-
À présent, voici un même type
de regroupement avec différentes couleurs,
-
selon que la langue est plus ou moins
vivante, plus ou moins largement utilisée
-
ou menacée de disparition.
-
Et la bonne chose qui apparaît ici,
-
c'est que les langues dominantes
et les langues menacées de disparition
-
ne constituent pas
deux groupes différents,
-
mais qu'elles sont toutes
mélangées ensemble,
-
ce qui est bien plus réjouissant
que si la situation avait été inverse
-
et que les langues les plus assurées,
les langues dominantes
-
s'étaient mutuellement soutenues.
-
Ce n'est pas le cas.
-
Et c'est une très bonne chose.
-
J'ai trouvé que c'était
un très bon signe quand j'ai vu ça.
-
Voici un autre exemple similaire
-
où nous avons regardé
-
le statut des langues
-
et le nombre de libellés
dont elles disposent.
-
Ce qui apparaît, c'est que les langues
fortes dominent clairement,
-
comme on pouvait s'y attendre.
-
Mais ce que l'on voit aussi,
-
c'est que les langues des catégories 2,
3 et peut-être même 4
-
ne s'en tirent pas si mal en fait,
-
au niveau de leur représentation
sur Wikidata,
-
ce qui est vraiment
un résultat réjouissant.
-
Maintenant, si on regarde
la même chose
-
sous l'angle de la proportion
de contenu de ces libellés
-
qui est effectivement utilisée
dans Wikipédia, par exemple,
-
on voit à nouveau se dessiner
la même tendance.
-
Et cela nous révèle que ces communautés
font vraiment bon usage de leur temps
-
en créant des libellés pour les éléments
les plus utilisés, par exemple.
-
Il y a des exceptions
que nous devons pouvoir soutenir
-
en aidant ces communautés à mieux
valoriser leur investissement.
-
Mais de façon générale,
cette image me paraît réjouissante.
-
Voilà pour ce qui était de la partie
éléments et propriétés de Wikidata.
-
Regardons à présent les interactions
dans vos langues.
-
Donc le volet lexème de Wikidata,
-
où il s'agit de décrire les mots,
leur forme et leur signification.
-
C'est un travail que nous avons
démarré en mai de l'année dernière
-
et le contenu
n'a cessé de se développer.
-
Ici, on voit les lexèmes en bleu,
-
en rouge, les formes de ces lexèmes
-
et en jaune, les significations
de ces lexèmes.
-
Donc certaines communautés,
nous y reviendrons plus tard,
-
ont consacré beaucoup de temps
à créer des formes et des significations
-
pour leurs lexèmes, ce qui est très utile
-
car cela constitue l'essence
des données dont vous avez besoin.
-
Maintenant, nous avons regardé
toutes les langues
-
qui ont des lexèmes sur Wikidata,
-
donc les mots que nous avons.
-
Ces derniers sont
actuellement en 310 langues.
-
Maintenant, quelle est,
à votre avis, la première langue
-
en termes de nombre de lexèmes
actuellement sur Wikidata ?
-
(réponses fusant de l'auditoire)
Le suédois, le russe,
-
l'asturien, l'allemand
-
- (un intervenant parle hors micro)
- Hein ?
-
(un autre intervenant) L'allemand.
-
Désolée, la bonne réponse a été donnée.
-
C'est le russe.
-
Le russe est loin devant.
-
Et pour vous donner une perspective,
-
les opinions divergent à ce sujet,
-
mais j'ai lu, par exemple,
que connaître 1 000 à 3 000 mots
-
vous permet d'accéder au niveau
courant dans une autre langue.
-
et qu'en connaître 4 000 à 10 000
vous situe à un niveau avancé.
-
Donc nous avons encore
du chemin à faire pour en arriver là.
-
J'aimerais attirer votre attention
sur la langue basque
-
qui a environ 10 000 lexèmes.
-
Or, si vous regardez le nombre
de formes pour ces lexèmes,
-
le basque est très bien placé,
-
ce qui est vraiment bien
-
et il serait intéressant
d'assister à l'exposé
-
qui vous expliquera cet état de fait.
-
Maintenant, si on regarde le nombre
de sens, ce que les mots signifient,
-
le basque arrive en tête de la liste.
-
Il me semble que cela mérite
nos applaudissements.
-
(applaudissements)
-
Une autre devinette.
-
Quel est le lexème le plus traduit
à l'heure actuelle, selon vous ?
-
(public) Les chats, les chats,
Douglas Adams
-
(rires)
-
Ce sont toutes de bonnes idées, mais non.
-
Voici la bonne réponse :
c'est le mot russe qui désigne l'eau.
-
Très bien, nous avons beaucoup parlé
-
du nombre de formes et de sens
des lexèmes que nous avons,
-
mais ce n'est qu'une partie
de ce dont vous avez besoin.
-
L'autre chose dont vous avez besoin
-
c'est une description
des formes et des sens de ces lexèmes,
-
dans un format qui soit lisible
par des machines.
-
Et pour cela, vous avez des déclarations,
comme dans les éléments.
-
Et l'une des propriétés utilisées ici
est l'exemple d'utilisation.
-
De sorte que quiconque utilisera
cette donnée
-
pourra comprendre comment
utiliser ce mot dans un contexte,
-
il peut s'agir
d'une citation, par exemple.
-
Et dans ce domaine, le polonais assure !
-
Bien joué, à vous qui parlez polonais.
-
Une autre propriété qui est
vraiment utile, c'est l'API,
-
donc la manière de prononcer le mot.
-
Il semble que le russe exige
de nombreuses déclarations API.
-
Mais revoici le polonais
en deuxième position.
-
Et enfin, nous avons
la prononciation audio.
-
Il s'agit là de liens vers des fichiers
hébergés sur les Commons
-
où un individu prononce le mot,
-
ce qui vous permet d'entendre
le mot prononcé par quelqu'un
-
dont c'est la langue natale,
-
pour le cas où vous ne sauriez pas
déchiffrer l'API, par exemple.
-
Et il existe un projet vraiment sympa
sous l'impulsion de Wiki
-
qui s'appelle « Lingua Libre »
-
auquel vous pouvez contribuer
en enregistrant des mots dans votre langue
-
qui pourront ensuite être ajoutés
aux lexèmes sur Wikidata
-
afin que d'autres puissent
apprendre à prononcer vos mots.
-
(propos inaudibles d'un intervenant)
-
Si vous recherchez « Lingua Libre »
-
et je suis sûre que quelqu'un
pourra poster le lien sur Telegram.
-
Ces gars-là sont super.
-
Ils ont fait un travail formidable
avec Wikibase.
-
Très bien.
-
La question qui se pose à présent est :
quelles sont les prochaines étapes ?
-
Si l'on en croit les chiffres
que je viens de vous montrer,
-
nous avons bien avancé
-
vers notre objectif de donner plus d'accès
à plus de savoir à davantage de gens
-
dans le domaine des langues sur Wikidata.
-
Mais nous avons encore beaucoup
de travail à accomplir.
-
Une des choses que vous pouvez faire
pour contribuer au projet,
-
c'est par exemple de lancer
une opération « libelléthon »,
-
consistant à inciter des gens
à créer des libellés sur Wikidata
-
ou une campagne de révision
des lexèmes dans votre langue
-
pour assurer la présence sur Wikidata
-
des mots les plus usités
dans votre langue.
-
Vous pouvez aussi utiliser
un outil comme Terminator
-
qui vous aide à identifier
les éléments les plus importants
-
mais ne disposant pas encore
d'un libellé dans votre langue.
-
Nous qualifions ici de « plus importants »
les éléments les plus fréquemment utilisés
-
dans d'autres éléments Wikidata
en tant que liens dans les déclarations.
-
Et bien entendu, pour la partie lexèmes,
-
à présent que nous avons couvert
l'essentiel des lexèmes,
-
il s'agit de les élaborer
en y ajoutant des déclarations
-
afin qu'ils puissent réellement
construire les bases
-
sur lesquelles des applications
significatives pourront se développer.
-
Parce que nous nous rapprochons
de la masse critique
-
mais nous sommes encore loin
-
de la situation permettant de bâtir
de sérieuses applications sur ces bases.
-
Et j'espère que vous allez tous
joindre vos efforts pour atteindre ce but.
-
Ce qui m'amène tout droit
-
à solliciter les amis qui nous soutiennent
-
et Bruno, veux-tu bien me rejoindre
-
pour nous parler des masques lexicaux ?
-
(Bruno) Merci, Lydia.
-
Merci de m'accorder un petit moment
-
pour présenter ce travail
que nous effectuons à Google
-
avec Denny et dont la plupart d'entre vous
ont probablement entendu parler.
-
Parce que je suis linguiste
chez Google,
-
et je suis aussi très heureux
de me trouver ici
-
en compagnie d'autres
passionnés des langues,
-
et chez Google, nous construisons
aussi des lexiques
-
et nous avons développé cette technologie
-
ou cette approche dont nous pensons
qu'elle peut vous être utile.
-
Pour vous expliquer un peu le contexte,
-
vous pouvez voir ici mes références
en matière de lexicographie.
-
Pour créer une base
de données lexicographiques,
-
nous consacrons beaucoup de temps
et d'efforts à maintenir une cohérence
-
et à échanger des données,
-
comme vous le savez probablement.
-
Il existe plusieurs tentatives
-
visant à unifier les caractéristiques
et les propriétés
-
qui décrivent ces lexèmes et ces formes
-
et la question n'est pas encore réglée
-
mais des tentatives sont en cours
pour aller dans le sens d'une unification.
-
Mais ce qui manque réellement,
-
et c'est un problème auquel
nous avons été confrontés
-
chez Google au début du projet,
-
c'est de tenter de construire
une structure interne
-
décrivant à quoi devrait ressembler
une entrée lexicale,
-
le type de données ou d'informations
dont nous disposons
-
et le degré de spécification attendu.
-
Et voici ce à quoi nous avons abouti
et qui s'appelle le « masque lexical ».
-
Un masque lexical décrit
les données attendues
-
pour qu'une entrée lexicographique
puisse être considérée comme complète
-
à la fois quant au nombre de formes
qu'un lexème devrait avoir
-
et quant au nombre de caractéristiques
attendues pour chacune de ces formes.
-
Voici un exemple portant
sur les adjectifs italiens.
-
En italien, on devrait trouver
quatre formes pour les adjectifs
-
et chacune de ces formes
reflète une combinaison spécifique
-
de caractéristiques de genre et de nombre.
-
C'est ce qui est attendu
en matière d'adjectifs italiens.
-
Bien sûr, on peut avoir des masques
extrêmement complexes,
-
comme pour les conjugaisons françaises
qui sont très fournies
-
et je ne vous présente pas
un masque russe quel qu'il soit,
-
parce qu'il déborderait de l'écran.
-
Et nous avons aussi
des spécifications détaillées
-
parce que nous distinguons
ce qui se situe au niveau de la forme.
-
Donc ici vous voyez les noms russes
qui comportent trois nombres
-
ainsi qu'un nombre de cas
avec différentes formes
-
mais ils ont également
une spécification au niveau de l'entrée
-
qui indique qu'un nom
-
a un genre inhérent
-
ainsi qu'une caractéristique
d'animéité inhérente
-
qui est également précisée dans le masque.
-
Nous voulons aussi préciser
qu'un masque indique une spécification
-
de ce à quoi devrait ressembler
une entrée, de manière générale.
-
Mais vous pouvez avoir des masques
plus petits en cas de formes réduites
-
ou d'aspects limités de l'utilisation
du lexème dans la langue.
-
Voici par exemple la version
la plus simple de verbes en français
-
qui ne se conjuguent qu'à la troisième
personne du singulier,
-
les verbes désignant
les phénomènes météorologiques
-
comme « il pleut » ou « il neige »,
comme c'est aussi le cas en anglais.
-
Donc, nous faisons la distinction
entre ces deux niveaux.
-
Et la façon dont nous utilisons
cela chez Google,
-
quand nous avons un lexique
que nous voulons utiliser,
-
nous utilisons le masque
pour carrément y déverser le lexique
-
et toutes ses entrées,
qui vont traverser le masque
-
et nous voyons quelles entrées posent
un problème en termes de structure.
-
Manque-t-il une forme ?
Manque-t-il une caractéristique ?
-
Et quand un problème se présente,
-
nous avons recours
à une validation humaine
-
pour vérifier si l'entrée passe
l'épreuve du masque.
-
C'est donc un outil extrêmement puissant
pour vérifier la qualité de la structure.
-
Et nous sommes heureux
de vous annoncer aujourd'hui
-
que nous avons eu le feu vert
pour ouvrir notre masque à l'open source.
-
Donc voici le schéma.
-
Si vous le voulez, nous pouvons
le mettre à disposition
-
et le fournir à Wikidata
sous forme de fichiers Shex.
-
Voici un fichier Shex
pour les noms allemands
-
et Denny travaille à le convertir
pour passer de nos spécifications internes
-
à une spécification
plus appropriée à l'open source
-
Nous couvrons actuellement
plus de 25 langues.
-
Nous espérons développer
cette offre de notre côté
-
mais nous y voyons aussi une opportunité
de collaboration pour ajouter des langues.
-
Et l'une de ces collaborations est celle
que Denny entretient avec Lukas.
-
Lukas dispose d'outils fantastiques
permettant une interface utilisateur
-
pour permettre à l'utilisateur
ou au contributeur
-
d'ajouter davantage de formes.
-
Donc si vous voulez ajouter
un adjectif en français,
-
l'IU vous indiquera le nombre
de formes à fournir
-
et les caractéristiques
que ces formes devraient avoir.
-
Ainsi notre masque permettra à cet outil
de s'affiner et de se développer.
-
Et voilà.
-
(Lydia) Merci infiniment.
-
(applaudissements)
-
(Lydia) Très bien.
Avez-vous des questions ?
-
Souhaitez-vous que nous parlions
davantage des lexèmes ?
-
- (intervenant 1) Oui.
- (Lydia) Oui. (petit rire)
-
- (intervenant 1) Vous parliez
-
de donner plus d'accès
à plus de gens dans plus de langues,
-
mais beaucoup de langues ne peuvent pas
être utilisées dans Wikidata.
-
Quelle solution avez-vous
pour résoudre cela ?
-
Quand vous dites qu'elles
ne peuvent pas utiliser Wikidata,
-
est-ce que vous parlez
d'intégrer des libellés ?
-
- (i.1) Des libellés, des descriptions.
- D'accord.
-
Donc, en ce qui concerne
les lexèmes, c'est un peu différent,
-
parce que cette restriction
ne s'applique pas ici.
-
Pour les libellés des éléments
et propriétés, des restrictions existent
-
parce que nous voulions nous assurer
-
que n'importe qui ne puisse pas
faire n'importe quoi
-
et que cela devienne ingérable.
-
Si une communauté, même petite,
veut ajouter une langue et y travailler,
-
venez en discuter avec nous
et nous pourrons rendre cela possible.
-
(i.1) Nous l'avons fait à l'occasion
du Hackathon de Prague en mai
-
et il nous a fallu attendre le mois d'août
pour pouvoir utiliser notre langue.
-
- Oui.
- (i.1) Donc, c'est très lent.
-
Oui, c'est malheureusement très lent.
-
Nous travaillons actuellement
avec le Comité des langues
-
à la résolution
de certains points fondamentaux...
-
Comme par exemple parvenir à un accord
sur les langues qui sont « autorisées »
-
et cela nous a pris trop de temps,
-
ce qui explique pourquoi votre demande
-
a probablement mis plus de temps
à aboutir qu'elle ne l'aurait dû.
-
(i.1) Merci.
-
(intervenant 2) Merci.
-
Lydia, vous vous souvenez des statistiques
que vous nous avez montrées,
-
sur le nombre de lexèmes par langue ?
-
Avez-vous pris chaque forme
comme unité de calcul
-
ou seulement les lexèmes ?
-
Vous faites référence à ceci ?
-
- De quelle diapo parlez-vous ?
- (i.2) Oui, c'est exactement cela.
-
Si vous vous rappelez,
ce nombre représente-t-il
-
toutes les formes de tous les lexèmes
où seulement les lexèmes existants ?
-
- Non, ce sont seulement des lexèmes.
- (i.2) Uniquement les lexèmes, d'accord.
-
Alors la statistique est correcte.
-
Parce que si vous aviez pris
les formes en compte,
-
et c'est la raison de ma question,
-
alors toutes les langues ayant
une morphologie flexionnelle
-
comme le russe, le serbe, le slovène, etc.
-
seraient naturellement avantagées
tant elles ont de formes.
-
C'est ici que c'est manifeste,
sur le nombre de formes.
-
(intervenant 2) Oui,
c'était bien celle-ci. Merci.
-
(intervenant 3) Une petite question
concernant...
-
Quand nous parlons des éléments
et propriétés à proprement parler,
-
Pour autant que je sache,
-
il n'y a à l'heure actuelle aucun moyen
d'identifier une source
-
pour n'importe lequel des libellés
et descriptions qui sont fournis.
-
Donc, par exemple,
quand vous parlez
-
d'une propriété d'un élément,
-
vous pouvez être confronté
à des libellés contradictoires.
-
Oui.
-
(i.3) Donc, disons
que telle personne est...
-
Nous parlions tout à l'heure
des questions indigènes, par exemple.
-
Donc telle personne est un artiste
norvégien selon telle source
-
et un artiste sami
selon telle autre source.
-
Ou par exemple, la question
s'est posée pour l'estonien
-
et nous avons dû revoir la terminologie
en fonction de la terminologie officielle
-
telle qu'elle figure
dans les lexiques officiels,
-
mais nous n'avons aucun moyen
d'indiquer quelle en est la raison,
-
quelle en est la source
et pourquoi c'est plus juste
-
que ce qu'il y avait avant.
-
C'est un simple quidam comme moi
-
qui a remplacé la donnée
pour qui la verra.
-
Donc est-il prévu de rendre cela possible
d'une manière ou d'une autre
-
afin que nous puissions avoir de vraies
sources pour les données linguistiques ?
-
Alors, c'est en partie possible.
-
Donc, par exemple, quand vous avez
un élément portant sur une personne,
-
vous avez dans les déclarations :
prénom, nom, etc., de cette personne
-
et vous pouvez fournir la référence
correspondante à ce niveau-là.
-
J'ai beaucoup de réserves
quant à rendre les choses plus complexes
-
avec des références
sur les libellés et les descriptions,
-
mais si les gens pensent vraiment
-
que c'est quelque chose qui n'est couvert
par aucune référence sur la déclaration,
-
alors parlons-en.
-
Mais je crains que cela n'entraîne
beaucoup de complexité
-
pour des occurrences dont j'espère
qu'elles sont peu nombreuses,
-
mais je veux bien être
convaincue du contraire,
-
si les gens y tiennent beaucoup.
-
(i.3) Je veux dire, si c'est ajouté
ce ne devrait pas être impératif
-
et apparaître à tous les utilisateurs
débutant dans l'interface en tout cas.
-
Plutôt quelque chose comme :
-
« Cliquez ici si vous avez
des commentaires à faire à ce sujet ».
-
A-t-on une idée du nombre
de cas où cela aurait de l'importance ?
-
(i.3) En estonien, par exemple,
-
et je suppose que c'est aussi le cas
dans d'autres langues,
-
il existe un mot officiel,
qui est la traduction légitime
-
par exemple, en anglais,
-
disons d'un type particulier
de municipalité.
-
C'était mon cas pratique,
-
par exemple, où nous utilisions
le mot « paroisse »
-
où effectivement le mot estonien original
avait le sens de paroisse d'église
-
et c'était là l'origine du mot
-
mais ce n'est plus
la traduction officielle
-
qu'en donne l'Estonie aujourd'hui.
-
Dans ce cas, je l'ajouterais
dans les déclarations
-
en tant que nom officiel
et c'est là que j'ajouterais la référence.
-
(intervenant 3) D'accord.
-
D'autres questions, oui ?
-
(intervenant 4) J'aimerais faire
deux courtes remarques.
-
Vous avez mis l'asturien en avant
comme une langue réussissant bien
-
et je pense qu'il s'agit
d'un effet artificiel.
-
Dites-m'en plus.
-
(intervenant 4) Je pense
que c'est juste un robot
-
- (i.4) qui a collé...
- Oh non !
-
(i.4) des noms de personnes,
des noms propres
-
et a dit : « C'est exactement
comme en français ou en espagnol »,
-
et a tout copié en bloc.
-
Ce qui tend à prouver ça, c'est qu'on ne
retrouve pas cette énergie en asturien
-
pour les choses qui exigent
réellement un effort de traduction
-
comme les noms de propriétés
-
ou les noms des éléments
qui ne sont pas des noms propres.
-
Asaf, vous me brisez le cœur.
-
(i.4) Je sais.
J'aime bien gâcher la fête,
-
mais j'ai aussi de bonnes nouvelles
au sujet des scores en prononciation.
-
Comme vous le savez probablement,
-
les Commons sont pleins
de fichiers de prononciation
-
et par exemple
-
le néerlandais compte pas moins
de 300 000 fichiers de prononciation
-
qui sont déjà dans les Commons
-
et qui ne demandent qu'à être ingérés.
-
Donc si quelqu'un est en recherche
d'un projet connexe,
-
il existe des tonnes et des tonnes
-
de fichiers de prononciation, classés
et catégorisés dans les Commons
-
sous la catégorie
« Prononciation » par langue.
-
Il n'y a plus qu'à les faire correspondre
aux lexèmes et les intégrer dans Lexèmes.
-
Et d'autre part, je me demandais
si vous pourriez parler un peu
-
de la feuille de route,
-
nous dire un peu
quel degré d'investissement
-
ou ce que nous pouvons attendre
de Lexème pour l'année qui vient,
-
parce qu'en tout cas
pour ma part, je brûle d'impatience.
-
Vous brûlez d'impatience ?
(petit rire)
-
- (i.3) de voir la suite.
- Oui (petit rire)
-
Actuellement, nous nous concentrons
plutôt sur Wikibase
-
et la qualité des données
-
pour voir quel est l'attrait suscité,
-
puis l'augmenter davantage
au niveau des points faibles
-
et ensuite revenir pour continuer
à développer les données lexicographiques.
-
Et une des choses que j'aimerais
entendre de votre part,
-
c'est quelles devraient précisément
être les prochaines étapes selon vous.
-
où voulez-vous voir des améliorations
-
pour que nous puissions définir
comment parvenir à les produire.
-
Mais bien sûr, vous avez raison,
-
il reste encore tant à faire,
au niveau technique aussi.
-
(intervenant 5) Tandis que nous intégrions
les mots basques avec leurs formes,
-
et ce genre de situations
est assez fréquent,
-
nous nous disions, la semaine dernière :
« Oh, nous sommes premiers quelque part »
-
ça sort dans la presse, c'est comme :
-
« Oh, c'est une première, les Basques sont
premiers dans un domaine, chouette ! »
-
(rire)
-
Et alors les gens nous demandent :
« C'est bien, mais à quoi ça sert ? »
-
Nous n'avons pas vraiment
de bonne réponse à ça.
-
je veux dire, c'est pas mal,
-
cela permettra aux ordinateurs
de comprendre davantage notre langue, oui,
-
mais quel genre d'outils
pourrons-nous développer à l'avenir ?
-
Nous n'avons pas
de bonne réponse à cette question.
-
Donc, je me demande si vous avez
une bonne réponse à ça.
-
(petit rire) Je ne sais pas
si c'est une bonne réponse,
-
mais j'ai une réponse.
-
Alors, je crois qu'à l'heure actuelle,
comme je l'indiquais,
-
nous n'avons pas atteint
cette masse critique
-
qui permet de construire bon nombre
des outils vraiment intéressants.
-
Mais il existe déjà quelques outils.
-
Pas plus tard que l'autre jour,
par exemple, Esther [Pandelia]
-
a mis à disposition un outil
permettant de visualiser
-
je crois qu'il s'agissait
des mots sur un globe,
-
l'endroit où ils sont le plus parlés,
l'endroit dont ils sont originaires.
-
Je me trompe peut-être là-dessus,
-
mais elle a répondu sur la page
Discussion Projet de Wikidata,
-
vous pouvez allez voir.
-
Donc, nous voyons apparaître
ces premiers outils,
-
tout comme nous l'avons vu
au démarrage de Wikidata,
-
d'abord comme une sorte de réseau,
-
puis : « Hé, mais il y a cette chose
qui se connecte à cette autre chose ».
-
Et une fois que l'on a plus de données
-
et que l'on a atteint
une sorte de masse critique,
-
de nouvelles applications
plus puissantes deviennent possibles
-
des choses comme Histropedia,
-
des choses comme les questions-réponses
-
avec votre assistant personnel numérique,
Platypus et ainsi de suite.
-
Et nous voyons le même phénomène
se produire avec les lexèmes.
-
Nous en sommes au stade
où vous pouvez construire ces petits
-
« Hé, il y a une connexion possible
entre ces deux choses,
-
et il existe une traduction
de ce mot dans cette langue ».
-
Et plus nous l'élaborons,
plus nous décrivons de mots,
-
plus ces choses deviennent possibles.
-
Alors, qu'est-ce qui devient possible ?
-
Comme Ben, notre conférencier sur Keynote,
le disait plus tôt : les traductions,
-
être capable de traduire
d'une langue à une autre.
-
Et Jens, mon collègue, ne cesse de parler
-
de l'Union Européenne
qui cherche un traducteur
-
capable de traduire
du maltais au suédois, je crois.
-
- (intervenant 6) de l'estonien.
- De l'estonien.
-
Et ce n'est pas là
une combinaison habituelle,
-
mais une fois que toutes ces langues
sont disponibles
-
dans un espace
lisible par des machines,
-
c'est faisable,
-
on peut avoir un dictionnaire
-
estonien-maltais et vice-versa.
-
Donc assurer des combinaisons
de langues dans des dictionnaires
-
qui n'ont jamais été réalisés auparavant
-
parce que la demande était insuffisante
-
pour en faire un projet financièrement
viable qui justifie un tel travail.
-
Maintenant nous pouvons le faire.
-
Ensuite, la création de texte.
-
Lucie parlait tout à l'heure
-
de la manière dont elle travaille
avec Hattie à générer du texte
-
pour commencer à diffuser
des articles de Wikipédia
-
dans des langues minoritaires
-
et cela exige d'avoir
des données sur les mots
-
et il faut comprendre la langue
pour y parvenir.
-
Et oui, ce ne sont que quelques
exemples qui me viennent à l'esprit.
-
Peut-être que notre auditoire
a d'autres idées
-
quant à ce qu'ils voudraient faire
-
une fois que nous aurons
toutes ces précieuses données.
-
(intervenant 7) Je vais un peu
m'écarter du sujet des lexèmes.
-
Je voudrais poser cette question.
-
Quel impact puis-je avoir en tant
que membre d'une communauté
-
pour faire d'une tâche une priorité,
-
afin qu'un nouvel utilisateur
puisse indiquer les langues
-
qu'il souhaite voir et éditer
-
sans disposer d'une bulle secrète
de connaissances formatées ?
-
Peut-être verrons-nous cette année
cette liste de souhaits techniques exaucée
-
en dehors des thèmes de Wikipédia.
-
Peut-être pouvons-nous espérer
un vote général sur ce point
-
que nous n'avons pas réussi
à résoudre depuis sept ans.
-
Avez-vous des idées
ou des commentaires à ce sujet ?
-
Vous faites référence au fait
-
qu'un utilisateur qui n'est pas
connecté sur Wikidata
-
ne peut pas apporter facilement
de changements sur sa langue ?
-
(intervenant 7) Non,
je parle des utilisateurs.
-
Alors, s'ils sont connectés,
-
ils peuvent modifier leur langue
en haut de la page
-
et là ils verront apparaître,
-
l'endroit où se trouvent
les descriptions des libellés
-
et ils peuvent les modifier.
-
(intervenant 7) Eh bien, en fait,
bien souvent, le processus est tel
-
que si vous voulez avoir plusieurs
langues disponibles, elles le sont,
-
mais ce n'est pas toujours le cas.
-
D'accord, peut-être
pouvons-nous en discuter
-
après cette conférence
et vous me montrerez ?
-
Bien. D'autres questions ?
-
Oui.
-
(intervenant 8) Merci pour votre exposé.
-
Pouvez-vous nous parler
-
de l'état de la corrélation
avec la communauté Wiktionary ?
-
D'après ce que j'en ai vu,
il a été question lors de discussions
-
d'importer certains éléments
qui sont le fruit de leur travail
-
mais il semble qu'il y ait des problèmes
de licences et des désaccords, etc.
-
C'est exact.
-
Les communautés Wiktionary
ont consacré énormément de temps
-
à la construction de Wiktionary.
-
Ils ont élaboré
-
des modèles incroyablement complexes
-
pour créer de beaux tableaux
-
qui vous génèrent
automatiquement des formulaires
-
et toutes sortes de trucs impressionnants
-
et parfois vraiment dingues,
quand on y pense.
-
Et bien sûr, ils y ont consacré
énormément de temps et d'efforts.
-
On peut comprendre
-
qu'ils ne souhaitent pas
qu'on puisse s'approprier tout ça
-
aussi facilement.
-
Donc c'est un peu ce qui se dit
de ce côté-là.
-
Et c'est OK.
-
Maintenant, les premières communautés
Wiktionary parlent de participer
-
et d'importer certaines
de leurs données sur Wikidata.
-
Le russe, comme vous avez pu le voir
par exemple fait partie de ces cas.
-
Et je m'attends à ce que d'autres suivent.
-
Mais ce sera un processus lent,
-
de même que l'adoption
de données Wikidata sur Wikipedia
-
a également fait l'objet
d'un processus assez lent.
-
Outre le fait que cela rend plus facile
-
l'utilisation des données
comprises dans les lexèmes
-
sur Wiktionary, pour qu'ils puissent
s'en servir et partager des données
-
entre les Wiktionnaires
de différentes langues,
-
chose hyper difficile voire impossible
à faire à l'heure actuelle,
-
ce qui est fou,
comme ce fut le cas sur Wikipédia.
-
Attendons les cadeaux
d'anniversaire ! (petit rire)
-
Oui.
-
(Intervenant 9) Je pensais
à la situation inverse,
-
je ne voulais pas en parler
parce que ça me semblait idiot,
-
mais je crois que Wiktionnary
dispose déjà de certains contenus
-
et je sais qu'on ne peut pas
les transférer sur Wikidata
-
en raison des différences de licences.
-
Mais je me disais que nous pourrions
peut-être remédier à cela.
-
Peut-être peut-on obtenir
la permission des communautés
-
après un vote général
-
au cours duquel la communauté,
les membres actifs de la communauté
-
voteraient et diraient s'ils veulent
ou acceptent de transférer les contenus
-
permettant de faire les lexèmes Wikidata.
-
Parce que ça me paraît
être un vrai gâchis.
-
Donc, c'est certainement une conversation
-
que ceux qui sont membres
de communautés Wiktionary
-
peuvent susciter entre eux
et nous en serions heureux.
-
Je crois que ce serait un peu présomptueux
de notre part de chercher à forcer cela.
-
Mais oui, cela mérite largement
qu'on en discute.
-
Mais il me semble important de comprendre
-
qu'il faut faire la distinction
-
entre ce qui est faisable
d'un point de vue légal,
-
ce que nous devrions faire
-
et ce que ces gens veulent faire ou pas.
-
Donc, même si c'est autorisé légalement,
-
si certaines communautés
Wiktionary s'y opposent,
-
je crois que nous devrions être
pour le moins prudents là-dessus.
-
Je crois qu'il vous faut un micro
pour la retransmission.
-
(intervenant 10) Tout cela
est bien sûr très enthousiasmant
-
et je me demande tout de suite comment
je peux en faire profiter mes élèves
-
et intégrer cela à mes cours,
-
au travail que nous faisons,
dans le cadre de l'éducation.
-
Et je ne dispose pas à ce jour
-
des connaissances suffisantes, d'abord,
-
mais je crois que la documentation
dont nous disposons
-
pourrait peut-être être améliorée.
-
Donc, j'aimerais exprimer le souhait
de voir réaliser des vidéos sympa
-
pour expliquer comment ça marche
-
parce que si nous avons cela,
nous pourrons nous en servir
-
et impliquer les élèves
-
et nous pourrons faire savoir aux gens
à quel point c'est fantastique.
-
Et oui, donc, s'il vous plaît, pensez
à la documentation et à l'éducation.
-
Parce que je crois qu'on pourrait
faire beaucoup de choses.
-
Il y a de nombreuses tâches
qui pourraient être effectuées avec...
-
je ne dirais pas des élèves de primaire
-
mais certainement
avec des élèves plus jeunes.
-
Et donc j'aimerais vraiment
que ce potentiel soit mis à contribution
-
et personnellement,
je ne m'y connais pas assez à ce stade
-
pour pouvoir créer
des tâches ou créer...
-
faire quelque chose de pratique avec ça.
-
Donc, si quelqu'un peut apporter
de l'aide, des idées à ce sujet,
-
ce serait une joie pour moi
d'entendre vos idées et les vôtres aussi.
-
D'accord ! Discutons-en.
-
D'autres questions ?
-
Quelqu'un d'autre avait levé la main
-
mais je ne sais plus qui.
-
(intervenant 11) Donc, si nous ne pouvons
pas importer des contenus de Wiktionary,
-
y a-t-il des efforts concertés
-
pour trouver d'autres ressources
dans le domaine public
-
peut-être des données
-
que nous pourrions pré-filtrer, organiser
-
afin de les rendre facilement vérifiables
pour que les gens puissent les importer ?
-
Alors, il y a
des premiers efforts de faits.
-
J'ai cru comprendre que le basque
était l'un de ces exemples.
-
Peut-être voudriez-vous
nous en dire plus à ce sujet ?
-
(l'intervenant 12 parle hors micro)
-
OK, la réponse aujourd'hui
c'est de payer pour cela,
-
je veux dire, nous avons passé un accord
avec un de nos prestataires habituels,
-
Ils font des dictionnaires...
-
plein d'autres trucs aussi,
mais ils font des dictionnaires.
-
Donc, nous nous sommes entendus
-
pour mettre en libre accès
le dictionnaire des étudiants
-
qui comprend les mots les plus communs
et nous avons commencé à le téléverser
-
avec un identifiant externe
et ce genre de choses.
-
Mais il y a eu quelques discussions
sur le fait de le laisser en CC0
-
parce que leur dictionnaire
est sous licence Attribution
-
et ils ont compris sur quoi
reposait la différence.
-
Donc, cela a donné lieu
à quelques discussions.
-
Mais je crois que si nous pouvons
fournir des outils ou des exemples,
-
je pense qu'il y aura à l'avenir
d'autres dictionnaires
-
que nous pourrons traiter
-
et je crois que Wiktionary devrait
aussi aller dans ce sens,
-
mais c'est une autre discussion de taille.
-
Et de plus,
-
Lea est aussi en contact
avec des Occitans
-
qui travaillent
sur des dictionnaires en occitan
-
et participent en ce moment
à une collaboration autour du sumérien.
-
D'autres questions ?
-
(intervenant 13) Bonjour.
Nous sommes justement ceux
-
qui souhaitent importer
les données en occitan.
-
Ah, parfait !
-
(i.13) Et nous rencontrons
un petit problème.
-
C'est que nous ignorons comment refléter
les variantes de tous les lexèmes.
-
Nous avons six dialectes
-
et nous voudrions indiquer
dans quel dialecte le lexème s'utilise,
-
mais nous n'avons pas
de déclaration C0 pour faire cela
-
Donc, tant que cette section n'existe pas
-
cela nous empêche de l'intégrer
-
parce que nous devrions
tout reprendre
-
le jour où nous pourrons
exprimer cette déclaration.
-
Et c'est compliqué
parce que c'est une déclaration
-
qui aura peu de demandeurs
-
étant donnée qu'elle concerne
principalement des langues minoritaires.
-
Donc, il n'y aura
qu'un demandeur pour cela.
-
Mais comme nos collègues basques
-
ce sera peut-être une personne
-
qui ouvrira une possibilité
à des milliers d'autres,
-
donc ce n'est peut-être pas trop demander,
-
mais ce sera très important pour nous.
-
Avez-vous une proposition
de nouvelle propriété déjà prête
-
ou avez-vous besoin d'aide
pour la créer ?
-
(intervenant 13) Nous en avons fait
la demande il y a quatre mois.
-
D'accord, alors voyons qui peut aider
à sortir cette proposition de propriété.
-
Je suis sûre qu'il y a assez de gens
dans cette salle pour que ça se fasse.
-
(i.13) Proposition de propriété
« Variété de la forme ».
-
(l'intervenant 14 parle hors micro)
-
(i.13) Nous n'avons pas eu de réponse
et nous ne savons pas le faire
-
parce que nous ne sommes pas
dans la communauté Wikidata.
-
OK. Il y a des gens ici
qui peuvent vous aider.
-
Peut-être que vous pouvez lever la main...
-
(i.15) Je suis d'accord.
-
Je crois que c'est très intéressant
-
que la variété de forme
-
peut aussi être corrélée
d'un point de vue géographique
-
avec des coordonnées
ou une forme de cartographie.
-
Et cela vaut aussi
pour les variétés de prononciations
-
et je crois que c'est quelque chose
qui se produit dans beaucoup de langues.
-
Nous devrions pouvoir
mettre cela en place.
-
je vais faire des recherches
pour cette propriété.
-
Chouette.
-
Donc vous allez avoir du soutien
pour votre proposition de propriété.
-
Merci.
-
Très bien. D'autres questions ?
-
Finn.
-
Finn fait partie de ceux
-
qui construisent des choses
à partir des données lexicographiques.
-
(Finn) C'est juste une petite question.
-
et elle concerne les variantes
orthographiques.
-
Il semble qu'il soit difficile
de les faire apparaître...
-
Bien sûr, il serait possible d'avoir
de multiples formes pour un même mot.
-
Je ne sais pas. Ça me semble...
-
Si on ne le fait pas de cette manière,
il semble difficile de préciser...
-
je ne sais pas si...
-
s'il s'agit d'un souci technique mineur
ou si au contraire...
-
Voyons cela ensemble.
-
Je serais ravie de voir un exemple.
-
Asaf.
-
(Asaf) Merci.
-
Je peux vous donner un exemple concret
dans ma langue maternelle, l'hébreu.
-
L'hébreu a deux variantes principales
-
pour exprimer quasiment chaque mot
-
parce que l'orthographe traditionnelle
-
se dispense d'un grand nombre de voyelles.
-
Et par conséquent, dans les éditions
modernes de la Bible ou des poèmes,
-
des signes diacritiques sont utilisés.
-
Cependant, ces signes diacritiques
-
ne sont jamais utilisés
dans la prose moderne,
-
dans la presse
ou les panneaux indicateurs.
-
Donc, l'usage courant ajoute
des voyelles supplémentaires
-
et n'utilise pas de signes diacritiques
-
par qu'ils sont évidemment
plus encombrants,
-
qu'ils sont soumis à toutes sortes
de règles que plus personne ne connaît.
-
Donc en gros, il y a deux variantes.
-
Il y a la variante propre à la prose
usuelle de tous les jours
-
et celle de la Bible ou de la poésie
-
qui se présente toujours
sous la forme traditionnelle
-
avec ses signes diacritiques.
-
Pour être utile,
-
le lexème devrait reconnaître les deux
variétés pour chaque mot sans exception
-
et pour chaque forme de chaque mot.
-
Donc il s'agit là d'un cas
pratique très complet
-
pour ce qui est des variantes
officielles stables.
-
Il ne s'agit pas de dialectes,
il ne s'agit pas de variantes régionales,
-
mais bien de deux systèmes
morphologiques qui coexistent.
-
Et je ne sais pas bien non plus
comment exprimer cela dans les lexèmes
-
et en réponse à la question de Magnus,
c'est l'une des choses qui m'empêchent
-
de téléverser les parties déjà prêtes
-
du plus grand dictionnaire d'hébreu
qui fait partie du domaine public
-
et que j'ai entrepris de numériser
depuis maintenant plusieurs années.
-
Une portion conséquente est déjà prête
-
mais je ne l'intègre pas au lexème
pour le moment
-
parce que je ne sais pas exactement
comment résoudre ce problème.
-
Très bien, trouvons
la solution ici même (petit rire)
-
Ce doit être possible.
-
Très bien, d'autres questions ?
-
Si vous n'avez plus de questions,
merci à tous.
-
(applaudissements)
-
WIKI DATA 2019
Wikidata et les langues