cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

0:03 - 0:05

Wikidata et les langues
0:05 - 0:06

Où en sommes-nous ?
Et après ?
0:06 - 0:07

(Lydia) Merci beaucoup.
0:07 - 0:11

L'un des sujets majeurs
de cette conférence concerne les langues.
0:14 - 0:19

Je voudrais vous donner un aperçu
du point où nous en sommes à ce jour
0:19 - 0:20

en ce qui concerne les langues
0:20 - 0:22

et quelles sont les prochaines étapes.
0:29 - 0:30

Le but de Wikidata est de donner
0:30 - 0:33

plus d'accès à plus de savoir
à davantage de monde
0:33 - 0:37

et la langue est un aspect essentiel
dans la réalisation de cet objectif,
0:38 - 0:43

d'autant plus que nos vies dépendent
de plus en plus de la technologie.
0:44 - 0:49

Et comme le disait notre conférencier
sur Keynote tout à l'heure,
0:50 - 0:52

une partie de cette technologie
reste inaccessible à certains
0:52 - 0:55

du simple fait qu'ils ne parlent pas
telle ou telle langue,
0:55 - 0:58

et ce n'est pas acceptable.
0:59 - 1:02

Donc nous voulons
remédier à cette situation.
1:03 - 1:06

Et afin de changer cela,
il faut au moins deux choses.
1:06 - 1:11

D'abord, on doit fournir des contenus
aux gens dans leur propre langue,
1:11 - 1:13

et la deuxième chose,
1:13 - 1:16

c'est de leur fournir la possibilité
d'interagir dans leur propre langue
1:16 - 1:19

avec des applications
ou quoi que ce soit d'autre.
1:20 - 1:25

Wikidata contribue à satisfaire
ces deux conditions.
1:25 - 1:28

La première d'entre elles,
du contenu dans votre langue,
1:28 - 1:31

c'est globalement ce que nous avons
dans les éléments et les propriétés,
1:31 - 1:33

la façon dont nous décrivons le monde.
1:33 - 1:35

Tout ce dont vous avez besoin
n'y est certainement pas
1:35 - 1:39

mais il y a déjà de quoi bien avancer.
1:40 - 1:42

L'autre point, c'est l'interaction
dans votre langue
1:42 - 1:46

et c'est là que les lexèmes
entrent en jeu :
1:46 - 1:49

si vous voulez parler
à votre assistant personnel numérique
1:49 - 1:55

ou que votre appareil
vous traduise un texte ou autre.
1:56 - 1:59

Très bien, intéressons-nous
aux contenus dans votre langue,
1:59 - 2:04

donc, à ce que nous avons
sous la rubrique Éléments et Propriétés.
2:05 - 2:10

Les libellés sont essentiels
pour ces éléments et propriétés.
2:10 - 2:15

Nous devons savoir comment s'appelle
l'entité dont il est question.
2:16 - 2:20

Et plutôt que de parler de Q5,
2:20 - 2:22

un anglophone saura
qu'il s'agit d'un « humain »,
2:22 - 2:25

un germanophone saura
qu'il s'agit d'un « Mensch »,
2:25 - 2:26

ce genre de choses.
2:26 - 2:30

Donc, les libellés
dans les éléments et les propriétés
2:30 - 2:34

font la liaison entre les humains
et les machines
2:34 - 2:35

mais relient aussi les humains entre eux
2:35 - 2:40

en leur rendant davantage
de savoir accessible.
2:41 - 2:43

À quoi ressemble notre couverture ?
2:43 - 2:46

L'intention est louable.
2:46 - 2:48

Mais voyons ce que cela donne
dans les faits.
2:48 - 2:50

Cela ressemble à ça.
2:51 - 2:52

Ce que vous voyez ici,
2:52 - 2:58

c'est que la plupart des éléments
dans Wikidata ont deux libellés,
2:58 - 3:01

donc des libellés dans deux langues.
3:02 - 3:04

Ensuite on passe à un, puis trois,
3:04 - 3:06

et au-delà, cela devient vraiment navrant.
3:07 - 3:09

(rires légers)
3:10 - 3:13

Je crois que nous devons
faire mieux que ça.
3:14 - 3:15

Mais, d'un autre côté,
3:15 - 3:17

je m'attendais à pire, en fait.
3:17 - 3:20

Je m'attendais à ce que la moyenne
soit d'une seule langue.
3:20 - 3:23

Donc, j'ai été agréablement surprise
de voir que c'était deux.
3:24 - 3:25

Quelles langues couvrons-nous ?
3:25 - 3:26

Très bien.
3:27 - 3:30

Mais au-delà de l'intérêt de savoir
3:30 - 3:34

de combien de libellés disposent
nos éléments et propriétés,
3:34 - 3:37

il est aussi intéressant de voir
quelles sont les langues de ces libellés.
3:38 - 3:44

Voici un graphique présentant les langues
3:44 - 3:47

dans lesquelles nous avons des libellés
pour les éléments.
3:47 - 3:51

La portion la plus grosse ici
correspond à la catégorie Autres.
3:51 - 3:54

Alors, je n'ai détaillé
que les 100 premières langues
3:55 - 3:59

donc tout le reste entre dans la catégorie
Autres pour que le graphique soit lisible.
4:00 - 4:02

Ensuite viennent l'anglais
et le néerlandais,
4:03 - 4:04

le français,
4:06 - 4:09

et n'oublions pas l'asturien.
4:10 - 4:12

- (un auditeur) Waouh !
- (Lydia) Waouh, effectivement !
4:14 - 4:17

Donc ce qui apparaît ici
est un déséquilibre considérable
4:17 - 4:20

avec toujours une nette
prédominance de l'anglais.
4:21 - 4:24

Par ailleurs, si l'on regarde
la même chose pour les propriétés,
4:24 - 4:26

le tableau est déjà mieux.
4:27 - 4:33

Je crois que cela tient en partie au fait
qu'il y a beaucoup moins de propriétés,
4:33 - 4:37

ce qui fait que même des communautés
plus petites peuvent assurer cette partie.
4:37 - 4:39

Mais cela constitue aussi
une partie importante de Wikidata
4:39 - 4:41

de pouvoir les adapter dans votre langue.
4:41 - 4:42

Donc c'est un point positif.
4:46 - 4:48

Ce que je voulais souligner ici
à propos de l'asturien,
4:48 - 4:54

c'est qu'une petite communauté
peut vraiment se démarquer
4:54 - 4:57

par son investissement et son travail,
4:57 - 4:58

et c'est vraiment chouette.
5:02 - 5:04

Une petite devinette pour vous.
5:04 - 5:05

Si vous prenez toutes
les propriétés de Wikidata
5:05 - 5:08

qui n'ont pas d'identifiants externes,
5:08 - 5:11

laquelle compte selon vous le plus grand
nombre de libellés, donc de langues ?
5:11 - 5:14

(réponses inaudibles de l'auditoire)
5:14 - 5:17

Il semble se dégager une majorité
pour « nature de l'élément ».
5:18 - 5:20

Ce serait une mauvaise réponse.
5:20 - 5:22

La réponse est « image ».
5:23 - 5:26

Donc, effectivement,
si vous parlez l'une des langues
5:26 - 5:29

pour lesquelles « nature de l'élément »
n'a pas encore de libellé,
5:29 - 5:30

vous savez ce qu'il vous reste à faire.
5:32 - 5:36

Donc, « image » dispose
de 148 libellés actuellement.
5:38 - 5:41

Mais c'est une autre diapositive.
5:43 - 5:44

Ce graphique nous donne une idée
5:44 - 5:49

du volume de contenu que nous rendons
accessible dans une langue donnée
5:49 - 5:52

et dans quelle proportion ce contenu
est effectivement utilisé.
5:52 - 5:55

Donc en gros, on peut voir
se dessiner une courbe
5:55 - 5:59

où la majorité des contenus
disposant de libellés en anglais,
5:59 - 6:04

étant disponibles en anglais
sont aussi largement utilisés.
6:04 - 6:06

Puis ça a tendance à diminuer.
6:06 - 6:09

Mais à nouveau,
on peut noter des exceptions
6:09 - 6:15

qui ont beaucoup plus de contenus
qu'on aurait pu s'y attendre,
6:17 - 6:20

et c'est une très bonne chose.
6:21 - 6:25

Le problème demeure que ces contenus
ne sont pas très utilisés.
6:26 - 6:29

L'asturien et le néerlandais devraient
être en meilleure position
6:29 - 6:32

et je crois qu'aider ces communautés
6:33 - 6:36

à accroître l'utilisation des données
qu'elles ont rassemblées
6:36 - 6:38

est quelque chose de très utile.
6:43 - 6:48

Ce que cette analyse ainsi que d'autres
nous ont révélé de positif,
6:48 - 6:51

c'est que les éléments les plus utilisés
6:51 - 6:55

ont aussi tendance
à avoir plus de libellés
6:55 - 6:59

à moins que ça ne marche en sens inverse ;
ce n'est pas tout à fait clair.
7:03 - 7:05

Et la question qui se pose alors, c'est :
7:05 - 7:07

Sommes-nous seulement au service
des langues les plus puissantes ?
7:08 - 7:11

Ou sommes-nous
au service de tout le monde ?
7:13 - 7:18

Et ce que vous voyez ici,
ce sont des regroupements de langues.
7:18 - 7:20

Les langues que nous avons
regroupées ensemble
7:20 - 7:22

ont tendance à avoir
des libellés en commun.
7:26 - 7:28

Et vous voyez se former des faisceaux.
7:29 - 7:34

À présent, voici un même type
de regroupement avec différentes couleurs,
7:34 - 7:39

selon que la langue est plus ou moins
vivante, plus ou moins largement utilisée
7:40 - 7:43

ou menacée de disparition.
7:43 - 7:45

Et la bonne chose qui apparaît ici,
7:45 - 7:50

c'est que les langues dominantes
et les langues menacées de disparition
7:50 - 7:54

ne constituent pas
deux groupes différents,
7:54 - 7:59

mais qu'elles sont toutes
mélangées ensemble,
8:00 - 8:05

ce qui est bien plus réjouissant
que si la situation avait été inverse
8:05 - 8:09

et que les langues les plus assurées,
les langues dominantes
8:10 - 8:12

s'étaient mutuellement soutenues.
8:13 - 8:14

Ce n'est pas le cas.
8:14 - 8:17

Et c'est une très bonne chose.
8:17 - 8:20

J'ai trouvé que c'était
un très bon signe quand j'ai vu ça.
8:23 - 8:25

Voici un autre exemple similaire
8:26 - 8:29

où nous avons regardé
8:30 - 8:34

le statut des langues
8:34 - 8:36

et le nombre de libellés
dont elles disposent.
8:39 - 8:43

Ce qui apparaît, c'est que les langues
fortes dominent clairement,
8:43 - 8:44

comme on pouvait s'y attendre.
8:46 - 8:47

Mais ce que l'on voit aussi,
8:47 - 8:54

c'est que les langues des catégories 2,
3 et peut-être même 4
8:54 - 8:59

ne s'en tirent pas si mal en fait,
8:59 - 9:02

au niveau de leur représentation
sur Wikidata,
9:03 - 9:06

ce qui est vraiment
un résultat réjouissant.
9:08 - 9:09

Maintenant, si on regarde
la même chose
9:09 - 9:12

sous l'angle de la proportion
de contenu de ces libellés
9:12 - 9:15

qui est effectivement utilisée
dans Wikipédia, par exemple,
9:17 - 9:23

on voit à nouveau se dessiner
la même tendance.
9:24 - 9:30

Et cela nous révèle que ces communautés
font vraiment bon usage de leur temps
9:30 - 9:35

en créant des libellés pour les éléments
les plus utilisés, par exemple.
9:36 - 9:40

Il y a des exceptions
que nous devons pouvoir soutenir
9:42 - 9:48

en aidant ces communautés à mieux
valoriser leur investissement.
9:49 - 9:53

Mais de façon générale,
cette image me paraît réjouissante.
9:55 - 10:00

Voilà pour ce qui était de la partie
éléments et propriétés de Wikidata.
10:01 - 10:03

Regardons à présent les interactions
dans vos langues.
10:03 - 10:05

Donc le volet lexème de Wikidata,
10:05 - 10:09

où il s'agit de décrire les mots,
leur forme et leur signification.
10:10 - 10:13

C'est un travail que nous avons
démarré en mai de l'année dernière
10:16 - 10:19

et le contenu
n'a cessé de se développer.
10:20 - 10:22

Ici, on voit les lexèmes en bleu,
10:22 - 10:26

en rouge, les formes de ces lexèmes
10:26 - 10:30

et en jaune, les significations
de ces lexèmes.
10:31 - 10:34

Donc certaines communautés,
nous y reviendrons plus tard,
10:34 - 10:39

ont consacré beaucoup de temps
à créer des formes et des significations
10:39 - 10:43

pour leurs lexèmes, ce qui est très utile
10:43 - 10:48

car cela constitue l'essence
des données dont vous avez besoin.
10:51 - 10:55

Maintenant, nous avons regardé
toutes les langues
10:55 - 10:58

qui ont des lexèmes sur Wikidata,
10:58 - 11:01

donc les mots que nous avons.
11:02 - 11:05

Ces derniers sont
actuellement en 310 langues.
11:05 - 11:08

Maintenant, quelle est,
à votre avis, la première langue
11:08 - 11:12

en termes de nombre de lexèmes
actuellement sur Wikidata ?
11:12 - 11:15

(réponses fusant de l'auditoire)
Le suédois, le russe,
11:15 - 11:16

l'asturien, l'allemand
11:16 - 11:20

- (un intervenant parle hors micro)
- Hein ?
11:20 - 11:22

(un autre intervenant) L'allemand.
11:22 - 11:24

Désolée, la bonne réponse a été donnée.
11:24 - 11:26

C'est le russe.
11:28 - 11:30

Le russe est loin devant.
11:32 - 11:34

Et pour vous donner une perspective,
11:35 - 11:37

les opinions divergent à ce sujet,
11:37 - 11:42

mais j'ai lu, par exemple,
que connaître 1 000 à 3 000 mots
11:42 - 11:45

vous permet d'accéder au niveau
courant dans une autre langue.
11:45 - 11:50

et qu'en connaître 4 000 à 10 000
vous situe à un niveau avancé.
11:52 - 11:55

Donc nous avons encore
du chemin à faire pour en arriver là.
11:58 - 12:03

J'aimerais attirer votre attention
sur la langue basque
12:03 - 12:08

qui a environ 10 000 lexèmes.
12:09 - 12:13

Or, si vous regardez le nombre
de formes pour ces lexèmes,
12:14 - 12:16

le basque est très bien placé,
12:18 - 12:20

ce qui est vraiment bien
12:20 - 12:22

et il serait intéressant
d'assister à l'exposé
12:22 - 12:25

qui vous expliquera cet état de fait.
12:27 - 12:31

Maintenant, si on regarde le nombre
de sens, ce que les mots signifient,
12:32 - 12:35

le basque arrive en tête de la liste.
12:35 - 12:37

Il me semble que cela mérite
nos applaudissements.
12:37 - 12:39

(applaudissements)
12:46 - 12:47

Une autre devinette.
12:47 - 12:51

Quel est le lexème le plus traduit
à l'heure actuelle, selon vous ?
12:51 - 12:54

(public) Les chats, les chats,
Douglas Adams
12:54 - 12:56

(rires)
12:57 - 13:00

Ce sont toutes de bonnes idées, mais non.
13:01 - 13:04

Voici la bonne réponse :
c'est le mot russe qui désigne l'eau.
13:09 - 13:12

Très bien, nous avons beaucoup parlé
13:12 - 13:16

du nombre de formes et de sens
des lexèmes que nous avons,
13:16 - 13:20

mais ce n'est qu'une partie
de ce dont vous avez besoin.
13:20 - 13:22

L'autre chose dont vous avez besoin
13:22 - 13:25

c'est une description
des formes et des sens de ces lexèmes,
13:25 - 13:28

dans un format qui soit lisible
par des machines.
13:28 - 13:31

Et pour cela, vous avez des déclarations,
comme dans les éléments.
13:31 - 13:36

Et l'une des propriétés utilisées ici
est l'exemple d'utilisation.
13:36 - 13:39

De sorte que quiconque utilisera
cette donnée
13:39 - 13:42

pourra comprendre comment
utiliser ce mot dans un contexte,
13:42 - 13:45

il peut s'agir
d'une citation, par exemple.
13:45 - 13:47

Et dans ce domaine, le polonais assure !
13:48 - 13:50

Bien joué, à vous qui parlez polonais.
13:54 - 13:58

Une autre propriété qui est
vraiment utile, c'est l'API,
13:58 - 14:00

donc la manière de prononcer le mot.
14:01 - 14:08

Il semble que le russe exige
de nombreuses déclarations API.
14:10 - 14:13

Mais revoici le polonais
en deuxième position.
14:17 - 14:21

Et enfin, nous avons
la prononciation audio.
14:21 - 14:23

Il s'agit là de liens vers des fichiers
hébergés sur les Commons
14:23 - 14:26

où un individu prononce le mot,
14:26 - 14:28

ce qui vous permet d'entendre
le mot prononcé par quelqu'un
14:28 - 14:30

dont c'est la langue natale,
14:30 - 14:33

pour le cas où vous ne sauriez pas
déchiffrer l'API, par exemple.
14:35 - 14:39

Et il existe un projet vraiment sympa
sous l'impulsion de Wiki
14:39 - 14:41

qui s'appelle « Lingua Libre »
14:41 - 14:45

auquel vous pouvez contribuer
en enregistrant des mots dans votre langue
14:45 - 14:48

qui pourront ensuite être ajoutés
aux lexèmes sur Wikidata
14:48 - 14:52

afin que d'autres puissent
apprendre à prononcer vos mots.
14:54 - 14:56

(propos inaudibles d'un intervenant)
14:56 - 14:58

Si vous recherchez « Lingua Libre »
14:58 - 15:01

et je suis sûre que quelqu'un
pourra poster le lien sur Telegram.
15:03 - 15:05

Ces gars-là sont super.
15:05 - 15:07

Ils ont fait un travail formidable
avec Wikibase.
15:09 - 15:11

Très bien.
15:13 - 15:17

La question qui se pose à présent est :
quelles sont les prochaines étapes ?
15:19 - 15:22

Si l'on en croit les chiffres
que je viens de vous montrer,
15:23 - 15:25

nous avons bien avancé
15:25 - 15:28

vers notre objectif de donner plus d'accès
à plus de savoir à davantage de gens
15:28 - 15:31

dans le domaine des langues sur Wikidata.
15:33 - 15:36

Mais nous avons encore beaucoup
de travail à accomplir.
15:39 - 15:42

Une des choses que vous pouvez faire
pour contribuer au projet,
15:42 - 15:45

c'est par exemple de lancer
une opération « libelléthon »,
15:45 - 15:50

consistant à inciter des gens
à créer des libellés sur Wikidata
15:51 - 15:55

ou une campagne de révision
des lexèmes dans votre langue
15:55 - 15:57

pour assurer la présence sur Wikidata
15:57 - 16:00

des mots les plus usités
dans votre langue.
16:01 - 16:03

Vous pouvez aussi utiliser
un outil comme Terminator
16:03 - 16:07

qui vous aide à identifier
les éléments les plus importants
16:07 - 16:12

mais ne disposant pas encore
d'un libellé dans votre langue.
16:13 - 16:18

Nous qualifions ici de « plus importants »
les éléments les plus fréquemment utilisés
16:18 - 16:23

dans d'autres éléments Wikidata
en tant que liens dans les déclarations.
16:26 - 16:30

Et bien entendu, pour la partie lexèmes,
16:31 - 16:35

à présent que nous avons couvert
l'essentiel des lexèmes,
16:35 - 16:41

il s'agit de les élaborer
en y ajoutant des déclarations
16:41 - 16:44

afin qu'ils puissent réellement
construire les bases
16:44 - 16:47

sur lesquelles des applications
significatives pourront se développer.
16:48 - 16:51

Parce que nous nous rapprochons
de la masse critique
16:51 - 16:54

mais nous sommes encore loin
16:54 - 16:57

de la situation permettant de bâtir
de sérieuses applications sur ces bases.
16:58 - 17:02

Et j'espère que vous allez tous
joindre vos efforts pour atteindre ce but.
17:03 - 17:07

Ce qui m'amène tout droit
17:07 - 17:10

à solliciter les amis qui nous soutiennent
17:10 - 17:13

et Bruno, veux-tu bien me rejoindre
17:14 - 17:17

pour nous parler des masques lexicaux ?
17:18 - 17:19

(Bruno) Merci, Lydia.
17:19 - 17:22

Merci de m'accorder un petit moment
17:22 - 17:24

pour présenter ce travail
que nous effectuons à Google
17:24 - 17:30

avec Denny et dont la plupart d'entre vous
ont probablement entendu parler.
17:30 - 17:32

Parce que je suis linguiste
chez Google,
17:32 - 17:34

et je suis aussi très heureux
de me trouver ici
17:34 - 17:37

en compagnie d'autres
passionnés des langues,
17:37 - 17:39

et chez Google, nous construisons
aussi des lexiques
17:39 - 17:42

et nous avons développé cette technologie
17:42 - 17:46

ou cette approche dont nous pensons
qu'elle peut vous être utile.
17:46 - 17:48

Pour vous expliquer un peu le contexte,
17:48 - 17:52

vous pouvez voir ici mes références
en matière de lexicographie.
17:53 - 17:55

Pour créer une base
de données lexicographiques,
17:55 - 17:59

nous consacrons beaucoup de temps
et d'efforts à maintenir une cohérence
17:59 - 18:00

et à échanger des données,
18:00 - 18:02

comme vous le savez probablement.
18:02 - 18:04

Il existe plusieurs tentatives
18:04 - 18:06

visant à unifier les caractéristiques
et les propriétés
18:06 - 18:09

qui décrivent ces lexèmes et ces formes
18:09 - 18:11

et la question n'est pas encore réglée
18:11 - 18:14

mais des tentatives sont en cours
pour aller dans le sens d'une unification.
18:14 - 18:15

Mais ce qui manque réellement,
18:15 - 18:17

et c'est un problème auquel
nous avons été confrontés
18:17 - 18:19

chez Google au début du projet,
18:19 - 18:22

c'est de tenter de construire
une structure interne
18:22 - 18:26

décrivant à quoi devrait ressembler
une entrée lexicale,
18:26 - 18:29

le type de données ou d'informations
dont nous disposons
18:29 - 18:32

et le degré de spécification attendu.
18:32 - 18:38

Et voici ce à quoi nous avons abouti
et qui s'appelle le « masque lexical ».
18:39 - 18:44

Un masque lexical décrit
les données attendues
18:44 - 18:47

pour qu'une entrée lexicographique
puisse être considérée comme complète
18:47 - 18:51

à la fois quant au nombre de formes
qu'un lexème devrait avoir
18:51 - 18:56

et quant au nombre de caractéristiques
attendues pour chacune de ces formes.
18:56 - 18:58

Voici un exemple portant
sur les adjectifs italiens.
18:58 - 19:02

En italien, on devrait trouver
quatre formes pour les adjectifs
19:02 - 19:05

et chacune de ces formes
reflète une combinaison spécifique
19:05 - 19:08

de caractéristiques de genre et de nombre.
19:09 - 19:13

C'est ce qui est attendu
en matière d'adjectifs italiens.
19:13 - 19:16

Bien sûr, on peut avoir des masques
extrêmement complexes,
19:16 - 19:21

comme pour les conjugaisons françaises
qui sont très fournies
19:21 - 19:23

et je ne vous présente pas
un masque russe quel qu'il soit,
19:23 - 19:25

parce qu'il déborderait de l'écran.
19:26 - 19:30

Et nous avons aussi
des spécifications détaillées
19:30 - 19:33

parce que nous distinguons
ce qui se situe au niveau de la forme.
19:33 - 19:38

Donc ici vous voyez les noms russes
qui comportent trois nombres
19:38 - 19:40

ainsi qu'un nombre de cas
avec différentes formes
19:40 - 19:43

mais ils ont également
une spécification au niveau de l'entrée
19:43 - 19:46

qui indique qu'un nom
19:46 - 19:47

a un genre inhérent
19:47 - 19:50

ainsi qu'une caractéristique
d'animéité inhérente
19:50 - 19:53

qui est également précisée dans le masque.
19:55 - 19:59

Nous voulons aussi préciser
qu'un masque indique une spécification
19:59 - 20:02

de ce à quoi devrait ressembler
une entrée, de manière générale.
20:02 - 20:07

Mais vous pouvez avoir des masques
plus petits en cas de formes réduites
20:07 - 20:11

ou d'aspects limités de l'utilisation
du lexème dans la langue.
20:11 - 20:15

Voici par exemple la version
la plus simple de verbes en français
20:15 - 20:18

qui ne se conjuguent qu'à la troisième
personne du singulier,
20:18 - 20:20

les verbes désignant
les phénomènes météorologiques
20:20 - 20:24

comme « il pleut » ou « il neige »,
comme c'est aussi le cas en anglais.
20:25 - 20:27

Donc, nous faisons la distinction
entre ces deux niveaux.
20:27 - 20:30

Et la façon dont nous utilisons
cela chez Google,
20:30 - 20:33

quand nous avons un lexique
que nous voulons utiliser,
20:33 - 20:38

nous utilisons le masque
pour carrément y déverser le lexique
20:38 - 20:40

et toutes ses entrées,
qui vont traverser le masque
20:40 - 20:44

et nous voyons quelles entrées posent
un problème en termes de structure.
20:44 - 20:47

Manque-t-il une forme ?
Manque-t-il une caractéristique ?
20:47 - 20:49

Et quand un problème se présente,
20:49 - 20:51

nous avons recours
à une validation humaine
20:51 - 20:54

pour vérifier si l'entrée passe
l'épreuve du masque.
20:54 - 20:58

C'est donc un outil extrêmement puissant
pour vérifier la qualité de la structure.
20:59 - 21:02

Et nous sommes heureux
de vous annoncer aujourd'hui
21:02 - 21:05

que nous avons eu le feu vert
pour ouvrir notre masque à l'open source.
21:06 - 21:07

Donc voici le schéma.
21:07 - 21:10

Si vous le voulez, nous pouvons
le mettre à disposition
21:10 - 21:13

et le fournir à Wikidata
sous forme de fichiers Shex.
21:13 - 21:17

Voici un fichier Shex
pour les noms allemands
21:17 - 21:20

et Denny travaille à le convertir
pour passer de nos spécifications internes
21:20 - 21:24

à une spécification
plus appropriée à l'open source
21:24 - 21:28

Nous couvrons actuellement
plus de 25 langues.
21:28 - 21:29

Nous espérons développer
cette offre de notre côté
21:29 - 21:34

mais nous y voyons aussi une opportunité
de collaboration pour ajouter des langues.
21:34 - 21:41

Et l'une de ces collaborations est celle
que Denny entretient avec Lukas.
21:41 - 21:45

Lukas dispose d'outils fantastiques
permettant une interface utilisateur
21:45 - 21:49

pour permettre à l'utilisateur
ou au contributeur
21:49 - 21:51

d'ajouter davantage de formes.
21:51 - 21:54

Donc si vous voulez ajouter
un adjectif en français,
21:54 - 21:59

l'IU vous indiquera le nombre
de formes à fournir
21:59 - 22:02

et les caractéristiques
que ces formes devraient avoir.
22:02 - 22:06

Ainsi notre masque permettra à cet outil
de s'affiner et de se développer.
22:07 - 22:08

Et voilà.
22:09 - 22:10

(Lydia) Merci infiniment.
22:10 - 22:12

(applaudissements)
22:14 - 22:17

(Lydia) Très bien.
Avez-vous des questions ?
22:17 - 22:19

Souhaitez-vous que nous parlions
davantage des lexèmes ?
22:20 - 22:22

- (intervenant 1) Oui.
- (Lydia) Oui. (petit rire)
22:33 - 22:35

- (intervenant 1) Vous parliez
22:35 - 22:39

de donner plus d'accès
à plus de gens dans plus de langues,
22:39 - 22:42

mais beaucoup de langues ne peuvent pas
être utilisées dans Wikidata.
22:42 - 22:45

Quelle solution avez-vous
pour résoudre cela ?
22:45 - 22:48

Quand vous dites qu'elles
ne peuvent pas utiliser Wikidata,
22:48 - 22:50

est-ce que vous parlez
d'intégrer des libellés ?
22:50 - 22:53

- (i.1) Des libellés, des descriptions.
- D'accord.
22:53 - 22:55

Donc, en ce qui concerne
les lexèmes, c'est un peu différent,
22:55 - 22:58

parce que cette restriction
ne s'applique pas ici.
22:59 - 23:05

Pour les libellés des éléments
et propriétés, des restrictions existent
23:05 - 23:11

parce que nous voulions nous assurer
23:11 - 23:14

que n'importe qui ne puisse pas
faire n'importe quoi
23:14 - 23:18

et que cela devienne ingérable.
23:19 - 23:23

Si une communauté, même petite,
veut ajouter une langue et y travailler,
23:24 - 23:27

venez en discuter avec nous
et nous pourrons rendre cela possible.
23:27 - 23:29

(i.1) Nous l'avons fait à l'occasion
du Hackathon de Prague en mai
23:29 - 23:33

et il nous a fallu attendre le mois d'août
pour pouvoir utiliser notre langue.
23:33 - 23:35

- Oui.
- (i.1) Donc, c'est très lent.
23:35 - 23:38

Oui, c'est malheureusement très lent.
23:38 - 23:40

Nous travaillons actuellement
avec le Comité des langues
23:40 - 23:46

à la résolution
de certains points fondamentaux...
23:50 - 23:55

Comme par exemple parvenir à un accord
sur les langues qui sont « autorisées »
23:56 - 23:59

et cela nous a pris trop de temps,
24:00 - 24:02

ce qui explique pourquoi votre demande
24:02 - 24:05

a probablement mis plus de temps
à aboutir qu'elle ne l'aurait dû.
24:05 - 24:06

(i.1) Merci.
24:07 - 24:08

(intervenant 2) Merci.
24:08 - 24:11

Lydia, vous vous souvenez des statistiques
que vous nous avez montrées,
24:11 - 24:13

sur le nombre de lexèmes par langue ?
24:13 - 24:18

Avez-vous pris chaque forme
comme unité de calcul
24:18 - 24:20

ou seulement les lexèmes ?
24:21 - 24:23

Vous faites référence à ceci ?
24:23 - 24:26

- De quelle diapo parlez-vous ?
- (i.2) Oui, c'est exactement cela.
24:26 - 24:28

Si vous vous rappelez,
ce nombre représente-t-il
24:28 - 24:32

toutes les formes de tous les lexèmes
où seulement les lexèmes existants ?
24:32 - 24:35

- Non, ce sont seulement des lexèmes.
- (i.2) Uniquement les lexèmes, d'accord.
24:35 - 24:37

Alors la statistique est correcte.
24:37 - 24:39

Parce que si vous aviez pris
les formes en compte,
24:39 - 24:41

et c'est la raison de ma question,
24:41 - 24:43

alors toutes les langues ayant
une morphologie flexionnelle
24:43 - 24:45

comme le russe, le serbe, le slovène, etc.
24:45 - 24:48

seraient naturellement avantagées
tant elles ont de formes.
24:48 - 24:52

C'est ici que c'est manifeste,
sur le nombre de formes.
24:52 - 24:54

(intervenant 2) Oui,
c'était bien celle-ci. Merci.
24:57 - 25:00

(intervenant 3) Une petite question
concernant...
25:01 - 25:07

Quand nous parlons des éléments
et propriétés à proprement parler,
25:07 - 25:09

Pour autant que je sache,
25:09 - 25:12

il n'y a à l'heure actuelle aucun moyen
d'identifier une source
25:12 - 25:15

pour n'importe lequel des libellés
et descriptions qui sont fournis.
25:15 - 25:18

Donc, par exemple,
quand vous parlez
25:18 - 25:21

d'une propriété d'un élément,
25:21 - 25:25

vous pouvez être confronté
à des libellés contradictoires.
25:25 - 25:26

Oui.
25:26 - 25:28

(i.3) Donc, disons
que telle personne est...
25:28 - 25:31

Nous parlions tout à l'heure
des questions indigènes, par exemple.
25:31 - 25:36

Donc telle personne est un artiste
norvégien selon telle source
25:36 - 25:39

et un artiste sami
selon telle autre source.
25:40 - 25:43

Ou par exemple, la question
s'est posée pour l'estonien
25:43 - 25:48

et nous avons dû revoir la terminologie
en fonction de la terminologie officielle
25:48 - 25:50

telle qu'elle figure
dans les lexiques officiels,
25:50 - 25:52

mais nous n'avons aucun moyen
d'indiquer quelle en est la raison,
25:52 - 25:54

quelle en est la source
et pourquoi c'est plus juste
25:54 - 25:56

que ce qu'il y avait avant.
25:56 - 25:57

C'est un simple quidam comme moi
25:57 - 26:00

qui a remplacé la donnée
pour qui la verra.
26:00 - 26:03

Donc est-il prévu de rendre cela possible
d'une manière ou d'une autre
26:03 - 26:07

afin que nous puissions avoir de vraies
sources pour les données linguistiques ?
26:07 - 26:12

Alors, c'est en partie possible.
26:12 - 26:16

Donc, par exemple, quand vous avez
un élément portant sur une personne,
26:17 - 26:23

vous avez dans les déclarations :
prénom, nom, etc., de cette personne
26:23 - 26:26

et vous pouvez fournir la référence
correspondante à ce niveau-là.
26:28 - 26:33

J'ai beaucoup de réserves
quant à rendre les choses plus complexes
26:33 - 26:36

avec des références
sur les libellés et les descriptions,
26:36 - 26:39

mais si les gens pensent vraiment
26:39 - 26:45

que c'est quelque chose qui n'est couvert
par aucune référence sur la déclaration,
26:45 - 26:47

alors parlons-en.
26:49 - 26:53

Mais je crains que cela n'entraîne
beaucoup de complexité
26:53 - 26:57

pour des occurrences dont j'espère
qu'elles sont peu nombreuses,
26:57 - 27:00

mais je veux bien être
convaincue du contraire,
27:00 - 27:04

si les gens y tiennent beaucoup.
27:04 - 27:08

(i.3) Je veux dire, si c'est ajouté
ce ne devrait pas être impératif
27:08 - 27:12

et apparaître à tous les utilisateurs
débutant dans l'interface en tout cas.
27:12 - 27:14

Plutôt quelque chose comme :
27:14 - 27:17

« Cliquez ici si vous avez
des commentaires à faire à ce sujet ».
27:18 - 27:23

A-t-on une idée du nombre
de cas où cela aurait de l'importance ?
27:25 - 27:26

(i.3) En estonien, par exemple,
27:26 - 27:29

et je suppose que c'est aussi le cas
dans d'autres langues,
27:29 - 27:34

il existe un mot officiel,
qui est la traduction légitime
27:34 - 27:36

par exemple, en anglais,
27:36 - 27:40

disons d'un type particulier
de municipalité.
27:40 - 27:42

C'était mon cas pratique,
27:42 - 27:44

par exemple, où nous utilisions
le mot « paroisse »
27:45 - 27:51

où effectivement le mot estonien original
avait le sens de paroisse d'église
27:51 - 27:52

et c'était là l'origine du mot
27:52 - 27:54

mais ce n'est plus
la traduction officielle
27:54 - 27:55

qu'en donne l'Estonie aujourd'hui.
27:55 - 27:58

Dans ce cas, je l'ajouterais
dans les déclarations
27:58 - 28:01

en tant que nom officiel
et c'est là que j'ajouterais la référence.
28:02 - 28:03

(intervenant 3) D'accord.
28:05 - 28:07

D'autres questions, oui ?
28:08 - 28:10

(intervenant 4) J'aimerais faire
deux courtes remarques.
28:10 - 28:14

Vous avez mis l'asturien en avant
comme une langue réussissant bien
28:14 - 28:16

et je pense qu'il s'agit
d'un effet artificiel.
28:16 - 28:18

Dites-m'en plus.
28:18 - 28:20

(intervenant 4) Je pense
que c'est juste un robot
28:20 - 28:22

- (i.4) qui a collé...
- Oh non !
28:22 - 28:24

(i.4) des noms de personnes,
des noms propres
28:24 - 28:27

et a dit : « C'est exactement
comme en français ou en espagnol »,
28:27 - 28:29

et a tout copié en bloc.
28:29 - 28:33

Ce qui tend à prouver ça, c'est qu'on ne
retrouve pas cette énergie en asturien
28:33 - 28:36

pour les choses qui exigent
réellement un effort de traduction
28:36 - 28:37

comme les noms de propriétés
28:37 - 28:40

ou les noms des éléments
qui ne sont pas des noms propres.
28:40 - 28:41

Asaf, vous me brisez le cœur.
28:41 - 28:43

(i.4) Je sais.
J'aime bien gâcher la fête,
28:43 - 28:49

mais j'ai aussi de bonnes nouvelles
au sujet des scores en prononciation.
28:49 - 28:51

Comme vous le savez probablement,
28:51 - 28:54

les Commons sont pleins
de fichiers de prononciation
28:54 - 28:55

et par exemple
28:55 - 28:59

le néerlandais compte pas moins
de 300 000 fichiers de prononciation
28:59 - 29:02

qui sont déjà dans les Commons
29:02 - 29:05

et qui ne demandent qu'à être ingérés.
29:05 - 29:08

Donc si quelqu'un est en recherche
d'un projet connexe,
29:08 - 29:09

il existe des tonnes et des tonnes
29:09 - 29:13

de fichiers de prononciation, classés
et catégorisés dans les Commons
29:13 - 29:17

sous la catégorie
« Prononciation » par langue.
29:17 - 29:23

Il n'y a plus qu'à les faire correspondre
aux lexèmes et les intégrer dans Lexèmes.
29:23 - 29:25

Et d'autre part, je me demandais
si vous pourriez parler un peu
29:25 - 29:27

de la feuille de route,
29:27 - 29:29

nous dire un peu
quel degré d'investissement
29:29 - 29:32

ou ce que nous pouvons attendre
de Lexème pour l'année qui vient,
29:32 - 29:35

parce qu'en tout cas
pour ma part, je brûle d'impatience.
29:35 - 29:37

Vous brûlez d'impatience ?
(petit rire)
29:37 - 29:40

- (i.3) de voir la suite.
- Oui (petit rire)
29:45 - 29:48

Actuellement, nous nous concentrons
plutôt sur Wikibase
29:48 - 29:50

et la qualité des données
29:51 - 29:55

pour voir quel est l'attrait suscité,
29:55 - 30:02

puis l'augmenter davantage
au niveau des points faibles
30:02 - 30:06

et ensuite revenir pour continuer
à développer les données lexicographiques.
30:07 - 30:10

Et une des choses que j'aimerais
entendre de votre part,
30:10 - 30:14

c'est quelles devraient précisément
être les prochaines étapes selon vous.
30:14 - 30:16

où voulez-vous voir des améliorations
30:16 - 30:20

pour que nous puissions définir
comment parvenir à les produire.
30:21 - 30:23

Mais bien sûr, vous avez raison,
30:23 - 30:26

il reste encore tant à faire,
au niveau technique aussi.
30:31 - 30:36

(intervenant 5) Tandis que nous intégrions
les mots basques avec leurs formes,
30:36 - 30:38

et ce genre de situations
est assez fréquent,
30:38 - 30:41

nous nous disions, la semaine dernière :
« Oh, nous sommes premiers quelque part »
30:43 - 30:45

ça sort dans la presse, c'est comme :
30:45 - 30:49

« Oh, c'est une première, les Basques sont
premiers dans un domaine, chouette ! »
30:49 - 30:51

(rire)
30:51 - 30:54

Et alors les gens nous demandent :
« C'est bien, mais à quoi ça sert ? »
30:55 - 30:57

Nous n'avons pas vraiment
de bonne réponse à ça.
30:57 - 30:58

je veux dire, c'est pas mal,
30:58 - 31:02

cela permettra aux ordinateurs
de comprendre davantage notre langue, oui,
31:02 - 31:05

mais quel genre d'outils
pourrons-nous développer à l'avenir ?
31:05 - 31:07

Nous n'avons pas
de bonne réponse à cette question.
31:07 - 31:11

Donc, je me demande si vous avez
une bonne réponse à ça.
31:11 - 31:13

(petit rire) Je ne sais pas
si c'est une bonne réponse,
31:13 - 31:15

mais j'ai une réponse.
31:15 - 31:20

Alors, je crois qu'à l'heure actuelle,
comme je l'indiquais,
31:20 - 31:22

nous n'avons pas atteint
cette masse critique
31:22 - 31:26

qui permet de construire bon nombre
des outils vraiment intéressants.
31:26 - 31:28

Mais il existe déjà quelques outils.
31:28 - 31:32

Pas plus tard que l'autre jour,
par exemple, Esther [Pandelia]
31:32 - 31:34

a mis à disposition un outil
permettant de visualiser
31:36 - 31:39

je crois qu'il s'agissait
des mots sur un globe,
31:39 - 31:42

l'endroit où ils sont le plus parlés,
l'endroit dont ils sont originaires.
31:43 - 31:44

Je me trompe peut-être là-dessus,
31:44 - 31:47

mais elle a répondu sur la page
Discussion Projet de Wikidata,
31:47 - 31:49

vous pouvez allez voir.
31:50 - 31:52

Donc, nous voyons apparaître
ces premiers outils,
31:52 - 31:56

tout comme nous l'avons vu
au démarrage de Wikidata,
31:57 - 32:00

d'abord comme une sorte de réseau,
32:00 - 32:03

puis : « Hé, mais il y a cette chose
qui se connecte à cette autre chose ».
32:05 - 32:07

Et une fois que l'on a plus de données
32:07 - 32:11

et que l'on a atteint
une sorte de masse critique,
32:12 - 32:15

de nouvelles applications
plus puissantes deviennent possibles
32:16 - 32:18

des choses comme Histropedia,
32:19 - 32:22

des choses comme les questions-réponses
32:22 - 32:27

avec votre assistant personnel numérique,
Platypus et ainsi de suite.
32:27 - 32:30

Et nous voyons le même phénomène
se produire avec les lexèmes.
32:31 - 32:35

Nous en sommes au stade
où vous pouvez construire ces petits
32:35 - 32:37

« Hé, il y a une connexion possible
entre ces deux choses,
32:38 - 32:43

et il existe une traduction
de ce mot dans cette langue ».
32:43 - 32:48

Et plus nous l'élaborons,
plus nous décrivons de mots,
32:48 - 32:50

plus ces choses deviennent possibles.
32:50 - 32:52

Alors, qu'est-ce qui devient possible ?
32:53 - 32:59

Comme Ben, notre conférencier sur Keynote,
le disait plus tôt : les traductions,
33:00 - 33:03

être capable de traduire
d'une langue à une autre.
33:03 - 33:08

Et Jens, mon collègue, ne cesse de parler
33:08 - 33:11

de l'Union Européenne
qui cherche un traducteur
33:11 - 33:17

capable de traduire
du maltais au suédois, je crois.
33:17 - 33:20

- (intervenant 6) de l'estonien.
- De l'estonien.
33:22 - 33:26

Et ce n'est pas là
une combinaison habituelle,
33:27 - 33:29

mais une fois que toutes ces langues
sont disponibles
33:29 - 33:32

dans un espace
lisible par des machines,
33:32 - 33:33

c'est faisable,
33:33 - 33:37

on peut avoir un dictionnaire
33:37 - 33:42

estonien-maltais et vice-versa.
33:43 - 33:46

Donc assurer des combinaisons
de langues dans des dictionnaires
33:46 - 33:48

qui n'ont jamais été réalisés auparavant
33:48 - 33:51

parce que la demande était insuffisante
33:51 - 33:56

pour en faire un projet financièrement
viable qui justifie un tel travail.
33:56 - 33:57

Maintenant nous pouvons le faire.
34:00 - 34:02

Ensuite, la création de texte.
34:02 - 34:04

Lucie parlait tout à l'heure
34:04 - 34:10

de la manière dont elle travaille
avec Hattie à générer du texte
34:10 - 34:12

pour commencer à diffuser
des articles de Wikipédia
34:12 - 34:15

dans des langues minoritaires
34:15 - 34:20

et cela exige d'avoir
des données sur les mots
34:20 - 34:23

et il faut comprendre la langue
pour y parvenir.
34:24 - 34:28

Et oui, ce ne sont que quelques
exemples qui me viennent à l'esprit.
34:29 - 34:31

Peut-être que notre auditoire
a d'autres idées
34:31 - 34:32

quant à ce qu'ils voudraient faire
34:32 - 34:35

une fois que nous aurons
toutes ces précieuses données.
34:38 - 34:41

(intervenant 7) Je vais un peu
m'écarter du sujet des lexèmes.
34:41 - 34:43

Je voudrais poser cette question.
34:43 - 34:46

Quel impact puis-je avoir en tant
que membre d'une communauté
34:46 - 34:50

pour faire d'une tâche une priorité,
34:50 - 34:54

afin qu'un nouvel utilisateur
puisse indiquer les langues
34:54 - 34:57

qu'il souhaite voir et éditer
34:57 - 35:01

sans disposer d'une bulle secrète
de connaissances formatées ?
35:02 - 35:05

Peut-être verrons-nous cette année
cette liste de souhaits techniques exaucée
35:05 - 35:07

en dehors des thèmes de Wikipédia.
35:07 - 35:10

Peut-être pouvons-nous espérer
un vote général sur ce point
35:10 - 35:14

que nous n'avons pas réussi
à résoudre depuis sept ans.
35:14 - 35:18

Avez-vous des idées
ou des commentaires à ce sujet ?
35:18 - 35:20

Vous faites référence au fait
35:20 - 35:24

qu'un utilisateur qui n'est pas
connecté sur Wikidata
35:24 - 35:26

ne peut pas apporter facilement
de changements sur sa langue ?
35:26 - 35:28

(intervenant 7) Non,
je parle des utilisateurs.
35:28 - 35:31

Alors, s'ils sont connectés,
35:31 - 35:35

ils peuvent modifier leur langue
en haut de la page
35:36 - 35:38

et là ils verront apparaître,
35:40 - 35:42

l'endroit où se trouvent
les descriptions des libellés
35:42 - 35:44

et ils peuvent les modifier.
35:46 - 35:49

(intervenant 7) Eh bien, en fait,
bien souvent, le processus est tel
35:49 - 35:52

que si vous voulez avoir plusieurs
langues disponibles, elles le sont,
35:52 - 35:55

mais ce n'est pas toujours le cas.
35:55 - 35:57

D'accord, peut-être
pouvons-nous en discuter
35:57 - 36:00

après cette conférence
et vous me montrerez ?
36:02 - 36:04

Bien. D'autres questions ?
36:06 - 36:07

Oui.
36:12 - 36:13

(intervenant 8) Merci pour votre exposé.
36:14 - 36:15

Pouvez-vous nous parler
36:15 - 36:19

de l'état de la corrélation
avec la communauté Wiktionary ?
36:19 - 36:22

D'après ce que j'en ai vu,
il a été question lors de discussions
36:22 - 36:26

d'importer certains éléments
qui sont le fruit de leur travail
36:26 - 36:31

mais il semble qu'il y ait des problèmes
de licences et des désaccords, etc.
36:31 - 36:32

C'est exact.
36:32 - 36:36

Les communautés Wiktionary
ont consacré énormément de temps
36:37 - 36:39

à la construction de Wiktionary.
36:39 - 36:43

Ils ont élaboré
36:43 - 36:48

des modèles incroyablement complexes
36:48 - 36:51

pour créer de beaux tableaux
36:51 - 36:54

qui vous génèrent
automatiquement des formulaires
36:54 - 36:56

et toutes sortes de trucs impressionnants
36:56 - 37:01

et parfois vraiment dingues,
quand on y pense.
37:02 - 37:08

Et bien sûr, ils y ont consacré
énormément de temps et d'efforts.
37:09 - 37:12

On peut comprendre
37:12 - 37:17

qu'ils ne souhaitent pas
qu'on puisse s'approprier tout ça
37:18 - 37:19

aussi facilement.
37:19 - 37:22

Donc c'est un peu ce qui se dit
de ce côté-là.
37:23 - 37:25

Et c'est OK.
37:26 - 37:32

Maintenant, les premières communautés
Wiktionary parlent de participer
37:32 - 37:34

et d'importer certaines
de leurs données sur Wikidata.
37:34 - 37:39

Le russe, comme vous avez pu le voir
par exemple fait partie de ces cas.
37:40 - 37:42

Et je m'attends à ce que d'autres suivent.
37:44 - 37:47

Mais ce sera un processus lent,
37:47 - 37:49

de même que l'adoption
de données Wikidata sur Wikipedia
37:49 - 37:52

a également fait l'objet
d'un processus assez lent.
37:53 - 37:56

Outre le fait que cela rend plus facile
37:56 - 37:59

l'utilisation des données
comprises dans les lexèmes
37:59 - 38:02

sur Wiktionary, pour qu'ils puissent
s'en servir et partager des données
38:02 - 38:06

entre les Wiktionnaires
de différentes langues,
38:06 - 38:09

chose hyper difficile voire impossible
à faire à l'heure actuelle,
38:09 - 38:12

ce qui est fou,
comme ce fut le cas sur Wikipédia.
38:14 - 38:17

Attendons les cadeaux
d'anniversaire ! (petit rire)
38:20 - 38:21

Oui.
38:23 - 38:25

(Intervenant 9) Je pensais
à la situation inverse,
38:25 - 38:28

je ne voulais pas en parler
parce que ça me semblait idiot,
38:28 - 38:32

mais je crois que Wiktionnary
dispose déjà de certains contenus
38:32 - 38:35

et je sais qu'on ne peut pas
les transférer sur Wikidata
38:35 - 38:37

en raison des différences de licences.
38:37 - 38:40

Mais je me disais que nous pourrions
peut-être remédier à cela.
38:40 - 38:46

Peut-être peut-on obtenir
la permission des communautés
38:46 - 38:51

après un vote général
38:52 - 38:56

au cours duquel la communauté,
les membres actifs de la communauté
38:56 - 39:03

voteraient et diraient s'ils veulent
ou acceptent de transférer les contenus
39:03 - 39:06

permettant de faire les lexèmes Wikidata.
39:06 - 39:09

Parce que ça me paraît
être un vrai gâchis.
39:10 - 39:13

Donc, c'est certainement une conversation
39:13 - 39:16

que ceux qui sont membres
de communautés Wiktionary
39:16 - 39:18

peuvent susciter entre eux
et nous en serions heureux.
39:18 - 39:25

Je crois que ce serait un peu présomptueux
de notre part de chercher à forcer cela.
39:26 - 39:31

Mais oui, cela mérite largement
qu'on en discute.
39:31 - 39:34

Mais il me semble important de comprendre
39:34 - 39:36

qu'il faut faire la distinction
39:36 - 39:39

entre ce qui est faisable
d'un point de vue légal,
39:39 - 39:43

ce que nous devrions faire
39:43 - 39:45

et ce que ces gens veulent faire ou pas.
39:46 - 39:48

Donc, même si c'est autorisé légalement,
39:48 - 39:51

si certaines communautés
Wiktionary s'y opposent,
39:51 - 39:54

je crois que nous devrions être
pour le moins prudents là-dessus.
39:59 - 40:02

Je crois qu'il vous faut un micro
pour la retransmission.
40:05 - 40:08

(intervenant 10) Tout cela
est bien sûr très enthousiasmant
40:08 - 40:12

et je me demande tout de suite comment
je peux en faire profiter mes élèves
40:12 - 40:16

et intégrer cela à mes cours,
40:16 - 40:19

au travail que nous faisons,
dans le cadre de l'éducation.
40:19 - 40:22

Et je ne dispose pas à ce jour
40:23 - 40:24

des connaissances suffisantes, d'abord,
40:24 - 40:27

mais je crois que la documentation
dont nous disposons
40:28 - 40:30

pourrait peut-être être améliorée.
40:30 - 40:33

Donc, j'aimerais exprimer le souhait
de voir réaliser des vidéos sympa
40:33 - 40:36

pour expliquer comment ça marche
40:36 - 40:40

parce que si nous avons cela,
nous pourrons nous en servir
40:40 - 40:42

et impliquer les élèves
40:42 - 40:47

et nous pourrons faire savoir aux gens
à quel point c'est fantastique.
40:47 - 40:52

Et oui, donc, s'il vous plaît, pensez
à la documentation et à l'éducation.
40:52 - 40:54

Parce que je crois qu'on pourrait
faire beaucoup de choses.
40:54 - 40:59

Il y a de nombreuses tâches
qui pourraient être effectuées avec...
41:00 - 41:02

je ne dirais pas des élèves de primaire
41:02 - 41:05

mais certainement
avec des élèves plus jeunes.
41:06 - 41:11

Et donc j'aimerais vraiment
que ce potentiel soit mis à contribution
41:11 - 41:15

et personnellement,
je ne m'y connais pas assez à ce stade
41:15 - 41:20

pour pouvoir créer
des tâches ou créer...
41:20 - 41:22

faire quelque chose de pratique avec ça.
41:22 - 41:26

Donc, si quelqu'un peut apporter
de l'aide, des idées à ce sujet,
41:26 - 41:30

ce serait une joie pour moi
d'entendre vos idées et les vôtres aussi.
41:31 - 41:32

D'accord ! Discutons-en.
41:35 - 41:37

D'autres questions ?
41:38 - 41:39

Quelqu'un d'autre avait levé la main
41:39 - 41:41

mais je ne sais plus qui.
41:46 - 41:50

(intervenant 11) Donc, si nous ne pouvons
pas importer des contenus de Wiktionary,
41:50 - 41:52

y a-t-il des efforts concertés
41:52 - 41:56

pour trouver d'autres ressources
dans le domaine public
41:56 - 41:57

peut-être des données
41:59 - 42:03

que nous pourrions pré-filtrer, organiser
42:03 - 42:08

afin de les rendre facilement vérifiables
pour que les gens puissent les importer ?
42:09 - 42:11

Alors, il y a
des premiers efforts de faits.
42:11 - 42:15

J'ai cru comprendre que le basque
était l'un de ces exemples.
42:15 - 42:17

Peut-être voudriez-vous
nous en dire plus à ce sujet ?
42:18 - 42:20

(l'intervenant 12 parle hors micro)
42:23 - 42:27

OK, la réponse aujourd'hui
c'est de payer pour cela,
42:28 - 42:33

je veux dire, nous avons passé un accord
avec un de nos prestataires habituels,
42:35 - 42:39

Ils font des dictionnaires...
42:40 - 42:43

plein d'autres trucs aussi,
mais ils font des dictionnaires.
42:43 - 42:45

Donc, nous nous sommes entendus
42:45 - 42:47

pour mettre en libre accès
le dictionnaire des étudiants
42:47 - 42:53

qui comprend les mots les plus communs
et nous avons commencé à le téléverser
42:53 - 42:56

avec un identifiant externe
et ce genre de choses.
42:56 - 43:03

Mais il y a eu quelques discussions
sur le fait de le laisser en CC0
43:03 - 43:06

parce que leur dictionnaire
est sous licence Attribution
43:06 - 43:10

et ils ont compris sur quoi
reposait la différence.
43:10 - 43:14

Donc, cela a donné lieu
à quelques discussions.
43:14 - 43:20

Mais je crois que si nous pouvons
fournir des outils ou des exemples,
43:20 - 43:22

je pense qu'il y aura à l'avenir
d'autres dictionnaires
43:22 - 43:24

que nous pourrons traiter
43:24 - 43:29

et je crois que Wiktionary devrait
aussi aller dans ce sens,
43:29 - 43:32

mais c'est une autre discussion de taille.
43:33 - 43:34

Et de plus,
43:34 - 43:39

Lea est aussi en contact
avec des Occitans
43:39 - 43:42

qui travaillent
sur des dictionnaires en occitan
43:42 - 43:45

et participent en ce moment
à une collaboration autour du sumérien.
43:52 - 43:53

D'autres questions ?
44:01 - 44:04

(intervenant 13) Bonjour.
Nous sommes justement ceux
44:04 - 44:05

qui souhaitent importer
les données en occitan.
44:05 - 44:07

Ah, parfait !
44:07 - 44:08

(i.13) Et nous rencontrons
un petit problème.
44:09 - 44:14

C'est que nous ignorons comment refléter
les variantes de tous les lexèmes.
44:14 - 44:18

Nous avons six dialectes
44:18 - 44:24

et nous voudrions indiquer
dans quel dialecte le lexème s'utilise,
44:24 - 44:27

mais nous n'avons pas
de déclaration C0 pour faire cela
44:27 - 44:31

Donc, tant que cette section n'existe pas
44:32 - 44:34

cela nous empêche de l'intégrer
44:34 - 44:38

parce que nous devrions
tout reprendre
44:38 - 44:42

le jour où nous pourrons
exprimer cette déclaration.
44:42 - 44:45

Et c'est compliqué
parce que c'est une déclaration
44:45 - 44:48

qui aura peu de demandeurs
44:48 - 44:53

étant donnée qu'elle concerne
principalement des langues minoritaires.
44:53 - 44:57

Donc, il n'y aura
qu'un demandeur pour cela.
44:57 - 45:00

Mais comme nos collègues basques
45:00 - 45:02

ce sera peut-être une personne
45:02 - 45:06

qui ouvrira une possibilité
à des milliers d'autres,
45:06 - 45:11

donc ce n'est peut-être pas trop demander,
45:11 - 45:14

mais ce sera très important pour nous.
45:15 - 45:18

Avez-vous une proposition
de nouvelle propriété déjà prête
45:18 - 45:20

ou avez-vous besoin d'aide
pour la créer ?
45:22 - 45:24

(intervenant 13) Nous en avons fait
la demande il y a quatre mois.
45:25 - 45:29

D'accord, alors voyons qui peut aider
à sortir cette proposition de propriété.
45:30 - 45:33

Je suis sûre qu'il y a assez de gens
dans cette salle pour que ça se fasse.
45:33 - 45:36

(i.13) Proposition de propriété
« Variété de la forme ».
45:36 - 45:37

(l'intervenant 14 parle hors micro)
45:37 - 45:40

(i.13) Nous n'avons pas eu de réponse
et nous ne savons pas le faire
45:40 - 45:43

parce que nous ne sommes pas
dans la communauté Wikidata.
45:45 - 45:49

OK. Il y a des gens ici
qui peuvent vous aider.
45:49 - 45:52

Peut-être que vous pouvez lever la main...
45:53 - 45:54

(i.15) Je suis d'accord.
45:54 - 45:56

Je crois que c'est très intéressant
45:56 - 45:59

que la variété de forme
45:59 - 46:03

peut aussi être corrélée
d'un point de vue géographique
46:03 - 46:05

avec des coordonnées
ou une forme de cartographie.
46:06 - 46:08

Et cela vaut aussi
pour les variétés de prononciations
46:08 - 46:12

et je crois que c'est quelque chose
qui se produit dans beaucoup de langues.
46:13 - 46:16

Nous devrions pouvoir
mettre cela en place.
46:16 - 46:19

je vais faire des recherches
pour cette propriété.
46:20 - 46:21

Chouette.
46:21 - 46:24

Donc vous allez avoir du soutien
pour votre proposition de propriété.
46:26 - 46:27

Merci.
46:28 - 46:30

Très bien. D'autres questions ?
46:32 - 46:33

Finn.
46:34 - 46:35

Finn fait partie de ceux
46:35 - 46:38

qui construisent des choses
à partir des données lexicographiques.
46:38 - 46:40

(Finn) C'est juste une petite question.
46:40 - 46:44

et elle concerne les variantes
orthographiques.
46:45 - 46:48

Il semble qu'il soit difficile
de les faire apparaître...
46:49 - 46:53

Bien sûr, il serait possible d'avoir
de multiples formes pour un même mot.
46:56 - 46:58

Je ne sais pas. Ça me semble...
47:00 - 47:04

Si on ne le fait pas de cette manière,
il semble difficile de préciser...
47:05 - 47:06

je ne sais pas si...
47:06 - 47:10

s'il s'agit d'un souci technique mineur
ou si au contraire...
47:10 - 47:11

Voyons cela ensemble.
47:12 - 47:15

Je serais ravie de voir un exemple.
47:17 - 47:18

Asaf.
47:27 - 47:28

(Asaf) Merci.
47:29 - 47:34

Je peux vous donner un exemple concret
dans ma langue maternelle, l'hébreu.
47:34 - 47:39

L'hébreu a deux variantes principales
47:39 - 47:43

pour exprimer quasiment chaque mot
47:43 - 47:48

parce que l'orthographe traditionnelle
47:48 - 47:50

se dispense d'un grand nombre de voyelles.
47:51 - 47:55

Et par conséquent, dans les éditions
modernes de la Bible ou des poèmes,
47:55 - 47:57

des signes diacritiques sont utilisés.
47:57 - 47:59

Cependant, ces signes diacritiques
47:59 - 48:03

ne sont jamais utilisés
dans la prose moderne,
48:03 - 48:06

dans la presse
ou les panneaux indicateurs.
48:06 - 48:11

Donc, l'usage courant ajoute
des voyelles supplémentaires
48:12 - 48:14

et n'utilise pas de signes diacritiques
48:14 - 48:16

par qu'ils sont évidemment
plus encombrants,
48:16 - 48:19

qu'ils sont soumis à toutes sortes
de règles que plus personne ne connaît.
48:19 - 48:21

Donc en gros, il y a deux variantes.
48:21 - 48:25

Il y a la variante propre à la prose
usuelle de tous les jours
48:25 - 48:28

et celle de la Bible ou de la poésie
48:28 - 48:30

qui se présente toujours
sous la forme traditionnelle
48:30 - 48:32

avec ses signes diacritiques.
48:32 - 48:33

Pour être utile,
48:33 - 48:37

le lexème devrait reconnaître les deux
variétés pour chaque mot sans exception
48:37 - 48:40

et pour chaque forme de chaque mot.
48:41 - 48:43

Donc il s'agit là d'un cas
pratique très complet
48:43 - 48:46

pour ce qui est des variantes
officielles stables.
48:46 - 48:49

Il ne s'agit pas de dialectes,
il ne s'agit pas de variantes régionales,
48:49 - 48:54

mais bien de deux systèmes
morphologiques qui coexistent.
48:55 - 48:59

Et je ne sais pas bien non plus
comment exprimer cela dans les lexèmes
48:59 - 49:03

et en réponse à la question de Magnus,
c'est l'une des choses qui m'empêchent
49:03 - 49:05

de téléverser les parties déjà prêtes
49:05 - 49:09

du plus grand dictionnaire d'hébreu
qui fait partie du domaine public
49:09 - 49:13

et que j'ai entrepris de numériser
depuis maintenant plusieurs années.
49:13 - 49:15

Une portion conséquente est déjà prête
49:15 - 49:17

mais je ne l'intègre pas au lexème
pour le moment
49:17 - 49:20

parce que je ne sais pas exactement
comment résoudre ce problème.
49:20 - 49:23

Très bien, trouvons
la solution ici même (petit rire)
49:25 - 49:26

Ce doit être possible.
49:30 - 49:32

Très bien, d'autres questions ?
49:37 - 49:40

Si vous n'avez plus de questions,
merci à tous.
49:41 - 49:43

(applaudissements)
49:46 - 49:48

WIKI DATA 2019
Wikidata et les langues

Title:: cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4
Video Language:: English
Duration:: 49:51

Bar Sch edited French subtitles for cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

French subtitles

Revisions

Revision 1 Uploaded

Bar Sch

cdn.media.ccc.de/.../wikidatacon2019-2-eng-Wikidata_and_languages_hd.mp4

Revisions

Our website uses cookies

Operating cookies (Required)