1
00:00:02,651 --> 00:00:05,000
Wikidata et les langues
2
00:00:05,000 --> 00:00:06,303
Où en sommes-nous ?
Et après ?
3
00:00:06,303 --> 00:00:07,362
(Lydia) Merci beaucoup.
4
00:00:07,362 --> 00:00:11,417
L'un des sujets majeurs
de cette conférence concerne les langues.
5
00:00:14,220 --> 00:00:18,508
Je voudrais vous donner un aperçu
du point où nous en sommes à ce jour
6
00:00:18,508 --> 00:00:20,500
en ce qui concerne les langues
7
00:00:20,500 --> 00:00:22,403
et quelles sont les prochaines étapes.
8
00:00:28,976 --> 00:00:30,409
Le but de Wikidata est de donner
9
00:00:30,409 --> 00:00:32,580
plus d'accès à plus de savoir
à davantage de monde
10
00:00:32,580 --> 00:00:37,220
et la langue est un aspect essentiel
dans la réalisation de cet objectif,
11
00:00:38,205 --> 00:00:43,291
d'autant plus que nos vies dépendent
de plus en plus de la technologie.
12
00:00:44,114 --> 00:00:48,873
Et comme le disait notre conférencier
sur Keynote tout à l'heure,
13
00:00:49,603 --> 00:00:52,440
une partie de cette technologie
reste inaccessible à certains
14
00:00:52,440 --> 00:00:55,020
du simple fait qu'ils ne parlent pas
telle ou telle langue,
15
00:00:55,320 --> 00:00:57,573
et ce n'est pas acceptable.
16
00:00:58,633 --> 00:01:02,097
Donc nous voulons
remédier à cette situation.
17
00:01:02,927 --> 00:01:05,841
Et afin de changer cela,
il faut au moins deux choses.
18
00:01:06,411 --> 00:01:11,270
D'abord, on doit fournir des contenus
aux gens dans leur propre langue,
19
00:01:11,270 --> 00:01:12,955
et la deuxième chose,
20
00:01:12,955 --> 00:01:15,910
c'est de leur fournir la possibilité
d'interagir dans leur propre langue
21
00:01:15,910 --> 00:01:19,189
avec des applications
ou quoi que ce soit d'autre.
22
00:01:20,367 --> 00:01:25,277
Wikidata contribue à satisfaire
ces deux conditions.
23
00:01:25,277 --> 00:01:28,408
La première d'entre elles,
du contenu dans votre langue,
24
00:01:28,408 --> 00:01:31,317
c'est globalement ce que nous avons
dans les éléments et les propriétés,
25
00:01:31,319 --> 00:01:33,082
la façon dont nous décrivons le monde.
26
00:01:33,082 --> 00:01:35,205
Tout ce dont vous avez besoin
n'y est certainement pas
27
00:01:35,205 --> 00:01:39,294
mais il y a déjà de quoi bien avancer.
28
00:01:39,764 --> 00:01:41,847
L'autre point, c'est l'interaction
dans votre langue
29
00:01:41,847 --> 00:01:46,389
et c'est là que les lexèmes
entrent en jeu :
30
00:01:46,389 --> 00:01:49,382
si vous voulez parler
à votre assistant personnel numérique
31
00:01:49,382 --> 00:01:54,918
ou que votre appareil
vous traduise un texte ou autre.
32
00:01:56,404 --> 00:01:59,254
Très bien, intéressons-nous
aux contenus dans votre langue,
33
00:01:59,254 --> 00:02:03,676
donc, à ce que nous avons
sous la rubrique Éléments et Propriétés.
34
00:02:05,406 --> 00:02:10,236
Les libellés sont essentiels
pour ces éléments et propriétés.
35
00:02:10,236 --> 00:02:14,916
Nous devons savoir comment s'appelle
l'entité dont il est question.
36
00:02:15,656 --> 00:02:19,987
Et plutôt que de parler de Q5,
37
00:02:19,987 --> 00:02:22,180
un anglophone saura
qu'il s'agit d'un « humain »,
38
00:02:22,180 --> 00:02:24,706
un germanophone saura
qu'il s'agit d'un « Mensch »,
39
00:02:24,706 --> 00:02:26,374
ce genre de choses.
40
00:02:26,374 --> 00:02:29,872
Donc, les libellés
dans les éléments et les propriétés
41
00:02:29,872 --> 00:02:33,619
font la liaison entre les humains
et les machines
42
00:02:33,619 --> 00:02:35,439
mais relient aussi les humains entre eux
43
00:02:35,439 --> 00:02:40,115
en leur rendant davantage
de savoir accessible.
44
00:02:41,192 --> 00:02:43,270
À quoi ressemble notre couverture ?
45
00:02:43,270 --> 00:02:46,290
L'intention est louable.
46
00:02:46,290 --> 00:02:48,342
Mais voyons ce que cela donne
dans les faits.
47
00:02:48,342 --> 00:02:49,882
Cela ressemble à ça.
48
00:02:50,947 --> 00:02:52,416
Ce que vous voyez ici,
49
00:02:52,416 --> 00:02:58,496
c'est que la plupart des éléments
dans Wikidata ont deux libellés,
50
00:02:58,496 --> 00:03:00,767
donc des libellés dans deux langues.
51
00:03:01,697 --> 00:03:03,851
Ensuite on passe à un, puis trois,
52
00:03:03,851 --> 00:03:06,265
et au-delà, cela devient vraiment navrant.
53
00:03:06,781 --> 00:03:08,581
(rires légers)
54
00:03:10,047 --> 00:03:12,813
Je crois que nous devons
faire mieux que ça.
55
00:03:14,185 --> 00:03:15,319
Mais, d'un autre côté,
56
00:03:15,319 --> 00:03:17,478
je m'attendais à pire, en fait.
57
00:03:17,478 --> 00:03:19,810
Je m'attendais à ce que la moyenne
soit d'une seule langue.
58
00:03:19,810 --> 00:03:22,503
Donc, j'ai été agréablement surprise
de voir que c'était deux.
59
00:03:23,655 --> 00:03:24,921
Quelles langues couvrons-nous ?
60
00:03:24,921 --> 00:03:26,186
Très bien.
61
00:03:27,156 --> 00:03:29,527
Mais au-delà de l'intérêt de savoir
62
00:03:29,527 --> 00:03:33,742
de combien de libellés disposent
nos éléments et propriétés,
63
00:03:33,742 --> 00:03:36,705
il est aussi intéressant de voir
quelles sont les langues de ces libellés.
64
00:03:38,045 --> 00:03:43,764
Voici un graphique présentant les langues
65
00:03:43,764 --> 00:03:46,838
dans lesquelles nous avons des libellés
pour les éléments.
66
00:03:46,838 --> 00:03:50,849
La portion la plus grosse ici
correspond à la catégorie Autres.
67
00:03:51,229 --> 00:03:53,863
Alors, je n'ai détaillé
que les 100 premières langues
68
00:03:54,533 --> 00:03:59,122
donc tout le reste entre dans la catégorie
Autres pour que le graphique soit lisible.
69
00:03:59,542 --> 00:04:02,142
Ensuite viennent l'anglais
et le néerlandais,
70
00:04:03,002 --> 00:04:04,254
le français,
71
00:04:05,924 --> 00:04:09,129
et n'oublions pas l'asturien.
72
00:04:09,659 --> 00:04:12,069
- (un auditeur) Waouh !
- (Lydia) Waouh, effectivement !
73
00:04:13,899 --> 00:04:16,954
Donc ce qui apparaît ici
est un déséquilibre considérable
74
00:04:16,954 --> 00:04:20,114
avec toujours une nette
prédominance de l'anglais.
75
00:04:21,236 --> 00:04:24,367
Par ailleurs, si l'on regarde
la même chose pour les propriétés,
76
00:04:24,367 --> 00:04:26,099
le tableau est déjà mieux.
77
00:04:27,399 --> 00:04:32,750
Je crois que cela tient en partie au fait
qu'il y a beaucoup moins de propriétés,
78
00:04:32,750 --> 00:04:36,670
ce qui fait que même des communautés
plus petites peuvent assurer cette partie.
79
00:04:36,770 --> 00:04:39,173
Mais cela constitue aussi
une partie importante de Wikidata
80
00:04:39,173 --> 00:04:41,159
de pouvoir les adapter dans votre langue.
81
00:04:41,159 --> 00:04:42,494
Donc c'est un point positif.
82
00:04:45,752 --> 00:04:47,962
Ce que je voulais souligner ici
à propos de l'asturien,
83
00:04:47,962 --> 00:04:53,698
c'est qu'une petite communauté
peut vraiment se démarquer
84
00:04:54,448 --> 00:04:57,085
par son investissement et son travail,
85
00:04:57,085 --> 00:04:58,420
et c'est vraiment chouette.
86
00:05:01,846 --> 00:05:03,530
Une petite devinette pour vous.
87
00:05:03,530 --> 00:05:05,493
Si vous prenez toutes
les propriétés de Wikidata
88
00:05:05,493 --> 00:05:07,687
qui n'ont pas d'identifiants externes,
89
00:05:07,687 --> 00:05:10,778
laquelle compte selon vous le plus grand
nombre de libellés, donc de langues ?
90
00:05:10,977 --> 00:05:13,847
(réponses inaudibles de l'auditoire)
91
00:05:13,847 --> 00:05:16,886
Il semble se dégager une majorité
pour « nature de l'élément ».
92
00:05:17,506 --> 00:05:19,603
Ce serait une mauvaise réponse.
93
00:05:19,983 --> 00:05:22,210
La réponse est « image ».
94
00:05:23,230 --> 00:05:26,006
Donc, effectivement,
si vous parlez l'une des langues
95
00:05:26,006 --> 00:05:28,621
pour lesquelles « nature de l'élément »
n'a pas encore de libellé,
96
00:05:28,621 --> 00:05:30,190
vous savez ce qu'il vous reste à faire.
97
00:05:32,102 --> 00:05:35,676
Donc, « image » dispose
de 148 libellés actuellement.
98
00:05:37,688 --> 00:05:41,249
Mais c'est une autre diapositive.
99
00:05:42,521 --> 00:05:44,162
Ce graphique nous donne une idée
100
00:05:44,162 --> 00:05:49,321
du volume de contenu que nous rendons
accessible dans une langue donnée
101
00:05:49,321 --> 00:05:52,042
et dans quelle proportion ce contenu
est effectivement utilisé.
102
00:05:52,042 --> 00:05:55,448
Donc en gros, on peut voir
se dessiner une courbe
103
00:05:55,448 --> 00:05:59,057
où la majorité des contenus
disposant de libellés en anglais,
104
00:05:59,307 --> 00:06:04,105
étant disponibles en anglais
sont aussi largement utilisés.
105
00:06:04,295 --> 00:06:06,449
Puis ça a tendance à diminuer.
106
00:06:06,449 --> 00:06:09,436
Mais à nouveau,
on peut noter des exceptions
107
00:06:09,436 --> 00:06:15,333
qui ont beaucoup plus de contenus
qu'on aurait pu s'y attendre,
108
00:06:16,903 --> 00:06:19,539
et c'est une très bonne chose.
109
00:06:20,839 --> 00:06:24,945
Le problème demeure que ces contenus
ne sont pas très utilisés.
110
00:06:25,565 --> 00:06:28,742
L'asturien et le néerlandais devraient
être en meilleure position
111
00:06:28,742 --> 00:06:31,994
et je crois qu'aider ces communautés
112
00:06:33,266 --> 00:06:35,716
à accroître l'utilisation des données
qu'elles ont rassemblées
113
00:06:35,716 --> 00:06:37,792
est quelque chose de très utile.
114
00:06:42,910 --> 00:06:48,110
Ce que cette analyse ainsi que d'autres
nous ont révélé de positif,
115
00:06:48,300 --> 00:06:51,378
c'est que les éléments les plus utilisés
116
00:06:51,378 --> 00:06:55,295
ont aussi tendance
à avoir plus de libellés
117
00:06:55,295 --> 00:06:58,538
à moins que ça ne marche en sens inverse ;
ce n'est pas tout à fait clair.
118
00:07:02,513 --> 00:07:04,596
Et la question qui se pose alors, c'est :
119
00:07:04,596 --> 00:07:07,269
Sommes-nous seulement au service
des langues les plus puissantes ?
120
00:07:07,899 --> 00:07:11,197
Ou sommes-nous
au service de tout le monde ?
121
00:07:12,757 --> 00:07:17,743
Et ce que vous voyez ici,
ce sont des regroupements de langues.
122
00:07:17,743 --> 00:07:19,642
Les langues que nous avons
regroupées ensemble
123
00:07:19,642 --> 00:07:21,987
ont tendance à avoir
des libellés en commun.
124
00:07:26,042 --> 00:07:28,219
Et vous voyez se former des faisceaux.
125
00:07:28,599 --> 00:07:34,065
À présent, voici un même type
de regroupement avec différentes couleurs,
126
00:07:34,065 --> 00:07:39,475
selon que la langue est plus ou moins
vivante, plus ou moins largement utilisée
127
00:07:40,455 --> 00:07:43,156
ou menacée de disparition.
128
00:07:43,156 --> 00:07:44,642
Et la bonne chose qui apparaît ici,
129
00:07:44,642 --> 00:07:49,566
c'est que les langues dominantes
et les langues menacées de disparition
130
00:07:49,566 --> 00:07:53,773
ne constituent pas
deux groupes différents,
131
00:07:53,773 --> 00:07:58,872
mais qu'elles sont toutes
mélangées ensemble,
132
00:08:00,262 --> 00:08:04,625
ce qui est bien plus réjouissant
que si la situation avait été inverse
133
00:08:04,625 --> 00:08:09,377
et que les langues les plus assurées,
les langues dominantes
134
00:08:10,197 --> 00:08:12,164
s'étaient mutuellement soutenues.
135
00:08:12,744 --> 00:08:14,356
Ce n'est pas le cas.
136
00:08:14,356 --> 00:08:17,417
Et c'est une très bonne chose.
137
00:08:17,417 --> 00:08:20,042
J'ai trouvé que c'était
un très bon signe quand j'ai vu ça.
138
00:08:23,474 --> 00:08:25,229
Voici un autre exemple similaire
139
00:08:26,239 --> 00:08:28,800
où nous avons regardé
140
00:08:30,230 --> 00:08:34,222
le statut des langues
141
00:08:34,222 --> 00:08:36,225
et le nombre de libellés
dont elles disposent.
142
00:08:39,367 --> 00:08:42,937
Ce qui apparaît, c'est que les langues
fortes dominent clairement,
143
00:08:42,937 --> 00:08:44,438
comme on pouvait s'y attendre.
144
00:08:45,508 --> 00:08:46,693
Mais ce que l'on voit aussi,
145
00:08:46,693 --> 00:08:54,407
c'est que les langues des catégories 2,
3 et peut-être même 4
146
00:08:54,407 --> 00:08:59,280
ne s'en tirent pas si mal en fait,
147
00:08:59,280 --> 00:09:02,367
au niveau de leur représentation
sur Wikidata,
148
00:09:03,287 --> 00:09:06,408
ce qui est vraiment
un résultat réjouissant.
149
00:09:07,556 --> 00:09:09,129
Maintenant, si on regarde
la même chose
150
00:09:09,129 --> 00:09:12,418
sous l'angle de la proportion
de contenu de ces libellés
151
00:09:12,418 --> 00:09:15,495
qui est effectivement utilisée
dans Wikipédia, par exemple,
152
00:09:17,455 --> 00:09:22,563
on voit à nouveau se dessiner
la même tendance.
153
00:09:23,603 --> 00:09:29,813
Et cela nous révèle que ces communautés
font vraiment bon usage de leur temps
154
00:09:29,813 --> 00:09:34,504
en créant des libellés pour les éléments
les plus utilisés, par exemple.
155
00:09:36,410 --> 00:09:40,493
Il y a des exceptions
que nous devons pouvoir soutenir
156
00:09:41,683 --> 00:09:48,202
en aidant ces communautés à mieux
valoriser leur investissement.
157
00:09:49,312 --> 00:09:52,663
Mais de façon générale,
cette image me paraît réjouissante.
158
00:09:54,823 --> 00:09:59,844
Voilà pour ce qui était de la partie
éléments et propriétés de Wikidata.
159
00:10:00,714 --> 00:10:03,033
Regardons à présent les interactions
dans vos langues.
160
00:10:03,033 --> 00:10:05,203
Donc le volet lexème de Wikidata,
161
00:10:05,203 --> 00:10:09,394
où il s'agit de décrire les mots,
leur forme et leur signification.
162
00:10:10,167 --> 00:10:13,301
C'est un travail que nous avons
démarré en mai de l'année dernière
163
00:10:16,461 --> 00:10:19,127
et le contenu
n'a cessé de se développer.
164
00:10:20,114 --> 00:10:22,149
Ici, on voit les lexèmes en bleu,
165
00:10:22,149 --> 00:10:25,938
en rouge, les formes de ces lexèmes
166
00:10:25,938 --> 00:10:29,910
et en jaune, les significations
de ces lexèmes.
167
00:10:30,991 --> 00:10:34,451
Donc certaines communautés,
nous y reviendrons plus tard,
168
00:10:34,451 --> 00:10:38,523
ont consacré beaucoup de temps
à créer des formes et des significations
169
00:10:38,523 --> 00:10:42,753
pour leurs lexèmes, ce qui est très utile
170
00:10:42,753 --> 00:10:48,243
car cela constitue l'essence
des données dont vous avez besoin.
171
00:10:50,562 --> 00:10:55,133
Maintenant, nous avons regardé
toutes les langues
172
00:10:55,133 --> 00:10:57,906
qui ont des lexèmes sur Wikidata,
173
00:10:57,906 --> 00:11:01,003
donc les mots que nous avons.
174
00:11:01,603 --> 00:11:04,524
Ces derniers sont
actuellement en 310 langues.
175
00:11:04,884 --> 00:11:08,290
Maintenant, quelle est,
à votre avis, la première langue
176
00:11:08,290 --> 00:11:11,949
en termes de nombre de lexèmes
actuellement sur Wikidata ?
177
00:11:11,949 --> 00:11:14,677
(réponses fusant de l'auditoire)
Le suédois, le russe,
178
00:11:14,677 --> 00:11:16,350
l'asturien, l'allemand
179
00:11:16,350 --> 00:11:20,216
- (un intervenant parle hors micro)
- Hein ?
180
00:11:20,216 --> 00:11:21,741
(un autre intervenant) L'allemand.
181
00:11:21,741 --> 00:11:24,252
Désolée, la bonne réponse a été donnée.
182
00:11:24,252 --> 00:11:25,651
C'est le russe.
183
00:11:28,011 --> 00:11:29,924
Le russe est loin devant.
184
00:11:31,897 --> 00:11:33,832
Et pour vous donner une perspective,
185
00:11:35,412 --> 00:11:36,816
les opinions divergent à ce sujet,
186
00:11:36,816 --> 00:11:42,231
mais j'ai lu, par exemple,
que connaître 1 000 à 3 000 mots
187
00:11:42,231 --> 00:11:45,450
vous permet d'accéder au niveau
courant dans une autre langue.
188
00:11:45,450 --> 00:11:49,721
et qu'en connaître 4 000 à 10 000
vous situe à un niveau avancé.
189
00:11:51,591 --> 00:11:55,372
Donc nous avons encore
du chemin à faire pour en arriver là.
190
00:11:58,483 --> 00:12:03,279
J'aimerais attirer votre attention
sur la langue basque
191
00:12:03,279 --> 00:12:07,744
qui a environ 10 000 lexèmes.
192
00:12:09,244 --> 00:12:13,003
Or, si vous regardez le nombre
de formes pour ces lexèmes,
193
00:12:14,163 --> 00:12:16,497
le basque est très bien placé,
194
00:12:18,257 --> 00:12:20,006
ce qui est vraiment bien
195
00:12:20,006 --> 00:12:22,434
et il serait intéressant
d'assister à l'exposé
196
00:12:22,434 --> 00:12:25,315
qui vous expliquera cet état de fait.
197
00:12:27,341 --> 00:12:31,175
Maintenant, si on regarde le nombre
de sens, ce que les mots signifient,
198
00:12:32,015 --> 00:12:35,081
le basque arrive en tête de la liste.
199
00:12:35,081 --> 00:12:37,102
Il me semble que cela mérite
nos applaudissements.
200
00:12:37,102 --> 00:12:38,921
(applaudissements)
201
00:12:45,678 --> 00:12:47,118
Une autre devinette.
202
00:12:47,118 --> 00:12:50,511
Quel est le lexème le plus traduit
à l'heure actuelle, selon vous ?
203
00:12:50,511 --> 00:12:54,304
(public) Les chats, les chats,
Douglas Adams
204
00:12:54,304 --> 00:12:55,914
(rires)
205
00:12:56,766 --> 00:13:00,014
Ce sont toutes de bonnes idées, mais non.
206
00:13:01,012 --> 00:13:04,137
Voici la bonne réponse :
c'est le mot russe qui désigne l'eau.
207
00:13:09,301 --> 00:13:12,253
Très bien, nous avons beaucoup parlé
208
00:13:12,253 --> 00:13:16,412
du nombre de formes et de sens
des lexèmes que nous avons,
209
00:13:16,412 --> 00:13:20,453
mais ce n'est qu'une partie
de ce dont vous avez besoin.
210
00:13:20,453 --> 00:13:21,872
L'autre chose dont vous avez besoin
211
00:13:21,872 --> 00:13:25,161
c'est une description
des formes et des sens de ces lexèmes,
212
00:13:25,161 --> 00:13:27,647
dans un format qui soit lisible
par des machines.
213
00:13:27,647 --> 00:13:30,679
Et pour cela, vous avez des déclarations,
comme dans les éléments.
214
00:13:31,479 --> 00:13:36,362
Et l'une des propriétés utilisées ici
est l'exemple d'utilisation.
215
00:13:36,362 --> 00:13:38,582
De sorte que quiconque utilisera
cette donnée
216
00:13:38,582 --> 00:13:42,089
pourra comprendre comment
utiliser ce mot dans un contexte,
217
00:13:42,089 --> 00:13:44,648
il peut s'agir
d'une citation, par exemple.
218
00:13:45,396 --> 00:13:47,343
Et dans ce domaine, le polonais assure !
219
00:13:47,820 --> 00:13:50,109
Bien joué, à vous qui parlez polonais.
220
00:13:54,219 --> 00:13:57,680
Une autre propriété qui est
vraiment utile, c'est l'API,
221
00:13:57,680 --> 00:14:00,186
donc la manière de prononcer le mot.
222
00:14:00,876 --> 00:14:07,577
Il semble que le russe exige
de nombreuses déclarations API.
223
00:14:10,419 --> 00:14:13,314
Mais revoici le polonais
en deuxième position.
224
00:14:17,148 --> 00:14:20,753
Et enfin, nous avons
la prononciation audio.
225
00:14:20,753 --> 00:14:23,472
Il s'agit là de liens vers des fichiers
hébergés sur les Commons
226
00:14:23,472 --> 00:14:25,959
où un individu prononce le mot,
227
00:14:25,959 --> 00:14:28,500
ce qui vous permet d'entendre
le mot prononcé par quelqu'un
228
00:14:28,500 --> 00:14:29,913
dont c'est la langue natale,
229
00:14:29,913 --> 00:14:32,871
pour le cas où vous ne sauriez pas
déchiffrer l'API, par exemple.
230
00:14:34,959 --> 00:14:39,205
Et il existe un projet vraiment sympa
sous l'impulsion de Wiki
231
00:14:39,205 --> 00:14:40,884
qui s'appelle « Lingua Libre »
232
00:14:40,884 --> 00:14:45,173
auquel vous pouvez contribuer
en enregistrant des mots dans votre langue
233
00:14:45,173 --> 00:14:47,966
qui pourront ensuite être ajoutés
aux lexèmes sur Wikidata
234
00:14:48,446 --> 00:14:52,103
afin que d'autres puissent
apprendre à prononcer vos mots.
235
00:14:53,663 --> 00:14:55,694
(propos inaudibles d'un intervenant)
236
00:14:55,694 --> 00:14:57,665
Si vous recherchez « Lingua Libre »
237
00:14:57,665 --> 00:15:00,981
et je suis sûre que quelqu'un
pourra poster le lien sur Telegram.
238
00:15:03,138 --> 00:15:04,621
Ces gars-là sont super.
239
00:15:04,621 --> 00:15:06,726
Ils ont fait un travail formidable
avec Wikibase.
240
00:15:09,416 --> 00:15:10,617
Très bien.
241
00:15:12,706 --> 00:15:17,285
La question qui se pose à présent est :
quelles sont les prochaines étapes ?
242
00:15:19,165 --> 00:15:22,010
Si l'on en croit les chiffres
que je viens de vous montrer,
243
00:15:23,030 --> 00:15:25,172
nous avons bien avancé
244
00:15:25,172 --> 00:15:28,430
vers notre objectif de donner plus d'accès
à plus de savoir à davantage de gens
245
00:15:28,430 --> 00:15:31,240
dans le domaine des langues sur Wikidata.
246
00:15:32,530 --> 00:15:36,392
Mais nous avons encore beaucoup
de travail à accomplir.
247
00:15:38,992 --> 00:15:42,341
Une des choses que vous pouvez faire
pour contribuer au projet,
248
00:15:42,341 --> 00:15:44,921
c'est par exemple de lancer
une opération « libelléthon »,
249
00:15:44,921 --> 00:15:50,124
consistant à inciter des gens
à créer des libellés sur Wikidata
250
00:15:50,914 --> 00:15:55,121
ou une campagne de révision
des lexèmes dans votre langue
251
00:15:55,121 --> 00:15:57,372
pour assurer la présence sur Wikidata
252
00:15:57,372 --> 00:15:59,792
des mots les plus usités
dans votre langue.
253
00:16:00,773 --> 00:16:03,285
Vous pouvez aussi utiliser
un outil comme Terminator
254
00:16:03,285 --> 00:16:07,211
qui vous aide à identifier
les éléments les plus importants
255
00:16:07,211 --> 00:16:11,699
mais ne disposant pas encore
d'un libellé dans votre langue.
256
00:16:13,274 --> 00:16:18,359
Nous qualifions ici de « plus importants »
les éléments les plus fréquemment utilisés
257
00:16:18,359 --> 00:16:22,553
dans d'autres éléments Wikidata
en tant que liens dans les déclarations.
258
00:16:25,768 --> 00:16:30,022
Et bien entendu, pour la partie lexèmes,
259
00:16:31,342 --> 00:16:35,169
à présent que nous avons couvert
l'essentiel des lexèmes,
260
00:16:35,169 --> 00:16:41,163
il s'agit de les élaborer
en y ajoutant des déclarations
261
00:16:41,163 --> 00:16:44,401
afin qu'ils puissent réellement
construire les bases
262
00:16:44,401 --> 00:16:47,421
sur lesquelles des applications
significatives pourront se développer.
263
00:16:48,141 --> 00:16:50,795
Parce que nous nous rapprochons
de la masse critique
264
00:16:50,795 --> 00:16:53,616
mais nous sommes encore loin
265
00:16:53,616 --> 00:16:56,624
de la situation permettant de bâtir
de sérieuses applications sur ces bases.
266
00:16:58,277 --> 00:17:01,680
Et j'espère que vous allez tous
joindre vos efforts pour atteindre ce but.
267
00:17:02,583 --> 00:17:07,103
Ce qui m'amène tout droit
268
00:17:07,103 --> 00:17:09,843
à solliciter les amis qui nous soutiennent
269
00:17:09,843 --> 00:17:12,812
et Bruno, veux-tu bien me rejoindre
270
00:17:13,882 --> 00:17:16,854
pour nous parler des masques lexicaux ?
271
00:17:17,541 --> 00:17:18,567
(Bruno) Merci, Lydia.
272
00:17:18,567 --> 00:17:21,519
Merci de m'accorder un petit moment
273
00:17:21,519 --> 00:17:24,150
pour présenter ce travail
que nous effectuons à Google
274
00:17:24,150 --> 00:17:29,635
avec Denny et dont la plupart d'entre vous
ont probablement entendu parler.
275
00:17:30,136 --> 00:17:31,878
Parce que je suis linguiste
chez Google,
276
00:17:31,878 --> 00:17:33,760
et je suis aussi très heureux
de me trouver ici
277
00:17:33,760 --> 00:17:36,620
en compagnie d'autres
passionnés des langues,
278
00:17:36,620 --> 00:17:39,278
et chez Google, nous construisons
aussi des lexiques
279
00:17:39,278 --> 00:17:41,766
et nous avons développé cette technologie
280
00:17:41,766 --> 00:17:45,589
ou cette approche dont nous pensons
qu'elle peut vous être utile.
281
00:17:46,369 --> 00:17:48,455
Pour vous expliquer un peu le contexte,
282
00:17:48,455 --> 00:17:52,068
vous pouvez voir ici mes références
en matière de lexicographie.
283
00:17:52,668 --> 00:17:54,667
Pour créer une base
de données lexicographiques,
284
00:17:54,667 --> 00:17:58,623
nous consacrons beaucoup de temps
et d'efforts à maintenir une cohérence
285
00:17:58,623 --> 00:18:00,125
et à échanger des données,
286
00:18:00,125 --> 00:18:02,027
comme vous le savez probablement.
287
00:18:02,417 --> 00:18:03,809
Il existe plusieurs tentatives
288
00:18:03,809 --> 00:18:06,081
visant à unifier les caractéristiques
et les propriétés
289
00:18:06,081 --> 00:18:09,184
qui décrivent ces lexèmes et ces formes
290
00:18:09,184 --> 00:18:10,936
et la question n'est pas encore réglée
291
00:18:10,936 --> 00:18:13,958
mais des tentatives sont en cours
pour aller dans le sens d'une unification.
292
00:18:13,958 --> 00:18:15,209
Mais ce qui manque réellement,
293
00:18:15,209 --> 00:18:17,312
et c'est un problème auquel
nous avons été confrontés
294
00:18:17,312 --> 00:18:18,732
chez Google au début du projet,
295
00:18:18,732 --> 00:18:21,757
c'est de tenter de construire
une structure interne
296
00:18:22,197 --> 00:18:25,910
décrivant à quoi devrait ressembler
une entrée lexicale,
297
00:18:25,910 --> 00:18:28,581
le type de données ou d'informations
dont nous disposons
298
00:18:28,581 --> 00:18:32,237
et le degré de spécification attendu.
299
00:18:32,237 --> 00:18:38,187
Et voici ce à quoi nous avons abouti
et qui s'appelle le « masque lexical ».
300
00:18:38,897 --> 00:18:43,639
Un masque lexical décrit
les données attendues
301
00:18:43,639 --> 00:18:47,369
pour qu'une entrée lexicographique
puisse être considérée comme complète
302
00:18:47,369 --> 00:18:51,436
à la fois quant au nombre de formes
qu'un lexème devrait avoir
303
00:18:51,436 --> 00:18:55,607
et quant au nombre de caractéristiques
attendues pour chacune de ces formes.
304
00:18:56,307 --> 00:18:58,409
Voici un exemple portant
sur les adjectifs italiens.
305
00:18:58,409 --> 00:19:02,002
En italien, on devrait trouver
quatre formes pour les adjectifs
306
00:19:02,002 --> 00:19:05,383
et chacune de ces formes
reflète une combinaison spécifique
307
00:19:05,383 --> 00:19:07,946
de caractéristiques de genre et de nombre.
308
00:19:08,606 --> 00:19:12,672
C'est ce qui est attendu
en matière d'adjectifs italiens.
309
00:19:12,672 --> 00:19:16,176
Bien sûr, on peut avoir des masques
extrêmement complexes,
310
00:19:16,176 --> 00:19:20,783
comme pour les conjugaisons françaises
qui sont très fournies
311
00:19:20,783 --> 00:19:23,487
et je ne vous présente pas
un masque russe quel qu'il soit,
312
00:19:23,487 --> 00:19:25,378
parce qu'il déborderait de l'écran.
313
00:19:26,308 --> 00:19:29,531
Et nous avons aussi
des spécifications détaillées
314
00:19:29,531 --> 00:19:33,421
parce que nous distinguons
ce qui se situe au niveau de la forme.
315
00:19:33,421 --> 00:19:37,544
Donc ici vous voyez les noms russes
qui comportent trois nombres
316
00:19:37,544 --> 00:19:40,048
ainsi qu'un nombre de cas
avec différentes formes
317
00:19:40,048 --> 00:19:43,086
mais ils ont également
une spécification au niveau de l'entrée
318
00:19:43,086 --> 00:19:45,590
qui indique qu'un nom
319
00:19:45,590 --> 00:19:47,073
a un genre inhérent
320
00:19:47,073 --> 00:19:50,133
ainsi qu'une caractéristique
d'animéité inhérente
321
00:19:50,133 --> 00:19:52,688
qui est également précisée dans le masque.
322
00:19:54,518 --> 00:19:58,779
Nous voulons aussi préciser
qu'un masque indique une spécification
323
00:19:58,779 --> 00:20:01,874
de ce à quoi devrait ressembler
une entrée, de manière générale.
324
00:20:01,874 --> 00:20:07,158
Mais vous pouvez avoir des masques
plus petits en cas de formes réduites
325
00:20:07,158 --> 00:20:11,282
ou d'aspects limités de l'utilisation
du lexème dans la langue.
326
00:20:11,282 --> 00:20:14,537
Voici par exemple la version
la plus simple de verbes en français
327
00:20:14,537 --> 00:20:17,584
qui ne se conjuguent qu'à la troisième
personne du singulier,
328
00:20:17,584 --> 00:20:19,930
les verbes désignant
les phénomènes météorologiques
329
00:20:19,930 --> 00:20:23,969
comme « il pleut » ou « il neige »,
comme c'est aussi le cas en anglais.
330
00:20:24,537 --> 00:20:26,923
Donc, nous faisons la distinction
entre ces deux niveaux.
331
00:20:26,923 --> 00:20:29,962
Et la façon dont nous utilisons
cela chez Google,
332
00:20:29,962 --> 00:20:32,643
quand nous avons un lexique
que nous voulons utiliser,
333
00:20:33,063 --> 00:20:38,219
nous utilisons le masque
pour carrément y déverser le lexique
334
00:20:38,219 --> 00:20:40,283
et toutes ses entrées,
qui vont traverser le masque
335
00:20:40,283 --> 00:20:44,303
et nous voyons quelles entrées posent
un problème en termes de structure.
336
00:20:44,303 --> 00:20:46,673
Manque-t-il une forme ?
Manque-t-il une caractéristique ?
337
00:20:46,673 --> 00:20:48,563
Et quand un problème se présente,
338
00:20:48,563 --> 00:20:51,497
nous avons recours
à une validation humaine
339
00:20:51,497 --> 00:20:53,751
pour vérifier si l'entrée passe
l'épreuve du masque.
340
00:20:53,751 --> 00:20:57,924
C'est donc un outil extrêmement puissant
pour vérifier la qualité de la structure.
341
00:20:59,427 --> 00:21:01,964
Et nous sommes heureux
de vous annoncer aujourd'hui
342
00:21:01,964 --> 00:21:05,408
que nous avons eu le feu vert
pour ouvrir notre masque à l'open source.
343
00:21:05,948 --> 00:21:07,469
Donc voici le schéma.
344
00:21:07,469 --> 00:21:09,697
Si vous le voulez, nous pouvons
le mettre à disposition
345
00:21:09,697 --> 00:21:13,483
et le fournir à Wikidata
sous forme de fichiers Shex.
346
00:21:13,483 --> 00:21:16,688
Voici un fichier Shex
pour les noms allemands
347
00:21:16,688 --> 00:21:20,428
et Denny travaille à le convertir
pour passer de nos spécifications internes
348
00:21:20,428 --> 00:21:23,666
à une spécification
plus appropriée à l'open source
349
00:21:23,666 --> 00:21:27,522
Nous couvrons actuellement
plus de 25 langues.
350
00:21:27,522 --> 00:21:29,495
Nous espérons développer
cette offre de notre côté
351
00:21:29,495 --> 00:21:34,350
mais nous y voyons aussi une opportunité
de collaboration pour ajouter des langues.
352
00:21:34,350 --> 00:21:40,728
Et l'une de ces collaborations est celle
que Denny entretient avec Lukas.
353
00:21:40,728 --> 00:21:45,052
Lukas dispose d'outils fantastiques
permettant une interface utilisateur
354
00:21:45,052 --> 00:21:48,525
pour permettre à l'utilisateur
ou au contributeur
355
00:21:48,525 --> 00:21:51,061
d'ajouter davantage de formes.
356
00:21:51,061 --> 00:21:54,151
Donc si vous voulez ajouter
un adjectif en français,
357
00:21:54,151 --> 00:21:59,057
l'IU vous indiquera le nombre
de formes à fournir
358
00:21:59,057 --> 00:22:01,562
et les caractéristiques
que ces formes devraient avoir.
359
00:22:01,562 --> 00:22:06,268
Ainsi notre masque permettra à cet outil
de s'affiner et de se développer.
360
00:22:07,238 --> 00:22:08,385
Et voilà.
361
00:22:08,791 --> 00:22:10,358
(Lydia) Merci infiniment.
362
00:22:10,358 --> 00:22:11,993
(applaudissements)
363
00:22:14,249 --> 00:22:16,891
(Lydia) Très bien.
Avez-vous des questions ?
364
00:22:16,891 --> 00:22:19,381
Souhaitez-vous que nous parlions
davantage des lexèmes ?
365
00:22:19,774 --> 00:22:21,885
- (intervenant 1) Oui.
- (Lydia) Oui. (petit rire)
366
00:22:33,485 --> 00:22:35,380
- (intervenant 1) Vous parliez
367
00:22:35,380 --> 00:22:39,106
de donner plus d'accès
à plus de gens dans plus de langues,
368
00:22:39,106 --> 00:22:42,444
mais beaucoup de langues ne peuvent pas
être utilisées dans Wikidata.
369
00:22:42,444 --> 00:22:44,838
Quelle solution avez-vous
pour résoudre cela ?
370
00:22:45,079 --> 00:22:47,686
Quand vous dites qu'elles
ne peuvent pas utiliser Wikidata,
371
00:22:47,686 --> 00:22:50,208
est-ce que vous parlez
d'intégrer des libellés ?
372
00:22:50,208 --> 00:22:52,581
- (i.1) Des libellés, des descriptions.
- D'accord.
373
00:22:52,581 --> 00:22:55,498
Donc, en ce qui concerne
les lexèmes, c'est un peu différent,
374
00:22:55,498 --> 00:22:58,003
parce que cette restriction
ne s'applique pas ici.
375
00:22:58,923 --> 00:23:05,003
Pour les libellés des éléments
et propriétés, des restrictions existent
376
00:23:05,433 --> 00:23:10,551
parce que nous voulions nous assurer
377
00:23:10,551 --> 00:23:14,229
que n'importe qui ne puisse pas
faire n'importe quoi
378
00:23:14,229 --> 00:23:17,769
et que cela devienne ingérable.
379
00:23:19,349 --> 00:23:23,328
Si une communauté, même petite,
veut ajouter une langue et y travailler,
380
00:23:23,898 --> 00:23:26,787
venez en discuter avec nous
et nous pourrons rendre cela possible.
381
00:23:26,787 --> 00:23:29,470
(i.1) Nous l'avons fait à l'occasion
du Hackathon de Prague en mai
382
00:23:29,470 --> 00:23:32,576
et il nous a fallu attendre le mois d'août
pour pouvoir utiliser notre langue.
383
00:23:32,576 --> 00:23:35,135
- Oui.
- (i.1) Donc, c'est très lent.
384
00:23:35,135 --> 00:23:37,854
Oui, c'est malheureusement très lent.
385
00:23:37,854 --> 00:23:40,093
Nous travaillons actuellement
avec le Comité des langues
386
00:23:40,093 --> 00:23:46,048
à la résolution
de certains points fondamentaux...
387
00:23:49,537 --> 00:23:55,447
Comme par exemple parvenir à un accord
sur les langues qui sont « autorisées »
388
00:23:56,047 --> 00:23:59,468
et cela nous a pris trop de temps,
389
00:23:59,988 --> 00:24:02,258
ce qui explique pourquoi votre demande
390
00:24:02,258 --> 00:24:04,868
a probablement mis plus de temps
à aboutir qu'elle ne l'aurait dû.
391
00:24:04,868 --> 00:24:05,963
(i.1) Merci.
392
00:24:06,705 --> 00:24:07,800
(intervenant 2) Merci.
393
00:24:07,800 --> 00:24:10,938
Lydia, vous vous souvenez des statistiques
que vous nous avez montrées,
394
00:24:10,938 --> 00:24:12,886
sur le nombre de lexèmes par langue ?
395
00:24:12,886 --> 00:24:17,599
Avez-vous pris chaque forme
comme unité de calcul
396
00:24:17,599 --> 00:24:20,034
ou seulement les lexèmes ?
397
00:24:21,159 --> 00:24:22,941
Vous faites référence à ceci ?
398
00:24:22,941 --> 00:24:25,797
- De quelle diapo parlez-vous ?
- (i.2) Oui, c'est exactement cela.
399
00:24:25,797 --> 00:24:28,341
Si vous vous rappelez,
ce nombre représente-t-il
400
00:24:28,341 --> 00:24:31,954
toutes les formes de tous les lexèmes
où seulement les lexèmes existants ?
401
00:24:31,954 --> 00:24:35,395
- Non, ce sont seulement des lexèmes.
- (i.2) Uniquement les lexèmes, d'accord.
402
00:24:35,395 --> 00:24:36,897
Alors la statistique est correcte.
403
00:24:36,897 --> 00:24:39,390
Parce que si vous aviez pris
les formes en compte,
404
00:24:39,390 --> 00:24:40,748
et c'est la raison de ma question,
405
00:24:40,748 --> 00:24:43,074
alors toutes les langues ayant
une morphologie flexionnelle
406
00:24:43,074 --> 00:24:45,027
comme le russe, le serbe, le slovène, etc.
407
00:24:45,027 --> 00:24:47,616
seraient naturellement avantagées
tant elles ont de formes.
408
00:24:47,616 --> 00:24:51,990
C'est ici que c'est manifeste,
sur le nombre de formes.
409
00:24:51,990 --> 00:24:54,141
(intervenant 2) Oui,
c'était bien celle-ci. Merci.
410
00:24:56,546 --> 00:25:00,224
(intervenant 3) Une petite question
concernant...
411
00:25:00,644 --> 00:25:06,824
Quand nous parlons des éléments
et propriétés à proprement parler,
412
00:25:07,124 --> 00:25:08,901
Pour autant que je sache,
413
00:25:08,901 --> 00:25:11,955
il n'y a à l'heure actuelle aucun moyen
d'identifier une source
414
00:25:11,955 --> 00:25:14,726
pour n'importe lequel des libellés
et descriptions qui sont fournis.
415
00:25:14,726 --> 00:25:18,047
Donc, par exemple,
quand vous parlez
416
00:25:18,047 --> 00:25:20,920
d'une propriété d'un élément,
417
00:25:20,920 --> 00:25:24,509
vous pouvez être confronté
à des libellés contradictoires.
418
00:25:24,509 --> 00:25:25,739
Oui.
419
00:25:25,739 --> 00:25:27,862
(i.3) Donc, disons
que telle personne est...
420
00:25:28,302 --> 00:25:30,920
Nous parlions tout à l'heure
des questions indigènes, par exemple.
421
00:25:30,920 --> 00:25:35,965
Donc telle personne est un artiste
norvégien selon telle source
422
00:25:35,965 --> 00:25:38,750
et un artiste sami
selon telle autre source.
423
00:25:39,550 --> 00:25:42,883
Ou par exemple, la question
s'est posée pour l'estonien
424
00:25:42,883 --> 00:25:47,729
et nous avons dû revoir la terminologie
en fonction de la terminologie officielle
425
00:25:47,729 --> 00:25:49,667
telle qu'elle figure
dans les lexiques officiels,
426
00:25:49,667 --> 00:25:52,262
mais nous n'avons aucun moyen
d'indiquer quelle en est la raison,
427
00:25:52,262 --> 00:25:54,426
quelle en est la source
et pourquoi c'est plus juste
428
00:25:54,426 --> 00:25:55,658
que ce qu'il y avait avant.
429
00:25:55,658 --> 00:25:57,150
C'est un simple quidam comme moi
430
00:25:57,150 --> 00:25:59,615
qui a remplacé la donnée
pour qui la verra.
431
00:25:59,615 --> 00:26:02,520
Donc est-il prévu de rendre cela possible
d'une manière ou d'une autre
432
00:26:02,520 --> 00:26:06,605
afin que nous puissions avoir de vraies
sources pour les données linguistiques ?
433
00:26:07,045 --> 00:26:11,568
Alors, c'est en partie possible.
434
00:26:11,568 --> 00:26:16,088
Donc, par exemple, quand vous avez
un élément portant sur une personne,
435
00:26:16,898 --> 00:26:22,720
vous avez dans les déclarations :
prénom, nom, etc., de cette personne
436
00:26:22,720 --> 00:26:26,406
et vous pouvez fournir la référence
correspondante à ce niveau-là.
437
00:26:28,101 --> 00:26:32,544
J'ai beaucoup de réserves
quant à rendre les choses plus complexes
438
00:26:32,544 --> 00:26:35,557
avec des références
sur les libellés et les descriptions,
439
00:26:35,557 --> 00:26:38,624
mais si les gens pensent vraiment
440
00:26:38,624 --> 00:26:44,939
que c'est quelque chose qui n'est couvert
par aucune référence sur la déclaration,
441
00:26:44,939 --> 00:26:46,803
alors parlons-en.
442
00:26:49,079 --> 00:26:53,303
Mais je crains que cela n'entraîne
beaucoup de complexité
443
00:26:53,303 --> 00:26:56,523
pour des occurrences dont j'espère
qu'elles sont peu nombreuses,
444
00:26:57,393 --> 00:27:00,188
mais je veux bien être
convaincue du contraire,
445
00:27:00,188 --> 00:27:04,087
si les gens y tiennent beaucoup.
446
00:27:04,087 --> 00:27:08,177
(i.3) Je veux dire, si c'est ajouté
ce ne devrait pas être impératif
447
00:27:08,177 --> 00:27:12,452
et apparaître à tous les utilisateurs
débutant dans l'interface en tout cas.
448
00:27:12,452 --> 00:27:13,580
Plutôt quelque chose comme :
449
00:27:13,580 --> 00:27:16,761
« Cliquez ici si vous avez
des commentaires à faire à ce sujet ».
450
00:27:17,632 --> 00:27:23,368
A-t-on une idée du nombre
de cas où cela aurait de l'importance ?
451
00:27:24,520 --> 00:27:26,423
(i.3) En estonien, par exemple,
452
00:27:26,423 --> 00:27:29,164
et je suppose que c'est aussi le cas
dans d'autres langues,
453
00:27:29,164 --> 00:27:34,203
il existe un mot officiel,
qui est la traduction légitime
454
00:27:34,203 --> 00:27:36,206
par exemple, en anglais,
455
00:27:36,206 --> 00:27:40,314
disons d'un type particulier
de municipalité.
456
00:27:40,314 --> 00:27:41,746
C'était mon cas pratique,
457
00:27:41,746 --> 00:27:44,409
par exemple, où nous utilisions
le mot « paroisse »
458
00:27:45,159 --> 00:27:50,775
où effectivement le mot estonien original
avait le sens de paroisse d'église
459
00:27:50,775 --> 00:27:51,999
et c'était là l'origine du mot
460
00:27:51,999 --> 00:27:53,699
mais ce n'est plus
la traduction officielle
461
00:27:53,699 --> 00:27:55,189
qu'en donne l'Estonie aujourd'hui.
462
00:27:55,189 --> 00:27:57,531
Dans ce cas, je l'ajouterais
dans les déclarations
463
00:27:57,531 --> 00:28:00,817
en tant que nom officiel
et c'est là que j'ajouterais la référence.
464
00:28:02,032 --> 00:28:03,158
(intervenant 3) D'accord.
465
00:28:05,186 --> 00:28:06,952
D'autres questions, oui ?
466
00:28:07,682 --> 00:28:10,044
(intervenant 4) J'aimerais faire
deux courtes remarques.
467
00:28:10,044 --> 00:28:13,934
Vous avez mis l'asturien en avant
comme une langue réussissant bien
468
00:28:13,934 --> 00:28:16,455
et je pense qu'il s'agit
d'un effet artificiel.
469
00:28:16,455 --> 00:28:17,724
Dites-m'en plus.
470
00:28:17,724 --> 00:28:19,748
(intervenant 4) Je pense
que c'est juste un robot
471
00:28:19,748 --> 00:28:21,854
- (i.4) qui a collé...
- Oh non !
472
00:28:21,854 --> 00:28:24,068
(i.4) des noms de personnes,
des noms propres
473
00:28:24,068 --> 00:28:27,172
et a dit : « C'est exactement
comme en français ou en espagnol »,
474
00:28:27,172 --> 00:28:28,558
et a tout copié en bloc.
475
00:28:28,558 --> 00:28:33,316
Ce qui tend à prouver ça, c'est qu'on ne
retrouve pas cette énergie en asturien
476
00:28:33,316 --> 00:28:35,785
pour les choses qui exigent
réellement un effort de traduction
477
00:28:35,785 --> 00:28:37,336
comme les noms de propriétés
478
00:28:37,336 --> 00:28:39,648
ou les noms des éléments
qui ne sont pas des noms propres.
479
00:28:39,648 --> 00:28:41,219
Asaf, vous me brisez le cœur.
480
00:28:41,219 --> 00:28:43,198
(i.4) Je sais.
J'aime bien gâcher la fête,
481
00:28:43,198 --> 00:28:48,558
mais j'ai aussi de bonnes nouvelles
au sujet des scores en prononciation.
482
00:28:49,408 --> 00:28:50,765
Comme vous le savez probablement,
483
00:28:50,765 --> 00:28:53,515
les Commons sont pleins
de fichiers de prononciation
484
00:28:53,515 --> 00:28:54,668
et par exemple
485
00:28:54,668 --> 00:28:59,464
le néerlandais compte pas moins
de 300 000 fichiers de prononciation
486
00:28:59,464 --> 00:29:01,912
qui sont déjà dans les Commons
487
00:29:01,912 --> 00:29:05,051
et qui ne demandent qu'à être ingérés.
488
00:29:05,051 --> 00:29:07,697
Donc si quelqu'un est en recherche
d'un projet connexe,
489
00:29:07,697 --> 00:29:09,118
il existe des tonnes et des tonnes
490
00:29:09,118 --> 00:29:13,280
de fichiers de prononciation, classés
et catégorisés dans les Commons
491
00:29:13,280 --> 00:29:16,893
sous la catégorie
« Prononciation » par langue.
492
00:29:16,893 --> 00:29:22,840
Il n'y a plus qu'à les faire correspondre
aux lexèmes et les intégrer dans Lexèmes.
493
00:29:23,000 --> 00:29:25,484
Et d'autre part, je me demandais
si vous pourriez parler un peu
494
00:29:25,484 --> 00:29:26,585
de la feuille de route,
495
00:29:26,585 --> 00:29:28,757
nous dire un peu
quel degré d'investissement
496
00:29:28,757 --> 00:29:31,995
ou ce que nous pouvons attendre
de Lexème pour l'année qui vient,
497
00:29:31,995 --> 00:29:34,560
parce qu'en tout cas
pour ma part, je brûle d'impatience.
498
00:29:34,949 --> 00:29:37,044
Vous brûlez d'impatience ?
(petit rire)
499
00:29:37,044 --> 00:29:39,588
- (i.3) de voir la suite.
- Oui (petit rire)
500
00:29:44,541 --> 00:29:48,073
Actuellement, nous nous concentrons
plutôt sur Wikibase
501
00:29:48,073 --> 00:29:50,138
et la qualité des données
502
00:29:51,493 --> 00:29:55,087
pour voir quel est l'attrait suscité,
503
00:29:55,087 --> 00:30:01,676
puis l'augmenter davantage
au niveau des points faibles
504
00:30:01,676 --> 00:30:06,003
et ensuite revenir pour continuer
à développer les données lexicographiques.
505
00:30:06,903 --> 00:30:09,790
Et une des choses que j'aimerais
entendre de votre part,
506
00:30:09,790 --> 00:30:14,136
c'est quelles devraient précisément
être les prochaines étapes selon vous.
507
00:30:14,136 --> 00:30:15,966
où voulez-vous voir des améliorations
508
00:30:15,966 --> 00:30:20,340
pour que nous puissions définir
comment parvenir à les produire.
509
00:30:21,125 --> 00:30:22,810
Mais bien sûr, vous avez raison,
510
00:30:22,810 --> 00:30:25,832
il reste encore tant à faire,
au niveau technique aussi.
511
00:30:30,573 --> 00:30:35,848
(intervenant 5) Tandis que nous intégrions
les mots basques avec leurs formes,
512
00:30:35,848 --> 00:30:37,768
et ce genre de situations
est assez fréquent,
513
00:30:37,768 --> 00:30:41,399
nous nous disions, la semaine dernière :
« Oh, nous sommes premiers quelque part »
514
00:30:42,739 --> 00:30:44,928
ça sort dans la presse, c'est comme :
515
00:30:44,928 --> 00:30:49,488
« Oh, c'est une première, les Basques sont
premiers dans un domaine, chouette ! »
516
00:30:49,488 --> 00:30:50,606
(rire)
517
00:30:50,606 --> 00:30:53,708
Et alors les gens nous demandent :
« C'est bien, mais à quoi ça sert ? »
518
00:30:54,678 --> 00:30:56,849
Nous n'avons pas vraiment
de bonne réponse à ça.
519
00:30:56,849 --> 00:30:57,980
je veux dire, c'est pas mal,
520
00:30:57,980 --> 00:31:01,841
cela permettra aux ordinateurs
de comprendre davantage notre langue, oui,
521
00:31:01,841 --> 00:31:05,279
mais quel genre d'outils
pourrons-nous développer à l'avenir ?
522
00:31:05,279 --> 00:31:07,467
Nous n'avons pas
de bonne réponse à cette question.
523
00:31:07,467 --> 00:31:10,625
Donc, je me demande si vous avez
une bonne réponse à ça.
524
00:31:10,625 --> 00:31:12,982
(petit rire) Je ne sais pas
si c'est une bonne réponse,
525
00:31:12,982 --> 00:31:14,846
mais j'ai une réponse.
526
00:31:15,480 --> 00:31:20,425
Alors, je crois qu'à l'heure actuelle,
comme je l'indiquais,
527
00:31:20,425 --> 00:31:22,194
nous n'avons pas atteint
cette masse critique
528
00:31:22,194 --> 00:31:25,529
qui permet de construire bon nombre
des outils vraiment intéressants.
529
00:31:25,529 --> 00:31:27,707
Mais il existe déjà quelques outils.
530
00:31:28,267 --> 00:31:31,912
Pas plus tard que l'autre jour,
par exemple, Esther [Pandelia]
531
00:31:31,912 --> 00:31:34,217
a mis à disposition un outil
permettant de visualiser
532
00:31:35,837 --> 00:31:38,889
je crois qu'il s'agissait
des mots sur un globe,
533
00:31:38,889 --> 00:31:41,901
l'endroit où ils sont le plus parlés,
l'endroit dont ils sont originaires.
534
00:31:42,631 --> 00:31:44,090
Je me trompe peut-être là-dessus,
535
00:31:44,090 --> 00:31:46,526
mais elle a répondu sur la page
Discussion Projet de Wikidata,
536
00:31:46,526 --> 00:31:48,984
vous pouvez allez voir.
537
00:31:49,574 --> 00:31:51,805
Donc, nous voyons apparaître
ces premiers outils,
538
00:31:51,805 --> 00:31:55,806
tout comme nous l'avons vu
au démarrage de Wikidata,
539
00:31:56,846 --> 00:31:59,602
d'abord comme une sorte de réseau,
540
00:31:59,602 --> 00:32:03,424
puis : « Hé, mais il y a cette chose
qui se connecte à cette autre chose ».
541
00:32:04,824 --> 00:32:07,059
Et une fois que l'on a plus de données
542
00:32:07,059 --> 00:32:10,612
et que l'on a atteint
une sorte de masse critique,
543
00:32:11,852 --> 00:32:14,747
de nouvelles applications
plus puissantes deviennent possibles
544
00:32:15,677 --> 00:32:17,676
des choses comme Histropedia,
545
00:32:19,126 --> 00:32:21,988
des choses comme les questions-réponses
546
00:32:21,988 --> 00:32:26,663
avec votre assistant personnel numérique,
Platypus et ainsi de suite.
547
00:32:26,663 --> 00:32:30,038
Et nous voyons le même phénomène
se produire avec les lexèmes.
548
00:32:31,198 --> 00:32:34,650
Nous en sommes au stade
où vous pouvez construire ces petits
549
00:32:34,650 --> 00:32:37,464
« Hé, il y a une connexion possible
entre ces deux choses,
550
00:32:37,864 --> 00:32:42,738
et il existe une traduction
de ce mot dans cette langue ».
551
00:32:42,738 --> 00:32:47,747
Et plus nous l'élaborons,
plus nous décrivons de mots,
552
00:32:47,747 --> 00:32:49,533
plus ces choses deviennent possibles.
553
00:32:49,533 --> 00:32:51,795
Alors, qu'est-ce qui devient possible ?
554
00:32:53,482 --> 00:32:59,483
Comme Ben, notre conférencier sur Keynote,
le disait plus tôt : les traductions,
555
00:33:00,103 --> 00:33:03,455
être capable de traduire
d'une langue à une autre.
556
00:33:03,455 --> 00:33:07,929
Et Jens, mon collègue, ne cesse de parler
557
00:33:07,929 --> 00:33:11,452
de l'Union Européenne
qui cherche un traducteur
558
00:33:11,452 --> 00:33:17,439
capable de traduire
du maltais au suédois, je crois.
559
00:33:17,439 --> 00:33:19,716
- (intervenant 6) de l'estonien.
- De l'estonien.
560
00:33:22,016 --> 00:33:26,211
Et ce n'est pas là
une combinaison habituelle,
561
00:33:27,211 --> 00:33:29,375
mais une fois que toutes ces langues
sont disponibles
562
00:33:29,375 --> 00:33:31,735
dans un espace
lisible par des machines,
563
00:33:31,735 --> 00:33:33,143
c'est faisable,
564
00:33:33,143 --> 00:33:36,857
on peut avoir un dictionnaire
565
00:33:36,857 --> 00:33:41,735
estonien-maltais et vice-versa.
566
00:33:42,865 --> 00:33:45,607
Donc assurer des combinaisons
de langues dans des dictionnaires
567
00:33:45,607 --> 00:33:47,911
qui n'ont jamais été réalisés auparavant
568
00:33:47,911 --> 00:33:51,050
parce que la demande était insuffisante
569
00:33:51,050 --> 00:33:55,540
pour en faire un projet financièrement
viable qui justifie un tel travail.
570
00:33:55,540 --> 00:33:57,147
Maintenant nous pouvons le faire.
571
00:33:59,797 --> 00:34:02,318
Ensuite, la création de texte.
572
00:34:02,318 --> 00:34:03,653
Lucie parlait tout à l'heure
573
00:34:03,653 --> 00:34:10,136
de la manière dont elle travaille
avec Hattie à générer du texte
574
00:34:10,136 --> 00:34:12,153
pour commencer à diffuser
des articles de Wikipédia
575
00:34:12,153 --> 00:34:15,021
dans des langues minoritaires
576
00:34:15,423 --> 00:34:19,512
et cela exige d'avoir
des données sur les mots
577
00:34:19,512 --> 00:34:22,589
et il faut comprendre la langue
pour y parvenir.
578
00:34:23,669 --> 00:34:28,133
Et oui, ce ne sont que quelques
exemples qui me viennent à l'esprit.
579
00:34:28,513 --> 00:34:30,604
Peut-être que notre auditoire
a d'autres idées
580
00:34:30,604 --> 00:34:32,364
quant à ce qu'ils voudraient faire
581
00:34:32,364 --> 00:34:34,914
une fois que nous aurons
toutes ces précieuses données.
582
00:34:37,693 --> 00:34:40,892
(intervenant 7) Je vais un peu
m'écarter du sujet des lexèmes.
583
00:34:40,892 --> 00:34:42,666
Je voudrais poser cette question.
584
00:34:42,666 --> 00:34:45,634
Quel impact puis-je avoir en tant
que membre d'une communauté
585
00:34:45,634 --> 00:34:50,135
pour faire d'une tâche une priorité,
586
00:34:50,135 --> 00:34:54,493
afin qu'un nouvel utilisateur
puisse indiquer les langues
587
00:34:54,493 --> 00:34:56,644
qu'il souhaite voir et éditer
588
00:34:56,644 --> 00:35:01,135
sans disposer d'une bulle secrète
de connaissances formatées ?
589
00:35:02,145 --> 00:35:05,193
Peut-être verrons-nous cette année
cette liste de souhaits techniques exaucée
590
00:35:05,193 --> 00:35:07,040
en dehors des thèmes de Wikipédia.
591
00:35:07,040 --> 00:35:10,119
Peut-être pouvons-nous espérer
un vote général sur ce point
592
00:35:10,119 --> 00:35:14,218
que nous n'avons pas réussi
à résoudre depuis sept ans.
593
00:35:14,218 --> 00:35:17,607
Avez-vous des idées
ou des commentaires à ce sujet ?
594
00:35:18,217 --> 00:35:20,328
Vous faites référence au fait
595
00:35:20,328 --> 00:35:23,518
qu'un utilisateur qui n'est pas
connecté sur Wikidata
596
00:35:23,518 --> 00:35:25,971
ne peut pas apporter facilement
de changements sur sa langue ?
597
00:35:25,971 --> 00:35:28,039
(intervenant 7) Non,
je parle des utilisateurs.
598
00:35:28,309 --> 00:35:30,689
Alors, s'ils sont connectés,
599
00:35:30,689 --> 00:35:34,871
ils peuvent modifier leur langue
en haut de la page
600
00:35:35,891 --> 00:35:38,489
et là ils verront apparaître,
601
00:35:39,659 --> 00:35:42,271
l'endroit où se trouvent
les descriptions des libellés
602
00:35:42,271 --> 00:35:43,773
et ils peuvent les modifier.
603
00:35:45,657 --> 00:35:49,009
(intervenant 7) Eh bien, en fait,
bien souvent, le processus est tel
604
00:35:49,009 --> 00:35:52,447
que si vous voulez avoir plusieurs
langues disponibles, elles le sont,
605
00:35:52,447 --> 00:35:55,419
mais ce n'est pas toujours le cas.
606
00:35:55,419 --> 00:35:57,364
D'accord, peut-être
pouvons-nous en discuter
607
00:35:57,364 --> 00:35:59,543
après cette conférence
et vous me montrerez ?
608
00:36:01,562 --> 00:36:04,089
Bien. D'autres questions ?
609
00:36:05,534 --> 00:36:06,536
Oui.
610
00:36:11,595 --> 00:36:13,196
(intervenant 8) Merci pour votre exposé.
611
00:36:14,106 --> 00:36:15,127
Pouvez-vous nous parler
612
00:36:15,127 --> 00:36:19,307
de l'état de la corrélation
avec la communauté Wiktionary ?
613
00:36:19,307 --> 00:36:22,296
D'après ce que j'en ai vu,
il a été question lors de discussions
614
00:36:22,296 --> 00:36:26,051
d'importer certains éléments
qui sont le fruit de leur travail
615
00:36:26,051 --> 00:36:30,843
mais il semble qu'il y ait des problèmes
de licences et des désaccords, etc.
616
00:36:30,843 --> 00:36:31,848
C'est exact.
617
00:36:31,848 --> 00:36:36,330
Les communautés Wiktionary
ont consacré énormément de temps
618
00:36:37,320 --> 00:36:39,473
à la construction de Wiktionary.
619
00:36:39,473 --> 00:36:42,643
Ils ont élaboré
620
00:36:43,193 --> 00:36:47,554
des modèles incroyablement complexes
621
00:36:47,554 --> 00:36:50,525
pour créer de beaux tableaux
622
00:36:50,525 --> 00:36:53,614
qui vous génèrent
automatiquement des formulaires
623
00:36:53,614 --> 00:36:56,392
et toutes sortes de trucs impressionnants
624
00:36:56,392 --> 00:37:00,683
et parfois vraiment dingues,
quand on y pense.
625
00:37:02,311 --> 00:37:07,994
Et bien sûr, ils y ont consacré
énormément de temps et d'efforts.
626
00:37:09,364 --> 00:37:11,801
On peut comprendre
627
00:37:11,801 --> 00:37:17,116
qu'ils ne souhaitent pas
qu'on puisse s'approprier tout ça
628
00:37:18,046 --> 00:37:19,102
aussi facilement.
629
00:37:19,102 --> 00:37:21,791
Donc c'est un peu ce qui se dit
de ce côté-là.
630
00:37:22,761 --> 00:37:25,137
Et c'est OK.
631
00:37:25,737 --> 00:37:32,092
Maintenant, les premières communautés
Wiktionary parlent de participer
632
00:37:32,092 --> 00:37:34,329
et d'importer certaines
de leurs données sur Wikidata.
633
00:37:34,329 --> 00:37:39,095
Le russe, comme vous avez pu le voir
par exemple fait partie de ces cas.
634
00:37:40,375 --> 00:37:42,355
Et je m'attends à ce que d'autres suivent.
635
00:37:43,635 --> 00:37:46,800
Mais ce sera un processus lent,
636
00:37:46,800 --> 00:37:49,383
de même que l'adoption
de données Wikidata sur Wikipedia
637
00:37:49,383 --> 00:37:51,909
a également fait l'objet
d'un processus assez lent.
638
00:37:52,849 --> 00:37:56,183
Outre le fait que cela rend plus facile
639
00:37:56,183 --> 00:37:59,132
l'utilisation des données
comprises dans les lexèmes
640
00:37:59,132 --> 00:38:02,209
sur Wiktionary, pour qu'ils puissent
s'en servir et partager des données
641
00:38:02,209 --> 00:38:05,531
entre les Wiktionnaires
de différentes langues,
642
00:38:05,531 --> 00:38:08,853
chose hyper difficile voire impossible
à faire à l'heure actuelle,
643
00:38:08,853 --> 00:38:11,560
ce qui est fou,
comme ce fut le cas sur Wikipédia.
644
00:38:13,860 --> 00:38:16,595
Attendons les cadeaux
d'anniversaire ! (petit rire)
645
00:38:20,038 --> 00:38:21,182
Oui.
646
00:38:22,849 --> 00:38:24,827
(Intervenant 9) Je pensais
à la situation inverse,
647
00:38:24,827 --> 00:38:28,168
je ne voulais pas en parler
parce que ça me semblait idiot,
648
00:38:28,168 --> 00:38:32,003
mais je crois que Wiktionnary
dispose déjà de certains contenus
649
00:38:32,003 --> 00:38:34,978
et je sais qu'on ne peut pas
les transférer sur Wikidata
650
00:38:34,978 --> 00:38:37,048
en raison des différences de licences.
651
00:38:37,048 --> 00:38:39,891
Mais je me disais que nous pourrions
peut-être remédier à cela.
652
00:38:40,321 --> 00:38:45,913
Peut-être peut-on obtenir
la permission des communautés
653
00:38:45,913 --> 00:38:51,205
après un vote général
654
00:38:52,075 --> 00:38:55,642
au cours duquel la communauté,
les membres actifs de la communauté
655
00:38:55,642 --> 00:39:02,523
voteraient et diraient s'ils veulent
ou acceptent de transférer les contenus
656
00:39:02,523 --> 00:39:05,528
permettant de faire les lexèmes Wikidata.
657
00:39:06,238 --> 00:39:08,637
Parce que ça me paraît
être un vrai gâchis.
658
00:39:09,568 --> 00:39:13,443
Donc, c'est certainement une conversation
659
00:39:13,443 --> 00:39:16,146
que ceux qui sont membres
de communautés Wiktionary
660
00:39:16,146 --> 00:39:18,319
peuvent susciter entre eux
et nous en serions heureux.
661
00:39:18,319 --> 00:39:24,647
Je crois que ce serait un peu présomptueux
de notre part de chercher à forcer cela.
662
00:39:25,917 --> 00:39:31,142
Mais oui, cela mérite largement
qu'on en discute.
663
00:39:31,142 --> 00:39:33,898
Mais il me semble important de comprendre
664
00:39:33,898 --> 00:39:36,117
qu'il faut faire la distinction
665
00:39:36,117 --> 00:39:39,082
entre ce qui est faisable
d'un point de vue légal,
666
00:39:39,082 --> 00:39:43,147
ce que nous devrions faire
667
00:39:43,147 --> 00:39:45,426
et ce que ces gens veulent faire ou pas.
668
00:39:45,626 --> 00:39:47,510
Donc, même si c'est autorisé légalement,
669
00:39:47,510 --> 00:39:50,640
si certaines communautés
Wiktionary s'y opposent,
670
00:39:50,640 --> 00:39:53,637
je crois que nous devrions être
pour le moins prudents là-dessus.
671
00:39:58,886 --> 00:40:02,489
Je crois qu'il vous faut un micro
pour la retransmission.
672
00:40:04,540 --> 00:40:07,549
(intervenant 10) Tout cela
est bien sûr très enthousiasmant
673
00:40:07,979 --> 00:40:12,319
et je me demande tout de suite comment
je peux en faire profiter mes élèves
674
00:40:12,319 --> 00:40:15,558
et intégrer cela à mes cours,
675
00:40:15,558 --> 00:40:18,531
au travail que nous faisons,
dans le cadre de l'éducation.
676
00:40:18,531 --> 00:40:22,271
Et je ne dispose pas à ce jour
677
00:40:22,621 --> 00:40:24,241
des connaissances suffisantes, d'abord,
678
00:40:24,241 --> 00:40:27,278
mais je crois que la documentation
dont nous disposons
679
00:40:27,808 --> 00:40:30,082
pourrait peut-être être améliorée.
680
00:40:30,082 --> 00:40:33,437
Donc, j'aimerais exprimer le souhait
de voir réaliser des vidéos sympa
681
00:40:33,437 --> 00:40:35,898
pour expliquer comment ça marche
682
00:40:35,898 --> 00:40:39,948
parce que si nous avons cela,
nous pourrons nous en servir
683
00:40:39,948 --> 00:40:41,985
et impliquer les élèves
684
00:40:41,985 --> 00:40:47,072
et nous pourrons faire savoir aux gens
à quel point c'est fantastique.
685
00:40:47,072 --> 00:40:52,001
Et oui, donc, s'il vous plaît, pensez
à la documentation et à l'éducation.
686
00:40:52,001 --> 00:40:54,480
Parce que je crois qu'on pourrait
faire beaucoup de choses.
687
00:40:54,480 --> 00:40:58,585
Il y a de nombreuses tâches
qui pourraient être effectuées avec...
688
00:41:00,125 --> 00:41:02,033
je ne dirais pas des élèves de primaire
689
00:41:02,033 --> 00:41:05,495
mais certainement
avec des élèves plus jeunes.
690
00:41:05,915 --> 00:41:10,866
Et donc j'aimerais vraiment
que ce potentiel soit mis à contribution
691
00:41:10,866 --> 00:41:15,272
et personnellement,
je ne m'y connais pas assez à ce stade
692
00:41:15,272 --> 00:41:19,500
pour pouvoir créer
des tâches ou créer...
693
00:41:20,430 --> 00:41:22,155
faire quelque chose de pratique avec ça.
694
00:41:22,155 --> 00:41:25,772
Donc, si quelqu'un peut apporter
de l'aide, des idées à ce sujet,
695
00:41:25,772 --> 00:41:29,648
ce serait une joie pour moi
d'entendre vos idées et les vôtres aussi.
696
00:41:30,508 --> 00:41:32,329
D'accord ! Discutons-en.
697
00:41:35,473 --> 00:41:37,139
D'autres questions ?
698
00:41:37,719 --> 00:41:39,195
Quelqu'un d'autre avait levé la main
699
00:41:39,195 --> 00:41:40,625
mais je ne sais plus qui.
700
00:41:45,739 --> 00:41:49,996
(intervenant 11) Donc, si nous ne pouvons
pas importer des contenus de Wiktionary,
701
00:41:49,996 --> 00:41:52,092
y a-t-il des efforts concertés
702
00:41:52,092 --> 00:41:55,772
pour trouver d'autres ressources
dans le domaine public
703
00:41:55,772 --> 00:41:57,459
peut-être des données
704
00:41:58,769 --> 00:42:03,167
que nous pourrions pré-filtrer, organiser
705
00:42:03,167 --> 00:42:08,470
afin de les rendre facilement vérifiables
pour que les gens puissent les importer ?
706
00:42:09,033 --> 00:42:11,291
Alors, il y a
des premiers efforts de faits.
707
00:42:11,291 --> 00:42:14,769
J'ai cru comprendre que le basque
était l'un de ces exemples.
708
00:42:14,769 --> 00:42:17,474
Peut-être voudriez-vous
nous en dire plus à ce sujet ?
709
00:42:18,306 --> 00:42:20,130
(l'intervenant 12 parle hors micro)
710
00:42:23,166 --> 00:42:27,098
OK, la réponse aujourd'hui
c'est de payer pour cela,
711
00:42:28,374 --> 00:42:33,381
je veux dire, nous avons passé un accord
avec un de nos prestataires habituels,
712
00:42:34,801 --> 00:42:38,725
Ils font des dictionnaires...
713
00:42:40,125 --> 00:42:42,508
plein d'autres trucs aussi,
mais ils font des dictionnaires.
714
00:42:42,508 --> 00:42:45,070
Donc, nous nous sommes entendus
715
00:42:45,070 --> 00:42:47,473
pour mettre en libre accès
le dictionnaire des étudiants
716
00:42:47,473 --> 00:42:52,782
qui comprend les mots les plus communs
et nous avons commencé à le téléverser
717
00:42:52,782 --> 00:42:55,590
avec un identifiant externe
et ce genre de choses.
718
00:42:56,230 --> 00:43:02,902
Mais il y a eu quelques discussions
sur le fait de le laisser en CC0
719
00:43:03,212 --> 00:43:05,702
parce que leur dictionnaire
est sous licence Attribution
720
00:43:06,307 --> 00:43:10,326
et ils ont compris sur quoi
reposait la différence.
721
00:43:10,326 --> 00:43:13,866
Donc, cela a donné lieu
à quelques discussions.
722
00:43:13,866 --> 00:43:19,519
Mais je crois que si nous pouvons
fournir des outils ou des exemples,
723
00:43:19,519 --> 00:43:21,761
je pense qu'il y aura à l'avenir
d'autres dictionnaires
724
00:43:21,761 --> 00:43:24,016
que nous pourrons traiter
725
00:43:24,016 --> 00:43:29,274
et je crois que Wiktionary devrait
aussi aller dans ce sens,
726
00:43:29,274 --> 00:43:32,260
mais c'est une autre discussion de taille.
727
00:43:33,285 --> 00:43:34,487
Et de plus,
728
00:43:34,487 --> 00:43:38,839
Lea est aussi en contact
avec des Occitans
729
00:43:38,839 --> 00:43:41,827
qui travaillent
sur des dictionnaires en occitan
730
00:43:41,827 --> 00:43:45,238
et participent en ce moment
à une collaboration autour du sumérien.
731
00:43:51,644 --> 00:43:53,483
D'autres questions ?
732
00:44:01,377 --> 00:44:03,519
(intervenant 13) Bonjour.
Nous sommes justement ceux
733
00:44:03,519 --> 00:44:05,399
qui souhaitent importer
les données en occitan.
734
00:44:05,399 --> 00:44:06,585
Ah, parfait !
735
00:44:06,585 --> 00:44:08,478
(i.13) Et nous rencontrons
un petit problème.
736
00:44:09,188 --> 00:44:14,215
C'est que nous ignorons comment refléter
les variantes de tous les lexèmes.
737
00:44:14,215 --> 00:44:17,893
Nous avons six dialectes
738
00:44:17,893 --> 00:44:24,014
et nous voudrions indiquer
dans quel dialecte le lexème s'utilise,
739
00:44:24,014 --> 00:44:27,285
mais nous n'avons pas
de déclaration C0 pour faire cela
740
00:44:27,285 --> 00:44:31,105
Donc, tant que cette section n'existe pas
741
00:44:31,635 --> 00:44:34,465
cela nous empêche de l'intégrer
742
00:44:34,465 --> 00:44:37,603
parce que nous devrions
tout reprendre
743
00:44:37,603 --> 00:44:42,076
le jour où nous pourrons
exprimer cette déclaration.
744
00:44:42,076 --> 00:44:44,551
Et c'est compliqué
parce que c'est une déclaration
745
00:44:44,551 --> 00:44:47,802
qui aura peu de demandeurs
746
00:44:47,802 --> 00:44:53,444
étant donnée qu'elle concerne
principalement des langues minoritaires.
747
00:44:53,444 --> 00:44:56,933
Donc, il n'y aura
qu'un demandeur pour cela.
748
00:44:56,933 --> 00:45:00,022
Mais comme nos collègues basques
749
00:45:00,022 --> 00:45:02,322
ce sera peut-être une personne
750
00:45:02,322 --> 00:45:06,082
qui ouvrira une possibilité
à des milliers d'autres,
751
00:45:06,082 --> 00:45:10,884
donc ce n'est peut-être pas trop demander,
752
00:45:10,884 --> 00:45:14,136
mais ce sera très important pour nous.
753
00:45:14,874 --> 00:45:17,600
Avez-vous une proposition
de nouvelle propriété déjà prête
754
00:45:17,600 --> 00:45:19,550
ou avez-vous besoin d'aide
pour la créer ?
755
00:45:21,524 --> 00:45:24,356
(intervenant 13) Nous en avons fait
la demande il y a quatre mois.
756
00:45:24,720 --> 00:45:28,755
D'accord, alors voyons qui peut aider
à sortir cette proposition de propriété.
757
00:45:30,159 --> 00:45:33,360
Je suis sûre qu'il y a assez de gens
dans cette salle pour que ça se fasse.
758
00:45:33,360 --> 00:45:35,564
(i.13) Proposition de propriété
« Variété de la forme ».
759
00:45:35,564 --> 00:45:36,965
(l'intervenant 14 parle hors micro)
760
00:45:36,965 --> 00:45:39,699
(i.13) Nous n'avons pas eu de réponse
et nous ne savons pas le faire
761
00:45:39,699 --> 00:45:43,153
parce que nous ne sommes pas
dans la communauté Wikidata.
762
00:45:44,694 --> 00:45:48,817
OK. Il y a des gens ici
qui peuvent vous aider.
763
00:45:48,817 --> 00:45:52,134
Peut-être que vous pouvez lever la main...
764
00:45:52,574 --> 00:45:53,644
(i.15) Je suis d'accord.
765
00:45:53,644 --> 00:45:55,512
Je crois que c'est très intéressant
766
00:45:55,512 --> 00:45:59,059
que la variété de forme
767
00:45:59,059 --> 00:46:02,607
peut aussi être corrélée
d'un point de vue géographique
768
00:46:02,607 --> 00:46:04,995
avec des coordonnées
ou une forme de cartographie.
769
00:46:05,595 --> 00:46:07,815
Et cela vaut aussi
pour les variétés de prononciations
770
00:46:07,815 --> 00:46:11,837
et je crois que c'est quelque chose
qui se produit dans beaucoup de langues.
771
00:46:12,607 --> 00:46:16,262
Nous devrions pouvoir
mettre cela en place.
772
00:46:16,262 --> 00:46:18,865
je vais faire des recherches
pour cette propriété.
773
00:46:19,782 --> 00:46:20,933
Chouette.
774
00:46:20,933 --> 00:46:24,446
Donc vous allez avoir du soutien
pour votre proposition de propriété.
775
00:46:26,136 --> 00:46:27,297
Merci.
776
00:46:28,153 --> 00:46:30,261
Très bien. D'autres questions ?
777
00:46:32,410 --> 00:46:33,474
Finn.
778
00:46:33,974 --> 00:46:35,055
Finn fait partie de ceux
779
00:46:35,055 --> 00:46:38,031
qui construisent des choses
à partir des données lexicographiques.
780
00:46:38,031 --> 00:46:40,085
(Finn) C'est juste une petite question.
781
00:46:40,405 --> 00:46:44,226
et elle concerne les variantes
orthographiques.
782
00:46:44,896 --> 00:46:48,002
Il semble qu'il soit difficile
de les faire apparaître...
783
00:46:48,532 --> 00:46:53,368
Bien sûr, il serait possible d'avoir
de multiples formes pour un même mot.
784
00:46:56,327 --> 00:46:58,448
Je ne sais pas. Ça me semble...
785
00:46:59,558 --> 00:47:03,535
Si on ne le fait pas de cette manière,
il semble difficile de préciser...
786
00:47:04,771 --> 00:47:05,888
je ne sais pas si...
787
00:47:05,888 --> 00:47:09,731
s'il s'agit d'un souci technique mineur
ou si au contraire...
788
00:47:09,731 --> 00:47:11,252
Voyons cela ensemble.
789
00:47:11,642 --> 00:47:15,230
Je serais ravie de voir un exemple.
790
00:47:17,478 --> 00:47:18,478
Asaf.
791
00:47:26,886 --> 00:47:28,396
(Asaf) Merci.
792
00:47:29,386 --> 00:47:33,685
Je peux vous donner un exemple concret
dans ma langue maternelle, l'hébreu.
793
00:47:34,205 --> 00:47:38,845
L'hébreu a deux variantes principales
794
00:47:38,845 --> 00:47:42,786
pour exprimer quasiment chaque mot
795
00:47:42,786 --> 00:47:47,640
parce que l'orthographe traditionnelle
796
00:47:47,640 --> 00:47:50,274
se dispense d'un grand nombre de voyelles.
797
00:47:50,934 --> 00:47:55,207
Et par conséquent, dans les éditions
modernes de la Bible ou des poèmes,
798
00:47:55,207 --> 00:47:57,461
des signes diacritiques sont utilisés.
799
00:47:57,461 --> 00:47:59,200
Cependant, ces signes diacritiques
800
00:47:59,200 --> 00:48:02,670
ne sont jamais utilisés
dans la prose moderne,
801
00:48:02,670 --> 00:48:05,974
dans la presse
ou les panneaux indicateurs.
802
00:48:05,974 --> 00:48:11,209
Donc, l'usage courant ajoute
des voyelles supplémentaires
803
00:48:12,019 --> 00:48:13,679
et n'utilise pas de signes diacritiques
804
00:48:13,679 --> 00:48:15,607
par qu'ils sont évidemment
plus encombrants,
805
00:48:15,607 --> 00:48:18,623
qu'ils sont soumis à toutes sortes
de règles que plus personne ne connaît.
806
00:48:18,633 --> 00:48:20,531
Donc en gros, il y a deux variantes.
807
00:48:20,531 --> 00:48:25,322
Il y a la variante propre à la prose
usuelle de tous les jours
808
00:48:25,322 --> 00:48:27,827
et celle de la Bible ou de la poésie
809
00:48:27,827 --> 00:48:30,136
qui se présente toujours
sous la forme traditionnelle
810
00:48:30,136 --> 00:48:32,200
avec ses signes diacritiques.
811
00:48:32,200 --> 00:48:33,302
Pour être utile,
812
00:48:33,302 --> 00:48:37,428
le lexème devrait reconnaître les deux
variétés pour chaque mot sans exception
813
00:48:37,428 --> 00:48:39,747
et pour chaque forme de chaque mot.
814
00:48:40,677 --> 00:48:43,391
Donc il s'agit là d'un cas
pratique très complet
815
00:48:43,391 --> 00:48:46,340
pour ce qui est des variantes
officielles stables.
816
00:48:46,340 --> 00:48:49,332
Il ne s'agit pas de dialectes,
il ne s'agit pas de variantes régionales,
817
00:48:49,332 --> 00:48:53,627
mais bien de deux systèmes
morphologiques qui coexistent.
818
00:48:54,537 --> 00:48:58,926
Et je ne sais pas bien non plus
comment exprimer cela dans les lexèmes
819
00:48:58,926 --> 00:49:02,800
et en réponse à la question de Magnus,
c'est l'une des choses qui m'empêchent
820
00:49:02,800 --> 00:49:05,238
de téléverser les parties déjà prêtes
821
00:49:05,238 --> 00:49:09,394
du plus grand dictionnaire d'hébreu
qui fait partie du domaine public
822
00:49:09,394 --> 00:49:13,141
et que j'ai entrepris de numériser
depuis maintenant plusieurs années.
823
00:49:13,141 --> 00:49:14,673
Une portion conséquente est déjà prête
824
00:49:14,673 --> 00:49:16,689
mais je ne l'intègre pas au lexème
pour le moment
825
00:49:16,689 --> 00:49:20,245
parce que je ne sais pas exactement
comment résoudre ce problème.
826
00:49:20,245 --> 00:49:23,387
Très bien, trouvons
la solution ici même (petit rire)
827
00:49:24,503 --> 00:49:26,021
Ce doit être possible.
828
00:49:30,045 --> 00:49:32,047
Très bien, d'autres questions ?
829
00:49:37,173 --> 00:49:39,735
Si vous n'avez plus de questions,
merci à tous.
830
00:49:40,605 --> 00:49:42,675
(applaudissements)
831
00:49:45,983 --> 00:49:48,263
WIKI DATA 2019
Wikidata et les langues