1
00:00:02,651 --> 00:00:05,000
Wikidata et les langues

2
00:00:05,000 --> 00:00:06,303
Où en sommes-nous ?
Et après ?

3
00:00:06,303 --> 00:00:07,362
(Lydia) Merci beaucoup.

4
00:00:07,362 --> 00:00:11,417
L'un des sujets majeurs
de cette conférence concerne les langues.

5
00:00:14,220 --> 00:00:18,508
Je voudrais vous donner un aperçu
du point où nous en sommes à ce jour

6
00:00:18,508 --> 00:00:20,500
en ce qui concerne les langues

7
00:00:20,500 --> 00:00:22,403
et quelles sont les prochaines étapes.

8
00:00:28,976 --> 00:00:30,409
Le but de Wikidata est de donner

9
00:00:30,409 --> 00:00:32,580
plus d'accès à plus de savoir
à davantage de monde

10
00:00:32,580 --> 00:00:37,220
et la langue est un aspect essentiel
dans la réalisation de cet objectif,

11
00:00:38,205 --> 00:00:43,291
d'autant plus que nos vies dépendent
de plus en plus de la technologie.

12
00:00:44,114 --> 00:00:48,873
Et comme le disait notre conférencier
sur Keynote tout à l'heure,

13
00:00:49,603 --> 00:00:52,440
une partie de cette technologie
reste inaccessible à certains

14
00:00:52,440 --> 00:00:55,020
du simple fait qu'ils ne parlent pas
telle ou telle langue,

15
00:00:55,320 --> 00:00:57,573
et ce n'est pas acceptable.

16
00:00:58,633 --> 00:01:02,097
Donc nous voulons
remédier à cette situation.

17
00:01:02,927 --> 00:01:05,841
Et afin de changer cela,
il faut au moins deux choses.

18
00:01:06,411 --> 00:01:11,270
D'abord, on doit fournir des contenus
aux gens dans leur propre langue,

19
00:01:11,270 --> 00:01:12,955
et la deuxième chose,

20
00:01:12,955 --> 00:01:15,910
c'est de leur fournir la possibilité
d'interagir dans leur propre langue

21
00:01:15,910 --> 00:01:19,189
avec des applications
ou quoi que ce soit d'autre.

22
00:01:20,367 --> 00:01:25,277
Wikidata contribue à satisfaire
ces deux conditions.

23
00:01:25,277 --> 00:01:28,408
La première d'entre elles,
du contenu dans votre langue,

24
00:01:28,408 --> 00:01:31,317
c'est globalement ce que nous avons
dans les éléments et les propriétés,

25
00:01:31,319 --> 00:01:33,082
la façon dont nous décrivons le monde.

26
00:01:33,082 --> 00:01:35,205
Tout ce dont vous avez besoin
n'y est certainement pas

27
00:01:35,205 --> 00:01:39,294
mais il y a déjà de quoi bien avancer.

28
00:01:39,764 --> 00:01:41,847
L'autre point, c'est l'interaction
dans votre langue

29
00:01:41,847 --> 00:01:46,389
et c'est là que les lexèmes
entrent en jeu :

30
00:01:46,389 --> 00:01:49,382
si vous voulez parler
à votre assistant personnel numérique

31
00:01:49,382 --> 00:01:54,918
ou que votre appareil
vous traduise un texte ou autre.

32
00:01:56,404 --> 00:01:59,254
Très bien, intéressons-nous
aux contenus dans votre langue,

33
00:01:59,254 --> 00:02:03,676
donc, à ce que nous avons
sous la rubrique Éléments et Propriétés.

34
00:02:05,406 --> 00:02:10,236
Les libellés sont essentiels
pour ces éléments et propriétés.

35
00:02:10,236 --> 00:02:14,916
Nous devons savoir comment s'appelle
l'entité dont il est question.

36
00:02:15,656 --> 00:02:19,987
Et plutôt que de parler de Q5,

37
00:02:19,987 --> 00:02:22,180
un anglophone saura
qu'il s'agit d'un « humain »,

38
00:02:22,180 --> 00:02:24,706
un germanophone saura
qu'il s'agit d'un « Mensch »,

39
00:02:24,706 --> 00:02:26,374
ce genre de choses.

40
00:02:26,374 --> 00:02:29,872
Donc, les libellés
dans les éléments et les propriétés

41
00:02:29,872 --> 00:02:33,619
font la liaison entre les humains
et les machines

42
00:02:33,619 --> 00:02:35,439
mais relient aussi les humains entre eux

43
00:02:35,439 --> 00:02:40,115
en leur rendant davantage
de savoir accessible.

44
00:02:41,192 --> 00:02:43,270
À quoi ressemble notre couverture ?

45
00:02:43,270 --> 00:02:46,290
L'intention est louable.

46
00:02:46,290 --> 00:02:48,342
Mais voyons ce que cela donne
dans les faits.

47
00:02:48,342 --> 00:02:49,882
Cela ressemble à ça.

48
00:02:50,947 --> 00:02:52,416
Ce que vous voyez ici,

49
00:02:52,416 --> 00:02:58,496
c'est que la plupart des éléments
dans Wikidata ont deux libellés,

50
00:02:58,496 --> 00:03:00,767
donc des libellés dans deux langues.

51
00:03:01,697 --> 00:03:03,851
Ensuite on passe à un, puis trois,

52
00:03:03,851 --> 00:03:06,265
et au-delà, cela devient vraiment navrant.

53
00:03:06,781 --> 00:03:08,581
(rires légers)

54
00:03:10,047 --> 00:03:12,813
Je crois que nous devons
faire mieux que ça.

55
00:03:14,185 --> 00:03:15,319
Mais, d'un autre côté,

56
00:03:15,319 --> 00:03:17,478
je m'attendais à pire, en fait.

57
00:03:17,478 --> 00:03:19,810
Je m'attendais à ce que la moyenne
soit d'une seule langue.

58
00:03:19,810 --> 00:03:22,503
Donc, j'ai été agréablement surprise
de voir que c'était deux.

59
00:03:23,655 --> 00:03:24,921
Quelles langues couvrons-nous ?

60
00:03:24,921 --> 00:03:26,186
Très bien.

61
00:03:27,156 --> 00:03:29,527
Mais au-delà de l'intérêt de savoir

62
00:03:29,527 --> 00:03:33,742
de combien de libellés disposent
nos éléments et propriétés,

63
00:03:33,742 --> 00:03:36,705
il est aussi intéressant de voir
quelles sont les langues de ces libellés.

64
00:03:38,045 --> 00:03:43,764
Voici un graphique présentant les langues

65
00:03:43,764 --> 00:03:46,838
dans lesquelles nous avons des libellés
pour les éléments.

66
00:03:46,838 --> 00:03:50,849
La portion la plus grosse ici
correspond à la catégorie <i>Autres</i>.

67
00:03:51,229 --> 00:03:53,863
Alors, je n'ai détaillé
que les 100 premières langues

68
00:03:54,533 --> 00:03:59,122
donc tout le reste entre dans la catégorie
<i>Autres</i> pour que le graphique soit lisible.

69
00:03:59,542 --> 00:04:02,142
Ensuite viennent l'anglais
et le néerlandais,

70
00:04:03,002 --> 00:04:04,254
le français,

71
00:04:05,924 --> 00:04:09,129
et n'oublions pas l'asturien.

72
00:04:09,659 --> 00:04:12,069
- (un auditeur) Waouh !
- (Lydia) Waouh, effectivement !

73
00:04:13,899 --> 00:04:16,954
Donc ce qui apparaît ici
est un déséquilibre considérable

74
00:04:16,954 --> 00:04:20,114
avec toujours une nette
prédominance de l'anglais.

75
00:04:21,236 --> 00:04:24,367
Par ailleurs, si l'on regarde
la même chose pour les propriétés,

76
00:04:24,367 --> 00:04:26,099
le tableau est déjà mieux.

77
00:04:27,399 --> 00:04:32,750
Je crois que cela tient en partie au fait
qu'il y a beaucoup moins de propriétés,

78
00:04:32,750 --> 00:04:36,670
ce qui fait que même des communautés
plus petites peuvent assurer cette partie.

79
00:04:36,770 --> 00:04:39,173
Mais cela constitue aussi
une partie importante de Wikidata

80
00:04:39,173 --> 00:04:41,159
de pouvoir les adapter dans votre langue.

81
00:04:41,159 --> 00:04:42,494
Donc c'est un point positif.

82
00:04:45,752 --> 00:04:47,962
Ce que je voulais souligner ici
à propos de l'asturien,

83
00:04:47,962 --> 00:04:53,698
c'est qu'une petite communauté
peut vraiment se démarquer

84
00:04:54,448 --> 00:04:57,085
par son investissement et son travail,

85
00:04:57,085 --> 00:04:58,420
et c'est vraiment chouette.

86
00:05:01,846 --> 00:05:03,530
Une petite devinette pour vous.

87
00:05:03,530 --> 00:05:05,493
Si vous prenez toutes
les propriétés de Wikidata

88
00:05:05,493 --> 00:05:07,687
qui n'ont pas d'identifiants externes,

89
00:05:07,687 --> 00:05:10,778
laquelle compte selon vous le plus grand
nombre de libellés, donc de langues ?

90
00:05:10,977 --> 00:05:13,847
(réponses inaudibles de l'auditoire)

91
00:05:13,847 --> 00:05:16,886
Il semble se dégager une majorité
pour « nature de l'élément ».

92
00:05:17,506 --> 00:05:19,603
Ce serait une mauvaise réponse.

93
00:05:19,983 --> 00:05:22,210
La réponse est « image ».

94
00:05:23,230 --> 00:05:26,006
Donc, effectivement,
si vous parlez l'une des langues

95
00:05:26,006 --> 00:05:28,621
pour lesquelles « nature de l'élément »
n'a pas encore de libellé,

96
00:05:28,621 --> 00:05:30,190
vous savez ce qu'il vous reste à faire.

97
00:05:32,102 --> 00:05:35,676
Donc, « image » dispose
de 148 libellés actuellement.

98
00:05:37,688 --> 00:05:41,249
Mais c'est une autre diapositive.

99
00:05:42,521 --> 00:05:44,162
Ce graphique nous donne une idée

100
00:05:44,162 --> 00:05:49,321
du volume de contenu que nous rendons
accessible dans une langue donnée

101
00:05:49,321 --> 00:05:52,042
et dans quelle proportion ce contenu
est effectivement utilisé.

102
00:05:52,042 --> 00:05:55,448
Donc en gros, on peut voir
se dessiner une courbe

103
00:05:55,448 --> 00:05:59,057
où la majorité des contenus
disposant de libellés en anglais,

104
00:05:59,307 --> 00:06:04,105
étant disponibles en anglais
sont aussi largement utilisés.

105
00:06:04,295 --> 00:06:06,449
Puis ça a tendance à diminuer.

106
00:06:06,449 --> 00:06:09,436
Mais à nouveau,
on peut noter des exceptions

107
00:06:09,436 --> 00:06:15,333
qui ont beaucoup plus de contenus
qu'on aurait pu s'y attendre,

108
00:06:16,903 --> 00:06:19,539
et c'est une très bonne chose.

109
00:06:20,839 --> 00:06:24,945
Le problème demeure que ces contenus
ne sont pas très utilisés.

110
00:06:25,565 --> 00:06:28,742
L'asturien et le néerlandais devraient
être en meilleure position

111
00:06:28,742 --> 00:06:31,994
et je crois qu'aider ces communautés

112
00:06:33,266 --> 00:06:35,716
à accroître l'utilisation des données
qu'elles ont rassemblées

113
00:06:35,716 --> 00:06:37,792
est quelque chose de très utile.

114
00:06:42,910 --> 00:06:48,110
Ce que cette analyse ainsi que d'autres
nous ont révélé de positif,

115
00:06:48,300 --> 00:06:51,378
c'est que les éléments les plus utilisés

116
00:06:51,378 --> 00:06:55,295
ont aussi tendance
à avoir plus de libellés

117
00:06:55,295 --> 00:06:58,538
à moins que ça ne marche en sens inverse ;
ce n'est pas tout à fait clair.

118
00:07:02,513 --> 00:07:04,596
Et la question qui se pose alors, c'est :

119
00:07:04,596 --> 00:07:07,269
Sommes-nous seulement au service
des langues les plus puissantes ?

120
00:07:07,899 --> 00:07:11,197
Ou sommes-nous
au service de tout le monde ?

121
00:07:12,757 --> 00:07:17,743
Et ce que vous voyez ici,
ce sont des regroupements de langues.

122
00:07:17,743 --> 00:07:19,642
Les langues que nous avons
regroupées ensemble

123
00:07:19,642 --> 00:07:21,987
ont tendance à avoir
des libellés en commun.

124
00:07:26,042 --> 00:07:28,219
Et vous voyez se former des faisceaux.

125
00:07:28,599 --> 00:07:34,065
À présent, voici un même type
de regroupement avec différentes couleurs,

126
00:07:34,065 --> 00:07:39,475
selon que la langue est plus ou moins
vivante, plus ou moins largement utilisée

127
00:07:40,455 --> 00:07:43,156
ou menacée de disparition.

128
00:07:43,156 --> 00:07:44,642
Et la bonne chose qui apparaît ici,

129
00:07:44,642 --> 00:07:49,566
c'est que les langues dominantes
et les langues menacées de disparition

130
00:07:49,566 --> 00:07:53,773
ne constituent pas
deux groupes différents,

131
00:07:53,773 --> 00:07:58,872
mais qu'elles sont toutes
mélangées ensemble,

132
00:08:00,262 --> 00:08:04,625
ce qui est bien plus réjouissant
que si la situation avait été inverse

133
00:08:04,625 --> 00:08:09,377
et que les langues les plus assurées,
les langues dominantes

134
00:08:10,197 --> 00:08:12,164
s'étaient mutuellement soutenues.

135
00:08:12,744 --> 00:08:14,356
Ce n'est pas le cas.

136
00:08:14,356 --> 00:08:17,417
Et c'est une très bonne chose.

137
00:08:17,417 --> 00:08:20,042
J'ai trouvé que c'était
un très bon signe quand j'ai vu ça.

138
00:08:23,474 --> 00:08:25,229
Voici un autre exemple similaire

139
00:08:26,239 --> 00:08:28,800
où nous avons regardé

140
00:08:30,230 --> 00:08:34,222
le statut des langues

141
00:08:34,222 --> 00:08:36,225
et le nombre de libellés
dont elles disposent.

142
00:08:39,367 --> 00:08:42,937
Ce qui apparaît, c'est que les langues
fortes dominent clairement,

143
00:08:42,937 --> 00:08:44,438
comme on pouvait s'y attendre.

144
00:08:45,508 --> 00:08:46,693
Mais ce que l'on voit aussi,

145
00:08:46,693 --> 00:08:54,407
c'est que les langues des catégories 2,
3 et peut-être même 4

146
00:08:54,407 --> 00:08:59,280
ne s'en tirent pas si mal en fait,

147
00:08:59,280 --> 00:09:02,367
au niveau de leur représentation
sur Wikidata,

148
00:09:03,287 --> 00:09:06,408
ce qui est vraiment
un résultat réjouissant.

149
00:09:07,556 --> 00:09:09,129
Maintenant, si on regarde
la même chose

150
00:09:09,129 --> 00:09:12,418
sous l'angle de la proportion
de contenu de ces libellés

151
00:09:12,418 --> 00:09:15,495
qui est effectivement utilisée
dans Wikipédia, par exemple,

152
00:09:17,455 --> 00:09:22,563
on voit à nouveau se dessiner
la même tendance.

153
00:09:23,603 --> 00:09:29,813
Et cela nous révèle que ces communautés
font vraiment bon usage de leur temps

154
00:09:29,813 --> 00:09:34,504
en créant des libellés pour les éléments
les plus utilisés, par exemple.

155
00:09:36,410 --> 00:09:40,493
Il y a des exceptions
que nous devons pouvoir soutenir

156
00:09:41,683 --> 00:09:48,202
en aidant ces communautés à mieux
valoriser leur investissement.

157
00:09:49,312 --> 00:09:52,663
Mais de façon générale,
cette image me paraît réjouissante.

158
00:09:54,823 --> 00:09:59,844
Voilà pour ce qui était de la partie
éléments et propriétés de Wikidata.

159
00:10:00,714 --> 00:10:03,033
Regardons à présent les interactions
dans vos langues.

160
00:10:03,033 --> 00:10:05,203
Donc le volet lexème de Wikidata,

161
00:10:05,203 --> 00:10:09,394
où il s'agit de décrire les mots,
leur forme et leur signification.

162
00:10:10,167 --> 00:10:13,301
C'est un travail que nous avons
démarré en mai de l'année dernière

163
00:10:16,461 --> 00:10:19,127
et le contenu
n'a cessé de se développer.

164
00:10:20,114 --> 00:10:22,149
Ici, on voit les lexèmes en bleu,

165
00:10:22,149 --> 00:10:25,938
en rouge, les formes de ces lexèmes

166
00:10:25,938 --> 00:10:29,910
et en jaune, les significations
de ces lexèmes.

167
00:10:30,991 --> 00:10:34,451
Donc certaines communautés,
nous y reviendrons plus tard,

168
00:10:34,451 --> 00:10:38,523
ont consacré beaucoup de temps
à créer des formes et des significations

169
00:10:38,523 --> 00:10:42,753
pour leurs lexèmes, ce qui est très utile

170
00:10:42,753 --> 00:10:48,243
car cela constitue l'essence
des données dont vous avez besoin.

171
00:10:50,562 --> 00:10:55,133
Maintenant, nous avons regardé
toutes les langues

172
00:10:55,133 --> 00:10:57,906
qui ont des lexèmes sur Wikidata,

173
00:10:57,906 --> 00:11:01,003
donc les mots que nous avons.

174
00:11:01,603 --> 00:11:04,524
Ces derniers sont
actuellement en 310 langues.

175
00:11:04,884 --> 00:11:08,290
Maintenant, quelle est,
à votre avis, la première langue

176
00:11:08,290 --> 00:11:11,949
en termes de nombre de lexèmes
actuellement sur Wikidata ?

177
00:11:11,949 --> 00:11:14,677
(réponses fusant de l'auditoire)
Le suédois, le russe,

178
00:11:14,677 --> 00:11:16,350
l'asturien, l'allemand

179
00:11:16,350 --> 00:11:20,216
- (un intervenant parle hors micro)
- Hein ?

180
00:11:20,216 --> 00:11:21,741
(un autre intervenant) L'allemand.

181
00:11:21,741 --> 00:11:24,252
Désolée, la bonne réponse a été donnée.

182
00:11:24,252 --> 00:11:25,651
C'est le russe.

183
00:11:28,011 --> 00:11:29,924
Le russe est loin devant.

184
00:11:31,897 --> 00:11:33,832
Et pour vous donner une perspective,

185
00:11:35,412 --> 00:11:36,816
les opinions divergent à ce sujet,

186
00:11:36,816 --> 00:11:42,231
mais j'ai lu, par exemple,
que connaître 1 000 à 3 000 mots

187
00:11:42,231 --> 00:11:45,450
vous permet d'accéder au niveau
courant dans une autre langue.

188
00:11:45,450 --> 00:11:49,721
et qu'en connaître 4 000 à 10 000
vous situe à un niveau avancé.

189
00:11:51,591 --> 00:11:55,372
Donc nous avons encore
du chemin à faire pour en arriver là.

190
00:11:58,483 --> 00:12:03,279
J'aimerais attirer votre attention
sur la langue basque

191
00:12:03,279 --> 00:12:07,744
qui a environ 10 000 lexèmes.

192
00:12:09,244 --> 00:12:13,003
Or, si vous regardez le nombre
de formes pour ces lexèmes,

193
00:12:14,163 --> 00:12:16,497
le basque est très bien placé,

194
00:12:18,257 --> 00:12:20,006
ce qui est vraiment bien

195
00:12:20,006 --> 00:12:22,434
et il serait intéressant
d'assister à l'exposé

196
00:12:22,434 --> 00:12:25,315
qui vous expliquera cet état de fait.

197
00:12:27,341 --> 00:12:31,175
Maintenant, si on regarde le nombre
de sens, ce que les mots signifient,

198
00:12:32,015 --> 00:12:35,081
le basque arrive en tête de la liste.

199
00:12:35,081 --> 00:12:37,102
Il me semble que cela mérite
nos applaudissements.

200
00:12:37,102 --> 00:12:38,921
(applaudissements)

201
00:12:45,678 --> 00:12:47,118
Une autre devinette.

202
00:12:47,118 --> 00:12:50,511
Quel est le lexème le plus traduit
à l'heure actuelle, selon vous ?

203
00:12:50,511 --> 00:12:54,304
(public) Les chats, les chats,
Douglas Adams

204
00:12:54,304 --> 00:12:55,914
(rires)

205
00:12:56,766 --> 00:13:00,014
Ce sont toutes de bonnes idées, mais non.

206
00:13:01,012 --> 00:13:04,137
Voici la bonne réponse :
c'est le mot russe qui désigne l'eau.

207
00:13:09,301 --> 00:13:12,253
Très bien, nous avons beaucoup parlé

208
00:13:12,253 --> 00:13:16,412
du nombre de formes et de sens
des lexèmes que nous avons,

209
00:13:16,412 --> 00:13:20,453
mais ce n'est qu'une partie
de ce dont vous avez besoin.

210
00:13:20,453 --> 00:13:21,872
L'autre chose dont vous avez besoin

211
00:13:21,872 --> 00:13:25,161
c'est une description
des formes et des sens de ces lexèmes,

212
00:13:25,161 --> 00:13:27,647
dans un format qui soit lisible
par des machines.

213
00:13:27,647 --> 00:13:30,679
Et pour cela, vous avez des déclarations,
comme dans les éléments.

214
00:13:31,479 --> 00:13:36,362
Et l'une des propriétés utilisées ici
est l'exemple d'utilisation.

215
00:13:36,362 --> 00:13:38,582
De sorte que quiconque utilisera
cette donnée

216
00:13:38,582 --> 00:13:42,089
pourra comprendre comment
utiliser ce mot dans un contexte,

217
00:13:42,089 --> 00:13:44,648
il peut s'agir
d'une citation, par exemple.

218
00:13:45,396 --> 00:13:47,343
Et dans ce domaine, le polonais assure !

219
00:13:47,820 --> 00:13:50,109
Bien joué, à vous qui parlez polonais.

220
00:13:54,219 --> 00:13:57,680
Une autre propriété qui est
vraiment utile, c'est l'API,

221
00:13:57,680 --> 00:14:00,186
donc la manière de prononcer le mot.

222
00:14:00,876 --> 00:14:07,577
Il semble que le russe exige
de nombreuses déclarations API.

223
00:14:10,419 --> 00:14:13,314
Mais revoici le polonais
en deuxième position.

224
00:14:17,148 --> 00:14:20,753
Et enfin, nous avons
la prononciation audio.

225
00:14:20,753 --> 00:14:23,472
Il s'agit là de liens vers des fichiers
hébergés sur les <i>Commons</i>

226
00:14:23,472 --> 00:14:25,959
où un individu prononce le mot,

227
00:14:25,959 --> 00:14:28,500
ce qui vous permet d'entendre
le mot prononcé par quelqu'un

228
00:14:28,500 --> 00:14:29,913
dont c'est la langue natale,

229
00:14:29,913 --> 00:14:32,871
pour le cas où vous ne sauriez pas
déchiffrer l'API, par exemple.

230
00:14:34,959 --> 00:14:39,205
Et il existe un projet vraiment sympa
sous l'impulsion de Wiki

231
00:14:39,205 --> 00:14:40,884
qui s'appelle « Lingua Libre »

232
00:14:40,884 --> 00:14:45,173
auquel vous pouvez contribuer
en enregistrant des mots dans votre langue

233
00:14:45,173 --> 00:14:47,966
qui pourront ensuite être ajoutés
aux lexèmes sur Wikidata

234
00:14:48,446 --> 00:14:52,103
afin que d'autres puissent
apprendre à prononcer vos mots.

235
00:14:53,663 --> 00:14:55,694
(propos inaudibles d'un intervenant)

236
00:14:55,694 --> 00:14:57,665
Si vous recherchez « Lingua Libre »

237
00:14:57,665 --> 00:15:00,981
et je suis sûre que quelqu'un
pourra poster le lien sur Telegram.

238
00:15:03,138 --> 00:15:04,621
Ces gars-là sont super.

239
00:15:04,621 --> 00:15:06,726
Ils ont fait un travail formidable
avec Wikibase.

240
00:15:09,416 --> 00:15:10,617
Très bien.

241
00:15:12,706 --> 00:15:17,285
La question qui se pose à présent est :
quelles sont les prochaines étapes ?

242
00:15:19,165 --> 00:15:22,010
Si l'on en croit les chiffres
que je viens de vous montrer,

243
00:15:23,030 --> 00:15:25,172
nous avons bien avancé

244
00:15:25,172 --> 00:15:28,430
vers notre objectif de donner plus d'accès
à plus de savoir à davantage de gens

245
00:15:28,430 --> 00:15:31,240
dans le domaine des langues sur Wikidata.

246
00:15:32,530 --> 00:15:36,392
Mais nous avons encore beaucoup
de travail à accomplir.

247
00:15:38,992 --> 00:15:42,341
Une des choses que vous pouvez faire
pour contribuer au projet,

248
00:15:42,341 --> 00:15:44,921
c'est par exemple de lancer
une opération « libelléthon »,

249
00:15:44,921 --> 00:15:50,124
consistant à inciter des gens
à créer des libellés sur Wikidata

250
00:15:50,914 --> 00:15:55,121
ou une campagne de révision
des lexèmes dans votre langue

251
00:15:55,121 --> 00:15:57,372
pour assurer la présence sur Wikidata

252
00:15:57,372 --> 00:15:59,792
des mots les plus usités
dans votre langue.

253
00:16:00,773 --> 00:16:03,285
Vous pouvez aussi utiliser
un outil comme Terminator

254
00:16:03,285 --> 00:16:07,211
qui vous aide à identifier
les éléments les plus importants

255
00:16:07,211 --> 00:16:11,699
mais ne disposant pas encore
d'un libellé dans votre langue.

256
00:16:13,274 --> 00:16:18,359
Nous qualifions ici de « plus importants »
les éléments les plus fréquemment utilisés

257
00:16:18,359 --> 00:16:22,553
dans d'autres éléments Wikidata
en tant que liens dans les déclarations.

258
00:16:25,768 --> 00:16:30,022
Et bien entendu, pour la partie lexèmes,

259
00:16:31,342 --> 00:16:35,169
à présent que nous avons couvert
l'essentiel des lexèmes,

260
00:16:35,169 --> 00:16:41,163
il s'agit de les élaborer
en y ajoutant des déclarations

261
00:16:41,163 --> 00:16:44,401
afin qu'ils puissent réellement
construire les bases

262
00:16:44,401 --> 00:16:47,421
sur lesquelles des applications
significatives pourront se développer.

263
00:16:48,141 --> 00:16:50,795
Parce que nous nous rapprochons
de la masse critique

264
00:16:50,795 --> 00:16:53,616
mais nous sommes encore loin

265
00:16:53,616 --> 00:16:56,624
de la situation permettant de bâtir
de sérieuses applications sur ces bases.

266
00:16:58,277 --> 00:17:01,680
Et j'espère que vous allez tous
joindre vos efforts pour atteindre ce but.

267
00:17:02,583 --> 00:17:07,103
Ce qui m'amène tout droit

268
00:17:07,103 --> 00:17:09,843
à solliciter les amis qui nous soutiennent

269
00:17:09,843 --> 00:17:12,812
et Bruno, veux-tu bien me rejoindre

270
00:17:13,882 --> 00:17:16,854
pour nous parler des masques lexicaux ?

271
00:17:17,541 --> 00:17:18,567
(Bruno) Merci, Lydia.

272
00:17:18,567 --> 00:17:21,519
Merci de m'accorder un petit moment

273
00:17:21,519 --> 00:17:24,150
pour présenter ce travail
que nous effectuons à Google

274
00:17:24,150 --> 00:17:29,635
avec Denny et dont la plupart d'entre vous
ont probablement entendu parler.

275
00:17:30,136 --> 00:17:31,878
Parce que je suis linguiste
chez Google,

276
00:17:31,878 --> 00:17:33,760
et je suis aussi très heureux
de me trouver ici

277
00:17:33,760 --> 00:17:36,620
en compagnie d'autres
passionnés des langues,

278
00:17:36,620 --> 00:17:39,278
et chez Google, nous construisons
aussi des lexiques

279
00:17:39,278 --> 00:17:41,766
et nous avons développé cette technologie

280
00:17:41,766 --> 00:17:45,589
ou cette approche dont nous pensons
qu'elle peut vous être utile.

281
00:17:46,369 --> 00:17:48,455
Pour vous expliquer un peu le contexte,

282
00:17:48,455 --> 00:17:52,068
vous pouvez voir ici mes références
en matière de lexicographie.

283
00:17:52,668 --> 00:17:54,667
Pour créer une base
de données lexicographiques,

284
00:17:54,667 --> 00:17:58,623
nous consacrons beaucoup de temps
et d'efforts à maintenir une cohérence

285
00:17:58,623 --> 00:18:00,125
et à échanger des données,

286
00:18:00,125 --> 00:18:02,027
comme vous le savez probablement.

287
00:18:02,417 --> 00:18:03,809
Il existe plusieurs tentatives

288
00:18:03,809 --> 00:18:06,081
visant à unifier les caractéristiques
et les propriétés

289
00:18:06,081 --> 00:18:09,184
qui décrivent ces lexèmes et ces formes

290
00:18:09,184 --> 00:18:10,936
et la question n'est pas encore réglée

291
00:18:10,936 --> 00:18:13,958
mais des tentatives sont en cours
pour aller dans le sens d'une unification.

292
00:18:13,958 --> 00:18:15,209
Mais ce qui manque réellement,

293
00:18:15,209 --> 00:18:17,312
et c'est un problème auquel
nous avons été confrontés

294
00:18:17,312 --> 00:18:18,732
chez Google au début du projet,

295
00:18:18,732 --> 00:18:21,757
c'est de tenter de construire
une structure interne

296
00:18:22,197 --> 00:18:25,910
décrivant à quoi devrait ressembler
une entrée lexicale,

297
00:18:25,910 --> 00:18:28,581
le type de données ou d'informations
dont nous disposons

298
00:18:28,581 --> 00:18:32,237
et le degré de spécification attendu.

299
00:18:32,237 --> 00:18:38,187
Et voici ce à quoi nous avons abouti
et qui s'appelle le « masque lexical ».

300
00:18:38,897 --> 00:18:43,639
Un masque lexical décrit
les données attendues

301
00:18:43,639 --> 00:18:47,369
pour qu'une entrée lexicographique 
puisse être considérée comme complète

302
00:18:47,369 --> 00:18:51,436
à la fois quant au nombre de formes
qu'un lexème devrait avoir

303
00:18:51,436 --> 00:18:55,607
et quant au nombre de caractéristiques
attendues pour chacune de ces formes.

304
00:18:56,307 --> 00:18:58,409
Voici un exemple portant
sur les adjectifs italiens.

305
00:18:58,409 --> 00:19:02,002
En italien, on devrait trouver
quatre formes pour les adjectifs

306
00:19:02,002 --> 00:19:05,383
et chacune de ces formes
reflète une combinaison spécifique

307
00:19:05,383 --> 00:19:07,946
de caractéristiques de genre et de nombre.

308
00:19:08,606 --> 00:19:12,672
C'est ce qui est attendu
en matière d'adjectifs italiens.

309
00:19:12,672 --> 00:19:16,176
Bien sûr, on peut avoir des masques
extrêmement complexes,

310
00:19:16,176 --> 00:19:20,783
comme pour les conjugaisons françaises
qui sont très fournies

311
00:19:20,783 --> 00:19:23,487
et je ne vous présente pas
un masque russe quel qu'il soit,

312
00:19:23,487 --> 00:19:25,378
parce qu'il déborderait de l'écran.

313
00:19:26,308 --> 00:19:29,531
Et nous avons aussi
des spécifications détaillées

314
00:19:29,531 --> 00:19:33,421
parce que nous distinguons
ce qui se situe au niveau de la forme.

315
00:19:33,421 --> 00:19:37,544
Donc ici vous voyez les noms russes
qui comportent trois nombres

316
00:19:37,544 --> 00:19:40,048
ainsi qu'un nombre de cas
avec différentes formes

317
00:19:40,048 --> 00:19:43,086
mais ils ont également
une spécification au niveau de l'entrée

318
00:19:43,086 --> 00:19:45,590
qui indique qu'un nom

319
00:19:45,590 --> 00:19:47,073
a un genre inhérent

320
00:19:47,073 --> 00:19:50,133
ainsi qu'une caractéristique
d'animéité inhérente

321
00:19:50,133 --> 00:19:52,688
qui est également précisée dans le masque.

322
00:19:54,518 --> 00:19:58,779
Nous voulons aussi préciser
qu'un masque indique une spécification

323
00:19:58,779 --> 00:20:01,874
de ce à quoi devrait ressembler
une entrée, de manière générale.

324
00:20:01,874 --> 00:20:07,158
Mais vous pouvez avoir des masques
plus petits en cas de formes réduites

325
00:20:07,158 --> 00:20:11,282
ou d'aspects limités de l'utilisation
du lexème dans la langue.

326
00:20:11,282 --> 00:20:14,537
Voici par exemple la version
la plus simple de verbes en français

327
00:20:14,537 --> 00:20:17,584
qui ne se conjuguent qu'à la troisième
personne du singulier,

328
00:20:17,584 --> 00:20:19,930
les verbes désignant
les phénomènes météorologiques

329
00:20:19,930 --> 00:20:23,969
comme « il pleut » ou « il neige »,
comme c'est aussi le cas en anglais.

330
00:20:24,537 --> 00:20:26,923
Donc, nous faisons la distinction
entre ces deux niveaux.

331
00:20:26,923 --> 00:20:29,962
Et la façon dont nous utilisons
cela chez Google,

332
00:20:29,962 --> 00:20:32,643
quand nous avons un lexique
que nous voulons utiliser,

333
00:20:33,063 --> 00:20:38,219
nous utilisons le masque
pour carrément y déverser le lexique

334
00:20:38,219 --> 00:20:40,283
et toutes ses entrées,
qui vont traverser le masque

335
00:20:40,283 --> 00:20:44,303
et nous voyons quelles entrées posent
un problème en termes de structure.

336
00:20:44,303 --> 00:20:46,673
Manque-t-il une forme ?
Manque-t-il une caractéristique ?

337
00:20:46,673 --> 00:20:48,563
Et quand un problème se présente,

338
00:20:48,563 --> 00:20:51,497
nous avons recours
à une validation humaine

339
00:20:51,497 --> 00:20:53,751
pour vérifier si l'entrée passe
l'épreuve du masque.

340
00:20:53,751 --> 00:20:57,924
C'est donc un outil extrêmement puissant
pour vérifier la qualité de la structure.

341
00:20:59,427 --> 00:21:01,964
Et nous sommes heureux
de vous annoncer aujourd'hui

342
00:21:01,964 --> 00:21:05,408
que nous avons eu le feu vert
pour ouvrir notre masque à l'open source.

343
00:21:05,948 --> 00:21:07,469
Donc voici le schéma.

344
00:21:07,469 --> 00:21:09,697
Si vous le voulez, nous pouvons
le mettre à disposition

345
00:21:09,697 --> 00:21:13,483
et le fournir à Wikidata
sous forme de fichiers Shex.

346
00:21:13,483 --> 00:21:16,688
Voici un fichier Shex
pour les noms allemands

347
00:21:16,688 --> 00:21:20,428
et Denny travaille à le convertir
pour passer de nos spécifications internes

348
00:21:20,428 --> 00:21:23,666
à une spécification
plus appropriée à l'open source

349
00:21:23,666 --> 00:21:27,522
Nous couvrons actuellement
plus de 25 langues.

350
00:21:27,522 --> 00:21:29,495
Nous espérons développer
cette offre de notre côté

351
00:21:29,495 --> 00:21:34,350
mais nous y voyons aussi une opportunité
de collaboration pour ajouter des langues.

352
00:21:34,350 --> 00:21:40,728
Et l'une de ces collaborations est celle
que Denny entretient avec Lukas.

353
00:21:40,728 --> 00:21:45,052
Lukas dispose d'outils fantastiques
permettant une interface utilisateur

354
00:21:45,052 --> 00:21:48,525
pour permettre à l'utilisateur
ou au contributeur

355
00:21:48,525 --> 00:21:51,061
d'ajouter davantage de formes.

356
00:21:51,061 --> 00:21:54,151
Donc si vous voulez ajouter
un adjectif en français,

357
00:21:54,151 --> 00:21:59,057
l'IU vous indiquera le nombre
de formes à fournir

358
00:21:59,057 --> 00:22:01,562
et les caractéristiques
que ces formes devraient avoir.

359
00:22:01,562 --> 00:22:06,268
Ainsi notre masque permettra à cet outil
de s'affiner et de se développer.

360
00:22:07,238 --> 00:22:08,385
Et voilà.

361
00:22:08,791 --> 00:22:10,358
(Lydia) Merci infiniment.

362
00:22:10,358 --> 00:22:11,993
(applaudissements)

363
00:22:14,249 --> 00:22:16,891
(Lydia) Très bien.
Avez-vous des questions ?

364
00:22:16,891 --> 00:22:19,381
Souhaitez-vous que nous parlions
davantage des lexèmes ?

365
00:22:19,774 --> 00:22:21,885
- (intervenant 1) Oui.
- (Lydia) Oui. (petit rire)

366
00:22:33,485 --> 00:22:35,380
- (intervenant 1) Vous parliez

367
00:22:35,380 --> 00:22:39,106
de donner plus d'accès
à plus de gens dans plus de langues,

368
00:22:39,106 --> 00:22:42,444
mais beaucoup de langues ne peuvent pas
être utilisées dans Wikidata.

369
00:22:42,444 --> 00:22:44,838
Quelle solution avez-vous
pour résoudre cela ?

370
00:22:45,079 --> 00:22:47,686
Quand vous dites qu'elles
ne peuvent pas utiliser Wikidata,

371
00:22:47,686 --> 00:22:50,208
est-ce que vous parlez
d'intégrer des libellés ?

372
00:22:50,208 --> 00:22:52,581
- (i.1) Des libellés, des descriptions.
- D'accord.

373
00:22:52,581 --> 00:22:55,498
Donc, en ce qui concerne
les lexèmes, c'est un peu différent,

374
00:22:55,498 --> 00:22:58,003
parce que cette restriction
ne s'applique pas ici.

375
00:22:58,923 --> 00:23:05,003
Pour les libellés des éléments
et propriétés, des restrictions existent

376
00:23:05,433 --> 00:23:10,551
parce que nous voulions nous assurer

377
00:23:10,551 --> 00:23:14,229
que n'importe qui ne puisse pas
faire n'importe quoi

378
00:23:14,229 --> 00:23:17,769
et que cela devienne ingérable.

379
00:23:19,349 --> 00:23:23,328
Si une communauté, même petite,
veut ajouter une langue et y travailler,

380
00:23:23,898 --> 00:23:26,787
venez en discuter avec nous
et nous pourrons rendre cela possible.

381
00:23:26,787 --> 00:23:29,470
(i.1) Nous l'avons fait à l'occasion
du Hackathon de Prague en mai

382
00:23:29,470 --> 00:23:32,576
et il nous a fallu attendre le mois d'août
pour pouvoir utiliser notre langue.

383
00:23:32,576 --> 00:23:35,135
- Oui.
- (i.1) Donc, c'est très lent.

384
00:23:35,135 --> 00:23:37,854
Oui, c'est malheureusement très lent.

385
00:23:37,854 --> 00:23:40,093
Nous travaillons actuellement
avec le Comité des langues

386
00:23:40,093 --> 00:23:46,048
à la résolution
de certains points fondamentaux...

387
00:23:49,537 --> 00:23:55,447
Comme par exemple parvenir à un accord
sur les langues qui sont « autorisées »

388
00:23:56,047 --> 00:23:59,468
et cela nous a pris trop de temps,

389
00:23:59,988 --> 00:24:02,258
ce qui explique pourquoi votre demande

390
00:24:02,258 --> 00:24:04,868
a probablement mis plus de temps
à aboutir qu'elle ne l'aurait dû.

391
00:24:04,868 --> 00:24:05,963
(i.1) Merci.

392
00:24:06,705 --> 00:24:07,800
(intervenant 2) Merci.

393
00:24:07,800 --> 00:24:10,938
Lydia, vous vous souvenez des statistiques
que vous nous avez montrées,

394
00:24:10,938 --> 00:24:12,886
sur le nombre de lexèmes par langue ?

395
00:24:12,886 --> 00:24:17,599
Avez-vous pris chaque forme
comme unité de calcul

396
00:24:17,599 --> 00:24:20,034
ou seulement les lexèmes ?

397
00:24:21,159 --> 00:24:22,941
Vous faites référence à ceci ?

398
00:24:22,941 --> 00:24:25,797
- De quelle diapo parlez-vous ?
- (i.2) Oui, c'est exactement cela.

399
00:24:25,797 --> 00:24:28,341
Si vous vous rappelez,
ce nombre représente-t-il

400
00:24:28,341 --> 00:24:31,954
toutes les formes de tous les lexèmes
où seulement les lexèmes existants ?

401
00:24:31,954 --> 00:24:35,395
- Non, ce sont seulement des lexèmes.
- (i.2) Uniquement les lexèmes, d'accord.

402
00:24:35,395 --> 00:24:36,897
Alors la statistique est correcte.

403
00:24:36,897 --> 00:24:39,390
Parce que si vous aviez pris
les formes en compte,

404
00:24:39,390 --> 00:24:40,748
et c'est la raison de ma question,

405
00:24:40,748 --> 00:24:43,074
alors toutes les langues ayant
une morphologie flexionnelle

406
00:24:43,074 --> 00:24:45,027
comme le russe, le serbe, le slovène, etc.

407
00:24:45,027 --> 00:24:47,616
seraient naturellement avantagées
tant elles ont de formes.

408
00:24:47,616 --> 00:24:51,990
C'est ici que c'est manifeste,
sur le nombre de formes.

409
00:24:51,990 --> 00:24:54,141
(intervenant 2) Oui,
c'était bien celle-ci. Merci.

410
00:24:56,546 --> 00:25:00,224
(intervenant 3) Une petite question
concernant...

411
00:25:00,644 --> 00:25:06,824
Quand nous parlons des éléments
et propriétés à proprement parler,

412
00:25:07,124 --> 00:25:08,901
Pour autant que je sache,

413
00:25:08,901 --> 00:25:11,955
il n'y a à l'heure actuelle aucun moyen
d'identifier une source

414
00:25:11,955 --> 00:25:14,726
pour n'importe lequel des libellés
et descriptions qui sont fournis.

415
00:25:14,726 --> 00:25:18,047
Donc, par exemple, 
quand vous parlez

416
00:25:18,047 --> 00:25:20,920
d'une propriété d'un élément,

417
00:25:20,920 --> 00:25:24,509
vous pouvez être confronté
à des libellés contradictoires.

418
00:25:24,509 --> 00:25:25,739
Oui.

419
00:25:25,739 --> 00:25:27,862
(i.3) Donc, disons
que telle personne est...

420
00:25:28,302 --> 00:25:30,920
Nous parlions tout à l'heure
des questions indigènes, par exemple.

421
00:25:30,920 --> 00:25:35,965
Donc telle personne est un artiste
norvégien selon telle source

422
00:25:35,965 --> 00:25:38,750
et un artiste sami
selon telle autre source.

423
00:25:39,550 --> 00:25:42,883
Ou par exemple, la question
s'est posée pour l'estonien

424
00:25:42,883 --> 00:25:47,729
et nous avons dû revoir la terminologie
en fonction de la terminologie officielle

425
00:25:47,729 --> 00:25:49,667
telle qu'elle figure
dans les lexiques officiels,

426
00:25:49,667 --> 00:25:52,262
mais nous n'avons aucun moyen
d'indiquer quelle en est la raison,

427
00:25:52,262 --> 00:25:54,426
quelle en est la source
et pourquoi c'est plus juste

428
00:25:54,426 --> 00:25:55,658
que ce qu'il y avait avant.

429
00:25:55,658 --> 00:25:57,150
C'est un simple quidam comme moi

430
00:25:57,150 --> 00:25:59,615
qui a remplacé la donnée
pour qui la verra.

431
00:25:59,615 --> 00:26:02,520
Donc est-il prévu de rendre cela possible
d'une manière ou d'une autre

432
00:26:02,520 --> 00:26:06,605
afin que nous puissions avoir de vraies
sources pour les données linguistiques ?

433
00:26:07,045 --> 00:26:11,568
Alors, c'est en partie possible.

434
00:26:11,568 --> 00:26:16,088
Donc, par exemple, quand vous avez
un élément portant sur une personne,

435
00:26:16,898 --> 00:26:22,720
vous avez dans les déclarations :
prénom, nom, etc., de cette personne

436
00:26:22,720 --> 00:26:26,406
et vous pouvez fournir la référence
correspondante à ce niveau-là.

437
00:26:28,101 --> 00:26:32,544
J'ai beaucoup de réserves
quant à rendre les choses plus complexes

438
00:26:32,544 --> 00:26:35,557
avec des références
sur les libellés et les descriptions,

439
00:26:35,557 --> 00:26:38,624
mais si les gens pensent vraiment

440
00:26:38,624 --> 00:26:44,939
que c'est quelque chose qui n'est couvert
par aucune référence sur la déclaration,

441
00:26:44,939 --> 00:26:46,803
alors parlons-en.

442
00:26:49,079 --> 00:26:53,303
Mais je crains que cela n'entraîne
beaucoup de complexité

443
00:26:53,303 --> 00:26:56,523
pour des occurrences dont j'espère
qu'elles sont peu nombreuses,

444
00:26:57,393 --> 00:27:00,188
mais je veux bien être
convaincue du contraire,

445
00:27:00,188 --> 00:27:04,087
si les gens y tiennent beaucoup.

446
00:27:04,087 --> 00:27:08,177
(i.3) Je veux dire, si c'est ajouté
ce ne devrait pas être impératif

447
00:27:08,177 --> 00:27:12,452
et apparaître à tous les utilisateurs
débutant dans l'interface en tout cas.

448
00:27:12,452 --> 00:27:13,580
Plutôt quelque chose comme :

449
00:27:13,580 --> 00:27:16,761
« Cliquez ici si vous avez
des commentaires à faire à ce sujet ».

450
00:27:17,632 --> 00:27:23,368
A-t-on une idée du nombre
de cas où cela aurait de l'importance ?

451
00:27:24,520 --> 00:27:26,423
(i.3) En estonien, par exemple,

452
00:27:26,423 --> 00:27:29,164
et je suppose que c'est aussi le cas
dans d'autres langues,

453
00:27:29,164 --> 00:27:34,203
il existe un mot officiel,
qui est la traduction légitime

454
00:27:34,203 --> 00:27:36,206
par exemple, en anglais,

455
00:27:36,206 --> 00:27:40,314
disons d'un type particulier
de municipalité.

456
00:27:40,314 --> 00:27:41,746
C'était mon cas pratique,

457
00:27:41,746 --> 00:27:44,409
par exemple, où nous utilisions
le mot « paroisse »

458
00:27:45,159 --> 00:27:50,775
où effectivement le mot estonien original
avait le sens de paroisse d'église

459
00:27:50,775 --> 00:27:51,999
et c'était là l'origine du mot

460
00:27:51,999 --> 00:27:53,699
mais ce n'est plus
la traduction officielle

461
00:27:53,699 --> 00:27:55,189
qu'en donne l'Estonie aujourd'hui.

462
00:27:55,189 --> 00:27:57,531
Dans ce cas, je l'ajouterais 
dans les déclarations

463
00:27:57,531 --> 00:28:00,817
en tant que nom officiel
et c'est là que j'ajouterais la référence.

464
00:28:02,032 --> 00:28:03,158
(intervenant 3) D'accord.

465
00:28:05,186 --> 00:28:06,952
D'autres questions, oui ?

466
00:28:07,682 --> 00:28:10,044
(intervenant 4) J'aimerais faire
deux courtes remarques.

467
00:28:10,044 --> 00:28:13,934
Vous avez mis l'asturien en avant
comme une langue réussissant bien

468
00:28:13,934 --> 00:28:16,455
et je pense qu'il s'agit
d'un effet artificiel.

469
00:28:16,455 --> 00:28:17,724
Dites-m'en plus.

470
00:28:17,724 --> 00:28:19,748
(intervenant 4) Je pense
que c'est juste un robot

471
00:28:19,748 --> 00:28:21,854
- (i.4) qui a collé...
- Oh non !

472
00:28:21,854 --> 00:28:24,068
(i.4) des noms de personnes,
des noms propres

473
00:28:24,068 --> 00:28:27,172
et a dit : « C'est exactement
comme en français ou en espagnol »,

474
00:28:27,172 --> 00:28:28,558
et a tout copié en bloc.

475
00:28:28,558 --> 00:28:33,316
Ce qui tend à prouver ça, c'est qu'on ne
retrouve pas cette énergie en asturien

476
00:28:33,316 --> 00:28:35,785
pour les choses qui exigent
réellement un effort de traduction

477
00:28:35,785 --> 00:28:37,336
comme les noms de propriétés

478
00:28:37,336 --> 00:28:39,648
ou les noms des éléments
qui ne sont pas des noms propres.

479
00:28:39,648 --> 00:28:41,219
Asaf, vous me brisez le cœur.

480
00:28:41,219 --> 00:28:43,198
(i.4) Je sais.
J'aime bien gâcher la fête,

481
00:28:43,198 --> 00:28:48,558
mais j'ai aussi de bonnes nouvelles
au sujet des scores en prononciation.

482
00:28:49,408 --> 00:28:50,765
Comme vous le savez probablement,

483
00:28:50,765 --> 00:28:53,515
les <i>Commons</i> sont pleins
de fichiers de prononciation

484
00:28:53,515 --> 00:28:54,668
et par exemple

485
00:28:54,668 --> 00:28:59,464
le néerlandais compte pas moins
de 300 000 fichiers de prononciation

486
00:28:59,464 --> 00:29:01,912
qui sont déjà dans les <i>Commons</i>

487
00:29:01,912 --> 00:29:05,051
et qui ne demandent qu'à être ingérés.

488
00:29:05,051 --> 00:29:07,697
Donc si quelqu'un est en recherche
d'un projet connexe,

489
00:29:07,697 --> 00:29:09,118
il existe des tonnes et des tonnes

490
00:29:09,118 --> 00:29:13,280
de fichiers de prononciation, classés
et catégorisés dans les <i>Commons</i>

491
00:29:13,280 --> 00:29:16,893
sous la catégorie
« Prononciation » par langue.

492
00:29:16,893 --> 00:29:22,840
Il n'y a plus qu'à les faire correspondre
aux lexèmes et les intégrer dans Lexèmes.

493
00:29:23,000 --> 00:29:25,484
Et d'autre part, je me demandais
si vous pourriez parler un peu

494
00:29:25,484 --> 00:29:26,585
de la feuille de route,

495
00:29:26,585 --> 00:29:28,757
nous dire un peu
quel degré d'investissement

496
00:29:28,757 --> 00:29:31,995
ou ce que nous pouvons attendre
de Lexème pour l'année qui vient,

497
00:29:31,995 --> 00:29:34,560
parce qu'en tout cas
pour ma part, je brûle d'impatience.

498
00:29:34,949 --> 00:29:37,044
Vous brûlez d'impatience ?
(petit rire)

499
00:29:37,044 --> 00:29:39,588
- (i.3) de voir la suite.
- Oui (petit rire)

500
00:29:44,541 --> 00:29:48,073
Actuellement, nous nous concentrons
plutôt sur Wikibase

501
00:29:48,073 --> 00:29:50,138
et la qualité des données

502
00:29:51,493 --> 00:29:55,087
pour voir quel est l'attrait suscité,

503
00:29:55,087 --> 00:30:01,676
puis l'augmenter davantage
au niveau des points faibles

504
00:30:01,676 --> 00:30:06,003
et ensuite revenir pour continuer
à développer les données lexicographiques.

505
00:30:06,903 --> 00:30:09,790
Et une des choses que j'aimerais
entendre de votre part,

506
00:30:09,790 --> 00:30:14,136
c'est quelles devraient précisément
être les prochaines étapes selon vous.

507
00:30:14,136 --> 00:30:15,966
où voulez-vous voir des améliorations

508
00:30:15,966 --> 00:30:20,340
pour que nous puissions définir
comment parvenir à les produire.

509
00:30:21,125 --> 00:30:22,810
Mais bien sûr, vous avez raison,

510
00:30:22,810 --> 00:30:25,832
il reste encore tant à faire,
au niveau technique aussi.

511
00:30:30,573 --> 00:30:35,848
(intervenant 5) Tandis que nous intégrions
les mots basques avec leurs formes,

512
00:30:35,848 --> 00:30:37,768
et ce genre de situations
est assez fréquent,

513
00:30:37,768 --> 00:30:41,399
nous nous disions, la semaine dernière :
« Oh, nous sommes premiers quelque part »

514
00:30:42,739 --> 00:30:44,928
ça sort dans la presse, c'est comme :

515
00:30:44,928 --> 00:30:49,488
« Oh, c'est une première, les Basques sont
premiers dans un domaine, chouette ! »

516
00:30:49,488 --> 00:30:50,606
(rire)

517
00:30:50,606 --> 00:30:53,708
Et alors les gens nous demandent :
« C'est bien, mais à quoi ça sert ? »

518
00:30:54,678 --> 00:30:56,849
Nous n'avons pas vraiment
de bonne réponse à ça.

519
00:30:56,849 --> 00:30:57,980
je veux dire, c'est pas mal,

520
00:30:57,980 --> 00:31:01,841
cela permettra aux ordinateurs
de comprendre davantage notre langue, oui,

521
00:31:01,841 --> 00:31:05,279
mais quel genre d'outils
pourrons-nous développer à l'avenir ?

522
00:31:05,279 --> 00:31:07,467
Nous n'avons pas
de bonne réponse à cette question.

523
00:31:07,467 --> 00:31:10,625
Donc, je me demande si vous avez
une bonne réponse à ça.

524
00:31:10,625 --> 00:31:12,982
(petit rire) Je ne sais pas
si c'est une bonne réponse,

525
00:31:12,982 --> 00:31:14,846
mais j'ai une réponse.

526
00:31:15,480 --> 00:31:20,425
Alors, je crois qu'à l'heure actuelle,
comme je l'indiquais,

527
00:31:20,425 --> 00:31:22,194
nous n'avons pas atteint
cette masse critique

528
00:31:22,194 --> 00:31:25,529
qui permet de construire bon nombre
des outils vraiment intéressants.

529
00:31:25,529 --> 00:31:27,707
Mais il existe déjà quelques outils.

530
00:31:28,267 --> 00:31:31,912
Pas plus tard que l'autre jour,
par exemple, Esther [Pandelia]

531
00:31:31,912 --> 00:31:34,217
a mis à disposition un outil
permettant de visualiser

532
00:31:35,837 --> 00:31:38,889
je crois qu'il s'agissait
des mots sur un globe,

533
00:31:38,889 --> 00:31:41,901
l'endroit où ils sont le plus parlés,
l'endroit dont ils sont originaires.

534
00:31:42,631 --> 00:31:44,090
Je me trompe peut-être là-dessus,

535
00:31:44,090 --> 00:31:46,526
mais elle a répondu sur la page
Discussion Projet de Wikidata,

536
00:31:46,526 --> 00:31:48,984
vous pouvez allez voir.

537
00:31:49,574 --> 00:31:51,805
Donc, nous voyons apparaître
ces premiers outils,

538
00:31:51,805 --> 00:31:55,806
tout comme nous l'avons vu
au démarrage de Wikidata,

539
00:31:56,846 --> 00:31:59,602
d'abord comme une sorte de réseau,

540
00:31:59,602 --> 00:32:03,424
puis : « Hé, mais il y a cette chose
qui se connecte à cette autre chose ».

541
00:32:04,824 --> 00:32:07,059
Et une fois que l'on a plus de données

542
00:32:07,059 --> 00:32:10,612
et que l'on a atteint
une sorte de masse critique,

543
00:32:11,852 --> 00:32:14,747
de nouvelles applications
plus puissantes deviennent possibles

544
00:32:15,677 --> 00:32:17,676
des choses comme Histropedia,

545
00:32:19,126 --> 00:32:21,988
des choses comme les questions-réponses

546
00:32:21,988 --> 00:32:26,663
avec votre assistant personnel numérique,
Platypus et ainsi de suite.

547
00:32:26,663 --> 00:32:30,038
Et nous voyons le même phénomène
se produire avec les lexèmes.

548
00:32:31,198 --> 00:32:34,650
Nous en sommes au stade
où vous pouvez construire ces petits

549
00:32:34,650 --> 00:32:37,464
« Hé, il y a une connexion possible
entre ces deux choses,

550
00:32:37,864 --> 00:32:42,738
et il existe une traduction
de ce mot dans cette langue ».

551
00:32:42,738 --> 00:32:47,747
Et plus nous l'élaborons,
plus nous décrivons de mots,

552
00:32:47,747 --> 00:32:49,533
plus ces choses deviennent possibles.

553
00:32:49,533 --> 00:32:51,795
Alors, qu'est-ce qui devient possible ?

554
00:32:53,482 --> 00:32:59,483
Comme Ben, notre conférencier sur Keynote,
le disait plus tôt : les traductions,

555
00:33:00,103 --> 00:33:03,455
être capable de traduire
d'une langue à une autre.

556
00:33:03,455 --> 00:33:07,929
Et Jens, mon collègue, ne cesse de parler

557
00:33:07,929 --> 00:33:11,452
de l'Union Européenne
qui cherche un traducteur

558
00:33:11,452 --> 00:33:17,439
capable de traduire
du maltais au suédois, je crois.

559
00:33:17,439 --> 00:33:19,716
- (intervenant 6) de l'estonien.
- De l'estonien.

560
00:33:22,016 --> 00:33:26,211
Et ce n'est pas là
une combinaison habituelle,

561
00:33:27,211 --> 00:33:29,375
mais une fois que toutes ces langues
sont disponibles

562
00:33:29,375 --> 00:33:31,735
dans un espace
lisible par des machines,

563
00:33:31,735 --> 00:33:33,143
c'est faisable,

564
00:33:33,143 --> 00:33:36,857
on peut avoir un dictionnaire

565
00:33:36,857 --> 00:33:41,735
estonien-maltais et vice-versa.

566
00:33:42,865 --> 00:33:45,607
Donc assurer des combinaisons
de langues dans des dictionnaires

567
00:33:45,607 --> 00:33:47,911
qui n'ont jamais été réalisés auparavant

568
00:33:47,911 --> 00:33:51,050
parce que la demande était insuffisante

569
00:33:51,050 --> 00:33:55,540
pour en faire un projet financièrement
viable qui justifie un tel travail.

570
00:33:55,540 --> 00:33:57,147
Maintenant nous pouvons le faire.

571
00:33:59,797 --> 00:34:02,318
Ensuite, la création de texte.

572
00:34:02,318 --> 00:34:03,653
Lucie parlait tout à l'heure

573
00:34:03,653 --> 00:34:10,136
de la manière dont elle travaille
avec Hattie à générer du texte

574
00:34:10,136 --> 00:34:12,153
pour commencer à diffuser
des articles de Wikipédia

575
00:34:12,153 --> 00:34:15,021
dans des langues minoritaires

576
00:34:15,423 --> 00:34:19,512
et cela exige d'avoir
des données sur les mots

577
00:34:19,512 --> 00:34:22,589
et il faut comprendre la langue
pour y parvenir.

578
00:34:23,669 --> 00:34:28,133
Et oui, ce ne sont que quelques
exemples qui me viennent à l'esprit.

579
00:34:28,513 --> 00:34:30,604
Peut-être que notre auditoire
a d'autres idées

580
00:34:30,604 --> 00:34:32,364
quant à ce qu'ils voudraient faire

581
00:34:32,364 --> 00:34:34,914
une fois que nous aurons
toutes ces précieuses données.

582
00:34:37,693 --> 00:34:40,892
(intervenant 7) Je vais un peu
m'écarter du sujet des lexèmes.

583
00:34:40,892 --> 00:34:42,666
Je voudrais poser cette question.

584
00:34:42,666 --> 00:34:45,634
Quel impact puis-je avoir en tant
que membre d'une communauté

585
00:34:45,634 --> 00:34:50,135
pour faire d'une tâche une priorité,

586
00:34:50,135 --> 00:34:54,493
afin qu'un nouvel utilisateur
puisse indiquer les langues

587
00:34:54,493 --> 00:34:56,644
qu'il souhaite voir et éditer

588
00:34:56,644 --> 00:35:01,135
sans disposer d'une bulle secrète
de connaissances formatées ?

589
00:35:02,145 --> 00:35:05,193
Peut-être verrons-nous cette année
cette liste de souhaits techniques exaucée

590
00:35:05,193 --> 00:35:07,040
en dehors des thèmes de Wikipédia.

591
00:35:07,040 --> 00:35:10,119
Peut-être pouvons-nous espérer
un vote général sur ce point

592
00:35:10,119 --> 00:35:14,218
que nous n'avons pas réussi
à résoudre depuis sept ans.

593
00:35:14,218 --> 00:35:17,607
Avez-vous des idées
ou des commentaires à ce sujet ?

594
00:35:18,217 --> 00:35:20,328
Vous faites référence au fait

595
00:35:20,328 --> 00:35:23,518
qu'un utilisateur qui n'est pas
connecté sur Wikidata

596
00:35:23,518 --> 00:35:25,971
ne peut pas apporter facilement
de changements sur sa langue ?

597
00:35:25,971 --> 00:35:28,039
(intervenant 7) Non,
je parle des utilisateurs.

598
00:35:28,309 --> 00:35:30,689
Alors, s'ils sont connectés,

599
00:35:30,689 --> 00:35:34,871
ils peuvent modifier leur langue
en haut de la page

600
00:35:35,891 --> 00:35:38,489
et là ils verront apparaître,

601
00:35:39,659 --> 00:35:42,271
l'endroit où se trouvent
les descriptions des libellés

602
00:35:42,271 --> 00:35:43,773
et ils peuvent les modifier.

603
00:35:45,657 --> 00:35:49,009
(intervenant 7) Eh bien, en fait,
bien souvent, le processus est tel

604
00:35:49,009 --> 00:35:52,447
que si vous voulez avoir plusieurs
langues disponibles, elles le sont,

605
00:35:52,447 --> 00:35:55,419
mais ce n'est pas toujours le cas.

606
00:35:55,419 --> 00:35:57,364
D'accord, peut-être
pouvons-nous en discuter

607
00:35:57,364 --> 00:35:59,543
après cette conférence
et vous me montrerez ?

608
00:36:01,562 --> 00:36:04,089
Bien. D'autres questions ?

609
00:36:05,534 --> 00:36:06,536
Oui.

610
00:36:11,595 --> 00:36:13,196
(intervenant 8) Merci pour votre exposé.

611
00:36:14,106 --> 00:36:15,127
Pouvez-vous nous parler

612
00:36:15,127 --> 00:36:19,307
de l'état de la corrélation
avec la communauté Wiktionary ?

613
00:36:19,307 --> 00:36:22,296
D'après ce que j'en ai vu,
il a été question lors de discussions

614
00:36:22,296 --> 00:36:26,051
d'importer certains éléments
qui sont le fruit de leur travail

615
00:36:26,051 --> 00:36:30,843
mais il semble qu'il y ait des problèmes
de licences et des désaccords, etc.

616
00:36:30,843 --> 00:36:31,848
C'est exact.

617
00:36:31,848 --> 00:36:36,330
Les communautés Wiktionary
ont consacré énormément de temps

618
00:36:37,320 --> 00:36:39,473
à la construction de Wiktionary.

619
00:36:39,473 --> 00:36:42,643
Ils ont élaboré

620
00:36:43,193 --> 00:36:47,554
des modèles incroyablement complexes

621
00:36:47,554 --> 00:36:50,525
pour créer de beaux tableaux

622
00:36:50,525 --> 00:36:53,614
qui vous génèrent
automatiquement des formulaires

623
00:36:53,614 --> 00:36:56,392
et toutes sortes de trucs impressionnants

624
00:36:56,392 --> 00:37:00,683
et parfois vraiment dingues,
quand on y pense.

625
00:37:02,311 --> 00:37:07,994
Et bien sûr, ils y ont consacré
énormément de temps et d'efforts.

626
00:37:09,364 --> 00:37:11,801
On peut comprendre

627
00:37:11,801 --> 00:37:17,116
qu'ils ne souhaitent pas
qu'on puisse s'approprier tout ça

628
00:37:18,046 --> 00:37:19,102
aussi facilement.

629
00:37:19,102 --> 00:37:21,791
Donc c'est un peu ce qui se dit
de ce côté-là.

630
00:37:22,761 --> 00:37:25,137
Et c'est OK.

631
00:37:25,737 --> 00:37:32,092
Maintenant, les premières communautés
Wiktionary parlent de participer

632
00:37:32,092 --> 00:37:34,329
et d'importer certaines
de leurs données sur Wikidata.

633
00:37:34,329 --> 00:37:39,095
Le russe, comme vous avez pu le voir
par exemple fait partie de ces cas.

634
00:37:40,375 --> 00:37:42,355
Et je m'attends à ce que d'autres suivent.

635
00:37:43,635 --> 00:37:46,800
Mais ce sera un processus lent,

636
00:37:46,800 --> 00:37:49,383
de même que l'adoption
de données Wikidata sur Wikipedia

637
00:37:49,383 --> 00:37:51,909
a également fait l'objet
d'un processus assez lent.

638
00:37:52,849 --> 00:37:56,183
Outre le fait que cela rend plus facile

639
00:37:56,183 --> 00:37:59,132
l'utilisation des données
comprises dans les lexèmes

640
00:37:59,132 --> 00:38:02,209
sur Wiktionary, pour qu'ils puissent
s'en servir et partager des données

641
00:38:02,209 --> 00:38:05,531
entre les Wiktionnaires
de différentes langues,

642
00:38:05,531 --> 00:38:08,853
chose hyper difficile voire impossible
à faire à l'heure actuelle,

643
00:38:08,853 --> 00:38:11,560
ce qui est fou,
comme ce fut le cas sur Wikipédia.

644
00:38:13,860 --> 00:38:16,595
Attendons les cadeaux
d'anniversaire ! (petit rire)

645
00:38:20,038 --> 00:38:21,182
Oui.

646
00:38:22,849 --> 00:38:24,827
(Intervenant 9) Je pensais
à la situation inverse,

647
00:38:24,827 --> 00:38:28,168
je ne voulais pas en parler
parce que ça me semblait idiot,

648
00:38:28,168 --> 00:38:32,003
mais je crois que Wiktionnary
dispose déjà de certains contenus

649
00:38:32,003 --> 00:38:34,978
et je sais qu'on ne peut pas
les transférer sur Wikidata

650
00:38:34,978 --> 00:38:37,048
en raison des différences de licences.

651
00:38:37,048 --> 00:38:39,891
Mais je me disais que nous pourrions
peut-être remédier à cela.

652
00:38:40,321 --> 00:38:45,913
Peut-être peut-on obtenir
la permission des communautés

653
00:38:45,913 --> 00:38:51,205
après un vote général

654
00:38:52,075 --> 00:38:55,642
au cours duquel la communauté,
les membres actifs de la communauté

655
00:38:55,642 --> 00:39:02,523
voteraient et diraient s'ils veulent
ou acceptent de transférer les contenus

656
00:39:02,523 --> 00:39:05,528
permettant de faire les lexèmes Wikidata.

657
00:39:06,238 --> 00:39:08,637
Parce que ça me paraît
être un vrai gâchis.

658
00:39:09,568 --> 00:39:13,443
Donc, c'est certainement une conversation

659
00:39:13,443 --> 00:39:16,146
que ceux qui sont membres
de communautés Wiktionary

660
00:39:16,146 --> 00:39:18,319
peuvent susciter entre eux
et nous en serions heureux.

661
00:39:18,319 --> 00:39:24,647
Je crois que ce serait un peu présomptueux
de notre part de chercher à forcer cela.

662
00:39:25,917 --> 00:39:31,142
Mais oui, cela mérite largement
qu'on en discute.

663
00:39:31,142 --> 00:39:33,898
Mais il me semble important de comprendre

664
00:39:33,898 --> 00:39:36,117
qu'il faut faire la distinction

665
00:39:36,117 --> 00:39:39,082
entre ce qui est faisable
d'un point de vue légal,

666
00:39:39,082 --> 00:39:43,147
ce que nous devrions faire

667
00:39:43,147 --> 00:39:45,426
et ce que ces gens veulent faire ou pas.

668
00:39:45,626 --> 00:39:47,510
Donc, même si c'est autorisé légalement,

669
00:39:47,510 --> 00:39:50,640
si certaines communautés
Wiktionary s'y opposent,

670
00:39:50,640 --> 00:39:53,637
je crois que nous devrions être
pour le moins prudents là-dessus.

671
00:39:58,886 --> 00:40:02,489
Je crois qu'il vous faut un micro
pour la retransmission.

672
00:40:04,540 --> 00:40:07,549
(intervenant 10) Tout cela
est bien sûr très enthousiasmant

673
00:40:07,979 --> 00:40:12,319
et je me demande tout de suite comment
je peux en faire profiter mes élèves

674
00:40:12,319 --> 00:40:15,558
et intégrer cela à mes cours,

675
00:40:15,558 --> 00:40:18,531
au travail que nous faisons,
dans le cadre de l'éducation.

676
00:40:18,531 --> 00:40:22,271
Et je ne dispose pas à ce jour

677
00:40:22,621 --> 00:40:24,241
des connaissances suffisantes, d'abord,

678
00:40:24,241 --> 00:40:27,278
mais je crois que la documentation
dont nous disposons

679
00:40:27,808 --> 00:40:30,082
pourrait peut-être être améliorée.

680
00:40:30,082 --> 00:40:33,437
Donc, j'aimerais exprimer le souhait
de voir réaliser des vidéos sympa

681
00:40:33,437 --> 00:40:35,898
pour expliquer comment ça marche

682
00:40:35,898 --> 00:40:39,948
parce que si nous avons cela,
nous pourrons nous en servir

683
00:40:39,948 --> 00:40:41,985
et impliquer les élèves

684
00:40:41,985 --> 00:40:47,072
et nous pourrons faire savoir aux gens
à quel point c'est fantastique.

685
00:40:47,072 --> 00:40:52,001
Et oui, donc, s'il vous plaît, pensez
à la documentation et à l'éducation.

686
00:40:52,001 --> 00:40:54,480
Parce que je crois qu'on pourrait
faire beaucoup de choses.

687
00:40:54,480 --> 00:40:58,585
Il y a de nombreuses tâches
qui pourraient être effectuées avec...

688
00:41:00,125 --> 00:41:02,033
je ne dirais pas des élèves de primaire

689
00:41:02,033 --> 00:41:05,495
mais certainement
avec des élèves plus jeunes.

690
00:41:05,915 --> 00:41:10,866
Et donc j'aimerais vraiment
que ce potentiel soit mis à contribution

691
00:41:10,866 --> 00:41:15,272
et personnellement,
je ne m'y connais pas assez à ce stade

692
00:41:15,272 --> 00:41:19,500
pour pouvoir créer
des tâches ou créer...

693
00:41:20,430 --> 00:41:22,155
faire quelque chose de pratique avec ça.

694
00:41:22,155 --> 00:41:25,772
Donc, si quelqu'un peut apporter
de l'aide, des idées à ce sujet,

695
00:41:25,772 --> 00:41:29,648
ce serait une joie pour moi
d'entendre vos idées et les vôtres aussi.

696
00:41:30,508 --> 00:41:32,329
D'accord ! Discutons-en.

697
00:41:35,473 --> 00:41:37,139
D'autres questions ?

698
00:41:37,719 --> 00:41:39,195
Quelqu'un d'autre avait levé la main

699
00:41:39,195 --> 00:41:40,625
mais je ne sais plus qui.

700
00:41:45,739 --> 00:41:49,996
(intervenant 11) Donc, si nous ne pouvons
pas importer des contenus de Wiktionary,

701
00:41:49,996 --> 00:41:52,092
y a-t-il des efforts concertés

702
00:41:52,092 --> 00:41:55,772
pour trouver d'autres ressources
dans le domaine public

703
00:41:55,772 --> 00:41:57,459
peut-être des données

704
00:41:58,769 --> 00:42:03,167
que nous pourrions pré-filtrer, organiser

705
00:42:03,167 --> 00:42:08,470
afin de les rendre facilement vérifiables
pour que les gens puissent les importer ?

706
00:42:09,033 --> 00:42:11,291
Alors, il y a
des premiers efforts de faits.

707
00:42:11,291 --> 00:42:14,769
J'ai cru comprendre que le basque
était l'un de ces exemples.

708
00:42:14,769 --> 00:42:17,474
Peut-être voudriez-vous
nous en dire plus à ce sujet ?

709
00:42:18,306 --> 00:42:20,130
(l'intervenant 12 parle hors micro)

710
00:42:23,166 --> 00:42:27,098
OK, la réponse aujourd'hui
c'est de payer pour cela,

711
00:42:28,374 --> 00:42:33,381
je veux dire, nous avons passé un accord
avec un de nos prestataires habituels,

712
00:42:34,801 --> 00:42:38,725
Ils font des dictionnaires...

713
00:42:40,125 --> 00:42:42,508
plein d'autres trucs aussi,
mais ils font des dictionnaires.

714
00:42:42,508 --> 00:42:45,070
Donc, nous nous sommes entendus

715
00:42:45,070 --> 00:42:47,473
pour mettre en libre accès
le dictionnaire des étudiants

716
00:42:47,473 --> 00:42:52,782
qui comprend les mots les plus communs
et nous avons commencé à le téléverser

717
00:42:52,782 --> 00:42:55,590
avec un identifiant externe
et ce genre de choses.

718
00:42:56,230 --> 00:43:02,902
Mais il y a eu quelques discussions
sur le fait de le laisser en CC0

719
00:43:03,212 --> 00:43:05,702
parce que leur dictionnaire
est sous licence Attribution

720
00:43:06,307 --> 00:43:10,326
et ils ont compris sur quoi
reposait la différence.

721
00:43:10,326 --> 00:43:13,866
Donc, cela a donné lieu
à quelques discussions.

722
00:43:13,866 --> 00:43:19,519
Mais je crois que si nous pouvons
fournir des outils ou des exemples,

723
00:43:19,519 --> 00:43:21,761
je pense qu'il y aura à l'avenir
d'autres dictionnaires

724
00:43:21,761 --> 00:43:24,016
que nous pourrons traiter

725
00:43:24,016 --> 00:43:29,274
et je crois que Wiktionary devrait
aussi aller dans ce sens,

726
00:43:29,274 --> 00:43:32,260
mais c'est une autre discussion de taille.

727
00:43:33,285 --> 00:43:34,487
Et de plus,

728
00:43:34,487 --> 00:43:38,839
Lea est aussi en contact
avec des Occitans

729
00:43:38,839 --> 00:43:41,827
qui travaillent
sur des dictionnaires en occitan

730
00:43:41,827 --> 00:43:45,238
et participent en ce moment
à une collaboration autour du sumérien.

731
00:43:51,644 --> 00:43:53,483
D'autres questions ?

732
00:44:01,377 --> 00:44:03,519
(intervenant 13) Bonjour.
Nous sommes justement ceux

733
00:44:03,519 --> 00:44:05,399
qui souhaitent importer
les données en occitan.

734
00:44:05,399 --> 00:44:06,585
Ah, parfait !

735
00:44:06,585 --> 00:44:08,478
(i.13) Et nous rencontrons
un petit problème.

736
00:44:09,188 --> 00:44:14,215
C'est que nous ignorons comment refléter
les variantes de tous les lexèmes.

737
00:44:14,215 --> 00:44:17,893
Nous avons six dialectes

738
00:44:17,893 --> 00:44:24,014
et nous voudrions indiquer
dans quel dialecte le lexème s'utilise,

739
00:44:24,014 --> 00:44:27,285
mais nous n'avons pas
de déclaration C0 pour faire cela

740
00:44:27,285 --> 00:44:31,105
Donc, tant que cette section n'existe pas

741
00:44:31,635 --> 00:44:34,465
cela nous empêche de l'intégrer

742
00:44:34,465 --> 00:44:37,603
parce que nous devrions
tout reprendre

743
00:44:37,603 --> 00:44:42,076
le jour où nous pourrons
exprimer cette déclaration.

744
00:44:42,076 --> 00:44:44,551
Et c'est compliqué
parce que c'est une déclaration

745
00:44:44,551 --> 00:44:47,802
qui aura peu de demandeurs

746
00:44:47,802 --> 00:44:53,444
étant donnée qu'elle concerne
principalement des langues minoritaires.

747
00:44:53,444 --> 00:44:56,933
Donc, il n'y aura
qu'un demandeur pour cela.

748
00:44:56,933 --> 00:45:00,022
Mais comme nos collègues basques

749
00:45:00,022 --> 00:45:02,322
ce sera peut-être une personne

750
00:45:02,322 --> 00:45:06,082
qui ouvrira une possibilité
à des milliers d'autres,

751
00:45:06,082 --> 00:45:10,884
donc ce n'est peut-être pas trop demander,

752
00:45:10,884 --> 00:45:14,136
mais ce sera très important pour nous.

753
00:45:14,874 --> 00:45:17,600
Avez-vous une proposition
de nouvelle propriété déjà prête

754
00:45:17,600 --> 00:45:19,550
ou avez-vous besoin d'aide
pour la créer ?

755
00:45:21,524 --> 00:45:24,356
(intervenant 13) Nous en avons fait
la demande il y a quatre mois.

756
00:45:24,720 --> 00:45:28,755
D'accord, alors voyons qui peut aider
à sortir cette proposition de propriété.

757
00:45:30,159 --> 00:45:33,360
Je suis sûre qu'il y a assez de gens
dans cette salle pour que ça se fasse.

758
00:45:33,360 --> 00:45:35,564
(i.13) Proposition de propriété
« Variété de la forme ».

759
00:45:35,564 --> 00:45:36,965
(l'intervenant 14 parle hors micro)

760
00:45:36,965 --> 00:45:39,699
(i.13) Nous n'avons pas eu de réponse
et nous ne savons pas le faire

761
00:45:39,699 --> 00:45:43,153
parce que nous ne sommes pas
dans la communauté Wikidata.

762
00:45:44,694 --> 00:45:48,817
OK. Il y a des gens ici
qui peuvent vous aider.

763
00:45:48,817 --> 00:45:52,134
Peut-être que vous pouvez lever la main...

764
00:45:52,574 --> 00:45:53,644
(i.15) Je suis d'accord.

765
00:45:53,644 --> 00:45:55,512
Je crois que c'est très intéressant

766
00:45:55,512 --> 00:45:59,059
que la variété de forme

767
00:45:59,059 --> 00:46:02,607
peut aussi être corrélée
d'un point de vue géographique

768
00:46:02,607 --> 00:46:04,995
avec des coordonnées
ou une forme de cartographie.

769
00:46:05,595 --> 00:46:07,815
Et cela vaut aussi
pour les variétés de prononciations

770
00:46:07,815 --> 00:46:11,837
et je crois que c'est quelque chose
qui se produit dans beaucoup de langues.

771
00:46:12,607 --> 00:46:16,262
Nous devrions pouvoir
mettre cela en place.

772
00:46:16,262 --> 00:46:18,865
je vais faire des recherches
pour cette propriété.

773
00:46:19,782 --> 00:46:20,933
Chouette.

774
00:46:20,933 --> 00:46:24,446
Donc vous allez avoir du soutien
pour votre proposition de propriété.

775
00:46:26,136 --> 00:46:27,297
Merci.

776
00:46:28,153 --> 00:46:30,261
Très bien. D'autres questions ?

777
00:46:32,410 --> 00:46:33,474
Finn.

778
00:46:33,974 --> 00:46:35,055
Finn fait partie de ceux

779
00:46:35,055 --> 00:46:38,031
qui construisent des choses
à partir des données lexicographiques.

780
00:46:38,031 --> 00:46:40,085
(Finn) C'est juste une petite question.

781
00:46:40,405 --> 00:46:44,226
et elle concerne les variantes
orthographiques.

782
00:46:44,896 --> 00:46:48,002
Il semble qu'il soit difficile
de les faire apparaître...

783
00:46:48,532 --> 00:46:53,368
Bien sûr, il serait possible d'avoir
de multiples formes pour un même mot.

784
00:46:56,327 --> 00:46:58,448
Je ne sais pas. Ça me semble...

785
00:46:59,558 --> 00:47:03,535
Si on ne le fait pas de cette manière,
il semble difficile de préciser...

786
00:47:04,771 --> 00:47:05,888
je ne sais pas si...

787
00:47:05,888 --> 00:47:09,731
s'il s'agit d'un souci technique mineur
ou si au contraire...

788
00:47:09,731 --> 00:47:11,252
Voyons cela ensemble.

789
00:47:11,642 --> 00:47:15,230
Je serais ravie de voir un exemple.

790
00:47:17,478 --> 00:47:18,478
Asaf.

791
00:47:26,886 --> 00:47:28,396
(Asaf) Merci.

792
00:47:29,386 --> 00:47:33,685
Je peux vous donner un exemple concret
dans ma langue maternelle, l'hébreu.

793
00:47:34,205 --> 00:47:38,845
L'hébreu a deux variantes principales

794
00:47:38,845 --> 00:47:42,786
pour exprimer quasiment chaque mot

795
00:47:42,786 --> 00:47:47,640
parce que l'orthographe traditionnelle

796
00:47:47,640 --> 00:47:50,274
se dispense d'un grand nombre de voyelles.

797
00:47:50,934 --> 00:47:55,207
Et par conséquent, dans les éditions
modernes de la Bible ou des poèmes,

798
00:47:55,207 --> 00:47:57,461
des signes diacritiques sont utilisés.

799
00:47:57,461 --> 00:47:59,200
Cependant, ces signes diacritiques

800
00:47:59,200 --> 00:48:02,670
ne sont jamais utilisés
dans la prose moderne,

801
00:48:02,670 --> 00:48:05,974
dans la presse
ou les panneaux indicateurs.

802
00:48:05,974 --> 00:48:11,209
Donc, l'usage courant ajoute
des voyelles supplémentaires

803
00:48:12,019 --> 00:48:13,679
et n'utilise pas de signes diacritiques

804
00:48:13,679 --> 00:48:15,607
par qu'ils sont évidemment
plus encombrants,

805
00:48:15,607 --> 00:48:18,623
qu'ils sont soumis à toutes sortes
de règles que plus personne ne connaît.

806
00:48:18,633 --> 00:48:20,531
Donc en gros, il y a deux variantes.

807
00:48:20,531 --> 00:48:25,322
Il y a la variante propre à la prose
usuelle de tous les jours

808
00:48:25,322 --> 00:48:27,827
et celle de la Bible ou de la poésie

809
00:48:27,827 --> 00:48:30,136
qui se présente toujours
sous la forme traditionnelle

810
00:48:30,136 --> 00:48:32,200
avec ses signes diacritiques.

811
00:48:32,200 --> 00:48:33,302
Pour être utile,

812
00:48:33,302 --> 00:48:37,428
le lexème devrait reconnaître les deux
variétés pour chaque mot sans exception

813
00:48:37,428 --> 00:48:39,747
et pour chaque forme de chaque mot.

814
00:48:40,677 --> 00:48:43,391
Donc il s'agit là d'un cas
pratique très complet

815
00:48:43,391 --> 00:48:46,340
pour ce qui est des variantes
officielles stables.

816
00:48:46,340 --> 00:48:49,332
Il ne s'agit pas de dialectes,
il ne s'agit pas de variantes régionales,

817
00:48:49,332 --> 00:48:53,627
mais bien de deux systèmes
morphologiques qui coexistent.

818
00:48:54,537 --> 00:48:58,926
Et je ne sais pas bien non plus
comment exprimer cela dans les lexèmes

819
00:48:58,926 --> 00:49:02,800
et en réponse à la question de Magnus,
c'est l'une des choses qui m'empêchent

820
00:49:02,800 --> 00:49:05,238
de téléverser les parties déjà prêtes

821
00:49:05,238 --> 00:49:09,394
du plus grand dictionnaire d'hébreu
qui fait partie du domaine public

822
00:49:09,394 --> 00:49:13,141
et que j'ai entrepris de numériser
depuis maintenant plusieurs années.

823
00:49:13,141 --> 00:49:14,673
Une portion conséquente est déjà prête

824
00:49:14,673 --> 00:49:16,689
mais je ne l'intègre pas au lexème
pour le moment

825
00:49:16,689 --> 00:49:20,245
parce que je ne sais pas exactement
comment résoudre ce problème.

826
00:49:20,245 --> 00:49:23,387
Très bien, trouvons
la solution ici même (petit rire)

827
00:49:24,503 --> 00:49:26,021
Ce doit être possible.

828
00:49:30,045 --> 00:49:32,047
Très bien, d'autres questions ?

829
00:49:37,173 --> 00:49:39,735
Si vous n'avez plus de questions,
merci à tous.

830
00:49:40,605 --> 00:49:42,675
(applaudissements)

831
00:49:45,983 --> 00:49:48,263
WIKI DATA 2019
Wikidata et les langues