WEBVTT
00:00:02.651 --> 00:00:05.000
Wikidata et les langues
00:00:05.000 --> 00:00:06.303
Où en sommes-nous ?
Et après ?
00:00:06.303 --> 00:00:07.362
(Lydia) Merci beaucoup.
00:00:07.362 --> 00:00:11.417
L'un des sujets majeurs
de cette conférence concerne les langues.
00:00:14.220 --> 00:00:18.508
Je voudrais vous donner un aperçu
du point où nous en sommes à ce jour
00:00:18.508 --> 00:00:20.500
en ce qui concerne les langues
00:00:20.500 --> 00:00:22.403
et quelles sont les prochaines étapes.
00:00:28.976 --> 00:00:30.409
Le but de Wikidata est de donner
00:00:30.409 --> 00:00:32.580
plus d'accès à plus de savoir
à davantage de monde
00:00:32.580 --> 00:00:37.220
et la langue est un aspect essentiel
dans la réalisation de cet objectif,
00:00:38.205 --> 00:00:43.291
d'autant plus que nos vies dépendent
de plus en plus de la technologie.
00:00:44.114 --> 00:00:48.873
Et comme le disait notre conférencier
sur Keynote tout à l'heure,
00:00:49.603 --> 00:00:52.440
une partie de cette technologie
reste inaccessible à certains
00:00:52.440 --> 00:00:55.020
du simple fait qu'ils ne parlent pas
telle ou telle langue,
00:00:55.320 --> 00:00:57.573
et ce n'est pas acceptable.
00:00:58.633 --> 00:01:02.097
Donc nous voulons
remédier à cette situation.
00:01:02.927 --> 00:01:05.841
Et afin de changer cela,
il faut au moins deux choses.
00:01:06.411 --> 00:01:11.270
D'abord, on doit fournir des contenus
aux gens dans leur propre langue,
00:01:11.270 --> 00:01:12.955
et la deuxième chose,
00:01:12.955 --> 00:01:15.910
c'est de leur fournir la possibilité
d'interagir dans leur propre langue
00:01:15.910 --> 00:01:19.189
avec des applications
ou quoi que ce soit d'autre.
00:01:20.367 --> 00:01:25.277
Wikidata contribue à satisfaire
ces deux conditions.
00:01:25.277 --> 00:01:28.408
La première d'entre elles,
du contenu dans votre langue,
00:01:28.408 --> 00:01:31.317
c'est globalement ce que nous avons
dans les éléments et les propriétés,
00:01:31.319 --> 00:01:33.082
la façon dont nous décrivons le monde.
00:01:33.082 --> 00:01:35.205
Tout ce dont vous avez besoin
n'y est certainement pas
00:01:35.205 --> 00:01:39.294
mais il y a déjà de quoi bien avancer.
00:01:39.764 --> 00:01:41.847
L'autre point, c'est l'interaction
dans votre langue
00:01:41.847 --> 00:01:46.389
et c'est là que les lexèmes
entrent en jeu :
00:01:46.389 --> 00:01:49.382
si vous voulez parler
à votre assistant personnel numérique
00:01:49.382 --> 00:01:54.918
ou que votre appareil
vous traduise un texte ou autre.
00:01:56.404 --> 00:01:59.254
Très bien, intéressons-nous
aux contenus dans votre langue,
00:01:59.254 --> 00:02:03.676
donc, à ce que nous avons
sous la rubrique Éléments et Propriétés.
00:02:05.406 --> 00:02:10.236
Les libellés sont essentiels
pour ces éléments et propriétés.
00:02:10.236 --> 00:02:14.916
Nous devons savoir comment s'appelle
l'entité dont il est question.
00:02:15.656 --> 00:02:19.987
Et plutôt que de parler de Q5,
00:02:19.987 --> 00:02:22.180
un anglophone saura
qu'il s'agit d'un « humain »,
00:02:22.180 --> 00:02:24.706
un germanophone saura
qu'il s'agit d'un « Mensch »,
00:02:24.706 --> 00:02:26.374
ce genre de choses.
00:02:26.374 --> 00:02:29.872
Donc, les libellés
dans les éléments et les propriétés
00:02:29.872 --> 00:02:33.619
font la liaison entre les humains
et les machines
00:02:33.619 --> 00:02:35.439
mais relient aussi les humains entre eux
00:02:35.439 --> 00:02:40.115
en leur rendant davantage
de savoir accessible.
00:02:41.192 --> 00:02:43.270
À quoi ressemble notre couverture ?
00:02:43.270 --> 00:02:46.290
L'intention est louable.
00:02:46.290 --> 00:02:48.342
Mais voyons ce que cela donne
dans les faits.
00:02:48.342 --> 00:02:49.882
Cela ressemble à ça.
00:02:50.947 --> 00:02:52.416
Ce que vous voyez ici,
00:02:52.416 --> 00:02:58.496
c'est que la plupart des éléments
dans Wikidata ont deux libellés,
00:02:58.496 --> 00:03:00.767
donc des libellés dans deux langues.
00:03:01.697 --> 00:03:03.851
Ensuite on passe à un, puis trois,
00:03:03.851 --> 00:03:06.265
et au-delà, cela devient vraiment navrant.
00:03:06.781 --> 00:03:08.581
(rires légers)
00:03:10.047 --> 00:03:12.813
Je crois que nous devons
faire mieux que ça.
00:03:14.185 --> 00:03:15.319
Mais, d'un autre côté,
00:03:15.319 --> 00:03:17.478
je m'attendais à pire, en fait.
00:03:17.478 --> 00:03:19.810
Je m'attendais à ce que la moyenne
soit d'une seule langue.
00:03:19.810 --> 00:03:22.503
Donc, j'ai été agréablement surprise
de voir que c'était deux.
00:03:23.655 --> 00:03:24.921
Quelles langues couvrons-nous ?
00:03:24.921 --> 00:03:26.186
Très bien.
00:03:27.156 --> 00:03:29.527
Mais au-delà de l'intérêt de savoir
00:03:29.527 --> 00:03:33.742
de combien de libellés disposent
nos éléments et propriétés,
00:03:33.742 --> 00:03:36.705
il est aussi intéressant de voir
quelles sont les langues de ces libellés.
00:03:38.045 --> 00:03:43.764
Voici un graphique présentant les langues
00:03:43.764 --> 00:03:46.838
dans lesquelles nous avons des libellés
pour les éléments.
00:03:46.838 --> 00:03:50.849
La portion la plus grosse ici
correspond à la catégorie Autres.
00:03:51.229 --> 00:03:53.863
Alors, je n'ai détaillé
que les 100 premières langues
00:03:54.533 --> 00:03:59.122
donc tout le reste entre dans la catégorie
Autres pour que le graphique soit lisible.
00:03:59.542 --> 00:04:02.142
Ensuite viennent l'anglais
et le néerlandais,
00:04:03.002 --> 00:04:04.254
le français,
00:04:05.924 --> 00:04:09.129
et n'oublions pas l'asturien.
00:04:09.659 --> 00:04:12.069
- (un auditeur) Waouh !
- (Lydia) Waouh, effectivement !
00:04:13.899 --> 00:04:16.954
Donc ce qui apparaît ici
est un déséquilibre considérable
00:04:16.954 --> 00:04:20.114
avec toujours une nette
prédominance de l'anglais.
00:04:21.236 --> 00:04:24.367
Par ailleurs, si l'on regarde
la même chose pour les propriétés,
00:04:24.367 --> 00:04:26.099
le tableau est déjà mieux.
00:04:27.399 --> 00:04:32.750
Je crois que cela tient en partie au fait
qu'il y a beaucoup moins de propriétés,
00:04:32.750 --> 00:04:36.670
ce qui fait que même des communautés
plus petites peuvent assurer cette partie.
00:04:36.770 --> 00:04:39.173
Mais cela constitue aussi
une partie importante de Wikidata
00:04:39.173 --> 00:04:41.159
de pouvoir les adapter dans votre langue.
00:04:41.159 --> 00:04:42.494
Donc c'est un point positif.
00:04:45.752 --> 00:04:47.962
Ce que je voulais souligner ici
à propos de l'asturien,
00:04:47.962 --> 00:04:53.698
c'est qu'une petite communauté
peut vraiment se démarquer
00:04:54.448 --> 00:04:57.085
par son investissement et son travail,
00:04:57.085 --> 00:04:58.420
et c'est vraiment chouette.
00:05:01.846 --> 00:05:03.530
Une petite devinette pour vous.
00:05:03.530 --> 00:05:05.493
Si vous prenez toutes
les propriétés de Wikidata
00:05:05.493 --> 00:05:07.687
qui n'ont pas d'identifiants externes,
00:05:07.687 --> 00:05:10.778
laquelle compte selon vous le plus grand
nombre de libellés, donc de langues ?
00:05:10.977 --> 00:05:13.847
(réponses inaudibles de l'auditoire)
00:05:13.847 --> 00:05:16.886
Il semble se dégager une majorité
pour « nature de l'élément ».
00:05:17.506 --> 00:05:19.603
Ce serait une mauvaise réponse.
00:05:19.983 --> 00:05:22.210
La réponse est « image ».
00:05:23.230 --> 00:05:26.006
Donc, effectivement,
si vous parlez l'une des langues
00:05:26.006 --> 00:05:28.621
pour lesquelles « nature de l'élément »
n'a pas encore de libellé,
00:05:28.621 --> 00:05:30.190
vous savez ce qu'il vous reste à faire.
00:05:32.102 --> 00:05:35.676
Donc, « image » dispose
de 148 libellés actuellement.
00:05:37.688 --> 00:05:41.249
Mais c'est une autre diapositive.
00:05:42.521 --> 00:05:44.162
Ce graphique nous donne une idée
00:05:44.162 --> 00:05:49.321
du volume de contenu que nous rendons
accessible dans une langue donnée
00:05:49.321 --> 00:05:52.042
et dans quelle proportion ce contenu
est effectivement utilisé.
00:05:52.042 --> 00:05:55.448
Donc en gros, on peut voir
se dessiner une courbe
00:05:55.448 --> 00:05:59.057
où la majorité des contenus
disposant de libellés en anglais,
00:05:59.307 --> 00:06:04.105
étant disponibles en anglais
sont aussi largement utilisés.
00:06:04.295 --> 00:06:06.449
Puis ça a tendance à diminuer.
00:06:06.449 --> 00:06:09.436
Mais à nouveau,
on peut noter des exceptions
00:06:09.436 --> 00:06:15.333
qui ont beaucoup plus de contenus
qu'on aurait pu s'y attendre,
00:06:16.903 --> 00:06:19.539
et c'est une très bonne chose.
00:06:20.839 --> 00:06:24.945
Le problème demeure que ces contenus
ne sont pas très utilisés.
00:06:25.565 --> 00:06:28.742
L'asturien et le néerlandais devraient
être en meilleure position
00:06:28.742 --> 00:06:31.994
et je crois qu'aider ces communautés
00:06:33.266 --> 00:06:35.716
à accroître l'utilisation des données
qu'elles ont rassemblées
00:06:35.716 --> 00:06:37.792
est quelque chose de très utile.
00:06:42.910 --> 00:06:48.110
Ce que cette analyse ainsi que d'autres
nous ont révélé de positif,
00:06:48.300 --> 00:06:51.378
c'est que les éléments les plus utilisés
00:06:51.378 --> 00:06:55.295
ont aussi tendance
à avoir plus de libellés
00:06:55.295 --> 00:06:58.538
à moins que ça ne marche en sens inverse ;
ce n'est pas tout à fait clair.
00:07:02.513 --> 00:07:04.596
Et la question qui se pose alors, c'est :
00:07:04.596 --> 00:07:07.269
Sommes-nous seulement au service
des langues les plus puissantes ?
00:07:07.899 --> 00:07:11.197
Ou sommes-nous
au service de tout le monde ?
00:07:12.757 --> 00:07:17.743
Et ce que vous voyez ici,
ce sont des regroupements de langues.
00:07:17.743 --> 00:07:19.642
Les langues que nous avons
regroupées ensemble
00:07:19.642 --> 00:07:21.987
ont tendance à avoir
des libellés en commun.
00:07:26.042 --> 00:07:28.219
Et vous voyez se former des faisceaux.
00:07:28.599 --> 00:07:34.065
À présent, voici un même type
de regroupement avec différentes couleurs,
00:07:34.065 --> 00:07:39.475
selon que la langue est plus ou moins
vivante, plus ou moins largement utilisée
00:07:40.455 --> 00:07:43.156
ou menacée de disparition.
00:07:43.156 --> 00:07:44.642
Et la bonne chose qui apparaît ici,
00:07:44.642 --> 00:07:49.566
c'est que les langues dominantes
et les langues menacées de disparition
00:07:49.566 --> 00:07:53.773
ne constituent pas
deux groupes différents,
00:07:53.773 --> 00:07:58.872
mais qu'elles sont toutes
mélangées ensemble,
00:08:00.262 --> 00:08:04.625
ce qui est bien plus réjouissant
que si la situation avait été inverse
00:08:04.625 --> 00:08:09.377
et que les langues les plus assurées,
les langues dominantes
00:08:10.197 --> 00:08:12.164
s'étaient mutuellement soutenues.
00:08:12.744 --> 00:08:14.356
Ce n'est pas le cas.
00:08:14.356 --> 00:08:17.417
Et c'est une très bonne chose.
00:08:17.417 --> 00:08:20.042
J'ai trouvé que c'était
un très bon signe quand j'ai vu ça.
00:08:23.474 --> 00:08:25.229
Voici un autre exemple similaire
00:08:26.239 --> 00:08:28.800
où nous avons regardé
00:08:30.230 --> 00:08:34.222
le statut des langues
00:08:34.222 --> 00:08:36.225
et le nombre de libellés
dont elles disposent.
00:08:39.367 --> 00:08:42.937
Ce qui apparaît, c'est que les langues
fortes dominent clairement,
00:08:42.937 --> 00:08:44.438
comme on pouvait s'y attendre.
00:08:45.508 --> 00:08:46.693
Mais ce que l'on voit aussi,
00:08:46.693 --> 00:08:54.407
c'est que les langues des catégories 2,
3 et peut-être même 4
00:08:54.407 --> 00:08:59.280
ne s'en tirent pas si mal en fait,
00:08:59.280 --> 00:09:02.367
au niveau de leur représentation
sur Wikidata,
00:09:03.287 --> 00:09:06.408
ce qui est vraiment
un résultat réjouissant.
00:09:07.556 --> 00:09:09.129
Maintenant, si on regarde
la même chose
00:09:09.129 --> 00:09:12.418
sous l'angle de la proportion
de contenu de ces libellés
00:09:12.418 --> 00:09:15.495
qui est effectivement utilisée
dans Wikipédia, par exemple,
00:09:17.455 --> 00:09:22.563
on voit à nouveau se dessiner
la même tendance.
00:09:23.603 --> 00:09:29.813
Et cela nous révèle que ces communautés
font vraiment bon usage de leur temps
00:09:29.813 --> 00:09:34.504
en créant des libellés pour les éléments
les plus utilisés, par exemple.
00:09:36.410 --> 00:09:40.493
Il y a des exceptions
que nous devons pouvoir soutenir
00:09:41.683 --> 00:09:48.202
en aidant ces communautés à mieux
valoriser leur investissement.
00:09:49.312 --> 00:09:52.663
Mais de façon générale,
cette image me paraît réjouissante.
00:09:54.823 --> 00:09:59.844
Voilà pour ce qui était de la partie
éléments et propriétés de Wikidata.
00:10:00.714 --> 00:10:03.033
Regardons à présent les interactions
dans vos langues.
00:10:03.033 --> 00:10:05.203
Donc le volet lexème de Wikidata,
00:10:05.203 --> 00:10:09.394
où il s'agit de décrire les mots,
leur forme et leur signification.
00:10:10.167 --> 00:10:13.301
C'est un travail que nous avons
démarré en mai de l'année dernière
00:10:16.461 --> 00:10:19.127
et le contenu
n'a cessé de se développer.
00:10:20.114 --> 00:10:22.149
Ici, on voit les lexèmes en bleu,
00:10:22.149 --> 00:10:25.938
en rouge, les formes de ces lexèmes
00:10:25.938 --> 00:10:29.910
et en jaune, les significations
de ces lexèmes.
00:10:30.991 --> 00:10:34.451
Donc certaines communautés,
nous y reviendrons plus tard,
00:10:34.451 --> 00:10:38.523
ont consacré beaucoup de temps
à créer des formes et des significations
00:10:38.523 --> 00:10:42.753
pour leurs lexèmes, ce qui est très utile
00:10:42.753 --> 00:10:48.243
car cela constitue l'essence
des données dont vous avez besoin.
00:10:50.562 --> 00:10:55.133
Maintenant, nous avons regardé
toutes les langues
00:10:55.133 --> 00:10:57.906
qui ont des lexèmes sur Wikidata,
00:10:57.906 --> 00:11:01.003
donc les mots que nous avons.
00:11:01.603 --> 00:11:04.524
Ces derniers sont
actuellement en 310 langues.
00:11:04.884 --> 00:11:08.290
Maintenant, quelle est,
à votre avis, la première langue
00:11:08.290 --> 00:11:11.949
en termes de nombre de lexèmes
actuellement sur Wikidata ?
00:11:11.949 --> 00:11:14.677
(réponses fusant de l'auditoire)
Le suédois, le russe,
00:11:14.677 --> 00:11:16.350
l'asturien, l'allemand
00:11:16.350 --> 00:11:20.216
- (un intervenant parle hors micro)
- Hein ?
00:11:20.216 --> 00:11:21.741
(un autre intervenant) L'allemand.
00:11:21.741 --> 00:11:24.252
Désolée, la bonne réponse a été donnée.
00:11:24.252 --> 00:11:25.651
C'est le russe.
00:11:28.011 --> 00:11:29.924
Le russe est loin devant.
00:11:31.897 --> 00:11:33.832
Et pour vous donner une perspective,
00:11:35.412 --> 00:11:36.816
les opinions divergent à ce sujet,
00:11:36.816 --> 00:11:42.231
mais j'ai lu, par exemple,
que connaître 1 000 à 3 000 mots
00:11:42.231 --> 00:11:45.450
vous permet d'accéder au niveau
courant dans une autre langue.
00:11:45.450 --> 00:11:49.721
et qu'en connaître 4 000 à 10 000
vous situe à un niveau avancé.
00:11:51.591 --> 00:11:55.372
Donc nous avons encore
du chemin à faire pour en arriver là.
00:11:58.483 --> 00:12:03.279
J'aimerais attirer votre attention
sur la langue basque
00:12:03.279 --> 00:12:07.744
qui a environ 10 000 lexèmes.
00:12:09.244 --> 00:12:13.003
Or, si vous regardez le nombre
de formes pour ces lexèmes,
00:12:14.163 --> 00:12:16.497
le basque est très bien placé,
00:12:18.257 --> 00:12:20.006
ce qui est vraiment bien
00:12:20.006 --> 00:12:22.434
et il serait intéressant
d'assister à l'exposé
00:12:22.434 --> 00:12:25.315
qui vous expliquera cet état de fait.
00:12:27.341 --> 00:12:31.175
Maintenant, si on regarde le nombre
de sens, ce que les mots signifient,
00:12:32.015 --> 00:12:35.081
le basque arrive en tête de la liste.
00:12:35.081 --> 00:12:37.102
Il me semble que cela mérite
nos applaudissements.
00:12:37.102 --> 00:12:38.921
(applaudissements)
00:12:45.678 --> 00:12:47.118
Une autre devinette.
00:12:47.118 --> 00:12:50.511
Quel est le lexème le plus traduit
à l'heure actuelle, selon vous ?
00:12:50.511 --> 00:12:54.304
(public) Les chats, les chats,
Douglas Adams
00:12:54.304 --> 00:12:55.914
(rires)
00:12:56.766 --> 00:13:00.014
Ce sont toutes de bonnes idées, mais non.
00:13:01.012 --> 00:13:04.137
Voici la bonne réponse :
c'est le mot russe qui désigne l'eau.
00:13:09.301 --> 00:13:12.253
Très bien, nous avons beaucoup parlé
00:13:12.253 --> 00:13:16.412
du nombre de formes et de sens
des lexèmes que nous avons,
00:13:16.412 --> 00:13:20.453
mais ce n'est qu'une partie
de ce dont vous avez besoin.
00:13:20.453 --> 00:13:21.872
L'autre chose dont vous avez besoin
00:13:21.872 --> 00:13:25.161
c'est une description
des formes et des sens de ces lexèmes,
00:13:25.161 --> 00:13:27.647
dans un format qui soit lisible
par des machines.
00:13:27.647 --> 00:13:30.679
Et pour cela, vous avez des déclarations,
comme dans les éléments.
00:13:31.479 --> 00:13:36.362
Et l'une des propriétés utilisées ici
est l'exemple d'utilisation.
00:13:36.362 --> 00:13:38.582
De sorte que quiconque utilisera
cette donnée
00:13:38.582 --> 00:13:42.089
pourra comprendre comment
utiliser ce mot dans un contexte,
00:13:42.089 --> 00:13:44.648
il peut s'agir
d'une citation, par exemple.
00:13:45.396 --> 00:13:47.343
Et dans ce domaine, le polonais assure !
00:13:47.820 --> 00:13:50.109
Bien joué, à vous qui parlez polonais.
00:13:54.219 --> 00:13:57.680
Une autre propriété qui est
vraiment utile, c'est l'API,
00:13:57.680 --> 00:14:00.186
donc la manière de prononcer le mot.
00:14:00.876 --> 00:14:07.577
Il semble que le russe exige
de nombreuses déclarations API.
00:14:10.419 --> 00:14:13.314
Mais revoici le polonais
en deuxième position.
00:14:17.148 --> 00:14:20.753
Et enfin, nous avons
la prononciation audio.
00:14:20.753 --> 00:14:23.472
Il s'agit là de liens vers des fichiers
hébergés sur les Commons
00:14:23.472 --> 00:14:25.959
où un individu prononce le mot,
00:14:25.959 --> 00:14:28.500
ce qui vous permet d'entendre
le mot prononcé par quelqu'un
00:14:28.500 --> 00:14:29.913
dont c'est la langue natale,
00:14:29.913 --> 00:14:32.871
pour le cas où vous ne sauriez pas
déchiffrer l'API, par exemple.
00:14:34.959 --> 00:14:39.205
Et il existe un projet vraiment sympa
sous l'impulsion de Wiki
00:14:39.205 --> 00:14:40.884
qui s'appelle « Lingua Libre »
00:14:40.884 --> 00:14:45.173
auquel vous pouvez contribuer
en enregistrant des mots dans votre langue
00:14:45.173 --> 00:14:47.966
qui pourront ensuite être ajoutés
aux lexèmes sur Wikidata
00:14:48.446 --> 00:14:52.103
afin que d'autres puissent
apprendre à prononcer vos mots.
00:14:53.663 --> 00:14:55.694
(propos inaudibles d'un intervenant)
00:14:55.694 --> 00:14:57.665
Si vous recherchez « Lingua Libre »
00:14:57.665 --> 00:15:00.981
et je suis sûre que quelqu'un
pourra poster le lien sur Telegram.
00:15:03.138 --> 00:15:04.621
Ces gars-là sont super.
00:15:04.621 --> 00:15:06.726
Ils ont fait un travail formidable
avec Wikibase.
00:15:09.416 --> 00:15:10.617
Très bien.
00:15:12.706 --> 00:15:17.285
La question qui se pose à présent est :
quelles sont les prochaines étapes ?
00:15:19.165 --> 00:15:22.010
Si l'on en croit les chiffres
que je viens de vous montrer,
00:15:23.030 --> 00:15:25.172
nous avons bien avancé
00:15:25.172 --> 00:15:28.430
vers notre objectif de donner plus d'accès
à plus de savoir à davantage de gens
00:15:28.430 --> 00:15:31.240
dans le domaine des langues sur Wikidata.
00:15:32.530 --> 00:15:36.392
Mais nous avons encore beaucoup
de travail à accomplir.
00:15:38.992 --> 00:15:42.341
Une des choses que vous pouvez faire
pour contribuer au projet,
00:15:42.341 --> 00:15:44.921
c'est par exemple de lancer
une opération « libelléthon »,
00:15:44.921 --> 00:15:50.124
consistant à inciter des gens
à créer des libellés sur Wikidata
00:15:50.914 --> 00:15:55.121
ou une campagne de révision
des lexèmes dans votre langue
00:15:55.121 --> 00:15:57.372
pour assurer la présence sur Wikidata
00:15:57.372 --> 00:15:59.792
des mots les plus usités
dans votre langue.
00:16:00.773 --> 00:16:03.285
Vous pouvez aussi utiliser
un outil comme Terminator
00:16:03.285 --> 00:16:07.211
qui vous aide à identifier
les éléments les plus importants
00:16:07.211 --> 00:16:11.699
mais ne disposant pas encore
d'un libellé dans votre langue.
00:16:13.274 --> 00:16:18.359
Nous qualifions ici de « plus importants »
les éléments les plus fréquemment utilisés
00:16:18.359 --> 00:16:22.553
dans d'autres éléments Wikidata
en tant que liens dans les déclarations.
00:16:25.768 --> 00:16:30.022
Et bien entendu, pour la partie lexèmes,
00:16:31.342 --> 00:16:35.169
à présent que nous avons couvert
l'essentiel des lexèmes,
00:16:35.169 --> 00:16:41.163
il s'agit de les élaborer
en y ajoutant des déclarations
00:16:41.163 --> 00:16:44.401
afin qu'ils puissent réellement
construire les bases
00:16:44.401 --> 00:16:47.421
sur lesquelles des applications
significatives pourront se développer.
00:16:48.141 --> 00:16:50.795
Parce que nous nous rapprochons
de la masse critique
00:16:50.795 --> 00:16:53.616
mais nous sommes encore loin
00:16:53.616 --> 00:16:56.624
de la situation permettant de bâtir
de sérieuses applications sur ces bases.
00:16:58.277 --> 00:17:01.680
Et j'espère que vous allez tous
joindre vos efforts pour atteindre ce but.
00:17:02.583 --> 00:17:07.103
Ce qui m'amène tout droit
00:17:07.103 --> 00:17:09.843
à solliciter les amis qui nous soutiennent
00:17:09.843 --> 00:17:12.812
et Bruno, veux-tu bien me rejoindre
00:17:13.882 --> 00:17:16.854
pour nous parler des masques lexicaux ?
00:17:17.541 --> 00:17:18.567
(Bruno) Merci, Lydia.
00:17:18.567 --> 00:17:21.519
Merci de m'accorder un petit moment
00:17:21.519 --> 00:17:24.150
pour présenter ce travail
que nous effectuons à Google
00:17:24.150 --> 00:17:29.635
avec Denny et dont la plupart d'entre vous
ont probablement entendu parler.
00:17:30.136 --> 00:17:31.878
Parce que je suis linguiste
chez Google,
00:17:31.878 --> 00:17:33.760
et je suis aussi très heureux
de me trouver ici
00:17:33.760 --> 00:17:36.620
en compagnie d'autres
passionnés des langues,
00:17:36.620 --> 00:17:39.278
et chez Google, nous construisons
aussi des lexiques
00:17:39.278 --> 00:17:41.766
et nous avons développé cette technologie
00:17:41.766 --> 00:17:45.589
ou cette approche dont nous pensons
qu'elle peut vous être utile.
00:17:46.369 --> 00:17:48.455
Pour vous expliquer un peu le contexte,
00:17:48.455 --> 00:17:52.068
vous pouvez voir ici mes références
en matière de lexicographie.
00:17:52.668 --> 00:17:54.667
Pour créer une base
de données lexicographiques,
00:17:54.667 --> 00:17:58.623
nous consacrons beaucoup de temps
et d'efforts à maintenir une cohérence
00:17:58.623 --> 00:18:00.125
et à échanger des données,
00:18:00.125 --> 00:18:02.027
comme vous le savez probablement.
00:18:02.417 --> 00:18:03.809
Il existe plusieurs tentatives
00:18:03.809 --> 00:18:06.081
visant à unifier les caractéristiques
et les propriétés
00:18:06.081 --> 00:18:09.184
qui décrivent ces lexèmes et ces formes
00:18:09.184 --> 00:18:10.936
et la question n'est pas encore réglée
00:18:10.936 --> 00:18:13.958
mais des tentatives sont en cours
pour aller dans le sens d'une unification.
00:18:13.958 --> 00:18:15.209
Mais ce qui manque réellement,
00:18:15.209 --> 00:18:17.312
et c'est un problème auquel
nous avons été confrontés
00:18:17.312 --> 00:18:18.732
chez Google au début du projet,
00:18:18.732 --> 00:18:21.757
c'est de tenter de construire
une structure interne
00:18:22.197 --> 00:18:25.910
décrivant à quoi devrait ressembler
une entrée lexicale,
00:18:25.910 --> 00:18:28.581
le type de données ou d'informations
dont nous disposons
00:18:28.581 --> 00:18:32.237
et le degré de spécification attendu.
00:18:32.237 --> 00:18:38.187
Et voici ce à quoi nous avons abouti
et qui s'appelle le « masque lexical ».
00:18:38.897 --> 00:18:43.639
Un masque lexical décrit
les données attendues
00:18:43.639 --> 00:18:47.369
pour qu'une entrée lexicographique
puisse être considérée comme complète
00:18:47.369 --> 00:18:51.436
à la fois quant au nombre de formes
qu'un lexème devrait avoir
00:18:51.436 --> 00:18:55.607
et quant au nombre de caractéristiques
attendues pour chacune de ces formes.
00:18:56.307 --> 00:18:58.409
Voici un exemple portant
sur les adjectifs italiens.
00:18:58.409 --> 00:19:02.002
En italien, on devrait trouver
quatre formes pour les adjectifs
00:19:02.002 --> 00:19:05.383
et chacune de ces formes
reflète une combinaison spécifique
00:19:05.383 --> 00:19:07.946
de caractéristiques de genre et de nombre.
00:19:08.606 --> 00:19:12.672
C'est ce qui est attendu
en matière d'adjectifs italiens.
00:19:12.672 --> 00:19:16.176
Bien sûr, on peut avoir des masques
extrêmement complexes,
00:19:16.176 --> 00:19:20.783
comme pour les conjugaisons françaises
qui sont très fournies
00:19:20.783 --> 00:19:23.487
et je ne vous présente pas
un masque russe quel qu'il soit,
00:19:23.487 --> 00:19:25.378
parce qu'il déborderait de l'écran.
00:19:26.308 --> 00:19:29.531
Et nous avons aussi
des spécifications détaillées
00:19:29.531 --> 00:19:33.421
parce que nous distinguons
ce qui se situe au niveau de la forme.
00:19:33.421 --> 00:19:37.544
Donc ici vous voyez les noms russes
qui comportent trois nombres
00:19:37.544 --> 00:19:40.048
ainsi qu'un nombre de cas
avec différentes formes
00:19:40.048 --> 00:19:43.086
mais ils ont également
une spécification au niveau de l'entrée
00:19:43.086 --> 00:19:45.590
qui indique qu'un nom
00:19:45.590 --> 00:19:47.073
a un genre inhérent
00:19:47.073 --> 00:19:50.133
ainsi qu'une caractéristique
d'animéité inhérente
00:19:50.133 --> 00:19:52.688
qui est également précisée dans le masque.
00:19:54.518 --> 00:19:58.779
Nous voulons aussi préciser
qu'un masque indique une spécification
00:19:58.779 --> 00:20:01.874
de ce à quoi devrait ressembler
une entrée, de manière générale.
00:20:01.874 --> 00:20:07.158
Mais vous pouvez avoir des masques
plus petits en cas de formes réduites
00:20:07.158 --> 00:20:11.282
ou d'aspects limités de l'utilisation
du lexème dans la langue.
00:20:11.282 --> 00:20:14.537
Voici par exemple la version
la plus simple de verbes en français
00:20:14.537 --> 00:20:17.584
qui ne se conjuguent qu'à la troisième
personne du singulier,
00:20:17.584 --> 00:20:19.930
les verbes désignant
les phénomènes météorologiques
00:20:19.930 --> 00:20:23.969
comme « il pleut » ou « il neige »,
comme c'est aussi le cas en anglais.
00:20:24.537 --> 00:20:26.923
Donc, nous faisons la distinction
entre ces deux niveaux.
00:20:26.923 --> 00:20:29.962
Et la façon dont nous utilisons
cela chez Google,
00:20:29.962 --> 00:20:32.643
quand nous avons un lexique
que nous voulons utiliser,
00:20:33.063 --> 00:20:38.219
nous utilisons le masque
pour carrément y déverser le lexique
00:20:38.219 --> 00:20:40.283
et toutes ses entrées,
qui vont traverser le masque
00:20:40.283 --> 00:20:44.303
et nous voyons quelles entrées posent
un problème en termes de structure.
00:20:44.303 --> 00:20:46.673
Manque-t-il une forme ?
Manque-t-il une caractéristique ?
00:20:46.673 --> 00:20:48.563
Et quand un problème se présente,
00:20:48.563 --> 00:20:51.497
nous avons recours
à une validation humaine
00:20:51.497 --> 00:20:53.751
pour vérifier si l'entrée passe
l'épreuve du masque.
00:20:53.751 --> 00:20:57.924
C'est donc un outil extrêmement puissant
pour vérifier la qualité de la structure.
00:20:59.427 --> 00:21:01.964
Et nous sommes heureux
de vous annoncer aujourd'hui
00:21:01.964 --> 00:21:05.408
que nous avons eu le feu vert
pour ouvrir notre masque à l'open source.
00:21:05.948 --> 00:21:07.469
Donc voici le schéma.
00:21:07.469 --> 00:21:09.697
Si vous le voulez, nous pouvons
le mettre à disposition
00:21:09.697 --> 00:21:13.483
et le fournir à Wikidata
sous forme de fichiers Shex.
00:21:13.483 --> 00:21:16.688
Voici un fichier Shex
pour les noms allemands
00:21:16.688 --> 00:21:20.428
et Denny travaille à le convertir
pour passer de nos spécifications internes
00:21:20.428 --> 00:21:23.666
à une spécification
plus appropriée à l'open source
00:21:23.666 --> 00:21:27.522
Nous couvrons actuellement
plus de 25 langues.
00:21:27.522 --> 00:21:29.495
Nous espérons développer
cette offre de notre côté
00:21:29.495 --> 00:21:34.350
mais nous y voyons aussi une opportunité
de collaboration pour ajouter des langues.
00:21:34.350 --> 00:21:40.728
Et l'une de ces collaborations est celle
que Denny entretient avec Lukas.
00:21:40.728 --> 00:21:45.052
Lukas dispose d'outils fantastiques
permettant une interface utilisateur
00:21:45.052 --> 00:21:48.525
pour permettre à l'utilisateur
ou au contributeur
00:21:48.525 --> 00:21:51.061
d'ajouter davantage de formes.
00:21:51.061 --> 00:21:54.151
Donc si vous voulez ajouter
un adjectif en français,
00:21:54.151 --> 00:21:59.057
l'IU vous indiquera le nombre
de formes à fournir
00:21:59.057 --> 00:22:01.562
et les caractéristiques
que ces formes devraient avoir.
00:22:01.562 --> 00:22:06.268
Ainsi notre masque permettra à cet outil
de s'affiner et de se développer.
00:22:07.238 --> 00:22:08.385
Et voilà.
00:22:08.791 --> 00:22:10.358
(Lydia) Merci infiniment.
00:22:10.358 --> 00:22:11.993
(applaudissements)
00:22:14.249 --> 00:22:16.891
(Lydia) Très bien.
Avez-vous des questions ?
00:22:16.891 --> 00:22:19.381
Souhaitez-vous que nous parlions
davantage des lexèmes ?
00:22:19.774 --> 00:22:21.885
- (intervenant 1) Oui.
- (Lydia) Oui. (petit rire)
00:22:33.485 --> 00:22:35.380
- (intervenant 1) Vous parliez
00:22:35.380 --> 00:22:39.106
de donner plus d'accès
à plus de gens dans plus de langues,
00:22:39.106 --> 00:22:42.444
mais beaucoup de langues ne peuvent pas
être utilisées dans Wikidata.
00:22:42.444 --> 00:22:44.838
Quelle solution avez-vous
pour résoudre cela ?
NOTE Paragraph
00:22:45.079 --> 00:22:47.686
Quand vous dites qu'elles
ne peuvent pas utiliser Wikidata,
00:22:47.686 --> 00:22:50.208
est-ce que vous parlez
d'intégrer des libellés ?
00:22:50.208 --> 00:22:52.581
- (i.1) Des libellés, des descriptions.
- D'accord.
00:22:52.581 --> 00:22:55.498
Donc, en ce qui concerne
les lexèmes, c'est un peu différent,
00:22:55.498 --> 00:22:58.003
parce que cette restriction
ne s'applique pas ici.
00:22:58.923 --> 00:23:05.003
Pour les libellés des éléments
et propriétés, des restrictions existent
00:23:05.433 --> 00:23:10.551
parce que nous voulions nous assurer
00:23:10.551 --> 00:23:14.229
que n'importe qui ne puisse pas
faire n'importe quoi
00:23:14.229 --> 00:23:17.769
et que cela devienne ingérable.
00:23:19.349 --> 00:23:23.328
Si une communauté, même petite,
veut ajouter une langue et y travailler,
00:23:23.898 --> 00:23:26.787
venez en discuter avec nous
et nous pourrons rendre cela possible.
00:23:26.787 --> 00:23:29.470
(i.1) Nous l'avons fait à l'occasion
du Hackathon de Prague en mai
00:23:29.470 --> 00:23:32.576
et il nous a fallu attendre le mois d'août
pour pouvoir utiliser notre langue.
00:23:32.576 --> 00:23:35.135
- Oui.
- (i.1) Donc, c'est très lent.
00:23:35.135 --> 00:23:37.854
Oui, c'est malheureusement très lent.
00:23:37.854 --> 00:23:40.093
Nous travaillons actuellement
avec le Comité des langues
00:23:40.093 --> 00:23:46.048
à la résolution
de certains points fondamentaux...
00:23:49.537 --> 00:23:55.447
Comme par exemple parvenir à un accord
sur les langues qui sont « autorisées »
00:23:56.047 --> 00:23:59.468
et cela nous a pris trop de temps,
00:23:59.988 --> 00:24:02.258
ce qui explique pourquoi votre demande
00:24:02.258 --> 00:24:04.868
a probablement mis plus de temps
à aboutir qu'elle ne l'aurait dû.
00:24:04.868 --> 00:24:05.963
(i.1) Merci.
00:24:06.705 --> 00:24:07.800
(intervenant 2) Merci.
00:24:07.800 --> 00:24:10.938
Lydia, vous vous souvenez des statistiques
que vous nous avez montrées,
00:24:10.938 --> 00:24:12.886
sur le nombre de lexèmes par langue ?
00:24:12.886 --> 00:24:17.599
Avez-vous pris chaque forme
comme unité de calcul
00:24:17.599 --> 00:24:20.034
ou seulement les lexèmes ?
00:24:21.159 --> 00:24:22.941
Vous faites référence à ceci ?
00:24:22.941 --> 00:24:25.797
- De quelle diapo parlez-vous ?
- (i.2) Oui, c'est exactement cela.
00:24:25.797 --> 00:24:28.341
Si vous vous rappelez,
ce nombre représente-t-il
00:24:28.341 --> 00:24:31.954
toutes les formes de tous les lexèmes
où seulement les lexèmes existants ?
00:24:31.954 --> 00:24:35.395
- Non, ce sont seulement des lexèmes.
- (i.2) Uniquement les lexèmes, d'accord.
00:24:35.395 --> 00:24:36.897
Alors la statistique est correcte.
00:24:36.897 --> 00:24:39.390
Parce que si vous aviez pris
les formes en compte,
00:24:39.390 --> 00:24:40.748
et c'est la raison de ma question,
00:24:40.748 --> 00:24:43.074
alors toutes les langues ayant
une morphologie flexionnelle
00:24:43.074 --> 00:24:45.027
comme le russe, le serbe, le slovène, etc.
00:24:45.027 --> 00:24:47.616
seraient naturellement avantagées
tant elles ont de formes.
00:24:47.616 --> 00:24:51.990
C'est ici que c'est manifeste,
sur le nombre de formes.
00:24:51.990 --> 00:24:54.141
(intervenant 2) Oui,
c'était bien celle-ci. Merci.
00:24:56.546 --> 00:25:00.224
(intervenant 3) Une petite question
concernant...
00:25:00.644 --> 00:25:06.824
Quand nous parlons des éléments
et propriétés à proprement parler,
00:25:07.124 --> 00:25:08.901
Pour autant que je sache,
00:25:08.901 --> 00:25:11.955
il n'y a à l'heure actuelle aucun moyen
d'identifier une source
00:25:11.955 --> 00:25:14.726
pour n'importe lequel des libellés
et descriptions qui sont fournis.
00:25:14.726 --> 00:25:18.047
Donc, par exemple,
quand vous parlez
00:25:18.047 --> 00:25:20.920
d'une propriété d'un élément,
00:25:20.920 --> 00:25:24.509
vous pouvez être confronté
à des libellés contradictoires.
00:25:24.509 --> 00:25:25.739
Oui.
00:25:25.739 --> 00:25:27.862
(i.3) Donc, disons
que telle personne est...
00:25:28.302 --> 00:25:30.920
Nous parlions tout à l'heure
des questions indigènes, par exemple.
00:25:30.920 --> 00:25:35.965
Donc telle personne est un artiste
norvégien selon telle source
00:25:35.965 --> 00:25:38.750
et un artiste sami
selon telle autre source.
00:25:39.550 --> 00:25:42.883
Ou par exemple, la question
s'est posée pour l'estonien
00:25:42.883 --> 00:25:47.729
et nous avons dû revoir la terminologie
en fonction de la terminologie officielle
00:25:47.729 --> 00:25:49.667
telle qu'elle figure
dans les lexiques officiels,
00:25:49.667 --> 00:25:52.262
mais nous n'avons aucun moyen
d'indiquer quelle en est la raison,
00:25:52.262 --> 00:25:54.426
quelle en est la source
et pourquoi c'est plus juste
00:25:54.426 --> 00:25:55.658
que ce qu'il y avait avant.
00:25:55.658 --> 00:25:57.150
C'est un simple quidam comme moi
00:25:57.150 --> 00:25:59.615
qui a remplacé la donnée
pour qui la verra.
00:25:59.615 --> 00:26:02.520
Donc est-il prévu de rendre cela possible
d'une manière ou d'une autre
00:26:02.520 --> 00:26:06.605
afin que nous puissions avoir de vraies
sources pour les données linguistiques ?
00:26:07.045 --> 00:26:11.568
Alors, c'est en partie possible.
00:26:11.568 --> 00:26:16.088
Donc, par exemple, quand vous avez
un élément portant sur une personne,
00:26:16.898 --> 00:26:22.720
vous avez dans les déclarations :
prénom, nom, etc., de cette personne
00:26:22.720 --> 00:26:26.406
et vous pouvez fournir la référence
correspondante à ce niveau-là.
00:26:28.101 --> 00:26:32.544
J'ai beaucoup de réserves
quant à rendre les choses plus complexes
00:26:32.544 --> 00:26:35.557
avec des références
sur les libellés et les descriptions,
00:26:35.557 --> 00:26:38.624
mais si les gens pensent vraiment
00:26:38.624 --> 00:26:44.939
que c'est quelque chose qui n'est couvert
par aucune référence sur la déclaration,
00:26:44.939 --> 00:26:46.803
alors parlons-en.
00:26:49.079 --> 00:26:53.303
Mais je crains que cela n'entraîne
beaucoup de complexité
00:26:53.303 --> 00:26:56.523
pour des occurrences dont j'espère
qu'elles sont peu nombreuses,
00:26:57.393 --> 00:27:00.188
mais je veux bien être
convaincue du contraire,
00:27:00.188 --> 00:27:04.087
si les gens y tiennent beaucoup.
00:27:04.087 --> 00:27:08.177
(i.3) Je veux dire, si c'est ajouté
ce ne devrait pas être impératif
00:27:08.177 --> 00:27:12.452
et apparaître à tous les utilisateurs
débutant dans l'interface en tout cas.
00:27:12.452 --> 00:27:13.580
Plutôt quelque chose comme :
00:27:13.580 --> 00:27:16.761
« Cliquez ici si vous avez
des commentaires à faire à ce sujet ».
00:27:17.632 --> 00:27:23.368
A-t-on une idée du nombre
de cas où cela aurait de l'importance ?
00:27:24.520 --> 00:27:26.423
(i.3) En estonien, par exemple,
00:27:26.423 --> 00:27:29.164
et je suppose que c'est aussi le cas
dans d'autres langues,
00:27:29.164 --> 00:27:34.203
il existe un mot officiel,
qui est la traduction légitime
00:27:34.203 --> 00:27:36.206
par exemple, en anglais,
00:27:36.206 --> 00:27:40.314
disons d'un type particulier
de municipalité.
00:27:40.314 --> 00:27:41.746
C'était mon cas pratique,
00:27:41.746 --> 00:27:44.409
par exemple, où nous utilisions
le mot « paroisse »
00:27:45.159 --> 00:27:50.775
où effectivement le mot estonien original
avait le sens de paroisse d'église
00:27:50.775 --> 00:27:51.999
et c'était là l'origine du mot
00:27:51.999 --> 00:27:53.699
mais ce n'est plus
la traduction officielle
00:27:53.699 --> 00:27:55.189
qu'en donne l'Estonie aujourd'hui.
00:27:55.189 --> 00:27:57.531
Dans ce cas, je l'ajouterais
dans les déclarations
00:27:57.531 --> 00:28:00.817
en tant que nom officiel
et c'est là que j'ajouterais la référence.
00:28:02.032 --> 00:28:03.158
(intervenant 3) D'accord.
00:28:05.186 --> 00:28:06.952
D'autres questions, oui ?
00:28:07.682 --> 00:28:10.044
(intervenant 4) J'aimerais faire
deux courtes remarques.
00:28:10.044 --> 00:28:13.934
Vous avez mis l'asturien en avant
comme une langue réussissant bien
00:28:13.934 --> 00:28:16.455
et je pense qu'il s'agit
d'un effet artificiel.
00:28:16.455 --> 00:28:17.724
Dites-m'en plus.
00:28:17.724 --> 00:28:19.748
(intervenant 4) Je pense
que c'est juste un robot
00:28:19.748 --> 00:28:21.854
- (i.4) qui a collé...
- Oh non !
00:28:21.854 --> 00:28:24.068
(i.4) des noms de personnes,
des noms propres
00:28:24.068 --> 00:28:27.172
et a dit : « C'est exactement
comme en français ou en espagnol »,
00:28:27.172 --> 00:28:28.558
et a tout copié en bloc.
00:28:28.558 --> 00:28:33.316
Ce qui tend à prouver ça, c'est qu'on ne
retrouve pas cette énergie en asturien
00:28:33.316 --> 00:28:35.785
pour les choses qui exigent
réellement un effort de traduction
00:28:35.785 --> 00:28:37.336
comme les noms de propriétés
00:28:37.336 --> 00:28:39.648
ou les noms des éléments
qui ne sont pas des noms propres.
00:28:39.648 --> 00:28:41.219
Asaf, vous me brisez le cœur.
00:28:41.219 --> 00:28:43.198
(i.4) Je sais.
J'aime bien gâcher la fête,
00:28:43.198 --> 00:28:48.558
mais j'ai aussi de bonnes nouvelles
au sujet des scores en prononciation.
00:28:49.408 --> 00:28:50.765
Comme vous le savez probablement,
00:28:50.765 --> 00:28:53.515
les Commons sont pleins
de fichiers de prononciation
00:28:53.515 --> 00:28:54.668
et par exemple
00:28:54.668 --> 00:28:59.464
le néerlandais compte pas moins
de 300 000 fichiers de prononciation
00:28:59.464 --> 00:29:01.912
qui sont déjà dans les Commons
00:29:01.912 --> 00:29:05.051
et qui ne demandent qu'à être ingérés.
00:29:05.051 --> 00:29:07.697
Donc si quelqu'un est en recherche
d'un projet connexe,
00:29:07.697 --> 00:29:09.118
il existe des tonnes et des tonnes
00:29:09.118 --> 00:29:13.280
de fichiers de prononciation, classés
et catégorisés dans les Commons
00:29:13.280 --> 00:29:16.893
sous la catégorie
« Prononciation » par langue.
00:29:16.893 --> 00:29:22.840
Il n'y a plus qu'à les faire correspondre
aux lexèmes et les intégrer dans Lexèmes.
00:29:23.000 --> 00:29:25.484
Et d'autre part, je me demandais
si vous pourriez parler un peu
00:29:25.484 --> 00:29:26.585
de la feuille de route,
00:29:26.585 --> 00:29:28.757
nous dire un peu
quel degré d'investissement
00:29:28.757 --> 00:29:31.995
ou ce que nous pouvons attendre
de Lexème pour l'année qui vient,
00:29:31.995 --> 00:29:34.560
parce qu'en tout cas
pour ma part, je brûle d'impatience.
00:29:34.949 --> 00:29:37.044
Vous brûlez d'impatience ?
(petit rire)
00:29:37.044 --> 00:29:39.588
- (i.3) de voir la suite.
- Oui (petit rire)
00:29:44.541 --> 00:29:48.073
Actuellement, nous nous concentrons
plutôt sur Wikibase
00:29:48.073 --> 00:29:50.138
et la qualité des données
00:29:51.493 --> 00:29:55.087
pour voir quel est l'attrait suscité,
00:29:55.087 --> 00:30:01.676
puis l'augmenter davantage
au niveau des points faibles
00:30:01.676 --> 00:30:06.003
et ensuite revenir pour continuer
à développer les données lexicographiques.
00:30:06.903 --> 00:30:09.790
Et une des choses que j'aimerais
entendre de votre part,
00:30:09.790 --> 00:30:14.136
c'est quelles devraient précisément
être les prochaines étapes selon vous.
00:30:14.136 --> 00:30:15.966
où voulez-vous voir des améliorations
00:30:15.966 --> 00:30:20.340
pour que nous puissions définir
comment parvenir à les produire.
00:30:21.125 --> 00:30:22.810
Mais bien sûr, vous avez raison,
00:30:22.810 --> 00:30:25.832
il reste encore tant à faire,
au niveau technique aussi.
00:30:30.573 --> 00:30:35.848
(intervenant 5) Tandis que nous intégrions
les mots basques avec leurs formes,
00:30:35.848 --> 00:30:37.768
et ce genre de situations
est assez fréquent,
00:30:37.768 --> 00:30:41.399
nous nous disions, la semaine dernière :
« Oh, nous sommes premiers quelque part »
00:30:42.739 --> 00:30:44.928
ça sort dans la presse, c'est comme :
00:30:44.928 --> 00:30:49.488
« Oh, c'est une première, les Basques sont
premiers dans un domaine, chouette ! »
00:30:49.488 --> 00:30:50.606
(rire)
00:30:50.606 --> 00:30:53.708
Et alors les gens nous demandent :
« C'est bien, mais à quoi ça sert ? »
00:30:54.678 --> 00:30:56.849
Nous n'avons pas vraiment
de bonne réponse à ça.
00:30:56.849 --> 00:30:57.980
je veux dire, c'est pas mal,
00:30:57.980 --> 00:31:01.841
cela permettra aux ordinateurs
de comprendre davantage notre langue, oui,
00:31:01.841 --> 00:31:05.279
mais quel genre d'outils
pourrons-nous développer à l'avenir ?
00:31:05.279 --> 00:31:07.467
Nous n'avons pas
de bonne réponse à cette question.
00:31:07.467 --> 00:31:10.625
Donc, je me demande si vous avez
une bonne réponse à ça.
00:31:10.625 --> 00:31:12.982
(petit rire) Je ne sais pas
si c'est une bonne réponse,
00:31:12.982 --> 00:31:14.846
mais j'ai une réponse.
00:31:15.480 --> 00:31:20.425
Alors, je crois qu'à l'heure actuelle,
comme je l'indiquais,
00:31:20.425 --> 00:31:22.194
nous n'avons pas atteint
cette masse critique
00:31:22.194 --> 00:31:25.529
qui permet de construire bon nombre
des outils vraiment intéressants.
00:31:25.529 --> 00:31:27.707
Mais il existe déjà quelques outils.
00:31:28.267 --> 00:31:31.912
Pas plus tard que l'autre jour,
par exemple, Esther [Pandelia]
00:31:31.912 --> 00:31:34.217
a mis à disposition un outil
permettant de visualiser
00:31:35.837 --> 00:31:38.889
je crois qu'il s'agissait
des mots sur un globe,
00:31:38.889 --> 00:31:41.901
l'endroit où ils sont le plus parlés,
l'endroit dont ils sont originaires.
00:31:42.631 --> 00:31:44.090
Je me trompe peut-être là-dessus,
00:31:44.090 --> 00:31:46.526
mais elle a répondu sur la page
Discussion Projet de Wikidata,
00:31:46.526 --> 00:31:48.984
vous pouvez allez voir.
00:31:49.574 --> 00:31:51.805
Donc, nous voyons apparaître
ces premiers outils,
00:31:51.805 --> 00:31:55.806
tout comme nous l'avons vu
au démarrage de Wikidata,
00:31:56.846 --> 00:31:59.602
d'abord comme une sorte de réseau,
00:31:59.602 --> 00:32:03.424
puis : « Hé, mais il y a cette chose
qui se connecte à cette autre chose ».
00:32:04.824 --> 00:32:07.059
Et une fois que l'on a plus de données
00:32:07.059 --> 00:32:10.612
et que l'on a atteint
une sorte de masse critique,
00:32:11.852 --> 00:32:14.747
de nouvelles applications
plus puissantes deviennent possibles
00:32:15.677 --> 00:32:17.676
des choses comme Histropedia,
00:32:19.126 --> 00:32:21.988
des choses comme les questions-réponses
00:32:21.988 --> 00:32:26.663
avec votre assistant personnel numérique,
Platypus et ainsi de suite.
00:32:26.663 --> 00:32:30.038
Et nous voyons le même phénomène
se produire avec les lexèmes.
00:32:31.198 --> 00:32:34.650
Nous en sommes au stade
où vous pouvez construire ces petits
00:32:34.650 --> 00:32:37.464
« Hé, il y a une connexion possible
entre ces deux choses,
00:32:37.864 --> 00:32:42.738
et il existe une traduction
de ce mot dans cette langue ».
00:32:42.738 --> 00:32:47.747
Et plus nous l'élaborons,
plus nous décrivons de mots,
00:32:47.747 --> 00:32:49.533
plus ces choses deviennent possibles.
00:32:49.533 --> 00:32:51.795
Alors, qu'est-ce qui devient possible ?
00:32:53.482 --> 00:32:59.483
Comme Ben, notre conférencier sur Keynote,
le disait plus tôt : les traductions,
00:33:00.103 --> 00:33:03.455
être capable de traduire
d'une langue à une autre.
00:33:03.455 --> 00:33:07.929
Et Jens, mon collègue, ne cesse de parler
00:33:07.929 --> 00:33:11.452
de l'Union Européenne
qui cherche un traducteur
00:33:11.452 --> 00:33:17.439
capable de traduire
du maltais au suédois, je crois.
00:33:17.439 --> 00:33:19.716
- (intervenant 6) de l'estonien.
- De l'estonien.
00:33:22.016 --> 00:33:26.211
Et ce n'est pas là
une combinaison habituelle,
00:33:27.211 --> 00:33:29.375
mais une fois que toutes ces langues
sont disponibles
00:33:29.375 --> 00:33:31.735
dans un espace
lisible par des machines,
00:33:31.735 --> 00:33:33.143
c'est faisable,
00:33:33.143 --> 00:33:36.857
on peut avoir un dictionnaire
00:33:36.857 --> 00:33:41.735
estonien-maltais et vice-versa.
00:33:42.865 --> 00:33:45.607
Donc assurer des combinaisons
de langues dans des dictionnaires
00:33:45.607 --> 00:33:47.911
qui n'ont jamais été réalisés auparavant
00:33:47.911 --> 00:33:51.050
parce que la demande était insuffisante
00:33:51.050 --> 00:33:55.540
pour en faire un projet financièrement
viable qui justifie un tel travail.
00:33:55.540 --> 00:33:57.147
Maintenant nous pouvons le faire.
00:33:59.797 --> 00:34:02.318
Ensuite, la création de texte.
00:34:02.318 --> 00:34:03.653
Lucie parlait tout à l'heure
00:34:03.653 --> 00:34:10.136
de la manière dont elle travaille
avec Hattie à générer du texte
00:34:10.136 --> 00:34:12.153
pour commencer à diffuser
des articles de Wikipédia
00:34:12.153 --> 00:34:15.021
dans des langues minoritaires
00:34:15.423 --> 00:34:19.512
et cela exige d'avoir
des données sur les mots
00:34:19.512 --> 00:34:22.589
et il faut comprendre la langue
pour y parvenir.
00:34:23.669 --> 00:34:28.133
Et oui, ce ne sont que quelques
exemples qui me viennent à l'esprit.
00:34:28.513 --> 00:34:30.604
Peut-être que notre auditoire
a d'autres idées
00:34:30.604 --> 00:34:32.364
quant à ce qu'ils voudraient faire
00:34:32.364 --> 00:34:34.914
une fois que nous aurons
toutes ces précieuses données.
00:34:37.693 --> 00:34:40.892
(intervenant 7) Je vais un peu
m'écarter du sujet des lexèmes.
00:34:40.892 --> 00:34:42.666
Je voudrais poser cette question.
00:34:42.666 --> 00:34:45.634
Quel impact puis-je avoir en tant
que membre d'une communauté
00:34:45.634 --> 00:34:50.135
pour faire d'une tâche une priorité,
00:34:50.135 --> 00:34:54.493
afin qu'un nouvel utilisateur
puisse indiquer les langues
00:34:54.493 --> 00:34:56.644
qu'il souhaite voir et éditer
00:34:56.644 --> 00:35:01.135
sans disposer d'une bulle secrète
de connaissances formatées ?
00:35:02.145 --> 00:35:05.193
Peut-être verrons-nous cette année
cette liste de souhaits techniques exaucée
00:35:05.193 --> 00:35:07.040
en dehors des thèmes de Wikipédia.
00:35:07.040 --> 00:35:10.119
Peut-être pouvons-nous espérer
un vote général sur ce point
00:35:10.119 --> 00:35:14.218
que nous n'avons pas réussi
à résoudre depuis sept ans.
00:35:14.218 --> 00:35:17.607
Avez-vous des idées
ou des commentaires à ce sujet ?
00:35:18.217 --> 00:35:20.328
Vous faites référence au fait
00:35:20.328 --> 00:35:23.518
qu'un utilisateur qui n'est pas
connecté sur Wikidata
00:35:23.518 --> 00:35:25.971
ne peut pas apporter facilement
de changements sur sa langue ?
00:35:25.971 --> 00:35:28.039
(intervenant 7) Non,
je parle des utilisateurs.
00:35:28.309 --> 00:35:30.689
Alors, s'ils sont connectés,
00:35:30.689 --> 00:35:34.871
ils peuvent modifier leur langue
en haut de la page
00:35:35.891 --> 00:35:38.489
et là ils verront apparaître,
00:35:39.659 --> 00:35:42.271
l'endroit où se trouvent
les descriptions des libellés
00:35:42.271 --> 00:35:43.773
et ils peuvent les modifier.
00:35:45.657 --> 00:35:49.009
(intervenant 7) Eh bien, en fait,
bien souvent, le processus est tel
00:35:49.009 --> 00:35:52.447
que si vous voulez avoir plusieurs
langues disponibles, elles le sont,
00:35:52.447 --> 00:35:55.419
mais ce n'est pas toujours le cas.
00:35:55.419 --> 00:35:57.364
D'accord, peut-être
pouvons-nous en discuter
00:35:57.364 --> 00:35:59.543
après cette conférence
et vous me montrerez ?
00:36:01.562 --> 00:36:04.089
Bien. D'autres questions ?
00:36:05.534 --> 00:36:06.536
Oui.
00:36:11.595 --> 00:36:13.196
(intervenant 8) Merci pour votre exposé.
00:36:14.106 --> 00:36:15.127
Pouvez-vous nous parler
00:36:15.127 --> 00:36:19.307
de l'état de la corrélation
avec la communauté Wiktionary ?
00:36:19.307 --> 00:36:22.296
D'après ce que j'en ai vu,
il a été question lors de discussions
00:36:22.296 --> 00:36:26.051
d'importer certains éléments
qui sont le fruit de leur travail
00:36:26.051 --> 00:36:30.843
mais il semble qu'il y ait des problèmes
de licences et des désaccords, etc.
00:36:30.843 --> 00:36:31.848
C'est exact.
00:36:31.848 --> 00:36:36.330
Les communautés Wiktionary
ont consacré énormément de temps
00:36:37.320 --> 00:36:39.473
à la construction de Wiktionary.
00:36:39.473 --> 00:36:42.643
Ils ont élaboré
00:36:43.193 --> 00:36:47.554
des modèles incroyablement complexes
00:36:47.554 --> 00:36:50.525
pour créer de beaux tableaux
00:36:50.525 --> 00:36:53.614
qui vous génèrent
automatiquement des formulaires
00:36:53.614 --> 00:36:56.392
et toutes sortes de trucs impressionnants
00:36:56.392 --> 00:37:00.683
et parfois vraiment dingues,
quand on y pense.
00:37:02.311 --> 00:37:07.994
Et bien sûr, ils y ont consacré
énormément de temps et d'efforts.
00:37:09.364 --> 00:37:11.801
On peut comprendre
00:37:11.801 --> 00:37:17.116
qu'ils ne souhaitent pas
qu'on puisse s'approprier tout ça
00:37:18.046 --> 00:37:19.102
aussi facilement.
00:37:19.102 --> 00:37:21.791
Donc c'est un peu ce qui se dit
de ce côté-là.
00:37:22.761 --> 00:37:25.137
Et c'est OK.
00:37:25.737 --> 00:37:32.092
Maintenant, les premières communautés
Wiktionary parlent de participer
00:37:32.092 --> 00:37:34.329
et d'importer certaines
de leurs données sur Wikidata.
00:37:34.329 --> 00:37:39.095
Le russe, comme vous avez pu le voir
par exemple fait partie de ces cas.
00:37:40.375 --> 00:37:42.355
Et je m'attends à ce que d'autres suivent.
00:37:43.635 --> 00:37:46.800
Mais ce sera un processus lent,
00:37:46.800 --> 00:37:49.383
de même que l'adoption
de données Wikidata sur Wikipedia
00:37:49.383 --> 00:37:51.909
a également fait l'objet
d'un processus assez lent.
00:37:52.849 --> 00:37:56.183
Outre le fait que cela rend plus facile
00:37:56.183 --> 00:37:59.132
l'utilisation des données
comprises dans les lexèmes
00:37:59.132 --> 00:38:02.209
sur Wiktionary, pour qu'ils puissent
s'en servir et partager des données
00:38:02.209 --> 00:38:05.531
entre les Wiktionnaires
de différentes langues,
00:38:05.531 --> 00:38:08.853
chose hyper difficile voire impossible
à faire à l'heure actuelle,
00:38:08.853 --> 00:38:11.560
ce qui est fou,
comme ce fut le cas sur Wikipédia.
00:38:13.860 --> 00:38:16.595
Attendons les cadeaux
d'anniversaire ! (petit rire)
00:38:20.038 --> 00:38:21.182
Oui.
00:38:22.849 --> 00:38:24.827
(Intervenant 9) Je pensais
à la situation inverse,
00:38:24.827 --> 00:38:28.168
je ne voulais pas en parler
parce que ça me semblait idiot,
00:38:28.168 --> 00:38:32.003
mais je crois que Wiktionnary
dispose déjà de certains contenus
00:38:32.003 --> 00:38:34.978
et je sais qu'on ne peut pas
les transférer sur Wikidata
00:38:34.978 --> 00:38:37.048
en raison des différences de licences.
00:38:37.048 --> 00:38:39.891
Mais je me disais que nous pourrions
peut-être remédier à cela.
00:38:40.321 --> 00:38:45.913
Peut-être peut-on obtenir
la permission des communautés
00:38:45.913 --> 00:38:51.205
après un vote général
00:38:52.075 --> 00:38:55.642
au cours duquel la communauté,
les membres actifs de la communauté
00:38:55.642 --> 00:39:02.523
voteraient et diraient s'ils veulent
ou acceptent de transférer les contenus
00:39:02.523 --> 00:39:05.528
permettant de faire les lexèmes Wikidata.
00:39:06.238 --> 00:39:08.637
Parce que ça me paraît
être un vrai gâchis.
00:39:09.568 --> 00:39:13.443
Donc, c'est certainement une conversation
00:39:13.443 --> 00:39:16.146
que ceux qui sont membres
de communautés Wiktionary
00:39:16.146 --> 00:39:18.319
peuvent susciter entre eux
et nous en serions heureux.
00:39:18.319 --> 00:39:24.647
Je crois que ce serait un peu présomptueux
de notre part de chercher à forcer cela.
00:39:25.917 --> 00:39:31.142
Mais oui, cela mérite largement
qu'on en discute.
00:39:31.142 --> 00:39:33.898
Mais il me semble important de comprendre
00:39:33.898 --> 00:39:36.117
qu'il faut faire la distinction
00:39:36.117 --> 00:39:39.082
entre ce qui est faisable
d'un point de vue légal,
00:39:39.082 --> 00:39:43.147
ce que nous devrions faire
00:39:43.147 --> 00:39:45.426
et ce que ces gens veulent faire ou pas.
00:39:45.626 --> 00:39:47.510
Donc, même si c'est autorisé légalement,
00:39:47.510 --> 00:39:50.640
si certaines communautés
Wiktionary s'y opposent,
00:39:50.640 --> 00:39:53.637
je crois que nous devrions être
pour le moins prudents là-dessus.
00:39:58.886 --> 00:40:02.489
Je crois qu'il vous faut un micro
pour la retransmission.
00:40:04.540 --> 00:40:07.549
(intervenant 10) Tout cela
est bien sûr très enthousiasmant
00:40:07.979 --> 00:40:12.319
et je me demande tout de suite comment
je peux en faire profiter mes élèves
00:40:12.319 --> 00:40:15.558
et intégrer cela à mes cours,
00:40:15.558 --> 00:40:18.531
au travail que nous faisons,
dans le cadre de l'éducation.
00:40:18.531 --> 00:40:22.271
Et je ne dispose pas à ce jour
00:40:22.621 --> 00:40:24.241
des connaissances suffisantes, d'abord,
00:40:24.241 --> 00:40:27.278
mais je crois que la documentation
dont nous disposons
00:40:27.808 --> 00:40:30.082
pourrait peut-être être améliorée.
00:40:30.082 --> 00:40:33.437
Donc, j'aimerais exprimer le souhait
de voir réaliser des vidéos sympa
00:40:33.437 --> 00:40:35.898
pour expliquer comment ça marche
00:40:35.898 --> 00:40:39.948
parce que si nous avons cela,
nous pourrons nous en servir
00:40:39.948 --> 00:40:41.985
et impliquer les élèves
00:40:41.985 --> 00:40:47.072
et nous pourrons faire savoir aux gens
à quel point c'est fantastique.
00:40:47.072 --> 00:40:52.001
Et oui, donc, s'il vous plaît, pensez
à la documentation et à l'éducation.
00:40:52.001 --> 00:40:54.480
Parce que je crois qu'on pourrait
faire beaucoup de choses.
00:40:54.480 --> 00:40:58.585
Il y a de nombreuses tâches
qui pourraient être effectuées avec...
00:41:00.125 --> 00:41:02.033
je ne dirais pas des élèves de primaire
00:41:02.033 --> 00:41:05.495
mais certainement
avec des élèves plus jeunes.
00:41:05.915 --> 00:41:10.866
Et donc j'aimerais vraiment
que ce potentiel soit mis à contribution
00:41:10.866 --> 00:41:15.272
et personnellement,
je ne m'y connais pas assez à ce stade
00:41:15.272 --> 00:41:19.500
pour pouvoir créer
des tâches ou créer...
00:41:20.430 --> 00:41:22.155
faire quelque chose de pratique avec ça.
00:41:22.155 --> 00:41:25.772
Donc, si quelqu'un peut apporter
de l'aide, des idées à ce sujet,
00:41:25.772 --> 00:41:29.648
ce serait une joie pour moi
d'entendre vos idées et les vôtres aussi.
00:41:30.508 --> 00:41:32.329
D'accord ! Discutons-en.
00:41:35.473 --> 00:41:37.139
D'autres questions ?
00:41:37.719 --> 00:41:39.195
Quelqu'un d'autre avait levé la main
00:41:39.195 --> 00:41:40.625
mais je ne sais plus qui.
00:41:45.739 --> 00:41:49.996
(intervenant 11) Donc, si nous ne pouvons
pas importer des contenus de Wiktionary,
00:41:49.996 --> 00:41:52.092
y a-t-il des efforts concertés
00:41:52.092 --> 00:41:55.772
pour trouver d'autres ressources
dans le domaine public
00:41:55.772 --> 00:41:57.459
peut-être des données
00:41:58.769 --> 00:42:03.167
que nous pourrions pré-filtrer, organiser
00:42:03.167 --> 00:42:08.470
afin de les rendre facilement vérifiables
pour que les gens puissent les importer ?
00:42:09.033 --> 00:42:11.291
Alors, il y a
des premiers efforts de faits.
00:42:11.291 --> 00:42:14.769
J'ai cru comprendre que le basque
était l'un de ces exemples.
00:42:14.769 --> 00:42:17.474
Peut-être voudriez-vous
nous en dire plus à ce sujet ?
00:42:18.306 --> 00:42:20.130
(l'intervenant 12 parle hors micro)
00:42:23.166 --> 00:42:27.098
OK, la réponse aujourd'hui
c'est de payer pour cela,
00:42:28.374 --> 00:42:33.381
je veux dire, nous avons passé un accord
avec un de nos prestataires habituels,
00:42:34.801 --> 00:42:38.725
Ils font des dictionnaires...
00:42:40.125 --> 00:42:42.508
plein d'autres trucs aussi,
mais ils font des dictionnaires.
00:42:42.508 --> 00:42:45.070
Donc, nous nous sommes entendus
00:42:45.070 --> 00:42:47.473
pour mettre en libre accès
le dictionnaire des étudiants
00:42:47.473 --> 00:42:52.782
qui comprend les mots les plus communs
et nous avons commencé à le téléverser
00:42:52.782 --> 00:42:55.590
avec un identifiant externe
et ce genre de choses.
00:42:56.230 --> 00:43:02.902
Mais il y a eu quelques discussions
sur le fait de le laisser en CC0
00:43:03.212 --> 00:43:05.702
parce que leur dictionnaire
est sous licence Attribution
00:43:06.307 --> 00:43:10.326
et ils ont compris sur quoi
reposait la différence.
00:43:10.326 --> 00:43:13.866
Donc, cela a donné lieu
à quelques discussions.
00:43:13.866 --> 00:43:19.519
Mais je crois que si nous pouvons
fournir des outils ou des exemples,
00:43:19.519 --> 00:43:21.761
je pense qu'il y aura à l'avenir
d'autres dictionnaires
00:43:21.761 --> 00:43:24.016
que nous pourrons traiter
00:43:24.016 --> 00:43:29.274
et je crois que Wiktionary devrait
aussi aller dans ce sens,
00:43:29.274 --> 00:43:32.260
mais c'est une autre discussion de taille.
00:43:33.285 --> 00:43:34.487
Et de plus,
00:43:34.487 --> 00:43:38.839
Lea est aussi en contact
avec des Occitans
00:43:38.839 --> 00:43:41.827
qui travaillent
sur des dictionnaires en occitan
00:43:41.827 --> 00:43:45.238
et participent en ce moment
à une collaboration autour du sumérien.
00:43:51.644 --> 00:43:53.483
D'autres questions ?
00:44:01.377 --> 00:44:03.519
(intervenant 13) Bonjour.
Nous sommes justement ceux
00:44:03.519 --> 00:44:05.399
qui souhaitent importer
les données en occitan.
00:44:05.399 --> 00:44:06.585
Ah, parfait !
00:44:06.585 --> 00:44:08.478
(i.13) Et nous rencontrons
un petit problème.
00:44:09.188 --> 00:44:14.215
C'est que nous ignorons comment refléter
les variantes de tous les lexèmes.
00:44:14.215 --> 00:44:17.893
Nous avons six dialectes
00:44:17.893 --> 00:44:24.014
et nous voudrions indiquer
dans quel dialecte le lexème s'utilise,
00:44:24.014 --> 00:44:27.285
mais nous n'avons pas
de déclaration C0 pour faire cela
00:44:27.285 --> 00:44:31.105
Donc, tant que cette section n'existe pas
00:44:31.635 --> 00:44:34.465
cela nous empêche de l'intégrer
00:44:34.465 --> 00:44:37.603
parce que nous devrions
tout reprendre
00:44:37.603 --> 00:44:42.076
le jour où nous pourrons
exprimer cette déclaration.
00:44:42.076 --> 00:44:44.551
Et c'est compliqué
parce que c'est une déclaration
00:44:44.551 --> 00:44:47.802
qui aura peu de demandeurs
00:44:47.802 --> 00:44:53.444
étant donnée qu'elle concerne
principalement des langues minoritaires.
00:44:53.444 --> 00:44:56.933
Donc, il n'y aura
qu'un demandeur pour cela.
00:44:56.933 --> 00:45:00.022
Mais comme nos collègues basques
00:45:00.022 --> 00:45:02.322
ce sera peut-être une personne
00:45:02.322 --> 00:45:06.082
qui ouvrira une possibilité
à des milliers d'autres,
00:45:06.082 --> 00:45:10.884
donc ce n'est peut-être pas trop demander,
00:45:10.884 --> 00:45:14.136
mais ce sera très important pour nous.
00:45:14.874 --> 00:45:17.600
Avez-vous une proposition
de nouvelle propriété déjà prête
00:45:17.600 --> 00:45:19.550
ou avez-vous besoin d'aide
pour la créer ?
00:45:21.524 --> 00:45:24.356
(intervenant 13) Nous en avons fait
la demande il y a quatre mois.
00:45:24.720 --> 00:45:28.755
D'accord, alors voyons qui peut aider
à sortir cette proposition de propriété.
00:45:30.159 --> 00:45:33.360
Je suis sûre qu'il y a assez de gens
dans cette salle pour que ça se fasse.
00:45:33.360 --> 00:45:35.564
(i.13) Proposition de propriété
« Variété de la forme ».
00:45:35.564 --> 00:45:36.965
(l'intervenant 14 parle hors micro)
00:45:36.965 --> 00:45:39.699
(i.13) Nous n'avons pas eu de réponse
et nous ne savons pas le faire
00:45:39.699 --> 00:45:43.153
parce que nous ne sommes pas
dans la communauté Wikidata.
00:45:44.694 --> 00:45:48.817
OK. Il y a des gens ici
qui peuvent vous aider.
00:45:48.817 --> 00:45:52.134
Peut-être que vous pouvez lever la main...
00:45:52.574 --> 00:45:53.644
(i.15) Je suis d'accord.
00:45:53.644 --> 00:45:55.512
Je crois que c'est très intéressant
00:45:55.512 --> 00:45:59.059
que la variété de forme
00:45:59.059 --> 00:46:02.607
peut aussi être corrélée
d'un point de vue géographique
00:46:02.607 --> 00:46:04.995
avec des coordonnées
ou une forme de cartographie.
00:46:05.595 --> 00:46:07.815
Et cela vaut aussi
pour les variétés de prononciations
00:46:07.815 --> 00:46:11.837
et je crois que c'est quelque chose
qui se produit dans beaucoup de langues.
00:46:12.607 --> 00:46:16.262
Nous devrions pouvoir
mettre cela en place.
00:46:16.262 --> 00:46:18.865
je vais faire des recherches
pour cette propriété.
00:46:19.782 --> 00:46:20.933
Chouette.
00:46:20.933 --> 00:46:24.446
Donc vous allez avoir du soutien
pour votre proposition de propriété.
00:46:26.136 --> 00:46:27.297
Merci.
00:46:28.153 --> 00:46:30.261
Très bien. D'autres questions ?
00:46:32.410 --> 00:46:33.474
Finn.
00:46:33.974 --> 00:46:35.055
Finn fait partie de ceux
00:46:35.055 --> 00:46:38.031
qui construisent des choses
à partir des données lexicographiques.
00:46:38.031 --> 00:46:40.085
(Finn) C'est juste une petite question.
00:46:40.405 --> 00:46:44.226
et elle concerne les variantes
orthographiques.
00:46:44.896 --> 00:46:48.002
Il semble qu'il soit difficile
de les faire apparaître...
00:46:48.532 --> 00:46:53.368
Bien sûr, il serait possible d'avoir
de multiples formes pour un même mot.
00:46:56.327 --> 00:46:58.448
Je ne sais pas. Ça me semble...
00:46:59.558 --> 00:47:03.535
Si on ne le fait pas de cette manière,
il semble difficile de préciser...
00:47:04.771 --> 00:47:05.888
je ne sais pas si...
00:47:05.888 --> 00:47:09.731
s'il s'agit d'un souci technique mineur
ou si au contraire...
00:47:09.731 --> 00:47:11.252
Voyons cela ensemble.
00:47:11.642 --> 00:47:15.230
Je serais ravie de voir un exemple.
00:47:17.478 --> 00:47:18.478
Asaf.
00:47:26.886 --> 00:47:28.396
(Asaf) Merci.
00:47:29.386 --> 00:47:33.685
Je peux vous donner un exemple concret
dans ma langue maternelle, l'hébreu.
00:47:34.205 --> 00:47:38.845
L'hébreu a deux variantes principales
00:47:38.845 --> 00:47:42.786
pour exprimer quasiment chaque mot
00:47:42.786 --> 00:47:47.640
parce que l'orthographe traditionnelle
00:47:47.640 --> 00:47:50.274
se dispense d'un grand nombre de voyelles.
00:47:50.934 --> 00:47:55.207
Et par conséquent, dans les éditions
modernes de la Bible ou des poèmes,
00:47:55.207 --> 00:47:57.461
des signes diacritiques sont utilisés.
00:47:57.461 --> 00:47:59.200
Cependant, ces signes diacritiques
00:47:59.200 --> 00:48:02.670
ne sont jamais utilisés
dans la prose moderne,
00:48:02.670 --> 00:48:05.974
dans la presse
ou les panneaux indicateurs.
00:48:05.974 --> 00:48:11.209
Donc, l'usage courant ajoute
des voyelles supplémentaires
00:48:12.019 --> 00:48:13.679
et n'utilise pas de signes diacritiques
00:48:13.679 --> 00:48:15.607
par qu'ils sont évidemment
plus encombrants,
00:48:15.607 --> 00:48:18.623
qu'ils sont soumis à toutes sortes
de règles que plus personne ne connaît.
00:48:18.633 --> 00:48:20.531
Donc en gros, il y a deux variantes.
00:48:20.531 --> 00:48:25.322
Il y a la variante propre à la prose
usuelle de tous les jours
00:48:25.322 --> 00:48:27.827
et celle de la Bible ou de la poésie
00:48:27.827 --> 00:48:30.136
qui se présente toujours
sous la forme traditionnelle
00:48:30.136 --> 00:48:32.200
avec ses signes diacritiques.
00:48:32.200 --> 00:48:33.302
Pour être utile,
00:48:33.302 --> 00:48:37.428
le lexème devrait reconnaître les deux
variétés pour chaque mot sans exception
00:48:37.428 --> 00:48:39.747
et pour chaque forme de chaque mot.
00:48:40.677 --> 00:48:43.391
Donc il s'agit là d'un cas
pratique très complet
00:48:43.391 --> 00:48:46.340
pour ce qui est des variantes
officielles stables.
00:48:46.340 --> 00:48:49.332
Il ne s'agit pas de dialectes,
il ne s'agit pas de variantes régionales,
00:48:49.332 --> 00:48:53.627
mais bien de deux systèmes
morphologiques qui coexistent.
00:48:54.537 --> 00:48:58.926
Et je ne sais pas bien non plus
comment exprimer cela dans les lexèmes
00:48:58.926 --> 00:49:02.800
et en réponse à la question de Magnus,
c'est l'une des choses qui m'empêchent
00:49:02.800 --> 00:49:05.238
de téléverser les parties déjà prêtes
00:49:05.238 --> 00:49:09.394
du plus grand dictionnaire d'hébreu
qui fait partie du domaine public
00:49:09.394 --> 00:49:13.141
et que j'ai entrepris de numériser
depuis maintenant plusieurs années.
00:49:13.141 --> 00:49:14.673
Une portion conséquente est déjà prête
00:49:14.673 --> 00:49:16.689
mais je ne l'intègre pas au lexème
pour le moment
00:49:16.689 --> 00:49:20.245
parce que je ne sais pas exactement
comment résoudre ce problème.
00:49:20.245 --> 00:49:23.387
Très bien, trouvons
la solution ici même (petit rire)
00:49:24.503 --> 00:49:26.021
Ce doit être possible.
00:49:30.045 --> 00:49:32.047
Très bien, d'autres questions ?
00:49:37.173 --> 00:49:39.735
Si vous n'avez plus de questions,
merci à tous.
00:49:40.605 --> 00:49:42.675
(applaudissements)
00:49:45.983 --> 00:49:48.263
WIKI DATA 2019
Wikidata et les langues