WEBVTT 00:00:02.651 --> 00:00:05.000 Wikidata et les langues 00:00:05.000 --> 00:00:06.303 Où en sommes-nous ? Et après ? 00:00:06.303 --> 00:00:07.362 (Lydia) Merci beaucoup. 00:00:07.362 --> 00:00:11.417 L'un des sujets majeurs de cette conférence concerne les langues. 00:00:14.220 --> 00:00:18.508 Je voudrais vous donner un aperçu du point où nous en sommes à ce jour 00:00:18.508 --> 00:00:20.500 en ce qui concerne les langues 00:00:20.500 --> 00:00:22.403 et quelles sont les prochaines étapes. 00:00:28.976 --> 00:00:30.409 Le but de Wikidata est de donner 00:00:30.409 --> 00:00:32.580 plus d'accès à plus de savoir à davantage de monde 00:00:32.580 --> 00:00:37.220 et la langue est un aspect essentiel dans la réalisation de cet objectif, 00:00:38.205 --> 00:00:43.291 d'autant plus que nos vies dépendent de plus en plus de la technologie. 00:00:44.114 --> 00:00:48.873 Et comme le disait notre conférencier sur Keynote tout à l'heure, 00:00:49.603 --> 00:00:52.440 une partie de cette technologie reste inaccessible à certains 00:00:52.440 --> 00:00:55.020 du simple fait qu'ils ne parlent pas telle ou telle langue, 00:00:55.320 --> 00:00:57.573 et ce n'est pas acceptable. 00:00:58.633 --> 00:01:02.097 Donc nous voulons remédier à cette situation. 00:01:02.927 --> 00:01:05.841 Et afin de changer cela, il faut au moins deux choses. 00:01:06.411 --> 00:01:11.270 D'abord, on doit fournir des contenus aux gens dans leur propre langue, 00:01:11.270 --> 00:01:12.955 et la deuxième chose, 00:01:12.955 --> 00:01:15.910 c'est de leur fournir la possibilité d'interagir dans leur propre langue 00:01:15.910 --> 00:01:19.189 avec des applications ou quoi que ce soit d'autre. 00:01:20.367 --> 00:01:25.277 Wikidata contribue à satisfaire ces deux conditions. 00:01:25.277 --> 00:01:28.408 La première d'entre elles, du contenu dans votre langue, 00:01:28.408 --> 00:01:31.317 c'est globalement ce que nous avons dans les éléments et les propriétés, 00:01:31.319 --> 00:01:33.082 la façon dont nous décrivons le monde. 00:01:33.082 --> 00:01:35.205 Tout ce dont vous avez besoin n'y est certainement pas 00:01:35.205 --> 00:01:39.294 mais il y a déjà de quoi bien avancer. 00:01:39.764 --> 00:01:41.847 L'autre point, c'est l'interaction dans votre langue 00:01:41.847 --> 00:01:46.389 et c'est là que les lexèmes entrent en jeu : 00:01:46.389 --> 00:01:49.382 si vous voulez parler à votre assistant personnel numérique 00:01:49.382 --> 00:01:54.918 ou que votre appareil vous traduise un texte ou autre. 00:01:56.404 --> 00:01:59.254 Très bien, intéressons-nous aux contenus dans votre langue, 00:01:59.254 --> 00:02:03.676 donc, à ce que nous avons sous la rubrique Éléments et Propriétés. 00:02:05.406 --> 00:02:10.236 Les libellés sont essentiels pour ces éléments et propriétés. 00:02:10.236 --> 00:02:14.916 Nous devons savoir comment s'appelle l'entité dont il est question. 00:02:15.656 --> 00:02:19.987 Et plutôt que de parler de Q5, 00:02:19.987 --> 00:02:22.180 un anglophone saura qu'il s'agit d'un « humain », 00:02:22.180 --> 00:02:24.706 un germanophone saura qu'il s'agit d'un « Mensch », 00:02:24.706 --> 00:02:26.374 ce genre de choses. 00:02:26.374 --> 00:02:29.872 Donc, les libellés dans les éléments et les propriétés 00:02:29.872 --> 00:02:33.619 font la liaison entre les humains et les machines 00:02:33.619 --> 00:02:35.439 mais relient aussi les humains entre eux 00:02:35.439 --> 00:02:40.115 en leur rendant davantage de savoir accessible. 00:02:41.192 --> 00:02:43.270 À quoi ressemble notre couverture ? 00:02:43.270 --> 00:02:46.290 L'intention est louable. 00:02:46.290 --> 00:02:48.342 Mais voyons ce que cela donne dans les faits. 00:02:48.342 --> 00:02:49.882 Cela ressemble à ça. 00:02:50.947 --> 00:02:52.416 Ce que vous voyez ici, 00:02:52.416 --> 00:02:58.496 c'est que la plupart des éléments dans Wikidata ont deux libellés, 00:02:58.496 --> 00:03:00.767 donc des libellés dans deux langues. 00:03:01.697 --> 00:03:03.851 Ensuite on passe à un, puis trois, 00:03:03.851 --> 00:03:06.265 et au-delà, cela devient vraiment navrant. 00:03:06.781 --> 00:03:08.581 (rires légers) 00:03:10.047 --> 00:03:12.813 Je crois que nous devons faire mieux que ça. 00:03:14.185 --> 00:03:15.319 Mais, d'un autre côté, 00:03:15.319 --> 00:03:17.478 je m'attendais à pire, en fait. 00:03:17.478 --> 00:03:19.810 Je m'attendais à ce que la moyenne soit d'une seule langue. 00:03:19.810 --> 00:03:22.503 Donc, j'ai été agréablement surprise de voir que c'était deux. 00:03:23.655 --> 00:03:24.921 Quelles langues couvrons-nous ? 00:03:24.921 --> 00:03:26.186 Très bien. 00:03:27.156 --> 00:03:29.527 Mais au-delà de l'intérêt de savoir 00:03:29.527 --> 00:03:33.742 de combien de libellés disposent nos éléments et propriétés, 00:03:33.742 --> 00:03:36.705 il est aussi intéressant de voir quelles sont les langues de ces libellés. 00:03:38.045 --> 00:03:43.764 Voici un graphique présentant les langues 00:03:43.764 --> 00:03:46.838 dans lesquelles nous avons des libellés pour les éléments. 00:03:46.838 --> 00:03:50.849 La portion la plus grosse ici correspond à la catégorie Autres. 00:03:51.229 --> 00:03:53.863 Alors, je n'ai détaillé que les 100 premières langues 00:03:54.533 --> 00:03:59.122 donc tout le reste entre dans la catégorie Autres pour que le graphique soit lisible. 00:03:59.542 --> 00:04:02.142 Ensuite viennent l'anglais et le néerlandais, 00:04:03.002 --> 00:04:04.254 le français, 00:04:05.924 --> 00:04:09.129 et n'oublions pas l'asturien. 00:04:09.659 --> 00:04:12.069 - (un auditeur) Waouh ! - (Lydia) Waouh, effectivement ! 00:04:13.899 --> 00:04:16.954 Donc ce qui apparaît ici est un déséquilibre considérable 00:04:16.954 --> 00:04:20.114 avec toujours une nette prédominance de l'anglais. 00:04:21.236 --> 00:04:24.367 Par ailleurs, si l'on regarde la même chose pour les propriétés, 00:04:24.367 --> 00:04:26.099 le tableau est déjà mieux. 00:04:27.399 --> 00:04:32.750 Je crois que cela tient en partie au fait qu'il y a beaucoup moins de propriétés, 00:04:32.750 --> 00:04:36.670 ce qui fait que même des communautés plus petites peuvent assurer cette partie. 00:04:36.770 --> 00:04:39.173 Mais cela constitue aussi une partie importante de Wikidata 00:04:39.173 --> 00:04:41.159 de pouvoir les adapter dans votre langue. 00:04:41.159 --> 00:04:42.494 Donc c'est un point positif. 00:04:45.752 --> 00:04:47.962 Ce que je voulais souligner ici à propos de l'asturien, 00:04:47.962 --> 00:04:53.698 c'est qu'une petite communauté peut vraiment se démarquer 00:04:54.448 --> 00:04:57.085 par son investissement et son travail, 00:04:57.085 --> 00:04:58.420 et c'est vraiment chouette. 00:05:01.846 --> 00:05:03.530 Une petite devinette pour vous. 00:05:03.530 --> 00:05:05.493 Si vous prenez toutes les propriétés de Wikidata 00:05:05.493 --> 00:05:07.687 qui n'ont pas d'identifiants externes, 00:05:07.687 --> 00:05:10.778 laquelle compte selon vous le plus grand nombre de libellés, donc de langues ? 00:05:10.977 --> 00:05:13.847 (réponses inaudibles de l'auditoire) 00:05:13.847 --> 00:05:16.886 Il semble se dégager une majorité pour « nature de l'élément ». 00:05:17.506 --> 00:05:19.603 Ce serait une mauvaise réponse. 00:05:19.983 --> 00:05:22.210 La réponse est « image ». 00:05:23.230 --> 00:05:26.006 Donc, effectivement, si vous parlez l'une des langues 00:05:26.006 --> 00:05:28.621 pour lesquelles « nature de l'élément » n'a pas encore de libellé, 00:05:28.621 --> 00:05:30.190 vous savez ce qu'il vous reste à faire. 00:05:32.102 --> 00:05:35.676 Donc, « image » dispose de 148 libellés actuellement. 00:05:37.688 --> 00:05:41.249 Mais c'est une autre diapositive. 00:05:42.521 --> 00:05:44.162 Ce graphique nous donne une idée 00:05:44.162 --> 00:05:49.321 du volume de contenu que nous rendons accessible dans une langue donnée 00:05:49.321 --> 00:05:52.042 et dans quelle proportion ce contenu est effectivement utilisé. 00:05:52.042 --> 00:05:55.448 Donc en gros, on peut voir se dessiner une courbe 00:05:55.448 --> 00:05:59.057 où la majorité des contenus disposant de libellés en anglais, 00:05:59.307 --> 00:06:04.105 étant disponibles en anglais sont aussi largement utilisés. 00:06:04.295 --> 00:06:06.449 Puis ça a tendance à diminuer. 00:06:06.449 --> 00:06:09.436 Mais à nouveau, on peut noter des exceptions 00:06:09.436 --> 00:06:15.333 qui ont beaucoup plus de contenus qu'on aurait pu s'y attendre, 00:06:16.903 --> 00:06:19.539 et c'est une très bonne chose. 00:06:20.839 --> 00:06:24.945 Le problème demeure que ces contenus ne sont pas très utilisés. 00:06:25.565 --> 00:06:28.742 L'asturien et le néerlandais devraient être en meilleure position 00:06:28.742 --> 00:06:31.994 et je crois qu'aider ces communautés 00:06:33.266 --> 00:06:35.716 à accroître l'utilisation des données qu'elles ont rassemblées 00:06:35.716 --> 00:06:37.792 est quelque chose de très utile. 00:06:42.910 --> 00:06:48.110 Ce que cette analyse ainsi que d'autres nous ont révélé de positif, 00:06:48.300 --> 00:06:51.378 c'est que les éléments les plus utilisés 00:06:51.378 --> 00:06:55.295 ont aussi tendance à avoir plus de libellés 00:06:55.295 --> 00:06:58.538 à moins que ça ne marche en sens inverse ; ce n'est pas tout à fait clair. 00:07:02.513 --> 00:07:04.596 Et la question qui se pose alors, c'est : 00:07:04.596 --> 00:07:07.269 Sommes-nous seulement au service des langues les plus puissantes ? 00:07:07.899 --> 00:07:11.197 Ou sommes-nous au service de tout le monde ? 00:07:12.757 --> 00:07:17.743 Et ce que vous voyez ici, ce sont des regroupements de langues. 00:07:17.743 --> 00:07:19.642 Les langues que nous avons regroupées ensemble 00:07:19.642 --> 00:07:21.987 ont tendance à avoir des libellés en commun. 00:07:26.042 --> 00:07:28.219 Et vous voyez se former des faisceaux. 00:07:28.599 --> 00:07:34.065 À présent, voici un même type de regroupement avec différentes couleurs, 00:07:34.065 --> 00:07:39.475 selon que la langue est plus ou moins vivante, plus ou moins largement utilisée 00:07:40.455 --> 00:07:43.156 ou menacée de disparition. 00:07:43.156 --> 00:07:44.642 Et la bonne chose qui apparaît ici, 00:07:44.642 --> 00:07:49.566 c'est que les langues dominantes et les langues menacées de disparition 00:07:49.566 --> 00:07:53.773 ne constituent pas deux groupes différents, 00:07:53.773 --> 00:07:58.872 mais qu'elles sont toutes mélangées ensemble, 00:08:00.262 --> 00:08:04.625 ce qui est bien plus réjouissant que si la situation avait été inverse 00:08:04.625 --> 00:08:09.377 et que les langues les plus assurées, les langues dominantes 00:08:10.197 --> 00:08:12.164 s'étaient mutuellement soutenues. 00:08:12.744 --> 00:08:14.356 Ce n'est pas le cas. 00:08:14.356 --> 00:08:17.417 Et c'est une très bonne chose. 00:08:17.417 --> 00:08:20.042 J'ai trouvé que c'était un très bon signe quand j'ai vu ça. 00:08:23.474 --> 00:08:25.229 Voici un autre exemple similaire 00:08:26.239 --> 00:08:28.800 où nous avons regardé 00:08:30.230 --> 00:08:34.222 le statut des langues 00:08:34.222 --> 00:08:36.225 et le nombre de libellés dont elles disposent. 00:08:39.367 --> 00:08:42.937 Ce qui apparaît, c'est que les langues fortes dominent clairement, 00:08:42.937 --> 00:08:44.438 comme on pouvait s'y attendre. 00:08:45.508 --> 00:08:46.693 Mais ce que l'on voit aussi, 00:08:46.693 --> 00:08:54.407 c'est que les langues des catégories 2, 3 et peut-être même 4 00:08:54.407 --> 00:08:59.280 ne s'en tirent pas si mal en fait, 00:08:59.280 --> 00:09:02.367 au niveau de leur représentation sur Wikidata, 00:09:03.287 --> 00:09:06.408 ce qui est vraiment un résultat réjouissant. 00:09:07.556 --> 00:09:09.129 Maintenant, si on regarde la même chose 00:09:09.129 --> 00:09:12.418 sous l'angle de la proportion de contenu de ces libellés 00:09:12.418 --> 00:09:15.495 qui est effectivement utilisée dans Wikipédia, par exemple, 00:09:17.455 --> 00:09:22.563 on voit à nouveau se dessiner la même tendance. 00:09:23.603 --> 00:09:29.813 Et cela nous révèle que ces communautés font vraiment bon usage de leur temps 00:09:29.813 --> 00:09:34.504 en créant des libellés pour les éléments les plus utilisés, par exemple. 00:09:36.410 --> 00:09:40.493 Il y a des exceptions que nous devons pouvoir soutenir 00:09:41.683 --> 00:09:48.202 en aidant ces communautés à mieux valoriser leur investissement. 00:09:49.312 --> 00:09:52.663 Mais de façon générale, cette image me paraît réjouissante. 00:09:54.823 --> 00:09:59.844 Voilà pour ce qui était de la partie éléments et propriétés de Wikidata. 00:10:00.714 --> 00:10:03.033 Regardons à présent les interactions dans vos langues. 00:10:03.033 --> 00:10:05.203 Donc le volet lexème de Wikidata, 00:10:05.203 --> 00:10:09.394 où il s'agit de décrire les mots, leur forme et leur signification. 00:10:10.167 --> 00:10:13.301 C'est un travail que nous avons démarré en mai de l'année dernière 00:10:16.461 --> 00:10:19.127 et le contenu n'a cessé de se développer. 00:10:20.114 --> 00:10:22.149 Ici, on voit les lexèmes en bleu, 00:10:22.149 --> 00:10:25.938 en rouge, les formes de ces lexèmes 00:10:25.938 --> 00:10:29.910 et en jaune, les significations de ces lexèmes. 00:10:30.991 --> 00:10:34.451 Donc certaines communautés, nous y reviendrons plus tard, 00:10:34.451 --> 00:10:38.523 ont consacré beaucoup de temps à créer des formes et des significations 00:10:38.523 --> 00:10:42.753 pour leurs lexèmes, ce qui est très utile 00:10:42.753 --> 00:10:48.243 car cela constitue l'essence des données dont vous avez besoin. 00:10:50.562 --> 00:10:55.133 Maintenant, nous avons regardé toutes les langues 00:10:55.133 --> 00:10:57.906 qui ont des lexèmes sur Wikidata, 00:10:57.906 --> 00:11:01.003 donc les mots que nous avons. 00:11:01.603 --> 00:11:04.524 Ces derniers sont actuellement en 310 langues. 00:11:04.884 --> 00:11:08.290 Maintenant, quelle est, à votre avis, la première langue 00:11:08.290 --> 00:11:11.949 en termes de nombre de lexèmes actuellement sur Wikidata ? 00:11:11.949 --> 00:11:14.677 (réponses fusant de l'auditoire) Le suédois, le russe, 00:11:14.677 --> 00:11:16.350 l'asturien, l'allemand 00:11:16.350 --> 00:11:20.216 - (un intervenant parle hors micro) - Hein ? 00:11:20.216 --> 00:11:21.741 (un autre intervenant) L'allemand. 00:11:21.741 --> 00:11:24.252 Désolée, la bonne réponse a été donnée. 00:11:24.252 --> 00:11:25.651 C'est le russe. 00:11:28.011 --> 00:11:29.924 Le russe est loin devant. 00:11:31.897 --> 00:11:33.832 Et pour vous donner une perspective, 00:11:35.412 --> 00:11:36.816 les opinions divergent à ce sujet, 00:11:36.816 --> 00:11:42.231 mais j'ai lu, par exemple, que connaître 1 000 à 3 000 mots 00:11:42.231 --> 00:11:45.450 vous permet d'accéder au niveau courant dans une autre langue. 00:11:45.450 --> 00:11:49.721 et qu'en connaître 4 000 à 10 000 vous situe à un niveau avancé. 00:11:51.591 --> 00:11:55.372 Donc nous avons encore du chemin à faire pour en arriver là. 00:11:58.483 --> 00:12:03.279 J'aimerais attirer votre attention sur la langue basque 00:12:03.279 --> 00:12:07.744 qui a environ 10 000 lexèmes. 00:12:09.244 --> 00:12:13.003 Or, si vous regardez le nombre de formes pour ces lexèmes, 00:12:14.163 --> 00:12:16.497 le basque est très bien placé, 00:12:18.257 --> 00:12:20.006 ce qui est vraiment bien 00:12:20.006 --> 00:12:22.434 et il serait intéressant d'assister à l'exposé 00:12:22.434 --> 00:12:25.315 qui vous expliquera cet état de fait. 00:12:27.341 --> 00:12:31.175 Maintenant, si on regarde le nombre de sens, ce que les mots signifient, 00:12:32.015 --> 00:12:35.081 le basque arrive en tête de la liste. 00:12:35.081 --> 00:12:37.102 Il me semble que cela mérite nos applaudissements. 00:12:37.102 --> 00:12:38.921 (applaudissements) 00:12:45.678 --> 00:12:47.118 Une autre devinette. 00:12:47.118 --> 00:12:50.511 Quel est le lexème le plus traduit à l'heure actuelle, selon vous ? 00:12:50.511 --> 00:12:54.304 (public) Les chats, les chats, Douglas Adams 00:12:54.304 --> 00:12:55.914 (rires) 00:12:56.766 --> 00:13:00.014 Ce sont toutes de bonnes idées, mais non. 00:13:01.012 --> 00:13:04.137 Voici la bonne réponse : c'est le mot russe qui désigne l'eau. 00:13:09.301 --> 00:13:12.253 Très bien, nous avons beaucoup parlé 00:13:12.253 --> 00:13:16.412 du nombre de formes et de sens des lexèmes que nous avons, 00:13:16.412 --> 00:13:20.453 mais ce n'est qu'une partie de ce dont vous avez besoin. 00:13:20.453 --> 00:13:21.872 L'autre chose dont vous avez besoin 00:13:21.872 --> 00:13:25.161 c'est une description des formes et des sens de ces lexèmes, 00:13:25.161 --> 00:13:27.647 dans un format qui soit lisible par des machines. 00:13:27.647 --> 00:13:30.679 Et pour cela, vous avez des déclarations, comme dans les éléments. 00:13:31.479 --> 00:13:36.362 Et l'une des propriétés utilisées ici est l'exemple d'utilisation. 00:13:36.362 --> 00:13:38.582 De sorte que quiconque utilisera cette donnée 00:13:38.582 --> 00:13:42.089 pourra comprendre comment utiliser ce mot dans un contexte, 00:13:42.089 --> 00:13:44.648 il peut s'agir d'une citation, par exemple. 00:13:45.396 --> 00:13:47.343 Et dans ce domaine, le polonais assure ! 00:13:47.820 --> 00:13:50.109 Bien joué, à vous qui parlez polonais. 00:13:54.219 --> 00:13:57.680 Une autre propriété qui est vraiment utile, c'est l'API, 00:13:57.680 --> 00:14:00.186 donc la manière de prononcer le mot. 00:14:00.876 --> 00:14:07.577 Il semble que le russe exige de nombreuses déclarations API. 00:14:10.419 --> 00:14:13.314 Mais revoici le polonais en deuxième position. 00:14:17.148 --> 00:14:20.753 Et enfin, nous avons la prononciation audio. 00:14:20.753 --> 00:14:23.472 Il s'agit là de liens vers des fichiers hébergés sur les Commons 00:14:23.472 --> 00:14:25.959 où un individu prononce le mot, 00:14:25.959 --> 00:14:28.500 ce qui vous permet d'entendre le mot prononcé par quelqu'un 00:14:28.500 --> 00:14:29.913 dont c'est la langue natale, 00:14:29.913 --> 00:14:32.871 pour le cas où vous ne sauriez pas déchiffrer l'API, par exemple. 00:14:34.959 --> 00:14:39.205 Et il existe un projet vraiment sympa sous l'impulsion de Wiki 00:14:39.205 --> 00:14:40.884 qui s'appelle « Lingua Libre » 00:14:40.884 --> 00:14:45.173 auquel vous pouvez contribuer en enregistrant des mots dans votre langue 00:14:45.173 --> 00:14:47.966 qui pourront ensuite être ajoutés aux lexèmes sur Wikidata 00:14:48.446 --> 00:14:52.103 afin que d'autres puissent apprendre à prononcer vos mots. 00:14:53.663 --> 00:14:55.694 (propos inaudibles d'un intervenant) 00:14:55.694 --> 00:14:57.665 Si vous recherchez « Lingua Libre » 00:14:57.665 --> 00:15:00.981 et je suis sûre que quelqu'un pourra poster le lien sur Telegram. 00:15:03.138 --> 00:15:04.621 Ces gars-là sont super. 00:15:04.621 --> 00:15:06.726 Ils ont fait un travail formidable avec Wikibase. 00:15:09.416 --> 00:15:10.617 Très bien. 00:15:12.706 --> 00:15:17.285 La question qui se pose à présent est : quelles sont les prochaines étapes ? 00:15:19.165 --> 00:15:22.010 Si l'on en croit les chiffres que je viens de vous montrer, 00:15:23.030 --> 00:15:25.172 nous avons bien avancé 00:15:25.172 --> 00:15:28.430 vers notre objectif de donner plus d'accès à plus de savoir à davantage de gens 00:15:28.430 --> 00:15:31.240 dans le domaine des langues sur Wikidata. 00:15:32.530 --> 00:15:36.392 Mais nous avons encore beaucoup de travail à accomplir. 00:15:38.992 --> 00:15:42.341 Une des choses que vous pouvez faire pour contribuer au projet, 00:15:42.341 --> 00:15:44.921 c'est par exemple de lancer une opération « libelléthon », 00:15:44.921 --> 00:15:50.124 consistant à inciter des gens à créer des libellés sur Wikidata 00:15:50.914 --> 00:15:55.121 ou une campagne de révision des lexèmes dans votre langue 00:15:55.121 --> 00:15:57.372 pour assurer la présence sur Wikidata 00:15:57.372 --> 00:15:59.792 des mots les plus usités dans votre langue. 00:16:00.773 --> 00:16:03.285 Vous pouvez aussi utiliser un outil comme Terminator 00:16:03.285 --> 00:16:07.211 qui vous aide à identifier les éléments les plus importants 00:16:07.211 --> 00:16:11.699 mais ne disposant pas encore d'un libellé dans votre langue. 00:16:13.274 --> 00:16:18.359 Nous qualifions ici de « plus importants » les éléments les plus fréquemment utilisés 00:16:18.359 --> 00:16:22.553 dans d'autres éléments Wikidata en tant que liens dans les déclarations. 00:16:25.768 --> 00:16:30.022 Et bien entendu, pour la partie lexèmes, 00:16:31.342 --> 00:16:35.169 à présent que nous avons couvert l'essentiel des lexèmes, 00:16:35.169 --> 00:16:41.163 il s'agit de les élaborer en y ajoutant des déclarations 00:16:41.163 --> 00:16:44.401 afin qu'ils puissent réellement construire les bases 00:16:44.401 --> 00:16:47.421 sur lesquelles des applications significatives pourront se développer. 00:16:48.141 --> 00:16:50.795 Parce que nous nous rapprochons de la masse critique 00:16:50.795 --> 00:16:53.616 mais nous sommes encore loin 00:16:53.616 --> 00:16:56.624 de la situation permettant de bâtir de sérieuses applications sur ces bases. 00:16:58.277 --> 00:17:01.680 Et j'espère que vous allez tous joindre vos efforts pour atteindre ce but. 00:17:02.583 --> 00:17:07.103 Ce qui m'amène tout droit 00:17:07.103 --> 00:17:09.843 à solliciter les amis qui nous soutiennent 00:17:09.843 --> 00:17:12.812 et Bruno, veux-tu bien me rejoindre 00:17:13.882 --> 00:17:16.854 pour nous parler des masques lexicaux ? 00:17:17.541 --> 00:17:18.567 (Bruno) Merci, Lydia. 00:17:18.567 --> 00:17:21.519 Merci de m'accorder un petit moment 00:17:21.519 --> 00:17:24.150 pour présenter ce travail que nous effectuons à Google 00:17:24.150 --> 00:17:29.635 avec Denny et dont la plupart d'entre vous ont probablement entendu parler. 00:17:30.136 --> 00:17:31.878 Parce que je suis linguiste chez Google, 00:17:31.878 --> 00:17:33.760 et je suis aussi très heureux de me trouver ici 00:17:33.760 --> 00:17:36.620 en compagnie d'autres passionnés des langues, 00:17:36.620 --> 00:17:39.278 et chez Google, nous construisons aussi des lexiques 00:17:39.278 --> 00:17:41.766 et nous avons développé cette technologie 00:17:41.766 --> 00:17:45.589 ou cette approche dont nous pensons qu'elle peut vous être utile. 00:17:46.369 --> 00:17:48.455 Pour vous expliquer un peu le contexte, 00:17:48.455 --> 00:17:52.068 vous pouvez voir ici mes références en matière de lexicographie. 00:17:52.668 --> 00:17:54.667 Pour créer une base de données lexicographiques, 00:17:54.667 --> 00:17:58.623 nous consacrons beaucoup de temps et d'efforts à maintenir une cohérence 00:17:58.623 --> 00:18:00.125 et à échanger des données, 00:18:00.125 --> 00:18:02.027 comme vous le savez probablement. 00:18:02.417 --> 00:18:03.809 Il existe plusieurs tentatives 00:18:03.809 --> 00:18:06.081 visant à unifier les caractéristiques et les propriétés 00:18:06.081 --> 00:18:09.184 qui décrivent ces lexèmes et ces formes 00:18:09.184 --> 00:18:10.936 et la question n'est pas encore réglée 00:18:10.936 --> 00:18:13.958 mais des tentatives sont en cours pour aller dans le sens d'une unification. 00:18:13.958 --> 00:18:15.209 Mais ce qui manque réellement, 00:18:15.209 --> 00:18:17.312 et c'est un problème auquel nous avons été confrontés 00:18:17.312 --> 00:18:18.732 chez Google au début du projet, 00:18:18.732 --> 00:18:21.757 c'est de tenter de construire une structure interne 00:18:22.197 --> 00:18:25.910 décrivant à quoi devrait ressembler une entrée lexicale, 00:18:25.910 --> 00:18:28.581 le type de données ou d'informations dont nous disposons 00:18:28.581 --> 00:18:32.237 et le degré de spécification attendu. 00:18:32.237 --> 00:18:38.187 Et voici ce à quoi nous avons abouti et qui s'appelle le « masque lexical ». 00:18:38.897 --> 00:18:43.639 Un masque lexical décrit les données attendues 00:18:43.639 --> 00:18:47.369 pour qu'une entrée lexicographique puisse être considérée comme complète 00:18:47.369 --> 00:18:51.436 à la fois quant au nombre de formes qu'un lexème devrait avoir 00:18:51.436 --> 00:18:55.607 et quant au nombre de caractéristiques attendues pour chacune de ces formes. 00:18:56.307 --> 00:18:58.409 Voici un exemple portant sur les adjectifs italiens. 00:18:58.409 --> 00:19:02.002 En italien, on devrait trouver quatre formes pour les adjectifs 00:19:02.002 --> 00:19:05.383 et chacune de ces formes reflète une combinaison spécifique 00:19:05.383 --> 00:19:07.946 de caractéristiques de genre et de nombre. 00:19:08.606 --> 00:19:12.672 C'est ce qui est attendu en matière d'adjectifs italiens. 00:19:12.672 --> 00:19:16.176 Bien sûr, on peut avoir des masques extrêmement complexes, 00:19:16.176 --> 00:19:20.783 comme pour les conjugaisons françaises qui sont très fournies 00:19:20.783 --> 00:19:23.487 et je ne vous présente pas un masque russe quel qu'il soit, 00:19:23.487 --> 00:19:25.378 parce qu'il déborderait de l'écran. 00:19:26.308 --> 00:19:29.531 Et nous avons aussi des spécifications détaillées 00:19:29.531 --> 00:19:33.421 parce que nous distinguons ce qui se situe au niveau de la forme. 00:19:33.421 --> 00:19:37.544 Donc ici vous voyez les noms russes qui comportent trois nombres 00:19:37.544 --> 00:19:40.048 ainsi qu'un nombre de cas avec différentes formes 00:19:40.048 --> 00:19:43.086 mais ils ont également une spécification au niveau de l'entrée 00:19:43.086 --> 00:19:45.590 qui indique qu'un nom 00:19:45.590 --> 00:19:47.073 a un genre inhérent 00:19:47.073 --> 00:19:50.133 ainsi qu'une caractéristique d'animéité inhérente 00:19:50.133 --> 00:19:52.688 qui est également précisée dans le masque. 00:19:54.518 --> 00:19:58.779 Nous voulons aussi préciser qu'un masque indique une spécification 00:19:58.779 --> 00:20:01.874 de ce à quoi devrait ressembler une entrée, de manière générale. 00:20:01.874 --> 00:20:07.158 Mais vous pouvez avoir des masques plus petits en cas de formes réduites 00:20:07.158 --> 00:20:11.282 ou d'aspects limités de l'utilisation du lexème dans la langue. 00:20:11.282 --> 00:20:14.537 Voici par exemple la version la plus simple de verbes en français 00:20:14.537 --> 00:20:17.584 qui ne se conjuguent qu'à la troisième personne du singulier, 00:20:17.584 --> 00:20:19.930 les verbes désignant les phénomènes météorologiques 00:20:19.930 --> 00:20:23.969 comme « il pleut » ou « il neige », comme c'est aussi le cas en anglais. 00:20:24.537 --> 00:20:26.923 Donc, nous faisons la distinction entre ces deux niveaux. 00:20:26.923 --> 00:20:29.962 Et la façon dont nous utilisons cela chez Google, 00:20:29.962 --> 00:20:32.643 quand nous avons un lexique que nous voulons utiliser, 00:20:33.063 --> 00:20:38.219 nous utilisons le masque pour carrément y déverser le lexique 00:20:38.219 --> 00:20:40.283 et toutes ses entrées, qui vont traverser le masque 00:20:40.283 --> 00:20:44.303 et nous voyons quelles entrées posent un problème en termes de structure. 00:20:44.303 --> 00:20:46.673 Manque-t-il une forme ? Manque-t-il une caractéristique ? 00:20:46.673 --> 00:20:48.563 Et quand un problème se présente, 00:20:48.563 --> 00:20:51.497 nous avons recours à une validation humaine 00:20:51.497 --> 00:20:53.751 pour vérifier si l'entrée passe l'épreuve du masque. 00:20:53.751 --> 00:20:57.924 C'est donc un outil extrêmement puissant pour vérifier la qualité de la structure. 00:20:59.427 --> 00:21:01.964 Et nous sommes heureux de vous annoncer aujourd'hui 00:21:01.964 --> 00:21:05.408 que nous avons eu le feu vert pour ouvrir notre masque à l'open source. 00:21:05.948 --> 00:21:07.469 Donc voici le schéma. 00:21:07.469 --> 00:21:09.697 Si vous le voulez, nous pouvons le mettre à disposition 00:21:09.697 --> 00:21:13.483 et le fournir à Wikidata sous forme de fichiers Shex. 00:21:13.483 --> 00:21:16.688 Voici un fichier Shex pour les noms allemands 00:21:16.688 --> 00:21:20.428 et Denny travaille à le convertir pour passer de nos spécifications internes 00:21:20.428 --> 00:21:23.666 à une spécification plus appropriée à l'open source 00:21:23.666 --> 00:21:27.522 Nous couvrons actuellement plus de 25 langues. 00:21:27.522 --> 00:21:29.495 Nous espérons développer cette offre de notre côté 00:21:29.495 --> 00:21:34.350 mais nous y voyons aussi une opportunité de collaboration pour ajouter des langues. 00:21:34.350 --> 00:21:40.728 Et l'une de ces collaborations est celle que Denny entretient avec Lukas. 00:21:40.728 --> 00:21:45.052 Lukas dispose d'outils fantastiques permettant une interface utilisateur 00:21:45.052 --> 00:21:48.525 pour permettre à l'utilisateur ou au contributeur 00:21:48.525 --> 00:21:51.061 d'ajouter davantage de formes. 00:21:51.061 --> 00:21:54.151 Donc si vous voulez ajouter un adjectif en français, 00:21:54.151 --> 00:21:59.057 l'IU vous indiquera le nombre de formes à fournir 00:21:59.057 --> 00:22:01.562 et les caractéristiques que ces formes devraient avoir. 00:22:01.562 --> 00:22:06.268 Ainsi notre masque permettra à cet outil de s'affiner et de se développer. 00:22:07.238 --> 00:22:08.385 Et voilà. 00:22:08.791 --> 00:22:10.358 (Lydia) Merci infiniment. 00:22:10.358 --> 00:22:11.993 (applaudissements) 00:22:14.249 --> 00:22:16.891 (Lydia) Très bien. Avez-vous des questions ? 00:22:16.891 --> 00:22:19.381 Souhaitez-vous que nous parlions davantage des lexèmes ? 00:22:19.774 --> 00:22:21.885 - (intervenant 1) Oui. - (Lydia) Oui. (petit rire) 00:22:33.485 --> 00:22:35.380 - (intervenant 1) Vous parliez 00:22:35.380 --> 00:22:39.106 de donner plus d'accès à plus de gens dans plus de langues, 00:22:39.106 --> 00:22:42.444 mais beaucoup de langues ne peuvent pas être utilisées dans Wikidata. 00:22:42.444 --> 00:22:44.838 Quelle solution avez-vous pour résoudre cela ? NOTE Paragraph 00:22:45.079 --> 00:22:47.686 Quand vous dites qu'elles ne peuvent pas utiliser Wikidata, 00:22:47.686 --> 00:22:50.208 est-ce que vous parlez d'intégrer des libellés ? 00:22:50.208 --> 00:22:52.581 - (i.1) Des libellés, des descriptions. - D'accord. 00:22:52.581 --> 00:22:55.498 Donc, en ce qui concerne les lexèmes, c'est un peu différent, 00:22:55.498 --> 00:22:58.003 parce que cette restriction ne s'applique pas ici. 00:22:58.923 --> 00:23:05.003 Pour les libellés des éléments et propriétés, des restrictions existent 00:23:05.433 --> 00:23:10.551 parce que nous voulions nous assurer 00:23:10.551 --> 00:23:14.229 que n'importe qui ne puisse pas faire n'importe quoi 00:23:14.229 --> 00:23:17.769 et que cela devienne ingérable. 00:23:19.349 --> 00:23:23.328 Si une communauté, même petite, veut ajouter une langue et y travailler, 00:23:23.898 --> 00:23:26.787 venez en discuter avec nous et nous pourrons rendre cela possible. 00:23:26.787 --> 00:23:29.470 (i.1) Nous l'avons fait à l'occasion du Hackathon de Prague en mai 00:23:29.470 --> 00:23:32.576 et il nous a fallu attendre le mois d'août pour pouvoir utiliser notre langue. 00:23:32.576 --> 00:23:35.135 - Oui. - (i.1) Donc, c'est très lent. 00:23:35.135 --> 00:23:37.854 Oui, c'est malheureusement très lent. 00:23:37.854 --> 00:23:40.093 Nous travaillons actuellement avec le Comité des langues 00:23:40.093 --> 00:23:46.048 à la résolution de certains points fondamentaux... 00:23:49.537 --> 00:23:55.447 Comme par exemple parvenir à un accord sur les langues qui sont « autorisées » 00:23:56.047 --> 00:23:59.468 et cela nous a pris trop de temps, 00:23:59.988 --> 00:24:02.258 ce qui explique pourquoi votre demande 00:24:02.258 --> 00:24:04.868 a probablement mis plus de temps à aboutir qu'elle ne l'aurait dû. 00:24:04.868 --> 00:24:05.963 (i.1) Merci. 00:24:06.705 --> 00:24:07.800 (intervenant 2) Merci. 00:24:07.800 --> 00:24:10.938 Lydia, vous vous souvenez des statistiques que vous nous avez montrées, 00:24:10.938 --> 00:24:12.886 sur le nombre de lexèmes par langue ? 00:24:12.886 --> 00:24:17.599 Avez-vous pris chaque forme comme unité de calcul 00:24:17.599 --> 00:24:20.034 ou seulement les lexèmes ? 00:24:21.159 --> 00:24:22.941 Vous faites référence à ceci ? 00:24:22.941 --> 00:24:25.797 - De quelle diapo parlez-vous ? - (i.2) Oui, c'est exactement cela. 00:24:25.797 --> 00:24:28.341 Si vous vous rappelez, ce nombre représente-t-il 00:24:28.341 --> 00:24:31.954 toutes les formes de tous les lexèmes où seulement les lexèmes existants ? 00:24:31.954 --> 00:24:35.395 - Non, ce sont seulement des lexèmes. - (i.2) Uniquement les lexèmes, d'accord. 00:24:35.395 --> 00:24:36.897 Alors la statistique est correcte. 00:24:36.897 --> 00:24:39.390 Parce que si vous aviez pris les formes en compte, 00:24:39.390 --> 00:24:40.748 et c'est la raison de ma question, 00:24:40.748 --> 00:24:43.074 alors toutes les langues ayant une morphologie flexionnelle 00:24:43.074 --> 00:24:45.027 comme le russe, le serbe, le slovène, etc. 00:24:45.027 --> 00:24:47.616 seraient naturellement avantagées tant elles ont de formes. 00:24:47.616 --> 00:24:51.990 C'est ici que c'est manifeste, sur le nombre de formes. 00:24:51.990 --> 00:24:54.141 (intervenant 2) Oui, c'était bien celle-ci. Merci. 00:24:56.546 --> 00:25:00.224 (intervenant 3) Une petite question concernant... 00:25:00.644 --> 00:25:06.824 Quand nous parlons des éléments et propriétés à proprement parler, 00:25:07.124 --> 00:25:08.901 Pour autant que je sache, 00:25:08.901 --> 00:25:11.955 il n'y a à l'heure actuelle aucun moyen d'identifier une source 00:25:11.955 --> 00:25:14.726 pour n'importe lequel des libellés et descriptions qui sont fournis. 00:25:14.726 --> 00:25:18.047 Donc, par exemple, quand vous parlez 00:25:18.047 --> 00:25:20.920 d'une propriété d'un élément, 00:25:20.920 --> 00:25:24.509 vous pouvez être confronté à des libellés contradictoires. 00:25:24.509 --> 00:25:25.739 Oui. 00:25:25.739 --> 00:25:27.862 (i.3) Donc, disons que telle personne est... 00:25:28.302 --> 00:25:30.920 Nous parlions tout à l'heure des questions indigènes, par exemple. 00:25:30.920 --> 00:25:35.965 Donc telle personne est un artiste norvégien selon telle source 00:25:35.965 --> 00:25:38.750 et un artiste sami selon telle autre source. 00:25:39.550 --> 00:25:42.883 Ou par exemple, la question s'est posée pour l'estonien 00:25:42.883 --> 00:25:47.729 et nous avons dû revoir la terminologie en fonction de la terminologie officielle 00:25:47.729 --> 00:25:49.667 telle qu'elle figure dans les lexiques officiels, 00:25:49.667 --> 00:25:52.262 mais nous n'avons aucun moyen d'indiquer quelle en est la raison, 00:25:52.262 --> 00:25:54.426 quelle en est la source et pourquoi c'est plus juste 00:25:54.426 --> 00:25:55.658 que ce qu'il y avait avant. 00:25:55.658 --> 00:25:57.150 C'est un simple quidam comme moi 00:25:57.150 --> 00:25:59.615 qui a remplacé la donnée pour qui la verra. 00:25:59.615 --> 00:26:02.520 Donc est-il prévu de rendre cela possible d'une manière ou d'une autre 00:26:02.520 --> 00:26:06.605 afin que nous puissions avoir de vraies sources pour les données linguistiques ? 00:26:07.045 --> 00:26:11.568 Alors, c'est en partie possible. 00:26:11.568 --> 00:26:16.088 Donc, par exemple, quand vous avez un élément portant sur une personne, 00:26:16.898 --> 00:26:22.720 vous avez dans les déclarations : prénom, nom, etc., de cette personne 00:26:22.720 --> 00:26:26.406 et vous pouvez fournir la référence correspondante à ce niveau-là. 00:26:28.101 --> 00:26:32.544 J'ai beaucoup de réserves quant à rendre les choses plus complexes 00:26:32.544 --> 00:26:35.557 avec des références sur les libellés et les descriptions, 00:26:35.557 --> 00:26:38.624 mais si les gens pensent vraiment 00:26:38.624 --> 00:26:44.939 que c'est quelque chose qui n'est couvert par aucune référence sur la déclaration, 00:26:44.939 --> 00:26:46.803 alors parlons-en. 00:26:49.079 --> 00:26:53.303 Mais je crains que cela n'entraîne beaucoup de complexité 00:26:53.303 --> 00:26:56.523 pour des occurrences dont j'espère qu'elles sont peu nombreuses, 00:26:57.393 --> 00:27:00.188 mais je veux bien être convaincue du contraire, 00:27:00.188 --> 00:27:04.087 si les gens y tiennent beaucoup. 00:27:04.087 --> 00:27:08.177 (i.3) Je veux dire, si c'est ajouté ce ne devrait pas être impératif 00:27:08.177 --> 00:27:12.452 et apparaître à tous les utilisateurs débutant dans l'interface en tout cas. 00:27:12.452 --> 00:27:13.580 Plutôt quelque chose comme : 00:27:13.580 --> 00:27:16.761 « Cliquez ici si vous avez des commentaires à faire à ce sujet ». 00:27:17.632 --> 00:27:23.368 A-t-on une idée du nombre de cas où cela aurait de l'importance ? 00:27:24.520 --> 00:27:26.423 (i.3) En estonien, par exemple, 00:27:26.423 --> 00:27:29.164 et je suppose que c'est aussi le cas dans d'autres langues, 00:27:29.164 --> 00:27:34.203 il existe un mot officiel, qui est la traduction légitime 00:27:34.203 --> 00:27:36.206 par exemple, en anglais, 00:27:36.206 --> 00:27:40.314 disons d'un type particulier de municipalité. 00:27:40.314 --> 00:27:41.746 C'était mon cas pratique, 00:27:41.746 --> 00:27:44.409 par exemple, où nous utilisions le mot « paroisse » 00:27:45.159 --> 00:27:50.775 où effectivement le mot estonien original avait le sens de paroisse d'église 00:27:50.775 --> 00:27:51.999 et c'était là l'origine du mot 00:27:51.999 --> 00:27:53.699 mais ce n'est plus la traduction officielle 00:27:53.699 --> 00:27:55.189 qu'en donne l'Estonie aujourd'hui. 00:27:55.189 --> 00:27:57.531 Dans ce cas, je l'ajouterais dans les déclarations 00:27:57.531 --> 00:28:00.817 en tant que nom officiel et c'est là que j'ajouterais la référence. 00:28:02.032 --> 00:28:03.158 (intervenant 3) D'accord. 00:28:05.186 --> 00:28:06.952 D'autres questions, oui ? 00:28:07.682 --> 00:28:10.044 (intervenant 4) J'aimerais faire deux courtes remarques. 00:28:10.044 --> 00:28:13.934 Vous avez mis l'asturien en avant comme une langue réussissant bien 00:28:13.934 --> 00:28:16.455 et je pense qu'il s'agit d'un effet artificiel. 00:28:16.455 --> 00:28:17.724 Dites-m'en plus. 00:28:17.724 --> 00:28:19.748 (intervenant 4) Je pense que c'est juste un robot 00:28:19.748 --> 00:28:21.854 - (i.4) qui a collé... - Oh non ! 00:28:21.854 --> 00:28:24.068 (i.4) des noms de personnes, des noms propres 00:28:24.068 --> 00:28:27.172 et a dit : « C'est exactement comme en français ou en espagnol », 00:28:27.172 --> 00:28:28.558 et a tout copié en bloc. 00:28:28.558 --> 00:28:33.316 Ce qui tend à prouver ça, c'est qu'on ne retrouve pas cette énergie en asturien 00:28:33.316 --> 00:28:35.785 pour les choses qui exigent réellement un effort de traduction 00:28:35.785 --> 00:28:37.336 comme les noms de propriétés 00:28:37.336 --> 00:28:39.648 ou les noms des éléments qui ne sont pas des noms propres. 00:28:39.648 --> 00:28:41.219 Asaf, vous me brisez le cœur. 00:28:41.219 --> 00:28:43.198 (i.4) Je sais. J'aime bien gâcher la fête, 00:28:43.198 --> 00:28:48.558 mais j'ai aussi de bonnes nouvelles au sujet des scores en prononciation. 00:28:49.408 --> 00:28:50.765 Comme vous le savez probablement, 00:28:50.765 --> 00:28:53.515 les Commons sont pleins de fichiers de prononciation 00:28:53.515 --> 00:28:54.668 et par exemple 00:28:54.668 --> 00:28:59.464 le néerlandais compte pas moins de 300 000 fichiers de prononciation 00:28:59.464 --> 00:29:01.912 qui sont déjà dans les Commons 00:29:01.912 --> 00:29:05.051 et qui ne demandent qu'à être ingérés. 00:29:05.051 --> 00:29:07.697 Donc si quelqu'un est en recherche d'un projet connexe, 00:29:07.697 --> 00:29:09.118 il existe des tonnes et des tonnes 00:29:09.118 --> 00:29:13.280 de fichiers de prononciation, classés et catégorisés dans les Commons 00:29:13.280 --> 00:29:16.893 sous la catégorie « Prononciation » par langue. 00:29:16.893 --> 00:29:22.840 Il n'y a plus qu'à les faire correspondre aux lexèmes et les intégrer dans Lexèmes. 00:29:23.000 --> 00:29:25.484 Et d'autre part, je me demandais si vous pourriez parler un peu 00:29:25.484 --> 00:29:26.585 de la feuille de route, 00:29:26.585 --> 00:29:28.757 nous dire un peu quel degré d'investissement 00:29:28.757 --> 00:29:31.995 ou ce que nous pouvons attendre de Lexème pour l'année qui vient, 00:29:31.995 --> 00:29:34.560 parce qu'en tout cas pour ma part, je brûle d'impatience. 00:29:34.949 --> 00:29:37.044 Vous brûlez d'impatience ? (petit rire) 00:29:37.044 --> 00:29:39.588 - (i.3) de voir la suite. - Oui (petit rire) 00:29:44.541 --> 00:29:48.073 Actuellement, nous nous concentrons plutôt sur Wikibase 00:29:48.073 --> 00:29:50.138 et la qualité des données 00:29:51.493 --> 00:29:55.087 pour voir quel est l'attrait suscité, 00:29:55.087 --> 00:30:01.676 puis l'augmenter davantage au niveau des points faibles 00:30:01.676 --> 00:30:06.003 et ensuite revenir pour continuer à développer les données lexicographiques. 00:30:06.903 --> 00:30:09.790 Et une des choses que j'aimerais entendre de votre part, 00:30:09.790 --> 00:30:14.136 c'est quelles devraient précisément être les prochaines étapes selon vous. 00:30:14.136 --> 00:30:15.966 où voulez-vous voir des améliorations 00:30:15.966 --> 00:30:20.340 pour que nous puissions définir comment parvenir à les produire. 00:30:21.125 --> 00:30:22.810 Mais bien sûr, vous avez raison, 00:30:22.810 --> 00:30:25.832 il reste encore tant à faire, au niveau technique aussi. 00:30:30.573 --> 00:30:35.848 (intervenant 5) Tandis que nous intégrions les mots basques avec leurs formes, 00:30:35.848 --> 00:30:37.768 et ce genre de situations est assez fréquent, 00:30:37.768 --> 00:30:41.399 nous nous disions, la semaine dernière : « Oh, nous sommes premiers quelque part » 00:30:42.739 --> 00:30:44.928 ça sort dans la presse, c'est comme : 00:30:44.928 --> 00:30:49.488 « Oh, c'est une première, les Basques sont premiers dans un domaine, chouette ! » 00:30:49.488 --> 00:30:50.606 (rire) 00:30:50.606 --> 00:30:53.708 Et alors les gens nous demandent : « C'est bien, mais à quoi ça sert ? » 00:30:54.678 --> 00:30:56.849 Nous n'avons pas vraiment de bonne réponse à ça. 00:30:56.849 --> 00:30:57.980 je veux dire, c'est pas mal, 00:30:57.980 --> 00:31:01.841 cela permettra aux ordinateurs de comprendre davantage notre langue, oui, 00:31:01.841 --> 00:31:05.279 mais quel genre d'outils pourrons-nous développer à l'avenir ? 00:31:05.279 --> 00:31:07.467 Nous n'avons pas de bonne réponse à cette question. 00:31:07.467 --> 00:31:10.625 Donc, je me demande si vous avez une bonne réponse à ça. 00:31:10.625 --> 00:31:12.982 (petit rire) Je ne sais pas si c'est une bonne réponse, 00:31:12.982 --> 00:31:14.846 mais j'ai une réponse. 00:31:15.480 --> 00:31:20.425 Alors, je crois qu'à l'heure actuelle, comme je l'indiquais, 00:31:20.425 --> 00:31:22.194 nous n'avons pas atteint cette masse critique 00:31:22.194 --> 00:31:25.529 qui permet de construire bon nombre des outils vraiment intéressants. 00:31:25.529 --> 00:31:27.707 Mais il existe déjà quelques outils. 00:31:28.267 --> 00:31:31.912 Pas plus tard que l'autre jour, par exemple, Esther [Pandelia] 00:31:31.912 --> 00:31:34.217 a mis à disposition un outil permettant de visualiser 00:31:35.837 --> 00:31:38.889 je crois qu'il s'agissait des mots sur un globe, 00:31:38.889 --> 00:31:41.901 l'endroit où ils sont le plus parlés, l'endroit dont ils sont originaires. 00:31:42.631 --> 00:31:44.090 Je me trompe peut-être là-dessus, 00:31:44.090 --> 00:31:46.526 mais elle a répondu sur la page Discussion Projet de Wikidata, 00:31:46.526 --> 00:31:48.984 vous pouvez allez voir. 00:31:49.574 --> 00:31:51.805 Donc, nous voyons apparaître ces premiers outils, 00:31:51.805 --> 00:31:55.806 tout comme nous l'avons vu au démarrage de Wikidata, 00:31:56.846 --> 00:31:59.602 d'abord comme une sorte de réseau, 00:31:59.602 --> 00:32:03.424 puis : « Hé, mais il y a cette chose qui se connecte à cette autre chose ». 00:32:04.824 --> 00:32:07.059 Et une fois que l'on a plus de données 00:32:07.059 --> 00:32:10.612 et que l'on a atteint une sorte de masse critique, 00:32:11.852 --> 00:32:14.747 de nouvelles applications plus puissantes deviennent possibles 00:32:15.677 --> 00:32:17.676 des choses comme Histropedia, 00:32:19.126 --> 00:32:21.988 des choses comme les questions-réponses 00:32:21.988 --> 00:32:26.663 avec votre assistant personnel numérique, Platypus et ainsi de suite. 00:32:26.663 --> 00:32:30.038 Et nous voyons le même phénomène se produire avec les lexèmes. 00:32:31.198 --> 00:32:34.650 Nous en sommes au stade où vous pouvez construire ces petits 00:32:34.650 --> 00:32:37.464 « Hé, il y a une connexion possible entre ces deux choses, 00:32:37.864 --> 00:32:42.738 et il existe une traduction de ce mot dans cette langue ». 00:32:42.738 --> 00:32:47.747 Et plus nous l'élaborons, plus nous décrivons de mots, 00:32:47.747 --> 00:32:49.533 plus ces choses deviennent possibles. 00:32:49.533 --> 00:32:51.795 Alors, qu'est-ce qui devient possible ? 00:32:53.482 --> 00:32:59.483 Comme Ben, notre conférencier sur Keynote, le disait plus tôt : les traductions, 00:33:00.103 --> 00:33:03.455 être capable de traduire d'une langue à une autre. 00:33:03.455 --> 00:33:07.929 Et Jens, mon collègue, ne cesse de parler 00:33:07.929 --> 00:33:11.452 de l'Union Européenne qui cherche un traducteur 00:33:11.452 --> 00:33:17.439 capable de traduire du maltais au suédois, je crois. 00:33:17.439 --> 00:33:19.716 - (intervenant 6) de l'estonien. - De l'estonien. 00:33:22.016 --> 00:33:26.211 Et ce n'est pas là une combinaison habituelle, 00:33:27.211 --> 00:33:29.375 mais une fois que toutes ces langues sont disponibles 00:33:29.375 --> 00:33:31.735 dans un espace lisible par des machines, 00:33:31.735 --> 00:33:33.143 c'est faisable, 00:33:33.143 --> 00:33:36.857 on peut avoir un dictionnaire 00:33:36.857 --> 00:33:41.735 estonien-maltais et vice-versa. 00:33:42.865 --> 00:33:45.607 Donc assurer des combinaisons de langues dans des dictionnaires 00:33:45.607 --> 00:33:47.911 qui n'ont jamais été réalisés auparavant 00:33:47.911 --> 00:33:51.050 parce que la demande était insuffisante 00:33:51.050 --> 00:33:55.540 pour en faire un projet financièrement viable qui justifie un tel travail. 00:33:55.540 --> 00:33:57.147 Maintenant nous pouvons le faire. 00:33:59.797 --> 00:34:02.318 Ensuite, la création de texte. 00:34:02.318 --> 00:34:03.653 Lucie parlait tout à l'heure 00:34:03.653 --> 00:34:10.136 de la manière dont elle travaille avec Hattie à générer du texte 00:34:10.136 --> 00:34:12.153 pour commencer à diffuser des articles de Wikipédia 00:34:12.153 --> 00:34:15.021 dans des langues minoritaires 00:34:15.423 --> 00:34:19.512 et cela exige d'avoir des données sur les mots 00:34:19.512 --> 00:34:22.589 et il faut comprendre la langue pour y parvenir. 00:34:23.669 --> 00:34:28.133 Et oui, ce ne sont que quelques exemples qui me viennent à l'esprit. 00:34:28.513 --> 00:34:30.604 Peut-être que notre auditoire a d'autres idées 00:34:30.604 --> 00:34:32.364 quant à ce qu'ils voudraient faire 00:34:32.364 --> 00:34:34.914 une fois que nous aurons toutes ces précieuses données. 00:34:37.693 --> 00:34:40.892 (intervenant 7) Je vais un peu m'écarter du sujet des lexèmes. 00:34:40.892 --> 00:34:42.666 Je voudrais poser cette question. 00:34:42.666 --> 00:34:45.634 Quel impact puis-je avoir en tant que membre d'une communauté 00:34:45.634 --> 00:34:50.135 pour faire d'une tâche une priorité, 00:34:50.135 --> 00:34:54.493 afin qu'un nouvel utilisateur puisse indiquer les langues 00:34:54.493 --> 00:34:56.644 qu'il souhaite voir et éditer 00:34:56.644 --> 00:35:01.135 sans disposer d'une bulle secrète de connaissances formatées ? 00:35:02.145 --> 00:35:05.193 Peut-être verrons-nous cette année cette liste de souhaits techniques exaucée 00:35:05.193 --> 00:35:07.040 en dehors des thèmes de Wikipédia. 00:35:07.040 --> 00:35:10.119 Peut-être pouvons-nous espérer un vote général sur ce point 00:35:10.119 --> 00:35:14.218 que nous n'avons pas réussi à résoudre depuis sept ans. 00:35:14.218 --> 00:35:17.607 Avez-vous des idées ou des commentaires à ce sujet ? 00:35:18.217 --> 00:35:20.328 Vous faites référence au fait 00:35:20.328 --> 00:35:23.518 qu'un utilisateur qui n'est pas connecté sur Wikidata 00:35:23.518 --> 00:35:25.971 ne peut pas apporter facilement de changements sur sa langue ? 00:35:25.971 --> 00:35:28.039 (intervenant 7) Non, je parle des utilisateurs. 00:35:28.309 --> 00:35:30.689 Alors, s'ils sont connectés, 00:35:30.689 --> 00:35:34.871 ils peuvent modifier leur langue en haut de la page 00:35:35.891 --> 00:35:38.489 et là ils verront apparaître, 00:35:39.659 --> 00:35:42.271 l'endroit où se trouvent les descriptions des libellés 00:35:42.271 --> 00:35:43.773 et ils peuvent les modifier. 00:35:45.657 --> 00:35:49.009 (intervenant 7) Eh bien, en fait, bien souvent, le processus est tel 00:35:49.009 --> 00:35:52.447 que si vous voulez avoir plusieurs langues disponibles, elles le sont, 00:35:52.447 --> 00:35:55.419 mais ce n'est pas toujours le cas. 00:35:55.419 --> 00:35:57.364 D'accord, peut-être pouvons-nous en discuter 00:35:57.364 --> 00:35:59.543 après cette conférence et vous me montrerez ? 00:36:01.562 --> 00:36:04.089 Bien. D'autres questions ? 00:36:05.534 --> 00:36:06.536 Oui. 00:36:11.595 --> 00:36:13.196 (intervenant 8) Merci pour votre exposé. 00:36:14.106 --> 00:36:15.127 Pouvez-vous nous parler 00:36:15.127 --> 00:36:19.307 de l'état de la corrélation avec la communauté Wiktionary ? 00:36:19.307 --> 00:36:22.296 D'après ce que j'en ai vu, il a été question lors de discussions 00:36:22.296 --> 00:36:26.051 d'importer certains éléments qui sont le fruit de leur travail 00:36:26.051 --> 00:36:30.843 mais il semble qu'il y ait des problèmes de licences et des désaccords, etc. 00:36:30.843 --> 00:36:31.848 C'est exact. 00:36:31.848 --> 00:36:36.330 Les communautés Wiktionary ont consacré énormément de temps 00:36:37.320 --> 00:36:39.473 à la construction de Wiktionary. 00:36:39.473 --> 00:36:42.643 Ils ont élaboré 00:36:43.193 --> 00:36:47.554 des modèles incroyablement complexes 00:36:47.554 --> 00:36:50.525 pour créer de beaux tableaux 00:36:50.525 --> 00:36:53.614 qui vous génèrent automatiquement des formulaires 00:36:53.614 --> 00:36:56.392 et toutes sortes de trucs impressionnants 00:36:56.392 --> 00:37:00.683 et parfois vraiment dingues, quand on y pense. 00:37:02.311 --> 00:37:07.994 Et bien sûr, ils y ont consacré énormément de temps et d'efforts. 00:37:09.364 --> 00:37:11.801 On peut comprendre 00:37:11.801 --> 00:37:17.116 qu'ils ne souhaitent pas qu'on puisse s'approprier tout ça 00:37:18.046 --> 00:37:19.102 aussi facilement. 00:37:19.102 --> 00:37:21.791 Donc c'est un peu ce qui se dit de ce côté-là. 00:37:22.761 --> 00:37:25.137 Et c'est OK. 00:37:25.737 --> 00:37:32.092 Maintenant, les premières communautés Wiktionary parlent de participer 00:37:32.092 --> 00:37:34.329 et d'importer certaines de leurs données sur Wikidata. 00:37:34.329 --> 00:37:39.095 Le russe, comme vous avez pu le voir par exemple fait partie de ces cas. 00:37:40.375 --> 00:37:42.355 Et je m'attends à ce que d'autres suivent. 00:37:43.635 --> 00:37:46.800 Mais ce sera un processus lent, 00:37:46.800 --> 00:37:49.383 de même que l'adoption de données Wikidata sur Wikipedia 00:37:49.383 --> 00:37:51.909 a également fait l'objet d'un processus assez lent. 00:37:52.849 --> 00:37:56.183 Outre le fait que cela rend plus facile 00:37:56.183 --> 00:37:59.132 l'utilisation des données comprises dans les lexèmes 00:37:59.132 --> 00:38:02.209 sur Wiktionary, pour qu'ils puissent s'en servir et partager des données 00:38:02.209 --> 00:38:05.531 entre les Wiktionnaires de différentes langues, 00:38:05.531 --> 00:38:08.853 chose hyper difficile voire impossible à faire à l'heure actuelle, 00:38:08.853 --> 00:38:11.560 ce qui est fou, comme ce fut le cas sur Wikipédia. 00:38:13.860 --> 00:38:16.595 Attendons les cadeaux d'anniversaire ! (petit rire) 00:38:20.038 --> 00:38:21.182 Oui. 00:38:22.849 --> 00:38:24.827 (Intervenant 9) Je pensais à la situation inverse, 00:38:24.827 --> 00:38:28.168 je ne voulais pas en parler parce que ça me semblait idiot, 00:38:28.168 --> 00:38:32.003 mais je crois que Wiktionnary dispose déjà de certains contenus 00:38:32.003 --> 00:38:34.978 et je sais qu'on ne peut pas les transférer sur Wikidata 00:38:34.978 --> 00:38:37.048 en raison des différences de licences. 00:38:37.048 --> 00:38:39.891 Mais je me disais que nous pourrions peut-être remédier à cela. 00:38:40.321 --> 00:38:45.913 Peut-être peut-on obtenir la permission des communautés 00:38:45.913 --> 00:38:51.205 après un vote général 00:38:52.075 --> 00:38:55.642 au cours duquel la communauté, les membres actifs de la communauté 00:38:55.642 --> 00:39:02.523 voteraient et diraient s'ils veulent ou acceptent de transférer les contenus 00:39:02.523 --> 00:39:05.528 permettant de faire les lexèmes Wikidata. 00:39:06.238 --> 00:39:08.637 Parce que ça me paraît être un vrai gâchis. 00:39:09.568 --> 00:39:13.443 Donc, c'est certainement une conversation 00:39:13.443 --> 00:39:16.146 que ceux qui sont membres de communautés Wiktionary 00:39:16.146 --> 00:39:18.319 peuvent susciter entre eux et nous en serions heureux. 00:39:18.319 --> 00:39:24.647 Je crois que ce serait un peu présomptueux de notre part de chercher à forcer cela. 00:39:25.917 --> 00:39:31.142 Mais oui, cela mérite largement qu'on en discute. 00:39:31.142 --> 00:39:33.898 Mais il me semble important de comprendre 00:39:33.898 --> 00:39:36.117 qu'il faut faire la distinction 00:39:36.117 --> 00:39:39.082 entre ce qui est faisable d'un point de vue légal, 00:39:39.082 --> 00:39:43.147 ce que nous devrions faire 00:39:43.147 --> 00:39:45.426 et ce que ces gens veulent faire ou pas. 00:39:45.626 --> 00:39:47.510 Donc, même si c'est autorisé légalement, 00:39:47.510 --> 00:39:50.640 si certaines communautés Wiktionary s'y opposent, 00:39:50.640 --> 00:39:53.637 je crois que nous devrions être pour le moins prudents là-dessus. 00:39:58.886 --> 00:40:02.489 Je crois qu'il vous faut un micro pour la retransmission. 00:40:04.540 --> 00:40:07.549 (intervenant 10) Tout cela est bien sûr très enthousiasmant 00:40:07.979 --> 00:40:12.319 et je me demande tout de suite comment je peux en faire profiter mes élèves 00:40:12.319 --> 00:40:15.558 et intégrer cela à mes cours, 00:40:15.558 --> 00:40:18.531 au travail que nous faisons, dans le cadre de l'éducation. 00:40:18.531 --> 00:40:22.271 Et je ne dispose pas à ce jour 00:40:22.621 --> 00:40:24.241 des connaissances suffisantes, d'abord, 00:40:24.241 --> 00:40:27.278 mais je crois que la documentation dont nous disposons 00:40:27.808 --> 00:40:30.082 pourrait peut-être être améliorée. 00:40:30.082 --> 00:40:33.437 Donc, j'aimerais exprimer le souhait de voir réaliser des vidéos sympa 00:40:33.437 --> 00:40:35.898 pour expliquer comment ça marche 00:40:35.898 --> 00:40:39.948 parce que si nous avons cela, nous pourrons nous en servir 00:40:39.948 --> 00:40:41.985 et impliquer les élèves 00:40:41.985 --> 00:40:47.072 et nous pourrons faire savoir aux gens à quel point c'est fantastique. 00:40:47.072 --> 00:40:52.001 Et oui, donc, s'il vous plaît, pensez à la documentation et à l'éducation. 00:40:52.001 --> 00:40:54.480 Parce que je crois qu'on pourrait faire beaucoup de choses. 00:40:54.480 --> 00:40:58.585 Il y a de nombreuses tâches qui pourraient être effectuées avec... 00:41:00.125 --> 00:41:02.033 je ne dirais pas des élèves de primaire 00:41:02.033 --> 00:41:05.495 mais certainement avec des élèves plus jeunes. 00:41:05.915 --> 00:41:10.866 Et donc j'aimerais vraiment que ce potentiel soit mis à contribution 00:41:10.866 --> 00:41:15.272 et personnellement, je ne m'y connais pas assez à ce stade 00:41:15.272 --> 00:41:19.500 pour pouvoir créer des tâches ou créer... 00:41:20.430 --> 00:41:22.155 faire quelque chose de pratique avec ça. 00:41:22.155 --> 00:41:25.772 Donc, si quelqu'un peut apporter de l'aide, des idées à ce sujet, 00:41:25.772 --> 00:41:29.648 ce serait une joie pour moi d'entendre vos idées et les vôtres aussi. 00:41:30.508 --> 00:41:32.329 D'accord ! Discutons-en. 00:41:35.473 --> 00:41:37.139 D'autres questions ? 00:41:37.719 --> 00:41:39.195 Quelqu'un d'autre avait levé la main 00:41:39.195 --> 00:41:40.625 mais je ne sais plus qui. 00:41:45.739 --> 00:41:49.996 (intervenant 11) Donc, si nous ne pouvons pas importer des contenus de Wiktionary, 00:41:49.996 --> 00:41:52.092 y a-t-il des efforts concertés 00:41:52.092 --> 00:41:55.772 pour trouver d'autres ressources dans le domaine public 00:41:55.772 --> 00:41:57.459 peut-être des données 00:41:58.769 --> 00:42:03.167 que nous pourrions pré-filtrer, organiser 00:42:03.167 --> 00:42:08.470 afin de les rendre facilement vérifiables pour que les gens puissent les importer ? 00:42:09.033 --> 00:42:11.291 Alors, il y a des premiers efforts de faits. 00:42:11.291 --> 00:42:14.769 J'ai cru comprendre que le basque était l'un de ces exemples. 00:42:14.769 --> 00:42:17.474 Peut-être voudriez-vous nous en dire plus à ce sujet ? 00:42:18.306 --> 00:42:20.130 (l'intervenant 12 parle hors micro) 00:42:23.166 --> 00:42:27.098 OK, la réponse aujourd'hui c'est de payer pour cela, 00:42:28.374 --> 00:42:33.381 je veux dire, nous avons passé un accord avec un de nos prestataires habituels, 00:42:34.801 --> 00:42:38.725 Ils font des dictionnaires... 00:42:40.125 --> 00:42:42.508 plein d'autres trucs aussi, mais ils font des dictionnaires. 00:42:42.508 --> 00:42:45.070 Donc, nous nous sommes entendus 00:42:45.070 --> 00:42:47.473 pour mettre en libre accès le dictionnaire des étudiants 00:42:47.473 --> 00:42:52.782 qui comprend les mots les plus communs et nous avons commencé à le téléverser 00:42:52.782 --> 00:42:55.590 avec un identifiant externe et ce genre de choses. 00:42:56.230 --> 00:43:02.902 Mais il y a eu quelques discussions sur le fait de le laisser en CC0 00:43:03.212 --> 00:43:05.702 parce que leur dictionnaire est sous licence Attribution 00:43:06.307 --> 00:43:10.326 et ils ont compris sur quoi reposait la différence. 00:43:10.326 --> 00:43:13.866 Donc, cela a donné lieu à quelques discussions. 00:43:13.866 --> 00:43:19.519 Mais je crois que si nous pouvons fournir des outils ou des exemples, 00:43:19.519 --> 00:43:21.761 je pense qu'il y aura à l'avenir d'autres dictionnaires 00:43:21.761 --> 00:43:24.016 que nous pourrons traiter 00:43:24.016 --> 00:43:29.274 et je crois que Wiktionary devrait aussi aller dans ce sens, 00:43:29.274 --> 00:43:32.260 mais c'est une autre discussion de taille. 00:43:33.285 --> 00:43:34.487 Et de plus, 00:43:34.487 --> 00:43:38.839 Lea est aussi en contact avec des Occitans 00:43:38.839 --> 00:43:41.827 qui travaillent sur des dictionnaires en occitan 00:43:41.827 --> 00:43:45.238 et participent en ce moment à une collaboration autour du sumérien. 00:43:51.644 --> 00:43:53.483 D'autres questions ? 00:44:01.377 --> 00:44:03.519 (intervenant 13) Bonjour. Nous sommes justement ceux 00:44:03.519 --> 00:44:05.399 qui souhaitent importer les données en occitan. 00:44:05.399 --> 00:44:06.585 Ah, parfait ! 00:44:06.585 --> 00:44:08.478 (i.13) Et nous rencontrons un petit problème. 00:44:09.188 --> 00:44:14.215 C'est que nous ignorons comment refléter les variantes de tous les lexèmes. 00:44:14.215 --> 00:44:17.893 Nous avons six dialectes 00:44:17.893 --> 00:44:24.014 et nous voudrions indiquer dans quel dialecte le lexème s'utilise, 00:44:24.014 --> 00:44:27.285 mais nous n'avons pas de déclaration C0 pour faire cela 00:44:27.285 --> 00:44:31.105 Donc, tant que cette section n'existe pas 00:44:31.635 --> 00:44:34.465 cela nous empêche de l'intégrer 00:44:34.465 --> 00:44:37.603 parce que nous devrions tout reprendre 00:44:37.603 --> 00:44:42.076 le jour où nous pourrons exprimer cette déclaration. 00:44:42.076 --> 00:44:44.551 Et c'est compliqué parce que c'est une déclaration 00:44:44.551 --> 00:44:47.802 qui aura peu de demandeurs 00:44:47.802 --> 00:44:53.444 étant donnée qu'elle concerne principalement des langues minoritaires. 00:44:53.444 --> 00:44:56.933 Donc, il n'y aura qu'un demandeur pour cela. 00:44:56.933 --> 00:45:00.022 Mais comme nos collègues basques 00:45:00.022 --> 00:45:02.322 ce sera peut-être une personne 00:45:02.322 --> 00:45:06.082 qui ouvrira une possibilité à des milliers d'autres, 00:45:06.082 --> 00:45:10.884 donc ce n'est peut-être pas trop demander, 00:45:10.884 --> 00:45:14.136 mais ce sera très important pour nous. 00:45:14.874 --> 00:45:17.600 Avez-vous une proposition de nouvelle propriété déjà prête 00:45:17.600 --> 00:45:19.550 ou avez-vous besoin d'aide pour la créer ? 00:45:21.524 --> 00:45:24.356 (intervenant 13) Nous en avons fait la demande il y a quatre mois. 00:45:24.720 --> 00:45:28.755 D'accord, alors voyons qui peut aider à sortir cette proposition de propriété. 00:45:30.159 --> 00:45:33.360 Je suis sûre qu'il y a assez de gens dans cette salle pour que ça se fasse. 00:45:33.360 --> 00:45:35.564 (i.13) Proposition de propriété « Variété de la forme ». 00:45:35.564 --> 00:45:36.965 (l'intervenant 14 parle hors micro) 00:45:36.965 --> 00:45:39.699 (i.13) Nous n'avons pas eu de réponse et nous ne savons pas le faire 00:45:39.699 --> 00:45:43.153 parce que nous ne sommes pas dans la communauté Wikidata. 00:45:44.694 --> 00:45:48.817 OK. Il y a des gens ici qui peuvent vous aider. 00:45:48.817 --> 00:45:52.134 Peut-être que vous pouvez lever la main... 00:45:52.574 --> 00:45:53.644 (i.15) Je suis d'accord. 00:45:53.644 --> 00:45:55.512 Je crois que c'est très intéressant 00:45:55.512 --> 00:45:59.059 que la variété de forme 00:45:59.059 --> 00:46:02.607 peut aussi être corrélée d'un point de vue géographique 00:46:02.607 --> 00:46:04.995 avec des coordonnées ou une forme de cartographie. 00:46:05.595 --> 00:46:07.815 Et cela vaut aussi pour les variétés de prononciations 00:46:07.815 --> 00:46:11.837 et je crois que c'est quelque chose qui se produit dans beaucoup de langues. 00:46:12.607 --> 00:46:16.262 Nous devrions pouvoir mettre cela en place. 00:46:16.262 --> 00:46:18.865 je vais faire des recherches pour cette propriété. 00:46:19.782 --> 00:46:20.933 Chouette. 00:46:20.933 --> 00:46:24.446 Donc vous allez avoir du soutien pour votre proposition de propriété. 00:46:26.136 --> 00:46:27.297 Merci. 00:46:28.153 --> 00:46:30.261 Très bien. D'autres questions ? 00:46:32.410 --> 00:46:33.474 Finn. 00:46:33.974 --> 00:46:35.055 Finn fait partie de ceux 00:46:35.055 --> 00:46:38.031 qui construisent des choses à partir des données lexicographiques. 00:46:38.031 --> 00:46:40.085 (Finn) C'est juste une petite question. 00:46:40.405 --> 00:46:44.226 et elle concerne les variantes orthographiques. 00:46:44.896 --> 00:46:48.002 Il semble qu'il soit difficile de les faire apparaître... 00:46:48.532 --> 00:46:53.368 Bien sûr, il serait possible d'avoir de multiples formes pour un même mot. 00:46:56.327 --> 00:46:58.448 Je ne sais pas. Ça me semble... 00:46:59.558 --> 00:47:03.535 Si on ne le fait pas de cette manière, il semble difficile de préciser... 00:47:04.771 --> 00:47:05.888 je ne sais pas si... 00:47:05.888 --> 00:47:09.731 s'il s'agit d'un souci technique mineur ou si au contraire... 00:47:09.731 --> 00:47:11.252 Voyons cela ensemble. 00:47:11.642 --> 00:47:15.230 Je serais ravie de voir un exemple. 00:47:17.478 --> 00:47:18.478 Asaf. 00:47:26.886 --> 00:47:28.396 (Asaf) Merci. 00:47:29.386 --> 00:47:33.685 Je peux vous donner un exemple concret dans ma langue maternelle, l'hébreu. 00:47:34.205 --> 00:47:38.845 L'hébreu a deux variantes principales 00:47:38.845 --> 00:47:42.786 pour exprimer quasiment chaque mot 00:47:42.786 --> 00:47:47.640 parce que l'orthographe traditionnelle 00:47:47.640 --> 00:47:50.274 se dispense d'un grand nombre de voyelles. 00:47:50.934 --> 00:47:55.207 Et par conséquent, dans les éditions modernes de la Bible ou des poèmes, 00:47:55.207 --> 00:47:57.461 des signes diacritiques sont utilisés. 00:47:57.461 --> 00:47:59.200 Cependant, ces signes diacritiques 00:47:59.200 --> 00:48:02.670 ne sont jamais utilisés dans la prose moderne, 00:48:02.670 --> 00:48:05.974 dans la presse ou les panneaux indicateurs. 00:48:05.974 --> 00:48:11.209 Donc, l'usage courant ajoute des voyelles supplémentaires 00:48:12.019 --> 00:48:13.679 et n'utilise pas de signes diacritiques 00:48:13.679 --> 00:48:15.607 par qu'ils sont évidemment plus encombrants, 00:48:15.607 --> 00:48:18.623 qu'ils sont soumis à toutes sortes de règles que plus personne ne connaît. 00:48:18.633 --> 00:48:20.531 Donc en gros, il y a deux variantes. 00:48:20.531 --> 00:48:25.322 Il y a la variante propre à la prose usuelle de tous les jours 00:48:25.322 --> 00:48:27.827 et celle de la Bible ou de la poésie 00:48:27.827 --> 00:48:30.136 qui se présente toujours sous la forme traditionnelle 00:48:30.136 --> 00:48:32.200 avec ses signes diacritiques. 00:48:32.200 --> 00:48:33.302 Pour être utile, 00:48:33.302 --> 00:48:37.428 le lexème devrait reconnaître les deux variétés pour chaque mot sans exception 00:48:37.428 --> 00:48:39.747 et pour chaque forme de chaque mot. 00:48:40.677 --> 00:48:43.391 Donc il s'agit là d'un cas pratique très complet 00:48:43.391 --> 00:48:46.340 pour ce qui est des variantes officielles stables. 00:48:46.340 --> 00:48:49.332 Il ne s'agit pas de dialectes, il ne s'agit pas de variantes régionales, 00:48:49.332 --> 00:48:53.627 mais bien de deux systèmes morphologiques qui coexistent. 00:48:54.537 --> 00:48:58.926 Et je ne sais pas bien non plus comment exprimer cela dans les lexèmes 00:48:58.926 --> 00:49:02.800 et en réponse à la question de Magnus, c'est l'une des choses qui m'empêchent 00:49:02.800 --> 00:49:05.238 de téléverser les parties déjà prêtes 00:49:05.238 --> 00:49:09.394 du plus grand dictionnaire d'hébreu qui fait partie du domaine public 00:49:09.394 --> 00:49:13.141 et que j'ai entrepris de numériser depuis maintenant plusieurs années. 00:49:13.141 --> 00:49:14.673 Une portion conséquente est déjà prête 00:49:14.673 --> 00:49:16.689 mais je ne l'intègre pas au lexème pour le moment 00:49:16.689 --> 00:49:20.245 parce que je ne sais pas exactement comment résoudre ce problème. 00:49:20.245 --> 00:49:23.387 Très bien, trouvons la solution ici même (petit rire) 00:49:24.503 --> 00:49:26.021 Ce doit être possible. 00:49:30.045 --> 00:49:32.047 Très bien, d'autres questions ? 00:49:37.173 --> 00:49:39.735 Si vous n'avez plus de questions, merci à tous. 00:49:40.605 --> 00:49:42.675 (applaudissements) 00:49:45.983 --> 00:49:48.263 WIKI DATA 2019 Wikidata et les langues