1 00:00:02,651 --> 00:00:05,000 Wikidata et les langues 2 00:00:05,000 --> 00:00:06,303 Où en sommes-nous ? Et après ? 3 00:00:06,303 --> 00:00:07,362 (Lydia) Merci beaucoup. 4 00:00:07,362 --> 00:00:11,417 L'un des sujets majeurs de cette conférence concerne les langues. 5 00:00:14,220 --> 00:00:18,508 Je voudrais vous donner un aperçu du point où nous en sommes à ce jour 6 00:00:18,508 --> 00:00:20,500 en ce qui concerne les langues 7 00:00:20,500 --> 00:00:22,403 et quelles sont les prochaines étapes. 8 00:00:28,976 --> 00:00:30,409 Le but de Wikidata est de donner 9 00:00:30,409 --> 00:00:32,580 plus d'accès à plus de savoir à davantage de monde 10 00:00:32,580 --> 00:00:37,220 et la langue est un aspect essentiel dans la réalisation de cet objectif, 11 00:00:38,205 --> 00:00:43,291 d'autant plus que nos vies dépendent de plus en plus de la technologie. 12 00:00:44,114 --> 00:00:48,873 Et comme le disait notre conférencier sur Keynote tout à l'heure, 13 00:00:49,603 --> 00:00:52,440 une partie de cette technologie reste inaccessible à certains 14 00:00:52,440 --> 00:00:55,020 du simple fait qu'ils ne parlent pas telle ou telle langue, 15 00:00:55,320 --> 00:00:57,573 et ce n'est pas acceptable. 16 00:00:58,633 --> 00:01:02,097 Donc nous voulons remédier à cette situation. 17 00:01:02,927 --> 00:01:05,841 Et afin de changer cela, il faut au moins deux choses. 18 00:01:06,411 --> 00:01:11,270 D'abord, on doit fournir des contenus aux gens dans leur propre langue, 19 00:01:11,270 --> 00:01:12,955 et la deuxième chose, 20 00:01:12,955 --> 00:01:15,910 c'est de leur fournir la possibilité d'interagir dans leur propre langue 21 00:01:15,910 --> 00:01:19,189 avec des applications ou quoi que ce soit d'autre. 22 00:01:20,367 --> 00:01:25,277 Wikidata contribue à satisfaire ces deux conditions. 23 00:01:25,277 --> 00:01:28,408 La première d'entre elles, du contenu dans votre langue, 24 00:01:28,408 --> 00:01:31,317 c'est globalement ce que nous avons dans les éléments et les propriétés, 25 00:01:31,319 --> 00:01:33,082 la façon dont nous décrivons le monde. 26 00:01:33,082 --> 00:01:35,205 Tout ce dont vous avez besoin n'y est certainement pas 27 00:01:35,205 --> 00:01:39,294 mais il y a déjà de quoi bien avancer. 28 00:01:39,764 --> 00:01:41,847 L'autre point, c'est l'interaction dans votre langue 29 00:01:41,847 --> 00:01:46,389 et c'est là que les lexèmes entrent en jeu : 30 00:01:46,389 --> 00:01:49,382 si vous voulez parler à votre assistant personnel numérique 31 00:01:49,382 --> 00:01:54,918 ou que votre appareil vous traduise un texte ou autre. 32 00:01:56,404 --> 00:01:59,254 Très bien, intéressons-nous aux contenus dans votre langue, 33 00:01:59,254 --> 00:02:03,676 donc, à ce que nous avons sous la rubrique Éléments et Propriétés. 34 00:02:05,406 --> 00:02:10,236 Les libellés sont essentiels pour ces éléments et propriétés. 35 00:02:10,236 --> 00:02:14,916 Nous devons savoir comment s'appelle l'entité dont il est question. 36 00:02:15,656 --> 00:02:19,987 Et plutôt que de parler de Q5, 37 00:02:19,987 --> 00:02:22,180 un anglophone saura qu'il s'agit d'un « humain », 38 00:02:22,180 --> 00:02:24,706 un germanophone saura qu'il s'agit d'un « Mensch », 39 00:02:24,706 --> 00:02:26,374 ce genre de choses. 40 00:02:26,374 --> 00:02:29,872 Donc, les libellés dans les éléments et les propriétés 41 00:02:29,872 --> 00:02:33,619 font la liaison entre les humains et les machines 42 00:02:33,619 --> 00:02:35,439 mais relient aussi les humains entre eux 43 00:02:35,439 --> 00:02:40,115 en leur rendant davantage de savoir accessible. 44 00:02:41,192 --> 00:02:43,270 À quoi ressemble notre couverture ? 45 00:02:43,270 --> 00:02:46,290 L'intention est louable. 46 00:02:46,290 --> 00:02:48,342 Mais voyons ce que cela donne dans les faits. 47 00:02:48,342 --> 00:02:49,882 Cela ressemble à ça. 48 00:02:50,947 --> 00:02:52,416 Ce que vous voyez ici, 49 00:02:52,416 --> 00:02:58,496 c'est que la plupart des éléments dans Wikidata ont deux libellés, 50 00:02:58,496 --> 00:03:00,767 donc des libellés dans deux langues. 51 00:03:01,697 --> 00:03:03,851 Ensuite on passe à un, puis trois, 52 00:03:03,851 --> 00:03:06,265 et au-delà, cela devient vraiment navrant. 53 00:03:06,781 --> 00:03:08,581 (rires légers) 54 00:03:10,047 --> 00:03:12,813 Je crois que nous devons faire mieux que ça. 55 00:03:14,185 --> 00:03:15,319 Mais, d'un autre côté, 56 00:03:15,319 --> 00:03:17,478 je m'attendais à pire, en fait. 57 00:03:17,478 --> 00:03:19,810 Je m'attendais à ce que la moyenne soit d'une seule langue. 58 00:03:19,810 --> 00:03:22,503 Donc, j'ai été agréablement surprise de voir que c'était deux. 59 00:03:23,655 --> 00:03:24,921 Quelles langues couvrons-nous ? 60 00:03:24,921 --> 00:03:26,186 Très bien. 61 00:03:27,156 --> 00:03:29,527 Mais au-delà de l'intérêt de savoir 62 00:03:29,527 --> 00:03:33,742 de combien de libellés disposent nos éléments et propriétés, 63 00:03:33,742 --> 00:03:36,705 il est aussi intéressant de voir quelles sont les langues de ces libellés. 64 00:03:38,045 --> 00:03:43,764 Voici un graphique présentant les langues 65 00:03:43,764 --> 00:03:46,838 dans lesquelles nous avons des libellés pour les éléments. 66 00:03:46,838 --> 00:03:50,849 La portion la plus grosse ici correspond à la catégorie Autres. 67 00:03:51,229 --> 00:03:53,863 Alors, je n'ai détaillé que les 100 premières langues 68 00:03:54,533 --> 00:03:59,122 donc tout le reste entre dans la catégorie Autres pour que le graphique soit lisible. 69 00:03:59,542 --> 00:04:02,142 Ensuite viennent l'anglais et le néerlandais, 70 00:04:03,002 --> 00:04:04,254 le français, 71 00:04:05,924 --> 00:04:09,129 et n'oublions pas l'asturien. 72 00:04:09,659 --> 00:04:12,069 - (un auditeur) Waouh ! - (Lydia) Waouh, effectivement ! 73 00:04:13,899 --> 00:04:16,954 Donc ce qui apparaît ici est un déséquilibre considérable 74 00:04:16,954 --> 00:04:20,114 avec toujours une nette prédominance de l'anglais. 75 00:04:21,236 --> 00:04:24,367 Par ailleurs, si l'on regarde la même chose pour les propriétés, 76 00:04:24,367 --> 00:04:26,099 le tableau est déjà mieux. 77 00:04:27,399 --> 00:04:32,750 Je crois que cela tient en partie au fait qu'il y a beaucoup moins de propriétés, 78 00:04:32,750 --> 00:04:36,670 ce qui fait que même des communautés plus petites peuvent assurer cette partie. 79 00:04:36,770 --> 00:04:39,173 Mais cela constitue aussi une partie importante de Wikidata 80 00:04:39,173 --> 00:04:41,159 de pouvoir les adapter dans votre langue. 81 00:04:41,159 --> 00:04:42,494 Donc c'est un point positif. 82 00:04:45,752 --> 00:04:47,962 Ce que je voulais souligner ici à propos de l'asturien, 83 00:04:47,962 --> 00:04:53,698 c'est qu'une petite communauté peut vraiment se démarquer 84 00:04:54,448 --> 00:04:57,085 par son investissement et son travail, 85 00:04:57,085 --> 00:04:58,420 et c'est vraiment chouette. 86 00:05:01,846 --> 00:05:03,530 Une petite devinette pour vous. 87 00:05:03,530 --> 00:05:05,493 Si vous prenez toutes les propriétés de Wikidata 88 00:05:05,493 --> 00:05:07,687 qui n'ont pas d'identifiants externes, 89 00:05:07,687 --> 00:05:10,778 laquelle compte selon vous le plus grand nombre de libellés, donc de langues ? 90 00:05:10,977 --> 00:05:13,847 (réponses inaudibles de l'auditoire) 91 00:05:13,847 --> 00:05:16,886 Il semble se dégager une majorité pour « nature de l'élément ». 92 00:05:17,506 --> 00:05:19,603 Ce serait une mauvaise réponse. 93 00:05:19,983 --> 00:05:22,210 La réponse est « image ». 94 00:05:23,230 --> 00:05:26,006 Donc, effectivement, si vous parlez l'une des langues 95 00:05:26,006 --> 00:05:28,621 pour lesquelles « nature de l'élément » n'a pas encore de libellé, 96 00:05:28,621 --> 00:05:30,190 vous savez ce qu'il vous reste à faire. 97 00:05:32,102 --> 00:05:35,676 Donc, « image » dispose de 148 libellés actuellement. 98 00:05:37,688 --> 00:05:41,249 Mais c'est une autre diapositive. 99 00:05:42,521 --> 00:05:44,162 Ce graphique nous donne une idée 100 00:05:44,162 --> 00:05:49,321 du volume de contenu que nous rendons accessible dans une langue donnée 101 00:05:49,321 --> 00:05:52,042 et dans quelle proportion ce contenu est effectivement utilisé. 102 00:05:52,042 --> 00:05:55,448 Donc en gros, on peut voir se dessiner une courbe 103 00:05:55,448 --> 00:05:59,057 où la majorité des contenus disposant de libellés en anglais, 104 00:05:59,307 --> 00:06:04,105 étant disponibles en anglais sont aussi largement utilisés. 105 00:06:04,295 --> 00:06:06,449 Puis ça a tendance à diminuer. 106 00:06:06,449 --> 00:06:09,436 Mais à nouveau, on peut noter des exceptions 107 00:06:09,436 --> 00:06:15,333 qui ont beaucoup plus de contenus qu'on aurait pu s'y attendre, 108 00:06:16,903 --> 00:06:19,539 et c'est une très bonne chose. 109 00:06:20,839 --> 00:06:24,945 Le problème demeure que ces contenus ne sont pas très utilisés. 110 00:06:25,565 --> 00:06:28,742 L'asturien et le néerlandais devraient être en meilleure position 111 00:06:28,742 --> 00:06:31,994 et je crois qu'aider ces communautés 112 00:06:33,266 --> 00:06:35,716 à accroître l'utilisation des données qu'elles ont rassemblées 113 00:06:35,716 --> 00:06:37,792 est quelque chose de très utile. 114 00:06:42,910 --> 00:06:48,110 Ce que cette analyse ainsi que d'autres nous ont révélé de positif, 115 00:06:48,300 --> 00:06:51,378 c'est que les éléments les plus utilisés 116 00:06:51,378 --> 00:06:55,295 ont aussi tendance à avoir plus de libellés 117 00:06:55,295 --> 00:06:58,538 à moins que ça ne marche en sens inverse ; ce n'est pas tout à fait clair. 118 00:07:02,513 --> 00:07:04,596 Et la question qui se pose alors, c'est : 119 00:07:04,596 --> 00:07:07,269 Sommes-nous seulement au service des langues les plus puissantes ? 120 00:07:07,899 --> 00:07:11,197 Ou sommes-nous au service de tout le monde ? 121 00:07:12,757 --> 00:07:17,743 Et ce que vous voyez ici, ce sont des regroupements de langues. 122 00:07:17,743 --> 00:07:19,642 Les langues que nous avons regroupées ensemble 123 00:07:19,642 --> 00:07:21,987 ont tendance à avoir des libellés en commun. 124 00:07:26,042 --> 00:07:28,219 Et vous voyez se former des faisceaux. 125 00:07:28,599 --> 00:07:34,065 À présent, voici un même type de regroupement avec différentes couleurs, 126 00:07:34,065 --> 00:07:39,475 selon que la langue est plus ou moins vivante, plus ou moins largement utilisée 127 00:07:40,455 --> 00:07:43,156 ou menacée de disparition. 128 00:07:43,156 --> 00:07:44,642 Et la bonne chose qui apparaît ici, 129 00:07:44,642 --> 00:07:49,566 c'est que les langues dominantes et les langues menacées de disparition 130 00:07:49,566 --> 00:07:53,773 ne constituent pas deux groupes différents, 131 00:07:53,773 --> 00:07:58,872 mais qu'elles sont toutes mélangées ensemble, 132 00:08:00,262 --> 00:08:04,625 ce qui est bien plus réjouissant que si la situation avait été inverse 133 00:08:04,625 --> 00:08:09,377 et que les langues les plus assurées, les langues dominantes 134 00:08:10,197 --> 00:08:12,164 s'étaient mutuellement soutenues. 135 00:08:12,744 --> 00:08:14,356 Ce n'est pas le cas. 136 00:08:14,356 --> 00:08:17,417 Et c'est une très bonne chose. 137 00:08:17,417 --> 00:08:20,042 J'ai trouvé que c'était un très bon signe quand j'ai vu ça. 138 00:08:23,474 --> 00:08:25,229 Voici un autre exemple similaire 139 00:08:26,239 --> 00:08:28,800 où nous avons regardé 140 00:08:30,230 --> 00:08:34,222 le statut des langues 141 00:08:34,222 --> 00:08:36,225 et le nombre de libellés dont elles disposent. 142 00:08:39,367 --> 00:08:42,937 Ce qui apparaît, c'est que les langues fortes dominent clairement, 143 00:08:42,937 --> 00:08:44,438 comme on pouvait s'y attendre. 144 00:08:45,508 --> 00:08:46,693 Mais ce que l'on voit aussi, 145 00:08:46,693 --> 00:08:54,407 c'est que les langues des catégories 2, 3 et peut-être même 4 146 00:08:54,407 --> 00:08:59,280 ne s'en tirent pas si mal en fait, 147 00:08:59,280 --> 00:09:02,367 au niveau de leur représentation sur Wikidata, 148 00:09:03,287 --> 00:09:06,408 ce qui est vraiment un résultat réjouissant. 149 00:09:07,556 --> 00:09:09,129 Maintenant, si on regarde la même chose 150 00:09:09,129 --> 00:09:12,418 sous l'angle de la proportion de contenu de ces libellés 151 00:09:12,418 --> 00:09:15,495 qui est effectivement utilisée dans Wikipédia, par exemple, 152 00:09:17,455 --> 00:09:22,563 on voit à nouveau se dessiner la même tendance. 153 00:09:23,603 --> 00:09:29,813 Et cela nous révèle que ces communautés font vraiment bon usage de leur temps 154 00:09:29,813 --> 00:09:34,504 en créant des libellés pour les éléments les plus utilisés, par exemple. 155 00:09:36,410 --> 00:09:40,493 Il y a des exceptions que nous devons pouvoir soutenir 156 00:09:41,683 --> 00:09:48,202 en aidant ces communautés à mieux valoriser leur investissement. 157 00:09:49,312 --> 00:09:52,663 Mais de façon générale, cette image me paraît réjouissante. 158 00:09:54,823 --> 00:09:59,844 Voilà pour ce qui était de la partie éléments et propriétés de Wikidata. 159 00:10:00,714 --> 00:10:03,033 Regardons à présent les interactions dans vos langues. 160 00:10:03,033 --> 00:10:05,203 Donc le volet lexème de Wikidata, 161 00:10:05,203 --> 00:10:09,394 où il s'agit de décrire les mots, leur forme et leur signification. 162 00:10:10,167 --> 00:10:13,301 C'est un travail que nous avons démarré en mai de l'année dernière 163 00:10:16,461 --> 00:10:19,127 et le contenu n'a cessé de se développer. 164 00:10:20,114 --> 00:10:22,149 Ici, on voit les lexèmes en bleu, 165 00:10:22,149 --> 00:10:25,938 en rouge, les formes de ces lexèmes 166 00:10:25,938 --> 00:10:29,910 et en jaune, les significations de ces lexèmes. 167 00:10:30,991 --> 00:10:34,451 Donc certaines communautés, nous y reviendrons plus tard, 168 00:10:34,451 --> 00:10:38,523 ont consacré beaucoup de temps à créer des formes et des significations 169 00:10:38,523 --> 00:10:42,753 pour leurs lexèmes, ce qui est très utile 170 00:10:42,753 --> 00:10:48,243 car cela constitue l'essence des données dont vous avez besoin. 171 00:10:50,562 --> 00:10:55,133 Maintenant, nous avons regardé toutes les langues 172 00:10:55,133 --> 00:10:57,906 qui ont des lexèmes sur Wikidata, 173 00:10:57,906 --> 00:11:01,003 donc les mots que nous avons. 174 00:11:01,603 --> 00:11:04,524 Ces derniers sont actuellement en 310 langues. 175 00:11:04,884 --> 00:11:08,290 Maintenant, quelle est, à votre avis, la première langue 176 00:11:08,290 --> 00:11:11,949 en termes de nombre de lexèmes actuellement sur Wikidata ? 177 00:11:11,949 --> 00:11:14,677 (réponses fusant de l'auditoire) Le suédois, le russe, 178 00:11:14,677 --> 00:11:16,350 l'asturien, l'allemand 179 00:11:16,350 --> 00:11:20,216 - (un intervenant parle hors micro) - Hein ? 180 00:11:20,216 --> 00:11:21,741 (un autre intervenant) L'allemand. 181 00:11:21,741 --> 00:11:24,252 Désolée, la bonne réponse a été donnée. 182 00:11:24,252 --> 00:11:25,651 C'est le russe. 183 00:11:28,011 --> 00:11:29,924 Le russe est loin devant. 184 00:11:31,897 --> 00:11:33,832 Et pour vous donner une perspective, 185 00:11:35,412 --> 00:11:36,816 les opinions divergent à ce sujet, 186 00:11:36,816 --> 00:11:42,231 mais j'ai lu, par exemple, que connaître 1 000 à 3 000 mots 187 00:11:42,231 --> 00:11:45,450 vous permet d'accéder au niveau courant dans une autre langue. 188 00:11:45,450 --> 00:11:49,721 et qu'en connaître 4 000 à 10 000 vous situe à un niveau avancé. 189 00:11:51,591 --> 00:11:55,372 Donc nous avons encore du chemin à faire pour en arriver là. 190 00:11:58,483 --> 00:12:03,279 J'aimerais attirer votre attention sur la langue basque 191 00:12:03,279 --> 00:12:07,744 qui a environ 10 000 lexèmes. 192 00:12:09,244 --> 00:12:13,003 Or, si vous regardez le nombre de formes pour ces lexèmes, 193 00:12:14,163 --> 00:12:16,497 le basque est très bien placé, 194 00:12:18,257 --> 00:12:20,006 ce qui est vraiment bien 195 00:12:20,006 --> 00:12:22,434 et il serait intéressant d'assister à l'exposé 196 00:12:22,434 --> 00:12:25,315 qui vous expliquera cet état de fait. 197 00:12:27,341 --> 00:12:31,175 Maintenant, si on regarde le nombre de sens, ce que les mots signifient, 198 00:12:32,015 --> 00:12:35,081 le basque arrive en tête de la liste. 199 00:12:35,081 --> 00:12:37,102 Il me semble que cela mérite nos applaudissements. 200 00:12:37,102 --> 00:12:38,921 (applaudissements) 201 00:12:45,678 --> 00:12:47,118 Une autre devinette. 202 00:12:47,118 --> 00:12:50,511 Quel est le lexème le plus traduit à l'heure actuelle, selon vous ? 203 00:12:50,511 --> 00:12:54,304 (public) Les chats, les chats, Douglas Adams 204 00:12:54,304 --> 00:12:55,914 (rires) 205 00:12:56,766 --> 00:13:00,014 Ce sont toutes de bonnes idées, mais non. 206 00:13:01,012 --> 00:13:04,137 Voici la bonne réponse : c'est le mot russe qui désigne l'eau. 207 00:13:09,301 --> 00:13:12,253 Très bien, nous avons beaucoup parlé 208 00:13:12,253 --> 00:13:16,412 du nombre de formes et de sens des lexèmes que nous avons, 209 00:13:16,412 --> 00:13:20,453 mais ce n'est qu'une partie de ce dont vous avez besoin. 210 00:13:20,453 --> 00:13:21,872 L'autre chose dont vous avez besoin 211 00:13:21,872 --> 00:13:25,161 c'est une description des formes et des sens de ces lexèmes, 212 00:13:25,161 --> 00:13:27,647 dans un format qui soit lisible par des machines. 213 00:13:27,647 --> 00:13:30,679 Et pour cela, vous avez des déclarations, comme dans les éléments. 214 00:13:31,479 --> 00:13:36,362 Et l'une des propriétés utilisées ici est l'exemple d'utilisation. 215 00:13:36,362 --> 00:13:38,582 De sorte que quiconque utilisera cette donnée 216 00:13:38,582 --> 00:13:42,089 pourra comprendre comment utiliser ce mot dans un contexte, 217 00:13:42,089 --> 00:13:44,648 il peut s'agir d'une citation, par exemple. 218 00:13:45,396 --> 00:13:47,343 Et dans ce domaine, le polonais assure ! 219 00:13:47,820 --> 00:13:50,109 Bien joué, à vous qui parlez polonais. 220 00:13:54,219 --> 00:13:57,680 Une autre propriété qui est vraiment utile, c'est l'API, 221 00:13:57,680 --> 00:14:00,186 donc la manière de prononcer le mot. 222 00:14:00,876 --> 00:14:07,577 Il semble que le russe exige de nombreuses déclarations API. 223 00:14:10,419 --> 00:14:13,314 Mais revoici le polonais en deuxième position. 224 00:14:17,148 --> 00:14:20,753 Et enfin, nous avons la prononciation audio. 225 00:14:20,753 --> 00:14:23,472 Il s'agit là de liens vers des fichiers hébergés sur les Commons 226 00:14:23,472 --> 00:14:25,959 où un individu prononce le mot, 227 00:14:25,959 --> 00:14:28,500 ce qui vous permet d'entendre le mot prononcé par quelqu'un 228 00:14:28,500 --> 00:14:29,913 dont c'est la langue natale, 229 00:14:29,913 --> 00:14:32,871 pour le cas où vous ne sauriez pas déchiffrer l'API, par exemple. 230 00:14:34,959 --> 00:14:39,205 Et il existe un projet vraiment sympa sous l'impulsion de Wiki 231 00:14:39,205 --> 00:14:40,884 qui s'appelle « Lingua Libre » 232 00:14:40,884 --> 00:14:45,173 auquel vous pouvez contribuer en enregistrant des mots dans votre langue 233 00:14:45,173 --> 00:14:47,966 qui pourront ensuite être ajoutés aux lexèmes sur Wikidata 234 00:14:48,446 --> 00:14:52,103 afin que d'autres puissent apprendre à prononcer vos mots. 235 00:14:53,663 --> 00:14:55,694 (propos inaudibles d'un intervenant) 236 00:14:55,694 --> 00:14:57,665 Si vous recherchez « Lingua Libre » 237 00:14:57,665 --> 00:15:00,981 et je suis sûre que quelqu'un pourra poster le lien sur Telegram. 238 00:15:03,138 --> 00:15:04,621 Ces gars-là sont super. 239 00:15:04,621 --> 00:15:06,726 Ils ont fait un travail formidable avec Wikibase. 240 00:15:09,416 --> 00:15:10,617 Très bien. 241 00:15:12,706 --> 00:15:17,285 La question qui se pose à présent est : quelles sont les prochaines étapes ? 242 00:15:19,165 --> 00:15:22,010 Si l'on en croit les chiffres que je viens de vous montrer, 243 00:15:23,030 --> 00:15:25,172 nous avons bien avancé 244 00:15:25,172 --> 00:15:28,430 vers notre objectif de donner plus d'accès à plus de savoir à davantage de gens 245 00:15:28,430 --> 00:15:31,240 dans le domaine des langues sur Wikidata. 246 00:15:32,530 --> 00:15:36,392 Mais nous avons encore beaucoup de travail à accomplir. 247 00:15:38,992 --> 00:15:42,341 Une des choses que vous pouvez faire pour contribuer au projet, 248 00:15:42,341 --> 00:15:44,921 c'est par exemple de lancer une opération « libelléthon », 249 00:15:44,921 --> 00:15:50,124 consistant à inciter des gens à créer des libellés sur Wikidata 250 00:15:50,914 --> 00:15:55,121 ou une campagne de révision des lexèmes dans votre langue 251 00:15:55,121 --> 00:15:57,372 pour assurer la présence sur Wikidata 252 00:15:57,372 --> 00:15:59,792 des mots les plus usités dans votre langue. 253 00:16:00,773 --> 00:16:03,285 Vous pouvez aussi utiliser un outil comme Terminator 254 00:16:03,285 --> 00:16:07,211 qui vous aide à identifier les éléments les plus importants 255 00:16:07,211 --> 00:16:11,699 mais ne disposant pas encore d'un libellé dans votre langue. 256 00:16:13,274 --> 00:16:18,359 Nous qualifions ici de « plus importants » les éléments les plus fréquemment utilisés 257 00:16:18,359 --> 00:16:22,553 dans d'autres éléments Wikidata en tant que liens dans les déclarations. 258 00:16:25,768 --> 00:16:30,022 Et bien entendu, pour la partie lexèmes, 259 00:16:31,342 --> 00:16:35,169 à présent que nous avons couvert l'essentiel des lexèmes, 260 00:16:35,169 --> 00:16:41,163 il s'agit de les élaborer en y ajoutant des déclarations 261 00:16:41,163 --> 00:16:44,401 afin qu'ils puissent réellement construire les bases 262 00:16:44,401 --> 00:16:47,421 sur lesquelles des applications significatives pourront se développer. 263 00:16:48,141 --> 00:16:50,795 Parce que nous nous rapprochons de la masse critique 264 00:16:50,795 --> 00:16:53,616 mais nous sommes encore loin 265 00:16:53,616 --> 00:16:56,624 de la situation permettant de bâtir de sérieuses applications sur ces bases. 266 00:16:58,277 --> 00:17:01,680 Et j'espère que vous allez tous joindre vos efforts pour atteindre ce but. 267 00:17:02,583 --> 00:17:07,103 Ce qui m'amène tout droit 268 00:17:07,103 --> 00:17:09,843 à solliciter les amis qui nous soutiennent 269 00:17:09,843 --> 00:17:12,812 et Bruno, veux-tu bien me rejoindre 270 00:17:13,882 --> 00:17:16,854 pour nous parler des masques lexicaux ? 271 00:17:17,541 --> 00:17:18,567 (Bruno) Merci, Lydia. 272 00:17:18,567 --> 00:17:21,519 Merci de m'accorder un petit moment 273 00:17:21,519 --> 00:17:24,150 pour présenter ce travail que nous effectuons à Google 274 00:17:24,150 --> 00:17:29,635 avec Denny et dont la plupart d'entre vous ont probablement entendu parler. 275 00:17:30,136 --> 00:17:31,878 Parce que je suis linguiste chez Google, 276 00:17:31,878 --> 00:17:33,760 et je suis aussi très heureux de me trouver ici 277 00:17:33,760 --> 00:17:36,620 en compagnie d'autres passionnés des langues, 278 00:17:36,620 --> 00:17:39,278 et chez Google, nous construisons aussi des lexiques 279 00:17:39,278 --> 00:17:41,766 et nous avons développé cette technologie 280 00:17:41,766 --> 00:17:45,589 ou cette approche dont nous pensons qu'elle peut vous être utile. 281 00:17:46,369 --> 00:17:48,455 Pour vous expliquer un peu le contexte, 282 00:17:48,455 --> 00:17:52,068 vous pouvez voir ici mes références en matière de lexicographie. 283 00:17:52,668 --> 00:17:54,667 Pour créer une base de données lexicographiques, 284 00:17:54,667 --> 00:17:58,623 nous consacrons beaucoup de temps et d'efforts à maintenir une cohérence 285 00:17:58,623 --> 00:18:00,125 et à échanger des données, 286 00:18:00,125 --> 00:18:02,027 comme vous le savez probablement. 287 00:18:02,417 --> 00:18:03,809 Il existe plusieurs tentatives 288 00:18:03,809 --> 00:18:06,081 visant à unifier les caractéristiques et les propriétés 289 00:18:06,081 --> 00:18:09,184 qui décrivent ces lexèmes et ces formes 290 00:18:09,184 --> 00:18:10,936 et la question n'est pas encore réglée 291 00:18:10,936 --> 00:18:13,958 mais des tentatives sont en cours pour aller dans le sens d'une unification. 292 00:18:13,958 --> 00:18:15,209 Mais ce qui manque réellement, 293 00:18:15,209 --> 00:18:17,312 et c'est un problème auquel nous avons été confrontés 294 00:18:17,312 --> 00:18:18,732 chez Google au début du projet, 295 00:18:18,732 --> 00:18:21,757 c'est de tenter de construire une structure interne 296 00:18:22,197 --> 00:18:25,910 décrivant à quoi devrait ressembler une entrée lexicale, 297 00:18:25,910 --> 00:18:28,581 le type de données ou d'informations dont nous disposons 298 00:18:28,581 --> 00:18:32,237 et le degré de spécification attendu. 299 00:18:32,237 --> 00:18:38,187 Et voici ce à quoi nous avons abouti et qui s'appelle le « masque lexical ». 300 00:18:38,897 --> 00:18:43,639 Un masque lexical décrit les données attendues 301 00:18:43,639 --> 00:18:47,369 pour qu'une entrée lexicographique puisse être considérée comme complète 302 00:18:47,369 --> 00:18:51,436 à la fois quant au nombre de formes qu'un lexème devrait avoir 303 00:18:51,436 --> 00:18:55,607 et quant au nombre de caractéristiques attendues pour chacune de ces formes. 304 00:18:56,307 --> 00:18:58,409 Voici un exemple portant sur les adjectifs italiens. 305 00:18:58,409 --> 00:19:02,002 En italien, on devrait trouver quatre formes pour les adjectifs 306 00:19:02,002 --> 00:19:05,383 et chacune de ces formes reflète une combinaison spécifique 307 00:19:05,383 --> 00:19:07,946 de caractéristiques de genre et de nombre. 308 00:19:08,606 --> 00:19:12,672 C'est ce qui est attendu en matière d'adjectifs italiens. 309 00:19:12,672 --> 00:19:16,176 Bien sûr, on peut avoir des masques extrêmement complexes, 310 00:19:16,176 --> 00:19:20,783 comme pour les conjugaisons françaises qui sont très fournies 311 00:19:20,783 --> 00:19:23,487 et je ne vous présente pas un masque russe quel qu'il soit, 312 00:19:23,487 --> 00:19:25,378 parce qu'il déborderait de l'écran. 313 00:19:26,308 --> 00:19:29,531 Et nous avons aussi des spécifications détaillées 314 00:19:29,531 --> 00:19:33,421 parce que nous distinguons ce qui se situe au niveau de la forme. 315 00:19:33,421 --> 00:19:37,544 Donc ici vous voyez les noms russes qui comportent trois nombres 316 00:19:37,544 --> 00:19:40,048 ainsi qu'un nombre de cas avec différentes formes 317 00:19:40,048 --> 00:19:43,086 mais ils ont également une spécification au niveau de l'entrée 318 00:19:43,086 --> 00:19:45,590 qui indique qu'un nom 319 00:19:45,590 --> 00:19:47,073 a un genre inhérent 320 00:19:47,073 --> 00:19:50,133 ainsi qu'une caractéristique d'animéité inhérente 321 00:19:50,133 --> 00:19:52,688 qui est également précisée dans le masque. 322 00:19:54,518 --> 00:19:58,779 Nous voulons aussi préciser qu'un masque indique une spécification 323 00:19:58,779 --> 00:20:01,874 de ce à quoi devrait ressembler une entrée, de manière générale. 324 00:20:01,874 --> 00:20:07,158 Mais vous pouvez avoir des masques plus petits en cas de formes réduites 325 00:20:07,158 --> 00:20:11,282 ou d'aspects limités de l'utilisation du lexème dans la langue. 326 00:20:11,282 --> 00:20:14,537 Voici par exemple la version la plus simple de verbes en français 327 00:20:14,537 --> 00:20:17,584 qui ne se conjuguent qu'à la troisième personne du singulier, 328 00:20:17,584 --> 00:20:19,930 les verbes désignant les phénomènes météorologiques 329 00:20:19,930 --> 00:20:23,969 comme « il pleut » ou « il neige », comme c'est aussi le cas en anglais. 330 00:20:24,537 --> 00:20:26,923 Donc, nous faisons la distinction entre ces deux niveaux. 331 00:20:26,923 --> 00:20:29,962 Et la façon dont nous utilisons cela chez Google, 332 00:20:29,962 --> 00:20:32,643 quand nous avons un lexique que nous voulons utiliser, 333 00:20:33,063 --> 00:20:38,219 nous utilisons le masque pour carrément y déverser le lexique 334 00:20:38,219 --> 00:20:40,283 et toutes ses entrées, qui vont traverser le masque 335 00:20:40,283 --> 00:20:44,303 et nous voyons quelles entrées posent un problème en termes de structure. 336 00:20:44,303 --> 00:20:46,673 Manque-t-il une forme ? Manque-t-il une caractéristique ? 337 00:20:46,673 --> 00:20:48,563 Et quand un problème se présente, 338 00:20:48,563 --> 00:20:51,497 nous avons recours à une validation humaine 339 00:20:51,497 --> 00:20:53,751 pour vérifier si l'entrée passe l'épreuve du masque. 340 00:20:53,751 --> 00:20:57,924 C'est donc un outil extrêmement puissant pour vérifier la qualité de la structure. 341 00:20:59,427 --> 00:21:01,964 Et nous sommes heureux de vous annoncer aujourd'hui 342 00:21:01,964 --> 00:21:05,408 que nous avons eu le feu vert pour ouvrir notre masque à l'open source. 343 00:21:05,948 --> 00:21:07,469 Donc voici le schéma. 344 00:21:07,469 --> 00:21:09,697 Si vous le voulez, nous pouvons le mettre à disposition 345 00:21:09,697 --> 00:21:13,483 et le fournir à Wikidata sous forme de fichiers Shex. 346 00:21:13,483 --> 00:21:16,688 Voici un fichier Shex pour les noms allemands 347 00:21:16,688 --> 00:21:20,428 et Denny travaille à le convertir pour passer de nos spécifications internes 348 00:21:20,428 --> 00:21:23,666 à une spécification plus appropriée à l'open source 349 00:21:23,666 --> 00:21:27,522 Nous couvrons actuellement plus de 25 langues. 350 00:21:27,522 --> 00:21:29,495 Nous espérons développer cette offre de notre côté 351 00:21:29,495 --> 00:21:34,350 mais nous y voyons aussi une opportunité de collaboration pour ajouter des langues. 352 00:21:34,350 --> 00:21:40,728 Et l'une de ces collaborations est celle que Denny entretient avec Lukas. 353 00:21:40,728 --> 00:21:45,052 Lukas dispose d'outils fantastiques permettant une interface utilisateur 354 00:21:45,052 --> 00:21:48,525 pour permettre à l'utilisateur ou au contributeur 355 00:21:48,525 --> 00:21:51,061 d'ajouter davantage de formes. 356 00:21:51,061 --> 00:21:54,151 Donc si vous voulez ajouter un adjectif en français, 357 00:21:54,151 --> 00:21:59,057 l'IU vous indiquera le nombre de formes à fournir 358 00:21:59,057 --> 00:22:01,562 et les caractéristiques que ces formes devraient avoir. 359 00:22:01,562 --> 00:22:06,268 Ainsi notre masque permettra à cet outil de s'affiner et de se développer. 360 00:22:07,238 --> 00:22:08,385 Et voilà. 361 00:22:08,791 --> 00:22:10,358 (Lydia) Merci infiniment. 362 00:22:10,358 --> 00:22:11,993 (applaudissements) 363 00:22:14,249 --> 00:22:16,891 (Lydia) Très bien. Avez-vous des questions ? 364 00:22:16,891 --> 00:22:19,381 Souhaitez-vous que nous parlions davantage des lexèmes ? 365 00:22:19,774 --> 00:22:21,885 - (intervenant 1) Oui. - (Lydia) Oui. (petit rire) 366 00:22:33,485 --> 00:22:35,380 - (intervenant 1) Vous parliez 367 00:22:35,380 --> 00:22:39,106 de donner plus d'accès à plus de gens dans plus de langues, 368 00:22:39,106 --> 00:22:42,444 mais beaucoup de langues ne peuvent pas être utilisées dans Wikidata. 369 00:22:42,444 --> 00:22:44,838 Quelle solution avez-vous pour résoudre cela ? 370 00:22:45,079 --> 00:22:47,686 Quand vous dites qu'elles ne peuvent pas utiliser Wikidata, 371 00:22:47,686 --> 00:22:50,208 est-ce que vous parlez d'intégrer des libellés ? 372 00:22:50,208 --> 00:22:52,581 - (i.1) Des libellés, des descriptions. - D'accord. 373 00:22:52,581 --> 00:22:55,498 Donc, en ce qui concerne les lexèmes, c'est un peu différent, 374 00:22:55,498 --> 00:22:58,003 parce que cette restriction ne s'applique pas ici. 375 00:22:58,923 --> 00:23:05,003 Pour les libellés des éléments et propriétés, des restrictions existent 376 00:23:05,433 --> 00:23:10,551 parce que nous voulions nous assurer 377 00:23:10,551 --> 00:23:14,229 que n'importe qui ne puisse pas faire n'importe quoi 378 00:23:14,229 --> 00:23:17,769 et que cela devienne ingérable. 379 00:23:19,349 --> 00:23:23,328 Si une communauté, même petite, veut ajouter une langue et y travailler, 380 00:23:23,898 --> 00:23:26,787 venez en discuter avec nous et nous pourrons rendre cela possible. 381 00:23:26,787 --> 00:23:29,470 (i.1) Nous l'avons fait à l'occasion du Hackathon de Prague en mai 382 00:23:29,470 --> 00:23:32,576 et il nous a fallu attendre le mois d'août pour pouvoir utiliser notre langue. 383 00:23:32,576 --> 00:23:35,135 - Oui. - (i.1) Donc, c'est très lent. 384 00:23:35,135 --> 00:23:37,854 Oui, c'est malheureusement très lent. 385 00:23:37,854 --> 00:23:40,093 Nous travaillons actuellement avec le Comité des langues 386 00:23:40,093 --> 00:23:46,048 à la résolution de certains points fondamentaux... 387 00:23:49,537 --> 00:23:55,447 Comme par exemple parvenir à un accord sur les langues qui sont « autorisées » 388 00:23:56,047 --> 00:23:59,468 et cela nous a pris trop de temps, 389 00:23:59,988 --> 00:24:02,258 ce qui explique pourquoi votre demande 390 00:24:02,258 --> 00:24:04,868 a probablement mis plus de temps à aboutir qu'elle ne l'aurait dû. 391 00:24:04,868 --> 00:24:05,963 (i.1) Merci. 392 00:24:06,705 --> 00:24:07,800 (intervenant 2) Merci. 393 00:24:07,800 --> 00:24:10,938 Lydia, vous vous souvenez des statistiques que vous nous avez montrées, 394 00:24:10,938 --> 00:24:12,886 sur le nombre de lexèmes par langue ? 395 00:24:12,886 --> 00:24:17,599 Avez-vous pris chaque forme comme unité de calcul 396 00:24:17,599 --> 00:24:20,034 ou seulement les lexèmes ? 397 00:24:21,159 --> 00:24:22,941 Vous faites référence à ceci ? 398 00:24:22,941 --> 00:24:25,797 - De quelle diapo parlez-vous ? - (i.2) Oui, c'est exactement cela. 399 00:24:25,797 --> 00:24:28,341 Si vous vous rappelez, ce nombre représente-t-il 400 00:24:28,341 --> 00:24:31,954 toutes les formes de tous les lexèmes où seulement les lexèmes existants ? 401 00:24:31,954 --> 00:24:35,395 - Non, ce sont seulement des lexèmes. - (i.2) Uniquement les lexèmes, d'accord. 402 00:24:35,395 --> 00:24:36,897 Alors la statistique est correcte. 403 00:24:36,897 --> 00:24:39,390 Parce que si vous aviez pris les formes en compte, 404 00:24:39,390 --> 00:24:40,748 et c'est la raison de ma question, 405 00:24:40,748 --> 00:24:43,074 alors toutes les langues ayant une morphologie flexionnelle 406 00:24:43,074 --> 00:24:45,027 comme le russe, le serbe, le slovène, etc. 407 00:24:45,027 --> 00:24:47,616 seraient naturellement avantagées tant elles ont de formes. 408 00:24:47,616 --> 00:24:51,990 C'est ici que c'est manifeste, sur le nombre de formes. 409 00:24:51,990 --> 00:24:54,141 (intervenant 2) Oui, c'était bien celle-ci. Merci. 410 00:24:56,546 --> 00:25:00,224 (intervenant 3) Une petite question concernant... 411 00:25:00,644 --> 00:25:06,824 Quand nous parlons des éléments et propriétés à proprement parler, 412 00:25:07,124 --> 00:25:08,901 Pour autant que je sache, 413 00:25:08,901 --> 00:25:11,955 il n'y a à l'heure actuelle aucun moyen d'identifier une source 414 00:25:11,955 --> 00:25:14,726 pour n'importe lequel des libellés et descriptions qui sont fournis. 415 00:25:14,726 --> 00:25:18,047 Donc, par exemple, quand vous parlez 416 00:25:18,047 --> 00:25:20,920 d'une propriété d'un élément, 417 00:25:20,920 --> 00:25:24,509 vous pouvez être confronté à des libellés contradictoires. 418 00:25:24,509 --> 00:25:25,739 Oui. 419 00:25:25,739 --> 00:25:27,862 (i.3) Donc, disons que telle personne est... 420 00:25:28,302 --> 00:25:30,920 Nous parlions tout à l'heure des questions indigènes, par exemple. 421 00:25:30,920 --> 00:25:35,965 Donc telle personne est un artiste norvégien selon telle source 422 00:25:35,965 --> 00:25:38,750 et un artiste sami selon telle autre source. 423 00:25:39,550 --> 00:25:42,883 Ou par exemple, la question s'est posée pour l'estonien 424 00:25:42,883 --> 00:25:47,729 et nous avons dû revoir la terminologie en fonction de la terminologie officielle 425 00:25:47,729 --> 00:25:49,667 telle qu'elle figure dans les lexiques officiels, 426 00:25:49,667 --> 00:25:52,262 mais nous n'avons aucun moyen d'indiquer quelle en est la raison, 427 00:25:52,262 --> 00:25:54,426 quelle en est la source et pourquoi c'est plus juste 428 00:25:54,426 --> 00:25:55,658 que ce qu'il y avait avant. 429 00:25:55,658 --> 00:25:57,150 C'est un simple quidam comme moi 430 00:25:57,150 --> 00:25:59,615 qui a remplacé la donnée pour qui la verra. 431 00:25:59,615 --> 00:26:02,520 Donc est-il prévu de rendre cela possible d'une manière ou d'une autre 432 00:26:02,520 --> 00:26:06,605 afin que nous puissions avoir de vraies sources pour les données linguistiques ? 433 00:26:07,045 --> 00:26:11,568 Alors, c'est en partie possible. 434 00:26:11,568 --> 00:26:16,088 Donc, par exemple, quand vous avez un élément portant sur une personne, 435 00:26:16,898 --> 00:26:22,720 vous avez dans les déclarations : prénom, nom, etc., de cette personne 436 00:26:22,720 --> 00:26:26,406 et vous pouvez fournir la référence correspondante à ce niveau-là. 437 00:26:28,101 --> 00:26:32,544 J'ai beaucoup de réserves quant à rendre les choses plus complexes 438 00:26:32,544 --> 00:26:35,557 avec des références sur les libellés et les descriptions, 439 00:26:35,557 --> 00:26:38,624 mais si les gens pensent vraiment 440 00:26:38,624 --> 00:26:44,939 que c'est quelque chose qui n'est couvert par aucune référence sur la déclaration, 441 00:26:44,939 --> 00:26:46,803 alors parlons-en. 442 00:26:49,079 --> 00:26:53,303 Mais je crains que cela n'entraîne beaucoup de complexité 443 00:26:53,303 --> 00:26:56,523 pour des occurrences dont j'espère qu'elles sont peu nombreuses, 444 00:26:57,393 --> 00:27:00,188 mais je veux bien être convaincue du contraire, 445 00:27:00,188 --> 00:27:04,087 si les gens y tiennent beaucoup. 446 00:27:04,087 --> 00:27:08,177 (i.3) Je veux dire, si c'est ajouté ce ne devrait pas être impératif 447 00:27:08,177 --> 00:27:12,452 et apparaître à tous les utilisateurs débutant dans l'interface en tout cas. 448 00:27:12,452 --> 00:27:13,580 Plutôt quelque chose comme : 449 00:27:13,580 --> 00:27:16,761 « Cliquez ici si vous avez des commentaires à faire à ce sujet ». 450 00:27:17,632 --> 00:27:23,368 A-t-on une idée du nombre de cas où cela aurait de l'importance ? 451 00:27:24,520 --> 00:27:26,423 (i.3) En estonien, par exemple, 452 00:27:26,423 --> 00:27:29,164 et je suppose que c'est aussi le cas dans d'autres langues, 453 00:27:29,164 --> 00:27:34,203 il existe un mot officiel, qui est la traduction légitime 454 00:27:34,203 --> 00:27:36,206 par exemple, en anglais, 455 00:27:36,206 --> 00:27:40,314 disons d'un type particulier de municipalité. 456 00:27:40,314 --> 00:27:41,746 C'était mon cas pratique, 457 00:27:41,746 --> 00:27:44,409 par exemple, où nous utilisions le mot « paroisse » 458 00:27:45,159 --> 00:27:50,775 où effectivement le mot estonien original avait le sens de paroisse d'église 459 00:27:50,775 --> 00:27:51,999 et c'était là l'origine du mot 460 00:27:51,999 --> 00:27:53,699 mais ce n'est plus la traduction officielle 461 00:27:53,699 --> 00:27:55,189 qu'en donne l'Estonie aujourd'hui. 462 00:27:55,189 --> 00:27:57,531 Dans ce cas, je l'ajouterais dans les déclarations 463 00:27:57,531 --> 00:28:00,817 en tant que nom officiel et c'est là que j'ajouterais la référence. 464 00:28:02,032 --> 00:28:03,158 (intervenant 3) D'accord. 465 00:28:05,186 --> 00:28:06,952 D'autres questions, oui ? 466 00:28:07,682 --> 00:28:10,044 (intervenant 4) J'aimerais faire deux courtes remarques. 467 00:28:10,044 --> 00:28:13,934 Vous avez mis l'asturien en avant comme une langue réussissant bien 468 00:28:13,934 --> 00:28:16,455 et je pense qu'il s'agit d'un effet artificiel. 469 00:28:16,455 --> 00:28:17,724 Dites-m'en plus. 470 00:28:17,724 --> 00:28:19,748 (intervenant 4) Je pense que c'est juste un robot 471 00:28:19,748 --> 00:28:21,854 - (i.4) qui a collé... - Oh non ! 472 00:28:21,854 --> 00:28:24,068 (i.4) des noms de personnes, des noms propres 473 00:28:24,068 --> 00:28:27,172 et a dit : « C'est exactement comme en français ou en espagnol », 474 00:28:27,172 --> 00:28:28,558 et a tout copié en bloc. 475 00:28:28,558 --> 00:28:33,316 Ce qui tend à prouver ça, c'est qu'on ne retrouve pas cette énergie en asturien 476 00:28:33,316 --> 00:28:35,785 pour les choses qui exigent réellement un effort de traduction 477 00:28:35,785 --> 00:28:37,336 comme les noms de propriétés 478 00:28:37,336 --> 00:28:39,648 ou les noms des éléments qui ne sont pas des noms propres. 479 00:28:39,648 --> 00:28:41,219 Asaf, vous me brisez le cœur. 480 00:28:41,219 --> 00:28:43,198 (i.4) Je sais. J'aime bien gâcher la fête, 481 00:28:43,198 --> 00:28:48,558 mais j'ai aussi de bonnes nouvelles au sujet des scores en prononciation. 482 00:28:49,408 --> 00:28:50,765 Comme vous le savez probablement, 483 00:28:50,765 --> 00:28:53,515 les Commons sont pleins de fichiers de prononciation 484 00:28:53,515 --> 00:28:54,668 et par exemple 485 00:28:54,668 --> 00:28:59,464 le néerlandais compte pas moins de 300 000 fichiers de prononciation 486 00:28:59,464 --> 00:29:01,912 qui sont déjà dans les Commons 487 00:29:01,912 --> 00:29:05,051 et qui ne demandent qu'à être ingérés. 488 00:29:05,051 --> 00:29:07,697 Donc si quelqu'un est en recherche d'un projet connexe, 489 00:29:07,697 --> 00:29:09,118 il existe des tonnes et des tonnes 490 00:29:09,118 --> 00:29:13,280 de fichiers de prononciation, classés et catégorisés dans les Commons 491 00:29:13,280 --> 00:29:16,893 sous la catégorie « Prononciation » par langue. 492 00:29:16,893 --> 00:29:22,840 Il n'y a plus qu'à les faire correspondre aux lexèmes et les intégrer dans Lexèmes. 493 00:29:23,000 --> 00:29:25,484 Et d'autre part, je me demandais si vous pourriez parler un peu 494 00:29:25,484 --> 00:29:26,585 de la feuille de route, 495 00:29:26,585 --> 00:29:28,757 nous dire un peu quel degré d'investissement 496 00:29:28,757 --> 00:29:31,995 ou ce que nous pouvons attendre de Lexème pour l'année qui vient, 497 00:29:31,995 --> 00:29:34,560 parce qu'en tout cas pour ma part, je brûle d'impatience. 498 00:29:34,949 --> 00:29:37,044 Vous brûlez d'impatience ? (petit rire) 499 00:29:37,044 --> 00:29:39,588 - (i.3) de voir la suite. - Oui (petit rire) 500 00:29:44,541 --> 00:29:48,073 Actuellement, nous nous concentrons plutôt sur Wikibase 501 00:29:48,073 --> 00:29:50,138 et la qualité des données 502 00:29:51,493 --> 00:29:55,087 pour voir quel est l'attrait suscité, 503 00:29:55,087 --> 00:30:01,676 puis l'augmenter davantage au niveau des points faibles 504 00:30:01,676 --> 00:30:06,003 et ensuite revenir pour continuer à développer les données lexicographiques. 505 00:30:06,903 --> 00:30:09,790 Et une des choses que j'aimerais entendre de votre part, 506 00:30:09,790 --> 00:30:14,136 c'est quelles devraient précisément être les prochaines étapes selon vous. 507 00:30:14,136 --> 00:30:15,966 où voulez-vous voir des améliorations 508 00:30:15,966 --> 00:30:20,340 pour que nous puissions définir comment parvenir à les produire. 509 00:30:21,125 --> 00:30:22,810 Mais bien sûr, vous avez raison, 510 00:30:22,810 --> 00:30:25,832 il reste encore tant à faire, au niveau technique aussi. 511 00:30:30,573 --> 00:30:35,848 (intervenant 5) Tandis que nous intégrions les mots basques avec leurs formes, 512 00:30:35,848 --> 00:30:37,768 et ce genre de situations est assez fréquent, 513 00:30:37,768 --> 00:30:41,399 nous nous disions, la semaine dernière : « Oh, nous sommes premiers quelque part » 514 00:30:42,739 --> 00:30:44,928 ça sort dans la presse, c'est comme : 515 00:30:44,928 --> 00:30:49,488 « Oh, c'est une première, les Basques sont premiers dans un domaine, chouette ! » 516 00:30:49,488 --> 00:30:50,606 (rire) 517 00:30:50,606 --> 00:30:53,708 Et alors les gens nous demandent : « C'est bien, mais à quoi ça sert ? » 518 00:30:54,678 --> 00:30:56,849 Nous n'avons pas vraiment de bonne réponse à ça. 519 00:30:56,849 --> 00:30:57,980 je veux dire, c'est pas mal, 520 00:30:57,980 --> 00:31:01,841 cela permettra aux ordinateurs de comprendre davantage notre langue, oui, 521 00:31:01,841 --> 00:31:05,279 mais quel genre d'outils pourrons-nous développer à l'avenir ? 522 00:31:05,279 --> 00:31:07,467 Nous n'avons pas de bonne réponse à cette question. 523 00:31:07,467 --> 00:31:10,625 Donc, je me demande si vous avez une bonne réponse à ça. 524 00:31:10,625 --> 00:31:12,982 (petit rire) Je ne sais pas si c'est une bonne réponse, 525 00:31:12,982 --> 00:31:14,846 mais j'ai une réponse. 526 00:31:15,480 --> 00:31:20,425 Alors, je crois qu'à l'heure actuelle, comme je l'indiquais, 527 00:31:20,425 --> 00:31:22,194 nous n'avons pas atteint cette masse critique 528 00:31:22,194 --> 00:31:25,529 qui permet de construire bon nombre des outils vraiment intéressants. 529 00:31:25,529 --> 00:31:27,707 Mais il existe déjà quelques outils. 530 00:31:28,267 --> 00:31:31,912 Pas plus tard que l'autre jour, par exemple, Esther [Pandelia] 531 00:31:31,912 --> 00:31:34,217 a mis à disposition un outil permettant de visualiser 532 00:31:35,837 --> 00:31:38,889 je crois qu'il s'agissait des mots sur un globe, 533 00:31:38,889 --> 00:31:41,901 l'endroit où ils sont le plus parlés, l'endroit dont ils sont originaires. 534 00:31:42,631 --> 00:31:44,090 Je me trompe peut-être là-dessus, 535 00:31:44,090 --> 00:31:46,526 mais elle a répondu sur la page Discussion Projet de Wikidata, 536 00:31:46,526 --> 00:31:48,984 vous pouvez allez voir. 537 00:31:49,574 --> 00:31:51,805 Donc, nous voyons apparaître ces premiers outils, 538 00:31:51,805 --> 00:31:55,806 tout comme nous l'avons vu au démarrage de Wikidata, 539 00:31:56,846 --> 00:31:59,602 d'abord comme une sorte de réseau, 540 00:31:59,602 --> 00:32:03,424 puis : « Hé, mais il y a cette chose qui se connecte à cette autre chose ». 541 00:32:04,824 --> 00:32:07,059 Et une fois que l'on a plus de données 542 00:32:07,059 --> 00:32:10,612 et que l'on a atteint une sorte de masse critique, 543 00:32:11,852 --> 00:32:14,747 de nouvelles applications plus puissantes deviennent possibles 544 00:32:15,677 --> 00:32:17,676 des choses comme Histropedia, 545 00:32:19,126 --> 00:32:21,988 des choses comme les questions-réponses 546 00:32:21,988 --> 00:32:26,663 avec votre assistant personnel numérique, Platypus et ainsi de suite. 547 00:32:26,663 --> 00:32:30,038 Et nous voyons le même phénomène se produire avec les lexèmes. 548 00:32:31,198 --> 00:32:34,650 Nous en sommes au stade où vous pouvez construire ces petits 549 00:32:34,650 --> 00:32:37,464 « Hé, il y a une connexion possible entre ces deux choses, 550 00:32:37,864 --> 00:32:42,738 et il existe une traduction de ce mot dans cette langue ». 551 00:32:42,738 --> 00:32:47,747 Et plus nous l'élaborons, plus nous décrivons de mots, 552 00:32:47,747 --> 00:32:49,533 plus ces choses deviennent possibles. 553 00:32:49,533 --> 00:32:51,795 Alors, qu'est-ce qui devient possible ? 554 00:32:53,482 --> 00:32:59,483 Comme Ben, notre conférencier sur Keynote, le disait plus tôt : les traductions, 555 00:33:00,103 --> 00:33:03,455 être capable de traduire d'une langue à une autre. 556 00:33:03,455 --> 00:33:07,929 Et Jens, mon collègue, ne cesse de parler 557 00:33:07,929 --> 00:33:11,452 de l'Union Européenne qui cherche un traducteur 558 00:33:11,452 --> 00:33:17,439 capable de traduire du maltais au suédois, je crois. 559 00:33:17,439 --> 00:33:19,716 - (intervenant 6) de l'estonien. - De l'estonien. 560 00:33:22,016 --> 00:33:26,211 Et ce n'est pas là une combinaison habituelle, 561 00:33:27,211 --> 00:33:29,375 mais une fois que toutes ces langues sont disponibles 562 00:33:29,375 --> 00:33:31,735 dans un espace lisible par des machines, 563 00:33:31,735 --> 00:33:33,143 c'est faisable, 564 00:33:33,143 --> 00:33:36,857 on peut avoir un dictionnaire 565 00:33:36,857 --> 00:33:41,735 estonien-maltais et vice-versa. 566 00:33:42,865 --> 00:33:45,607 Donc assurer des combinaisons de langues dans des dictionnaires 567 00:33:45,607 --> 00:33:47,911 qui n'ont jamais été réalisés auparavant 568 00:33:47,911 --> 00:33:51,050 parce que la demande était insuffisante 569 00:33:51,050 --> 00:33:55,540 pour en faire un projet financièrement viable qui justifie un tel travail. 570 00:33:55,540 --> 00:33:57,147 Maintenant nous pouvons le faire. 571 00:33:59,797 --> 00:34:02,318 Ensuite, la création de texte. 572 00:34:02,318 --> 00:34:03,653 Lucie parlait tout à l'heure 573 00:34:03,653 --> 00:34:10,136 de la manière dont elle travaille avec Hattie à générer du texte 574 00:34:10,136 --> 00:34:12,153 pour commencer à diffuser des articles de Wikipédia 575 00:34:12,153 --> 00:34:15,021 dans des langues minoritaires 576 00:34:15,423 --> 00:34:19,512 et cela exige d'avoir des données sur les mots 577 00:34:19,512 --> 00:34:22,589 et il faut comprendre la langue pour y parvenir. 578 00:34:23,669 --> 00:34:28,133 Et oui, ce ne sont que quelques exemples qui me viennent à l'esprit. 579 00:34:28,513 --> 00:34:30,604 Peut-être que notre auditoire a d'autres idées 580 00:34:30,604 --> 00:34:32,364 quant à ce qu'ils voudraient faire 581 00:34:32,364 --> 00:34:34,914 une fois que nous aurons toutes ces précieuses données. 582 00:34:37,693 --> 00:34:40,892 (intervenant 7) Je vais un peu m'écarter du sujet des lexèmes. 583 00:34:40,892 --> 00:34:42,666 Je voudrais poser cette question. 584 00:34:42,666 --> 00:34:45,634 Quel impact puis-je avoir en tant que membre d'une communauté 585 00:34:45,634 --> 00:34:50,135 pour faire d'une tâche une priorité, 586 00:34:50,135 --> 00:34:54,493 afin qu'un nouvel utilisateur puisse indiquer les langues 587 00:34:54,493 --> 00:34:56,644 qu'il souhaite voir et éditer 588 00:34:56,644 --> 00:35:01,135 sans disposer d'une bulle secrète de connaissances formatées ? 589 00:35:02,145 --> 00:35:05,193 Peut-être verrons-nous cette année cette liste de souhaits techniques exaucée 590 00:35:05,193 --> 00:35:07,040 en dehors des thèmes de Wikipédia. 591 00:35:07,040 --> 00:35:10,119 Peut-être pouvons-nous espérer un vote général sur ce point 592 00:35:10,119 --> 00:35:14,218 que nous n'avons pas réussi à résoudre depuis sept ans. 593 00:35:14,218 --> 00:35:17,607 Avez-vous des idées ou des commentaires à ce sujet ? 594 00:35:18,217 --> 00:35:20,328 Vous faites référence au fait 595 00:35:20,328 --> 00:35:23,518 qu'un utilisateur qui n'est pas connecté sur Wikidata 596 00:35:23,518 --> 00:35:25,971 ne peut pas apporter facilement de changements sur sa langue ? 597 00:35:25,971 --> 00:35:28,039 (intervenant 7) Non, je parle des utilisateurs. 598 00:35:28,309 --> 00:35:30,689 Alors, s'ils sont connectés, 599 00:35:30,689 --> 00:35:34,871 ils peuvent modifier leur langue en haut de la page 600 00:35:35,891 --> 00:35:38,489 et là ils verront apparaître, 601 00:35:39,659 --> 00:35:42,271 l'endroit où se trouvent les descriptions des libellés 602 00:35:42,271 --> 00:35:43,773 et ils peuvent les modifier. 603 00:35:45,657 --> 00:35:49,009 (intervenant 7) Eh bien, en fait, bien souvent, le processus est tel 604 00:35:49,009 --> 00:35:52,447 que si vous voulez avoir plusieurs langues disponibles, elles le sont, 605 00:35:52,447 --> 00:35:55,419 mais ce n'est pas toujours le cas. 606 00:35:55,419 --> 00:35:57,364 D'accord, peut-être pouvons-nous en discuter 607 00:35:57,364 --> 00:35:59,543 après cette conférence et vous me montrerez ? 608 00:36:01,562 --> 00:36:04,089 Bien. D'autres questions ? 609 00:36:05,534 --> 00:36:06,536 Oui. 610 00:36:11,595 --> 00:36:13,196 (intervenant 8) Merci pour votre exposé. 611 00:36:14,106 --> 00:36:15,127 Pouvez-vous nous parler 612 00:36:15,127 --> 00:36:19,307 de l'état de la corrélation avec la communauté Wiktionary ? 613 00:36:19,307 --> 00:36:22,296 D'après ce que j'en ai vu, il a été question lors de discussions 614 00:36:22,296 --> 00:36:26,051 d'importer certains éléments qui sont le fruit de leur travail 615 00:36:26,051 --> 00:36:30,843 mais il semble qu'il y ait des problèmes de licences et des désaccords, etc. 616 00:36:30,843 --> 00:36:31,848 C'est exact. 617 00:36:31,848 --> 00:36:36,330 Les communautés Wiktionary ont consacré énormément de temps 618 00:36:37,320 --> 00:36:39,473 à la construction de Wiktionary. 619 00:36:39,473 --> 00:36:42,643 Ils ont élaboré 620 00:36:43,193 --> 00:36:47,554 des modèles incroyablement complexes 621 00:36:47,554 --> 00:36:50,525 pour créer de beaux tableaux 622 00:36:50,525 --> 00:36:53,614 qui vous génèrent automatiquement des formulaires 623 00:36:53,614 --> 00:36:56,392 et toutes sortes de trucs impressionnants 624 00:36:56,392 --> 00:37:00,683 et parfois vraiment dingues, quand on y pense. 625 00:37:02,311 --> 00:37:07,994 Et bien sûr, ils y ont consacré énormément de temps et d'efforts. 626 00:37:09,364 --> 00:37:11,801 On peut comprendre 627 00:37:11,801 --> 00:37:17,116 qu'ils ne souhaitent pas qu'on puisse s'approprier tout ça 628 00:37:18,046 --> 00:37:19,102 aussi facilement. 629 00:37:19,102 --> 00:37:21,791 Donc c'est un peu ce qui se dit de ce côté-là. 630 00:37:22,761 --> 00:37:25,137 Et c'est OK. 631 00:37:25,737 --> 00:37:32,092 Maintenant, les premières communautés Wiktionary parlent de participer 632 00:37:32,092 --> 00:37:34,329 et d'importer certaines de leurs données sur Wikidata. 633 00:37:34,329 --> 00:37:39,095 Le russe, comme vous avez pu le voir par exemple fait partie de ces cas. 634 00:37:40,375 --> 00:37:42,355 Et je m'attends à ce que d'autres suivent. 635 00:37:43,635 --> 00:37:46,800 Mais ce sera un processus lent, 636 00:37:46,800 --> 00:37:49,383 de même que l'adoption de données Wikidata sur Wikipedia 637 00:37:49,383 --> 00:37:51,909 a également fait l'objet d'un processus assez lent. 638 00:37:52,849 --> 00:37:56,183 Outre le fait que cela rend plus facile 639 00:37:56,183 --> 00:37:59,132 l'utilisation des données comprises dans les lexèmes 640 00:37:59,132 --> 00:38:02,209 sur Wiktionary, pour qu'ils puissent s'en servir et partager des données 641 00:38:02,209 --> 00:38:05,531 entre les Wiktionnaires de différentes langues, 642 00:38:05,531 --> 00:38:08,853 chose hyper difficile voire impossible à faire à l'heure actuelle, 643 00:38:08,853 --> 00:38:11,560 ce qui est fou, comme ce fut le cas sur Wikipédia. 644 00:38:13,860 --> 00:38:16,595 Attendons les cadeaux d'anniversaire ! (petit rire) 645 00:38:20,038 --> 00:38:21,182 Oui. 646 00:38:22,849 --> 00:38:24,827 (Intervenant 9) Je pensais à la situation inverse, 647 00:38:24,827 --> 00:38:28,168 je ne voulais pas en parler parce que ça me semblait idiot, 648 00:38:28,168 --> 00:38:32,003 mais je crois que Wiktionnary dispose déjà de certains contenus 649 00:38:32,003 --> 00:38:34,978 et je sais qu'on ne peut pas les transférer sur Wikidata 650 00:38:34,978 --> 00:38:37,048 en raison des différences de licences. 651 00:38:37,048 --> 00:38:39,891 Mais je me disais que nous pourrions peut-être remédier à cela. 652 00:38:40,321 --> 00:38:45,913 Peut-être peut-on obtenir la permission des communautés 653 00:38:45,913 --> 00:38:51,205 après un vote général 654 00:38:52,075 --> 00:38:55,642 au cours duquel la communauté, les membres actifs de la communauté 655 00:38:55,642 --> 00:39:02,523 voteraient et diraient s'ils veulent ou acceptent de transférer les contenus 656 00:39:02,523 --> 00:39:05,528 permettant de faire les lexèmes Wikidata. 657 00:39:06,238 --> 00:39:08,637 Parce que ça me paraît être un vrai gâchis. 658 00:39:09,568 --> 00:39:13,443 Donc, c'est certainement une conversation 659 00:39:13,443 --> 00:39:16,146 que ceux qui sont membres de communautés Wiktionary 660 00:39:16,146 --> 00:39:18,319 peuvent susciter entre eux et nous en serions heureux. 661 00:39:18,319 --> 00:39:24,647 Je crois que ce serait un peu présomptueux de notre part de chercher à forcer cela. 662 00:39:25,917 --> 00:39:31,142 Mais oui, cela mérite largement qu'on en discute. 663 00:39:31,142 --> 00:39:33,898 Mais il me semble important de comprendre 664 00:39:33,898 --> 00:39:36,117 qu'il faut faire la distinction 665 00:39:36,117 --> 00:39:39,082 entre ce qui est faisable d'un point de vue légal, 666 00:39:39,082 --> 00:39:43,147 ce que nous devrions faire 667 00:39:43,147 --> 00:39:45,426 et ce que ces gens veulent faire ou pas. 668 00:39:45,626 --> 00:39:47,510 Donc, même si c'est autorisé légalement, 669 00:39:47,510 --> 00:39:50,640 si certaines communautés Wiktionary s'y opposent, 670 00:39:50,640 --> 00:39:53,637 je crois que nous devrions être pour le moins prudents là-dessus. 671 00:39:58,886 --> 00:40:02,489 Je crois qu'il vous faut un micro pour la retransmission. 672 00:40:04,540 --> 00:40:07,549 (intervenant 10) Tout cela est bien sûr très enthousiasmant 673 00:40:07,979 --> 00:40:12,319 et je me demande tout de suite comment je peux en faire profiter mes élèves 674 00:40:12,319 --> 00:40:15,558 et intégrer cela à mes cours, 675 00:40:15,558 --> 00:40:18,531 au travail que nous faisons, dans le cadre de l'éducation. 676 00:40:18,531 --> 00:40:22,271 Et je ne dispose pas à ce jour 677 00:40:22,621 --> 00:40:24,241 des connaissances suffisantes, d'abord, 678 00:40:24,241 --> 00:40:27,278 mais je crois que la documentation dont nous disposons 679 00:40:27,808 --> 00:40:30,082 pourrait peut-être être améliorée. 680 00:40:30,082 --> 00:40:33,437 Donc, j'aimerais exprimer le souhait de voir réaliser des vidéos sympa 681 00:40:33,437 --> 00:40:35,898 pour expliquer comment ça marche 682 00:40:35,898 --> 00:40:39,948 parce que si nous avons cela, nous pourrons nous en servir 683 00:40:39,948 --> 00:40:41,985 et impliquer les élèves 684 00:40:41,985 --> 00:40:47,072 et nous pourrons faire savoir aux gens à quel point c'est fantastique. 685 00:40:47,072 --> 00:40:52,001 Et oui, donc, s'il vous plaît, pensez à la documentation et à l'éducation. 686 00:40:52,001 --> 00:40:54,480 Parce que je crois qu'on pourrait faire beaucoup de choses. 687 00:40:54,480 --> 00:40:58,585 Il y a de nombreuses tâches qui pourraient être effectuées avec... 688 00:41:00,125 --> 00:41:02,033 je ne dirais pas des élèves de primaire 689 00:41:02,033 --> 00:41:05,495 mais certainement avec des élèves plus jeunes. 690 00:41:05,915 --> 00:41:10,866 Et donc j'aimerais vraiment que ce potentiel soit mis à contribution 691 00:41:10,866 --> 00:41:15,272 et personnellement, je ne m'y connais pas assez à ce stade 692 00:41:15,272 --> 00:41:19,500 pour pouvoir créer des tâches ou créer... 693 00:41:20,430 --> 00:41:22,155 faire quelque chose de pratique avec ça. 694 00:41:22,155 --> 00:41:25,772 Donc, si quelqu'un peut apporter de l'aide, des idées à ce sujet, 695 00:41:25,772 --> 00:41:29,648 ce serait une joie pour moi d'entendre vos idées et les vôtres aussi. 696 00:41:30,508 --> 00:41:32,329 D'accord ! Discutons-en. 697 00:41:35,473 --> 00:41:37,139 D'autres questions ? 698 00:41:37,719 --> 00:41:39,195 Quelqu'un d'autre avait levé la main 699 00:41:39,195 --> 00:41:40,625 mais je ne sais plus qui. 700 00:41:45,739 --> 00:41:49,996 (intervenant 11) Donc, si nous ne pouvons pas importer des contenus de Wiktionary, 701 00:41:49,996 --> 00:41:52,092 y a-t-il des efforts concertés 702 00:41:52,092 --> 00:41:55,772 pour trouver d'autres ressources dans le domaine public 703 00:41:55,772 --> 00:41:57,459 peut-être des données 704 00:41:58,769 --> 00:42:03,167 que nous pourrions pré-filtrer, organiser 705 00:42:03,167 --> 00:42:08,470 afin de les rendre facilement vérifiables pour que les gens puissent les importer ? 706 00:42:09,033 --> 00:42:11,291 Alors, il y a des premiers efforts de faits. 707 00:42:11,291 --> 00:42:14,769 J'ai cru comprendre que le basque était l'un de ces exemples. 708 00:42:14,769 --> 00:42:17,474 Peut-être voudriez-vous nous en dire plus à ce sujet ? 709 00:42:18,306 --> 00:42:20,130 (l'intervenant 12 parle hors micro) 710 00:42:23,166 --> 00:42:27,098 OK, la réponse aujourd'hui c'est de payer pour cela, 711 00:42:28,374 --> 00:42:33,381 je veux dire, nous avons passé un accord avec un de nos prestataires habituels, 712 00:42:34,801 --> 00:42:38,725 Ils font des dictionnaires... 713 00:42:40,125 --> 00:42:42,508 plein d'autres trucs aussi, mais ils font des dictionnaires. 714 00:42:42,508 --> 00:42:45,070 Donc, nous nous sommes entendus 715 00:42:45,070 --> 00:42:47,473 pour mettre en libre accès le dictionnaire des étudiants 716 00:42:47,473 --> 00:42:52,782 qui comprend les mots les plus communs et nous avons commencé à le téléverser 717 00:42:52,782 --> 00:42:55,590 avec un identifiant externe et ce genre de choses. 718 00:42:56,230 --> 00:43:02,902 Mais il y a eu quelques discussions sur le fait de le laisser en CC0 719 00:43:03,212 --> 00:43:05,702 parce que leur dictionnaire est sous licence Attribution 720 00:43:06,307 --> 00:43:10,326 et ils ont compris sur quoi reposait la différence. 721 00:43:10,326 --> 00:43:13,866 Donc, cela a donné lieu à quelques discussions. 722 00:43:13,866 --> 00:43:19,519 Mais je crois que si nous pouvons fournir des outils ou des exemples, 723 00:43:19,519 --> 00:43:21,761 je pense qu'il y aura à l'avenir d'autres dictionnaires 724 00:43:21,761 --> 00:43:24,016 que nous pourrons traiter 725 00:43:24,016 --> 00:43:29,274 et je crois que Wiktionary devrait aussi aller dans ce sens, 726 00:43:29,274 --> 00:43:32,260 mais c'est une autre discussion de taille. 727 00:43:33,285 --> 00:43:34,487 Et de plus, 728 00:43:34,487 --> 00:43:38,839 Lea est aussi en contact avec des Occitans 729 00:43:38,839 --> 00:43:41,827 qui travaillent sur des dictionnaires en occitan 730 00:43:41,827 --> 00:43:45,238 et participent en ce moment à une collaboration autour du sumérien. 731 00:43:51,644 --> 00:43:53,483 D'autres questions ? 732 00:44:01,377 --> 00:44:03,519 (intervenant 13) Bonjour. Nous sommes justement ceux 733 00:44:03,519 --> 00:44:05,399 qui souhaitent importer les données en occitan. 734 00:44:05,399 --> 00:44:06,585 Ah, parfait ! 735 00:44:06,585 --> 00:44:08,478 (i.13) Et nous rencontrons un petit problème. 736 00:44:09,188 --> 00:44:14,215 C'est que nous ignorons comment refléter les variantes de tous les lexèmes. 737 00:44:14,215 --> 00:44:17,893 Nous avons six dialectes 738 00:44:17,893 --> 00:44:24,014 et nous voudrions indiquer dans quel dialecte le lexème s'utilise, 739 00:44:24,014 --> 00:44:27,285 mais nous n'avons pas de déclaration C0 pour faire cela 740 00:44:27,285 --> 00:44:31,105 Donc, tant que cette section n'existe pas 741 00:44:31,635 --> 00:44:34,465 cela nous empêche de l'intégrer 742 00:44:34,465 --> 00:44:37,603 parce que nous devrions tout reprendre 743 00:44:37,603 --> 00:44:42,076 le jour où nous pourrons exprimer cette déclaration. 744 00:44:42,076 --> 00:44:44,551 Et c'est compliqué parce que c'est une déclaration 745 00:44:44,551 --> 00:44:47,802 qui aura peu de demandeurs 746 00:44:47,802 --> 00:44:53,444 étant donnée qu'elle concerne principalement des langues minoritaires. 747 00:44:53,444 --> 00:44:56,933 Donc, il n'y aura qu'un demandeur pour cela. 748 00:44:56,933 --> 00:45:00,022 Mais comme nos collègues basques 749 00:45:00,022 --> 00:45:02,322 ce sera peut-être une personne 750 00:45:02,322 --> 00:45:06,082 qui ouvrira une possibilité à des milliers d'autres, 751 00:45:06,082 --> 00:45:10,884 donc ce n'est peut-être pas trop demander, 752 00:45:10,884 --> 00:45:14,136 mais ce sera très important pour nous. 753 00:45:14,874 --> 00:45:17,600 Avez-vous une proposition de nouvelle propriété déjà prête 754 00:45:17,600 --> 00:45:19,550 ou avez-vous besoin d'aide pour la créer ? 755 00:45:21,524 --> 00:45:24,356 (intervenant 13) Nous en avons fait la demande il y a quatre mois. 756 00:45:24,720 --> 00:45:28,755 D'accord, alors voyons qui peut aider à sortir cette proposition de propriété. 757 00:45:30,159 --> 00:45:33,360 Je suis sûre qu'il y a assez de gens dans cette salle pour que ça se fasse. 758 00:45:33,360 --> 00:45:35,564 (i.13) Proposition de propriété « Variété de la forme ». 759 00:45:35,564 --> 00:45:36,965 (l'intervenant 14 parle hors micro) 760 00:45:36,965 --> 00:45:39,699 (i.13) Nous n'avons pas eu de réponse et nous ne savons pas le faire 761 00:45:39,699 --> 00:45:43,153 parce que nous ne sommes pas dans la communauté Wikidata. 762 00:45:44,694 --> 00:45:48,817 OK. Il y a des gens ici qui peuvent vous aider. 763 00:45:48,817 --> 00:45:52,134 Peut-être que vous pouvez lever la main... 764 00:45:52,574 --> 00:45:53,644 (i.15) Je suis d'accord. 765 00:45:53,644 --> 00:45:55,512 Je crois que c'est très intéressant 766 00:45:55,512 --> 00:45:59,059 que la variété de forme 767 00:45:59,059 --> 00:46:02,607 peut aussi être corrélée d'un point de vue géographique 768 00:46:02,607 --> 00:46:04,995 avec des coordonnées ou une forme de cartographie. 769 00:46:05,595 --> 00:46:07,815 Et cela vaut aussi pour les variétés de prononciations 770 00:46:07,815 --> 00:46:11,837 et je crois que c'est quelque chose qui se produit dans beaucoup de langues. 771 00:46:12,607 --> 00:46:16,262 Nous devrions pouvoir mettre cela en place. 772 00:46:16,262 --> 00:46:18,865 je vais faire des recherches pour cette propriété. 773 00:46:19,782 --> 00:46:20,933 Chouette. 774 00:46:20,933 --> 00:46:24,446 Donc vous allez avoir du soutien pour votre proposition de propriété. 775 00:46:26,136 --> 00:46:27,297 Merci. 776 00:46:28,153 --> 00:46:30,261 Très bien. D'autres questions ? 777 00:46:32,410 --> 00:46:33,474 Finn. 778 00:46:33,974 --> 00:46:35,055 Finn fait partie de ceux 779 00:46:35,055 --> 00:46:38,031 qui construisent des choses à partir des données lexicographiques. 780 00:46:38,031 --> 00:46:40,085 (Finn) C'est juste une petite question. 781 00:46:40,405 --> 00:46:44,226 et elle concerne les variantes orthographiques. 782 00:46:44,896 --> 00:46:48,002 Il semble qu'il soit difficile de les faire apparaître... 783 00:46:48,532 --> 00:46:53,368 Bien sûr, il serait possible d'avoir de multiples formes pour un même mot. 784 00:46:56,327 --> 00:46:58,448 Je ne sais pas. Ça me semble... 785 00:46:59,558 --> 00:47:03,535 Si on ne le fait pas de cette manière, il semble difficile de préciser... 786 00:47:04,771 --> 00:47:05,888 je ne sais pas si... 787 00:47:05,888 --> 00:47:09,731 s'il s'agit d'un souci technique mineur ou si au contraire... 788 00:47:09,731 --> 00:47:11,252 Voyons cela ensemble. 789 00:47:11,642 --> 00:47:15,230 Je serais ravie de voir un exemple. 790 00:47:17,478 --> 00:47:18,478 Asaf. 791 00:47:26,886 --> 00:47:28,396 (Asaf) Merci. 792 00:47:29,386 --> 00:47:33,685 Je peux vous donner un exemple concret dans ma langue maternelle, l'hébreu. 793 00:47:34,205 --> 00:47:38,845 L'hébreu a deux variantes principales 794 00:47:38,845 --> 00:47:42,786 pour exprimer quasiment chaque mot 795 00:47:42,786 --> 00:47:47,640 parce que l'orthographe traditionnelle 796 00:47:47,640 --> 00:47:50,274 se dispense d'un grand nombre de voyelles. 797 00:47:50,934 --> 00:47:55,207 Et par conséquent, dans les éditions modernes de la Bible ou des poèmes, 798 00:47:55,207 --> 00:47:57,461 des signes diacritiques sont utilisés. 799 00:47:57,461 --> 00:47:59,200 Cependant, ces signes diacritiques 800 00:47:59,200 --> 00:48:02,670 ne sont jamais utilisés dans la prose moderne, 801 00:48:02,670 --> 00:48:05,974 dans la presse ou les panneaux indicateurs. 802 00:48:05,974 --> 00:48:11,209 Donc, l'usage courant ajoute des voyelles supplémentaires 803 00:48:12,019 --> 00:48:13,679 et n'utilise pas de signes diacritiques 804 00:48:13,679 --> 00:48:15,607 par qu'ils sont évidemment plus encombrants, 805 00:48:15,607 --> 00:48:18,623 qu'ils sont soumis à toutes sortes de règles que plus personne ne connaît. 806 00:48:18,633 --> 00:48:20,531 Donc en gros, il y a deux variantes. 807 00:48:20,531 --> 00:48:25,322 Il y a la variante propre à la prose usuelle de tous les jours 808 00:48:25,322 --> 00:48:27,827 et celle de la Bible ou de la poésie 809 00:48:27,827 --> 00:48:30,136 qui se présente toujours sous la forme traditionnelle 810 00:48:30,136 --> 00:48:32,200 avec ses signes diacritiques. 811 00:48:32,200 --> 00:48:33,302 Pour être utile, 812 00:48:33,302 --> 00:48:37,428 le lexème devrait reconnaître les deux variétés pour chaque mot sans exception 813 00:48:37,428 --> 00:48:39,747 et pour chaque forme de chaque mot. 814 00:48:40,677 --> 00:48:43,391 Donc il s'agit là d'un cas pratique très complet 815 00:48:43,391 --> 00:48:46,340 pour ce qui est des variantes officielles stables. 816 00:48:46,340 --> 00:48:49,332 Il ne s'agit pas de dialectes, il ne s'agit pas de variantes régionales, 817 00:48:49,332 --> 00:48:53,627 mais bien de deux systèmes morphologiques qui coexistent. 818 00:48:54,537 --> 00:48:58,926 Et je ne sais pas bien non plus comment exprimer cela dans les lexèmes 819 00:48:58,926 --> 00:49:02,800 et en réponse à la question de Magnus, c'est l'une des choses qui m'empêchent 820 00:49:02,800 --> 00:49:05,238 de téléverser les parties déjà prêtes 821 00:49:05,238 --> 00:49:09,394 du plus grand dictionnaire d'hébreu qui fait partie du domaine public 822 00:49:09,394 --> 00:49:13,141 et que j'ai entrepris de numériser depuis maintenant plusieurs années. 823 00:49:13,141 --> 00:49:14,673 Une portion conséquente est déjà prête 824 00:49:14,673 --> 00:49:16,689 mais je ne l'intègre pas au lexème pour le moment 825 00:49:16,689 --> 00:49:20,245 parce que je ne sais pas exactement comment résoudre ce problème. 826 00:49:20,245 --> 00:49:23,387 Très bien, trouvons la solution ici même (petit rire) 827 00:49:24,503 --> 00:49:26,021 Ce doit être possible. 828 00:49:30,045 --> 00:49:32,047 Très bien, d'autres questions ? 829 00:49:37,173 --> 00:49:39,735 Si vous n'avez plus de questions, merci à tous. 830 00:49:40,605 --> 00:49:42,675 (applaudissements) 831 00:49:45,983 --> 00:49:48,263 WIKI DATA 2019 Wikidata et les langues