WEBVTT 00:00:04.035 --> 00:00:05.945 Panel sur la qualité des données 00:00:05.945 --> 00:00:09.476 Bonjour à tous, bienvenue au groupe Qualité de Données. 00:00:10.288 --> 00:00:13.671 La qualité de données est importante car de plus en plus de gens 00:00:13.672 --> 00:00:19.289 se basent sur nos bonnes données et donc, nous allons parler de qualité. 00:00:20.029 --> 00:00:26.000 Il y aura quatre orateurs qui présenteront des introductions 00:00:26.000 --> 00:00:29.539 sur des sujets concernant la qualité de données suivies de questions-réponses. 00:00:30.130 --> 00:00:32.234 Le premier est Lucas. 00:00:34.385 --> 00:00:35.385 Merci. 00:00:35.901 --> 00:00:39.899 Je m'appelle Lucas et je vais commencer par une vue générale 00:00:39.899 --> 00:00:43.806 des outils de qualité de données que nous possédons déjà sur Wikidata 00:00:43.807 --> 00:00:46.109 et sur les prochaines nouveautés. 00:00:46.932 --> 00:00:50.623 Je les ai regroupés par thèmes : 00:00:50.623 --> 00:00:53.761 rendre les erreurs plus visibles, les problèmes actionnables, 00:00:53.762 --> 00:00:56.752 avoir plus de vues sur les données pour que les problèmes soient remarqués, 00:00:56.945 --> 00:01:02.616 remédier aux sources communes d'erreurs, maintenir la qualité existante 00:01:02.616 --> 00:01:03.966 et le référencement humain. 00:01:05.063 --> 00:01:09.874 Et ce qui est actuellement disponible commence par les contraintes de propriété. 00:01:10.068 --> 00:01:12.421 Si vous êtes sur Wikidata, ceci vous est sûrement familier. 00:01:12.422 --> 00:01:15.480 Des icônes vérifiant la cohérence interne des données 00:01:15.480 --> 00:01:17.241 sont parfois présentes. 00:01:17.242 --> 00:01:20.800 Par exemple, si un événement en suit un autre, 00:01:20.801 --> 00:01:23.760 cet autre devrait aussi être suivi par celui-ci, 00:01:23.761 --> 00:01:27.161 ce qui n'est apparemment pas sur l'item WikidataCon. 00:01:27.162 --> 00:01:29.600 Je ne suis pas sûr, cette fonction date que quelques jours. 00:01:30.040 --> 00:01:34.681 Et si ceci est trop limité ou simple pour vous, 00:01:34.682 --> 00:01:38.080 vous pouvez utiliser n'importe quelle vérification grâce à Query Service, 00:01:38.081 --> 00:01:39.842 ce qui est bien sûr très pratique. 00:01:39.843 --> 00:01:44.543 Mais vous pouvez aussi l'utiliser pour déterminer les erreurs. 00:01:44.544 --> 00:01:46.974 Si vous avez remarqué une erreur, 00:01:46.975 --> 00:01:49.709 vous pouvez regarder 00:01:49.710 --> 00:01:51.958 si d'autres erreurs similaires ont été commises 00:01:51.958 --> 00:01:53.438 et les trouver avec le Query Service. 00:01:53.439 --> 00:01:55.039 Vous pouvez également combiner les deux 00:01:55.039 --> 00:01:57.874 et rechercher des violations de contrainte, 00:01:57.875 --> 00:02:01.240 par exemple, uniquement celles dans une zone particulière 00:02:01.241 --> 00:02:03.762 ou un WikiProject qui vous est pertinent. 00:02:03.762 --> 00:02:06.828 Malheureusement, les résultats ne sont actuellement pas complets. 00:02:08.422 --> 00:02:09.877 Il existe la notation de révision. 00:02:10.690 --> 00:02:12.666 Provenant des changements récents, 00:02:12.667 --> 00:02:16.217 vous pouvez aussi avoir une évaluation automatique : 00:02:16.217 --> 00:02:20.249 cette édition est-elle faite de bonne ou mauvaise volonté 00:02:20.250 --> 00:02:22.312 et peut-elle être préjudiciable ou non. 00:02:22.313 --> 00:02:24.205 Voilà les deux dimensions. 00:02:24.206 --> 00:02:25.686 Vous pouvez si vous le voulez, 00:02:25.687 --> 00:02:29.898 vous concentrer sur les éditions néfastes mais de bonne volonté. 00:02:29.899 --> 00:02:32.803 Si vous êtes dans une humeur particulièrement amicale et accueillante, 00:02:32.803 --> 00:02:37.121 vous pouvez dire à ces éditeurs : « Merci pour votre contribution, 00:02:37.122 --> 00:02:40.560 vous auriez dû le faire comme ça, mais merci quand même. » 00:02:40.561 --> 00:02:42.046 Si vous n'êtes pas dans cette humeur, 00:02:42.046 --> 00:02:44.562 vous pouvez examiner les éditions préjudiciables de mauvaise foi 00:02:44.562 --> 00:02:45.933 et inverser le vandalisme. 00:02:47.544 --> 00:02:49.761 Il y a aussi la notation d'entité. 00:02:49.762 --> 00:02:52.590 Au lieu de noter une édition, la modification apportée, 00:02:52.591 --> 00:02:53.904 vous notez la révision complète 00:02:53.904 --> 00:02:56.483 et je pense que c'est la même mesure de qualité 00:02:56.483 --> 00:02:59.863 que Lydia mentionne au début de la conférence. 00:03:00.372 --> 00:03:04.569 Cela nous donne un script d'utilisateur et un score de un à cinq, je pense, 00:03:04.570 --> 00:03:08.176 de la qualité de l'item actuel. 00:03:10.043 --> 00:03:15.108 L'outil des sources primaires s'utilise pour toute base de données à importer, 00:03:15.108 --> 00:03:18.364 mais n'est pas d'assez bonne qualité que pour être ajouté directement à Wikidata. 00:03:18.374 --> 00:03:20.585 Il doit donc être ajouté à l'outil des sources primaires 00:03:20.585 --> 00:03:22.956 pour que les humains puissent décider 00:03:22.956 --> 00:03:26.024 d'ajouter ces énoncés individuels ou non. 00:03:28.595 --> 00:03:31.901 Afficher les coordonnées sous forme de cartes est pratique, 00:03:31.901 --> 00:03:33.798 mais peut aussi servir de contrôle qualité. 00:03:33.798 --> 00:03:36.937 Si vous voyez que les coordonnées du bureau de Wikimedia Germany 00:03:36.938 --> 00:03:39.400 se trouvent quelque part dans l'océan Indien, 00:03:39.401 --> 00:03:41.529 vous savez que quelque chose ne va pas 00:03:41.530 --> 00:03:44.790 et cela se remarque plus facilement que simplement avec des chiffres. 00:03:46.382 --> 00:03:49.576 C'est un gadget appelé « l'indicateur de complétude relative » 00:03:49.577 --> 00:03:52.480 qui vous montre cette petite icône ici 00:03:53.007 --> 00:03:55.652 vous donnant son estimation de complétion de l'item 00:03:55.652 --> 00:03:57.613 ainsi que les propriétés manquantes, 00:03:57.614 --> 00:03:59.769 ce qui est très utile si vous éditez un item, 00:03:59.769 --> 00:04:03.172 que vous êtes dans une zone peu familière 00:04:03.172 --> 00:04:05.901 et que ne savez pas quelles sont les propriétés correctes à employer, 00:04:05.901 --> 00:04:08.230 c'est alors un gadget très utile. 00:04:09.604 --> 00:04:11.401 Il y a aussi les « Shape Expressions ». 00:04:11.402 --> 00:04:15.624 Andra et Jose nous en parleront davantage, 00:04:15.624 --> 00:04:19.757 mais c'est en gros, un moyen puissant de comparer les données 00:04:19.758 --> 00:04:20.758 par rapport au schéma, 00:04:20.759 --> 00:04:22.690 comme quel état devrait avoir certaines entités, 00:04:22.690 --> 00:04:26.067 à quelles autres devraient-elles se lier et à quoi devraient-elles ressembler, 00:04:26.229 --> 00:04:29.374 vous pouvez ainsi trouver les problèmes. 00:04:30.366 --> 00:04:32.361 Ce n'est pas fini. 00:04:32.362 --> 00:04:34.321 « Integraality » ou tableau de bord de propriété. 00:04:34.322 --> 00:04:36.773 Il vous fournit une vue rapide de vos données existantes. 00:04:36.774 --> 00:04:39.147 Par exemple, ceci provient du WikiProject « Red Pandas » 00:04:39.657 --> 00:04:41.681 et vous pouvez voir que le sexe ou genre 00:04:41.682 --> 00:04:43.561 de presque tous les pandas sont assignés. 00:04:43.561 --> 00:04:46.854 La date de naissance varie selon leur zoo 00:04:46.854 --> 00:04:50.255 et heureusement, il n'y a presque aucun panda mort. 00:04:51.437 --> 00:04:52.600 Ils sont trop mignons. 00:04:53.699 --> 00:04:55.654 Ceci est donc aussi utile. 00:04:56.377 --> 00:04:59.185 Voilà. Voyons maintenant ce qui va arriver. 00:04:59.889 --> 00:05:03.784 Wikidata Bridge, connu antérieurement sous le nom de l'édition client ; 00:05:03.785 --> 00:05:07.076 donc éditer Wikidata à partir des info-boxes Wikipedia 00:05:07.675 --> 00:05:11.725 qui d'une part, permettra plus de vues sur les données 00:05:11.725 --> 00:05:13.441 car plus de personnes peuvent les y voir, 00:05:13.441 --> 00:05:18.841 en espérant que cela engendrera un emploi plus important de Wikidata 00:05:18.841 --> 00:05:20.920 et que plus de gens peuvent voir 00:05:20.921 --> 00:05:23.977 si par exemple, certaines données sont dépassées et doivent être mises à jour 00:05:23.977 --> 00:05:27.000 au lieu de seulement les voir sur Wikidata. 00:05:28.630 --> 00:05:30.656 Il y a aussi les références contaminées. 00:05:30.657 --> 00:05:33.959 L'idée est que si vous modifiez une valeur de relevé, 00:05:34.683 --> 00:05:37.279 vous pourriez également vouloir mettre cette référence à jour 00:05:37.280 --> 00:05:39.373 à moins que ce ne soit juste une erreur de frappe. 00:05:39.897 --> 00:05:43.662 Cette référence contaminée dit aussi aux autres éditeurs 00:05:43.663 --> 00:05:49.756 quelles modifications de relevé de valeur ont été faites 00:05:49.756 --> 00:05:52.471 qui n'ont pas mis la référence à jour. 00:05:52.472 --> 00:05:56.766 Vous pouvez alors remédier à cela et décider si... 00:05:57.737 --> 00:05:59.566 Est-ce que vous devez en faire plus 00:05:59.566 --> 00:06:02.796 ou c'est bien comme ça, il n'y a pas besoin de mettre la référence à jour. 00:06:03.543 --> 00:06:09.336 Cela concerne les relevés signés originaires d'un souci 00:06:09.336 --> 00:06:12.355 de certains fournisseurs de données... 00:06:14.131 --> 00:06:17.231 Il y a un énoncé que l'UNESCO a référencé 00:06:17.232 --> 00:06:19.872 qui a été vandalisé 00:06:19.873 --> 00:06:21.836 et ils sont donc inquiets qu'il semblerait 00:06:22.827 --> 00:06:26.992 que cette organisation, l'UNESCO aurait validé cette valeur vandalisée. 00:06:26.993 --> 00:06:28.706 Mais grâce aux énoncés signés, 00:06:28.706 --> 00:06:31.488 ils peuvent le faire de manière cryptographique 00:06:31.488 --> 00:06:33.562 sans empêcher les modifications ; 00:06:34.169 --> 00:06:37.744 mais au moins, si quelqu'un vandalise l'énoncé 00:06:37.744 --> 00:06:40.435 ou le modifie de quelque façon, la signature n'est alors plus valide 00:06:40.435 --> 00:06:43.401 et on peut voir que ce n'est pas ce qu'a dit l'organisation, 00:06:43.402 --> 00:06:47.064 et il se peut que ce soit une bonne modification qui devrait être resignée, 00:06:47.065 --> 00:06:49.851 mais qui pourrait aussi devoir être annulée. 00:06:51.203 --> 00:06:53.666 Une chose excitante 00:06:53.666 --> 00:06:56.846 est que Wikipedia comprend ce système étonnant appelé « Citoid » 00:06:57.379 --> 00:07:01.340 où on peut coller une URL, un identifiant ou un ISBN 00:07:01.340 --> 00:07:04.759 ou un ID Wikidata ou pratiquement n'importe quoi dans le Visual Editor 00:07:05.260 --> 00:07:08.241 qui retourne une référence bien formatée 00:07:08.242 --> 00:07:11.049 avec toutes les données possibles, c'est très gai à utiliser. 00:07:11.049 --> 00:07:14.337 Pour comparer avec Wikidata, si je veux ajouter une référence, 00:07:14.338 --> 00:07:18.801 typiquement, je dois ajouter une URL, un titre, nom d'auteur, 00:07:18.802 --> 00:07:20.449 date et lieu de publication, 00:07:20.450 --> 00:07:25.141 dates de récupération, au moins tout ça et c'est embêtant. 00:07:25.141 --> 00:07:29.261 On peut espérer que l'intégration de Citoid dans Wikibase améliorera la chose. 00:07:30.245 --> 00:07:33.604 Je crois que c'est tout pour moi. 00:07:33.604 --> 00:07:36.400 Je passe la parole à Cristina. 00:07:36.400 --> 00:07:38.488 Comment améliorer la gestion de qualité de données ? 00:07:38.488 --> 00:07:42.339 (applaudissements) 00:07:43.780 --> 00:07:45.471 Bonjour, je suis Cristina. 00:07:45.472 --> 00:07:47.672 Je suis chercheuse scientifique à l'université de Zurich 00:07:47.673 --> 00:07:51.417 et je suis aussi une membre active de la communauté suisse. 00:07:52.698 --> 00:07:57.901 Quand Claudia Müller-Birn et moi-même avons présenté ceci à WikidataCon, 00:07:57.902 --> 00:08:00.410 ce que nous voulions, c'est continuer la discussion 00:08:00.411 --> 00:08:02.424 commencée au début de l'année 00:08:02.424 --> 00:08:07.442 avec un atelier sur la qualité de données et des sessions dans Wikimania. 00:08:07.442 --> 00:08:10.535 Le but de cette conférence est de parler des pensées 00:08:10.536 --> 00:08:14.432 réunies de la communauté et de nous-mêmes 00:08:14.432 --> 00:08:16.560 et de continuer cette discussion. 00:08:16.561 --> 00:08:20.065 Nous aimerions beaucoup continuer cette interaction avec vous. 00:08:21.557 --> 00:08:23.371 Nous pensions qu'il est très important 00:08:23.372 --> 00:08:27.580 de toujours demander à tous les types d'utilisateur de la communauté, 00:08:27.581 --> 00:08:32.240 quels sont leurs besoins et problèmes concernant la qualité de données ; 00:08:32.240 --> 00:08:35.000 non seulement les éditeurs, mais aussi les codeurs 00:08:35.000 --> 00:08:36.241 ou les consommateurs de données 00:08:36.242 --> 00:08:39.494 et également les chercheurs qui utilisent toute cette historique d'édition 00:08:39.494 --> 00:08:40.800 pour analyser les événements. 00:08:42.367 --> 00:08:48.431 Nous avons donc examiné à peu près 80 outils de Wikidata 00:08:48.431 --> 00:08:52.380 et les avons alignés aux différentes dimensions de qualité de données. 00:08:52.380 --> 00:08:54.360 Ce qu'on a réalisé, c'est que 00:08:54.361 --> 00:08:57.681 nombre d'entre eux surveillent la complétion, 00:08:57.682 --> 00:09:02.820 mais certains d'entre eux permettent l'interconnexion. 00:09:02.820 --> 00:09:08.442 Mais il y a un grand besoin pour des outils travaillant dans la diversité, 00:09:08.443 --> 00:09:12.824 ce qu'on peut en fait avoir dans Wikidata, 00:09:12.824 --> 00:09:15.318 spécialement dans son principe de conception 00:09:15.318 --> 00:09:18.131 où la pluralité et les relevés différents contenant différentes valeurs 00:09:18.131 --> 00:09:20.308 provenant de différentes sources 00:09:21.034 --> 00:09:22.236 peuvent exister. 00:09:22.236 --> 00:09:25.091 Parce que la source est secondaire, nous n'avons pas vraiment d'outils 00:09:25.091 --> 00:09:27.750 qui nous disent réellement quelle est la pluralité d'énoncés, 00:09:27.751 --> 00:09:30.889 combien nous pouvons améliorer et de quelle manière 00:09:30.890 --> 00:09:32.833 et nous ne connaissons pas non plus vraiment 00:09:32.833 --> 00:09:35.538 les raisons de cette pluralité. 00:09:36.491 --> 00:09:39.201 De ces réunions de communauté, 00:09:39.201 --> 00:09:43.084 nous avons discuté les défis qui demandent de l'attention. 00:09:43.084 --> 00:09:47.249 Par exemple, le fait d'avoir ces communautés de production participative 00:09:47.249 --> 00:09:49.613 est positif car différentes personnes 00:09:49.613 --> 00:09:51.833 avec des connaissances de base différentes 00:09:51.834 --> 00:09:54.615 attaquent les différentes parties des données ou du graphe ; 00:09:54.616 --> 00:09:59.161 mais en réalité, il est difficile de tout aligner de manière homogène 00:09:59.162 --> 00:10:04.920 car différentes personnes utilisent différentes chose de façons différentes 00:10:04.920 --> 00:10:08.401 et s'attendent aussi à différentes choses venant des descriptions d'entité. 00:10:09.003 --> 00:10:12.721 Les gens ont aussi dit qu'ils ont besoin de plus d'outils 00:10:12.722 --> 00:10:16.000 qui donnent une meilleure vue d'ensemble du statut global des choses. 00:10:16.000 --> 00:10:20.733 C'est donc ce qui manque aux entités en termes de complétion, 00:10:20.733 --> 00:10:26.121 mais aussi sur quoi les gens travaillent-ils maintenant 00:10:26.121 --> 00:10:30.516 et ils ont aussi mentionné maintes fois d'avoir une collaboration plus étroite 00:10:30.517 --> 00:10:33.311 entre non seulement, les langages, mais aussi WikiProjects 00:10:33.311 --> 00:10:35.571 et les différentes plateformes de Wikimedia. 00:10:35.571 --> 00:10:38.859 Nous avons publié tous les commentaires transcrits 00:10:38.860 --> 00:10:42.959 de toutes les discussions dans les liens de Etherpads 00:10:42.959 --> 00:10:46.162 et dans la page wiki de Wikimania. 00:10:46.162 --> 00:10:48.481 Certaines solutions pointaient 00:10:48.481 --> 00:10:53.001 vers le fait de plus partager les bonnes pratiques 00:10:53.001 --> 00:10:55.762 qui sont développées dans différents WikiProjects, 00:10:55.762 --> 00:11:01.238 mais il y a aussi une demande pour des outils qui facilitent l'organisation 00:11:01.239 --> 00:11:03.845 de travail dans les équipes pour savoir qui fait quoi 00:11:03.845 --> 00:11:07.815 et également, pour plus de vitrines 00:11:07.816 --> 00:11:12.019 et de modèles pour aider à mieux créer. 00:11:12.946 --> 00:11:15.161 D'après le contact que nous avons 00:11:15.162 --> 00:11:18.721 avec les Open Governmental Data Organizations, 00:11:18.722 --> 00:11:20.068 et particulièrement, 00:11:20.068 --> 00:11:23.102 je suis en contact avec le canton et la ville de Zurich, 00:11:23.102 --> 00:11:26.207 ils sont très intéressés de travailler avec Wikidata 00:11:26.207 --> 00:11:29.896 parce qu'ils veulent leurs données accessibles à tous 00:11:29.897 --> 00:11:33.681 dans les endroits où les gens consultent et accèdent aux données. 00:11:33.682 --> 00:11:36.370 Ce qui peut être intéressant pour eux 00:11:36.370 --> 00:11:38.600 serait d'avoir un genre d'indicateurs de qualité 00:11:38.600 --> 00:11:41.082 à la fois dans le wiki, ce qui est valable actuellement, 00:11:41.082 --> 00:11:42.801 mais aussi dans les résultats SPARQL, 00:11:42.802 --> 00:11:46.066 afin de savoir s'ils peuvent faire confiance aux données communautaires. 00:11:46.067 --> 00:11:48.230 Ils veulent aussi savoir 00:11:48.230 --> 00:11:51.417 quelles parties de leur propre ensemble de données sont utiles pour Wikidata 00:11:51.418 --> 00:11:56.040 et aimeraient un outil qui peut les aider à évaluer ça automatiquement. 00:11:56.041 --> 00:11:59.066 Ils ont aussi besoin d'une méthodologie ou outil 00:11:59.067 --> 00:12:03.894 pour les aider à décider s'ils doivent importer ou connecter leurs données, 00:12:03.894 --> 00:12:04.894 car dans certains cas, 00:12:04.895 --> 00:12:07.497 ils ont aussi leurs propres ensembles de données ouverts couplés ; 00:12:07.497 --> 00:12:09.946 ils ne savent donc pas s'ils doivent juste ingérer des données 00:12:09.946 --> 00:12:13.424 ou continuer de créer des liens des ensembles de données vers Wikidata 00:12:13.425 --> 00:12:14.425 et le contraire. 00:12:14.950 --> 00:12:20.043 Et ils veulent aussi savoir où est référencé leur site web dans Wikidata. 00:12:20.044 --> 00:12:23.361 Quand ils introduisent une telle demande dans le service, 00:12:23.362 --> 00:12:24.848 ils sont souvent mis en attente, 00:12:24.849 --> 00:12:28.181 nous devrions donc peut-être créer plus d'outils 00:12:28.181 --> 00:12:32.240 pour les aider à répondre à ces questions. 00:12:33.148 --> 00:12:36.208 Et de plus, (craquements) 00:12:36.208 --> 00:12:39.361 nous, les chercheurs wiki, 00:12:39.362 --> 00:12:42.023 manquons d'information dans les résumés d'édition. 00:12:42.024 --> 00:12:44.953 Je me souviens que quand nous travaillions 00:12:44.954 --> 00:12:48.919 à comprendre les différents comportements des éditeurs 00:12:48.919 --> 00:12:53.403 avec outils ou bots, utilisateurs anonymes et que sais-je, 00:12:53.403 --> 00:12:56.154 il nous manquait par exemple, 00:12:56.154 --> 00:13:01.112 une manière standard de tracer les outils qui étaient utilisés. 00:13:01.113 --> 00:13:03.154 Certains outils font déjà cela, 00:13:03.155 --> 00:13:05.230 comme PetScan et plein d'autres. 00:13:05.230 --> 00:13:08.850 Nous devrions peut-être plus discuter en communauté 00:13:08.850 --> 00:13:13.531 comment enregistrer ceux-ci pour une origine peaufinée. 00:13:14.169 --> 00:13:15.321 De plus, 00:13:15.322 --> 00:13:20.801 nous devons penser à des dimensions de qualité de données plus concrètes 00:13:20.802 --> 00:13:24.961 qui sont reliées aux données couplées, mais non à tout type de données. 00:13:24.962 --> 00:13:30.721 Nous avons donc travaillé sur certaines mesures pour accéder au gain d'information 00:13:30.722 --> 00:13:33.881 fournis par les liens, ce qui veut dire 00:13:33.882 --> 00:13:36.681 que quand nous connectons Wikidata à d'autres ensembles de données, 00:13:36.682 --> 00:13:38.201 nous devrions aussi envisager 00:13:38.202 --> 00:13:41.921 le gain de classification des entités 00:13:41.922 --> 00:13:45.601 dans la description, mais aussi dans les vocabulaires utilisés. 00:13:45.602 --> 00:13:51.041 Pour vous donner un exemple, 00:13:51.042 --> 00:13:54.269 dans le cas de Wikidata 00:13:54.270 --> 00:13:57.771 ou du centre de données externe lié à Wikidata, 00:13:57.772 --> 00:14:00.487 nous avons l'entité d'une personne appelée « Natasha Noy », 00:14:00.487 --> 00:14:02.601 nous avons l'affiliation et d'autres choses 00:14:02.602 --> 00:14:05.239 et nous décidons de connecter à un endroit externe 00:14:05.240 --> 00:14:08.919 où cette entité a aussi ce nom, mais la valeur reste la même. 00:14:08.920 --> 00:14:12.889 Il serait alors mieux de connecter à quelque chose qui a un nom différent 00:14:12.889 --> 00:14:16.881 qui est toujours valide car cette personne peut écrire le nom de deux manières 00:14:16.882 --> 00:14:19.714 ainsi que d'autres informations non disponibles dans Wikidata 00:14:19.715 --> 00:14:21.760 ou dans l'autre ensemble de données. 00:14:22.390 --> 00:14:24.652 Mais ce qui est encore préférable, 00:14:24.653 --> 00:14:27.770 c'est d'examiner l'ensemble de données cible 00:14:27.770 --> 00:14:31.392 pour voir qu'il a aussi de nouvelles façons de classifier l'information. 00:14:31.393 --> 00:14:35.354 Ce n'est donc pas juste une personne, mais dans l'autre ensemble de données, 00:14:35.355 --> 00:14:39.525 ils parlent aussi en termes de femme et autre forme de classification. 00:14:39.526 --> 00:14:43.401 Et si l'autre ensemble de données utilise différents vocabulaires, 00:14:43.402 --> 00:14:46.588 cela aide dans la récupération des données. 00:14:47.371 --> 00:14:51.233 Je voudrais encore ajouter 00:14:51.234 --> 00:14:55.809 que nous sommes capables de mieux mettre en valeur les requêtes fédérées 00:14:55.810 --> 00:15:00.448 car quand nous consultons le journal de requêtes fourni par Malyshev et al., 00:15:01.285 --> 00:15:04.301 nous constations que parmi les requêtes organiques, 00:15:04.302 --> 00:15:06.921 il y a très peu de requêtes fédérées. 00:15:06.922 --> 00:15:12.801 Et en fait, un des avantages clés des données couplées est la fédération ; 00:15:12.802 --> 00:15:16.903 il se pourrait donc que la communauté et les gens qui utilisent Wikidata 00:15:16.903 --> 00:15:18.898 devraient avoir plus d'exemples à ce sujet. 00:15:18.898 --> 00:15:22.666 Et si on lit la liste des points finaux utilisés, 00:15:22.667 --> 00:15:25.401 celle-ci n'est pas complète, nous en avons bien d'autres. 00:15:25.402 --> 00:15:30.479 Bien sûr, ces données ont été analysées à partir de demandes jusqu'en mars 2018, 00:15:30.480 --> 00:15:34.807 mais nous devrions revoir la liste des points finaux acquis 00:15:34.808 --> 00:15:37.048 pour décider si nous les utilisons vraiment. 00:15:37.813 --> 00:15:40.341 J'ai deux questions pour l'audience 00:15:40.341 --> 00:15:43.001 que nous pouvons peut-être utiliser pour la discussion ultérieure : 00:15:43.001 --> 00:15:46.001 « À votre avis, quels sont les problèmes de qualité de données à adresser 00:15:46.002 --> 00:15:47.412 dépendant de vos besoins ? » 00:15:47.412 --> 00:15:50.401 et « Où avez-vous besoin de plus d'automation 00:15:50.402 --> 00:15:52.943 pour vous aider dans les éditions et les patrouilles ? » 00:15:53.866 --> 00:15:55.146 Ce sera tout, merci beaucoup. 00:15:55.779 --> 00:15:57.527 (applaudissements) 00:15:58.808 --> 00:16:01.008 MERCI ! 00:16:06.030 --> 00:16:08.595 (Jose Emilio Labra) Je vais maintenant vous parler 00:16:08.595 --> 00:16:14.715 des outils de Shape Expressions que nous sommes en train de développer. 00:16:15.536 --> 00:16:19.371 Je suis Jose Emilio Labra, 00:16:19.371 --> 00:16:23.215 mais tous ces outils ont été construits par des personnes différentes 00:16:23.920 --> 00:16:28.480 principalement connectées à W3C ShEx, Groupe de Communauté Shape Expressions. 00:16:28.481 --> 00:16:29.851 Groupe de Communauté ShEx. 00:16:30.144 --> 00:16:36.081 Le premier outil dont j'aimerais parler est un outil général : le RDFShape ; 00:16:36.082 --> 00:16:40.681 car Shape Expressions convient non pas seulement pour Wikidata, 00:16:40.682 --> 00:16:44.168 mais constitue un langage qui valide RDF en général. 00:16:44.168 --> 00:16:48.318 Je suis l'acteur principal du développement de cet outil 00:16:48.318 --> 00:16:50.880 qui valide RDF en général. 00:16:50.881 --> 00:16:55.139 Si vous voulez connaître ou valider RDF 00:16:55.140 --> 00:16:58.621 ou les points d'extrémité SPARQL pas seulement dans Wikidata, 00:16:58.622 --> 00:17:00.891 je vous conseille d'utiliser cet outil. 00:17:00.891 --> 00:17:03.255 Il est également bon pour l'enseignement. 00:17:03.255 --> 00:17:05.640 J'enseigne à l'université 00:17:05.641 --> 00:17:09.151 et je l'emploie dans mon cours de Web sémantique pour le RDF. 00:17:09.161 --> 00:17:12.121 Je crois donc que c'est un bon outil si vous voulez apprendre le RDF. 00:17:13.033 --> 00:17:17.598 Voici en exemple, une visualisation d'un graphe RDF avec l'outil. 00:17:18.587 --> 00:17:22.643 Mais avant de venir ici, au cours du mois dernier, 00:17:22.643 --> 00:17:28.441 j'ai commencé une fourchette de RDFShape juste pour Wikidata car je croyais... 00:17:28.443 --> 00:17:33.082 Je l'ai présenté hier à Wikidata, elle s'appelle « WikiShape ». 00:17:33.082 --> 00:17:34.441 Ce que j'ai fait... 00:17:34.442 --> 00:17:39.898 j'ai retiré tout ce qui ne concernait pas Wikidata 00:17:39.898 --> 00:17:44.801 et implémenté d'autres choses codées en dur comme l'extrémité Wikidata SPARQL, 00:17:44.802 --> 00:17:49.041 mais on m'a demandé maintenant si je pouvais faire de même pour Wikibase. 00:17:49.042 --> 00:17:52.000 Ce qui est très facile à faire. 00:17:52.760 --> 00:17:56.280 L'outil WikiShape est relativement nouveau. 00:17:57.015 --> 00:17:59.843 La plupart des fonctionnalités sont opératives, 00:17:59.844 --> 00:18:02.468 mais il est possible que certaines ne fonctionnent pas 00:18:02.469 --> 00:18:06.281 et si vous voulez les améliorer, s'il vous plaît, dites-le moi. 00:18:06.281 --> 00:18:12.680 C'est donc [des captures Science Script], mais on peut essayer. 00:18:15.385 --> 00:18:16.945 Voyons si cela marche. 00:18:16.953 --> 00:18:20.070 Je dois d'abord sortir de... 00:18:22.453 --> 00:18:23.453 Ici. 00:18:24.226 --> 00:18:28.324 D'accord, voici l'outil. 00:18:28.324 --> 00:18:30.564 Ce que vous pouvez faire avec l'outil par exemple, 00:18:30.564 --> 00:18:35.275 c'est vérifier des schémas d'entité. 00:18:35.276 --> 00:18:38.611 Vous savez qu'il y a un nouvel espace de nommage : « E que sais-je », 00:18:38.612 --> 00:18:44.805 si vous commencez par écrire « humain », 00:18:44.806 --> 00:18:48.812 son auto-complétion vous permet de vérifier, 00:18:48.812 --> 00:18:52.001 par exemple, le Shape Expressions d'un humain 00:18:52.790 --> 00:18:55.937 et voici ici le Shape Expressions. 00:18:55.938 --> 00:18:59.841 Et vous remarquez que l'éditeur possède une coloration syntaxique ; 00:18:59.842 --> 00:19:04.559 mais l'écran est peut-être trop petit, 00:19:05.676 --> 00:19:07.590 je vais essayer de l'agrandir. 00:19:09.194 --> 00:19:10.973 Vous voyez peut-être mieux maintenant. 00:19:10.973 --> 00:19:14.241 Voici la surligne syntaxique de l'éditeur, 00:19:14.241 --> 00:19:17.851 celui-ci provient du même code source 00:19:17.851 --> 00:19:19.641 que le service de requête de Wikidata. 00:19:19.642 --> 00:19:23.960 Si vous passez la souris ici, 00:19:23.961 --> 00:19:27.961 vous pouvez voir les étiquettes des différentes propriétés. 00:19:27.962 --> 00:19:31.298 Je pense que c'est très utile car 00:19:32.588 --> 00:19:38.601 les schémas d'entité présents dans Wikidata sont juste du texte simple, 00:19:38.602 --> 00:19:42.493 cet éditeur est donc meilleur car il comprend l'auto-complétion 00:19:42.494 --> 00:19:43.743 et aussi... 00:19:43.744 --> 00:19:48.241 par exemple, si vous voulez ajouter une contrainte, 00:19:48.241 --> 00:19:51.570 vous dites : « wdt: », 00:19:51.570 --> 00:19:56.884 écrivez juste « auteur », vous cliquez sur Ctrl+Space 00:19:56.884 --> 00:19:58.922 et différentes suggestions apparaissent. 00:19:58.922 --> 00:20:02.388 Cette fonction est similaire au service de requête Wikidata, 00:20:02.389 --> 00:20:06.445 mais adaptée pour Shape Expressions. 00:20:06.445 --> 00:20:11.975 Il me semble que créer des Shape Expressions 00:20:11.976 --> 00:20:15.841 n'est pas plus difficile que d'écrire des requêtes SPARQL. 00:20:15.842 --> 00:20:21.255 Certaines personnes pensent que c'est sur un même niveau, 00:20:22.278 --> 00:20:26.296 mais je pense que c'est plus facile 00:20:26.296 --> 00:20:31.241 car telle était notre intention quand nous avons conçu Shape Expressions. 00:20:31.242 --> 00:20:34.481 Cet éditeur est l'une des premières choses 00:20:34.481 --> 00:20:36.620 disponibles dans Shape Expressions. 00:20:37.371 --> 00:20:41.467 Il existe aussi la possibilité de visualiser. 00:20:41.468 --> 00:20:44.801 Dans Shape Expressions, prenons par exemple, 00:20:44.802 --> 00:20:49.386 « travail écrit » qui est une belle Shape Expression 00:20:49.386 --> 00:20:53.300 car elle exprime une relation entre différentes choses. 00:20:54.823 --> 00:20:58.160 Et ceci est la visualisation UML de travail écrit. 00:20:58.161 --> 00:21:02.090 Dans un UML, il est facile de voir les différentes propriétés. 00:21:02.790 --> 00:21:05.934 En faisant l'essai avec plusieurs personnes, 00:21:05.934 --> 00:21:09.216 j'ai réalisé quelles trouvaient des erreurs dans leur Shape Expressions 00:21:09.217 --> 00:21:12.988 car les propriétés manquantes sont faciles à détecter. 00:21:13.588 --> 00:21:15.771 L'autre possibilité ici 00:21:15.772 --> 00:21:19.520 est la validation ; je crois que la voilà. 00:21:20.496 --> 00:21:25.285 Je crois qu'elle était dans une étiquette, je l'ai peut-être fermée. 00:21:26.267 --> 00:21:30.988 Mais vous pouvez par exemple, cliquer ici sur Validate entities. 00:21:32.308 --> 00:21:34.232 Par exemple, 00:21:35.404 --> 00:21:41.921 « q42 » avec « e42 » qui est auteur. 00:21:42.818 --> 00:21:46.180 Avec « humain », je pense qu'on peut le faire avec ça. 00:21:49.050 --> 00:21:50.050 Et puis,... 00:21:50.688 --> 00:21:56.365 Cela prend un peu de temps car les requêtes SPARQL s'effectuent 00:21:56.365 --> 00:21:59.134 et pour le moment, il y a défaut de réseau, mais... 00:21:59.657 --> 00:22:01.580 Vous pouvez l'essayer. 00:22:02.759 --> 00:22:07.026 Continuons la présentation avec d'autres outils. 00:22:07.026 --> 00:22:12.353 Dites-moi si vous voulez l'essayer et si vous voulez un retour. 00:22:13.133 --> 00:22:15.540 Poursuivons la présentation. 00:22:18.923 --> 00:22:20.233 Voici donc WikiShape. 00:22:23.800 --> 00:22:26.509 Je l'ai déjà dit, 00:22:27.681 --> 00:22:34.157 l'Éditeur Shape Expressions est un projet indépendant dans GitHub. 00:22:35.465 --> 00:22:37.472 Vous pouvez l'utiliser dans votre propre projet. 00:22:37.472 --> 00:22:41.036 Si vous voulez utiliser un outil Shape Expressions, 00:22:41.036 --> 00:22:45.635 vous pouvez l'intégrer à n'importe quel autre projet, 00:22:45.636 --> 00:22:48.235 il est dans GitHub, utilisez-le. 00:22:48.868 --> 00:22:51.970 Le même auteur qui est un de mes élèves 00:22:52.684 --> 00:22:55.704 a aussi créé un éditeur pour Shape Expressions 00:22:55.704 --> 00:22:58.119 inspiré également du service de requête Wikidata 00:22:58.119 --> 00:23:00.681 où vous trouvez dans une colonne, 00:23:00.682 --> 00:23:05.103 cet éditeur plus visuel de requêtes SPARQL 00:23:05.104 --> 00:23:07.135 où vous pouvez introduire ce genre de choses. 00:23:07.136 --> 00:23:09.123 Ceci est une capture d'écran. 00:23:09.123 --> 00:23:12.662 Vous pouvez voir la Shape Expressions dans le texte, 00:23:12.662 --> 00:23:17.822 mais celle-ci est basée sur formulaire, ce qui prendrait un peu plus de temps 00:23:18.595 --> 00:23:23.400 et vous pouvez placer les différentes rangées sur différents champs. 00:23:23.401 --> 00:23:25.800 Ensuite, il y a ShExEr 00:23:26.879 --> 00:23:31.882 qui a été conçu par un doctorant à l'université de Oviedo ; 00:23:31.883 --> 00:23:34.080 il est présent et peut donc nous présenter ShExEr. 00:23:38.147 --> 00:23:40.024 (Danny) Bonjour, je suis Danny Fernández, 00:23:40.025 --> 00:23:43.800 je suis doctorant à l’université d'Oviedo et je travaille avec Labra. 00:23:44.710 --> 00:23:47.725 Vu que nous n'avons pas beaucoup de temps, je serai bref. 00:23:47.726 --> 00:23:52.641 Je ne vais pas faire de démonstration, mais juste imprimer des copies d'écran. 00:23:52.642 --> 00:23:57.897 La façon usuelle de travailler avec Shape Expressions ou tout autre langage 00:23:57.897 --> 00:23:59.521 est d'avoir un expert de domaine 00:23:59.522 --> 00:24:02.313 qui définit une priorité sur ce à quoi devrait ressembler un graphe, 00:24:02.314 --> 00:24:03.555 de définir des structures 00:24:03.556 --> 00:24:06.983 et d'utiliser ces structures pour valider les données réelles. 00:24:08.124 --> 00:24:11.641 Cet outil, tout comme ceux présentés par Labra 00:24:11.642 --> 00:24:14.441 est un outil polyvalent pour n'importe quelle source RDF 00:24:14.442 --> 00:24:17.375 et est conçu pour travailler à l'envers. 00:24:17.376 --> 00:24:18.758 Vous avez déjà des données, 00:24:18.759 --> 00:24:23.165 vous sélectionnez les noeuds dont vous voulez avoir la forme 00:24:23.165 --> 00:24:26.718 et vous extrayez ou inférez cette forme automatiquement. 00:24:26.719 --> 00:24:29.791 Donc, même si cet outil est polyvalent, 00:24:29.791 --> 00:24:34.063 ce qu'on a fait pour WikidataCon est ce joli bouton 00:24:34.884 --> 00:24:37.081 qui une fois pressé, 00:24:37.081 --> 00:24:42.079 fait apparaître de nombreux paramètres de configuration 00:24:42.080 --> 00:24:46.251 et fait une configuration qui va à l'encontre de l'extrémité Wikidata 00:24:46.251 --> 00:24:47.971 [qui se termine], désolé. 00:24:48.733 --> 00:24:52.883 Une fois que vous pressez le bouton, c'est ce que vous obtenez. 00:24:52.884 --> 00:24:55.126 Après avoir sélectionné quel genre de notes, 00:24:55.127 --> 00:24:59.360 quel genre d'instances de notre classe, ou quoi que vous recherchiez, 00:24:59.361 --> 00:25:01.321 vous obtenez un schéma automatique. 00:25:02.319 --> 00:25:07.111 Les contraintes sont classées d'après la quantité de modes qui s'y conforment 00:25:07.112 --> 00:25:09.772 et vous pouvez filtrer ceux qui sont moins communs, etc. 00:25:09.772 --> 00:25:12.126 Il y a un poster en bas à ce sujet 00:25:12.127 --> 00:25:14.595 et je serai en en bas et en haut 00:25:14.596 --> 00:25:16.454 et un peu partout toute la journée. 00:25:16.455 --> 00:25:19.081 Donc, si vous êtes intéressés par cet outil, 00:25:19.082 --> 00:25:21.476 venez me trouver. 00:25:21.477 --> 00:25:24.624 Je repasse maintenant le micro à Labra, merci. 00:25:24.625 --> 00:25:29.265 (applaudissements) 00:25:29.812 --> 00:25:32.578 (Jose) Poursuivons avec les autres outils. 00:25:32.579 --> 00:25:34.984 Le suivant est le ShapeDesigner. 00:25:34.984 --> 00:25:37.241 Andra, veux-tu en parler maintenant 00:25:37.242 --> 00:25:39.287 ou plus tard ou dans l'atelier ? 00:25:39.287 --> 00:25:40.603 Il y a un atelier... 00:25:40.603 --> 00:25:44.437 Cet après-midi, il y a un atelier spécifiquement pour Shape Expressions. 00:25:45.265 --> 00:25:47.939 L'idée était de faire plus de travail pratique, 00:25:47.940 --> 00:25:52.324 donc si ça vous tente, vous pouvez le faire là. 00:25:52.875 --> 00:25:55.720 L'outil est ShEx et comme Eric est présent, 00:25:55.721 --> 00:25:56.890 il peut nous en parler. 00:25:57.969 --> 00:26:00.687 (Eric) Je voulais juste dire rapidement 00:26:00.687 --> 00:26:05.711 que vous avez probablement déjà vu l'interface ShEx 00:26:05.711 --> 00:26:07.601 qui est adaptée pour Wikidata. 00:26:07.602 --> 00:26:12.930 Elle a vraiment été dépouillée et conçue spécifiquement pour Wikidata 00:26:12.930 --> 00:26:17.627 car celle qui est générique a plus de fonctions, mais il faut mentionner 00:26:17.627 --> 00:26:20.197 le fait que l'une d'entre elles est particulièrement utile 00:26:20.197 --> 00:26:23.201 pour déboguer les schémas Wikidata. 00:26:23.201 --> 00:26:29.224 Si vous sélectionnez le mode Slurp, 00:26:29.225 --> 00:26:31.444 il va dire que lorsque je valide, 00:26:31.445 --> 00:26:34.694 je veux rabattre tous les triples, ce qui veut dire 00:26:34.695 --> 00:26:36.274 que si j'ai un paquet d'erreurs, 00:26:36.275 --> 00:26:39.586 je peux les examiner et dire : 00:26:39.587 --> 00:26:41.800 « OK, quels sont les triples présents ici », 00:26:41.801 --> 00:26:44.120 désolé, les triples sont là en bas, 00:26:44.121 --> 00:26:46.271 ceci est simplement un registre de ce qui s'est passé. 00:26:46.327 --> 00:26:49.180 Vous pouvez ensuite jouer avec en temps réel 00:26:49.181 --> 00:26:51.213 comme vous le faites avec quelque chose qui change. 00:26:51.213 --> 00:26:54.160 C'est donc une version plus rapide pour faire tout cela. 00:26:55.361 --> 00:26:56.941 Ceci est un formulaire ShExC 00:26:56.941 --> 00:26:59.455 que Joachim a suggéré 00:27:00.035 --> 00:27:04.631 qui pourrait être utile pour remplir des documents Wikidata 00:27:04.631 --> 00:27:07.338 basé sur une Shape Expression pour ce document. 00:27:08.095 --> 00:27:11.511 Ceci n'est pas conçu pour Wikidata, 00:27:11.511 --> 00:27:14.081 mais c'est simplement pour dire que vous pouvez avoir un schéma 00:27:14.082 --> 00:27:15.402 et des annotations 00:27:15.403 --> 00:27:17.518 précisant la manière dont le schéma est rendu ; 00:27:17.519 --> 00:27:19.031 le formulaire est ensuite construit 00:27:19.031 --> 00:27:21.801 et si vous avez des données, elles peuvent même peupler le formulaire. 00:27:24.517 --> 00:27:26.164 PyShEx [inaudible] 00:27:28.025 --> 00:27:31.080 (Jose) Je crois que c'est le dernier. 00:27:31.821 --> 00:27:34.080 En effet, PyShEx est le dernier. 00:27:34.675 --> 00:27:38.151 PyShEx est une implémentation Python de Shape Expressions. 00:27:39.193 --> 00:27:42.680 Si vous voulez ce genre de choses, vous pouvez aussi jouer avec Jupyter Notebooks. 00:27:42.680 --> 00:27:44.432 OK, le sujet est bouclé. 00:27:44.433 --> 00:27:47.170 (applaudissements) 00:27:52.916 --> 00:27:57.073 (Andra) Je vais parler d'un projet spécifique dans lequel je suis impliqué 00:27:57.074 --> 00:27:58.654 appelé « Gene Wiki » 00:27:58.654 --> 00:28:04.596 où nous avons aussi affaire aux problèmes de qualité. 00:28:04.597 --> 00:28:06.684 Mais avant de parler de qualité, 00:28:06.685 --> 00:28:09.229 je vais rapidement vous présenter Gene Wiki. 00:28:09.855 --> 00:28:15.175 Nous venons juste de publier un document récemment rédigé 00:28:15.175 --> 00:28:18.160 qui explique les détails de ce projet. 00:28:19.821 --> 00:28:23.839 Je vois les gens prendre des photos, mais ce que fait Gene Wiki en gros, 00:28:23.846 --> 00:28:28.027 c'est essayer d'obtenir des données biomédicales publiques pour Wikidata ; 00:28:28.028 --> 00:28:32.200 et nous suivons un modèle spécifique pour inclure ces données dans Wikidata. 00:28:33.130 --> 00:28:36.809 Donc, quand nous avons un nouveau répertoire ou ensemble de données 00:28:36.810 --> 00:28:39.360 qui qualifie pour être inclus dans Wikidata, 00:28:39.360 --> 00:28:41.293 la première étape est l'engagement communautaire. 00:28:41.294 --> 00:28:44.334 Il n'est pas nécessaire que ce soit directement vers une communauté Wikidata, 00:28:44.334 --> 00:28:46.120 mais une communauté de recherche locale. 00:28:46.121 --> 00:28:50.286 Nous nous rencontrons en personne ou en ligne ou sur une autre plateforme 00:28:50.286 --> 00:28:52.881 et essayons de trouver un modèle de données 00:28:52.882 --> 00:28:56.197 qui fait le pont entre leurs données et le modèle Wikidata. 00:28:56.197 --> 00:28:59.944 J'ai ici une photo d'un atelier de l'année dernière 00:28:59.945 --> 00:29:02.663 qui s'est concentré sur un ensemble de données spécifique, 00:29:02.663 --> 00:29:05.280 et vous pouvez voir les discussions, 00:29:05.281 --> 00:29:09.780 pour l'aligner avec schema.org et d'autres ontologies existantes. 00:29:10.320 --> 00:29:14.918 À la fin de la première étape, nous avons un dessin de tableau blanc 00:29:14.918 --> 00:29:17.336 du schéma que nous voulons implémenter dans Wikidata. 00:29:17.337 --> 00:29:20.440 Ce que vous voyez ici est simple, 00:29:20.441 --> 00:29:21.766 il se trouve là à l'arrière 00:29:21.767 --> 00:29:25.240 pour que nous puissions faire des schémas dans ce panneau même aujourd'hui. 00:29:26.560 --> 00:29:28.399 Une fois que ce schéma est en place, 00:29:28.400 --> 00:29:31.320 il faut ensuite essayer de rendre cette machine schéma lisible 00:29:32.358 --> 00:29:36.841 car il faut avoir des modèles actionnables pour importer les données 00:29:36.842 --> 00:29:39.690 de toute base de données biomédicale dans Wikidata. 00:29:40.393 --> 00:29:45.182 C'est ici que nous appliquons Shape Expressions 00:29:46.471 --> 00:29:52.518 parce que celle-ci nous permet de tester 00:29:52.518 --> 00:29:57.040 si l'ensemble de données... non, d'abord de voir 00:29:57.041 --> 00:30:01.782 si les données déjà existantes dans Wikidata suivent le même modèle 00:30:01.783 --> 00:30:04.718 qui a été atteint dans le processus précédent. 00:30:04.719 --> 00:30:07.021 Avec le Shape Expression, nous pouvons donc vérifier 00:30:07.021 --> 00:30:10.926 si certaines données dans Wikidata doivent être nettoyées 00:30:10.926 --> 00:30:15.013 ou si nous devons adapter notre modèle à celui de Wikidata ou vice versa. 00:30:15.937 --> 00:30:19.867 Une fois que tout est décidé et que nous commençons d'écrire des bots, 00:30:20.670 --> 00:30:23.801 ceux-ci sèmeront les informations 00:30:23.802 --> 00:30:27.308 qui se trouvent dans les sources primaires de Wikidata. 00:30:27.846 --> 00:30:29.303 Quand ces bots sont prêts, 00:30:29.304 --> 00:30:32.401 nous les écrivons 00:30:32.401 --> 00:30:36.201 à l'aide d'une librairie Python appelée « Wikidata Integrator » 00:30:36.202 --> 00:30:38.167 qui est née de notre projet. 00:30:38.698 --> 00:30:42.421 Une fois que nous avons nos bots, nous utilisons une plateforme 00:30:42.421 --> 00:30:44.540 appelée « Jenkins » pour une intégration continuelle. 00:30:44.540 --> 00:30:45.762 Avec Jenkins, 00:30:45.762 --> 00:30:51.160 nous mettons sans arrêt à jour les sources primaires dans Wikidata. 00:30:52.178 --> 00:30:55.889 Voici un diagramme pour le journal mentionné précédemment. 00:30:55.890 --> 00:30:57.551 Ceci est notre environnement actuel. 00:30:57.551 --> 00:31:02.059 Chaque boite orange est une ressource primaire sur les drogues, 00:31:02.060 --> 00:31:07.827 protéines, gènes, maladies, composants chimiques avec interaction 00:31:07.827 --> 00:31:11.270 et bien que ce modèle soit trop petit pour être lisible, 00:31:11.270 --> 00:31:17.472 voici la base de données, les sources que nous traitons dans Wikidata 00:31:17.473 --> 00:31:20.560 et connectons aux sources primaires. 00:31:20.561 --> 00:31:22.355 Voilà le flux de travail. 00:31:22.870 --> 00:31:25.312 Un de nos partenaires est L'ontologie des Maladies 00:31:25.312 --> 00:31:27.672 qui est une ontologie CC0 ; 00:31:28.179 --> 00:31:31.990 celle-ci a son propre cycle de curation. 00:31:32.756 --> 00:31:35.736 L'Ontologie des Maladies est continuellement mise à jour 00:31:35.737 --> 00:31:39.687 pour refléter l’espace maladie ou l'interprétation des maladies. 00:31:40.336 --> 00:31:44.361 Il existe le cycle de curation Wikidata également sur les maladies 00:31:44.362 --> 00:31:49.844 où la communauté Wikidata surveille en permanence ce qui s'y passe. 00:31:50.406 --> 00:31:51.601 Nous avons deux rôles 00:31:51.602 --> 00:31:55.477 appelés familièrement « gardien d'accès » 00:31:56.009 --> 00:31:59.561 qu'un collègue et moi-même assumions il y a cinq ans 00:31:59.562 --> 00:32:03.414 où nous nous contentons de surveiller Wikipedia et Wikidata sur nos ordinateurs 00:32:03.415 --> 00:32:08.601 pour voir si un problème était signalé à la communauté primaire, 00:32:08.602 --> 00:32:11.765 dans quel cas ils examinaient l'implémentation et décidaient : 00:32:11.765 --> 00:32:14.240 « OK, pouvons-nous faire confiance à cette entrée Wikidata ? » 00:32:14.850 --> 00:32:18.555 Si oui, elle intègre le cycle 00:32:18.555 --> 00:32:22.686 et la prochaine itération fait alors partie de l'Oncologie des Maladies 00:32:22.687 --> 00:32:25.411 et alimente Wikidata. 00:32:27.419 --> 00:32:31.480 Nous faisons de même pour WikiPathways. 00:32:31.481 --> 00:32:36.601 WikiPathways est inspiré du chemin MediaWiki et du chemin répertoire. 00:32:36.602 --> 00:32:40.901 De même, il y a déjà différents chemins de ressources sur Wikidata. 00:32:41.463 --> 00:32:44.713 Il peut y avoir des conflits entre ces chemins de ressources 00:32:44.722 --> 00:32:46.701 et ceux-ci sont signalés 00:32:46.702 --> 00:32:49.521 à cette communauté par les gardiens d'accès, 00:32:49.522 --> 00:32:53.715 ce qui maintient les cycles de conservation individuelle. 00:32:53.715 --> 00:32:57.068 Mais si vous vous souvenez du cycle précédent, 00:32:57.069 --> 00:33:03.041 ici, je ne mentionne que deux cycles, deux ressources, 00:33:03.566 --> 00:33:06.300 nous devons faire cela pour chaque ressource que nous avons 00:33:06.300 --> 00:33:07.751 et nous devons gérer ce qui se passe 00:33:07.751 --> 00:33:09.185 car quand je parle de « curation », 00:33:09.185 --> 00:33:12.187 je veux vraiment dire : consulter les premières pages de Wikipedia 00:33:12.187 --> 00:33:14.544 pour essayer de le faire. 00:33:14.545 --> 00:33:19.316 Ce qui n'est pas faisable pour nos deux gardiens d'accès. 00:33:19.860 --> 00:33:22.777 Lors d'une conférence en 2016 00:33:22.778 --> 00:33:26.933 où Eric a présenté Shape Expressions, 00:33:26.934 --> 00:33:29.277 j'ai pris le train en marche en disant : « OK, 00:33:29.278 --> 00:33:34.240 Shape Expressions peut nous aider à détecter les différences dans Wkikipedia 00:33:34.240 --> 00:33:41.159 ce qui permettra aux gardiens d'accès de faire un rapport plus efficace. » 00:33:42.275 --> 00:33:46.019 J'ai été ravi par l'entité schéma cette année 00:33:46.020 --> 00:33:50.765 parce qu'on peut maintenant stocker ces systèmes sur Wikidata 00:33:50.765 --> 00:33:53.183 en elle-même, alors qu'auparavant, c'était sur GitHub. 00:33:53.860 --> 00:33:56.815 Et comme ceci s'aligne sur l'interface Wikidata, 00:33:56.816 --> 00:33:59.350 nous avons donc des discussions de document, 00:33:59.350 --> 00:34:00.762 mais aussi des révisions. 00:34:00.763 --> 00:34:05.601 On peut donc tirer parti des premières pages et des révisions 00:34:05.601 --> 00:34:12.255 pour discuter du contenu de Wikidata 00:34:12.255 --> 00:34:14.060 et celui des ressources primaires. 00:34:14.966 --> 00:34:19.686 Ce que Eric vient de présenter constitue déjà un bon bénéfice. 00:34:19.686 --> 00:34:24.335 Ici, nous avons fait une Shape Expression pour le gène humain 00:34:24.336 --> 00:34:30.225 que nous avons soumise à un simple ShEx et comme vous pouvez le voir, 00:34:30.225 --> 00:34:32.428 nous avons déjà... 00:34:32.429 --> 00:34:34.641 Un problème à surveiller 00:34:34.642 --> 00:34:37.316 est quand un item ne correspond pas à ce schéma, 00:34:37.316 --> 00:34:43.139 vous pouvez créer déjà une sorte de rapports de curation d'entités de schéma 00:34:43.140 --> 00:34:46.240 et les envoyer aux différents rapports de curation. 00:34:48.058 --> 00:34:52.788 Mais le ShEx.js est une interface construite, 00:34:52.788 --> 00:34:55.860 voyez ici, je n'en fais que dix, 00:34:55.860 --> 00:35:00.362 mais nous en avons des dizaines de milliers, ce qui est démesuré. 00:35:00.362 --> 00:35:04.654 À présent, le Wikidata Integrator supporte aussi ShEx, 00:35:05.168 --> 00:35:07.431 nous pouvons donc boucler les circuits d'items 00:35:07.431 --> 00:35:11.494 en disant : « Oui-Non, Oui-Non, Vrai-Faux, Vrai-Faux ». 00:35:11.495 --> 00:35:13.015 Cela augmente à nouveau 00:35:13.065 --> 00:35:16.514 l'efficacité de la gestion des rapports. 00:35:17.256 --> 00:35:22.662 Mais cela s'appuie sur le Wikidata Query Service 00:35:23.181 --> 00:35:24.998 et donc récemment, nous nous voyons limités 00:35:24.999 --> 00:35:26.560 à cause de ce manque d'ajustement. 00:35:26.561 --> 00:35:31.391 Donc, la gestion des modèles sur Wikidata est une procédure en cours. 00:35:32.202 --> 00:35:36.682 ShEx est non seulement intimidant, 00:35:36.683 --> 00:35:40.356 mais est d'une trop grande échelle pour pouvoir le gérer. 00:35:41.068 --> 00:35:45.631 J'ai donc commencé à travailler avec un outil appelé « yED » 00:35:45.631 --> 00:35:48.130 qui est ma première preuve de concept ou exercice 00:35:48.184 --> 00:35:52.590 en dessinant ces Shape Expressions 00:35:52.591 --> 00:35:58.098 et en régénérant ce schéma 00:35:58.099 --> 00:36:01.279 en ce format adjacent des Shape Expressions 00:36:01.280 --> 00:36:04.520 qui s'ouvrirait déjà à l'audience 00:36:04.521 --> 00:36:07.432 qui est intimidée par les langages Shape Expressions. 00:36:07.961 --> 00:36:12.308 Mais il y a en fait un problème avec des descriptions visuelles 00:36:12.309 --> 00:36:18.229 car ce schéma a aussi été dessiné dans yED par quelqu'un. 00:36:18.230 --> 00:36:23.838 Il y en a un autre qui est splendide. 00:36:23.838 --> 00:36:29.414 J'adorerais l'avoir sur mon mur, mais il n'est pas encore interopérable. 00:36:30.281 --> 00:36:32.131 Je voudrais donc clore mon discours 00:36:32.131 --> 00:36:35.732 avec cette diapositive que j'ai « empruntée » pour la première fois. 00:36:35.732 --> 00:36:37.964 Nous sommes honorés de l'avoir dans l'audience 00:36:37.964 --> 00:36:39.423 et j'aime beaucoup ceci : 00:36:39.424 --> 00:36:42.362 « Les gens pensent que RDF est trop compliqué à utiliser. 00:36:42.362 --> 00:36:44.375 La vérité est pire, c'est tellement simple 00:36:45.151 --> 00:36:48.133 parce que vous devez travailler avec des problèmes de données réels 00:36:48.134 --> 00:36:50.031 qui sont horriblement compliqués. 00:36:50.031 --> 00:36:51.451 Bien que vous pouvez éviter RDF, 00:36:51.451 --> 00:36:55.760 il est plus dur d'éviter des données et des problèmes d'ordinateur compliqués. » 00:36:55.761 --> 00:36:59.535 On parle ici de RDF, mais je pense que cela s'applique également au modelage. 00:37:00.112 --> 00:37:02.769 Ce que je veux dire : 00:37:03.387 --> 00:37:05.882 « Comment lancer la modélisation ? » 00:37:05.882 --> 00:37:10.826 En discutant de ShEx ou des modèles visuels ou autre... 00:37:11.426 --> 00:37:13.271 Comment continuer ? 00:37:13.474 --> 00:37:14.840 Merci de m'avoir écouté. 00:37:15.102 --> 00:37:17.787 (applaudissements) 00:37:20.001 --> 00:37:21.188 (Lydia) Merci beaucoup. 00:37:21.692 --> 00:37:24.001 Pouvez-vous venir à l'avant 00:37:24.002 --> 00:37:27.741 comme cela, nous pouvons recevoir les questions de l'audience. 00:37:28.610 --> 00:37:30.203 Il y a des questions ? 00:37:31.507 --> 00:37:32.507 Oui. 00:37:34.253 --> 00:37:36.890 Et pour la caméra, nous devrions... 00:37:38.835 --> 00:37:40.968 (Lydia rit) Oui. 00:37:43.094 --> 00:37:46.273 (Personne du public) Une question pour Cristina. 00:37:47.366 --> 00:37:51.641 Vous avez mentionné le terme « gain d'information » 00:37:51.642 --> 00:37:53.619 dans le cadre de connexion avec d'autres systèmes. 00:37:53.619 --> 00:37:55.269 Il y a une mesure théorique d'information 00:37:55.269 --> 00:37:58.051 qui utilise statistique et probabilité appelée « gain d'information ». 00:37:58.051 --> 00:37:59.541 Avez-vous la même... 00:37:59.542 --> 00:38:01.736 Parliez-vous de cette mesure, 00:38:01.736 --> 00:38:04.173 du gain d'information de la théorie de probabilité 00:38:04.174 --> 00:38:05.470 de la théorie d'information 00:38:05.470 --> 00:38:09.024 ou simplement d'un concept de mesure de gain d'information d'une certaine façon ? 00:38:09.025 --> 00:38:13.016 Non, nous avons en fait défini et implémenté des mesures 00:38:13.695 --> 00:38:19.911 qui utilisent l'entropie Shannon, c'est à prendre dans ce sens. 00:38:19.911 --> 00:38:22.596 Je ne voulais pas rentrer dans les détails des formules concrètes... 00:38:22.596 --> 00:38:25.557 (Personne du public) Non bien sûr, c'est pour ça que j'ai posé la question. 00:38:25.557 --> 00:38:26.598 Merci. 00:38:32.531 --> 00:38:35.047 (Personne du public) C'est plus un commentaire qu'une question. 00:38:35.048 --> 00:38:36.241 (Lydia) Allez-y. 00:38:36.242 --> 00:38:39.840 (Personne du public) Il y a eu beaucoup d'attention au niveau de l'item 00:38:39.840 --> 00:38:42.547 concernant la qualité et la complétion ; 00:38:42.547 --> 00:38:47.374 ce qui me préoccupe est que nous ne faisons pas de même pour les hiérarchies 00:38:47.374 --> 00:38:51.480 et je crois que souvent, notre hiérarchie n'est pas bonne. 00:38:51.481 --> 00:38:53.463 Nous prévoyons que cela va être un réel problème 00:38:53.464 --> 00:38:55.774 avec la recherche des communs et autre. 00:38:56.771 --> 00:39:00.601 Ce que nous pouvons faire est importer de l'externe. 00:39:00.602 --> 00:39:04.842 La façon dont les thésaurus externes structurent leurs hiérarchies 00:39:04.842 --> 00:39:10.291 en utilisant le qualificateur de concept plus large P4900. 00:39:11.037 --> 00:39:16.167 Mais ce qui serait plus utile serait l'emploi de meilleurs outils 00:39:16.168 --> 00:39:21.212 afin d'importer une hiérarchie de thésaurus externe. 00:39:21.212 --> 00:39:24.111 Incorporons ça dans nos items Wikidata. 00:39:24.111 --> 00:39:28.199 Une fois que ces qualificateurs P4900 sont en place, 00:39:28.200 --> 00:39:31.494 vous pouvez faire de la bonne requête avec SPARQL 00:39:32.490 --> 00:39:37.534 pour voir si notre hiérarchie diverge de cette hiérarchie externe. 00:39:37.534 --> 00:39:41.346 For exemple, vous savez peut-être que [Paula Morma], utilisatrice PKM 00:39:41.346 --> 00:39:43.533 travaille beaucoup dans la mode. 00:39:43.533 --> 00:39:50.524 Nous utilisons cela pour extraire la hiérarchie du Europeana Fashion Thesaurus 00:39:50.524 --> 00:39:53.812 et celle du thésaurus de mode Getty AAT 00:39:53.812 --> 00:39:57.957 et nous voyons alors où sont les espaces dans nos items haut niveau, 00:39:57.957 --> 00:40:00.511 ce qui représente pour nous un vrai problème car souvent, 00:40:00.511 --> 00:40:04.355 ce sont des choses qui n'existent que dans les pages de désambiguïsation, 00:40:04.356 --> 00:40:09.270 ce qui fait que de nombreux articles de haut niveau manquent dans nos hiérarchies, 00:40:09.271 --> 00:40:14.480 c'est un problème que nous devons adresser en termes de qualité et de complétion, 00:40:14.480 --> 00:40:15.971 mais ce qui aiderait vraiment, 00:40:16.643 --> 00:40:20.871 ce sont de meilleurs outils que la jungle de scripts que j'ai écrits... 00:40:20.872 --> 00:40:26.010 Si quelqu'un pouvait entrer cela dans un notebook PAWS dans Python, 00:40:26.561 --> 00:40:31.832 afin de prendre la hiérarchie d'un thésaurus externe, 00:40:31.832 --> 00:40:34.595 ce qui pourrait être disponible en tant que données couplées ou pas, 00:40:35.379 --> 00:40:40.580 et ensuite, de les placer dans les valeurs P4900 en relevés rapides. 00:40:41.165 --> 00:40:42.165 Et après, 00:40:42.166 --> 00:40:45.917 quand notre représentation se complète, mettre ces P4900 à jour, 00:40:45.917 --> 00:40:49.691 parce qu'au fur et à mesure que nos représentations deviennent obsolètes, 00:40:49.691 --> 00:40:51.590 deviennent plus denses, 00:40:51.590 --> 00:40:55.377 les valeurs de ces qualificateurs doivent changer 00:40:56.230 --> 00:40:59.526 pour représenter le fait qu'on ait plus de leur hiérarchie dans notre système. 00:40:59.526 --> 00:41:03.728 Si quelqu'un savait faire cela, ce serait très utile. 00:41:03.728 --> 00:41:07.121 Nous devons aussi envisager d'autres approches 00:41:07.122 --> 00:41:10.762 pour améliorer la qualité et la complétion au niveau hiérarchique 00:41:10.763 --> 00:41:12.378 et non simplement au niveau item. 00:41:13.308 --> 00:41:15.080 (Andra) Je peux ajouter quelque chose ? 00:41:16.362 --> 00:41:19.901 Oui, on fait déjà cela 00:41:19.911 --> 00:41:23.551 et je recommande de regarder la Shape Expression faite par Finn 00:41:23.552 --> 00:41:27.330 avec les données lexicales où il crée des Shape Expressions 00:41:27.330 --> 00:41:29.640 et s'appuie sur les expressions d'auteur 00:41:29.641 --> 00:41:32.528 pour obtenir un concept de Shape Expressions liées dans Wikidata 00:41:32.529 --> 00:41:34.495 et spécifiquement, si je comprends bien, 00:41:34.495 --> 00:41:37.183 le cas d'utilisation est exactement ce que l'on fait dans Gene Wiki. 00:41:37.184 --> 00:41:40.841 Vous avez donc l’Ontologie de Maladies placée dans Wikidata 00:41:40.842 --> 00:41:44.681 et quand les données de maladie arrivent, nous appliquons les Shape Expressions 00:41:44.682 --> 00:41:47.247 pour voir si cela correspond à ce thésaurus. 00:41:47.248 --> 00:41:50.919 Il y a d'autres thésaurus et ontologies pour les vocabulaires contrôlés 00:41:50.920 --> 00:41:52.469 qui doivent toujours intégrer Wikidata 00:41:52.469 --> 00:41:55.551 et c'est exactement pour cette raison que Shape Expression est si intéressante 00:41:55.551 --> 00:41:57.963 parce qu'on peut en avoir une pour l'Ontologie de Maladies, 00:41:57.964 --> 00:41:59.644 pour MeSH, 00:41:59.645 --> 00:42:02.101 on peut dire : « OK, je veux maintenant vérifier la qualité. » 00:42:02.101 --> 00:42:04.629 Parce que dans Wikidata, on aussi le contexte 00:42:04.629 --> 00:42:09.567 où dans le cas d'un vocabulaire contrôlé, vous décidez de la qualité en fonction de, 00:42:09.568 --> 00:42:11.636 mais votre communauté peut ne pas être d'accord. 00:42:11.636 --> 00:42:16.081 L'outillage est donc en place, il faut maintenant créer ces modèles 00:42:16.082 --> 00:42:18.144 et les appliquer aux différents cas d'utilisation. 00:42:18.681 --> 00:42:20.921 (Personne du public) La Shape Expression est très utile 00:42:20.922 --> 00:42:25.928 une fois que l'ontologie externe est cartographiée dans Wikidata, 00:42:25.929 --> 00:42:29.474 mais mon problème est 00:42:29.475 --> 00:42:34.881 de figurer l'ontologie externe qui n'est pas déjà présente dans Wikidata 00:42:34.882 --> 00:42:36.256 et de situer les espaces ; 00:42:36.257 --> 00:42:40.660 et c'est là que le fait d'avoir des outils plus robustes 00:42:40.660 --> 00:42:44.286 pour voir les parties manquantes des ontologies externes 00:42:44.286 --> 00:42:45.537 devient très utile. 00:42:47.678 --> 00:42:49.062 Le plus grand problème 00:42:49.062 --> 00:42:51.201 est non pas l'outillage, mais les licences. 00:42:51.803 --> 00:42:55.249 Mettre les ontologies dans Wikidata est en fait un jeu d'enfant, 00:42:55.250 --> 00:42:59.295 mais la plupart des ontologies ont... comment dire ça poliment, 00:42:59.965 --> 00:43:03.256 ...des licences restrictives et donc, non compatibles avec Wikidata. 00:43:03.758 --> 00:43:06.678 (Personne du public) Il y a un grand nombre de thésaurus de secteur public 00:43:06.678 --> 00:43:08.209 dans les champs culturels. 00:43:08.210 --> 00:43:11.141 - (Andra) On doit alors en discuter. - (Personne du public) Pas de soucis. 00:43:11.141 --> 00:43:12.384 (Andra) On doit en parler. 00:43:13.624 --> 00:43:19.192 (Personne du public) Mon commentaire est en fait une réponse à James. 00:43:19.192 --> 00:43:22.401 Les hiérarchies font des graphes 00:43:22.374 --> 00:43:24.041 et quand tu veux... 00:43:24.579 --> 00:43:28.888 Je veux dire que le problème commun des hiérarchies 00:43:28.889 --> 00:43:30.820 sont les hiérarchies circulaires, 00:43:30.821 --> 00:43:33.796 elles reviennent l'une vers l'autre quand il y a un problème, 00:43:33.796 --> 00:43:35.920 ce qui ne devrait pas arriver. 00:43:37.022 --> 00:43:41.295 Curieusement, cela arrive fréquemment dans les catégories de Wikipedia, 00:43:41.295 --> 00:43:42.990 elles sont souvent circulaires, 00:43:43.898 --> 00:43:46.612 mais la bonne nouvelle est que... 00:43:47.713 --> 00:43:51.392 Techniquement, c'est impossible à trouver car c'est un problème complet PMP 00:43:51.392 --> 00:43:53.414 et facile si on construit un graphe à cet effet. 00:43:54.473 --> 00:43:57.046 Mais il y a de nombreuses manières qui ont été développées 00:43:57.047 --> 00:44:00.624 pour trouver les problèmes dans ces graphes hiérarchiques. 00:44:00.625 --> 00:44:04.860 Comme ce document appelé « Finding cycles... 00:44:04.861 --> 00:44:07.955 Breaking cycles in Noisy Hierarchies » 00:44:07.956 --> 00:44:12.671 qui a été utilisé pour aider la catégorisation de Wikipédia Anglais. 00:44:12.672 --> 00:44:17.141 On peut appliquer cela aux hiérarchies dans Wikidata 00:44:17.142 --> 00:44:19.540 et ensuite, trouver ce qui est problématique 00:44:19.541 --> 00:44:22.481 et supprimer les causeurs de trouble 00:44:22.482 --> 00:44:24.593 et trouver les problèmes. 00:44:24.594 --> 00:44:26.960 C'est juste une idée pour vous... 00:44:28.090 --> 00:44:29.930 (Personne du public) Tout cela est bel et bien, 00:44:29.931 --> 00:44:31.982 mais je crois que vous sous-estimez 00:44:31.982 --> 00:44:35.402 le nombre de relations défaillantes entre les sous-classes que nous avons. 00:44:35.403 --> 00:44:39.680 C'est comme avoir une ville dans le mauvais pays 00:44:40.250 --> 00:44:44.874 et il existe des outils géographiques pour cela. 00:44:44.875 --> 00:44:49.201 Nous devons avoir de bien meilleurs outils en hiérarchies 00:44:49.202 --> 00:44:53.477 pour identifier l'item manquant 00:44:53.478 --> 00:44:57.673 ou s'il a été en fait sous-classé 00:44:57.674 --> 00:45:01.804 à un élément qui ne veut pas dire quelque chose de tout à fait différent. 00:45:02.804 --> 00:45:07.165 (Lydia) Je pense que tu as mis le doigt dessus. 00:45:07.166 --> 00:45:12.024 Mon équipe et moi-même avons les mêmes retours des gens 00:45:12.025 --> 00:45:13.991 qui réutilisent nos données ; 00:45:15.002 --> 00:45:17.078 Un point de donnée individuel peut être intéressant, 00:45:17.078 --> 00:45:20.163 mais s'il faut examiner l'ontologie, etc., 00:45:20.164 --> 00:45:21.857 cela devient très... 00:45:22.388 --> 00:45:26.437 Je pense qu'un des grands problèmes pourquoi cela se produit 00:45:26.437 --> 00:45:30.736 est que nombreuses éditions dans Wikidata 00:45:30.736 --> 00:45:34.544 s'effectuent sur base d'un élément individuel, 00:45:34.545 --> 00:45:36.201 on modifie cet item 00:45:37.653 --> 00:45:42.075 sans réaliser que cela peut avoir des conséquences globales 00:45:42.075 --> 00:45:44.245 sur le reste du graphe, par exemple. 00:45:44.245 --> 00:45:50.040 Si les gens avaient des idées sur comment rendre plus visibles 00:45:50.041 --> 00:45:53.185 les conséquences d'une modification locale individuelle, 00:45:54.005 --> 00:45:56.537 il faudrait prendre la peine de les explorer 00:45:57.550 --> 00:46:00.603 pour mieux montrer aux gens 00:46:00.603 --> 00:46:03.434 quelles sont les conséquences de leur édition, 00:46:03.811 --> 00:46:05.481 même si celle-ci est de bonne foi. 00:46:06.939 --> 00:46:12.237 Commençons par ici, oui, vous, puis vous et vous et vous ! 00:46:12.237 --> 00:46:13.921 (Personne du public) Après la discussion, 00:46:13.922 --> 00:46:18.262 simplement pour exprimer mon accord avec James. 00:46:18.263 --> 00:46:22.467 Il semble que la chose la plus dangereuse est la hiérarchie, 00:46:22.468 --> 00:46:23.910 pas la hiérarchie, mais en général, 00:46:23.911 --> 00:46:28.022 les sémantiques des relations entre sous-classes dans Wikidata,. 00:46:28.022 --> 00:46:32.561 J'ai récemment étudié les langages en vue de cette conférence 00:46:32.562 --> 00:46:35.257 et par exemple, vous trouvez plein de cas 00:46:35.257 --> 00:46:39.463 où le langage fait partie des sous-classes. 00:46:39.463 --> 00:46:43.577 On peut alors dire qu'on a une ontologie flexible. 00:46:43.577 --> 00:46:46.256 Parfois, Wikidata vous donne cette liberté d'expression. 00:46:46.256 --> 00:46:47.257 Parce que par exemple, 00:46:47.258 --> 00:46:50.721 cette ontologie de langages est aussi politiquement compliquée, pas vrai ? 00:46:50.722 --> 00:46:54.828 Il est même bon d'être en position d'exprimer un niveau d'incertitude. 00:46:54.828 --> 00:46:58.093 Mais imaginez quelqu'un qui veut faire de la lecture automatique à partir de ça. 00:46:58.093 --> 00:46:59.468 C'est vraiment problématique. 00:46:59.468 --> 00:47:00.468 Et de nouveau, 00:47:00.469 --> 00:47:03.556 je ne pense pas que cette ontologie a été importée de quelque part 00:47:03.556 --> 00:47:05.770 c'est quelque chose qui originairement nous appartient. 00:47:05.770 --> 00:47:08.321 Je dirais que c'est récolté de Wikipédia au tout début. 00:47:08.322 --> 00:47:11.324 Donc, je me demande... Cette Shape Expressions est super 00:47:11.325 --> 00:47:15.575 et le fait de valider et rectifier l'ontologie Wikidata 00:47:15.576 --> 00:47:18.191 par des ressources externes, belle idée. 00:47:19.026 --> 00:47:20.026 À la fin, 00:47:20.027 --> 00:47:25.440 terminerons-nous en réfléchissant sur les ontologies externes dans Wikidata ? 00:47:25.441 --> 00:47:28.651 Et aussi, à ce que nous faisons avec la partie centrale de notre ontologie 00:47:28.652 --> 00:47:30.642 qui n'est jamais récoltée de ressources externes, 00:47:30.643 --> 00:47:31.978 comment résoudre cela ? 00:47:31.979 --> 00:47:35.276 Et je pense que ce sera un problème en soi. 00:47:35.277 --> 00:47:39.010 Nous devrons nous concentrer sur cela indépendamment du fait 00:47:39.010 --> 00:47:41.046 de valider l'ontologie avec un élément externe. 00:47:49.353 --> 00:47:53.079 (Personne du public) Les contraintes et formes ainsi que leurs usages 00:47:53.079 --> 00:47:54.495 sont vraiment impressionnantes, 00:47:55.205 --> 00:47:58.481 mais le point principal n'est pas clair 00:47:58.482 --> 00:48:03.229 car nous pouvons maintenant rendre nos attentes des données plus explicites. 00:48:03.229 --> 00:48:06.893 Avant, chacun devait écrire ses propres outils et scripts 00:48:06.894 --> 00:48:10.601 pour qu'ils soient plus visibles et accessibles de discussion. 00:48:10.602 --> 00:48:13.641 Mais il ne s'agit pas de ce qui est juste ou non, 00:48:13.642 --> 00:48:15.870 il s'agit d'une attente 00:48:15.870 --> 00:48:18.105 et il y aura différentes attentes et discussions 00:48:18.106 --> 00:48:20.737 sur comment modeler dans Wikidata 00:48:21.246 --> 00:48:23.095 et ceci... 00:48:23.096 --> 00:48:26.280 L'état actuel est simplement un pas dans la direction 00:48:26.281 --> 00:48:28.041 parce qu'à présent, 00:48:28.042 --> 00:48:31.041 il faut une grande expertise technique pour s'impliquer 00:48:31.042 --> 00:48:35.721 et nous devons avoir de meilleurs moyens pour visualiser cette contrainte ; 00:48:35.722 --> 00:48:39.995 de peut-être la transformer en un langage naturel pour une meilleure compréhension, 00:48:40.939 --> 00:48:43.768 il ne s'agit pas de juste ou faux. 00:48:44.925 --> 00:48:45.925 (Lydia) Oui. 00:48:50.986 --> 00:48:53.893 (Personne du public) Concernant les problèmes de qualité, 00:48:53.894 --> 00:48:57.010 j'ai trouvé que nombreux problèmes que j'ai rencontrés consistaient 00:48:58.838 --> 00:49:02.330 en une différence d'opinion entre « instance de » comparé à « sous-classe ». 00:49:02.331 --> 00:49:05.963 Dans ces situations, je dirais que ce sont des « erreurs » 00:49:05.963 --> 00:49:11.521 et les trouver est une procédure chronophage. 00:49:11.522 --> 00:49:14.840 Ce que j'ai trouvé est : « Oh, si je trouve des articles de haute qualité 00:49:14.840 --> 00:49:16.051 qui sont... 00:49:16.052 --> 00:49:21.628 pour ensuite utiliser toutes les instances sous-classe et leurs relevés dérivés », 00:49:21.628 --> 00:49:26.215 c'est une manière utile de chercher ces erreurs. 00:49:26.215 --> 00:49:28.067 Mais je me demandais si Shape Expressions, 00:49:29.841 --> 00:49:31.582 s'il y a... 00:49:31.583 --> 00:49:36.934 si elle peut être utilisée comme outil pour aider à résoudre ces problèmes... 00:49:40.314 --> 00:49:42.555 (Personne du public) S'il y a une empreinte structurée 00:49:45.910 --> 00:49:49.010 que l'on peut... qui est en sorte falsifiable, 00:49:49.010 --> 00:49:51.191 on peut l'examiner et reconnaître qu'elle est fausse, 00:49:51.192 --> 00:49:52.670 alors oui, on peut le faire. 00:49:52.671 --> 00:49:56.921 Mais si c'est pour l'associer à des objets réels, 00:49:56.922 --> 00:49:59.082 cela va demander beaucoup de cerveaux. 00:50:05.768 --> 00:50:08.631 Bonjour, je suis Pablo Mendes de Siri Knowledge de Apple. 00:50:09.154 --> 00:50:12.770 Nous sommes ici pour découvrir comment aider le projet et la communauté, 00:50:12.770 --> 00:50:15.645 mais Cristina a commis l'erreur de nous demander ce qu'on voulait. 00:50:16.471 --> 00:50:20.052 (rire) Une des choses que j'aimerais voir, 00:50:20.958 --> 00:50:23.521 c'est attacher de l'importance à la vérifiabilité 00:50:23.522 --> 00:50:26.372 qui est un des principes essentiels du projet dans la communauté 00:50:27.062 --> 00:50:28.590 ainsi que la fiabilité. 00:50:28.590 --> 00:50:32.162 Tous les énoncés ne sont pas identiques, certains d'entre eux sont très disputés, 00:50:32.162 --> 00:50:33.893 certains d'entre eux sont faciles à deviner 00:50:33.893 --> 00:50:35.931 comme une date de naissance qui peut être vérifiée, 00:50:35.931 --> 00:50:39.172 mais comme vous l'avez vu dans Keynote, la question de genre est plus compliquée. 00:50:40.205 --> 00:50:43.040 Pouvez-vous nous parler davantage de ce que vous savez au sujet 00:50:43.040 --> 00:50:47.271 de la qualité de données concernant la fiabilité et vérifiabilité ? 00:50:55.442 --> 00:50:58.138 Et si ce n'est pas grand-chose, j'aimerais en savoir plus. (rire) 00:51:00.646 --> 00:51:01.646 (Lydia) Oui. 00:51:03.314 --> 00:51:06.548 Apparemment, il n'y a pas grand-chose à dire. (rire) 00:51:08.024 --> 00:51:12.299 (Andra) Je pense que nous pouvons faire beaucoup et j'ai discuté hier avec vous. 00:51:12.300 --> 00:51:15.774 Mon exemple favori d'hier qui est déjà obsolète 00:51:15.774 --> 00:51:20.281 est que si vous allez sur Q2 qui est la terre, 00:51:20.282 --> 00:51:23.343 il y a une déclaration qui dit que la terre est plate. 00:51:24.183 --> 00:51:26.055 J'adore cet exemple 00:51:26.056 --> 00:51:28.391 parce qu'il existe une communauté qui déclare cela 00:51:28.392 --> 00:51:30.417 et ils possèdent des sources vérifiables. 00:51:30.418 --> 00:51:32.254 Je pense que ce cas est véritable, 00:51:32.255 --> 00:51:34.961 qu'il ne devrait pas être déprécié et devrait être dans Wikidata. 00:51:34.961 --> 00:51:40.385 C'est une circonstance où Shape Expressions peut être décisif 00:51:40.386 --> 00:51:41.832 parce que vous pouvez dire 00:51:41.833 --> 00:51:44.856 que vous êtes vraiment intéressé par ce cas d'utilisation, 00:51:44.857 --> 00:51:47.129 ou il se peut que vous ne soyez pas d'accord, 00:51:47.130 --> 00:51:50.869 mais ce cas d'utilisation pourrait également vous intéresser. 00:51:50.869 --> 00:51:53.449 Il y a aussi cet exemple où vous dites que vous avez du glucose. 00:51:53.449 --> 00:51:55.841 Mais quand vous êtes biologiste, 00:51:55.842 --> 00:52:00.176 vous ne vous souciez pas des contraintes chimiques de la molécule de glucose, 00:52:00.177 --> 00:52:03.201 tout est pareil en ce qui concerne le glucose. 00:52:03.202 --> 00:52:06.123 Mais si vous êtes chimiste, vous grincerez des dents en entendant cela, 00:52:06.123 --> 00:52:08.191 vous avez 200... 00:52:08.191 --> 00:52:10.443 Vous pouvez alors avoir des Shape Expressions multiples, 00:52:10.443 --> 00:52:12.721 d'un point de vue chimique, 00:52:12.722 --> 00:52:13.887 j'appliquerai cela. 00:52:13.887 --> 00:52:16.691 Mais d'un point de vue biologique, 00:52:16.691 --> 00:52:18.524 j'appliquerai cette Shape Expression. 00:52:18.524 --> 00:52:20.358 Et quand vous voulez collaborer, 00:52:20.358 --> 00:52:22.784 parlez plutôt à Eric des cartes ShEx. 00:52:23.910 --> 00:52:28.873 Mais cette aventure ne fait que commencer. 00:52:28.873 --> 00:52:32.238 Et personnellement, je pense qu'il y aura un rôle à jouer dans ce domaine. 00:52:34.292 --> 00:52:35.535 (Lydia) OK. Ici. 00:52:37.949 --> 00:52:39.168 (rire) 00:52:40.597 --> 00:52:46.035 (Personne du public) J'ai eu plusieurs idées en entendant les discussions, 00:52:46.035 --> 00:52:50.902 je vais essayer de ne pas les perdre. 00:52:52.394 --> 00:52:55.201 Basé sur ce que James a dit auparavant, 00:52:55.202 --> 00:52:59.001 depuis le début, nous avons un très gros problème dans Wikidata 00:52:59.002 --> 00:53:01.574 pour l'ontologie supérieure. 00:53:02.363 --> 00:53:05.339 Nous en avons parlé il y a deux ans lors de WikidataCon 00:53:05.340 --> 00:53:07.432 et nous en avons parlé à Wikimania. 00:53:07.432 --> 00:53:09.818 Chaque fois que nous avons une réunion Wikidata, 00:53:09.818 --> 00:53:11.656 nous en parlons 00:53:11.656 --> 00:53:15.782 car c'est un très gros problème de tout premier abord ; 00:53:15.783 --> 00:53:23.118 quelle est l'entité,quel est le travail, quel est le genre, l'art, 00:53:23.118 --> 00:53:25.461 ce sont les plus grands concepts. 00:53:26.675 --> 00:53:33.117 Et c'est en fait un point très faible de l'ontologie globale 00:53:33.118 --> 00:53:37.453 parce que les gens essaient de nettoyer régulièrement 00:53:38.017 --> 00:53:41.047 et finissent par tout casser ; 00:53:42.516 --> 00:53:48.649 je pense que certains se souviennent peut-être du gars qui candidement, 00:53:48.649 --> 00:53:51.785 a cassé toutes les villes du monde. 00:53:51.785 --> 00:53:57.537 On n'était plus des items géographiques, donc contraintes de violation partout. 00:53:58.720 --> 00:54:00.278 Et c'était de bonne foi 00:54:00.278 --> 00:54:03.623 parce qu'il apportait vraiment une correction à un article, 00:54:04.170 --> 00:54:05.732 mais tout s'est écroulé. 00:54:06.349 --> 00:54:09.373 Je ne sais pas trop comment résoudre cela 00:54:10.216 --> 00:54:15.709 parce qu'il n'existe pas d'institution externe à copier 00:54:15.710 --> 00:54:18.490 car tout le monde travaille sur... 00:54:19.154 --> 00:54:22.041 Si je suis la base de données d'art performant, 00:54:22.042 --> 00:54:24.601 j'irai simplement à l'étiquette d'art performant, 00:54:24.601 --> 00:54:29.361 je n'irai pas sur le concept philosophique de ce qu'est une entité 00:54:29.362 --> 00:54:31.201 et c'est en fait... 00:54:31.202 --> 00:54:34.561 Je ne connais aucune base de données qui travaille à ce niveau, 00:54:34.562 --> 00:54:36.827 mais ça, c'est le point le plus faible de Wikidata. 00:54:37.936 --> 00:54:40.812 Et il est probable que quand nous parlons de qualité de données, 00:54:40.812 --> 00:54:44.034 cela en constitue une grande partie, donc... 00:54:44.034 --> 00:54:48.569 Et c'est ce que nous avons aussi mentionné dans... 00:54:48.569 --> 00:54:50.452 Désolée, je change de sujet, 00:54:51.401 --> 00:54:55.774 mais dans différentes sessions concernant la qualité, nous avons remarqué 00:54:55.774 --> 00:54:59.398 que certains d'entre nous font un bon travail de modélisation, 00:54:59.399 --> 00:55:01.240 de ShEx et autres choses. 00:55:01.967 --> 00:55:07.655 Les gens ne voient pas ça dans Wikidata, ils ne voient pas le ShEx, 00:55:07.655 --> 00:55:10.392 ils ne voient pas le WikiProject sur la page de discussion 00:55:10.393 --> 00:55:11.393 et parfois, 00:55:11.394 --> 00:55:14.958 ils ne voient même pas les pages de discussion des propriétés 00:55:14.958 --> 00:55:19.628 qui dit clairement : a) cette propriété est utilisée pour cela. 00:55:19.628 --> 00:55:23.887 La semaine dernière, j'ai ajouté des contraintes à une propriété. 00:55:23.888 --> 00:55:26.324 La contrainte était écrite explicitement 00:55:26.325 --> 00:55:28.690 dans la discussion de la création de la propriété. 00:55:28.690 --> 00:55:34.548 J'ai juste créé la partie technique d'ajout de contrainte et quelqu'un : 00:55:34.548 --> 00:55:37.182 « Quoi ! Tu as cassé toutes mes modifications ! ». 00:55:37.183 --> 00:55:41.542 Et il se fait qu'il utilisait la propriété incorrectement depuis deux ans. 00:55:41.542 --> 00:55:46.868 Et celle-ci était en fait très claire, mais il n'y a eu aucun avertissement ; 00:55:46.869 --> 00:55:49.922 et c'est pareil pour Pink Pony, nous avons dit à Wikimania 00:55:49.922 --> 00:55:54.719 de rendre plus visible le WikiProject ou ShEx, mais... 00:55:54.719 --> 00:55:56.917 Et c'est ce qu'a dit Cristina. 00:55:56.917 --> 00:56:02.368 Nous avons un problème de visibilité concernant les solutions existantes. 00:56:02.368 --> 00:56:04.242 Dans cette session, 00:56:04.242 --> 00:56:06.862 nous parlons tous de comment créer plus de ShEx 00:56:06.863 --> 00:56:10.727 ou de faciliter les tâches des gens qui font le nettoyage. 00:56:11.605 --> 00:56:15.835 Mais depuis le premier jour de Wikidata, nous nettoyons 00:56:15.836 --> 00:56:20.921 et globalement, nous sommes en train de perdre la partie parce que 00:56:20.922 --> 00:56:22.960 je sais que les noms sont compliqués, 00:56:22.961 --> 00:56:26.162 mais je suis la seule à nettoyer, 00:56:26.662 --> 00:56:29.671 celui qui a ajouté le nom scripté latin 00:56:29.672 --> 00:56:31.584 à tous les chercheurs chinois, 00:56:32.088 --> 00:56:35.616 cela me prendra des mois pour nettoyer et je ne peux pas le faire seule, 00:56:35.616 --> 00:56:38.777 et de plus, il a fait un lot énorme. 00:56:38.777 --> 00:56:40.241 Nous avons vraiment besoin... 00:56:40.242 --> 00:56:44.158 Notre problème de visibilité est plus important de celui des outils 00:56:44.158 --> 00:56:45.733 car nous avons de nombreux outils. 00:56:45.733 --> 00:56:50.255 (Lydia) Malheureusement, on me fait signe (rit), 00:56:50.256 --> 00:56:52.121 nous devons donc terminer. 00:56:52.122 --> 00:56:53.563 Merci à tous pour vos commentaires. 00:56:53.563 --> 00:56:56.611 J'espère voir la discussion se prolonger au cours de la journée 00:56:56.611 --> 00:56:58.119 et merci pour votre contribution. 00:56:58.359 --> 00:56:59.944 (applaudissements)