Panel sur la qualité des données Bonjour à tous, bienvenue au groupe Qualité de Données. La qualité de données est importante car de plus en plus de gens se basent sur nos bonnes données et donc, nous allons parler de qualité. Il y aura quatre orateurs qui présenteront des introductions sur des sujets concernant la qualité de données suivies de questions-réponses. Le premier est Lucas. Merci. Je m'appelle Lucas et je vais commencer par une vue générale des outils de qualité de données que nous possédons déjà sur Wikidata et sur les prochaines nouveautés. Je les ai regroupés par thèmes : rendre les erreurs plus visibles, les problèmes actionnables, avoir plus de vues sur les données pour que les problèmes soient remarqués, remédier aux sources communes d'erreurs, maintenir la qualité existante et le référencement humain. Et ce qui est actuellement disponible commence par les contraintes de propriété. Si vous êtes sur Wikidata, ceci vous est sûrement familier. Des icônes vérifiant la cohérence interne des données sont parfois présentes. Par exemple, si un événement en suit un autre, cet autre devrait aussi être suivi par celui-ci, ce qui n'est apparemment pas sur l'item WikidataCon. Je ne suis pas sûr, cette fonction date que quelques jours. Et si ceci est trop limité ou simple pour vous, vous pouvez utiliser n'importe quelle vérification grâce à Query Service, ce qui est bien sûr très pratique. Mais vous pouvez aussi l'utiliser pour déterminer les erreurs. Si vous avez remarqué une erreur, vous pouvez regarder si d'autres erreurs similaires ont été commises et les trouver avec le Query Service. Vous pouvez également combiner les deux et rechercher des violations de contrainte, par exemple, uniquement celles dans une zone particulière ou un WikiProject qui vous est pertinent. Malheureusement, les résultats ne sont actuellement pas complets. Il existe la notation de révision. Provenant des changements récents, vous pouvez aussi avoir une évaluation automatique : cette édition est-elle faite de bonne ou mauvaise volonté et peut-elle être préjudiciable ou non. Voilà les deux dimensions. Vous pouvez si vous le voulez, vous concentrer sur les éditions néfastes mais de bonne volonté. Si vous êtes dans une humeur particulièrement amicale et accueillante, vous pouvez dire à ces éditeurs : « Merci pour votre contribution, vous auriez dû le faire comme ça, mais merci quand même. » Si vous n'êtes pas dans cette humeur, vous pouvez examiner les éditions préjudiciables de mauvaise foi et inverser le vandalisme. Il y a aussi la notation d'entité. Au lieu de noter une édition, la modification apportée, vous notez la révision complète et je pense que c'est la même mesure de qualité que Lydia mentionne au début de la conférence. Cela nous donne un script d'utilisateur et un score de un à cinq, je pense, de la qualité de l'item actuel. L'outil des sources primaires s'utilise pour toute base de données à importer, mais n'est pas d'assez bonne qualité que pour être ajouté directement à Wikidata. Il doit donc être ajouté à l'outil des sources primaires pour que les humains puissent décider d'ajouter ces énoncés individuels ou non. Afficher les coordonnées sous forme de cartes est pratique, mais peut aussi servir de contrôle qualité. Si vous voyez que les coordonnées du bureau de Wikimedia Germany se trouvent quelque part dans l'océan Indien, vous savez que quelque chose ne va pas et cela se remarque plus facilement que simplement avec des chiffres. C'est un gadget appelé « l'indicateur de complétude relative » qui vous montre cette petite icône ici vous donnant son estimation de complétion de l'item ainsi que les propriétés manquantes, ce qui est très utile si vous éditez un item, que vous êtes dans une zone peu familière et que ne savez pas quelles sont les propriétés correctes à employer, c'est alors un gadget très utile. Il y a aussi les « Shape Expressions ». Andra et Jose nous en parleront davantage, mais c'est en gros, un moyen puissant de comparer les données par rapport au schéma, comme quel état devrait avoir certaines entités, à quelles autres devraient-elles se lier et à quoi devraient-elles ressembler, vous pouvez ainsi trouver les problèmes. Ce n'est pas fini. « Integraality » ou tableau de bord de propriété. Il vous fournit une vue rapide de vos données existantes. Par exemple, ceci provient du WikiProject « Red Pandas » et vous pouvez voir que le sexe ou genre de presque tous les pandas sont assignés. La date de naissance varie selon leur zoo et heureusement, il n'y a presque aucun panda mort. Ils sont trop mignons. Ceci est donc aussi utile. Voilà. Voyons maintenant ce qui va arriver. Wikidata Bridge, connu antérieurement sous le nom de l'édition client ; donc éditer Wikidata à partir des info-boxes Wikipedia qui d'une part, permettra plus de vues sur les données car plus de personnes peuvent les y voir, en espérant que cela engendrera un emploi plus important de Wikidata et que plus de gens peuvent voir si par exemple, certaines données sont dépassées et doivent être mises à jour au lieu de seulement les voir sur Wikidata. Il y a aussi les références contaminées. L'idée est que si vous modifiez une valeur de relevé, vous pourriez également vouloir mettre cette référence à jour à moins que ce ne soit juste une erreur de frappe. Cette référence contaminée dit aussi aux autres éditeurs quelles modifications de relevé de valeur ont été faites qui n'ont pas mis la référence à jour. Vous pouvez alors remédier à cela et décider si... Est-ce que vous devez en faire plus ou c'est bien comme ça, il n'y a pas besoin de mettre la référence à jour. Cela concerne les relevés signés originaires d'un souci de certains fournisseurs de données... Il y a un énoncé que l'UNESCO a référencé qui a été vandalisé et ils sont donc inquiets qu'il semblerait que cette organisation, l'UNESCO aurait validé cette valeur vandalisée. Mais grâce aux énoncés signés, ils peuvent le faire de manière cryptographique sans empêcher les modifications ; mais au moins, si quelqu'un vandalise l'énoncé ou le modifie de quelque façon, la signature n'est alors plus valide et on peut voir que ce n'est pas ce qu'a dit l'organisation, et il se peut que ce soit une bonne modification qui devrait être resignée, mais qui pourrait aussi devoir être annulée. Une chose excitante est que Wikipedia comprend ce système étonnant appelé « Citoid » où on peut coller une URL, un identifiant ou un ISBN ou un ID Wikidata ou pratiquement n'importe quoi dans le Visual Editor qui retourne une référence bien formatée avec toutes les données possibles, c'est très gai à utiliser. Pour comparer avec Wikidata, si je veux ajouter une référence, typiquement, je dois ajouter une URL, un titre, nom d'auteur, date et lieu de publication, dates de récupération, au moins tout ça et c'est embêtant. On peut espérer que l'intégration de Citoid dans Wikibase améliorera la chose. Je crois que c'est tout pour moi. Je passe la parole à Cristina. Comment améliorer la gestion de qualité de données ? (applaudissements) Bonjour, je suis Cristina. Je suis chercheuse scientifique à l'université de Zurich et je suis aussi une membre active de la communauté suisse. Quand Claudia Müller-Birn et moi-même avons présenté ceci à WikidataCon, ce que nous voulions, c'est continuer la discussion commencée au début de l'année avec un atelier sur la qualité de données et des sessions dans Wikimania. Le but de cette conférence est de parler des pensées réunies de la communauté et de nous-mêmes et de continuer cette discussion. Nous aimerions beaucoup continuer cette interaction avec vous. Nous pensions qu'il est très important de toujours demander à tous les types d'utilisateur de la communauté, quels sont leurs besoins et problèmes concernant la qualité de données ; non seulement les éditeurs, mais aussi les codeurs ou les consommateurs de données et également les chercheurs qui utilisent toute cette historique d'édition pour analyser les événements. Nous avons donc examiné à peu près 80 outils de Wikidata et les avons alignés aux différentes dimensions de qualité de données. Ce qu'on a réalisé, c'est que nombre d'entre eux surveillent la complétion, mais certains d'entre eux permettent l'interconnexion. Mais il y a un grand besoin pour des outils travaillant dans la diversité, ce qu'on peut en fait avoir dans Wikidata, spécialement dans son principe de conception où la pluralité et les relevés différents contenant différentes valeurs provenant de différentes sources peuvent exister. Parce que la source est secondaire, nous n'avons pas vraiment d'outils qui nous disent réellement quelle est la pluralité d'énoncés, combien nous pouvons améliorer et de quelle manière et nous ne connaissons pas non plus vraiment les raisons de cette pluralité. De ces réunions de communauté, nous avons discuté les défis qui demandent de l'attention. Par exemple, le fait d'avoir ces communautés de production participative est positif car différentes personnes avec des connaissances de base différentes attaquent les différentes parties des données ou du graphe ; mais en réalité, il est difficile de tout aligner de manière homogène car différentes personnes utilisent différentes chose de façons différentes et s'attendent aussi à différentes choses venant des descriptions d'entité. Les gens ont aussi dit qu'ils ont besoin de plus d'outils qui donnent une meilleure vue d'ensemble du statut global des choses. C'est donc ce qui manque aux entités en termes de complétion, mais aussi sur quoi les gens travaillent-ils maintenant et ils ont aussi mentionné maintes fois d'avoir une collaboration plus étroite entre non seulement, les langages, mais aussi WikiProjects et les différentes plateformes de Wikimedia. Nous avons publié tous les commentaires transcrits de toutes les discussions dans les liens de Etherpads et dans la page wiki de Wikimania. Certaines solutions pointaient vers le fait de plus partager les bonnes pratiques qui sont développées dans différents WikiProjects, mais il y a aussi une demande pour des outils qui facilitent l'organisation de travail dans les équipes pour savoir qui fait quoi et également, pour plus de vitrines et de modèles pour aider à mieux créer. D'après le contact que nous avons avec les Open Governmental Data Organizations, et particulièrement, je suis en contact avec le canton et la ville de Zurich, ils sont très intéressés de travailler avec Wikidata parce qu'ils veulent leurs données accessibles à tous dans les endroits où les gens consultent et accèdent aux données. Ce qui peut être intéressant pour eux serait d'avoir un genre d'indicateurs de qualité à la fois dans le wiki, ce qui est valable actuellement, mais aussi dans les résultats SPARQL, afin de savoir s'ils peuvent faire confiance aux données communautaires. Ils veulent aussi savoir quelles parties de leur propre ensemble de données sont utiles pour Wikidata et aimeraient un outil qui peut les aider à évaluer ça automatiquement. Ils ont aussi besoin d'une méthodologie ou outil pour les aider à décider s'ils doivent importer ou connecter leurs données, car dans certains cas, ils ont aussi leurs propres ensembles de données ouverts couplés ; ils ne savent donc pas s'ils doivent juste ingérer des données ou continuer de créer des liens des ensembles de données vers Wikidata et le contraire. Et ils veulent aussi savoir où est référencé leur site web dans Wikidata. Quand ils introduisent une telle demande dans le service, ils sont souvent mis en attente, nous devrions donc peut-être créer plus d'outils pour les aider à répondre à ces questions. Et de plus, (craquements) nous, les chercheurs wiki, manquons d'information dans les résumés d'édition. Je me souviens que quand nous travaillions à comprendre les différents comportements des éditeurs avec outils ou bots, utilisateurs anonymes et que sais-je, il nous manquait par exemple, une manière standard de tracer les outils qui étaient utilisés. Certains outils font déjà cela, comme PetScan et plein d'autres. Nous devrions peut-être plus discuter en communauté comment enregistrer ceux-ci pour une origine peaufinée. De plus, nous devons penser à des dimensions de qualité de données plus concrètes qui sont reliées aux données couplées, mais non à tout type de données. Nous avons donc travaillé sur certaines mesures pour accéder au gain d'information fournis par les liens, ce qui veut dire que quand nous connectons Wikidata à d'autres ensembles de données, nous devrions aussi envisager le gain de classification des entités dans la description, mais aussi dans les vocabulaires utilisés. Pour vous donner un exemple, dans le cas de Wikidata ou du centre de données externe lié à Wikidata, nous avons l'entité d'une personne appelée « Natasha Noy », nous avons l'affiliation et d'autres choses et nous décidons de connecter à un endroit externe où cette entité a aussi ce nom, mais la valeur reste la même. Il serait alors mieux de connecter à quelque chose qui a un nom différent qui est toujours valide car cette personne peut écrire le nom de deux manières ainsi que d'autres informations non disponibles dans Wikidata ou dans l'autre ensemble de données. Mais ce qui est encore préférable, c'est d'examiner l'ensemble de données cible pour voir qu'il a aussi de nouvelles façons de classifier l'information. Ce n'est donc pas juste une personne, mais dans l'autre ensemble de données, ils parlent aussi en termes de femme et autre forme de classification. Et si l'autre ensemble de données utilise différents vocabulaires, cela aide dans la récupération des données. Je voudrais encore ajouter que nous sommes capables de mieux mettre en valeur les requêtes fédérées car quand nous consultons le journal de requêtes fourni par Malyshev et al., nous constations que parmi les requêtes organiques, il y a très peu de requêtes fédérées. Et en fait, un des avantages clés des données couplées est la fédération ; il se pourrait donc que la communauté et les gens qui utilisent Wikidata devraient avoir plus d'exemples à ce sujet. Et si on lit la liste des points finaux utilisés, celle-ci n'est pas complète, nous en avons bien d'autres. Bien sûr, ces données ont été analysées à partir de demandes jusqu'en mars 2018, mais nous devrions revoir la liste des points finaux acquis pour décider si nous les utilisons vraiment. J'ai deux questions pour l'audience que nous pouvons peut-être utiliser pour la discussion ultérieure : « À votre avis, quels sont les problèmes de qualité de données à adresser dépendant de vos besoins ? » et « Où avez-vous besoin de plus d'automation pour vous aider dans les éditions et les patrouilles ? » Ce sera tout, merci beaucoup. (applaudissements) MERCI ! (Jose Emilio Labra) Je vais maintenant vous parler des outils de Shape Expressions que nous sommes en train de développer. Je suis Jose Emilio Labra, mais tous ces outils ont été construits par des personnes différentes principalement connectées à W3C ShEx, Groupe de Communauté Shape Expressions. Groupe de Communauté ShEx. Le premier outil dont j'aimerais parler est un outil général : le RDFShape ; car Shape Expressions convient non pas seulement pour Wikidata, mais constitue un langage qui valide RDF en général. Je suis l'acteur principal du développement de cet outil qui valide RDF en général. Si vous voulez connaître ou valider RDF ou les points d'extrémité SPARQL pas seulement dans Wikidata, je vous conseille d'utiliser cet outil. Il est également bon pour l'enseignement. J'enseigne à l'université et je l'emploie dans mon cours de Web sémantique pour le RDF. Je crois donc que c'est un bon outil si vous voulez apprendre le RDF. Voici en exemple, une visualisation d'un graphe RDF avec l'outil. Mais avant de venir ici, au cours du mois dernier, j'ai commencé une fourchette de RDFShape juste pour Wikidata car je croyais... Je l'ai présenté hier à Wikidata, elle s'appelle « WikiShape ». Ce que j'ai fait... j'ai retiré tout ce qui ne concernait pas Wikidata et implémenté d'autres choses codées en dur comme l'extrémité Wikidata SPARQL, mais on m'a demandé maintenant si je pouvais faire de même pour Wikibase. Ce qui est très facile à faire. L'outil WikiShape est relativement nouveau. La plupart des fonctionnalités sont opératives, mais il est possible que certaines ne fonctionnent pas et si vous voulez les améliorer, s'il vous plaît, dites-le moi. C'est donc [des captures Science Script], mais on peut essayer. Voyons si cela marche. Je dois d'abord sortir de... Ici. D'accord, voici l'outil. Ce que vous pouvez faire avec l'outil par exemple, c'est vérifier des schémas d'entité. Vous savez qu'il y a un nouvel espace de nommage : « E que sais-je », si vous commencez par écrire « humain », son auto-complétion vous permet de vérifier, par exemple, le Shape Expressions d'un humain et voici ici le Shape Expressions. Et vous remarquez que l'éditeur possède une coloration syntaxique ; mais l'écran est peut-être trop petit, je vais essayer de l'agrandir. Vous voyez peut-être mieux maintenant. Voici la surligne syntaxique de l'éditeur, celui-ci provient du même code source que le service de requête de Wikidata. Si vous passez la souris ici, vous pouvez voir les étiquettes des différentes propriétés. Je pense que c'est très utile car les schémas d'entité présents dans Wikidata sont juste du texte simple, cet éditeur est donc meilleur car il comprend l'auto-complétion et aussi... par exemple, si vous voulez ajouter une contrainte, vous dites : « wdt: », écrivez juste « auteur », vous cliquez sur Ctrl+Space et différentes suggestions apparaissent. Cette fonction est similaire au service de requête Wikidata, mais adaptée pour Shape Expressions. Il me semble que créer des Shape Expressions n'est pas plus difficile que d'écrire des requêtes SPARQL. Certaines personnes pensent que c'est sur un même niveau, mais je pense que c'est plus facile car telle était notre intention quand nous avons conçu Shape Expressions. Cet éditeur est l'une des premières choses disponibles dans Shape Expressions. Il existe aussi la possibilité de visualiser. Dans Shape Expressions, prenons par exemple, « travail écrit » qui est une belle Shape Expression car elle exprime une relation entre différentes choses. Et ceci est la visualisation UML de travail écrit. Dans un UML, il est facile de voir les différentes propriétés. En faisant l'essai avec plusieurs personnes, j'ai réalisé quelles trouvaient des erreurs dans leur Shape Expressions car les propriétés manquantes sont faciles à détecter. L'autre possibilité ici est la validation ; je crois que la voilà. Je crois qu'elle était dans une étiquette, je l'ai peut-être fermée. Mais vous pouvez par exemple, cliquer ici sur Validate entities. Par exemple, « q42 » avec « e42 » qui est auteur. Avec « humain », je pense qu'on peut le faire avec ça. Et puis,... Cela prend un peu de temps car les requêtes SPARQL s'effectuent et pour le moment, il y a défaut de réseau, mais... Vous pouvez l'essayer. Continuons la présentation avec d'autres outils. Dites-moi si vous voulez l'essayer et si vous voulez un retour. Poursuivons la présentation. Voici donc WikiShape. Je l'ai déjà dit, l'Éditeur Shape Expressions est un projet indépendant dans GitHub. Vous pouvez l'utiliser dans votre propre projet. Si vous voulez utiliser un outil Shape Expressions, vous pouvez l'intégrer à n'importe quel autre projet, il est dans GitHub, utilisez-le. Le même auteur qui est un de mes élèves a aussi créé un éditeur pour Shape Expressions inspiré également du service de requête Wikidata où vous trouvez dans une colonne, cet éditeur plus visuel de requêtes SPARQL où vous pouvez introduire ce genre de choses. Ceci est une capture d'écran. Vous pouvez voir la Shape Expressions dans le texte, mais celle-ci est basée sur formulaire, ce qui prendrait un peu plus de temps et vous pouvez placer les différentes rangées sur différents champs. Ensuite, il y a ShExEr qui a été conçu par un doctorant à l'université de Oviedo ; il est présent et peut donc nous présenter ShExEr. (Danny) Bonjour, je suis Danny Fernández, je suis doctorant à l’université d'Oviedo et je travaille avec Labra. Vu que nous n'avons pas beaucoup de temps, je serai bref. Je ne vais pas faire de démonstration, mais juste imprimer des copies d'écran. La façon usuelle de travailler avec Shape Expressions ou tout autre langage est d'avoir un expert de domaine qui définit une priorité sur ce à quoi devrait ressembler un graphe, de définir des structures et d'utiliser ces structures pour valider les données réelles. Cet outil, tout comme ceux présentés par Labra est un outil polyvalent pour n'importe quelle source RDF et est conçu pour travailler à l'envers. Vous avez déjà des données, vous sélectionnez les noeuds dont vous voulez avoir la forme et vous extrayez ou inférez cette forme automatiquement. Donc, même si cet outil est polyvalent, ce qu'on a fait pour WikidataCon est ce joli bouton qui une fois pressé, fait apparaître de nombreux paramètres de configuration et fait une configuration qui va à l'encontre de l'extrémité Wikidata [qui se termine], désolé. Une fois que vous pressez le bouton, c'est ce que vous obtenez. Après avoir sélectionné quel genre de notes, quel genre d'instances de notre classe, ou quoi que vous recherchiez, vous obtenez un schéma automatique. Les contraintes sont classées d'après la quantité de modes qui s'y conforment et vous pouvez filtrer ceux qui sont moins communs, etc. Il y a un poster en bas à ce sujet et je serai en en bas et en haut et un peu partout toute la journée. Donc, si vous êtes intéressés par cet outil, venez me trouver. Je repasse maintenant le micro à Labra, merci. (applaudissements) (Jose) Poursuivons avec les autres outils. Le suivant est le ShapeDesigner. Andra, veux-tu en parler maintenant ou plus tard ou dans l'atelier ? Il y a un atelier... Cet après-midi, il y a un atelier spécifiquement pour Shape Expressions. L'idée était de faire plus de travail pratique, donc si ça vous tente, vous pouvez le faire là. L'outil est ShEx et comme Eric est présent, il peut nous en parler. (Eric) Je voulais juste dire rapidement que vous avez probablement déjà vu l'interface ShEx qui est adaptée pour Wikidata. Elle a vraiment été dépouillée et conçue spécifiquement pour Wikidata car celle qui est générique a plus de fonctions, mais il faut mentionner le fait que l'une d'entre elles est particulièrement utile pour déboguer les schémas Wikidata. Si vous sélectionnez le mode Slurp, il va dire que lorsque je valide, je veux rabattre tous les triples, ce qui veut dire que si j'ai un paquet d'erreurs, je peux les examiner et dire : « OK, quels sont les triples présents ici », désolé, les triples sont là en bas, ceci est simplement un registre de ce qui s'est passé. Vous pouvez ensuite jouer avec en temps réel comme vous le faites avec quelque chose qui change. C'est donc une version plus rapide pour faire tout cela. Ceci est un formulaire ShExC que Joachim a suggéré qui pourrait être utile pour remplir des documents Wikidata basé sur une Shape Expression pour ce document. Ceci n'est pas conçu pour Wikidata, mais c'est simplement pour dire que vous pouvez avoir un schéma et des annotations précisant la manière dont le schéma est rendu ; le formulaire est ensuite construit et si vous avez des données, elles peuvent même peupler le formulaire. PyShEx [inaudible] (Jose) Je crois que c'est le dernier. En effet, PyShEx est le dernier. PyShEx est une implémentation Python de Shape Expressions. Si vous voulez ce genre de choses, vous pouvez aussi jouer avec Jupyter Notebooks. OK, le sujet est bouclé. (applaudissements) (Andra) Je vais parler d'un projet spécifique dans lequel je suis impliqué appelé « Gene Wiki » où nous avons aussi affaire aux problèmes de qualité. Mais avant de parler de qualité, je vais rapidement vous présenter Gene Wiki. Nous venons juste de publier un document récemment rédigé qui explique les détails de ce projet. Je vois les gens prendre des photos, mais ce que fait Gene Wiki en gros, c'est essayer d'obtenir des données biomédicales publiques pour Wikidata ; et nous suivons un modèle spécifique pour inclure ces données dans Wikidata. Donc, quand nous avons un nouveau répertoire ou ensemble de données qui qualifie pour être inclus dans Wikidata, la première étape est l'engagement communautaire. Il n'est pas nécessaire que ce soit directement vers une communauté Wikidata, mais une communauté de recherche locale. Nous nous rencontrons en personne ou en ligne ou sur une autre plateforme et essayons de trouver un modèle de données qui fait le pont entre leurs données et le modèle Wikidata. J'ai ici une photo d'un atelier de l'année dernière qui s'est concentré sur un ensemble de données spécifique, et vous pouvez voir les discussions, pour l'aligner avec schema.org et d'autres ontologies existantes. À la fin de la première étape, nous avons un dessin de tableau blanc du schéma que nous voulons implémenter dans Wikidata. Ce que vous voyez ici est simple, il se trouve là à l'arrière pour que nous puissions faire des schémas dans ce panneau même aujourd'hui. Une fois que ce schéma est en place, il faut ensuite essayer de rendre cette machine schéma lisible car il faut avoir des modèles actionnables pour importer les données de toute base de données biomédicale dans Wikidata. C'est ici que nous appliquons Shape Expressions parce que celle-ci nous permet de tester si l'ensemble de données... non, d'abord de voir si les données déjà existantes dans Wikidata suivent le même modèle qui a été atteint dans le processus précédent. Avec le Shape Expression, nous pouvons donc vérifier si certaines données dans Wikidata doivent être nettoyées ou si nous devons adapter notre modèle à celui de Wikidata ou vice versa. Une fois que tout est décidé et que nous commençons d'écrire des bots, ceux-ci sèmeront les informations qui se trouvent dans les sources primaires de Wikidata. Quand ces bots sont prêts, nous les écrivons à l'aide d'une librairie Python appelée « Wikidata Integrator » qui est née de notre projet. Une fois que nous avons nos bots, nous utilisons une plateforme appelée « Jenkins » pour une intégration continuelle. Avec Jenkins, nous mettons sans arrêt à jour les sources primaires dans Wikidata. Voici un diagramme pour le journal mentionné précédemment. Ceci est notre environnement actuel. Chaque boite orange est une ressource primaire sur les drogues, protéines, gènes, maladies, composants chimiques avec interaction et bien que ce modèle soit trop petit pour être lisible, voici la base de données, les sources que nous traitons dans Wikidata et connectons aux sources primaires. Voilà le flux de travail. Un de nos partenaires est L'ontologie des Maladies qui est une ontologie CC0 ; celle-ci a son propre cycle de curation. L'Ontologie des Maladies est continuellement mise à jour pour refléter l’espace maladie ou l'interprétation des maladies. Il existe le cycle de curation Wikidata également sur les maladies où la communauté Wikidata surveille en permanence ce qui s'y passe. Nous avons deux rôles appelés familièrement « gardien d'accès » qu'un collègue et moi-même assumions il y a cinq ans où nous nous contentons de surveiller Wikipedia et Wikidata sur nos ordinateurs pour voir si un problème était signalé à la communauté primaire, dans quel cas ils examinaient l'implémentation et décidaient : « OK, pouvons-nous faire confiance à cette entrée Wikidata ? » Si oui, elle intègre le cycle et la prochaine itération fait alors partie de l'Oncologie des Maladies et alimente Wikidata. Nous faisons de même pour WikiPathways. WikiPathways est inspiré du chemin MediaWiki et du chemin répertoire. De même, il y a déjà différents chemins de ressources sur Wikidata. Il peut y avoir des conflits entre ces chemins de ressources et ceux-ci sont signalés à cette communauté par les gardiens d'accès, ce qui maintient les cycles de conservation individuelle. Mais si vous vous souvenez du cycle précédent, ici, je ne mentionne que deux cycles, deux ressources, nous devons faire cela pour chaque ressource que nous avons et nous devons gérer ce qui se passe car quand je parle de « curation », je veux vraiment dire : consulter les premières pages de Wikipedia pour essayer de le faire. Ce qui n'est pas faisable pour nos deux gardiens d'accès. Lors d'une conférence en 2016 où Eric a présenté Shape Expressions, j'ai pris le train en marche en disant : « OK, Shape Expressions peut nous aider à détecter les différences dans Wkikipedia ce qui permettra aux gardiens d'accès de faire un rapport plus efficace. » J'ai été ravi par l'entité schéma cette année parce qu'on peut maintenant stocker ces systèmes sur Wikidata en elle-même, alors qu'auparavant, c'était sur GitHub. Et comme ceci s'aligne sur l'interface Wikidata, nous avons donc des discussions de document, mais aussi des révisions. On peut donc tirer parti des premières pages et des révisions pour discuter du contenu de Wikidata et celui des ressources primaires. Ce que Eric vient de présenter constitue déjà un bon bénéfice. Ici, nous avons fait une Shape Expression pour le gène humain que nous avons soumise à un simple ShEx et comme vous pouvez le voir, nous avons déjà... Un problème à surveiller est quand un item ne correspond pas à ce schéma, vous pouvez créer déjà une sorte de rapports de curation d'entités de schéma et les envoyer aux différents rapports de curation. Mais le ShEx.js est une interface construite, voyez ici, je n'en fais que dix, mais nous en avons des dizaines de milliers, ce qui est démesuré. À présent, le Wikidata Integrator supporte aussi ShEx, nous pouvons donc boucler les circuits d'items en disant : « Oui-Non, Oui-Non, Vrai-Faux, Vrai-Faux ». Cela augmente à nouveau l'efficacité de la gestion des rapports. Mais cela s'appuie sur le Wikidata Query Service et donc récemment, nous nous voyons limités à cause de ce manque d'ajustement. Donc, la gestion des modèles sur Wikidata est une procédure en cours. ShEx est non seulement intimidant, mais est d'une trop grande échelle pour pouvoir le gérer. J'ai donc commencé à travailler avec un outil appelé « yED » qui est ma première preuve de concept ou exercice en dessinant ces Shape Expressions et en régénérant ce schéma en ce format adjacent des Shape Expressions qui s'ouvrirait déjà à l'audience qui est intimidée par les langages Shape Expressions. Mais il y a en fait un problème avec des descriptions visuelles car ce schéma a aussi été dessiné dans yED par quelqu'un. Il y en a un autre qui est splendide. J'adorerais l'avoir sur mon mur, mais il n'est pas encore interopérable. Je voudrais donc clore mon discours avec cette diapositive que j'ai « empruntée » pour la première fois. Nous sommes honorés de l'avoir dans l'audience et j'aime beaucoup ceci : « Les gens pensent que RDF est trop compliqué à utiliser. La vérité est pire, c'est tellement simple parce que vous devez travailler avec des problèmes de données réels qui sont horriblement compliqués. Bien que vous pouvez éviter RDF, il est plus dur d'éviter des données et des problèmes d'ordinateur compliqués. » On parle ici de RDF, mais je pense que cela s'applique également au modelage. Ce que je veux dire : « Comment lancer la modélisation ? » En discutant de ShEx ou des modèles visuels ou autre... Comment continuer ? Merci de m'avoir écouté. (applaudissements) (Lydia) Merci beaucoup. Pouvez-vous venir à l'avant comme cela, nous pouvons recevoir les questions de l'audience. Il y a des questions ? Oui. Et pour la caméra, nous devrions... (Lydia rit) Oui. (Personne du public) Une question pour Cristina. Vous avez mentionné le terme « gain d'information » dans le cadre de connexion avec d'autres systèmes. Il y a une mesure théorique d'information qui utilise statistique et probabilité appelée « gain d'information ». Avez-vous la même... Parliez-vous de cette mesure, du gain d'information de la théorie de probabilité de la théorie d'information ou simplement d'un concept de mesure de gain d'information d'une certaine façon ? Non, nous avons en fait défini et implémenté des mesures qui utilisent l'entropie Shannon, c'est à prendre dans ce sens. Je ne voulais pas rentrer dans les détails des formules concrètes... (Personne du public) Non bien sûr, c'est pour ça que j'ai posé la question. Merci. (Personne du public) C'est plus un commentaire qu'une question. (Lydia) Allez-y. (Personne du public) Il y a eu beaucoup d'attention au niveau de l'item concernant la qualité et la complétion ; ce qui me préoccupe est que nous ne faisons pas de même pour les hiérarchies et je crois que souvent, notre hiérarchie n'est pas bonne. Nous prévoyons que cela va être un réel problème avec la recherche des communs et autre. Ce que nous pouvons faire est importer de l'externe. La façon dont les thésaurus externes structurent leurs hiérarchies en utilisant le qualificateur de concept plus large P4900. Mais ce qui serait plus utile serait l'emploi de meilleurs outils afin d'importer une hiérarchie de thésaurus externe. Incorporons ça dans nos items Wikidata. Une fois que ces qualificateurs P4900 sont en place, vous pouvez faire de la bonne requête avec SPARQL pour voir si notre hiérarchie diverge de cette hiérarchie externe. For exemple, vous savez peut-être que [Paula Morma], utilisatrice PKM travaille beaucoup dans la mode. Nous utilisons cela pour extraire la hiérarchie du Europeana Fashion Thesaurus et celle du thésaurus de mode Getty AAT et nous voyons alors où sont les espaces dans nos items haut niveau, ce qui représente pour nous un vrai problème car souvent, ce sont des choses qui n'existent que dans les pages de désambiguïsation, ce qui fait que de nombreux articles de haut niveau manquent dans nos hiérarchies, c'est un problème que nous devons adresser en termes de qualité et de complétion, mais ce qui aiderait vraiment, ce sont de meilleurs outils que la jungle de scripts que j'ai écrits... Si quelqu'un pouvait entrer cela dans un notebook PAWS dans Python, afin de prendre la hiérarchie d'un thésaurus externe, ce qui pourrait être disponible en tant que données couplées ou pas, et ensuite, de les placer dans les valeurs P4900 en relevés rapides. Et après, quand notre représentation se complète, mettre ces P4900 à jour, parce qu'au fur et à mesure que nos représentations deviennent obsolètes, deviennent plus denses, les valeurs de ces qualificateurs doivent changer pour représenter le fait qu'on ait plus de leur hiérarchie dans notre système. Si quelqu'un savait faire cela, ce serait très utile. Nous devons aussi envisager d'autres approches pour améliorer la qualité et la complétion au niveau hiérarchique et non simplement au niveau item. (Andra) Je peux ajouter quelque chose ? Oui, on fait déjà cela et je recommande de regarder la Shape Expression faite par Finn avec les données lexicales où il crée des Shape Expressions et s'appuie sur les expressions d'auteur pour obtenir un concept de Shape Expressions liées dans Wikidata et spécifiquement, si je comprends bien, le cas d'utilisation est exactement ce que l'on fait dans Gene Wiki. Vous avez donc l’Ontologie de Maladies placée dans Wikidata et quand les données de maladie arrivent, nous appliquons les Shape Expressions pour voir si cela correspond à ce thésaurus. Il y a d'autres thésaurus et ontologies pour les vocabulaires contrôlés qui doivent toujours intégrer Wikidata et c'est exactement pour cette raison que Shape Expression est si intéressante parce qu'on peut en avoir une pour l'Ontologie de Maladies, pour MeSH, on peut dire : « OK, je veux maintenant vérifier la qualité. » Parce que dans Wikidata, on aussi le contexte où dans le cas d'un vocabulaire contrôlé, vous décidez de la qualité en fonction de, mais votre communauté peut ne pas être d'accord. L'outillage est donc en place, il faut maintenant créer ces modèles et les appliquer aux différents cas d'utilisation. (Personne du public) La Shape Expression est très utile une fois que l'ontologie externe est cartographiée dans Wikidata, mais mon problème est de figurer l'ontologie externe qui n'est pas déjà présente dans Wikidata et de situer les espaces ; et c'est là que le fait d'avoir des outils plus robustes pour voir les parties manquantes des ontologies externes devient très utile. Le plus grand problème est non pas l'outillage, mais les licences. Mettre les ontologies dans Wikidata est en fait un jeu d'enfant, mais la plupart des ontologies ont... comment dire ça poliment, ...des licences restrictives et donc, non compatibles avec Wikidata. (Personne du public) Il y a un grand nombre de thésaurus de secteur public dans les champs culturels. - (Andra) On doit alors en discuter. - (Personne du public) Pas de soucis. (Andra) On doit en parler. (Personne du public) Mon commentaire est en fait une réponse à James. Les hiérarchies font des graphes et quand tu veux... Je veux dire que le problème commun des hiérarchies sont les hiérarchies circulaires, elles reviennent l'une vers l'autre quand il y a un problème, ce qui ne devrait pas arriver. Curieusement, cela arrive fréquemment dans les catégories de Wikipedia, elles sont souvent circulaires, mais la bonne nouvelle est que... Techniquement, c'est impossible à trouver car c'est un problème complet PMP et facile si on construit un graphe à cet effet. Mais il y a de nombreuses manières qui ont été développées pour trouver les problèmes dans ces graphes hiérarchiques. Comme ce document appelé « Finding cycles... Breaking cycles in Noisy Hierarchies » qui a été utilisé pour aider la catégorisation de Wikipédia Anglais. On peut appliquer cela aux hiérarchies dans Wikidata et ensuite, trouver ce qui est problématique et supprimer les causeurs de trouble et trouver les problèmes. C'est juste une idée pour vous... (Personne du public) Tout cela est bel et bien, mais je crois que vous sous-estimez le nombre de relations défaillantes entre les sous-classes que nous avons. C'est comme avoir une ville dans le mauvais pays et il existe des outils géographiques pour cela. Nous devons avoir de bien meilleurs outils en hiérarchies pour identifier l'item manquant ou s'il a été en fait sous-classé à un élément qui ne veut pas dire quelque chose de tout à fait différent. (Lydia) Je pense que tu as mis le doigt dessus. Mon équipe et moi-même avons les mêmes retours des gens qui réutilisent nos données ; Un point de donnée individuel peut être intéressant, mais s'il faut examiner l'ontologie, etc., cela devient très... Je pense qu'un des grands problèmes pourquoi cela se produit est que nombreuses éditions dans Wikidata s'effectuent sur base d'un élément individuel, on modifie cet item sans réaliser que cela peut avoir des conséquences globales sur le reste du graphe, par exemple. Si les gens avaient des idées sur comment rendre plus visibles les conséquences d'une modification locale individuelle, il faudrait prendre la peine de les explorer pour mieux montrer aux gens quelles sont les conséquences de leur édition, même si celle-ci est de bonne foi. Commençons par ici, oui, vous, puis vous et vous et vous ! (Personne du public) Après la discussion, simplement pour exprimer mon accord avec James. Il semble que la chose la plus dangereuse est la hiérarchie, pas la hiérarchie, mais en général, les sémantiques des relations entre sous-classes dans Wikidata,. J'ai récemment étudié les langages en vue de cette conférence et par exemple, vous trouvez plein de cas où le langage fait partie des sous-classes. On peut alors dire qu'on a une ontologie flexible. Parfois, Wikidata vous donne cette liberté d'expression. Parce que par exemple, cette ontologie de langages est aussi politiquement compliquée, pas vrai ? Il est même bon d'être en position d'exprimer un niveau d'incertitude. Mais imaginez quelqu'un qui veut faire de la lecture automatique à partir de ça. C'est vraiment problématique. Et de nouveau, je ne pense pas que cette ontologie a été importée de quelque part c'est quelque chose qui originairement nous appartient. Je dirais que c'est récolté de Wikipédia au tout début. Donc, je me demande... Cette Shape Expressions est super et le fait de valider et rectifier l'ontologie Wikidata par des ressources externes, belle idée. À la fin, terminerons-nous en réfléchissant sur les ontologies externes dans Wikidata ? Et aussi, à ce que nous faisons avec la partie centrale de notre ontologie qui n'est jamais récoltée de ressources externes, comment résoudre cela ? Et je pense que ce sera un problème en soi. Nous devrons nous concentrer sur cela indépendamment du fait de valider l'ontologie avec un élément externe. (Personne du public) Les contraintes et formes ainsi que leurs usages sont vraiment impressionnantes, mais le point principal n'est pas clair car nous pouvons maintenant rendre nos attentes des données plus explicites. Avant, chacun devait écrire ses propres outils et scripts pour qu'ils soient plus visibles et accessibles de discussion. Mais il ne s'agit pas de ce qui est juste ou non, il s'agit d'une attente et il y aura différentes attentes et discussions sur comment modeler dans Wikidata et ceci... L'état actuel est simplement un pas dans la direction parce qu'à présent, il faut une grande expertise technique pour s'impliquer et nous devons avoir de meilleurs moyens pour visualiser cette contrainte ; de peut-être la transformer en un langage naturel pour une meilleure compréhension, il ne s'agit pas de juste ou faux. (Lydia) Oui. (Personne du public) Concernant les problèmes de qualité, j'ai trouvé que nombreux problèmes que j'ai rencontrés consistaient en une différence d'opinion entre « instance de » comparé à « sous-classe ». Dans ces situations, je dirais que ce sont des « erreurs » et les trouver est une procédure chronophage. Ce que j'ai trouvé est : « Oh, si je trouve des articles de haute qualité qui sont... pour ensuite utiliser toutes les instances sous-classe et leurs relevés dérivés », c'est une manière utile de chercher ces erreurs. Mais je me demandais si Shape Expressions, s'il y a... si elle peut être utilisée comme outil pour aider à résoudre ces problèmes... (Personne du public) S'il y a une empreinte structurée que l'on peut... qui est en sorte falsifiable, on peut l'examiner et reconnaître qu'elle est fausse, alors oui, on peut le faire. Mais si c'est pour l'associer à des objets réels, cela va demander beaucoup de cerveaux. Bonjour, je suis Pablo Mendes de Siri Knowledge de Apple. Nous sommes ici pour découvrir comment aider le projet et la communauté, mais Cristina a commis l'erreur de nous demander ce qu'on voulait. (rire) Une des choses que j'aimerais voir, c'est attacher de l'importance à la vérifiabilité qui est un des principes essentiels du projet dans la communauté ainsi que la fiabilité. Tous les énoncés ne sont pas identiques, certains d'entre eux sont très disputés, certains d'entre eux sont faciles à deviner comme une date de naissance qui peut être vérifiée, mais comme vous l'avez vu dans Keynote, la question de genre est plus compliquée. Pouvez-vous nous parler davantage de ce que vous savez au sujet de la qualité de données concernant la fiabilité et vérifiabilité ? Et si ce n'est pas grand-chose, j'aimerais en savoir plus. (rire) (Lydia) Oui. Apparemment, il n'y a pas grand-chose à dire. (rire) (Andra) Je pense que nous pouvons faire beaucoup et j'ai discuté hier avec vous. Mon exemple favori d'hier qui est déjà obsolète est que si vous allez sur Q2 qui est la terre, il y a une déclaration qui dit que la terre est plate. J'adore cet exemple parce qu'il existe une communauté qui déclare cela et ils possèdent des sources vérifiables. Je pense que ce cas est véritable, qu'il ne devrait pas être déprécié et devrait être dans Wikidata. C'est une circonstance où Shape Expressions peut être décisif parce que vous pouvez dire que vous êtes vraiment intéressé par ce cas d'utilisation, ou il se peut que vous ne soyez pas d'accord, mais ce cas d'utilisation pourrait également vous intéresser. Il y a aussi cet exemple où vous dites que vous avez du glucose. Mais quand vous êtes biologiste, vous ne vous souciez pas des contraintes chimiques de la molécule de glucose, tout est pareil en ce qui concerne le glucose. Mais si vous êtes chimiste, vous grincerez des dents en entendant cela, vous avez 200... Vous pouvez alors avoir des Shape Expressions multiples, d'un point de vue chimique, j'appliquerai cela. Mais d'un point de vue biologique, j'appliquerai cette Shape Expression. Et quand vous voulez collaborer, parlez plutôt à Eric des cartes ShEx. Mais cette aventure ne fait que commencer. Et personnellement, je pense qu'il y aura un rôle à jouer dans ce domaine. (Lydia) OK. Ici. (rire) (Personne du public) J'ai eu plusieurs idées en entendant les discussions, je vais essayer de ne pas les perdre. Basé sur ce que James a dit auparavant, depuis le début, nous avons un très gros problème dans Wikidata pour l'ontologie supérieure. Nous en avons parlé il y a deux ans lors de WikidataCon et nous en avons parlé à Wikimania. Chaque fois que nous avons une réunion Wikidata, nous en parlons car c'est un très gros problème de tout premier abord ; quelle est l'entité,quel est le travail, quel est le genre, l'art, ce sont les plus grands concepts. Et c'est en fait un point très faible de l'ontologie globale parce que les gens essaient de nettoyer régulièrement et finissent par tout casser ; je pense que certains se souviennent peut-être du gars qui candidement, a cassé toutes les villes du monde. On n'était plus des items géographiques, donc contraintes de violation partout. Et c'était de bonne foi parce qu'il apportait vraiment une correction à un article, mais tout s'est écroulé. Je ne sais pas trop comment résoudre cela parce qu'il n'existe pas d'institution externe à copier car tout le monde travaille sur... Si je suis la base de données d'art performant, j'irai simplement à l'étiquette d'art performant, je n'irai pas sur le concept philosophique de ce qu'est une entité et c'est en fait... Je ne connais aucune base de données qui travaille à ce niveau, mais ça, c'est le point le plus faible de Wikidata. Et il est probable que quand nous parlons de qualité de données, cela en constitue une grande partie, donc... Et c'est ce que nous avons aussi mentionné dans... Désolée, je change de sujet, mais dans différentes sessions concernant la qualité, nous avons remarqué que certains d'entre nous font un bon travail de modélisation, de ShEx et autres choses. Les gens ne voient pas ça dans Wikidata, ils ne voient pas le ShEx, ils ne voient pas le WikiProject sur la page de discussion et parfois, ils ne voient même pas les pages de discussion des propriétés qui dit clairement : a) cette propriété est utilisée pour cela. La semaine dernière, j'ai ajouté des contraintes à une propriété. La contrainte était écrite explicitement dans la discussion de la création de la propriété. J'ai juste créé la partie technique d'ajout de contrainte et quelqu'un : « Quoi ! Tu as cassé toutes mes modifications ! ». Et il se fait qu'il utilisait la propriété incorrectement depuis deux ans. Et celle-ci était en fait très claire, mais il n'y a eu aucun avertissement ; et c'est pareil pour Pink Pony, nous avons dit à Wikimania de rendre plus visible le WikiProject ou ShEx, mais... Et c'est ce qu'a dit Cristina. Nous avons un problème de visibilité concernant les solutions existantes. Dans cette session, nous parlons tous de comment créer plus de ShEx ou de faciliter les tâches des gens qui font le nettoyage. Mais depuis le premier jour de Wikidata, nous nettoyons et globalement, nous sommes en train de perdre la partie parce que je sais que les noms sont compliqués, mais je suis la seule à nettoyer, celui qui a ajouté le nom scripté latin à tous les chercheurs chinois, cela me prendra des mois pour nettoyer et je ne peux pas le faire seule, et de plus, il a fait un lot énorme. Nous avons vraiment besoin... Notre problème de visibilité est plus important de celui des outils car nous avons de nombreux outils. (Lydia) Malheureusement, on me fait signe (rit), nous devons donc terminer. Merci à tous pour vos commentaires. J'espère voir la discussion se prolonger au cours de la journée et merci pour votre contribution. (applaudissements)