< Return to Video

cdn.media.ccc.de/.../wikidatacon2019-9-eng-Data_quality_panel_hd.mp4

  • 0:04 - 0:06
    Panel sur la qualité des données
  • 0:06 - 0:09
    Bonjour à tous, bienvenue
    au groupe Qualité de Données.
  • 0:10 - 0:14
    La qualité de données est importante
    car de plus en plus de gens
  • 0:14 - 0:19
    se basent sur nos bonnes données
    et donc, nous allons parler de qualité.
  • 0:20 - 0:26
    Il y aura quatre orateurs qui
    présenteront des introductions
  • 0:26 - 0:30
    sur des sujets concernant la qualité
    de données suivies de questions-réponses.
  • 0:30 - 0:32
    Le premier est Lucas.
  • 0:34 - 0:35
    Merci.
  • 0:36 - 0:40
    Je m'appelle Lucas et je vais
    commencer par une vue générale
  • 0:40 - 0:44
    des outils de qualité de données
    que nous possédons déjà sur Wikidata
  • 0:44 - 0:46
    et sur les prochaines nouveautés.
  • 0:47 - 0:51
    Je les ai regroupés par thèmes :
  • 0:51 - 0:54
    rendre les erreurs plus visibles,
    les problèmes actionnables,
  • 0:54 - 0:57
    avoir plus de vues sur les données
    pour que les problèmes soient remarqués,
  • 0:57 - 1:03
    remédier aux sources communes d'erreurs,
    maintenir la qualité existante
  • 1:03 - 1:04
    et le référencement humain.
  • 1:05 - 1:10
    Et ce qui est actuellement disponible
    commence par les contraintes de propriété.
  • 1:10 - 1:12
    Si vous êtes sur Wikidata,
    ceci vous est sûrement familier.
  • 1:12 - 1:15
    Des icônes vérifiant
    la cohérence interne des données
  • 1:15 - 1:17
    sont parfois présentes.
  • 1:17 - 1:21
    Par exemple,
    si un événement en suit un autre,
  • 1:21 - 1:24
    cet autre devrait aussi
    être suivi par celui-ci,
  • 1:24 - 1:27
    ce qui n'est apparemment pas
    sur l'item WikidataCon.
  • 1:27 - 1:30
    Je ne suis pas sûr, cette fonction
    date que quelques jours.
  • 1:30 - 1:35
    Et si ceci est trop limité
    ou simple pour vous,
  • 1:35 - 1:38
    vous pouvez utiliser n'importe
    quelle vérification grâce à Query Service,
  • 1:38 - 1:40
    ce qui est bien sûr très pratique.
  • 1:40 - 1:45
    Mais vous pouvez aussi l'utiliser
    pour déterminer les erreurs.
  • 1:45 - 1:47
    Si vous avez remarqué une erreur,
  • 1:47 - 1:50
    vous pouvez regarder
  • 1:50 - 1:52
    si d'autres erreurs similaires
    ont été commises
  • 1:52 - 1:53
    et les trouver avec le Query Service.
  • 1:53 - 1:55
    Vous pouvez également
    combiner les deux
  • 1:55 - 1:58
    et rechercher
    des violations de contrainte,
  • 1:58 - 2:01
    par exemple, uniquement
    celles dans une zone particulière
  • 2:01 - 2:04
    ou un WikiProject qui vous est pertinent.
  • 2:04 - 2:07
    Malheureusement, les résultats
    ne sont actuellement pas complets.
  • 2:08 - 2:10
    Il existe la notation de révision.
  • 2:11 - 2:13
    Provenant des changements récents,
  • 2:13 - 2:16
    vous pouvez aussi avoir
    une évaluation automatique :
  • 2:16 - 2:20
    cette édition est-elle faite
    de bonne ou mauvaise volonté
  • 2:20 - 2:22
    et peut-elle être préjudiciable ou non.
  • 2:22 - 2:24
    Voilà les deux dimensions.
  • 2:24 - 2:26
    Vous pouvez si vous le voulez,
  • 2:26 - 2:30
    vous concentrer sur les éditions
    néfastes mais de bonne volonté.
  • 2:30 - 2:33
    Si vous êtes dans une humeur
    particulièrement amicale et accueillante,
  • 2:33 - 2:37
    vous pouvez dire à ces éditeurs :
    « Merci pour votre contribution,
  • 2:37 - 2:41
    vous auriez dû le faire comme ça,
    mais merci quand même. »
  • 2:41 - 2:42
    Si vous n'êtes pas dans cette humeur,
  • 2:42 - 2:45
    vous pouvez examiner les éditions
    préjudiciables de mauvaise foi
  • 2:45 - 2:46
    et inverser le vandalisme.
  • 2:48 - 2:50
    Il y a aussi la notation d'entité.
  • 2:50 - 2:53
    Au lieu de noter une édition,
    la modification apportée,
  • 2:53 - 2:54
    vous notez la révision complète
  • 2:54 - 2:56
    et je pense que c'est
    la même mesure de qualité
  • 2:56 - 3:00
    que Lydia mentionne
    au début de la conférence.
  • 3:00 - 3:05
    Cela nous donne un script d'utilisateur
    et un score de un à cinq, je pense,
  • 3:05 - 3:08
    de la qualité de l'item actuel.
  • 3:10 - 3:15
    L'outil des sources primaires s'utilise
    pour toute base de données à importer,
  • 3:15 - 3:18
    mais n'est pas d'assez bonne qualité que
    pour être ajouté directement à Wikidata.
  • 3:18 - 3:21
    Il doit donc être ajouté
    à l'outil des sources primaires
  • 3:21 - 3:23
    pour que les humains puissent décider
  • 3:23 - 3:26
    d'ajouter ces énoncés individuels ou non.
  • 3:29 - 3:32
    Afficher les coordonnées
    sous forme de cartes est pratique,
  • 3:32 - 3:34
    mais peut aussi
    servir de contrôle qualité.
  • 3:34 - 3:37
    Si vous voyez que les coordonnées
    du bureau de Wikimedia Germany
  • 3:37 - 3:39
    se trouvent quelque part
    dans l'océan Indien,
  • 3:39 - 3:42
    vous savez que quelque chose ne va pas
  • 3:42 - 3:45
    et cela se remarque plus facilement
    que simplement avec des chiffres.
  • 3:46 - 3:50
    C'est un gadget appelé
    « l'indicateur de complétude relative »
  • 3:50 - 3:52
    qui vous montre cette petite icône ici
  • 3:53 - 3:56
    vous donnant son estimation
    de complétion de l'item
  • 3:56 - 3:58
    ainsi que les propriétés manquantes,
  • 3:58 - 4:00
    ce qui est très utile
    si vous éditez un item,
  • 4:00 - 4:03
    que vous êtes dans une zone peu familière
  • 4:03 - 4:06
    et que ne savez pas quelles sont
    les propriétés correctes à employer,
  • 4:06 - 4:08
    c'est alors un gadget très utile.
  • 4:10 - 4:11
    Il y a aussi les « Shape Expressions ».
  • 4:11 - 4:16
    Andra et Jose nous en parleront davantage,
  • 4:16 - 4:20
    mais c'est en gros, un moyen puissant
    de comparer les données
  • 4:20 - 4:21
    par rapport au schéma,
  • 4:21 - 4:23
    comme quel état devrait
    avoir certaines entités,
  • 4:23 - 4:26
    à quelles autres devraient-elles se lier
    et à quoi devraient-elles ressembler,
  • 4:26 - 4:29
    vous pouvez ainsi trouver les problèmes.
  • 4:30 - 4:32
    Ce n'est pas fini.
  • 4:32 - 4:34
    « Integraality » ou
    tableau de bord de propriété.
  • 4:34 - 4:37
    Il vous fournit une vue rapide
    de vos données existantes.
  • 4:37 - 4:39
    Par exemple, ceci provient
    du WikiProject « Red Pandas »
  • 4:40 - 4:42
    et vous pouvez voir que le sexe ou genre
  • 4:42 - 4:44
    de presque tous les pandas sont assignés.
  • 4:44 - 4:47
    La date de naissance varie selon leur zoo
  • 4:47 - 4:50
    et heureusement, il n'y a
    presque aucun panda mort.
  • 4:51 - 4:53
    Ils sont trop mignons.
  • 4:54 - 4:56
    Ceci est donc aussi utile.
  • 4:56 - 4:59
    Voilà. Voyons maintenant
    ce qui va arriver.
  • 5:00 - 5:04
    Wikidata Bridge, connu antérieurement
    sous le nom de l'édition client ;
  • 5:04 - 5:07
    donc éditer Wikidata
    à partir des info-boxes Wikipedia
  • 5:08 - 5:12
    qui d'une part, permettra
    plus de vues sur les données
  • 5:12 - 5:13
    car plus de personnes peuvent les y voir,
  • 5:13 - 5:19
    en espérant que cela engendrera
    un emploi plus important de Wikidata
  • 5:19 - 5:21
    et que plus de gens peuvent voir
  • 5:21 - 5:24
    si par exemple, certaines données sont
    dépassées et doivent être mises à jour
  • 5:24 - 5:27
    au lieu de seulement
    les voir sur Wikidata.
  • 5:29 - 5:31
    Il y a aussi les références contaminées.
  • 5:31 - 5:34
    L'idée est que si vous modifiez
    une valeur de relevé,
  • 5:35 - 5:37
    vous pourriez également vouloir
    mettre cette référence à jour
  • 5:37 - 5:39
    à moins que ce ne soit juste
    une erreur de frappe.
  • 5:40 - 5:44
    Cette référence contaminée
    dit aussi aux autres éditeurs
  • 5:44 - 5:50
    quelles modifications de relevé
    de valeur ont été faites
  • 5:50 - 5:52
    qui n'ont pas mis la référence à jour.
  • 5:52 - 5:57
    Vous pouvez alors remédier à cela
    et décider si...
  • 5:58 - 6:00
    Est-ce que vous devez en faire plus
  • 6:00 - 6:03
    ou c'est bien comme ça, il n'y a
    pas besoin de mettre la référence à jour.
  • 6:04 - 6:09
    Cela concerne les relevés signés
    originaires d'un souci
  • 6:09 - 6:12
    de certains fournisseurs de données...
  • 6:14 - 6:17
    Il y a un énoncé que l'UNESCO a référencé
  • 6:17 - 6:20
    qui a été vandalisé
  • 6:20 - 6:22
    et ils sont donc inquiets qu'il semblerait
  • 6:23 - 6:27
    que cette organisation, l'UNESCO
    aurait validé cette valeur vandalisée.
  • 6:27 - 6:29
    Mais grâce aux énoncés signés,
  • 6:29 - 6:31
    ils peuvent le faire
    de manière cryptographique
  • 6:31 - 6:34
    sans empêcher les modifications ;
  • 6:34 - 6:38
    mais au moins,
    si quelqu'un vandalise l'énoncé
  • 6:38 - 6:40
    ou le modifie de quelque façon,
    la signature n'est alors plus valide
  • 6:40 - 6:43
    et on peut voir que ce n'est pas
    ce qu'a dit l'organisation,
  • 6:43 - 6:47
    et il se peut que ce soit une bonne
    modification qui devrait être resignée,
  • 6:47 - 6:50
    mais qui pourrait aussi
    devoir être annulée.
  • 6:51 - 6:54
    Une chose excitante
  • 6:54 - 6:57
    est que Wikipedia comprend
    ce système étonnant appelé « Citoid »
  • 6:57 - 7:01
    où on peut coller une URL,
    un identifiant ou un ISBN
  • 7:01 - 7:05
    ou un ID Wikidata ou pratiquement
    n'importe quoi dans le Visual Editor
  • 7:05 - 7:08
    qui retourne une référence bien formatée
  • 7:08 - 7:11
    avec toutes les données possibles,
    c'est très gai à utiliser.
  • 7:11 - 7:14
    Pour comparer avec Wikidata,
    si je veux ajouter une référence,
  • 7:14 - 7:19
    typiquement, je dois ajouter une URL,
    un titre, nom d'auteur,
  • 7:19 - 7:20
    date et lieu de publication,
  • 7:20 - 7:25
    dates de récupération,
    au moins tout ça et c'est embêtant.
  • 7:25 - 7:29
    On peut espérer que l'intégration de
    Citoid dans Wikibase améliorera la chose.
  • 7:30 - 7:34
    Je crois que c'est tout pour moi.
  • 7:34 - 7:36
    Je passe la parole à Cristina.
  • 7:36 - 7:38
    Comment améliorer la gestion
    de qualité de données ?
  • 7:38 - 7:42
    (applaudissements)
  • 7:44 - 7:45
    Bonjour, je suis Cristina.
  • 7:45 - 7:48
    Je suis chercheuse scientifique
    à l'université de Zurich
  • 7:48 - 7:51
    et je suis aussi une membre active
    de la communauté suisse.
  • 7:53 - 7:58
    Quand Claudia Müller-Birn et moi-même
    avons présenté ceci à WikidataCon,
  • 7:58 - 8:00
    ce que nous voulions,
    c'est continuer la discussion
  • 8:00 - 8:02
    commencée au début de l'année
  • 8:02 - 8:07
    avec un atelier sur la qualité de données
    et des sessions dans Wikimania.
  • 8:07 - 8:11
    Le but de cette conférence
    est de parler des pensées
  • 8:11 - 8:14
    réunies de la communauté et de nous-mêmes
  • 8:14 - 8:17
    et de continuer cette discussion.
  • 8:17 - 8:20
    Nous aimerions beaucoup
    continuer cette interaction avec vous.
  • 8:22 - 8:23
    Nous pensions qu'il est très important
  • 8:23 - 8:28
    de toujours demander à tous
    les types d'utilisateur de la communauté,
  • 8:28 - 8:32
    quels sont leurs besoins et problèmes
    concernant la qualité de données ;
  • 8:32 - 8:35
    non seulement les éditeurs,
    mais aussi les codeurs
  • 8:35 - 8:36
    ou les consommateurs de données
  • 8:36 - 8:39
    et également les chercheurs qui
    utilisent toute cette historique d'édition
  • 8:39 - 8:41
    pour analyser les événements.
  • 8:42 - 8:48
    Nous avons donc examiné
    à peu près 80 outils de Wikidata
  • 8:48 - 8:52
    et les avons alignés aux différentes
    dimensions de qualité de données.
  • 8:52 - 8:54
    Ce qu'on a réalisé, c'est que
  • 8:54 - 8:58
    nombre d'entre eux
    surveillent la complétion,
  • 8:58 - 9:03
    mais certains d'entre eux
    permettent l'interconnexion.
  • 9:03 - 9:08
    Mais il y a un grand besoin pour
    des outils travaillant dans la diversité,
  • 9:08 - 9:13
    ce qu'on peut en fait avoir dans Wikidata,
  • 9:13 - 9:15
    spécialement dans
    son principe de conception
  • 9:15 - 9:18
    où la pluralité et les relevés
    différents contenant différentes valeurs
  • 9:18 - 9:20
    provenant de différentes sources
  • 9:21 - 9:22
    peuvent exister.
  • 9:22 - 9:25
    Parce que la source est secondaire,
    nous n'avons pas vraiment d'outils
  • 9:25 - 9:28
    qui nous disent réellement
    quelle est la pluralité d'énoncés,
  • 9:28 - 9:31
    combien nous pouvons améliorer
    et de quelle manière
  • 9:31 - 9:33
    et nous ne connaissons
    pas non plus vraiment
  • 9:33 - 9:36
    les raisons de cette pluralité.
  • 9:36 - 9:39
    De ces réunions de communauté,
  • 9:39 - 9:43
    nous avons discuté les défis
    qui demandent de l'attention.
  • 9:43 - 9:47
    Par exemple, le fait d'avoir ces
    communautés de production participative
  • 9:47 - 9:50
    est positif car différentes personnes
  • 9:50 - 9:52
    avec des connaissances de base différentes
  • 9:52 - 9:55
    attaquent les différentes parties
    des données ou du graphe ;
  • 9:55 - 9:59
    mais en réalité, il est difficile
    de tout aligner de manière homogène
  • 9:59 - 10:05
    car différentes personnes utilisent
    différentes chose de façons différentes
  • 10:05 - 10:08
    et s'attendent aussi à différentes
    choses venant des descriptions d'entité.
  • 10:09 - 10:13
    Les gens ont aussi dit
    qu'ils ont besoin de plus d'outils
  • 10:13 - 10:16
    qui donnent une meilleure vue d'ensemble
    du statut global des choses.
  • 10:16 - 10:21
    C'est donc ce qui manque aux entités
    en termes de complétion,
  • 10:21 - 10:26
    mais aussi sur quoi les gens
    travaillent-ils maintenant
  • 10:26 - 10:31
    et ils ont aussi mentionné maintes fois
    d'avoir une collaboration plus étroite
  • 10:31 - 10:33
    entre non seulement, les langages,
    mais aussi WikiProjects
  • 10:33 - 10:36
    et les différentes
    plateformes de Wikimedia.
  • 10:36 - 10:39
    Nous avons publié tous
    les commentaires transcrits
  • 10:39 - 10:43
    de toutes les discussions
    dans les liens de Etherpads
  • 10:43 - 10:46
    et dans la page wiki de Wikimania.
  • 10:46 - 10:48
    Certaines solutions pointaient
  • 10:48 - 10:53
    vers le fait de plus partager
    les bonnes pratiques
  • 10:53 - 10:56
    qui sont développées
    dans différents WikiProjects,
  • 10:56 - 11:01
    mais il y a aussi une demande pour
    des outils qui facilitent l'organisation
  • 11:01 - 11:04
    de travail dans les équipes
    pour savoir qui fait quoi
  • 11:04 - 11:08
    et également, pour plus de vitrines
  • 11:08 - 11:12
    et de modèles pour aider à mieux créer.
  • 11:13 - 11:15
    D'après le contact que nous avons
  • 11:15 - 11:19
    avec les Open Governmental
    Data Organizations,
  • 11:19 - 11:20
    et particulièrement,
  • 11:20 - 11:23
    je suis en contact avec
    le canton et la ville de Zurich,
  • 11:23 - 11:26
    ils sont très intéressés
    de travailler avec Wikidata
  • 11:26 - 11:30
    parce qu'ils veulent
    leurs données accessibles à tous
  • 11:30 - 11:34
    dans les endroits où les gens
    consultent et accèdent aux données.
  • 11:34 - 11:36
    Ce qui peut être intéressant pour eux
  • 11:36 - 11:39
    serait d'avoir un genre
    d'indicateurs de qualité
  • 11:39 - 11:41
    à la fois dans le wiki,
    ce qui est valable actuellement,
  • 11:41 - 11:43
    mais aussi dans les résultats SPARQL,
  • 11:43 - 11:46
    afin de savoir s'ils peuvent faire
    confiance aux données communautaires.
  • 11:46 - 11:48
    Ils veulent aussi savoir
  • 11:48 - 11:51
    quelles parties de leur propre ensemble
    de données sont utiles pour Wikidata
  • 11:51 - 11:56
    et aimeraient un outil qui peut les aider
    à évaluer ça automatiquement.
  • 11:56 - 11:59
    Ils ont aussi besoin
    d'une méthodologie ou outil
  • 11:59 - 12:04
    pour les aider à décider s'ils doivent
    importer ou connecter leurs données,
  • 12:04 - 12:05
    car dans certains cas,
  • 12:05 - 12:07
    ils ont aussi leurs propres ensembles
    de données ouverts couplés ;
  • 12:07 - 12:10
    ils ne savent donc pas s'ils doivent
    juste ingérer des données
  • 12:10 - 12:13
    ou continuer de créer des liens
    des ensembles de données vers Wikidata
  • 12:13 - 12:14
    et le contraire.
  • 12:15 - 12:20
    Et ils veulent aussi savoir où est
    référencé leur site web dans Wikidata.
  • 12:20 - 12:23
    Quand ils introduisent
    une telle demande dans le service,
  • 12:23 - 12:25
    ils sont souvent mis en attente,
  • 12:25 - 12:28
    nous devrions donc
    peut-être créer plus d'outils
  • 12:28 - 12:32
    pour les aider à répondre à ces questions.
  • 12:33 - 12:36
    Et de plus, (craquements)
  • 12:36 - 12:39
    nous, les chercheurs wiki,
  • 12:39 - 12:42
    manquons d'information
    dans les résumés d'édition.
  • 12:42 - 12:45
    Je me souviens que quand nous travaillions
  • 12:45 - 12:49
    à comprendre les différents
    comportements des éditeurs
  • 12:49 - 12:53
    avec outils ou bots,
    utilisateurs anonymes et que sais-je,
  • 12:53 - 12:56
    il nous manquait par exemple,
  • 12:56 - 13:01
    une manière standard de tracer
    les outils qui étaient utilisés.
  • 13:01 - 13:03
    Certains outils font déjà cela,
  • 13:03 - 13:05
    comme PetScan et plein d'autres.
  • 13:05 - 13:09
    Nous devrions peut-être
    plus discuter en communauté
  • 13:09 - 13:14
    comment enregistrer ceux-ci
    pour une origine peaufinée.
  • 13:14 - 13:15
    De plus,
  • 13:15 - 13:21
    nous devons penser à des dimensions
    de qualité de données plus concrètes
  • 13:21 - 13:25
    qui sont reliées aux données couplées,
    mais non à tout type de données.
  • 13:25 - 13:31
    Nous avons donc travaillé sur certaines
    mesures pour accéder au gain d'information
  • 13:31 - 13:34
    fournis par les liens, ce qui veut dire
  • 13:34 - 13:37
    que quand nous connectons Wikidata
    à d'autres ensembles de données,
  • 13:37 - 13:38
    nous devrions aussi envisager
  • 13:38 - 13:42
    le gain de classification des entités
  • 13:42 - 13:46
    dans la description, mais aussi
    dans les vocabulaires utilisés.
  • 13:46 - 13:51
    Pour vous donner un exemple,
  • 13:51 - 13:54
    dans le cas de Wikidata
  • 13:54 - 13:58
    ou du centre de données externe
    lié à Wikidata,
  • 13:58 - 14:00
    nous avons l'entité d'une personne
    appelée « Natasha Noy »,
  • 14:00 - 14:03
    nous avons l'affiliation
    et d'autres choses
  • 14:03 - 14:05
    et nous décidons de connecter
    à un endroit externe
  • 14:05 - 14:09
    où cette entité a aussi ce nom,
    mais la valeur reste la même.
  • 14:09 - 14:13
    Il serait alors mieux de connecter
    à quelque chose qui a un nom différent
  • 14:13 - 14:17
    qui est toujours valide car cette personne
    peut écrire le nom de deux manières
  • 14:17 - 14:20
    ainsi que d'autres informations
    non disponibles dans Wikidata
  • 14:20 - 14:22
    ou dans l'autre ensemble de données.
  • 14:22 - 14:25
    Mais ce qui est encore préférable,
  • 14:25 - 14:28
    c'est d'examiner
    l'ensemble de données cible
  • 14:28 - 14:31
    pour voir qu'il a aussi de nouvelles
    façons de classifier l'information.
  • 14:31 - 14:35
    Ce n'est donc pas juste une personne,
    mais dans l'autre ensemble de données,
  • 14:35 - 14:40
    ils parlent aussi en termes de femme
    et autre forme de classification.
  • 14:40 - 14:43
    Et si l'autre ensemble de données
    utilise différents vocabulaires,
  • 14:43 - 14:47
    cela aide dans la récupération
    des données.
  • 14:47 - 14:51
    Je voudrais encore ajouter
  • 14:51 - 14:56
    que nous sommes capables de mieux
    mettre en valeur les requêtes fédérées
  • 14:56 - 15:00
    car quand nous consultons le journal
    de requêtes fourni par Malyshev et al.,
  • 15:01 - 15:04
    nous constations que
    parmi les requêtes organiques,
  • 15:04 - 15:07
    il y a très peu de requêtes fédérées.
  • 15:07 - 15:13
    Et en fait, un des avantages clés
    des données couplées est la fédération ;
  • 15:13 - 15:17
    il se pourrait donc que la communauté
    et les gens qui utilisent Wikidata
  • 15:17 - 15:19
    devraient avoir plus
    d'exemples à ce sujet.
  • 15:19 - 15:23
    Et si on lit la liste
    des points finaux utilisés,
  • 15:23 - 15:25
    celle-ci n'est pas complète,
    nous en avons bien d'autres.
  • 15:25 - 15:30
    Bien sûr, ces données ont été analysées
    à partir de demandes jusqu'en mars 2018,
  • 15:30 - 15:35
    mais nous devrions revoir la liste
    des points finaux acquis
  • 15:35 - 15:37
    pour décider si
    nous les utilisons vraiment.
  • 15:38 - 15:40
    J'ai deux questions pour l'audience
  • 15:40 - 15:43
    que nous pouvons peut-être
    utiliser pour la discussion ultérieure :
  • 15:43 - 15:46
    « À votre avis, quels sont les problèmes
    de qualité de données à adresser
  • 15:46 - 15:47
    dépendant de vos besoins ? »
  • 15:47 - 15:50
    et « Où avez-vous besoin
    de plus d'automation
  • 15:50 - 15:53
    pour vous aider dans les éditions
    et les patrouilles ? »
  • 15:54 - 15:55
    Ce sera tout, merci beaucoup.
  • 15:56 - 15:58
    (applaudissements)
  • 15:59 - 16:01
    MERCI !
  • 16:06 - 16:09
    (Jose Emilio Labra)
    Je vais maintenant vous parler
  • 16:09 - 16:15
    des outils de Shape Expressions
    que nous sommes en train de développer.
  • 16:16 - 16:19
    Je suis Jose Emilio Labra,
  • 16:19 - 16:23
    mais tous ces outils ont été
    construits par des personnes différentes
  • 16:24 - 16:28
    principalement connectées à W3C ShEx,
    Groupe de Communauté Shape Expressions.
  • 16:28 - 16:30
    Groupe de Communauté ShEx.
  • 16:30 - 16:36
    Le premier outil dont j'aimerais parler
    est un outil général : le RDFShape ;
  • 16:36 - 16:41
    car Shape Expressions convient
    non pas seulement pour Wikidata,
  • 16:41 - 16:44
    mais constitue un langage
    qui valide RDF en général.
  • 16:44 - 16:48
    Je suis l'acteur principal
    du développement de cet outil
  • 16:48 - 16:51
    qui valide RDF en général.
  • 16:51 - 16:55
    Si vous voulez connaître ou valider RDF
  • 16:55 - 16:59
    ou les points d'extrémité SPARQL
    pas seulement dans Wikidata,
  • 16:59 - 17:01
    je vous conseille d'utiliser cet outil.
  • 17:01 - 17:03
    Il est également bon pour l'enseignement.
  • 17:03 - 17:06
    J'enseigne à l'université
  • 17:06 - 17:09
    et je l'emploie dans mon cours
    de Web sémantique pour le RDF.
  • 17:09 - 17:12
    Je crois donc que c'est un bon outil
    si vous voulez apprendre le RDF.
  • 17:13 - 17:18
    Voici en exemple, une visualisation
    d'un graphe RDF avec l'outil.
  • 17:19 - 17:23
    Mais avant de venir ici,
    au cours du mois dernier,
  • 17:23 - 17:28
    j'ai commencé une fourchette de RDFShape
    juste pour Wikidata car je croyais...
  • 17:28 - 17:33
    Je l'ai présenté hier à Wikidata,
    elle s'appelle « WikiShape ».
  • 17:33 - 17:34
    Ce que j'ai fait...
  • 17:34 - 17:40
    j'ai retiré tout ce qui
    ne concernait pas Wikidata
  • 17:40 - 17:45
    et implémenté d'autres choses codées
    en dur comme l'extrémité Wikidata SPARQL,
  • 17:45 - 17:49
    mais on m'a demandé maintenant
    si je pouvais faire de même pour Wikibase.
  • 17:49 - 17:52
    Ce qui est très facile à faire.
  • 17:53 - 17:56
    L'outil WikiShape est
    relativement nouveau.
  • 17:57 - 18:00
    La plupart des fonctionnalités
    sont opératives,
  • 18:00 - 18:02
    mais il est possible
    que certaines ne fonctionnent pas
  • 18:02 - 18:06
    et si vous voulez les améliorer,
    s'il vous plaît, dites-le moi.
  • 18:06 - 18:13
    C'est donc [des captures Science Script],
    mais on peut essayer.
  • 18:15 - 18:17
    Voyons si cela marche.
  • 18:17 - 18:20
    Je dois d'abord sortir de...
  • 18:22 - 18:23
    Ici.
  • 18:24 - 18:28
    D'accord, voici l'outil.
  • 18:28 - 18:31
    Ce que vous pouvez faire
    avec l'outil par exemple,
  • 18:31 - 18:35
    c'est vérifier des schémas d'entité.
  • 18:35 - 18:39
    Vous savez qu'il y a un nouvel
    espace de nommage : « E que sais-je »,
  • 18:39 - 18:45
    si vous commencez par écrire « humain »,
  • 18:45 - 18:49
    son auto-complétion
    vous permet de vérifier,
  • 18:49 - 18:52
    par exemple,
    le Shape Expressions d'un humain
  • 18:53 - 18:56
    et voici ici le Shape Expressions.
  • 18:56 - 19:00
    Et vous remarquez que l'éditeur
    possède une coloration syntaxique ;
  • 19:00 - 19:05
    mais l'écran est peut-être trop petit,
  • 19:06 - 19:08
    je vais essayer de l'agrandir.
  • 19:09 - 19:11
    Vous voyez peut-être mieux maintenant.
  • 19:11 - 19:14
    Voici la surligne syntaxique de l'éditeur,
  • 19:14 - 19:18
    celui-ci provient du même code source
  • 19:18 - 19:20
    que le service de requête de Wikidata.
  • 19:20 - 19:24
    Si vous passez la souris ici,
  • 19:24 - 19:28
    vous pouvez voir les étiquettes
    des différentes propriétés.
  • 19:28 - 19:31
    Je pense que c'est très utile car
  • 19:33 - 19:39
    les schémas d'entité présents
    dans Wikidata sont juste du texte simple,
  • 19:39 - 19:42
    cet éditeur est donc meilleur
    car il comprend l'auto-complétion
  • 19:42 - 19:44
    et aussi...
  • 19:44 - 19:48
    par exemple, si vous voulez
    ajouter une contrainte,
  • 19:48 - 19:52
    vous dites : « wdt: »,
  • 19:52 - 19:57
    écrivez juste « auteur »,
    vous cliquez sur Ctrl+Space
  • 19:57 - 19:59
    et différentes suggestions apparaissent.
  • 19:59 - 20:02
    Cette fonction est similaire
    au service de requête Wikidata,
  • 20:02 - 20:06
    mais adaptée pour Shape Expressions.
  • 20:06 - 20:12
    Il me semble que créer
    des Shape Expressions
  • 20:12 - 20:16
    n'est pas plus difficile que d'écrire
    des requêtes SPARQL.
  • 20:16 - 20:21
    Certaines personnes pensent
    que c'est sur un même niveau,
  • 20:22 - 20:26
    mais je pense que c'est plus facile
  • 20:26 - 20:31
    car telle était notre intention
    quand nous avons conçu Shape Expressions.
  • 20:31 - 20:34
    Cet éditeur est l'une des premières choses
  • 20:34 - 20:37
    disponibles dans Shape Expressions.
  • 20:37 - 20:41
    Il existe aussi
    la possibilité de visualiser.
  • 20:41 - 20:45
    Dans Shape Expressions,
    prenons par exemple,
  • 20:45 - 20:49
    « travail écrit » qui est
    une belle Shape Expression
  • 20:49 - 20:53
    car elle exprime une relation
    entre différentes choses.
  • 20:55 - 20:58
    Et ceci est la visualisation
    UML de travail écrit.
  • 20:58 - 21:02
    Dans un UML, il est facile
    de voir les différentes propriétés.
  • 21:03 - 21:06
    En faisant l'essai
    avec plusieurs personnes,
  • 21:06 - 21:09
    j'ai réalisé quelles trouvaient
    des erreurs dans leur Shape Expressions
  • 21:09 - 21:13
    car les propriétés manquantes
    sont faciles à détecter.
  • 21:14 - 21:16
    L'autre possibilité ici
  • 21:16 - 21:20
    est la validation ; je crois que la voilà.
  • 21:20 - 21:25
    Je crois qu'elle était dans une étiquette,
    je l'ai peut-être fermée.
  • 21:26 - 21:31
    Mais vous pouvez par exemple,
    cliquer ici sur Validate entities.
  • 21:32 - 21:34
    Par exemple,
  • 21:35 - 21:42
    « q42 » avec « e42 » qui est auteur.
  • 21:43 - 21:46
    Avec « humain », je pense
    qu'on peut le faire avec ça.
  • 21:49 - 21:50
    Et puis,...
  • 21:51 - 21:56
    Cela prend un peu de temps
    car les requêtes SPARQL s'effectuent
  • 21:56 - 21:59
    et pour le moment,
    il y a défaut de réseau, mais...
  • 22:00 - 22:02
    Vous pouvez l'essayer.
  • 22:03 - 22:07
    Continuons la présentation
    avec d'autres outils.
  • 22:07 - 22:12
    Dites-moi si vous voulez l'essayer
    et si vous voulez un retour.
  • 22:13 - 22:16
    Poursuivons la présentation.
  • 22:19 - 22:20
    Voici donc WikiShape.
  • 22:24 - 22:27
    Je l'ai déjà dit,
  • 22:28 - 22:34
    l'Éditeur Shape Expressions
    est un projet indépendant dans GitHub.
  • 22:35 - 22:37
    Vous pouvez l'utiliser
    dans votre propre projet.
  • 22:37 - 22:41
    Si vous voulez utiliser
    un outil Shape Expressions,
  • 22:41 - 22:46
    vous pouvez l'intégrer
    à n'importe quel autre projet,
  • 22:46 - 22:48
    il est dans GitHub, utilisez-le.
  • 22:49 - 22:52
    Le même auteur qui est un de mes élèves
  • 22:53 - 22:56
    a aussi créé un éditeur
    pour Shape Expressions
  • 22:56 - 22:58
    inspiré également
    du service de requête Wikidata
  • 22:58 - 23:01
    où vous trouvez dans une colonne,
  • 23:01 - 23:05
    cet éditeur plus visuel de requêtes SPARQL
  • 23:05 - 23:07
    où vous pouvez introduire
    ce genre de choses.
  • 23:07 - 23:09
    Ceci est une capture d'écran.
  • 23:09 - 23:13
    Vous pouvez voir
    la Shape Expressions dans le texte,
  • 23:13 - 23:18
    mais celle-ci est basée sur formulaire,
    ce qui prendrait un peu plus de temps
  • 23:19 - 23:23
    et vous pouvez placer les différentes
    rangées sur différents champs.
  • 23:23 - 23:26
    Ensuite, il y a ShExEr
  • 23:27 - 23:32
    qui a été conçu par un doctorant
    à l'université de Oviedo ;
  • 23:32 - 23:34
    il est présent et peut
    donc nous présenter ShExEr.
  • 23:38 - 23:40
    (Danny) Bonjour, je suis Danny Fernández,
  • 23:40 - 23:44
    je suis doctorant à l’université d'Oviedo
    et je travaille avec Labra.
  • 23:45 - 23:48
    Vu que nous n'avons pas
    beaucoup de temps, je serai bref.
  • 23:48 - 23:53
    Je ne vais pas faire de démonstration,
    mais juste imprimer des copies d'écran.
  • 23:53 - 23:58
    La façon usuelle de travailler avec
    Shape Expressions ou tout autre langage
  • 23:58 - 24:00
    est d'avoir un expert de domaine
  • 24:00 - 24:02
    qui définit une priorité sur ce
    à quoi devrait ressembler un graphe,
  • 24:02 - 24:04
    de définir des structures
  • 24:04 - 24:07
    et d'utiliser ces structures
    pour valider les données réelles.
  • 24:08 - 24:12
    Cet outil, tout comme
    ceux présentés par Labra
  • 24:12 - 24:14
    est un outil polyvalent pour
    n'importe quelle source RDF
  • 24:14 - 24:17
    et est conçu pour travailler à l'envers.
  • 24:17 - 24:19
    Vous avez déjà des données,
  • 24:19 - 24:23
    vous sélectionnez les noeuds
    dont vous voulez avoir la forme
  • 24:23 - 24:27
    et vous extrayez ou inférez
    cette forme automatiquement.
  • 24:27 - 24:30
    Donc, même si cet outil est polyvalent,
  • 24:30 - 24:34
    ce qu'on a fait pour WikidataCon
    est ce joli bouton
  • 24:35 - 24:37
    qui une fois pressé,
  • 24:37 - 24:42
    fait apparaître de nombreux
    paramètres de configuration
  • 24:42 - 24:46
    et fait une configuration qui va
    à l'encontre de l'extrémité Wikidata
  • 24:46 - 24:48
    [qui se termine], désolé.
  • 24:49 - 24:53
    Une fois que vous pressez le bouton,
    c'est ce que vous obtenez.
  • 24:53 - 24:55
    Après avoir sélectionné
    quel genre de notes,
  • 24:55 - 24:59
    quel genre d'instances de notre classe,
    ou quoi que vous recherchiez,
  • 24:59 - 25:01
    vous obtenez un schéma automatique.
  • 25:02 - 25:07
    Les contraintes sont classées d'après
    la quantité de modes qui s'y conforment
  • 25:07 - 25:10
    et vous pouvez filtrer ceux
    qui sont moins communs, etc.
  • 25:10 - 25:12
    Il y a un poster en bas à ce sujet
  • 25:12 - 25:15
    et je serai en en bas et en haut
  • 25:15 - 25:16
    et un peu partout toute la journée.
  • 25:16 - 25:19
    Donc, si vous êtes
    intéressés par cet outil,
  • 25:19 - 25:21
    venez me trouver.
  • 25:21 - 25:25
    Je repasse maintenant
    le micro à Labra, merci.
  • 25:25 - 25:29
    (applaudissements)
  • 25:30 - 25:33
    (Jose) Poursuivons
    avec les autres outils.
  • 25:33 - 25:35
    Le suivant est le ShapeDesigner.
  • 25:35 - 25:37
    Andra, veux-tu en parler maintenant
  • 25:37 - 25:39
    ou plus tard ou dans l'atelier ?
  • 25:39 - 25:41
    Il y a un atelier...
  • 25:41 - 25:44
    Cet après-midi, il y a un atelier
    spécifiquement pour Shape Expressions.
  • 25:45 - 25:48
    L'idée était de faire
    plus de travail pratique,
  • 25:48 - 25:52
    donc si ça vous tente,
    vous pouvez le faire là.
  • 25:53 - 25:56
    L'outil est ShEx et
    comme Eric est présent,
  • 25:56 - 25:57
    il peut nous en parler.
  • 25:58 - 26:01
    (Eric) Je voulais juste dire rapidement
  • 26:01 - 26:06
    que vous avez probablement
    déjà vu l'interface ShEx
  • 26:06 - 26:08
    qui est adaptée pour Wikidata.
  • 26:08 - 26:13
    Elle a vraiment été dépouillée
    et conçue spécifiquement pour Wikidata
  • 26:13 - 26:18
    car celle qui est générique a plus
    de fonctions, mais il faut mentionner
  • 26:18 - 26:20
    le fait que l'une d'entre elles
    est particulièrement utile
  • 26:20 - 26:23
    pour déboguer les schémas Wikidata.
  • 26:23 - 26:29
    Si vous sélectionnez le mode Slurp,
  • 26:29 - 26:31
    il va dire que lorsque je valide,
  • 26:31 - 26:35
    je veux rabattre tous les triples,
    ce qui veut dire
  • 26:35 - 26:36
    que si j'ai un paquet d'erreurs,
  • 26:36 - 26:40
    je peux les examiner et dire :
  • 26:40 - 26:42
    « OK, quels sont
    les triples présents ici »,
  • 26:42 - 26:44
    désolé, les triples sont là en bas,
  • 26:44 - 26:46
    ceci est simplement un registre
    de ce qui s'est passé.
  • 26:46 - 26:49
    Vous pouvez ensuite
    jouer avec en temps réel
  • 26:49 - 26:51
    comme vous le faites
    avec quelque chose qui change.
  • 26:51 - 26:54
    C'est donc une version plus rapide
    pour faire tout cela.
  • 26:55 - 26:57
    Ceci est un formulaire ShExC
  • 26:57 - 26:59
    que Joachim a suggéré
  • 27:00 - 27:05
    qui pourrait être utile pour
    remplir des documents Wikidata
  • 27:05 - 27:07
    basé sur une Shape Expression
    pour ce document.
  • 27:08 - 27:12
    Ceci n'est pas conçu pour Wikidata,
  • 27:12 - 27:14
    mais c'est simplement pour dire
    que vous pouvez avoir un schéma
  • 27:14 - 27:15
    et des annotations
  • 27:15 - 27:18
    précisant la manière
    dont le schéma est rendu ;
  • 27:18 - 27:19
    le formulaire est ensuite construit
  • 27:19 - 27:22
    et si vous avez des données,
    elles peuvent même peupler le formulaire.
  • 27:25 - 27:26
    PyShEx [inaudible]
  • 27:28 - 27:31
    (Jose) Je crois que c'est le dernier.
  • 27:32 - 27:34
    En effet, PyShEx est le dernier.
  • 27:35 - 27:38
    PyShEx est une implémentation
    Python de Shape Expressions.
  • 27:39 - 27:43
    Si vous voulez ce genre de choses, vous
    pouvez aussi jouer avec Jupyter Notebooks.
  • 27:43 - 27:44
    OK, le sujet est bouclé.
  • 27:44 - 27:47
    (applaudissements)
  • 27:53 - 27:57
    (Andra) Je vais parler d'un projet
    spécifique dans lequel je suis impliqué
  • 27:57 - 27:59
    appelé « Gene Wiki »
  • 27:59 - 28:05
    où nous avons aussi affaire
    aux problèmes de qualité.
  • 28:05 - 28:07
    Mais avant de parler de qualité,
  • 28:07 - 28:09
    je vais rapidement
    vous présenter Gene Wiki.
  • 28:10 - 28:15
    Nous venons juste de publier
    un document récemment rédigé
  • 28:15 - 28:18
    qui explique les détails de ce projet.
  • 28:20 - 28:24
    Je vois les gens prendre des photos,
    mais ce que fait Gene Wiki en gros,
  • 28:24 - 28:28
    c'est essayer d'obtenir des données
    biomédicales publiques pour Wikidata ;
  • 28:28 - 28:32
    et nous suivons un modèle spécifique
    pour inclure ces données dans Wikidata.
  • 28:33 - 28:37
    Donc, quand nous avons un nouveau
    répertoire ou ensemble de données
  • 28:37 - 28:39
    qui qualifie pour
    être inclus dans Wikidata,
  • 28:39 - 28:41
    la première étape est
    l'engagement communautaire.
  • 28:41 - 28:44
    Il n'est pas nécessaire que ce soit
    directement vers une communauté Wikidata,
  • 28:44 - 28:46
    mais une communauté de recherche locale.
  • 28:46 - 28:50
    Nous nous rencontrons en personne
    ou en ligne ou sur une autre plateforme
  • 28:50 - 28:53
    et essayons de trouver
    un modèle de données
  • 28:53 - 28:56
    qui fait le pont entre leurs données
    et le modèle Wikidata.
  • 28:56 - 29:00
    J'ai ici une photo d'un atelier
    de l'année dernière
  • 29:00 - 29:03
    qui s'est concentré sur
    un ensemble de données spécifique,
  • 29:03 - 29:05
    et vous pouvez voir les discussions,
  • 29:05 - 29:10
    pour l'aligner avec schema.org
    et d'autres ontologies existantes.
  • 29:10 - 29:15
    À la fin de la première étape,
    nous avons un dessin de tableau blanc
  • 29:15 - 29:17
    du schéma que nous voulons
    implémenter dans Wikidata.
  • 29:17 - 29:20
    Ce que vous voyez ici est simple,
  • 29:20 - 29:22
    il se trouve là à l'arrière
  • 29:22 - 29:25
    pour que nous puissions faire des schémas
    dans ce panneau même aujourd'hui.
  • 29:27 - 29:28
    Une fois que ce schéma est en place,
  • 29:28 - 29:31
    il faut ensuite essayer de rendre
    cette machine schéma lisible
  • 29:32 - 29:37
    car il faut avoir des modèles actionnables
    pour importer les données
  • 29:37 - 29:40
    de toute base de données biomédicale
    dans Wikidata.
  • 29:40 - 29:45
    C'est ici que nous appliquons
    Shape Expressions
  • 29:46 - 29:53
    parce que celle-ci nous permet de tester
  • 29:53 - 29:57
    si l'ensemble de données...
    non, d'abord de voir
  • 29:57 - 30:02
    si les données déjà existantes dans
    Wikidata suivent le même modèle
  • 30:02 - 30:05
    qui a été atteint dans
    le processus précédent.
  • 30:05 - 30:07
    Avec le Shape Expression,
    nous pouvons donc vérifier
  • 30:07 - 30:11
    si certaines données dans Wikidata
    doivent être nettoyées
  • 30:11 - 30:15
    ou si nous devons adapter notre modèle
    à celui de Wikidata ou vice versa.
  • 30:16 - 30:20
    Une fois que tout est décidé et
    que nous commençons d'écrire des bots,
  • 30:21 - 30:24
    ceux-ci sèmeront les informations
  • 30:24 - 30:27
    qui se trouvent dans
    les sources primaires de Wikidata.
  • 30:28 - 30:29
    Quand ces bots sont prêts,
  • 30:29 - 30:32
    nous les écrivons
  • 30:32 - 30:36
    à l'aide d'une librairie Python
    appelée « Wikidata Integrator »
  • 30:36 - 30:38
    qui est née de notre projet.
  • 30:39 - 30:42
    Une fois que nous avons nos bots,
    nous utilisons une plateforme
  • 30:42 - 30:45
    appelée « Jenkins »
    pour une intégration continuelle.
  • 30:45 - 30:46
    Avec Jenkins,
  • 30:46 - 30:51
    nous mettons sans arrêt à jour
    les sources primaires dans Wikidata.
  • 30:52 - 30:56
    Voici un diagramme pour
    le journal mentionné précédemment.
  • 30:56 - 30:58
    Ceci est notre environnement actuel.
  • 30:58 - 31:02
    Chaque boite orange est
    une ressource primaire sur les drogues,
  • 31:02 - 31:08
    protéines, gènes, maladies,
    composants chimiques avec interaction
  • 31:08 - 31:11
    et bien que ce modèle
    soit trop petit pour être lisible,
  • 31:11 - 31:17
    voici la base de données, les sources
    que nous traitons dans Wikidata
  • 31:17 - 31:21
    et connectons aux sources primaires.
  • 31:21 - 31:22
    Voilà le flux de travail.
  • 31:23 - 31:25
    Un de nos partenaires
    est L'ontologie des Maladies
  • 31:25 - 31:28
    qui est une ontologie CC0 ;
  • 31:28 - 31:32
    celle-ci a son propre cycle de curation.
  • 31:33 - 31:36
    L'Ontologie des Maladies est
    continuellement mise à jour
  • 31:36 - 31:40
    pour refléter l’espace maladie
    ou l'interprétation des maladies.
  • 31:40 - 31:44
    Il existe le cycle de curation Wikidata
    également sur les maladies
  • 31:44 - 31:50
    où la communauté Wikidata surveille
    en permanence ce qui s'y passe.
  • 31:50 - 31:52
    Nous avons deux rôles
  • 31:52 - 31:55
    appelés familièrement
    « gardien d'accès »
  • 31:56 - 32:00
    qu'un collègue et moi-même
    assumions il y a cinq ans
  • 32:00 - 32:03
    où nous nous contentons de surveiller
    Wikipedia et Wikidata sur nos ordinateurs
  • 32:03 - 32:09
    pour voir si un problème était
    signalé à la communauté primaire,
  • 32:09 - 32:12
    dans quel cas ils examinaient
    l'implémentation et décidaient :
  • 32:12 - 32:14
    « OK, pouvons-nous faire confiance
    à cette entrée Wikidata ? »
  • 32:15 - 32:19
    Si oui, elle intègre le cycle
  • 32:19 - 32:23
    et la prochaine itération fait
    alors partie de l'Oncologie des Maladies
  • 32:23 - 32:25
    et alimente Wikidata.
  • 32:27 - 32:31
    Nous faisons de même pour WikiPathways.
  • 32:31 - 32:37
    WikiPathways est inspiré du chemin
    MediaWiki et du chemin répertoire.
  • 32:37 - 32:41
    De même, il y a déjà différents
    chemins de ressources sur Wikidata.
  • 32:41 - 32:45
    Il peut y avoir des conflits
    entre ces chemins de ressources
  • 32:45 - 32:47
    et ceux-ci sont signalés
  • 32:47 - 32:50
    à cette communauté
    par les gardiens d'accès,
  • 32:50 - 32:54
    ce qui maintient les cycles
    de conservation individuelle.
  • 32:54 - 32:57
    Mais si vous vous souvenez
    du cycle précédent,
  • 32:57 - 33:03
    ici, je ne mentionne que
    deux cycles, deux ressources,
  • 33:04 - 33:06
    nous devons faire cela pour
    chaque ressource que nous avons
  • 33:06 - 33:08
    et nous devons gérer ce qui se passe
  • 33:08 - 33:09
    car quand je parle de « curation »,
  • 33:09 - 33:12
    je veux vraiment dire : consulter
    les premières pages de Wikipedia
  • 33:12 - 33:15
    pour essayer de le faire.
  • 33:15 - 33:19
    Ce qui n'est pas faisable
    pour nos deux gardiens d'accès.
  • 33:20 - 33:23
    Lors d'une conférence en 2016
  • 33:23 - 33:27
    où Eric a présenté Shape Expressions,
  • 33:27 - 33:29
    j'ai pris le train en marche
    en disant : « OK,
  • 33:29 - 33:34
    Shape Expressions peut nous aider
    à détecter les différences dans Wkikipedia
  • 33:34 - 33:41
    ce qui permettra aux gardiens d'accès
    de faire un rapport plus efficace. »
  • 33:42 - 33:46
    J'ai été ravi par l'entité
    schéma cette année
  • 33:46 - 33:51
    parce qu'on peut maintenant
    stocker ces systèmes sur Wikidata
  • 33:51 - 33:53
    en elle-même, alors
    qu'auparavant, c'était sur GitHub.
  • 33:54 - 33:57
    Et comme ceci s'aligne
    sur l'interface Wikidata,
  • 33:57 - 33:59
    nous avons donc
    des discussions de document,
  • 33:59 - 34:01
    mais aussi des révisions.
  • 34:01 - 34:06
    On peut donc tirer parti
    des premières pages et des révisions
  • 34:06 - 34:12
    pour discuter du contenu de Wikidata
  • 34:12 - 34:14
    et celui des ressources primaires.
  • 34:15 - 34:20
    Ce que Eric vient de présenter
    constitue déjà un bon bénéfice.
  • 34:20 - 34:24
    Ici, nous avons fait une Shape Expression
    pour le gène humain
  • 34:24 - 34:30
    que nous avons soumise à un simple ShEx
    et comme vous pouvez le voir,
  • 34:30 - 34:32
    nous avons déjà...
  • 34:32 - 34:35
    Un problème à surveiller
  • 34:35 - 34:37
    est quand un item
    ne correspond pas à ce schéma,
  • 34:37 - 34:43
    vous pouvez créer déjà une sorte de
    rapports de curation d'entités de schéma
  • 34:43 - 34:46
    et les envoyer aux différents
    rapports de curation.
  • 34:48 - 34:53
    Mais le ShEx.js est
    une interface construite,
  • 34:53 - 34:56
    voyez ici, je n'en fais que dix,
  • 34:56 - 35:00
    mais nous en avons des dizaines
    de milliers, ce qui est démesuré.
  • 35:00 - 35:05
    À présent, le Wikidata Integrator
    supporte aussi ShEx,
  • 35:05 - 35:07
    nous pouvons donc boucler
    les circuits d'items
  • 35:07 - 35:11
    en disant : « Oui-Non, Oui-Non,
    Vrai-Faux, Vrai-Faux ».
  • 35:11 - 35:13
    Cela augmente à nouveau
  • 35:13 - 35:17
    l'efficacité de la gestion des rapports.
  • 35:17 - 35:23
    Mais cela s'appuie
    sur le Wikidata Query Service
  • 35:23 - 35:25
    et donc récemment,
    nous nous voyons limités
  • 35:25 - 35:27
    à cause de ce manque d'ajustement.
  • 35:27 - 35:31
    Donc, la gestion des modèles sur Wikidata
    est une procédure en cours.
  • 35:32 - 35:37
    ShEx est non seulement intimidant,
  • 35:37 - 35:40
    mais est d'une trop grande échelle
    pour pouvoir le gérer.
  • 35:41 - 35:46
    J'ai donc commencé à travailler
    avec un outil appelé « yED »
  • 35:46 - 35:48
    qui est ma première preuve
    de concept ou exercice
  • 35:48 - 35:53
    en dessinant ces Shape Expressions
  • 35:53 - 35:58
    et en régénérant ce schéma
  • 35:58 - 36:01
    en ce format adjacent
    des Shape Expressions
  • 36:01 - 36:05
    qui s'ouvrirait déjà à l'audience
  • 36:05 - 36:07
    qui est intimidée par
    les langages Shape Expressions.
  • 36:08 - 36:12
    Mais il y a en fait un problème
    avec des descriptions visuelles
  • 36:12 - 36:18
    car ce schéma a aussi été dessiné
    dans yED par quelqu'un.
  • 36:18 - 36:24
    Il y en a un autre qui est splendide.
  • 36:24 - 36:29
    J'adorerais l'avoir sur mon mur,
    mais il n'est pas encore interopérable.
  • 36:30 - 36:32
    Je voudrais donc clore mon discours
  • 36:32 - 36:36
    avec cette diapositive que
    j'ai « empruntée » pour la première fois.
  • 36:36 - 36:38
    Nous sommes honorés
    de l'avoir dans l'audience
  • 36:38 - 36:39
    et j'aime beaucoup ceci :
  • 36:39 - 36:42
    « Les gens pensent que RDF
    est trop compliqué à utiliser.
  • 36:42 - 36:44
    La vérité est pire, c'est tellement simple
  • 36:45 - 36:48
    parce que vous devez travailler
    avec des problèmes de données réels
  • 36:48 - 36:50
    qui sont horriblement compliqués.
  • 36:50 - 36:51
    Bien que vous pouvez éviter RDF,
  • 36:51 - 36:56
    il est plus dur d'éviter des données et
    des problèmes d'ordinateur compliqués. »
  • 36:56 - 37:00
    On parle ici de RDF, mais je pense
    que cela s'applique également au modelage.
  • 37:00 - 37:03
    Ce que je veux dire :
  • 37:03 - 37:06
    « Comment lancer la modélisation ? »
  • 37:06 - 37:11
    En discutant de ShEx ou
    des modèles visuels ou autre...
  • 37:11 - 37:13
    Comment continuer ?
  • 37:13 - 37:15
    Merci de m'avoir écouté.
  • 37:15 - 37:18
    (applaudissements)
  • 37:20 - 37:21
    (Lydia) Merci beaucoup.
  • 37:22 - 37:24
    Pouvez-vous venir à l'avant
  • 37:24 - 37:28
    comme cela, nous pouvons
    recevoir les questions de l'audience.
  • 37:29 - 37:30
    Il y a des questions ?
  • 37:32 - 37:33
    Oui.
  • 37:34 - 37:37
    Et pour la caméra, nous devrions...
  • 37:39 - 37:41
    (Lydia rit) Oui.
  • 37:43 - 37:46
    (Personne du public)
    Une question pour Cristina.
  • 37:47 - 37:52
    Vous avez mentionné le terme
    « gain d'information »
  • 37:52 - 37:54
    dans le cadre de connexion
    avec d'autres systèmes.
  • 37:54 - 37:55
    Il y a une mesure théorique d'information
  • 37:55 - 37:58
    qui utilise statistique et probabilité
    appelée « gain d'information ».
  • 37:58 - 38:00
    Avez-vous la même...
  • 38:00 - 38:02
    Parliez-vous de cette mesure,
  • 38:02 - 38:04
    du gain d'information
    de la théorie de probabilité
  • 38:04 - 38:05
    de la théorie d'information
  • 38:05 - 38:09
    ou simplement d'un concept de mesure de
    gain d'information d'une certaine façon ?
  • 38:09 - 38:13
    Non, nous avons en fait défini
    et implémenté des mesures
  • 38:14 - 38:20
    qui utilisent l'entropie Shannon,
    c'est à prendre dans ce sens.
  • 38:20 - 38:23
    Je ne voulais pas rentrer dans
    les détails des formules concrètes...
  • 38:23 - 38:26
    (Personne du public) Non bien sûr,
    c'est pour ça que j'ai posé la question.
  • 38:26 - 38:27
    Merci.
  • 38:33 - 38:35
    (Personne du public) C'est plus
    un commentaire qu'une question.
  • 38:35 - 38:36
    (Lydia) Allez-y.
  • 38:36 - 38:40
    (Personne du public) Il y a eu beaucoup
    d'attention au niveau de l'item
  • 38:40 - 38:43
    concernant la qualité et la complétion ;
  • 38:43 - 38:47
    ce qui me préoccupe est que nous ne
    faisons pas de même pour les hiérarchies
  • 38:47 - 38:51
    et je crois que souvent,
    notre hiérarchie n'est pas bonne.
  • 38:51 - 38:53
    Nous prévoyons que
    cela va être un réel problème
  • 38:53 - 38:56
    avec la recherche des communs et autre.
  • 38:57 - 39:01
    Ce que nous pouvons faire
    est importer de l'externe.
  • 39:01 - 39:05
    La façon dont les thésaurus externes
    structurent leurs hiérarchies
  • 39:05 - 39:10
    en utilisant le qualificateur
    de concept plus large P4900.
  • 39:11 - 39:16
    Mais ce qui serait plus utile
    serait l'emploi de meilleurs outils
  • 39:16 - 39:21
    afin d'importer une hiérarchie
    de thésaurus externe.
  • 39:21 - 39:24
    Incorporons ça dans nos items Wikidata.
  • 39:24 - 39:28
    Une fois que ces qualificateurs
    P4900 sont en place,
  • 39:28 - 39:31
    vous pouvez faire de
    la bonne requête avec SPARQL
  • 39:32 - 39:38
    pour voir si notre hiérarchie
    diverge de cette hiérarchie externe.
  • 39:38 - 39:41
    For exemple, vous savez peut-être
    que [Paula Morma], utilisatrice PKM
  • 39:41 - 39:44
    travaille beaucoup dans la mode.
  • 39:44 - 39:51
    Nous utilisons cela pour extraire la
    hiérarchie du Europeana Fashion Thesaurus
  • 39:51 - 39:54
    et celle du thésaurus de mode Getty AAT
  • 39:54 - 39:58
    et nous voyons alors où sont
    les espaces dans nos items haut niveau,
  • 39:58 - 40:01
    ce qui représente pour nous
    un vrai problème car souvent,
  • 40:01 - 40:04
    ce sont des choses qui n'existent que
    dans les pages de désambiguïsation,
  • 40:04 - 40:09
    ce qui fait que de nombreux articles de
    haut niveau manquent dans nos hiérarchies,
  • 40:09 - 40:14
    c'est un problème que nous devons adresser
    en termes de qualité et de complétion,
  • 40:14 - 40:16
    mais ce qui aiderait vraiment,
  • 40:17 - 40:21
    ce sont de meilleurs outils que
    la jungle de scripts que j'ai écrits...
  • 40:21 - 40:26
    Si quelqu'un pouvait entrer cela
    dans un notebook PAWS dans Python,
  • 40:27 - 40:32
    afin de prendre la hiérarchie
    d'un thésaurus externe,
  • 40:32 - 40:35
    ce qui pourrait être disponible
    en tant que données couplées ou pas,
  • 40:35 - 40:41
    et ensuite, de les placer dans les valeurs
    P4900 en relevés rapides.
  • 40:41 - 40:42
    Et après,
  • 40:42 - 40:46
    quand notre représentation se complète,
    mettre ces P4900 à jour,
  • 40:46 - 40:50
    parce qu'au fur et à mesure que
    nos représentations deviennent obsolètes,
  • 40:50 - 40:52
    deviennent plus denses,
  • 40:52 - 40:55
    les valeurs de ces qualificateurs
    doivent changer
  • 40:56 - 41:00
    pour représenter le fait qu'on ait plus
    de leur hiérarchie dans notre système.
  • 41:00 - 41:04
    Si quelqu'un savait faire cela,
    ce serait très utile.
  • 41:04 - 41:07
    Nous devons aussi
    envisager d'autres approches
  • 41:07 - 41:11
    pour améliorer la qualité et
    la complétion au niveau hiérarchique
  • 41:11 - 41:12
    et non simplement au niveau item.
  • 41:13 - 41:15
    (Andra) Je peux ajouter quelque chose ?
  • 41:16 - 41:20
    Oui, on fait déjà cela
  • 41:20 - 41:24
    et je recommande de regarder
    la Shape Expression faite par Finn
  • 41:24 - 41:27
    avec les données lexicales
    où il crée des Shape Expressions
  • 41:27 - 41:30
    et s'appuie sur les expressions d'auteur
  • 41:30 - 41:33
    pour obtenir un concept de
    Shape Expressions liées dans Wikidata
  • 41:33 - 41:34
    et spécifiquement, si je comprends bien,
  • 41:34 - 41:37
    le cas d'utilisation est exactement
    ce que l'on fait dans Gene Wiki.
  • 41:37 - 41:41
    Vous avez donc l’Ontologie de Maladies
    placée dans Wikidata
  • 41:41 - 41:45
    et quand les données de maladie arrivent,
    nous appliquons les Shape Expressions
  • 41:45 - 41:47
    pour voir si cela correspond
    à ce thésaurus.
  • 41:47 - 41:51
    Il y a d'autres thésaurus et ontologies
    pour les vocabulaires contrôlés
  • 41:51 - 41:52
    qui doivent toujours intégrer Wikidata
  • 41:52 - 41:56
    et c'est exactement pour cette raison
    que Shape Expression est si intéressante
  • 41:56 - 41:58
    parce qu'on peut en avoir une
    pour l'Ontologie de Maladies,
  • 41:58 - 42:00
    pour MeSH,
  • 42:00 - 42:02
    on peut dire : « OK, je veux
    maintenant vérifier la qualité. »
  • 42:02 - 42:05
    Parce que dans Wikidata,
    on aussi le contexte
  • 42:05 - 42:10
    où dans le cas d'un vocabulaire contrôlé,
    vous décidez de la qualité en fonction de,
  • 42:10 - 42:12
    mais votre communauté
    peut ne pas être d'accord.
  • 42:12 - 42:16
    L'outillage est donc en place,
    il faut maintenant créer ces modèles
  • 42:16 - 42:18
    et les appliquer aux différents
    cas d'utilisation.
  • 42:19 - 42:21
    (Personne du public)
    La Shape Expression est très utile
  • 42:21 - 42:26
    une fois que l'ontologie externe
    est cartographiée dans Wikidata,
  • 42:26 - 42:29
    mais mon problème est
  • 42:29 - 42:35
    de figurer l'ontologie externe
    qui n'est pas déjà présente dans Wikidata
  • 42:35 - 42:36
    et de situer les espaces ;
  • 42:36 - 42:41
    et c'est là que le fait
    d'avoir des outils plus robustes
  • 42:41 - 42:44
    pour voir les parties manquantes
    des ontologies externes
  • 42:44 - 42:46
    devient très utile.
  • 42:48 - 42:49
    Le plus grand problème
  • 42:49 - 42:51
    est non pas l'outillage,
    mais les licences.
  • 42:52 - 42:55
    Mettre les ontologies dans Wikidata
    est en fait un jeu d'enfant,
  • 42:55 - 42:59
    mais la plupart des ontologies ont...
    comment dire ça poliment,
  • 43:00 - 43:03
    ...des licences restrictives et donc,
    non compatibles avec Wikidata.
  • 43:04 - 43:07
    (Personne du public) Il y a un grand
    nombre de thésaurus de secteur public
  • 43:07 - 43:08
    dans les champs culturels.
  • 43:08 - 43:11
    - (Andra) On doit alors en discuter.
    - (Personne du public) Pas de soucis.
  • 43:11 - 43:12
    (Andra) On doit en parler.
  • 43:14 - 43:19
    (Personne du public) Mon commentaire
    est en fait une réponse à James.
  • 43:19 - 43:22
    Les hiérarchies font des graphes
  • 43:22 - 43:24
    et quand tu veux...
  • 43:25 - 43:29
    Je veux dire que le problème
    commun des hiérarchies
  • 43:29 - 43:31
    sont les hiérarchies circulaires,
  • 43:31 - 43:34
    elles reviennent l'une vers l'autre
    quand il y a un problème,
  • 43:34 - 43:36
    ce qui ne devrait pas arriver.
  • 43:37 - 43:41
    Curieusement, cela arrive fréquemment
    dans les catégories de Wikipedia,
  • 43:41 - 43:43
    elles sont souvent circulaires,
  • 43:44 - 43:47
    mais la bonne nouvelle est que...
  • 43:48 - 43:51
    Techniquement, c'est impossible à trouver
    car c'est un problème complet PMP
  • 43:51 - 43:53
    et facile si on construit
    un graphe à cet effet.
  • 43:54 - 43:57
    Mais il y a de nombreuses manières
    qui ont été développées
  • 43:57 - 44:01
    pour trouver les problèmes
    dans ces graphes hiérarchiques.
  • 44:01 - 44:05
    Comme ce document
    appelé « Finding cycles...
  • 44:05 - 44:08
    Breaking cycles in Noisy Hierarchies »
  • 44:08 - 44:13
    qui a été utilisé pour aider
    la catégorisation de Wikipédia Anglais.
  • 44:13 - 44:17
    On peut appliquer cela
    aux hiérarchies dans Wikidata
  • 44:17 - 44:20
    et ensuite, trouver
    ce qui est problématique
  • 44:20 - 44:22
    et supprimer les causeurs de trouble
  • 44:22 - 44:25
    et trouver les problèmes.
  • 44:25 - 44:27
    C'est juste une idée pour vous...
  • 44:28 - 44:30
    (Personne du public)
    Tout cela est bel et bien,
  • 44:30 - 44:32
    mais je crois que vous sous-estimez
  • 44:32 - 44:35
    le nombre de relations défaillantes
    entre les sous-classes que nous avons.
  • 44:35 - 44:40
    C'est comme avoir
    une ville dans le mauvais pays
  • 44:40 - 44:45
    et il existe des outils
    géographiques pour cela.
  • 44:45 - 44:49
    Nous devons avoir de bien
    meilleurs outils en hiérarchies
  • 44:49 - 44:53
    pour identifier l'item manquant
  • 44:53 - 44:58
    ou s'il a été en fait sous-classé
  • 44:58 - 45:02
    à un élément qui ne veut pas dire
    quelque chose de tout à fait différent.
  • 45:03 - 45:07
    (Lydia) Je pense que
    tu as mis le doigt dessus.
  • 45:07 - 45:12
    Mon équipe et moi-même
    avons les mêmes retours des gens
  • 45:12 - 45:14
    qui réutilisent nos données ;
  • 45:15 - 45:17
    Un point de donnée
    individuel peut être intéressant,
  • 45:17 - 45:20
    mais s'il faut examiner l'ontologie, etc.,
  • 45:20 - 45:22
    cela devient très...
  • 45:22 - 45:26
    Je pense qu'un des grands problèmes
    pourquoi cela se produit
  • 45:26 - 45:31
    est que nombreuses éditions dans Wikidata
  • 45:31 - 45:35
    s'effectuent sur base
    d'un élément individuel,
  • 45:35 - 45:36
    on modifie cet item
  • 45:38 - 45:42
    sans réaliser que cela peut avoir
    des conséquences globales
  • 45:42 - 45:44
    sur le reste du graphe, par exemple.
  • 45:44 - 45:50
    Si les gens avaient des idées
    sur comment rendre plus visibles
  • 45:50 - 45:53
    les conséquences d'une modification
    locale individuelle,
  • 45:54 - 45:57
    il faudrait prendre la peine
    de les explorer
  • 45:58 - 46:01
    pour mieux montrer aux gens
  • 46:01 - 46:03
    quelles sont les conséquences
    de leur édition,
  • 46:04 - 46:05
    même si celle-ci est de bonne foi.
  • 46:07 - 46:12
    Commençons par ici,
    oui, vous, puis vous et vous et vous !
  • 46:12 - 46:14
    (Personne du public) Après la discussion,
  • 46:14 - 46:18
    simplement pour exprimer
    mon accord avec James.
  • 46:18 - 46:22
    Il semble que la chose
    la plus dangereuse est la hiérarchie,
  • 46:22 - 46:24
    pas la hiérarchie, mais en général,
  • 46:24 - 46:28
    les sémantiques des relations
    entre sous-classes dans Wikidata,.
  • 46:28 - 46:33
    J'ai récemment étudié les langages
    en vue de cette conférence
  • 46:33 - 46:35
    et par exemple, vous trouvez plein de cas
  • 46:35 - 46:39
    où le langage fait partie
    des sous-classes.
  • 46:39 - 46:44
    On peut alors dire
    qu'on a une ontologie flexible.
  • 46:44 - 46:46
    Parfois, Wikidata vous donne
    cette liberté d'expression.
  • 46:46 - 46:47
    Parce que par exemple,
  • 46:47 - 46:51
    cette ontologie de langages est
    aussi politiquement compliquée, pas vrai ?
  • 46:51 - 46:55
    Il est même bon d'être en position
    d'exprimer un niveau d'incertitude.
  • 46:55 - 46:58
    Mais imaginez quelqu'un qui veut faire
    de la lecture automatique à partir de ça.
  • 46:58 - 46:59
    C'est vraiment problématique.
  • 46:59 - 47:00
    Et de nouveau,
  • 47:00 - 47:04
    je ne pense pas que cette ontologie
    a été importée de quelque part
  • 47:04 - 47:06
    c'est quelque chose qui
    originairement nous appartient.
  • 47:06 - 47:08
    Je dirais que c'est récolté
    de Wikipédia au tout début.
  • 47:08 - 47:11
    Donc, je me demande...
    Cette Shape Expressions est super
  • 47:11 - 47:16
    et le fait de valider et rectifier
    l'ontologie Wikidata
  • 47:16 - 47:18
    par des ressources externes, belle idée.
  • 47:19 - 47:20
    À la fin,
  • 47:20 - 47:25
    terminerons-nous en réfléchissant sur
    les ontologies externes dans Wikidata ?
  • 47:25 - 47:29
    Et aussi, à ce que nous faisons avec
    la partie centrale de notre ontologie
  • 47:29 - 47:31
    qui n'est jamais récoltée
    de ressources externes,
  • 47:31 - 47:32
    comment résoudre cela ?
  • 47:32 - 47:35
    Et je pense que ce sera
    un problème en soi.
  • 47:35 - 47:39
    Nous devrons nous concentrer
    sur cela indépendamment du fait
  • 47:39 - 47:41
    de valider l'ontologie
    avec un élément externe.
  • 47:49 - 47:53
    (Personne du public) Les contraintes
    et formes ainsi que leurs usages
  • 47:53 - 47:54
    sont vraiment impressionnantes,
  • 47:55 - 47:58
    mais le point principal n'est pas clair
  • 47:58 - 48:03
    car nous pouvons maintenant rendre
    nos attentes des données plus explicites.
  • 48:03 - 48:07
    Avant, chacun devait écrire
    ses propres outils et scripts
  • 48:07 - 48:11
    pour qu'ils soient plus visibles
    et accessibles de discussion.
  • 48:11 - 48:14
    Mais il ne s'agit pas
    de ce qui est juste ou non,
  • 48:14 - 48:16
    il s'agit d'une attente
  • 48:16 - 48:18
    et il y aura différentes
    attentes et discussions
  • 48:18 - 48:21
    sur comment modeler dans Wikidata
  • 48:21 - 48:23
    et ceci...
  • 48:23 - 48:26
    L'état actuel est simplement
    un pas dans la direction
  • 48:26 - 48:28
    parce qu'à présent,
  • 48:28 - 48:31
    il faut une grande expertise technique
    pour s'impliquer
  • 48:31 - 48:36
    et nous devons avoir de meilleurs moyens
    pour visualiser cette contrainte ;
  • 48:36 - 48:40
    de peut-être la transformer en un langage
    naturel pour une meilleure compréhension,
  • 48:41 - 48:44
    il ne s'agit pas de juste ou faux.
  • 48:45 - 48:46
    (Lydia) Oui.
  • 48:51 - 48:54
    (Personne du public)
    Concernant les problèmes de qualité,
  • 48:54 - 48:57
    j'ai trouvé que nombreux problèmes
    que j'ai rencontrés consistaient
  • 48:59 - 49:02
    en une différence d'opinion entre
    « instance de » comparé à « sous-classe ».
  • 49:02 - 49:06
    Dans ces situations, je dirais
    que ce sont des « erreurs »
  • 49:06 - 49:12
    et les trouver est
    une procédure chronophage.
  • 49:12 - 49:15
    Ce que j'ai trouvé est : « Oh, si
    je trouve des articles de haute qualité
  • 49:15 - 49:16
    qui sont...
  • 49:16 - 49:22
    pour ensuite utiliser toutes les instances
    sous-classe et leurs relevés dérivés »,
  • 49:22 - 49:26
    c'est une manière utile
    de chercher ces erreurs.
  • 49:26 - 49:28
    Mais je me demandais si Shape Expressions,
  • 49:30 - 49:32
    s'il y a...
  • 49:32 - 49:37
    si elle peut être utilisée comme outil
    pour aider à résoudre ces problèmes...
  • 49:40 - 49:43
    (Personne du public)
    S'il y a une empreinte structurée
  • 49:46 - 49:49
    que l'on peut...
    qui est en sorte falsifiable,
  • 49:49 - 49:51
    on peut l'examiner et
    reconnaître qu'elle est fausse,
  • 49:51 - 49:53
    alors oui, on peut le faire.
  • 49:53 - 49:57
    Mais si c'est pour l'associer
    à des objets réels,
  • 49:57 - 49:59
    cela va demander beaucoup de cerveaux.
  • 50:06 - 50:09
    Bonjour, je suis Pablo Mendes
    de Siri Knowledge de Apple.
  • 50:09 - 50:13
    Nous sommes ici pour découvrir
    comment aider le projet et la communauté,
  • 50:13 - 50:16
    mais Cristina a commis l'erreur
    de nous demander ce qu'on voulait.
  • 50:16 - 50:20
    (rire) Une des choses que j'aimerais voir,
  • 50:21 - 50:24
    c'est attacher de l'importance
    à la vérifiabilité
  • 50:24 - 50:26
    qui est un des principes essentiels
    du projet dans la communauté
  • 50:27 - 50:29
    ainsi que la fiabilité.
  • 50:29 - 50:32
    Tous les énoncés ne sont pas identiques,
    certains d'entre eux sont très disputés,
  • 50:32 - 50:34
    certains d'entre eux
    sont faciles à deviner
  • 50:34 - 50:36
    comme une date de naissance
    qui peut être vérifiée,
  • 50:36 - 50:39
    mais comme vous l'avez vu dans Keynote,
    la question de genre est plus compliquée.
  • 50:40 - 50:43
    Pouvez-vous nous parler davantage
    de ce que vous savez au sujet
  • 50:43 - 50:47
    de la qualité de données
    concernant la fiabilité et vérifiabilité ?
  • 50:55 - 50:58
    Et si ce n'est pas grand-chose,
    j'aimerais en savoir plus. (rire)
  • 51:01 - 51:02
    (Lydia) Oui.
  • 51:03 - 51:07
    Apparemment, il n'y a
    pas grand-chose à dire. (rire)
  • 51:08 - 51:12
    (Andra) Je pense que nous pouvons faire
    beaucoup et j'ai discuté hier avec vous.
  • 51:12 - 51:16
    Mon exemple favori d'hier
    qui est déjà obsolète
  • 51:16 - 51:20
    est que si vous allez
    sur Q2 qui est la terre,
  • 51:20 - 51:23
    il y a une déclaration qui dit
    que la terre est plate.
  • 51:24 - 51:26
    J'adore cet exemple
  • 51:26 - 51:28
    parce qu'il existe une communauté
    qui déclare cela
  • 51:28 - 51:30
    et ils possèdent des sources vérifiables.
  • 51:30 - 51:32
    Je pense que ce cas est véritable,
  • 51:32 - 51:35
    qu'il ne devrait pas être déprécié
    et devrait être dans Wikidata.
  • 51:35 - 51:40
    C'est une circonstance où
    Shape Expressions peut être décisif
  • 51:40 - 51:42
    parce que vous pouvez dire
  • 51:42 - 51:45
    que vous êtes vraiment
    intéressé par ce cas d'utilisation,
  • 51:45 - 51:47
    ou il se peut que
    vous ne soyez pas d'accord,
  • 51:47 - 51:51
    mais ce cas d'utilisation pourrait
    également vous intéresser.
  • 51:51 - 51:53
    Il y a aussi cet exemple
    où vous dites que vous avez du glucose.
  • 51:53 - 51:56
    Mais quand vous êtes biologiste,
  • 51:56 - 52:00
    vous ne vous souciez pas des contraintes
    chimiques de la molécule de glucose,
  • 52:00 - 52:03
    tout est pareil en ce
    qui concerne le glucose.
  • 52:03 - 52:06
    Mais si vous êtes chimiste, vous grincerez
    des dents en entendant cela,
  • 52:06 - 52:08
    vous avez 200...
  • 52:08 - 52:10
    Vous pouvez alors avoir
    des Shape Expressions multiples,
  • 52:10 - 52:13
    d'un point de vue chimique,
  • 52:13 - 52:14
    j'appliquerai cela.
  • 52:14 - 52:17
    Mais d'un point de vue biologique,
  • 52:17 - 52:19
    j'appliquerai cette Shape Expression.
  • 52:19 - 52:20
    Et quand vous voulez collaborer,
  • 52:20 - 52:23
    parlez plutôt à Eric des cartes ShEx.
  • 52:24 - 52:29
    Mais cette aventure ne fait que commencer.
  • 52:29 - 52:32
    Et personnellement, je pense qu'il y aura
    un rôle à jouer dans ce domaine.
  • 52:34 - 52:36
    (Lydia) OK. Ici.
  • 52:38 - 52:39
    (rire)
  • 52:41 - 52:46
    (Personne du public) J'ai eu plusieurs
    idées en entendant les discussions,
  • 52:46 - 52:51
    je vais essayer de ne pas les perdre.
  • 52:52 - 52:55
    Basé sur ce que James a dit auparavant,
  • 52:55 - 52:59
    depuis le début, nous avons
    un très gros problème dans Wikidata
  • 52:59 - 53:02
    pour l'ontologie supérieure.
  • 53:02 - 53:05
    Nous en avons parlé il y a deux ans
    lors de WikidataCon
  • 53:05 - 53:07
    et nous en avons parlé à Wikimania.
  • 53:07 - 53:10
    Chaque fois que nous avons
    une réunion Wikidata,
  • 53:10 - 53:12
    nous en parlons
  • 53:12 - 53:16
    car c'est un très gros problème
    de tout premier abord ;
  • 53:16 - 53:23
    quelle est l'entité,quel est le travail,
    quel est le genre, l'art,
  • 53:23 - 53:25
    ce sont les plus grands concepts.
  • 53:27 - 53:33
    Et c'est en fait un point très faible
    de l'ontologie globale
  • 53:33 - 53:37
    parce que les gens essaient
    de nettoyer régulièrement
  • 53:38 - 53:41
    et finissent par tout casser ;
  • 53:43 - 53:49
    je pense que certains se souviennent
    peut-être du gars qui candidement,
  • 53:49 - 53:52
    a cassé toutes les villes du monde.
  • 53:52 - 53:58
    On n'était plus des items géographiques,
    donc contraintes de violation partout.
  • 53:59 - 54:00
    Et c'était de bonne foi
  • 54:00 - 54:04
    parce qu'il apportait vraiment
    une correction à un article,
  • 54:04 - 54:06
    mais tout s'est écroulé.
  • 54:06 - 54:09
    Je ne sais pas trop comment résoudre cela
  • 54:10 - 54:16
    parce qu'il n'existe pas
    d'institution externe à copier
  • 54:16 - 54:18
    car tout le monde travaille sur...
  • 54:19 - 54:22
    Si je suis la base de données
    d'art performant,
  • 54:22 - 54:25
    j'irai simplement à
    l'étiquette d'art performant,
  • 54:25 - 54:29
    je n'irai pas sur le concept
    philosophique de ce qu'est une entité
  • 54:29 - 54:31
    et c'est en fait...
  • 54:31 - 54:35
    Je ne connais aucune base de données
    qui travaille à ce niveau,
  • 54:35 - 54:37
    mais ça, c'est le point
    le plus faible de Wikidata.
  • 54:38 - 54:41
    Et il est probable que quand
    nous parlons de qualité de données,
  • 54:41 - 54:44
    cela en constitue
    une grande partie, donc...
  • 54:44 - 54:49
    Et c'est ce que nous avons
    aussi mentionné dans...
  • 54:49 - 54:50
    Désolée, je change de sujet,
  • 54:51 - 54:56
    mais dans différentes sessions
    concernant la qualité, nous avons remarqué
  • 54:56 - 54:59
    que certains d'entre nous
    font un bon travail de modélisation,
  • 54:59 - 55:01
    de ShEx et autres choses.
  • 55:02 - 55:08
    Les gens ne voient pas ça dans Wikidata,
    ils ne voient pas le ShEx,
  • 55:08 - 55:10
    ils ne voient pas le WikiProject
    sur la page de discussion
  • 55:10 - 55:11
    et parfois,
  • 55:11 - 55:15
    ils ne voient même pas
    les pages de discussion des propriétés
  • 55:15 - 55:20
    qui dit clairement :
    a) cette propriété est utilisée pour cela.
  • 55:20 - 55:24
    La semaine dernière, j'ai ajouté
    des contraintes à une propriété.
  • 55:24 - 55:26
    La contrainte était écrite explicitement
  • 55:26 - 55:29
    dans la discussion
    de la création de la propriété.
  • 55:29 - 55:35
    J'ai juste créé la partie technique
    d'ajout de contrainte et quelqu'un :
  • 55:35 - 55:37
    « Quoi ! Tu as cassé
    toutes mes modifications ! ».
  • 55:37 - 55:42
    Et il se fait qu'il utilisait la propriété
    incorrectement depuis deux ans.
  • 55:42 - 55:47
    Et celle-ci était en fait très claire,
    mais il n'y a eu aucun avertissement ;
  • 55:47 - 55:50
    et c'est pareil pour Pink Pony,
    nous avons dit à Wikimania
  • 55:50 - 55:55
    de rendre plus visible
    le WikiProject ou ShEx, mais...
  • 55:55 - 55:57
    Et c'est ce qu'a dit Cristina.
  • 55:57 - 56:02
    Nous avons un problème de visibilité
    concernant les solutions existantes.
  • 56:02 - 56:04
    Dans cette session,
  • 56:04 - 56:07
    nous parlons tous de
    comment créer plus de ShEx
  • 56:07 - 56:11
    ou de faciliter les tâches
    des gens qui font le nettoyage.
  • 56:12 - 56:16
    Mais depuis le premier jour de Wikidata,
    nous nettoyons
  • 56:16 - 56:21
    et globalement, nous sommes
    en train de perdre la partie parce que
  • 56:21 - 56:23
    je sais que les noms sont compliqués,
  • 56:23 - 56:26
    mais je suis la seule à nettoyer,
  • 56:27 - 56:30
    celui qui a ajouté le nom scripté latin
  • 56:30 - 56:32
    à tous les chercheurs chinois,
  • 56:32 - 56:36
    cela me prendra des mois pour nettoyer
    et je ne peux pas le faire seule,
  • 56:36 - 56:39
    et de plus, il a fait un lot énorme.
  • 56:39 - 56:40
    Nous avons vraiment besoin...
  • 56:40 - 56:44
    Notre problème de visibilité est
    plus important de celui des outils
  • 56:44 - 56:46
    car nous avons de nombreux outils.
  • 56:46 - 56:50
    (Lydia) Malheureusement,
    on me fait signe (rit),
  • 56:50 - 56:52
    nous devons donc terminer.
  • 56:52 - 56:54
    Merci à tous pour vos commentaires.
  • 56:54 - 56:57
    J'espère voir la discussion se prolonger
    au cours de la journée
  • 56:57 - 56:58
    et merci pour votre contribution.
  • 56:58 - 57:00
    (applaudissements)
Title:
cdn.media.ccc.de/.../wikidatacon2019-9-eng-Data_quality_panel_hd.mp4
Video Language:
English
Duration:
57:10

French subtitles

Revisions