0:00:04.035,0:00:05.945
Panel sur la qualité des données
0:00:05.945,0:00:09.476
Bonjour à tous, bienvenue[br]au groupe Qualité de Données.
0:00:10.288,0:00:13.671
La qualité de données est importante[br]car de plus en plus de gens
0:00:13.672,0:00:19.289
se basent sur nos bonnes données[br]et donc, nous allons parler de qualité.
0:00:20.029,0:00:26.000
Il y aura quatre orateurs qui[br]présenteront des introductions
0:00:26.000,0:00:29.539
sur des sujets concernant la qualité[br]de données suivies de questions-réponses.
0:00:30.130,0:00:32.234
Le premier est Lucas.
0:00:34.385,0:00:35.385
Merci.
0:00:35.901,0:00:39.899
Je m'appelle Lucas et je vais [br]commencer par une vue générale
0:00:39.899,0:00:43.806
des outils de qualité de données[br]que nous possédons déjà sur Wikidata
0:00:43.807,0:00:46.109
et sur les prochaines nouveautés.
0:00:46.932,0:00:50.623
Je les ai regroupés par thèmes :
0:00:50.623,0:00:53.761
rendre les erreurs plus visibles,[br]les problèmes actionnables,
0:00:53.762,0:00:56.752
avoir plus de vues sur les données[br]pour que les problèmes soient remarqués,
0:00:56.945,0:01:02.616
remédier aux sources communes d'erreurs,[br]maintenir la qualité existante
0:01:02.616,0:01:03.966
et le référencement humain.
0:01:05.063,0:01:09.874
Et ce qui est actuellement disponible[br]commence par les contraintes de propriété.
0:01:10.068,0:01:12.421
Si vous êtes sur Wikidata,[br]ceci vous est sûrement familier.
0:01:12.422,0:01:15.480
Des icônes vérifiant[br]la cohérence interne des données
0:01:15.480,0:01:17.241
sont parfois présentes.
0:01:17.242,0:01:20.800
Par exemple, [br]si un événement en suit un autre,
0:01:20.801,0:01:23.760
cet autre devrait aussi[br]être suivi par celui-ci,
0:01:23.761,0:01:27.161
ce qui n'est apparemment pas[br]sur l'item WikidataCon.
0:01:27.162,0:01:29.600
Je ne suis pas sûr, cette fonction[br]date que quelques jours.
0:01:30.040,0:01:34.681
Et si ceci est trop limité[br]ou simple pour vous,
0:01:34.682,0:01:38.080
vous pouvez utiliser n'importe[br]quelle vérification grâce à Query Service,
0:01:38.081,0:01:39.842
ce qui est bien sûr très pratique.
0:01:39.843,0:01:44.543
Mais vous pouvez aussi l'utiliser[br]pour déterminer les erreurs.
0:01:44.544,0:01:46.974
Si vous avez remarqué une erreur,
0:01:46.975,0:01:49.709
vous pouvez regarder
0:01:49.710,0:01:51.958
si d'autres erreurs similaires[br]ont été commises
0:01:51.958,0:01:53.438
et les trouver avec le Query Service.
0:01:53.439,0:01:55.039
Vous pouvez également [br]combiner les deux
0:01:55.039,0:01:57.874
et rechercher [br]des violations de contrainte,
0:01:57.875,0:02:01.240
par exemple, uniquement[br]celles dans une zone particulière
0:02:01.241,0:02:03.762
ou un WikiProject qui vous est pertinent.
0:02:03.762,0:02:06.828
Malheureusement, les résultats[br]ne sont actuellement pas complets.
0:02:08.422,0:02:09.877
Il existe la notation de révision.
0:02:10.690,0:02:12.666
Provenant des changements récents,
0:02:12.667,0:02:16.217
vous pouvez aussi avoir [br]une évaluation automatique :
0:02:16.217,0:02:20.249
cette édition est-elle faite[br]de bonne ou mauvaise volonté
0:02:20.250,0:02:22.312
et peut-elle être préjudiciable ou non.
0:02:22.313,0:02:24.205
Voilà les deux dimensions.
0:02:24.206,0:02:25.686
Vous pouvez si vous le voulez,
0:02:25.687,0:02:29.898
vous concentrer sur les éditions[br]néfastes mais de bonne volonté.
0:02:29.899,0:02:32.803
Si vous êtes dans une humeur [br]particulièrement amicale et accueillante,
0:02:32.803,0:02:37.121
vous pouvez dire à ces éditeurs :[br]« Merci pour votre contribution,
0:02:37.122,0:02:40.560
vous auriez dû le faire comme ça,[br]mais merci quand même. »
0:02:40.561,0:02:42.046
Si vous n'êtes pas dans cette humeur,
0:02:42.046,0:02:44.562
vous pouvez examiner les éditions[br]préjudiciables de mauvaise foi
0:02:44.562,0:02:45.933
et inverser le vandalisme.
0:02:47.544,0:02:49.761
Il y a aussi la notation d'entité.
0:02:49.762,0:02:52.590
Au lieu de noter une édition,[br]la modification apportée,
0:02:52.591,0:02:53.904
vous notez la révision complète
0:02:53.904,0:02:56.483
et je pense que c'est[br]la même mesure de qualité
0:02:56.483,0:02:59.863
que Lydia mentionne [br]au début de la conférence.
0:03:00.372,0:03:04.569
Cela nous donne un script d'utilisateur[br]et un score de un à cinq, je pense,
0:03:04.570,0:03:08.176
de la qualité de l'item actuel.
0:03:10.043,0:03:15.108
L'outil des sources primaires s'utilise[br]pour toute base de données à importer,
0:03:15.108,0:03:18.364
mais n'est pas d'assez bonne qualité que[br]pour être ajouté directement à Wikidata.
0:03:18.374,0:03:20.585
Il doit donc être ajouté[br]à l'outil des sources primaires
0:03:20.585,0:03:22.956
pour que les humains puissent décider
0:03:22.956,0:03:26.024
d'ajouter ces énoncés individuels ou non.
0:03:28.595,0:03:31.901
Afficher les coordonnées [br]sous forme de cartes est pratique,
0:03:31.901,0:03:33.798
mais peut aussi [br]servir de contrôle qualité.
0:03:33.798,0:03:36.937
Si vous voyez que les coordonnées[br]du bureau de Wikimedia Germany
0:03:36.938,0:03:39.400
se trouvent quelque part [br]dans l'océan Indien,
0:03:39.401,0:03:41.529
vous savez que quelque chose ne va pas
0:03:41.530,0:03:44.790
et cela se remarque plus facilement[br]que simplement avec des chiffres.
0:03:46.382,0:03:49.576
C'est un gadget appelé[br]« l'indicateur de complétude relative »
0:03:49.577,0:03:52.480
qui vous montre cette petite icône ici
0:03:53.007,0:03:55.652
vous donnant son estimation[br]de complétion de l'item
0:03:55.652,0:03:57.613
ainsi que les propriétés manquantes,
0:03:57.614,0:03:59.769
ce qui est très utile [br]si vous éditez un item,
0:03:59.769,0:04:03.172
que vous êtes dans une zone peu familière
0:04:03.172,0:04:05.901
et que ne savez pas quelles sont[br]les propriétés correctes à employer,
0:04:05.901,0:04:08.230
c'est alors un gadget très utile.
0:04:09.604,0:04:11.401
Il y a aussi les « Shape Expressions ».
0:04:11.402,0:04:15.624
Andra et Jose nous en parleront davantage,
0:04:15.624,0:04:19.757
mais c'est en gros, un moyen puissant[br]de comparer les données
0:04:19.758,0:04:20.758
par rapport au schéma,
0:04:20.759,0:04:22.690
comme quel état devrait [br]avoir certaines entités,
0:04:22.690,0:04:26.067
à quelles autres devraient-elles se lier[br]et à quoi devraient-elles ressembler,
0:04:26.229,0:04:29.374
vous pouvez ainsi trouver les problèmes.
0:04:30.366,0:04:32.361
Ce n'est pas fini.
0:04:32.362,0:04:34.321
« Integraality » ou [br]tableau de bord de propriété.
0:04:34.322,0:04:36.773
Il vous fournit une vue rapide[br]de vos données existantes.
0:04:36.774,0:04:39.147
Par exemple, ceci provient [br]du WikiProject « Red Pandas »
0:04:39.657,0:04:41.681
et vous pouvez voir que le sexe ou genre
0:04:41.682,0:04:43.561
de presque tous les pandas sont assignés.
0:04:43.561,0:04:46.854
La date de naissance varie selon leur zoo
0:04:46.854,0:04:50.255
et heureusement, il n'y a[br]presque aucun panda mort.
0:04:51.437,0:04:52.600
Ils sont trop mignons.
0:04:53.699,0:04:55.654
Ceci est donc aussi utile.
0:04:56.377,0:04:59.185
Voilà. Voyons maintenant[br]ce qui va arriver.
0:04:59.889,0:05:03.784
Wikidata Bridge, connu antérieurement[br]sous le nom de l'édition client ;
0:05:03.785,0:05:07.076
donc éditer Wikidata[br]à partir des info-boxes Wikipedia
0:05:07.675,0:05:11.725
qui d'une part, permettra[br]plus de vues sur les données
0:05:11.725,0:05:13.441
car plus de personnes peuvent les y voir,
0:05:13.441,0:05:18.841
en espérant que cela engendrera[br]un emploi plus important de Wikidata
0:05:18.841,0:05:20.920
et que plus de gens peuvent voir
0:05:20.921,0:05:23.977
si par exemple, certaines données sont[br]dépassées et doivent être mises à jour
0:05:23.977,0:05:27.000
au lieu de seulement[br]les voir sur Wikidata.
0:05:28.630,0:05:30.656
Il y a aussi les références contaminées.
0:05:30.657,0:05:33.959
L'idée est que si vous modifiez[br]une valeur de relevé,
0:05:34.683,0:05:37.279
vous pourriez également vouloir[br]mettre cette référence à jour
0:05:37.280,0:05:39.373
à moins que ce ne soit juste[br]une erreur de frappe.
0:05:39.897,0:05:43.662
Cette référence contaminée[br]dit aussi aux autres éditeurs
0:05:43.663,0:05:49.756
quelles modifications de relevé[br]de valeur ont été faites
0:05:49.756,0:05:52.471
qui n'ont pas mis la référence à jour.
0:05:52.472,0:05:56.766
Vous pouvez alors remédier à cela[br]et décider si...
0:05:57.737,0:05:59.566
Est-ce que vous devez en faire plus
0:05:59.566,0:06:02.796
ou c'est bien comme ça, il n'y a[br]pas besoin de mettre la référence à jour.
0:06:03.543,0:06:09.336
Cela concerne les relevés signés[br]originaires d'un souci
0:06:09.336,0:06:12.355
de certains fournisseurs de données...
0:06:14.131,0:06:17.231
Il y a un énoncé que l'UNESCO a référencé
0:06:17.232,0:06:19.872
qui a été vandalisé
0:06:19.873,0:06:21.836
et ils sont donc inquiets qu'il semblerait
0:06:22.827,0:06:26.992
que cette organisation, l'UNESCO[br]aurait validé cette valeur vandalisée.
0:06:26.993,0:06:28.706
Mais grâce aux énoncés signés,
0:06:28.706,0:06:31.488
ils peuvent le faire [br]de manière cryptographique
0:06:31.488,0:06:33.562
sans empêcher les modifications ;
0:06:34.169,0:06:37.744
mais au moins, [br]si quelqu'un vandalise l'énoncé
0:06:37.744,0:06:40.435
ou le modifie de quelque façon,[br]la signature n'est alors plus valide
0:06:40.435,0:06:43.401
et on peut voir que ce n'est pas[br]ce qu'a dit l'organisation,
0:06:43.402,0:06:47.064
et il se peut que ce soit une bonne[br]modification qui devrait être resignée,
0:06:47.065,0:06:49.851
mais qui pourrait aussi [br]devoir être annulée.
0:06:51.203,0:06:53.666
Une chose excitante
0:06:53.666,0:06:56.846
est que Wikipedia comprend[br]ce système étonnant appelé « Citoid »
0:06:57.379,0:07:01.340
où on peut coller une URL,[br]un identifiant ou un ISBN
0:07:01.340,0:07:04.759
ou un ID Wikidata ou pratiquement[br]n'importe quoi dans le Visual Editor
0:07:05.260,0:07:08.241
qui retourne une référence bien formatée
0:07:08.242,0:07:11.049
avec toutes les données possibles,[br]c'est très gai à utiliser.
0:07:11.049,0:07:14.337
Pour comparer avec Wikidata,[br]si je veux ajouter une référence,
0:07:14.338,0:07:18.801
typiquement, je dois ajouter une URL,[br]un titre, nom d'auteur,
0:07:18.802,0:07:20.449
date et lieu de publication,
0:07:20.450,0:07:25.141
dates de récupération, [br]au moins tout ça et c'est embêtant.
0:07:25.141,0:07:29.261
On peut espérer que l'intégration de [br]Citoid dans Wikibase améliorera la chose.
0:07:30.245,0:07:33.604
Je crois que c'est tout pour moi.
0:07:33.604,0:07:36.400
Je passe la parole à Cristina.
0:07:36.400,0:07:38.488
Comment améliorer la gestion[br]de qualité de données ?
0:07:38.488,0:07:42.339
(applaudissements)
0:07:43.780,0:07:45.471
Bonjour, je suis Cristina.
0:07:45.472,0:07:47.672
Je suis chercheuse scientifique[br]à l'université de Zurich
0:07:47.673,0:07:51.417
et je suis aussi une membre active[br]de la communauté suisse.
0:07:52.698,0:07:57.901
Quand Claudia Müller-Birn et moi-même[br]avons présenté ceci à WikidataCon,
0:07:57.902,0:08:00.410
ce que nous voulions,[br]c'est continuer la discussion
0:08:00.411,0:08:02.424
commencée au début de l'année
0:08:02.424,0:08:07.442
avec un atelier sur la qualité de données[br]et des sessions dans Wikimania.
0:08:07.442,0:08:10.535
Le but de cette conférence[br]est de parler des pensées
0:08:10.536,0:08:14.432
réunies de la communauté et de nous-mêmes
0:08:14.432,0:08:16.560
et de continuer cette discussion.
0:08:16.561,0:08:20.065
Nous aimerions beaucoup[br]continuer cette interaction avec vous.
0:08:21.557,0:08:23.371
Nous pensions qu'il est très important
0:08:23.372,0:08:27.580
de toujours demander à tous[br]les types d'utilisateur de la communauté,
0:08:27.581,0:08:32.240
quels sont leurs besoins et problèmes [br]concernant la qualité de données ;
0:08:32.240,0:08:35.000
non seulement les éditeurs, [br]mais aussi les codeurs
0:08:35.000,0:08:36.241
ou les consommateurs de données
0:08:36.242,0:08:39.494
et également les chercheurs qui[br]utilisent toute cette historique d'édition
0:08:39.494,0:08:40.800
pour analyser les événements.
0:08:42.367,0:08:48.431
Nous avons donc examiné [br]à peu près 80 outils de Wikidata
0:08:48.431,0:08:52.380
et les avons alignés aux différentes[br]dimensions de qualité de données.
0:08:52.380,0:08:54.360
Ce qu'on a réalisé, c'est que
0:08:54.361,0:08:57.681
nombre d'entre eux [br]surveillent la complétion,
0:08:57.682,0:09:02.820
mais certains d'entre eux [br]permettent l'interconnexion.
0:09:02.820,0:09:08.442
Mais il y a un grand besoin pour[br]des outils travaillant dans la diversité,
0:09:08.443,0:09:12.824
ce qu'on peut en fait avoir dans Wikidata,
0:09:12.824,0:09:15.318
spécialement dans[br]son principe de conception
0:09:15.318,0:09:18.131
où la pluralité et les relevés[br]différents contenant différentes valeurs
0:09:18.131,0:09:20.308
provenant de différentes sources
0:09:21.034,0:09:22.236
peuvent exister.
0:09:22.236,0:09:25.091
Parce que la source est secondaire,[br]nous n'avons pas vraiment d'outils
0:09:25.091,0:09:27.750
qui nous disent réellement[br]quelle est la pluralité d'énoncés,
0:09:27.751,0:09:30.889
combien nous pouvons améliorer[br]et de quelle manière
0:09:30.890,0:09:32.833
et nous ne connaissons[br]pas non plus vraiment
0:09:32.833,0:09:35.538
les raisons de cette pluralité.
0:09:36.491,0:09:39.201
De ces réunions de communauté,
0:09:39.201,0:09:43.084
nous avons discuté les défis[br]qui demandent de l'attention.
0:09:43.084,0:09:47.249
Par exemple, le fait d'avoir ces[br]communautés de production participative
0:09:47.249,0:09:49.613
est positif car différentes personnes
0:09:49.613,0:09:51.833
avec des connaissances de base différentes
0:09:51.834,0:09:54.615
attaquent les différentes parties[br]des données ou du graphe ;
0:09:54.616,0:09:59.161
mais en réalité, il est difficile[br]de tout aligner de manière homogène
0:09:59.162,0:10:04.920
car différentes personnes utilisent[br]différentes chose de façons différentes
0:10:04.920,0:10:08.401
et s'attendent aussi à différentes[br]choses venant des descriptions d'entité.
0:10:09.003,0:10:12.721
Les gens ont aussi dit [br]qu'ils ont besoin de plus d'outils
0:10:12.722,0:10:16.000
qui donnent une meilleure vue d'ensemble[br]du statut global des choses.
0:10:16.000,0:10:20.733
C'est donc ce qui manque aux entités[br]en termes de complétion,
0:10:20.733,0:10:26.121
mais aussi sur quoi les gens[br]travaillent-ils maintenant
0:10:26.121,0:10:30.516
et ils ont aussi mentionné maintes fois[br]d'avoir une collaboration plus étroite
0:10:30.517,0:10:33.311
entre non seulement, les langages,[br]mais aussi WikiProjects
0:10:33.311,0:10:35.571
et les différentes [br]plateformes de Wikimedia.
0:10:35.571,0:10:38.859
Nous avons publié tous[br]les commentaires transcrits
0:10:38.860,0:10:42.959
de toutes les discussions [br]dans les liens de Etherpads
0:10:42.959,0:10:46.162
et dans la page wiki de Wikimania.
0:10:46.162,0:10:48.481
Certaines solutions pointaient
0:10:48.481,0:10:53.001
vers le fait de plus partager[br]les bonnes pratiques
0:10:53.001,0:10:55.762
qui sont développées [br]dans différents WikiProjects,
0:10:55.762,0:11:01.238
mais il y a aussi une demande pour[br]des outils qui facilitent l'organisation
0:11:01.239,0:11:03.845
de travail dans les équipes[br]pour savoir qui fait quoi
0:11:03.845,0:11:07.815
et également, pour plus de vitrines
0:11:07.816,0:11:12.019
et de modèles pour aider à mieux créer.
0:11:12.946,0:11:15.161
D'après le contact que nous avons
0:11:15.162,0:11:18.721
avec les Open Governmental[br]Data Organizations,
0:11:18.722,0:11:20.068
et particulièrement,
0:11:20.068,0:11:23.102
je suis en contact avec[br]le canton et la ville de Zurich,
0:11:23.102,0:11:26.207
ils sont très intéressés [br]de travailler avec Wikidata
0:11:26.207,0:11:29.896
parce qu'ils veulent [br]leurs données accessibles à tous
0:11:29.897,0:11:33.681
dans les endroits où les gens [br]consultent et accèdent aux données.
0:11:33.682,0:11:36.370
Ce qui peut être intéressant pour eux
0:11:36.370,0:11:38.600
serait d'avoir un genre[br]d'indicateurs de qualité
0:11:38.600,0:11:41.082
à la fois dans le wiki,[br]ce qui est valable actuellement,
0:11:41.082,0:11:42.801
mais aussi dans les résultats SPARQL,
0:11:42.802,0:11:46.066
afin de savoir s'ils peuvent faire [br]confiance aux données communautaires.
0:11:46.067,0:11:48.230
Ils veulent aussi savoir
0:11:48.230,0:11:51.417
quelles parties de leur propre ensemble[br]de données sont utiles pour Wikidata
0:11:51.418,0:11:56.040
et aimeraient un outil qui peut les aider[br]à évaluer ça automatiquement.
0:11:56.041,0:11:59.066
Ils ont aussi besoin [br]d'une méthodologie ou outil
0:11:59.067,0:12:03.894
pour les aider à décider s'ils doivent[br]importer ou connecter leurs données,
0:12:03.894,0:12:04.894
car dans certains cas,
0:12:04.895,0:12:07.497
ils ont aussi leurs propres ensembles[br]de données ouverts couplés ;
0:12:07.497,0:12:09.946
ils ne savent donc pas s'ils doivent[br]juste ingérer des données
0:12:09.946,0:12:13.424
ou continuer de créer des liens[br]des ensembles de données vers Wikidata
0:12:13.425,0:12:14.425
et le contraire.
0:12:14.950,0:12:20.043
Et ils veulent aussi savoir où est[br]référencé leur site web dans Wikidata.
0:12:20.044,0:12:23.361
Quand ils introduisent [br]une telle demande dans le service,
0:12:23.362,0:12:24.848
ils sont souvent mis en attente,
0:12:24.849,0:12:28.181
nous devrions donc [br]peut-être créer plus d'outils
0:12:28.181,0:12:32.240
pour les aider à répondre à ces questions.
0:12:33.148,0:12:36.208
Et de plus, (craquements)
0:12:36.208,0:12:39.361
nous, les chercheurs wiki,
0:12:39.362,0:12:42.023
manquons d'information[br]dans les résumés d'édition.
0:12:42.024,0:12:44.953
Je me souviens que quand nous travaillions
0:12:44.954,0:12:48.919
à comprendre les différents [br]comportements des éditeurs
0:12:48.919,0:12:53.403
avec outils ou bots, [br]utilisateurs anonymes et que sais-je,
0:12:53.403,0:12:56.154
il nous manquait par exemple,
0:12:56.154,0:13:01.112
une manière standard de tracer[br]les outils qui étaient utilisés.
0:13:01.113,0:13:03.154
Certains outils font déjà cela,
0:13:03.155,0:13:05.230
comme PetScan et plein d'autres.
0:13:05.230,0:13:08.850
Nous devrions peut-être [br]plus discuter en communauté
0:13:08.850,0:13:13.531
comment enregistrer ceux-ci[br]pour une origine peaufinée.
0:13:14.169,0:13:15.321
De plus,
0:13:15.322,0:13:20.801
nous devons penser à des dimensions[br]de qualité de données plus concrètes
0:13:20.802,0:13:24.961
qui sont reliées aux données couplées,[br]mais non à tout type de données.
0:13:24.962,0:13:30.721
Nous avons donc travaillé sur certaines[br]mesures pour accéder au gain d'information
0:13:30.722,0:13:33.881
fournis par les liens, ce qui veut dire
0:13:33.882,0:13:36.681
que quand nous connectons Wikidata[br]à d'autres ensembles de données,
0:13:36.682,0:13:38.201
nous devrions aussi envisager
0:13:38.202,0:13:41.921
le gain de classification des entités
0:13:41.922,0:13:45.601
dans la description, mais aussi[br]dans les vocabulaires utilisés.
0:13:45.602,0:13:51.041
Pour vous donner un exemple,
0:13:51.042,0:13:54.269
dans le cas de Wikidata
0:13:54.270,0:13:57.771
ou du centre de données externe[br]lié à Wikidata,
0:13:57.772,0:14:00.487
nous avons l'entité d'une personne[br]appelée « Natasha Noy »,
0:14:00.487,0:14:02.601
nous avons l'affiliation[br]et d'autres choses
0:14:02.602,0:14:05.239
et nous décidons de connecter[br]à un endroit externe
0:14:05.240,0:14:08.919
où cette entité a aussi ce nom,[br]mais la valeur reste la même.
0:14:08.920,0:14:12.889
Il serait alors mieux de connecter[br]à quelque chose qui a un nom différent
0:14:12.889,0:14:16.881
qui est toujours valide car cette personne[br]peut écrire le nom de deux manières
0:14:16.882,0:14:19.714
ainsi que d'autres informations[br]non disponibles dans Wikidata
0:14:19.715,0:14:21.760
ou dans l'autre ensemble de données.
0:14:22.390,0:14:24.652
Mais ce qui est encore préférable,
0:14:24.653,0:14:27.770
c'est d'examiner [br]l'ensemble de données cible
0:14:27.770,0:14:31.392
pour voir qu'il a aussi de nouvelles [br]façons de classifier l'information.
0:14:31.393,0:14:35.354
Ce n'est donc pas juste une personne,[br]mais dans l'autre ensemble de données,
0:14:35.355,0:14:39.525
ils parlent aussi en termes de femme[br]et autre forme de classification.
0:14:39.526,0:14:43.401
Et si l'autre ensemble de données[br]utilise différents vocabulaires,
0:14:43.402,0:14:46.588
cela aide dans la récupération[br]des données.
0:14:47.371,0:14:51.233
Je voudrais encore ajouter
0:14:51.234,0:14:55.809
que nous sommes capables de mieux[br]mettre en valeur les requêtes fédérées
0:14:55.810,0:15:00.448
car quand nous consultons le journal[br]de requêtes fourni par Malyshev et al.,
0:15:01.285,0:15:04.301
nous constations que[br]parmi les requêtes organiques,
0:15:04.302,0:15:06.921
il y a très peu de requêtes fédérées.
0:15:06.922,0:15:12.801
Et en fait, un des avantages clés[br]des données couplées est la fédération ;
0:15:12.802,0:15:16.903
il se pourrait donc que la communauté[br]et les gens qui utilisent Wikidata
0:15:16.903,0:15:18.898
devraient avoir plus[br]d'exemples à ce sujet.
0:15:18.898,0:15:22.666
Et si on lit la liste [br]des points finaux utilisés,
0:15:22.667,0:15:25.401
celle-ci n'est pas complète,[br]nous en avons bien d'autres.
0:15:25.402,0:15:30.479
Bien sûr, ces données ont été analysées[br]à partir de demandes jusqu'en mars 2018,
0:15:30.480,0:15:34.807
mais nous devrions revoir la liste[br]des points finaux acquis
0:15:34.808,0:15:37.048
pour décider si [br]nous les utilisons vraiment.
0:15:37.813,0:15:40.341
J'ai deux questions pour l'audience
0:15:40.341,0:15:43.001
que nous pouvons peut-être[br]utiliser pour la discussion ultérieure :
0:15:43.001,0:15:46.001
« À votre avis, quels sont les problèmes[br]de qualité de données à adresser
0:15:46.002,0:15:47.412
dépendant de vos besoins ? »
0:15:47.412,0:15:50.401
et « Où avez-vous besoin[br]de plus d'automation
0:15:50.402,0:15:52.943
pour vous aider dans les éditions[br]et les patrouilles ? »
0:15:53.866,0:15:55.146
Ce sera tout, merci beaucoup.
0:15:55.779,0:15:57.527
(applaudissements)
0:15:58.808,0:16:01.008
MERCI !
0:16:06.030,0:16:08.595
(Jose Emilio Labra) [br]Je vais maintenant vous parler
0:16:08.595,0:16:14.715
des outils de Shape Expressions[br]que nous sommes en train de développer.
0:16:15.536,0:16:19.371
Je suis Jose Emilio Labra,
0:16:19.371,0:16:23.215
mais tous ces outils ont été[br]construits par des personnes différentes
0:16:23.920,0:16:28.480
principalement connectées à W3C ShEx,[br]Groupe de Communauté Shape Expressions.
0:16:28.481,0:16:29.851
Groupe de Communauté ShEx.
0:16:30.144,0:16:36.081
Le premier outil dont j'aimerais parler[br]est un outil général : le RDFShape ;
0:16:36.082,0:16:40.681
car Shape Expressions convient[br]non pas seulement pour Wikidata,
0:16:40.682,0:16:44.168
mais constitue un langage [br]qui valide RDF en général.
0:16:44.168,0:16:48.318
Je suis l'acteur principal[br]du développement de cet outil
0:16:48.318,0:16:50.880
qui valide RDF en général.
0:16:50.881,0:16:55.139
Si vous voulez connaître ou valider RDF
0:16:55.140,0:16:58.621
ou les points d'extrémité SPARQL[br]pas seulement dans Wikidata,
0:16:58.622,0:17:00.891
je vous conseille d'utiliser cet outil.
0:17:00.891,0:17:03.255
Il est également bon pour l'enseignement.
0:17:03.255,0:17:05.640
J'enseigne à l'université
0:17:05.641,0:17:09.151
et je l'emploie dans mon cours [br]de Web sémantique pour le RDF.
0:17:09.161,0:17:12.121
Je crois donc que c'est un bon outil[br]si vous voulez apprendre le RDF.
0:17:13.033,0:17:17.598
Voici en exemple, une visualisation[br]d'un graphe RDF avec l'outil.
0:17:18.587,0:17:22.643
Mais avant de venir ici, [br]au cours du mois dernier,
0:17:22.643,0:17:28.441
j'ai commencé une fourchette de RDFShape[br]juste pour Wikidata car je croyais...
0:17:28.443,0:17:33.082
Je l'ai présenté hier à Wikidata,[br]elle s'appelle « WikiShape ».
0:17:33.082,0:17:34.441
Ce que j'ai fait...
0:17:34.442,0:17:39.898
j'ai retiré tout ce qui [br]ne concernait pas Wikidata
0:17:39.898,0:17:44.801
et implémenté d'autres choses codées [br]en dur comme l'extrémité Wikidata SPARQL,
0:17:44.802,0:17:49.041
mais on m'a demandé maintenant[br]si je pouvais faire de même pour Wikibase.
0:17:49.042,0:17:52.000
Ce qui est très facile à faire.
0:17:52.760,0:17:56.280
L'outil WikiShape est [br]relativement nouveau.
0:17:57.015,0:17:59.843
La plupart des fonctionnalités [br]sont opératives,
0:17:59.844,0:18:02.468
mais il est possible[br]que certaines ne fonctionnent pas
0:18:02.469,0:18:06.281
et si vous voulez les améliorer,[br]s'il vous plaît, dites-le moi.
0:18:06.281,0:18:12.680
C'est donc [des captures Science Script],[br]mais on peut essayer.
0:18:15.385,0:18:16.945
Voyons si cela marche.
0:18:16.953,0:18:20.070
Je dois d'abord sortir de...
0:18:22.453,0:18:23.453
Ici.
0:18:24.226,0:18:28.324
D'accord, voici l'outil.
0:18:28.324,0:18:30.564
Ce que vous pouvez faire[br]avec l'outil par exemple,
0:18:30.564,0:18:35.275
c'est vérifier des schémas d'entité.
0:18:35.276,0:18:38.611
Vous savez qu'il y a un nouvel [br]espace de nommage : « E que sais-je »,
0:18:38.612,0:18:44.805
si vous commencez par écrire « humain »,
0:18:44.806,0:18:48.812
son auto-complétion [br]vous permet de vérifier,
0:18:48.812,0:18:52.001
par exemple, [br]le Shape Expressions d'un humain
0:18:52.790,0:18:55.937
et voici ici le Shape Expressions.
0:18:55.938,0:18:59.841
Et vous remarquez que l'éditeur[br]possède une coloration syntaxique ;
0:18:59.842,0:19:04.559
mais l'écran est peut-être trop petit,
0:19:05.676,0:19:07.590
je vais essayer de l'agrandir.
0:19:09.194,0:19:10.973
Vous voyez peut-être mieux maintenant.
0:19:10.973,0:19:14.241
Voici la surligne syntaxique de l'éditeur,
0:19:14.241,0:19:17.851
celui-ci provient du même code source
0:19:17.851,0:19:19.641
que le service de requête de Wikidata.
0:19:19.642,0:19:23.960
Si vous passez la souris ici,
0:19:23.961,0:19:27.961
vous pouvez voir les étiquettes[br]des différentes propriétés.
0:19:27.962,0:19:31.298
Je pense que c'est très utile car
0:19:32.588,0:19:38.601
les schémas d'entité présents [br]dans Wikidata sont juste du texte simple,
0:19:38.602,0:19:42.493
cet éditeur est donc meilleur[br]car il comprend l'auto-complétion
0:19:42.494,0:19:43.743
et aussi...
0:19:43.744,0:19:48.241
par exemple, si vous voulez[br]ajouter une contrainte,
0:19:48.241,0:19:51.570
vous dites : « wdt: »,
0:19:51.570,0:19:56.884
écrivez juste « auteur »,[br]vous cliquez sur Ctrl+Space
0:19:56.884,0:19:58.922
et différentes suggestions apparaissent.
0:19:58.922,0:20:02.388
Cette fonction est similaire[br]au service de requête Wikidata,
0:20:02.389,0:20:06.445
mais adaptée pour Shape Expressions.
0:20:06.445,0:20:11.975
Il me semble que créer [br]des Shape Expressions
0:20:11.976,0:20:15.841
n'est pas plus difficile que d'écrire [br]des requêtes SPARQL.
0:20:15.842,0:20:21.255
Certaines personnes pensent [br]que c'est sur un même niveau,
0:20:22.278,0:20:26.296
mais je pense que c'est plus facile
0:20:26.296,0:20:31.241
car telle était notre intention[br]quand nous avons conçu Shape Expressions.
0:20:31.242,0:20:34.481
Cet éditeur est l'une des premières choses
0:20:34.481,0:20:36.620
disponibles dans Shape Expressions.
0:20:37.371,0:20:41.467
Il existe aussi [br]la possibilité de visualiser.
0:20:41.468,0:20:44.801
Dans Shape Expressions, [br]prenons par exemple,
0:20:44.802,0:20:49.386
« travail écrit » qui est [br]une belle Shape Expression
0:20:49.386,0:20:53.300
car elle exprime une relation[br]entre différentes choses.
0:20:54.823,0:20:58.160
Et ceci est la visualisation [br]UML de travail écrit.
0:20:58.161,0:21:02.090
Dans un UML, il est facile[br]de voir les différentes propriétés.
0:21:02.790,0:21:05.934
En faisant l'essai [br]avec plusieurs personnes,
0:21:05.934,0:21:09.216
j'ai réalisé quelles trouvaient [br]des erreurs dans leur Shape Expressions
0:21:09.217,0:21:12.988
car les propriétés manquantes[br]sont faciles à détecter.
0:21:13.588,0:21:15.771
L'autre possibilité ici
0:21:15.772,0:21:19.520
est la validation ; je crois que la voilà.
0:21:20.496,0:21:25.285
Je crois qu'elle était dans une étiquette,[br]je l'ai peut-être fermée.
0:21:26.267,0:21:30.988
Mais vous pouvez par exemple,[br]cliquer ici sur Validate entities.
0:21:32.308,0:21:34.232
Par exemple,
0:21:35.404,0:21:41.921
« q42 » avec « e42 » qui est auteur.
0:21:42.818,0:21:46.180
Avec « humain », je pense [br]qu'on peut le faire avec ça.
0:21:49.050,0:21:50.050
Et puis,...
0:21:50.688,0:21:56.365
Cela prend un peu de temps[br]car les requêtes SPARQL s'effectuent
0:21:56.365,0:21:59.134
et pour le moment, [br]il y a défaut de réseau, mais...
0:21:59.657,0:22:01.580
Vous pouvez l'essayer.
0:22:02.759,0:22:07.026
Continuons la présentation[br]avec d'autres outils.
0:22:07.026,0:22:12.353
Dites-moi si vous voulez l'essayer[br]et si vous voulez un retour.
0:22:13.133,0:22:15.540
Poursuivons la présentation.
0:22:18.923,0:22:20.233
Voici donc WikiShape.
0:22:23.800,0:22:26.509
Je l'ai déjà dit,
0:22:27.681,0:22:34.157
l'Éditeur Shape Expressions[br]est un projet indépendant dans GitHub.
0:22:35.465,0:22:37.472
Vous pouvez l'utiliser[br]dans votre propre projet.
0:22:37.472,0:22:41.036
Si vous voulez utiliser[br]un outil Shape Expressions,
0:22:41.036,0:22:45.635
vous pouvez l'intégrer[br]à n'importe quel autre projet,
0:22:45.636,0:22:48.235
il est dans GitHub, utilisez-le.
0:22:48.868,0:22:51.970
Le même auteur qui est un de mes élèves
0:22:52.684,0:22:55.704
a aussi créé un éditeur[br]pour Shape Expressions
0:22:55.704,0:22:58.119
inspiré également [br]du service de requête Wikidata
0:22:58.119,0:23:00.681
où vous trouvez dans une colonne,
0:23:00.682,0:23:05.103
cet éditeur plus visuel de requêtes SPARQL
0:23:05.104,0:23:07.135
où vous pouvez introduire[br]ce genre de choses.
0:23:07.136,0:23:09.123
Ceci est une capture d'écran.
0:23:09.123,0:23:12.662
Vous pouvez voir [br]la Shape Expressions dans le texte,
0:23:12.662,0:23:17.822
mais celle-ci est basée sur formulaire,[br]ce qui prendrait un peu plus de temps
0:23:18.595,0:23:23.400
et vous pouvez placer les différentes[br]rangées sur différents champs.
0:23:23.401,0:23:25.800
Ensuite, il y a ShExEr
0:23:26.879,0:23:31.882
qui a été conçu par un doctorant[br]à l'université de Oviedo ;
0:23:31.883,0:23:34.080
il est présent et peut [br]donc nous présenter ShExEr.
0:23:38.147,0:23:40.024
(Danny) Bonjour, je suis Danny Fernández,
0:23:40.025,0:23:43.800
je suis doctorant à l’université d'Oviedo[br]et je travaille avec Labra.
0:23:44.710,0:23:47.725
Vu que nous n'avons pas[br]beaucoup de temps, je serai bref.
0:23:47.726,0:23:52.641
Je ne vais pas faire de démonstration,[br]mais juste imprimer des copies d'écran.
0:23:52.642,0:23:57.897
La façon usuelle de travailler avec[br]Shape Expressions ou tout autre langage
0:23:57.897,0:23:59.521
est d'avoir un expert de domaine
0:23:59.522,0:24:02.313
qui définit une priorité sur ce[br]à quoi devrait ressembler un graphe,
0:24:02.314,0:24:03.555
de définir des structures
0:24:03.556,0:24:06.983
et d'utiliser ces structures[br]pour valider les données réelles.
0:24:08.124,0:24:11.641
Cet outil, tout comme[br]ceux présentés par Labra
0:24:11.642,0:24:14.441
est un outil polyvalent pour[br]n'importe quelle source RDF
0:24:14.442,0:24:17.375
et est conçu pour travailler à l'envers.
0:24:17.376,0:24:18.758
Vous avez déjà des données,
0:24:18.759,0:24:23.165
vous sélectionnez les noeuds[br]dont vous voulez avoir la forme
0:24:23.165,0:24:26.718
et vous extrayez ou inférez[br]cette forme automatiquement.
0:24:26.719,0:24:29.791
Donc, même si cet outil est polyvalent,
0:24:29.791,0:24:34.063
ce qu'on a fait pour WikidataCon[br]est ce joli bouton
0:24:34.884,0:24:37.081
qui une fois pressé,
0:24:37.081,0:24:42.079
fait apparaître de nombreux[br]paramètres de configuration
0:24:42.080,0:24:46.251
et fait une configuration qui va[br]à l'encontre de l'extrémité Wikidata
0:24:46.251,0:24:47.971
[qui se termine], désolé.
0:24:48.733,0:24:52.883
Une fois que vous pressez le bouton,[br]c'est ce que vous obtenez.
0:24:52.884,0:24:55.126
Après avoir sélectionné [br]quel genre de notes,
0:24:55.127,0:24:59.360
quel genre d'instances de notre classe,[br]ou quoi que vous recherchiez,
0:24:59.361,0:25:01.321
vous obtenez un schéma automatique.
0:25:02.319,0:25:07.111
Les contraintes sont classées d'après[br]la quantité de modes qui s'y conforment
0:25:07.112,0:25:09.772
et vous pouvez filtrer ceux [br]qui sont moins communs, etc.
0:25:09.772,0:25:12.126
Il y a un poster en bas à ce sujet
0:25:12.127,0:25:14.595
et je serai en en bas et en haut
0:25:14.596,0:25:16.454
et un peu partout toute la journée.
0:25:16.455,0:25:19.081
Donc, si vous êtes [br]intéressés par cet outil,
0:25:19.082,0:25:21.476
venez me trouver.
0:25:21.477,0:25:24.624
Je repasse maintenant[br]le micro à Labra, merci.
0:25:24.625,0:25:29.265
(applaudissements)
0:25:29.812,0:25:32.578
(Jose) Poursuivons[br]avec les autres outils.
0:25:32.579,0:25:34.984
Le suivant est le ShapeDesigner.
0:25:34.984,0:25:37.241
Andra, veux-tu en parler maintenant
0:25:37.242,0:25:39.287
ou plus tard ou dans l'atelier ?
0:25:39.287,0:25:40.603
Il y a un atelier...
0:25:40.603,0:25:44.437
Cet après-midi, il y a un atelier[br]spécifiquement pour Shape Expressions.
0:25:45.265,0:25:47.939
L'idée était de faire[br]plus de travail pratique,
0:25:47.940,0:25:52.324
donc si ça vous tente, [br]vous pouvez le faire là.
0:25:52.875,0:25:55.720
L'outil est ShEx et[br]comme Eric est présent,
0:25:55.721,0:25:56.890
il peut nous en parler.
0:25:57.969,0:26:00.687
(Eric) Je voulais juste dire rapidement
0:26:00.687,0:26:05.711
que vous avez probablement[br]déjà vu l'interface ShEx
0:26:05.711,0:26:07.601
qui est adaptée pour Wikidata.
0:26:07.602,0:26:12.930
Elle a vraiment été dépouillée[br]et conçue spécifiquement pour Wikidata
0:26:12.930,0:26:17.627
car celle qui est générique a plus[br]de fonctions, mais il faut mentionner
0:26:17.627,0:26:20.197
le fait que l'une d'entre elles [br]est particulièrement utile
0:26:20.197,0:26:23.201
pour déboguer les schémas Wikidata.
0:26:23.201,0:26:29.224
Si vous sélectionnez le mode Slurp,
0:26:29.225,0:26:31.444
il va dire que lorsque je valide,
0:26:31.445,0:26:34.694
je veux rabattre tous les triples,[br]ce qui veut dire
0:26:34.695,0:26:36.274
que si j'ai un paquet d'erreurs,
0:26:36.275,0:26:39.586
je peux les examiner et dire :
0:26:39.587,0:26:41.800
« OK, quels sont [br]les triples présents ici »,
0:26:41.801,0:26:44.120
désolé, les triples sont là en bas,
0:26:44.121,0:26:46.271
ceci est simplement un registre[br]de ce qui s'est passé.
0:26:46.327,0:26:49.180
Vous pouvez ensuite[br]jouer avec en temps réel
0:26:49.181,0:26:51.213
comme vous le faites[br]avec quelque chose qui change.
0:26:51.213,0:26:54.160
C'est donc une version plus rapide[br]pour faire tout cela.
0:26:55.361,0:26:56.941
Ceci est un formulaire ShExC
0:26:56.941,0:26:59.455
que Joachim a suggéré
0:27:00.035,0:27:04.631
qui pourrait être utile pour[br]remplir des documents Wikidata
0:27:04.631,0:27:07.338
basé sur une Shape Expression[br]pour ce document.
0:27:08.095,0:27:11.511
Ceci n'est pas conçu pour Wikidata,
0:27:11.511,0:27:14.081
mais c'est simplement pour dire[br]que vous pouvez avoir un schéma
0:27:14.082,0:27:15.402
et des annotations
0:27:15.403,0:27:17.518
précisant la manière[br]dont le schéma est rendu ;
0:27:17.519,0:27:19.031
le formulaire est ensuite construit
0:27:19.031,0:27:21.801
et si vous avez des données,[br]elles peuvent même peupler le formulaire.
0:27:24.517,0:27:26.164
PyShEx [inaudible]
0:27:28.025,0:27:31.080
(Jose) Je crois que c'est le dernier.
0:27:31.821,0:27:34.080
En effet, PyShEx est le dernier.
0:27:34.675,0:27:38.151
PyShEx est une implémentation[br]Python de Shape Expressions.
0:27:39.193,0:27:42.680
Si vous voulez ce genre de choses, vous[br]pouvez aussi jouer avec Jupyter Notebooks.
0:27:42.680,0:27:44.432
OK, le sujet est bouclé.
0:27:44.433,0:27:47.170
(applaudissements)
0:27:52.916,0:27:57.073
(Andra) Je vais parler d'un projet [br]spécifique dans lequel je suis impliqué
0:27:57.074,0:27:58.654
appelé « Gene Wiki »
0:27:58.654,0:28:04.596
où nous avons aussi affaire [br]aux problèmes de qualité.
0:28:04.597,0:28:06.684
Mais avant de parler de qualité,
0:28:06.685,0:28:09.229
je vais rapidement[br]vous présenter Gene Wiki.
0:28:09.855,0:28:15.175
Nous venons juste de publier[br]un document récemment rédigé
0:28:15.175,0:28:18.160
qui explique les détails de ce projet.
0:28:19.821,0:28:23.839
Je vois les gens prendre des photos,[br]mais ce que fait Gene Wiki en gros,
0:28:23.846,0:28:28.027
c'est essayer d'obtenir des données[br]biomédicales publiques pour Wikidata ;
0:28:28.028,0:28:32.200
et nous suivons un modèle spécifique[br]pour inclure ces données dans Wikidata.
0:28:33.130,0:28:36.809
Donc, quand nous avons un nouveau[br]répertoire ou ensemble de données
0:28:36.810,0:28:39.360
qui qualifie pour[br]être inclus dans Wikidata,
0:28:39.360,0:28:41.293
la première étape est[br]l'engagement communautaire.
0:28:41.294,0:28:44.334
Il n'est pas nécessaire que ce soit[br]directement vers une communauté Wikidata,
0:28:44.334,0:28:46.120
mais une communauté de recherche locale.
0:28:46.121,0:28:50.286
Nous nous rencontrons en personne[br]ou en ligne ou sur une autre plateforme
0:28:50.286,0:28:52.881
et essayons de trouver[br]un modèle de données
0:28:52.882,0:28:56.197
qui fait le pont entre leurs données[br]et le modèle Wikidata.
0:28:56.197,0:28:59.944
J'ai ici une photo d'un atelier [br]de l'année dernière
0:28:59.945,0:29:02.663
qui s'est concentré sur [br]un ensemble de données spécifique,
0:29:02.663,0:29:05.280
et vous pouvez voir les discussions,
0:29:05.281,0:29:09.780
pour l'aligner avec schema.org[br]et d'autres ontologies existantes.
0:29:10.320,0:29:14.918
À la fin de la première étape,[br]nous avons un dessin de tableau blanc
0:29:14.918,0:29:17.336
du schéma que nous voulons [br]implémenter dans Wikidata.
0:29:17.337,0:29:20.440
Ce que vous voyez ici est simple,
0:29:20.441,0:29:21.766
il se trouve là à l'arrière
0:29:21.767,0:29:25.240
pour que nous puissions faire des schémas[br]dans ce panneau même aujourd'hui.
0:29:26.560,0:29:28.399
Une fois que ce schéma est en place,
0:29:28.400,0:29:31.320
il faut ensuite essayer de rendre[br]cette machine schéma lisible
0:29:32.358,0:29:36.841
car il faut avoir des modèles actionnables[br]pour importer les données
0:29:36.842,0:29:39.690
de toute base de données biomédicale[br]dans Wikidata.
0:29:40.393,0:29:45.182
C'est ici que nous appliquons[br]Shape Expressions
0:29:46.471,0:29:52.518
parce que celle-ci nous permet de tester
0:29:52.518,0:29:57.040
si l'ensemble de données...[br]non, d'abord de voir
0:29:57.041,0:30:01.782
si les données déjà existantes dans[br]Wikidata suivent le même modèle
0:30:01.783,0:30:04.718
qui a été atteint dans[br]le processus précédent.
0:30:04.719,0:30:07.021
Avec le Shape Expression,[br]nous pouvons donc vérifier
0:30:07.021,0:30:10.926
si certaines données dans Wikidata[br]doivent être nettoyées
0:30:10.926,0:30:15.013
ou si nous devons adapter notre modèle[br]à celui de Wikidata ou vice versa.
0:30:15.937,0:30:19.867
Une fois que tout est décidé et[br]que nous commençons d'écrire des bots,
0:30:20.670,0:30:23.801
ceux-ci sèmeront les informations
0:30:23.802,0:30:27.308
qui se trouvent dans [br]les sources primaires de Wikidata.
0:30:27.846,0:30:29.303
Quand ces bots sont prêts,
0:30:29.304,0:30:32.401
nous les écrivons
0:30:32.401,0:30:36.201
à l'aide d'une librairie Python[br]appelée « Wikidata Integrator »
0:30:36.202,0:30:38.167
qui est née de notre projet.
0:30:38.698,0:30:42.421
Une fois que nous avons nos bots, [br]nous utilisons une plateforme
0:30:42.421,0:30:44.540
appelée « Jenkins »[br]pour une intégration continuelle.
0:30:44.540,0:30:45.762
Avec Jenkins,
0:30:45.762,0:30:51.160
nous mettons sans arrêt à jour[br]les sources primaires dans Wikidata.
0:30:52.178,0:30:55.889
Voici un diagramme pour [br]le journal mentionné précédemment.
0:30:55.890,0:30:57.551
Ceci est notre environnement actuel.
0:30:57.551,0:31:02.059
Chaque boite orange est[br]une ressource primaire sur les drogues,
0:31:02.060,0:31:07.827
protéines, gènes, maladies,[br]composants chimiques avec interaction
0:31:07.827,0:31:11.270
et bien que ce modèle [br]soit trop petit pour être lisible,
0:31:11.270,0:31:17.472
voici la base de données, les sources[br]que nous traitons dans Wikidata
0:31:17.473,0:31:20.560
et connectons aux sources primaires.
0:31:20.561,0:31:22.355
Voilà le flux de travail.
0:31:22.870,0:31:25.312
Un de nos partenaires [br]est L'ontologie des Maladies
0:31:25.312,0:31:27.672
qui est une ontologie CC0 ;
0:31:28.179,0:31:31.990
celle-ci a son propre cycle de curation.
0:31:32.756,0:31:35.736
L'Ontologie des Maladies est[br]continuellement mise à jour
0:31:35.737,0:31:39.687
pour refléter l’espace maladie[br]ou l'interprétation des maladies.
0:31:40.336,0:31:44.361
Il existe le cycle de curation Wikidata[br]également sur les maladies
0:31:44.362,0:31:49.844
où la communauté Wikidata surveille[br]en permanence ce qui s'y passe.
0:31:50.406,0:31:51.601
Nous avons deux rôles
0:31:51.602,0:31:55.477
appelés familièrement [br]« gardien d'accès »
0:31:56.009,0:31:59.561
qu'un collègue et moi-même[br]assumions il y a cinq ans
0:31:59.562,0:32:03.414
où nous nous contentons de surveiller[br]Wikipedia et Wikidata sur nos ordinateurs
0:32:03.415,0:32:08.601
pour voir si un problème était [br]signalé à la communauté primaire,
0:32:08.602,0:32:11.765
dans quel cas ils examinaient[br]l'implémentation et décidaient :
0:32:11.765,0:32:14.240
« OK, pouvons-nous faire confiance[br]à cette entrée Wikidata ? »
0:32:14.850,0:32:18.555
Si oui, elle intègre le cycle
0:32:18.555,0:32:22.686
et la prochaine itération fait [br]alors partie de l'Oncologie des Maladies
0:32:22.687,0:32:25.411
et alimente Wikidata.
0:32:27.419,0:32:31.480
Nous faisons de même pour WikiPathways.
0:32:31.481,0:32:36.601
WikiPathways est inspiré du chemin[br]MediaWiki et du chemin répertoire.
0:32:36.602,0:32:40.901
De même, il y a déjà différents[br]chemins de ressources sur Wikidata.
0:32:41.463,0:32:44.713
Il peut y avoir des conflits [br]entre ces chemins de ressources
0:32:44.722,0:32:46.701
et ceux-ci sont signalés
0:32:46.702,0:32:49.521
à cette communauté [br]par les gardiens d'accès,
0:32:49.522,0:32:53.715
ce qui maintient les cycles [br]de conservation individuelle.
0:32:53.715,0:32:57.068
Mais si vous vous souvenez[br]du cycle précédent,
0:32:57.069,0:33:03.041
ici, je ne mentionne que [br]deux cycles, deux ressources,
0:33:03.566,0:33:06.300
nous devons faire cela pour[br]chaque ressource que nous avons
0:33:06.300,0:33:07.751
et nous devons gérer ce qui se passe
0:33:07.751,0:33:09.185
car quand je parle de « curation »,
0:33:09.185,0:33:12.187
je veux vraiment dire : consulter[br]les premières pages de Wikipedia
0:33:12.187,0:33:14.544
pour essayer de le faire.
0:33:14.545,0:33:19.316
Ce qui n'est pas faisable[br]pour nos deux gardiens d'accès.
0:33:19.860,0:33:22.777
Lors d'une conférence en 2016
0:33:22.778,0:33:26.933
où Eric a présenté Shape Expressions,
0:33:26.934,0:33:29.277
j'ai pris le train en marche[br]en disant : « OK,
0:33:29.278,0:33:34.240
Shape Expressions peut nous aider[br]à détecter les différences dans Wkikipedia
0:33:34.240,0:33:41.159
ce qui permettra aux gardiens d'accès[br]de faire un rapport plus efficace. »
0:33:42.275,0:33:46.019
J'ai été ravi par l'entité [br]schéma cette année
0:33:46.020,0:33:50.765
parce qu'on peut maintenant [br]stocker ces systèmes sur Wikidata
0:33:50.765,0:33:53.183
en elle-même, alors [br]qu'auparavant, c'était sur GitHub.
0:33:53.860,0:33:56.815
Et comme ceci s'aligne[br]sur l'interface Wikidata,
0:33:56.816,0:33:59.350
nous avons donc [br]des discussions de document,
0:33:59.350,0:34:00.762
mais aussi des révisions.
0:34:00.763,0:34:05.601
On peut donc tirer parti [br]des premières pages et des révisions
0:34:05.601,0:34:12.255
pour discuter du contenu de Wikidata
0:34:12.255,0:34:14.060
et celui des ressources primaires.
0:34:14.966,0:34:19.686
Ce que Eric vient de présenter[br]constitue déjà un bon bénéfice.
0:34:19.686,0:34:24.335
Ici, nous avons fait une Shape Expression[br]pour le gène humain
0:34:24.336,0:34:30.225
que nous avons soumise à un simple ShEx[br]et comme vous pouvez le voir,
0:34:30.225,0:34:32.428
nous avons déjà...
0:34:32.429,0:34:34.641
Un problème à surveiller
0:34:34.642,0:34:37.316
est quand un item [br]ne correspond pas à ce schéma,
0:34:37.316,0:34:43.139
vous pouvez créer déjà une sorte de [br]rapports de curation d'entités de schéma
0:34:43.140,0:34:46.240
et les envoyer aux différents[br]rapports de curation.
0:34:48.058,0:34:52.788
Mais le ShEx.js est[br]une interface construite,
0:34:52.788,0:34:55.860
voyez ici, je n'en fais que dix,
0:34:55.860,0:35:00.362
mais nous en avons des dizaines [br]de milliers, ce qui est démesuré.
0:35:00.362,0:35:04.654
À présent, le Wikidata Integrator[br]supporte aussi ShEx,
0:35:05.168,0:35:07.431
nous pouvons donc boucler [br]les circuits d'items
0:35:07.431,0:35:11.494
en disant : « Oui-Non, Oui-Non,[br]Vrai-Faux, Vrai-Faux ».
0:35:11.495,0:35:13.015
Cela augmente à nouveau
0:35:13.065,0:35:16.514
l'efficacité de la gestion des rapports.
0:35:17.256,0:35:22.662
Mais cela s'appuie[br]sur le Wikidata Query Service
0:35:23.181,0:35:24.998
et donc récemment, [br]nous nous voyons limités
0:35:24.999,0:35:26.560
à cause de ce manque d'ajustement.
0:35:26.561,0:35:31.391
Donc, la gestion des modèles sur Wikidata[br]est une procédure en cours.
0:35:32.202,0:35:36.682
ShEx est non seulement intimidant,
0:35:36.683,0:35:40.356
mais est d'une trop grande échelle[br]pour pouvoir le gérer.
0:35:41.068,0:35:45.631
J'ai donc commencé à travailler[br]avec un outil appelé « yED »
0:35:45.631,0:35:48.130
qui est ma première preuve[br]de concept ou exercice
0:35:48.184,0:35:52.590
en dessinant ces Shape Expressions
0:35:52.591,0:35:58.098
et en régénérant ce schéma
0:35:58.099,0:36:01.279
en ce format adjacent [br]des Shape Expressions
0:36:01.280,0:36:04.520
qui s'ouvrirait déjà à l'audience
0:36:04.521,0:36:07.432
qui est intimidée par [br]les langages Shape Expressions.
0:36:07.961,0:36:12.308
Mais il y a en fait un problème[br]avec des descriptions visuelles
0:36:12.309,0:36:18.229
car ce schéma a aussi été dessiné[br]dans yED par quelqu'un.
0:36:18.230,0:36:23.838
Il y en a un autre qui est splendide.
0:36:23.838,0:36:29.414
J'adorerais l'avoir sur mon mur,[br]mais il n'est pas encore interopérable.
0:36:30.281,0:36:32.131
Je voudrais donc clore mon discours
0:36:32.131,0:36:35.732
avec cette diapositive que[br]j'ai « empruntée » pour la première fois.
0:36:35.732,0:36:37.964
Nous sommes honorés [br]de l'avoir dans l'audience
0:36:37.964,0:36:39.423
et j'aime beaucoup ceci :
0:36:39.424,0:36:42.362
« Les gens pensent que RDF[br]est trop compliqué à utiliser.
0:36:42.362,0:36:44.375
La vérité est pire, c'est tellement simple
0:36:45.151,0:36:48.133
parce que vous devez travailler [br]avec des problèmes de données réels
0:36:48.134,0:36:50.031
qui sont horriblement compliqués.
0:36:50.031,0:36:51.451
Bien que vous pouvez éviter RDF,
0:36:51.451,0:36:55.760
il est plus dur d'éviter des données et[br]des problèmes d'ordinateur compliqués. »
0:36:55.761,0:36:59.535
On parle ici de RDF, mais je pense [br]que cela s'applique également au modelage.
0:37:00.112,0:37:02.769
Ce que je veux dire :
0:37:03.387,0:37:05.882
« Comment lancer la modélisation ? »
0:37:05.882,0:37:10.826
En discutant de ShEx ou [br]des modèles visuels ou autre...
0:37:11.426,0:37:13.271
Comment continuer ?
0:37:13.474,0:37:14.840
Merci de m'avoir écouté.
0:37:15.102,0:37:17.787
(applaudissements)
0:37:20.001,0:37:21.188
(Lydia) Merci beaucoup.
0:37:21.692,0:37:24.001
Pouvez-vous venir à l'avant
0:37:24.002,0:37:27.741
comme cela, nous pouvons[br]recevoir les questions de l'audience.
0:37:28.610,0:37:30.203
Il y a des questions ?
0:37:31.507,0:37:32.507
Oui.
0:37:34.253,0:37:36.890
Et pour la caméra, nous devrions...
0:37:38.835,0:37:40.968
(Lydia rit) Oui.
0:37:43.094,0:37:46.273
(Personne du public)[br]Une question pour Cristina.
0:37:47.366,0:37:51.641
Vous avez mentionné le terme[br]« gain d'information »
0:37:51.642,0:37:53.619
dans le cadre de connexion[br]avec d'autres systèmes.
0:37:53.619,0:37:55.269
Il y a une mesure théorique d'information
0:37:55.269,0:37:58.051
qui utilise statistique et probabilité[br]appelée « gain d'information ».
0:37:58.051,0:37:59.541
Avez-vous la même...
0:37:59.542,0:38:01.736
Parliez-vous de cette mesure,
0:38:01.736,0:38:04.173
du gain d'information[br]de la théorie de probabilité
0:38:04.174,0:38:05.470
de la théorie d'information
0:38:05.470,0:38:09.024
ou simplement d'un concept de mesure de[br]gain d'information d'une certaine façon ?
0:38:09.025,0:38:13.016
Non, nous avons en fait défini[br]et implémenté des mesures
0:38:13.695,0:38:19.911
qui utilisent l'entropie Shannon,[br]c'est à prendre dans ce sens.
0:38:19.911,0:38:22.596
Je ne voulais pas rentrer dans[br]les détails des formules concrètes...
0:38:22.596,0:38:25.557
(Personne du public) Non bien sûr,[br]c'est pour ça que j'ai posé la question.
0:38:25.557,0:38:26.598
Merci.
0:38:32.531,0:38:35.047
(Personne du public) C'est plus [br]un commentaire qu'une question.
0:38:35.048,0:38:36.241
(Lydia) Allez-y.
0:38:36.242,0:38:39.840
(Personne du public) Il y a eu beaucoup [br]d'attention au niveau de l'item
0:38:39.840,0:38:42.547
concernant la qualité et la complétion ;
0:38:42.547,0:38:47.374
ce qui me préoccupe est que nous ne[br]faisons pas de même pour les hiérarchies
0:38:47.374,0:38:51.480
et je crois que souvent,[br]notre hiérarchie n'est pas bonne.
0:38:51.481,0:38:53.463
Nous prévoyons que [br]cela va être un réel problème
0:38:53.464,0:38:55.774
avec la recherche des communs et autre.
0:38:56.771,0:39:00.601
Ce que nous pouvons faire[br]est importer de l'externe.
0:39:00.602,0:39:04.842
La façon dont les thésaurus externes[br]structurent leurs hiérarchies
0:39:04.842,0:39:10.291
en utilisant le qualificateur [br]de concept plus large P4900.
0:39:11.037,0:39:16.167
Mais ce qui serait plus utile[br]serait l'emploi de meilleurs outils
0:39:16.168,0:39:21.212
afin d'importer une hiérarchie[br]de thésaurus externe.
0:39:21.212,0:39:24.111
Incorporons ça dans nos items Wikidata.
0:39:24.111,0:39:28.199
Une fois que ces qualificateurs[br]P4900 sont en place,
0:39:28.200,0:39:31.494
vous pouvez faire de[br]la bonne requête avec SPARQL
0:39:32.490,0:39:37.534
pour voir si notre hiérarchie[br]diverge de cette hiérarchie externe.
0:39:37.534,0:39:41.346
For exemple, vous savez peut-être[br]que [Paula Morma], utilisatrice PKM
0:39:41.346,0:39:43.533
travaille beaucoup dans la mode.
0:39:43.533,0:39:50.524
Nous utilisons cela pour extraire la[br]hiérarchie du Europeana Fashion Thesaurus
0:39:50.524,0:39:53.812
et celle du thésaurus de mode Getty AAT
0:39:53.812,0:39:57.957
et nous voyons alors où sont[br]les espaces dans nos items haut niveau,
0:39:57.957,0:40:00.511
ce qui représente pour nous [br]un vrai problème car souvent,
0:40:00.511,0:40:04.355
ce sont des choses qui n'existent que[br]dans les pages de désambiguïsation,
0:40:04.356,0:40:09.270
ce qui fait que de nombreux articles de[br]haut niveau manquent dans nos hiérarchies,
0:40:09.271,0:40:14.480
c'est un problème que nous devons adresser[br]en termes de qualité et de complétion,
0:40:14.480,0:40:15.971
mais ce qui aiderait vraiment,
0:40:16.643,0:40:20.871
ce sont de meilleurs outils que [br]la jungle de scripts que j'ai écrits...
0:40:20.872,0:40:26.010
Si quelqu'un pouvait entrer cela [br]dans un notebook PAWS dans Python,
0:40:26.561,0:40:31.832
afin de prendre la hiérarchie[br]d'un thésaurus externe,
0:40:31.832,0:40:34.595
ce qui pourrait être disponible[br]en tant que données couplées ou pas,
0:40:35.379,0:40:40.580
et ensuite, de les placer dans les valeurs[br]P4900 en relevés rapides.
0:40:41.165,0:40:42.165
Et après,
0:40:42.166,0:40:45.917
quand notre représentation se complète,[br]mettre ces P4900 à jour,
0:40:45.917,0:40:49.691
parce qu'au fur et à mesure que [br]nos représentations deviennent obsolètes,
0:40:49.691,0:40:51.590
deviennent plus denses,
0:40:51.590,0:40:55.377
les valeurs de ces qualificateurs[br]doivent changer
0:40:56.230,0:40:59.526
pour représenter le fait qu'on ait plus[br]de leur hiérarchie dans notre système.
0:40:59.526,0:41:03.728
Si quelqu'un savait faire cela,[br]ce serait très utile.
0:41:03.728,0:41:07.121
Nous devons aussi[br]envisager d'autres approches
0:41:07.122,0:41:10.762
pour améliorer la qualité et[br]la complétion au niveau hiérarchique
0:41:10.763,0:41:12.378
et non simplement au niveau item.
0:41:13.308,0:41:15.080
(Andra) Je peux ajouter quelque chose ?
0:41:16.362,0:41:19.901
Oui, on fait déjà cela
0:41:19.911,0:41:23.551
et je recommande de regarder[br]la Shape Expression faite par Finn
0:41:23.552,0:41:27.330
avec les données lexicales [br]où il crée des Shape Expressions
0:41:27.330,0:41:29.640
et s'appuie sur les expressions d'auteur
0:41:29.641,0:41:32.528
pour obtenir un concept de [br]Shape Expressions liées dans Wikidata
0:41:32.529,0:41:34.495
et spécifiquement, si je comprends bien,
0:41:34.495,0:41:37.183
le cas d'utilisation est exactement[br]ce que l'on fait dans Gene Wiki.
0:41:37.184,0:41:40.841
Vous avez donc l’Ontologie de Maladies[br]placée dans Wikidata
0:41:40.842,0:41:44.681
et quand les données de maladie arrivent,[br]nous appliquons les Shape Expressions
0:41:44.682,0:41:47.247
pour voir si cela correspond [br]à ce thésaurus.
0:41:47.248,0:41:50.919
Il y a d'autres thésaurus et ontologies[br]pour les vocabulaires contrôlés
0:41:50.920,0:41:52.469
qui doivent toujours intégrer Wikidata
0:41:52.469,0:41:55.551
et c'est exactement pour cette raison[br]que Shape Expression est si intéressante
0:41:55.551,0:41:57.963
parce qu'on peut en avoir une[br]pour l'Ontologie de Maladies,
0:41:57.964,0:41:59.644
pour MeSH,
0:41:59.645,0:42:02.101
on peut dire : « OK, je veux[br]maintenant vérifier la qualité. »
0:42:02.101,0:42:04.629
Parce que dans Wikidata,[br]on aussi le contexte
0:42:04.629,0:42:09.567
où dans le cas d'un vocabulaire contrôlé,[br]vous décidez de la qualité en fonction de,
0:42:09.568,0:42:11.636
mais votre communauté[br]peut ne pas être d'accord.
0:42:11.636,0:42:16.081
L'outillage est donc en place,[br]il faut maintenant créer ces modèles
0:42:16.082,0:42:18.144
et les appliquer aux différents[br]cas d'utilisation.
0:42:18.681,0:42:20.921
(Personne du public) [br]La Shape Expression est très utile
0:42:20.922,0:42:25.928
une fois que l'ontologie externe[br]est cartographiée dans Wikidata,
0:42:25.929,0:42:29.474
mais mon problème est
0:42:29.475,0:42:34.881
de figurer l'ontologie externe[br]qui n'est pas déjà présente dans Wikidata
0:42:34.882,0:42:36.256
et de situer les espaces ;
0:42:36.257,0:42:40.660
et c'est là que le fait[br]d'avoir des outils plus robustes
0:42:40.660,0:42:44.286
pour voir les parties manquantes[br]des ontologies externes
0:42:44.286,0:42:45.537
devient très utile.
0:42:47.678,0:42:49.062
Le plus grand problème
0:42:49.062,0:42:51.201
est non pas l'outillage,[br]mais les licences.
0:42:51.803,0:42:55.249
Mettre les ontologies dans Wikidata[br]est en fait un jeu d'enfant,
0:42:55.250,0:42:59.295
mais la plupart des ontologies ont...[br]comment dire ça poliment,
0:42:59.965,0:43:03.256
...des licences restrictives et donc,[br]non compatibles avec Wikidata.
0:43:03.758,0:43:06.678
(Personne du public) Il y a un grand[br]nombre de thésaurus de secteur public
0:43:06.678,0:43:08.209
dans les champs culturels.
0:43:08.210,0:43:11.141
- (Andra) On doit alors en discuter.[br]- (Personne du public) Pas de soucis.
0:43:11.141,0:43:12.384
(Andra) On doit en parler.
0:43:13.624,0:43:19.192
(Personne du public) Mon commentaire [br]est en fait une réponse à James.
0:43:19.192,0:43:22.401
Les hiérarchies font des graphes
0:43:22.374,0:43:24.041
et quand tu veux...
0:43:24.579,0:43:28.888
Je veux dire que le problème[br]commun des hiérarchies
0:43:28.889,0:43:30.820
sont les hiérarchies circulaires,
0:43:30.821,0:43:33.796
elles reviennent l'une vers l'autre[br]quand il y a un problème,
0:43:33.796,0:43:35.920
ce qui ne devrait pas arriver.
0:43:37.022,0:43:41.295
Curieusement, cela arrive fréquemment [br]dans les catégories de Wikipedia,
0:43:41.295,0:43:42.990
elles sont souvent circulaires,
0:43:43.898,0:43:46.612
mais la bonne nouvelle est que...
0:43:47.713,0:43:51.392
Techniquement, c'est impossible à trouver[br]car c'est un problème complet PMP
0:43:51.392,0:43:53.414
et facile si on construit [br]un graphe à cet effet.
0:43:54.473,0:43:57.046
Mais il y a de nombreuses manières[br]qui ont été développées
0:43:57.047,0:44:00.624
pour trouver les problèmes[br]dans ces graphes hiérarchiques.
0:44:00.625,0:44:04.860
Comme ce document [br]appelé « Finding cycles...
0:44:04.861,0:44:07.955
Breaking cycles in Noisy Hierarchies »
0:44:07.956,0:44:12.671
qui a été utilisé pour aider[br]la catégorisation de Wikipédia Anglais.
0:44:12.672,0:44:17.141
On peut appliquer cela[br]aux hiérarchies dans Wikidata
0:44:17.142,0:44:19.540
et ensuite, trouver [br]ce qui est problématique
0:44:19.541,0:44:22.481
et supprimer les causeurs de trouble
0:44:22.482,0:44:24.593
et trouver les problèmes.
0:44:24.594,0:44:26.960
C'est juste une idée pour vous...
0:44:28.090,0:44:29.930
(Personne du public)[br]Tout cela est bel et bien,
0:44:29.931,0:44:31.982
mais je crois que vous sous-estimez
0:44:31.982,0:44:35.402
le nombre de relations défaillantes[br]entre les sous-classes que nous avons.
0:44:35.403,0:44:39.680
C'est comme avoir[br]une ville dans le mauvais pays
0:44:40.250,0:44:44.874
et il existe des outils [br]géographiques pour cela.
0:44:44.875,0:44:49.201
Nous devons avoir de bien [br]meilleurs outils en hiérarchies
0:44:49.202,0:44:53.477
pour identifier l'item manquant
0:44:53.478,0:44:57.673
ou s'il a été en fait sous-classé
0:44:57.674,0:45:01.804
à un élément qui ne veut pas dire[br]quelque chose de tout à fait différent.
0:45:02.804,0:45:07.165
(Lydia) Je pense que[br]tu as mis le doigt dessus.
0:45:07.166,0:45:12.024
Mon équipe et moi-même [br]avons les mêmes retours des gens
0:45:12.025,0:45:13.991
qui réutilisent nos données ;
0:45:15.002,0:45:17.078
Un point de donnée[br]individuel peut être intéressant,
0:45:17.078,0:45:20.163
mais s'il faut examiner l'ontologie, etc.,
0:45:20.164,0:45:21.857
cela devient très...
0:45:22.388,0:45:26.437
Je pense qu'un des grands problèmes[br]pourquoi cela se produit
0:45:26.437,0:45:30.736
est que nombreuses éditions dans Wikidata
0:45:30.736,0:45:34.544
s'effectuent sur base[br]d'un élément individuel,
0:45:34.545,0:45:36.201
on modifie cet item
0:45:37.653,0:45:42.075
sans réaliser que cela peut avoir[br]des conséquences globales
0:45:42.075,0:45:44.245
sur le reste du graphe, par exemple.
0:45:44.245,0:45:50.040
Si les gens avaient des idées[br]sur comment rendre plus visibles
0:45:50.041,0:45:53.185
les conséquences d'une modification[br]locale individuelle,
0:45:54.005,0:45:56.537
il faudrait prendre la peine[br]de les explorer
0:45:57.550,0:46:00.603
pour mieux montrer aux gens
0:46:00.603,0:46:03.434
quelles sont les conséquences[br]de leur édition,
0:46:03.811,0:46:05.481
même si celle-ci est de bonne foi.
0:46:06.939,0:46:12.237
Commençons par ici,[br]oui, vous, puis vous et vous et vous !
0:46:12.237,0:46:13.921
(Personne du public) Après la discussion,
0:46:13.922,0:46:18.262
simplement pour exprimer[br]mon accord avec James.
0:46:18.263,0:46:22.467
Il semble que la chose[br]la plus dangereuse est la hiérarchie,
0:46:22.468,0:46:23.910
pas la hiérarchie, mais en général,
0:46:23.911,0:46:28.022
les sémantiques des relations [br]entre sous-classes dans Wikidata,.
0:46:28.022,0:46:32.561
J'ai récemment étudié les langages[br]en vue de cette conférence
0:46:32.562,0:46:35.257
et par exemple, vous trouvez plein de cas
0:46:35.257,0:46:39.463
où le langage fait partie [br]des sous-classes.
0:46:39.463,0:46:43.577
On peut alors dire[br]qu'on a une ontologie flexible.
0:46:43.577,0:46:46.256
Parfois, Wikidata vous donne[br]cette liberté d'expression.
0:46:46.256,0:46:47.257
Parce que par exemple,
0:46:47.258,0:46:50.721
cette ontologie de langages est[br]aussi politiquement compliquée, pas vrai ?
0:46:50.722,0:46:54.828
Il est même bon d'être en position[br]d'exprimer un niveau d'incertitude.
0:46:54.828,0:46:58.093
Mais imaginez quelqu'un qui veut faire[br]de la lecture automatique à partir de ça.
0:46:58.093,0:46:59.468
C'est vraiment problématique.
0:46:59.468,0:47:00.468
Et de nouveau,
0:47:00.469,0:47:03.556
je ne pense pas que cette ontologie[br]a été importée de quelque part
0:47:03.556,0:47:05.770
c'est quelque chose qui [br]originairement nous appartient.
0:47:05.770,0:47:08.321
Je dirais que c'est récolté[br]de Wikipédia au tout début.
0:47:08.322,0:47:11.324
Donc, je me demande...[br]Cette Shape Expressions est super
0:47:11.325,0:47:15.575
et le fait de valider et rectifier[br]l'ontologie Wikidata
0:47:15.576,0:47:18.191
par des ressources externes, belle idée.
0:47:19.026,0:47:20.026
À la fin,
0:47:20.027,0:47:25.440
terminerons-nous en réfléchissant sur[br]les ontologies externes dans Wikidata ?
0:47:25.441,0:47:28.651
Et aussi, à ce que nous faisons avec[br]la partie centrale de notre ontologie
0:47:28.652,0:47:30.642
qui n'est jamais récoltée[br]de ressources externes,
0:47:30.643,0:47:31.978
comment résoudre cela ?
0:47:31.979,0:47:35.276
Et je pense que ce sera [br]un problème en soi.
0:47:35.277,0:47:39.010
Nous devrons nous concentrer[br]sur cela indépendamment du fait
0:47:39.010,0:47:41.046
de valider l'ontologie[br]avec un élément externe.
0:47:49.353,0:47:53.079
(Personne du public) Les contraintes [br]et formes ainsi que leurs usages
0:47:53.079,0:47:54.495
sont vraiment impressionnantes,
0:47:55.205,0:47:58.481
mais le point principal n'est pas clair
0:47:58.482,0:48:03.229
car nous pouvons maintenant rendre[br]nos attentes des données plus explicites.
0:48:03.229,0:48:06.893
Avant, chacun devait écrire[br]ses propres outils et scripts
0:48:06.894,0:48:10.601
pour qu'ils soient plus visibles[br]et accessibles de discussion.
0:48:10.602,0:48:13.641
Mais il ne s'agit pas[br]de ce qui est juste ou non,
0:48:13.642,0:48:15.870
il s'agit d'une attente
0:48:15.870,0:48:18.105
et il y aura différentes[br]attentes et discussions
0:48:18.106,0:48:20.737
sur comment modeler dans Wikidata
0:48:21.246,0:48:23.095
et ceci...
0:48:23.096,0:48:26.280
L'état actuel est simplement[br]un pas dans la direction
0:48:26.281,0:48:28.041
parce qu'à présent,
0:48:28.042,0:48:31.041
il faut une grande expertise technique[br]pour s'impliquer
0:48:31.042,0:48:35.721
et nous devons avoir de meilleurs moyens[br]pour visualiser cette contrainte ;
0:48:35.722,0:48:39.995
de peut-être la transformer en un langage[br]naturel pour une meilleure compréhension,
0:48:40.939,0:48:43.768
il ne s'agit pas de juste ou faux.
0:48:44.925,0:48:45.925
(Lydia) Oui.
0:48:50.986,0:48:53.893
(Personne du public) [br]Concernant les problèmes de qualité,
0:48:53.894,0:48:57.010
j'ai trouvé que nombreux problèmes[br]que j'ai rencontrés consistaient
0:48:58.838,0:49:02.330
en une différence d'opinion entre[br]« instance de » comparé à « sous-classe ».
0:49:02.331,0:49:05.963
Dans ces situations, je dirais[br]que ce sont des « erreurs »
0:49:05.963,0:49:11.521
et les trouver est[br]une procédure chronophage.
0:49:11.522,0:49:14.840
Ce que j'ai trouvé est : « Oh, si[br]je trouve des articles de haute qualité
0:49:14.840,0:49:16.051
qui sont...
0:49:16.052,0:49:21.628
pour ensuite utiliser toutes les instances[br]sous-classe et leurs relevés dérivés »,
0:49:21.628,0:49:26.215
c'est une manière utile[br]de chercher ces erreurs.
0:49:26.215,0:49:28.067
Mais je me demandais si Shape Expressions,
0:49:29.841,0:49:31.582
s'il y a...
0:49:31.583,0:49:36.934
si elle peut être utilisée comme outil[br]pour aider à résoudre ces problèmes...
0:49:40.314,0:49:42.555
(Personne du public)[br]S'il y a une empreinte structurée
0:49:45.910,0:49:49.010
que l'on peut...[br]qui est en sorte falsifiable,
0:49:49.010,0:49:51.191
on peut l'examiner et [br]reconnaître qu'elle est fausse,
0:49:51.192,0:49:52.670
alors oui, on peut le faire.
0:49:52.671,0:49:56.921
Mais si c'est pour l'associer[br]à des objets réels,
0:49:56.922,0:49:59.082
cela va demander beaucoup de cerveaux.
0:50:05.768,0:50:08.631
Bonjour, je suis Pablo Mendes [br]de Siri Knowledge de Apple.
0:50:09.154,0:50:12.770
Nous sommes ici pour découvrir[br]comment aider le projet et la communauté,
0:50:12.770,0:50:15.645
mais Cristina a commis l'erreur[br]de nous demander ce qu'on voulait.
0:50:16.471,0:50:20.052
(rire) Une des choses que j'aimerais voir,
0:50:20.958,0:50:23.521
c'est attacher de l'importance[br]à la vérifiabilité
0:50:23.522,0:50:26.372
qui est un des principes essentiels[br]du projet dans la communauté
0:50:27.062,0:50:28.590
ainsi que la fiabilité.
0:50:28.590,0:50:32.162
Tous les énoncés ne sont pas identiques,[br]certains d'entre eux sont très disputés,
0:50:32.162,0:50:33.893
certains d'entre eux [br]sont faciles à deviner
0:50:33.893,0:50:35.931
comme une date de naissance[br]qui peut être vérifiée,
0:50:35.931,0:50:39.172
mais comme vous l'avez vu dans Keynote,[br]la question de genre est plus compliquée.
0:50:40.205,0:50:43.040
Pouvez-vous nous parler davantage[br]de ce que vous savez au sujet
0:50:43.040,0:50:47.271
de la qualité de données[br]concernant la fiabilité et vérifiabilité ?
0:50:55.442,0:50:58.138
Et si ce n'est pas grand-chose,[br]j'aimerais en savoir plus. (rire)
0:51:00.646,0:51:01.646
(Lydia) Oui.
0:51:03.314,0:51:06.548
Apparemment, il n'y a [br]pas grand-chose à dire. (rire)
0:51:08.024,0:51:12.299
(Andra) Je pense que nous pouvons faire[br]beaucoup et j'ai discuté hier avec vous.
0:51:12.300,0:51:15.774
Mon exemple favori d'hier[br]qui est déjà obsolète
0:51:15.774,0:51:20.281
est que si vous allez [br]sur Q2 qui est la terre,
0:51:20.282,0:51:23.343
il y a une déclaration qui dit[br]que la terre est plate.
0:51:24.183,0:51:26.055
J'adore cet exemple
0:51:26.056,0:51:28.391
parce qu'il existe une communauté[br]qui déclare cela
0:51:28.392,0:51:30.417
et ils possèdent des sources vérifiables.
0:51:30.418,0:51:32.254
Je pense que ce cas est véritable,
0:51:32.255,0:51:34.961
qu'il ne devrait pas être déprécié[br]et devrait être dans Wikidata.
0:51:34.961,0:51:40.385
C'est une circonstance où[br]Shape Expressions peut être décisif
0:51:40.386,0:51:41.832
parce que vous pouvez dire
0:51:41.833,0:51:44.856
que vous êtes vraiment[br]intéressé par ce cas d'utilisation,
0:51:44.857,0:51:47.129
ou il se peut que[br]vous ne soyez pas d'accord,
0:51:47.130,0:51:50.869
mais ce cas d'utilisation pourrait[br]également vous intéresser.
0:51:50.869,0:51:53.449
Il y a aussi cet exemple[br]où vous dites que vous avez du glucose.
0:51:53.449,0:51:55.841
Mais quand vous êtes biologiste,
0:51:55.842,0:52:00.176
vous ne vous souciez pas des contraintes[br]chimiques de la molécule de glucose,
0:52:00.177,0:52:03.201
tout est pareil en ce[br]qui concerne le glucose.
0:52:03.202,0:52:06.123
Mais si vous êtes chimiste, vous grincerez[br]des dents en entendant cela,
0:52:06.123,0:52:08.191
vous avez 200...
0:52:08.191,0:52:10.443
Vous pouvez alors avoir[br]des Shape Expressions multiples,
0:52:10.443,0:52:12.721
d'un point de vue chimique,
0:52:12.722,0:52:13.887
j'appliquerai cela.
0:52:13.887,0:52:16.691
Mais d'un point de vue biologique,
0:52:16.691,0:52:18.524
j'appliquerai cette Shape Expression.
0:52:18.524,0:52:20.358
Et quand vous voulez collaborer,
0:52:20.358,0:52:22.784
parlez plutôt à Eric des cartes ShEx.
0:52:23.910,0:52:28.873
Mais cette aventure ne fait que commencer.
0:52:28.873,0:52:32.238
Et personnellement, je pense qu'il y aura[br]un rôle à jouer dans ce domaine.
0:52:34.292,0:52:35.535
(Lydia) OK. Ici.
0:52:37.949,0:52:39.168
(rire)
0:52:40.597,0:52:46.035
(Personne du public) J'ai eu plusieurs[br]idées en entendant les discussions,
0:52:46.035,0:52:50.902
je vais essayer de ne pas les perdre.
0:52:52.394,0:52:55.201
Basé sur ce que James a dit auparavant,
0:52:55.202,0:52:59.001
depuis le début, nous avons [br]un très gros problème dans Wikidata
0:52:59.002,0:53:01.574
pour l'ontologie supérieure.
0:53:02.363,0:53:05.339
Nous en avons parlé il y a deux ans[br]lors de WikidataCon
0:53:05.340,0:53:07.432
et nous en avons parlé à Wikimania.
0:53:07.432,0:53:09.818
Chaque fois que nous avons[br]une réunion Wikidata,
0:53:09.818,0:53:11.656
nous en parlons
0:53:11.656,0:53:15.782
car c'est un très gros problème[br]de tout premier abord ;
0:53:15.783,0:53:23.118
quelle est l'entité,quel est le travail,[br]quel est le genre, l'art,
0:53:23.118,0:53:25.461
ce sont les plus grands concepts.
0:53:26.675,0:53:33.117
Et c'est en fait un point très faible[br]de l'ontologie globale
0:53:33.118,0:53:37.453
parce que les gens essaient[br]de nettoyer régulièrement
0:53:38.017,0:53:41.047
et finissent par tout casser ;
0:53:42.516,0:53:48.649
je pense que certains se souviennent[br]peut-être du gars qui candidement,
0:53:48.649,0:53:51.785
a cassé toutes les villes du monde.
0:53:51.785,0:53:57.537
On n'était plus des items géographiques,[br]donc contraintes de violation partout.
0:53:58.720,0:54:00.278
Et c'était de bonne foi
0:54:00.278,0:54:03.623
parce qu'il apportait vraiment[br]une correction à un article,
0:54:04.170,0:54:05.732
mais tout s'est écroulé.
0:54:06.349,0:54:09.373
Je ne sais pas trop comment résoudre cela
0:54:10.216,0:54:15.709
parce qu'il n'existe pas[br]d'institution externe à copier
0:54:15.710,0:54:18.490
car tout le monde travaille sur...
0:54:19.154,0:54:22.041
Si je suis la base de données [br]d'art performant,
0:54:22.042,0:54:24.601
j'irai simplement à[br]l'étiquette d'art performant,
0:54:24.601,0:54:29.361
je n'irai pas sur le concept[br]philosophique de ce qu'est une entité
0:54:29.362,0:54:31.201
et c'est en fait...
0:54:31.202,0:54:34.561
Je ne connais aucune base de données[br]qui travaille à ce niveau,
0:54:34.562,0:54:36.827
mais ça, c'est le point[br]le plus faible de Wikidata.
0:54:37.936,0:54:40.812
Et il est probable que quand[br]nous parlons de qualité de données,
0:54:40.812,0:54:44.034
cela en constitue[br]une grande partie, donc...
0:54:44.034,0:54:48.569
Et c'est ce que nous avons[br]aussi mentionné dans...
0:54:48.569,0:54:50.452
Désolée, je change de sujet,
0:54:51.401,0:54:55.774
mais dans différentes sessions[br]concernant la qualité, nous avons remarqué
0:54:55.774,0:54:59.398
que certains d'entre nous[br]font un bon travail de modélisation,
0:54:59.399,0:55:01.240
de ShEx et autres choses.
0:55:01.967,0:55:07.655
Les gens ne voient pas ça dans Wikidata,[br]ils ne voient pas le ShEx,
0:55:07.655,0:55:10.392
ils ne voient pas le WikiProject[br]sur la page de discussion
0:55:10.393,0:55:11.393
et parfois,
0:55:11.394,0:55:14.958
ils ne voient même pas [br]les pages de discussion des propriétés
0:55:14.958,0:55:19.628
qui dit clairement :[br]a) cette propriété est utilisée pour cela.
0:55:19.628,0:55:23.887
La semaine dernière, j'ai ajouté [br]des contraintes à une propriété.
0:55:23.888,0:55:26.324
La contrainte était écrite explicitement
0:55:26.325,0:55:28.690
dans la discussion [br]de la création de la propriété.
0:55:28.690,0:55:34.548
J'ai juste créé la partie technique[br]d'ajout de contrainte et quelqu'un :
0:55:34.548,0:55:37.182
« Quoi ! Tu as cassé[br]toutes mes modifications ! ».
0:55:37.183,0:55:41.542
Et il se fait qu'il utilisait la propriété[br]incorrectement depuis deux ans.
0:55:41.542,0:55:46.868
Et celle-ci était en fait très claire,[br]mais il n'y a eu aucun avertissement ;
0:55:46.869,0:55:49.922
et c'est pareil pour Pink Pony,[br]nous avons dit à Wikimania
0:55:49.922,0:55:54.719
de rendre plus visible[br]le WikiProject ou ShEx, mais...
0:55:54.719,0:55:56.917
Et c'est ce qu'a dit Cristina.
0:55:56.917,0:56:02.368
Nous avons un problème de visibilité[br]concernant les solutions existantes.
0:56:02.368,0:56:04.242
Dans cette session,
0:56:04.242,0:56:06.862
nous parlons tous de [br]comment créer plus de ShEx
0:56:06.863,0:56:10.727
ou de faciliter les tâches [br]des gens qui font le nettoyage.
0:56:11.605,0:56:15.835
Mais depuis le premier jour de Wikidata,[br]nous nettoyons
0:56:15.836,0:56:20.921
et globalement, nous sommes[br]en train de perdre la partie parce que
0:56:20.922,0:56:22.960
je sais que les noms sont compliqués,
0:56:22.961,0:56:26.162
mais je suis la seule à nettoyer,
0:56:26.662,0:56:29.671
celui qui a ajouté le nom scripté latin
0:56:29.672,0:56:31.584
à tous les chercheurs chinois,
0:56:32.088,0:56:35.616
cela me prendra des mois pour nettoyer[br]et je ne peux pas le faire seule,
0:56:35.616,0:56:38.777
et de plus, il a fait un lot énorme.
0:56:38.777,0:56:40.241
Nous avons vraiment besoin...
0:56:40.242,0:56:44.158
Notre problème de visibilité est[br]plus important de celui des outils
0:56:44.158,0:56:45.733
car nous avons de nombreux outils.
0:56:45.733,0:56:50.255
(Lydia) Malheureusement, [br]on me fait signe (rit),
0:56:50.256,0:56:52.121
nous devons donc terminer.
0:56:52.122,0:56:53.563
Merci à tous pour vos commentaires.
0:56:53.563,0:56:56.611
J'espère voir la discussion se prolonger[br]au cours de la journée
0:56:56.611,0:56:58.119
et merci pour votre contribution.
0:56:58.359,0:56:59.944
(applaudissements)