WEBVTT
00:00:04.035 --> 00:00:05.945
Panel sur la qualité des données
00:00:05.945 --> 00:00:09.476
Bonjour à tous, bienvenue
au groupe Qualité de Données.
00:00:10.288 --> 00:00:13.671
La qualité de données est importante
car de plus en plus de gens
00:00:13.672 --> 00:00:19.289
se basent sur nos bonnes données
et donc, nous allons parler de qualité.
00:00:20.029 --> 00:00:26.000
Il y aura quatre orateurs qui
présenteront des introductions
00:00:26.000 --> 00:00:29.539
sur des sujets concernant la qualité
de données suivies de questions-réponses.
00:00:30.130 --> 00:00:32.234
Le premier est Lucas.
00:00:34.385 --> 00:00:35.385
Merci.
00:00:35.901 --> 00:00:39.899
Je m'appelle Lucas et je vais
commencer par une vue générale
00:00:39.899 --> 00:00:43.806
des outils de qualité de données
que nous possédons déjà sur Wikidata
00:00:43.807 --> 00:00:46.109
et sur les prochaines nouveautés.
00:00:46.932 --> 00:00:50.623
Je les ai regroupés par thèmes :
00:00:50.623 --> 00:00:53.761
rendre les erreurs plus visibles,
les problèmes actionnables,
00:00:53.762 --> 00:00:56.752
avoir plus de vues sur les données
pour que les problèmes soient remarqués,
00:00:56.945 --> 00:01:02.616
remédier aux sources communes d'erreurs,
maintenir la qualité existante
00:01:02.616 --> 00:01:03.966
et le référencement humain.
00:01:05.063 --> 00:01:09.874
Et ce qui est actuellement disponible
commence par les contraintes de propriété.
00:01:10.068 --> 00:01:12.421
Si vous êtes sur Wikidata,
ceci vous est sûrement familier.
00:01:12.422 --> 00:01:15.480
Des icônes vérifiant
la cohérence interne des données
00:01:15.480 --> 00:01:17.241
sont parfois présentes.
00:01:17.242 --> 00:01:20.800
Par exemple,
si un événement en suit un autre,
00:01:20.801 --> 00:01:23.760
cet autre devrait aussi
être suivi par celui-ci,
00:01:23.761 --> 00:01:27.161
ce qui n'est apparemment pas
sur l'item WikidataCon.
00:01:27.162 --> 00:01:29.600
Je ne suis pas sûr, cette fonction
date que quelques jours.
00:01:30.040 --> 00:01:34.681
Et si ceci est trop limité
ou simple pour vous,
00:01:34.682 --> 00:01:38.080
vous pouvez utiliser n'importe
quelle vérification grâce à Query Service,
00:01:38.081 --> 00:01:39.842
ce qui est bien sûr très pratique.
00:01:39.843 --> 00:01:44.543
Mais vous pouvez aussi l'utiliser
pour déterminer les erreurs.
00:01:44.544 --> 00:01:46.974
Si vous avez remarqué une erreur,
00:01:46.975 --> 00:01:49.709
vous pouvez regarder
00:01:49.710 --> 00:01:51.958
si d'autres erreurs similaires
ont été commises
00:01:51.958 --> 00:01:53.438
et les trouver avec le Query Service.
00:01:53.439 --> 00:01:55.039
Vous pouvez également
combiner les deux
00:01:55.039 --> 00:01:57.874
et rechercher
des violations de contrainte,
00:01:57.875 --> 00:02:01.240
par exemple, uniquement
celles dans une zone particulière
00:02:01.241 --> 00:02:03.762
ou un WikiProject qui vous est pertinent.
00:02:03.762 --> 00:02:06.828
Malheureusement, les résultats
ne sont actuellement pas complets.
00:02:08.422 --> 00:02:09.877
Il existe la notation de révision.
00:02:10.690 --> 00:02:12.666
Provenant des changements récents,
00:02:12.667 --> 00:02:16.217
vous pouvez aussi avoir
une évaluation automatique :
00:02:16.217 --> 00:02:20.249
cette édition est-elle faite
de bonne ou mauvaise volonté
00:02:20.250 --> 00:02:22.312
et peut-elle être préjudiciable ou non.
00:02:22.313 --> 00:02:24.205
Voilà les deux dimensions.
00:02:24.206 --> 00:02:25.686
Vous pouvez si vous le voulez,
00:02:25.687 --> 00:02:29.898
vous concentrer sur les éditions
néfastes mais de bonne volonté.
00:02:29.899 --> 00:02:32.803
Si vous êtes dans une humeur
particulièrement amicale et accueillante,
00:02:32.803 --> 00:02:37.121
vous pouvez dire à ces éditeurs :
« Merci pour votre contribution,
00:02:37.122 --> 00:02:40.560
vous auriez dû le faire comme ça,
mais merci quand même. »
00:02:40.561 --> 00:02:42.046
Si vous n'êtes pas dans cette humeur,
00:02:42.046 --> 00:02:44.562
vous pouvez examiner les éditions
préjudiciables de mauvaise foi
00:02:44.562 --> 00:02:45.933
et inverser le vandalisme.
00:02:47.544 --> 00:02:49.761
Il y a aussi la notation d'entité.
00:02:49.762 --> 00:02:52.590
Au lieu de noter une édition,
la modification apportée,
00:02:52.591 --> 00:02:53.904
vous notez la révision complète
00:02:53.904 --> 00:02:56.483
et je pense que c'est
la même mesure de qualité
00:02:56.483 --> 00:02:59.863
que Lydia mentionne
au début de la conférence.
00:03:00.372 --> 00:03:04.569
Cela nous donne un script d'utilisateur
et un score de un à cinq, je pense,
00:03:04.570 --> 00:03:08.176
de la qualité de l'item actuel.
00:03:10.043 --> 00:03:15.108
L'outil des sources primaires s'utilise
pour toute base de données à importer,
00:03:15.108 --> 00:03:18.364
mais n'est pas d'assez bonne qualité que
pour être ajouté directement à Wikidata.
00:03:18.374 --> 00:03:20.585
Il doit donc être ajouté
à l'outil des sources primaires
00:03:20.585 --> 00:03:22.956
pour que les humains puissent décider
00:03:22.956 --> 00:03:26.024
d'ajouter ces énoncés individuels ou non.
00:03:28.595 --> 00:03:31.901
Afficher les coordonnées
sous forme de cartes est pratique,
00:03:31.901 --> 00:03:33.798
mais peut aussi
servir de contrôle qualité.
00:03:33.798 --> 00:03:36.937
Si vous voyez que les coordonnées
du bureau de Wikimedia Germany
00:03:36.938 --> 00:03:39.400
se trouvent quelque part
dans l'océan Indien,
00:03:39.401 --> 00:03:41.529
vous savez que quelque chose ne va pas
00:03:41.530 --> 00:03:44.790
et cela se remarque plus facilement
que simplement avec des chiffres.
00:03:46.382 --> 00:03:49.576
C'est un gadget appelé
« l'indicateur de complétude relative »
00:03:49.577 --> 00:03:52.480
qui vous montre cette petite icône ici
00:03:53.007 --> 00:03:55.652
vous donnant son estimation
de complétion de l'item
00:03:55.652 --> 00:03:57.613
ainsi que les propriétés manquantes,
00:03:57.614 --> 00:03:59.769
ce qui est très utile
si vous éditez un item,
00:03:59.769 --> 00:04:03.172
que vous êtes dans une zone peu familière
00:04:03.172 --> 00:04:05.901
et que ne savez pas quelles sont
les propriétés correctes à employer,
00:04:05.901 --> 00:04:08.230
c'est alors un gadget très utile.
00:04:09.604 --> 00:04:11.401
Il y a aussi les « Shape Expressions ».
00:04:11.402 --> 00:04:15.624
Andra et Jose nous en parleront davantage,
00:04:15.624 --> 00:04:19.757
mais c'est en gros, un moyen puissant
de comparer les données
00:04:19.758 --> 00:04:20.758
par rapport au schéma,
00:04:20.759 --> 00:04:22.690
comme quel état devrait
avoir certaines entités,
00:04:22.690 --> 00:04:26.067
à quelles autres devraient-elles se lier
et à quoi devraient-elles ressembler,
00:04:26.229 --> 00:04:29.374
vous pouvez ainsi trouver les problèmes.
00:04:30.366 --> 00:04:32.361
Ce n'est pas fini.
00:04:32.362 --> 00:04:34.321
« Integraality » ou
tableau de bord de propriété.
00:04:34.322 --> 00:04:36.773
Il vous fournit une vue rapide
de vos données existantes.
00:04:36.774 --> 00:04:39.147
Par exemple, ceci provient
du WikiProject « Red Pandas »
00:04:39.657 --> 00:04:41.681
et vous pouvez voir que le sexe ou genre
00:04:41.682 --> 00:04:43.561
de presque tous les pandas sont assignés.
00:04:43.561 --> 00:04:46.854
La date de naissance varie selon leur zoo
00:04:46.854 --> 00:04:50.255
et heureusement, il n'y a
presque aucun panda mort.
00:04:51.437 --> 00:04:52.600
Ils sont trop mignons.
00:04:53.699 --> 00:04:55.654
Ceci est donc aussi utile.
00:04:56.377 --> 00:04:59.185
Voilà. Voyons maintenant
ce qui va arriver.
00:04:59.889 --> 00:05:03.784
Wikidata Bridge, connu antérieurement
sous le nom de l'édition client ;
00:05:03.785 --> 00:05:07.076
donc éditer Wikidata
à partir des info-boxes Wikipedia
00:05:07.675 --> 00:05:11.725
qui d'une part, permettra
plus de vues sur les données
00:05:11.725 --> 00:05:13.441
car plus de personnes peuvent les y voir,
00:05:13.441 --> 00:05:18.841
en espérant que cela engendrera
un emploi plus important de Wikidata
00:05:18.841 --> 00:05:20.920
et que plus de gens peuvent voir
00:05:20.921 --> 00:05:23.977
si par exemple, certaines données sont
dépassées et doivent être mises à jour
00:05:23.977 --> 00:05:27.000
au lieu de seulement
les voir sur Wikidata.
00:05:28.630 --> 00:05:30.656
Il y a aussi les références contaminées.
00:05:30.657 --> 00:05:33.959
L'idée est que si vous modifiez
une valeur de relevé,
00:05:34.683 --> 00:05:37.279
vous pourriez également vouloir
mettre cette référence à jour
00:05:37.280 --> 00:05:39.373
à moins que ce ne soit juste
une erreur de frappe.
00:05:39.897 --> 00:05:43.662
Cette référence contaminée
dit aussi aux autres éditeurs
00:05:43.663 --> 00:05:49.756
quelles modifications de relevé
de valeur ont été faites
00:05:49.756 --> 00:05:52.471
qui n'ont pas mis la référence à jour.
00:05:52.472 --> 00:05:56.766
Vous pouvez alors remédier à cela
et décider si...
00:05:57.737 --> 00:05:59.566
Est-ce que vous devez en faire plus
00:05:59.566 --> 00:06:02.796
ou c'est bien comme ça, il n'y a
pas besoin de mettre la référence à jour.
00:06:03.543 --> 00:06:09.336
Cela concerne les relevés signés
originaires d'un souci
00:06:09.336 --> 00:06:12.355
de certains fournisseurs de données...
00:06:14.131 --> 00:06:17.231
Il y a un énoncé que l'UNESCO a référencé
00:06:17.232 --> 00:06:19.872
qui a été vandalisé
00:06:19.873 --> 00:06:21.836
et ils sont donc inquiets qu'il semblerait
00:06:22.827 --> 00:06:26.992
que cette organisation, l'UNESCO
aurait validé cette valeur vandalisée.
00:06:26.993 --> 00:06:28.706
Mais grâce aux énoncés signés,
00:06:28.706 --> 00:06:31.488
ils peuvent le faire
de manière cryptographique
00:06:31.488 --> 00:06:33.562
sans empêcher les modifications ;
00:06:34.169 --> 00:06:37.744
mais au moins,
si quelqu'un vandalise l'énoncé
00:06:37.744 --> 00:06:40.435
ou le modifie de quelque façon,
la signature n'est alors plus valide
00:06:40.435 --> 00:06:43.401
et on peut voir que ce n'est pas
ce qu'a dit l'organisation,
00:06:43.402 --> 00:06:47.064
et il se peut que ce soit une bonne
modification qui devrait être resignée,
00:06:47.065 --> 00:06:49.851
mais qui pourrait aussi
devoir être annulée.
00:06:51.203 --> 00:06:53.666
Une chose excitante
00:06:53.666 --> 00:06:56.846
est que Wikipedia comprend
ce système étonnant appelé « Citoid »
00:06:57.379 --> 00:07:01.340
où on peut coller une URL,
un identifiant ou un ISBN
00:07:01.340 --> 00:07:04.759
ou un ID Wikidata ou pratiquement
n'importe quoi dans le Visual Editor
00:07:05.260 --> 00:07:08.241
qui retourne une référence bien formatée
00:07:08.242 --> 00:07:11.049
avec toutes les données possibles,
c'est très gai à utiliser.
00:07:11.049 --> 00:07:14.337
Pour comparer avec Wikidata,
si je veux ajouter une référence,
00:07:14.338 --> 00:07:18.801
typiquement, je dois ajouter une URL,
un titre, nom d'auteur,
00:07:18.802 --> 00:07:20.449
date et lieu de publication,
00:07:20.450 --> 00:07:25.141
dates de récupération,
au moins tout ça et c'est embêtant.
00:07:25.141 --> 00:07:29.261
On peut espérer que l'intégration de
Citoid dans Wikibase améliorera la chose.
00:07:30.245 --> 00:07:33.604
Je crois que c'est tout pour moi.
00:07:33.604 --> 00:07:36.400
Je passe la parole à Cristina.
00:07:36.400 --> 00:07:38.488
Comment améliorer la gestion
de qualité de données ?
00:07:38.488 --> 00:07:42.339
(applaudissements)
00:07:43.780 --> 00:07:45.471
Bonjour, je suis Cristina.
00:07:45.472 --> 00:07:47.672
Je suis chercheuse scientifique
à l'université de Zurich
00:07:47.673 --> 00:07:51.417
et je suis aussi une membre active
de la communauté suisse.
00:07:52.698 --> 00:07:57.901
Quand Claudia Müller-Birn et moi-même
avons présenté ceci à WikidataCon,
00:07:57.902 --> 00:08:00.410
ce que nous voulions,
c'est continuer la discussion
00:08:00.411 --> 00:08:02.424
commencée au début de l'année
00:08:02.424 --> 00:08:07.442
avec un atelier sur la qualité de données
et des sessions dans Wikimania.
00:08:07.442 --> 00:08:10.535
Le but de cette conférence
est de parler des pensées
00:08:10.536 --> 00:08:14.432
réunies de la communauté et de nous-mêmes
00:08:14.432 --> 00:08:16.560
et de continuer cette discussion.
00:08:16.561 --> 00:08:20.065
Nous aimerions beaucoup
continuer cette interaction avec vous.
00:08:21.557 --> 00:08:23.371
Nous pensions qu'il est très important
00:08:23.372 --> 00:08:27.580
de toujours demander à tous
les types d'utilisateur de la communauté,
00:08:27.581 --> 00:08:32.240
quels sont leurs besoins et problèmes
concernant la qualité de données ;
00:08:32.240 --> 00:08:35.000
non seulement les éditeurs,
mais aussi les codeurs
00:08:35.000 --> 00:08:36.241
ou les consommateurs de données
00:08:36.242 --> 00:08:39.494
et également les chercheurs qui
utilisent toute cette historique d'édition
00:08:39.494 --> 00:08:40.800
pour analyser les événements.
00:08:42.367 --> 00:08:48.431
Nous avons donc examiné
à peu près 80 outils de Wikidata
00:08:48.431 --> 00:08:52.380
et les avons alignés aux différentes
dimensions de qualité de données.
00:08:52.380 --> 00:08:54.360
Ce qu'on a réalisé, c'est que
00:08:54.361 --> 00:08:57.681
nombre d'entre eux
surveillent la complétion,
00:08:57.682 --> 00:09:02.820
mais certains d'entre eux
permettent l'interconnexion.
00:09:02.820 --> 00:09:08.442
Mais il y a un grand besoin pour
des outils travaillant dans la diversité,
00:09:08.443 --> 00:09:12.824
ce qu'on peut en fait avoir dans Wikidata,
00:09:12.824 --> 00:09:15.318
spécialement dans
son principe de conception
00:09:15.318 --> 00:09:18.131
où la pluralité et les relevés
différents contenant différentes valeurs
00:09:18.131 --> 00:09:20.308
provenant de différentes sources
00:09:21.034 --> 00:09:22.236
peuvent exister.
00:09:22.236 --> 00:09:25.091
Parce que la source est secondaire,
nous n'avons pas vraiment d'outils
00:09:25.091 --> 00:09:27.750
qui nous disent réellement
quelle est la pluralité d'énoncés,
00:09:27.751 --> 00:09:30.889
combien nous pouvons améliorer
et de quelle manière
00:09:30.890 --> 00:09:32.833
et nous ne connaissons
pas non plus vraiment
00:09:32.833 --> 00:09:35.538
les raisons de cette pluralité.
00:09:36.491 --> 00:09:39.201
De ces réunions de communauté,
00:09:39.201 --> 00:09:43.084
nous avons discuté les défis
qui demandent de l'attention.
00:09:43.084 --> 00:09:47.249
Par exemple, le fait d'avoir ces
communautés de production participative
00:09:47.249 --> 00:09:49.613
est positif car différentes personnes
00:09:49.613 --> 00:09:51.833
avec des connaissances de base différentes
00:09:51.834 --> 00:09:54.615
attaquent les différentes parties
des données ou du graphe ;
00:09:54.616 --> 00:09:59.161
mais en réalité, il est difficile
de tout aligner de manière homogène
00:09:59.162 --> 00:10:04.920
car différentes personnes utilisent
différentes chose de façons différentes
00:10:04.920 --> 00:10:08.401
et s'attendent aussi à différentes
choses venant des descriptions d'entité.
00:10:09.003 --> 00:10:12.721
Les gens ont aussi dit
qu'ils ont besoin de plus d'outils
00:10:12.722 --> 00:10:16.000
qui donnent une meilleure vue d'ensemble
du statut global des choses.
00:10:16.000 --> 00:10:20.733
C'est donc ce qui manque aux entités
en termes de complétion,
00:10:20.733 --> 00:10:26.121
mais aussi sur quoi les gens
travaillent-ils maintenant
00:10:26.121 --> 00:10:30.516
et ils ont aussi mentionné maintes fois
d'avoir une collaboration plus étroite
00:10:30.517 --> 00:10:33.311
entre non seulement, les langages,
mais aussi WikiProjects
00:10:33.311 --> 00:10:35.571
et les différentes
plateformes de Wikimedia.
00:10:35.571 --> 00:10:38.859
Nous avons publié tous
les commentaires transcrits
00:10:38.860 --> 00:10:42.959
de toutes les discussions
dans les liens de Etherpads
00:10:42.959 --> 00:10:46.162
et dans la page wiki de Wikimania.
00:10:46.162 --> 00:10:48.481
Certaines solutions pointaient
00:10:48.481 --> 00:10:53.001
vers le fait de plus partager
les bonnes pratiques
00:10:53.001 --> 00:10:55.762
qui sont développées
dans différents WikiProjects,
00:10:55.762 --> 00:11:01.238
mais il y a aussi une demande pour
des outils qui facilitent l'organisation
00:11:01.239 --> 00:11:03.845
de travail dans les équipes
pour savoir qui fait quoi
00:11:03.845 --> 00:11:07.815
et également, pour plus de vitrines
00:11:07.816 --> 00:11:12.019
et de modèles pour aider à mieux créer.
00:11:12.946 --> 00:11:15.161
D'après le contact que nous avons
00:11:15.162 --> 00:11:18.721
avec les Open Governmental
Data Organizations,
00:11:18.722 --> 00:11:20.068
et particulièrement,
00:11:20.068 --> 00:11:23.102
je suis en contact avec
le canton et la ville de Zurich,
00:11:23.102 --> 00:11:26.207
ils sont très intéressés
de travailler avec Wikidata
00:11:26.207 --> 00:11:29.896
parce qu'ils veulent
leurs données accessibles à tous
00:11:29.897 --> 00:11:33.681
dans les endroits où les gens
consultent et accèdent aux données.
00:11:33.682 --> 00:11:36.370
Ce qui peut être intéressant pour eux
00:11:36.370 --> 00:11:38.600
serait d'avoir un genre
d'indicateurs de qualité
00:11:38.600 --> 00:11:41.082
à la fois dans le wiki,
ce qui est valable actuellement,
00:11:41.082 --> 00:11:42.801
mais aussi dans les résultats SPARQL,
00:11:42.802 --> 00:11:46.066
afin de savoir s'ils peuvent faire
confiance aux données communautaires.
00:11:46.067 --> 00:11:48.230
Ils veulent aussi savoir
00:11:48.230 --> 00:11:51.417
quelles parties de leur propre ensemble
de données sont utiles pour Wikidata
00:11:51.418 --> 00:11:56.040
et aimeraient un outil qui peut les aider
à évaluer ça automatiquement.
00:11:56.041 --> 00:11:59.066
Ils ont aussi besoin
d'une méthodologie ou outil
00:11:59.067 --> 00:12:03.894
pour les aider à décider s'ils doivent
importer ou connecter leurs données,
00:12:03.894 --> 00:12:04.894
car dans certains cas,
00:12:04.895 --> 00:12:07.497
ils ont aussi leurs propres ensembles
de données ouverts couplés ;
00:12:07.497 --> 00:12:09.946
ils ne savent donc pas s'ils doivent
juste ingérer des données
00:12:09.946 --> 00:12:13.424
ou continuer de créer des liens
des ensembles de données vers Wikidata
00:12:13.425 --> 00:12:14.425
et le contraire.
00:12:14.950 --> 00:12:20.043
Et ils veulent aussi savoir où est
référencé leur site web dans Wikidata.
00:12:20.044 --> 00:12:23.361
Quand ils introduisent
une telle demande dans le service,
00:12:23.362 --> 00:12:24.848
ils sont souvent mis en attente,
00:12:24.849 --> 00:12:28.181
nous devrions donc
peut-être créer plus d'outils
00:12:28.181 --> 00:12:32.240
pour les aider à répondre à ces questions.
00:12:33.148 --> 00:12:36.208
Et de plus, (craquements)
00:12:36.208 --> 00:12:39.361
nous, les chercheurs wiki,
00:12:39.362 --> 00:12:42.023
manquons d'information
dans les résumés d'édition.
00:12:42.024 --> 00:12:44.953
Je me souviens que quand nous travaillions
00:12:44.954 --> 00:12:48.919
à comprendre les différents
comportements des éditeurs
00:12:48.919 --> 00:12:53.403
avec outils ou bots,
utilisateurs anonymes et que sais-je,
00:12:53.403 --> 00:12:56.154
il nous manquait par exemple,
00:12:56.154 --> 00:13:01.112
une manière standard de tracer
les outils qui étaient utilisés.
00:13:01.113 --> 00:13:03.154
Certains outils font déjà cela,
00:13:03.155 --> 00:13:05.230
comme PetScan et plein d'autres.
00:13:05.230 --> 00:13:08.850
Nous devrions peut-être
plus discuter en communauté
00:13:08.850 --> 00:13:13.531
comment enregistrer ceux-ci
pour une origine peaufinée.
00:13:14.169 --> 00:13:15.321
De plus,
00:13:15.322 --> 00:13:20.801
nous devons penser à des dimensions
de qualité de données plus concrètes
00:13:20.802 --> 00:13:24.961
qui sont reliées aux données couplées,
mais non à tout type de données.
00:13:24.962 --> 00:13:30.721
Nous avons donc travaillé sur certaines
mesures pour accéder au gain d'information
00:13:30.722 --> 00:13:33.881
fournis par les liens, ce qui veut dire
00:13:33.882 --> 00:13:36.681
que quand nous connectons Wikidata
à d'autres ensembles de données,
00:13:36.682 --> 00:13:38.201
nous devrions aussi envisager
00:13:38.202 --> 00:13:41.921
le gain de classification des entités
00:13:41.922 --> 00:13:45.601
dans la description, mais aussi
dans les vocabulaires utilisés.
00:13:45.602 --> 00:13:51.041
Pour vous donner un exemple,
00:13:51.042 --> 00:13:54.269
dans le cas de Wikidata
00:13:54.270 --> 00:13:57.771
ou du centre de données externe
lié à Wikidata,
00:13:57.772 --> 00:14:00.487
nous avons l'entité d'une personne
appelée « Natasha Noy »,
00:14:00.487 --> 00:14:02.601
nous avons l'affiliation
et d'autres choses
00:14:02.602 --> 00:14:05.239
et nous décidons de connecter
à un endroit externe
00:14:05.240 --> 00:14:08.919
où cette entité a aussi ce nom,
mais la valeur reste la même.
00:14:08.920 --> 00:14:12.889
Il serait alors mieux de connecter
à quelque chose qui a un nom différent
00:14:12.889 --> 00:14:16.881
qui est toujours valide car cette personne
peut écrire le nom de deux manières
00:14:16.882 --> 00:14:19.714
ainsi que d'autres informations
non disponibles dans Wikidata
00:14:19.715 --> 00:14:21.760
ou dans l'autre ensemble de données.
00:14:22.390 --> 00:14:24.652
Mais ce qui est encore préférable,
00:14:24.653 --> 00:14:27.770
c'est d'examiner
l'ensemble de données cible
00:14:27.770 --> 00:14:31.392
pour voir qu'il a aussi de nouvelles
façons de classifier l'information.
00:14:31.393 --> 00:14:35.354
Ce n'est donc pas juste une personne,
mais dans l'autre ensemble de données,
00:14:35.355 --> 00:14:39.525
ils parlent aussi en termes de femme
et autre forme de classification.
00:14:39.526 --> 00:14:43.401
Et si l'autre ensemble de données
utilise différents vocabulaires,
00:14:43.402 --> 00:14:46.588
cela aide dans la récupération
des données.
00:14:47.371 --> 00:14:51.233
Je voudrais encore ajouter
00:14:51.234 --> 00:14:55.809
que nous sommes capables de mieux
mettre en valeur les requêtes fédérées
00:14:55.810 --> 00:15:00.448
car quand nous consultons le journal
de requêtes fourni par Malyshev et al.,
00:15:01.285 --> 00:15:04.301
nous constations que
parmi les requêtes organiques,
00:15:04.302 --> 00:15:06.921
il y a très peu de requêtes fédérées.
00:15:06.922 --> 00:15:12.801
Et en fait, un des avantages clés
des données couplées est la fédération ;
00:15:12.802 --> 00:15:16.903
il se pourrait donc que la communauté
et les gens qui utilisent Wikidata
00:15:16.903 --> 00:15:18.898
devraient avoir plus
d'exemples à ce sujet.
00:15:18.898 --> 00:15:22.666
Et si on lit la liste
des points finaux utilisés,
00:15:22.667 --> 00:15:25.401
celle-ci n'est pas complète,
nous en avons bien d'autres.
00:15:25.402 --> 00:15:30.479
Bien sûr, ces données ont été analysées
à partir de demandes jusqu'en mars 2018,
00:15:30.480 --> 00:15:34.807
mais nous devrions revoir la liste
des points finaux acquis
00:15:34.808 --> 00:15:37.048
pour décider si
nous les utilisons vraiment.
00:15:37.813 --> 00:15:40.341
J'ai deux questions pour l'audience
00:15:40.341 --> 00:15:43.001
que nous pouvons peut-être
utiliser pour la discussion ultérieure :
00:15:43.001 --> 00:15:46.001
« À votre avis, quels sont les problèmes
de qualité de données à adresser
00:15:46.002 --> 00:15:47.412
dépendant de vos besoins ? »
00:15:47.412 --> 00:15:50.401
et « Où avez-vous besoin
de plus d'automation
00:15:50.402 --> 00:15:52.943
pour vous aider dans les éditions
et les patrouilles ? »
00:15:53.866 --> 00:15:55.146
Ce sera tout, merci beaucoup.
00:15:55.779 --> 00:15:57.527
(applaudissements)
00:15:58.808 --> 00:16:01.008
MERCI !
00:16:06.030 --> 00:16:08.595
(Jose Emilio Labra)
Je vais maintenant vous parler
00:16:08.595 --> 00:16:14.715
des outils de Shape Expressions
que nous sommes en train de développer.
00:16:15.536 --> 00:16:19.371
Je suis Jose Emilio Labra,
00:16:19.371 --> 00:16:23.215
mais tous ces outils ont été
construits par des personnes différentes
00:16:23.920 --> 00:16:28.480
principalement connectées à W3C ShEx,
Groupe de Communauté Shape Expressions.
00:16:28.481 --> 00:16:29.851
Groupe de Communauté ShEx.
00:16:30.144 --> 00:16:36.081
Le premier outil dont j'aimerais parler
est un outil général : le RDFShape ;
00:16:36.082 --> 00:16:40.681
car Shape Expressions convient
non pas seulement pour Wikidata,
00:16:40.682 --> 00:16:44.168
mais constitue un langage
qui valide RDF en général.
00:16:44.168 --> 00:16:48.318
Je suis l'acteur principal
du développement de cet outil
00:16:48.318 --> 00:16:50.880
qui valide RDF en général.
00:16:50.881 --> 00:16:55.139
Si vous voulez connaître ou valider RDF
00:16:55.140 --> 00:16:58.621
ou les points d'extrémité SPARQL
pas seulement dans Wikidata,
00:16:58.622 --> 00:17:00.891
je vous conseille d'utiliser cet outil.
00:17:00.891 --> 00:17:03.255
Il est également bon pour l'enseignement.
00:17:03.255 --> 00:17:05.640
J'enseigne à l'université
00:17:05.641 --> 00:17:09.151
et je l'emploie dans mon cours
de Web sémantique pour le RDF.
00:17:09.161 --> 00:17:12.121
Je crois donc que c'est un bon outil
si vous voulez apprendre le RDF.
00:17:13.033 --> 00:17:17.598
Voici en exemple, une visualisation
d'un graphe RDF avec l'outil.
00:17:18.587 --> 00:17:22.643
Mais avant de venir ici,
au cours du mois dernier,
00:17:22.643 --> 00:17:28.441
j'ai commencé une fourchette de RDFShape
juste pour Wikidata car je croyais...
00:17:28.443 --> 00:17:33.082
Je l'ai présenté hier à Wikidata,
elle s'appelle « WikiShape ».
00:17:33.082 --> 00:17:34.441
Ce que j'ai fait...
00:17:34.442 --> 00:17:39.898
j'ai retiré tout ce qui
ne concernait pas Wikidata
00:17:39.898 --> 00:17:44.801
et implémenté d'autres choses codées
en dur comme l'extrémité Wikidata SPARQL,
00:17:44.802 --> 00:17:49.041
mais on m'a demandé maintenant
si je pouvais faire de même pour Wikibase.
00:17:49.042 --> 00:17:52.000
Ce qui est très facile à faire.
00:17:52.760 --> 00:17:56.280
L'outil WikiShape est
relativement nouveau.
00:17:57.015 --> 00:17:59.843
La plupart des fonctionnalités
sont opératives,
00:17:59.844 --> 00:18:02.468
mais il est possible
que certaines ne fonctionnent pas
00:18:02.469 --> 00:18:06.281
et si vous voulez les améliorer,
s'il vous plaît, dites-le moi.
00:18:06.281 --> 00:18:12.680
C'est donc [des captures Science Script],
mais on peut essayer.
00:18:15.385 --> 00:18:16.945
Voyons si cela marche.
00:18:16.953 --> 00:18:20.070
Je dois d'abord sortir de...
00:18:22.453 --> 00:18:23.453
Ici.
00:18:24.226 --> 00:18:28.324
D'accord, voici l'outil.
00:18:28.324 --> 00:18:30.564
Ce que vous pouvez faire
avec l'outil par exemple,
00:18:30.564 --> 00:18:35.275
c'est vérifier des schémas d'entité.
00:18:35.276 --> 00:18:38.611
Vous savez qu'il y a un nouvel
espace de nommage : « E que sais-je »,
00:18:38.612 --> 00:18:44.805
si vous commencez par écrire « humain »,
00:18:44.806 --> 00:18:48.812
son auto-complétion
vous permet de vérifier,
00:18:48.812 --> 00:18:52.001
par exemple,
le Shape Expressions d'un humain
00:18:52.790 --> 00:18:55.937
et voici ici le Shape Expressions.
00:18:55.938 --> 00:18:59.841
Et vous remarquez que l'éditeur
possède une coloration syntaxique ;
00:18:59.842 --> 00:19:04.559
mais l'écran est peut-être trop petit,
00:19:05.676 --> 00:19:07.590
je vais essayer de l'agrandir.
00:19:09.194 --> 00:19:10.973
Vous voyez peut-être mieux maintenant.
00:19:10.973 --> 00:19:14.241
Voici la surligne syntaxique de l'éditeur,
00:19:14.241 --> 00:19:17.851
celui-ci provient du même code source
00:19:17.851 --> 00:19:19.641
que le service de requête de Wikidata.
00:19:19.642 --> 00:19:23.960
Si vous passez la souris ici,
00:19:23.961 --> 00:19:27.961
vous pouvez voir les étiquettes
des différentes propriétés.
00:19:27.962 --> 00:19:31.298
Je pense que c'est très utile car
00:19:32.588 --> 00:19:38.601
les schémas d'entité présents
dans Wikidata sont juste du texte simple,
00:19:38.602 --> 00:19:42.493
cet éditeur est donc meilleur
car il comprend l'auto-complétion
00:19:42.494 --> 00:19:43.743
et aussi...
00:19:43.744 --> 00:19:48.241
par exemple, si vous voulez
ajouter une contrainte,
00:19:48.241 --> 00:19:51.570
vous dites : « wdt: »,
00:19:51.570 --> 00:19:56.884
écrivez juste « auteur »,
vous cliquez sur Ctrl+Space
00:19:56.884 --> 00:19:58.922
et différentes suggestions apparaissent.
00:19:58.922 --> 00:20:02.388
Cette fonction est similaire
au service de requête Wikidata,
00:20:02.389 --> 00:20:06.445
mais adaptée pour Shape Expressions.
00:20:06.445 --> 00:20:11.975
Il me semble que créer
des Shape Expressions
00:20:11.976 --> 00:20:15.841
n'est pas plus difficile que d'écrire
des requêtes SPARQL.
00:20:15.842 --> 00:20:21.255
Certaines personnes pensent
que c'est sur un même niveau,
00:20:22.278 --> 00:20:26.296
mais je pense que c'est plus facile
00:20:26.296 --> 00:20:31.241
car telle était notre intention
quand nous avons conçu Shape Expressions.
00:20:31.242 --> 00:20:34.481
Cet éditeur est l'une des premières choses
00:20:34.481 --> 00:20:36.620
disponibles dans Shape Expressions.
00:20:37.371 --> 00:20:41.467
Il existe aussi
la possibilité de visualiser.
00:20:41.468 --> 00:20:44.801
Dans Shape Expressions,
prenons par exemple,
00:20:44.802 --> 00:20:49.386
« travail écrit » qui est
une belle Shape Expression
00:20:49.386 --> 00:20:53.300
car elle exprime une relation
entre différentes choses.
00:20:54.823 --> 00:20:58.160
Et ceci est la visualisation
UML de travail écrit.
00:20:58.161 --> 00:21:02.090
Dans un UML, il est facile
de voir les différentes propriétés.
00:21:02.790 --> 00:21:05.934
En faisant l'essai
avec plusieurs personnes,
00:21:05.934 --> 00:21:09.216
j'ai réalisé quelles trouvaient
des erreurs dans leur Shape Expressions
00:21:09.217 --> 00:21:12.988
car les propriétés manquantes
sont faciles à détecter.
00:21:13.588 --> 00:21:15.771
L'autre possibilité ici
00:21:15.772 --> 00:21:19.520
est la validation ; je crois que la voilà.
00:21:20.496 --> 00:21:25.285
Je crois qu'elle était dans une étiquette,
je l'ai peut-être fermée.
00:21:26.267 --> 00:21:30.988
Mais vous pouvez par exemple,
cliquer ici sur Validate entities.
00:21:32.308 --> 00:21:34.232
Par exemple,
00:21:35.404 --> 00:21:41.921
« q42 » avec « e42 » qui est auteur.
00:21:42.818 --> 00:21:46.180
Avec « humain », je pense
qu'on peut le faire avec ça.
00:21:49.050 --> 00:21:50.050
Et puis,...
00:21:50.688 --> 00:21:56.365
Cela prend un peu de temps
car les requêtes SPARQL s'effectuent
00:21:56.365 --> 00:21:59.134
et pour le moment,
il y a défaut de réseau, mais...
00:21:59.657 --> 00:22:01.580
Vous pouvez l'essayer.
00:22:02.759 --> 00:22:07.026
Continuons la présentation
avec d'autres outils.
00:22:07.026 --> 00:22:12.353
Dites-moi si vous voulez l'essayer
et si vous voulez un retour.
00:22:13.133 --> 00:22:15.540
Poursuivons la présentation.
00:22:18.923 --> 00:22:20.233
Voici donc WikiShape.
00:22:23.800 --> 00:22:26.509
Je l'ai déjà dit,
00:22:27.681 --> 00:22:34.157
l'Éditeur Shape Expressions
est un projet indépendant dans GitHub.
00:22:35.465 --> 00:22:37.472
Vous pouvez l'utiliser
dans votre propre projet.
00:22:37.472 --> 00:22:41.036
Si vous voulez utiliser
un outil Shape Expressions,
00:22:41.036 --> 00:22:45.635
vous pouvez l'intégrer
à n'importe quel autre projet,
00:22:45.636 --> 00:22:48.235
il est dans GitHub, utilisez-le.
00:22:48.868 --> 00:22:51.970
Le même auteur qui est un de mes élèves
00:22:52.684 --> 00:22:55.704
a aussi créé un éditeur
pour Shape Expressions
00:22:55.704 --> 00:22:58.119
inspiré également
du service de requête Wikidata
00:22:58.119 --> 00:23:00.681
où vous trouvez dans une colonne,
00:23:00.682 --> 00:23:05.103
cet éditeur plus visuel de requêtes SPARQL
00:23:05.104 --> 00:23:07.135
où vous pouvez introduire
ce genre de choses.
00:23:07.136 --> 00:23:09.123
Ceci est une capture d'écran.
00:23:09.123 --> 00:23:12.662
Vous pouvez voir
la Shape Expressions dans le texte,
00:23:12.662 --> 00:23:17.822
mais celle-ci est basée sur formulaire,
ce qui prendrait un peu plus de temps
00:23:18.595 --> 00:23:23.400
et vous pouvez placer les différentes
rangées sur différents champs.
00:23:23.401 --> 00:23:25.800
Ensuite, il y a ShExEr
00:23:26.879 --> 00:23:31.882
qui a été conçu par un doctorant
à l'université de Oviedo ;
00:23:31.883 --> 00:23:34.080
il est présent et peut
donc nous présenter ShExEr.
00:23:38.147 --> 00:23:40.024
(Danny) Bonjour, je suis Danny Fernández,
00:23:40.025 --> 00:23:43.800
je suis doctorant à l’université d'Oviedo
et je travaille avec Labra.
00:23:44.710 --> 00:23:47.725
Vu que nous n'avons pas
beaucoup de temps, je serai bref.
00:23:47.726 --> 00:23:52.641
Je ne vais pas faire de démonstration,
mais juste imprimer des copies d'écran.
00:23:52.642 --> 00:23:57.897
La façon usuelle de travailler avec
Shape Expressions ou tout autre langage
00:23:57.897 --> 00:23:59.521
est d'avoir un expert de domaine
00:23:59.522 --> 00:24:02.313
qui définit une priorité sur ce
à quoi devrait ressembler un graphe,
00:24:02.314 --> 00:24:03.555
de définir des structures
00:24:03.556 --> 00:24:06.983
et d'utiliser ces structures
pour valider les données réelles.
00:24:08.124 --> 00:24:11.641
Cet outil, tout comme
ceux présentés par Labra
00:24:11.642 --> 00:24:14.441
est un outil polyvalent pour
n'importe quelle source RDF
00:24:14.442 --> 00:24:17.375
et est conçu pour travailler à l'envers.
00:24:17.376 --> 00:24:18.758
Vous avez déjà des données,
00:24:18.759 --> 00:24:23.165
vous sélectionnez les noeuds
dont vous voulez avoir la forme
00:24:23.165 --> 00:24:26.718
et vous extrayez ou inférez
cette forme automatiquement.
00:24:26.719 --> 00:24:29.791
Donc, même si cet outil est polyvalent,
00:24:29.791 --> 00:24:34.063
ce qu'on a fait pour WikidataCon
est ce joli bouton
00:24:34.884 --> 00:24:37.081
qui une fois pressé,
00:24:37.081 --> 00:24:42.079
fait apparaître de nombreux
paramètres de configuration
00:24:42.080 --> 00:24:46.251
et fait une configuration qui va
à l'encontre de l'extrémité Wikidata
00:24:46.251 --> 00:24:47.971
[qui se termine], désolé.
00:24:48.733 --> 00:24:52.883
Une fois que vous pressez le bouton,
c'est ce que vous obtenez.
00:24:52.884 --> 00:24:55.126
Après avoir sélectionné
quel genre de notes,
00:24:55.127 --> 00:24:59.360
quel genre d'instances de notre classe,
ou quoi que vous recherchiez,
00:24:59.361 --> 00:25:01.321
vous obtenez un schéma automatique.
00:25:02.319 --> 00:25:07.111
Les contraintes sont classées d'après
la quantité de modes qui s'y conforment
00:25:07.112 --> 00:25:09.772
et vous pouvez filtrer ceux
qui sont moins communs, etc.
00:25:09.772 --> 00:25:12.126
Il y a un poster en bas à ce sujet
00:25:12.127 --> 00:25:14.595
et je serai en en bas et en haut
00:25:14.596 --> 00:25:16.454
et un peu partout toute la journée.
00:25:16.455 --> 00:25:19.081
Donc, si vous êtes
intéressés par cet outil,
00:25:19.082 --> 00:25:21.476
venez me trouver.
00:25:21.477 --> 00:25:24.624
Je repasse maintenant
le micro à Labra, merci.
00:25:24.625 --> 00:25:29.265
(applaudissements)
00:25:29.812 --> 00:25:32.578
(Jose) Poursuivons
avec les autres outils.
00:25:32.579 --> 00:25:34.984
Le suivant est le ShapeDesigner.
00:25:34.984 --> 00:25:37.241
Andra, veux-tu en parler maintenant
00:25:37.242 --> 00:25:39.287
ou plus tard ou dans l'atelier ?
00:25:39.287 --> 00:25:40.603
Il y a un atelier...
00:25:40.603 --> 00:25:44.437
Cet après-midi, il y a un atelier
spécifiquement pour Shape Expressions.
00:25:45.265 --> 00:25:47.939
L'idée était de faire
plus de travail pratique,
00:25:47.940 --> 00:25:52.324
donc si ça vous tente,
vous pouvez le faire là.
00:25:52.875 --> 00:25:55.720
L'outil est ShEx et
comme Eric est présent,
00:25:55.721 --> 00:25:56.890
il peut nous en parler.
00:25:57.969 --> 00:26:00.687
(Eric) Je voulais juste dire rapidement
00:26:00.687 --> 00:26:05.711
que vous avez probablement
déjà vu l'interface ShEx
00:26:05.711 --> 00:26:07.601
qui est adaptée pour Wikidata.
00:26:07.602 --> 00:26:12.930
Elle a vraiment été dépouillée
et conçue spécifiquement pour Wikidata
00:26:12.930 --> 00:26:17.627
car celle qui est générique a plus
de fonctions, mais il faut mentionner
00:26:17.627 --> 00:26:20.197
le fait que l'une d'entre elles
est particulièrement utile
00:26:20.197 --> 00:26:23.201
pour déboguer les schémas Wikidata.
00:26:23.201 --> 00:26:29.224
Si vous sélectionnez le mode Slurp,
00:26:29.225 --> 00:26:31.444
il va dire que lorsque je valide,
00:26:31.445 --> 00:26:34.694
je veux rabattre tous les triples,
ce qui veut dire
00:26:34.695 --> 00:26:36.274
que si j'ai un paquet d'erreurs,
00:26:36.275 --> 00:26:39.586
je peux les examiner et dire :
00:26:39.587 --> 00:26:41.800
« OK, quels sont
les triples présents ici »,
00:26:41.801 --> 00:26:44.120
désolé, les triples sont là en bas,
00:26:44.121 --> 00:26:46.271
ceci est simplement un registre
de ce qui s'est passé.
00:26:46.327 --> 00:26:49.180
Vous pouvez ensuite
jouer avec en temps réel
00:26:49.181 --> 00:26:51.213
comme vous le faites
avec quelque chose qui change.
00:26:51.213 --> 00:26:54.160
C'est donc une version plus rapide
pour faire tout cela.
00:26:55.361 --> 00:26:56.941
Ceci est un formulaire ShExC
00:26:56.941 --> 00:26:59.455
que Joachim a suggéré
00:27:00.035 --> 00:27:04.631
qui pourrait être utile pour
remplir des documents Wikidata
00:27:04.631 --> 00:27:07.338
basé sur une Shape Expression
pour ce document.
00:27:08.095 --> 00:27:11.511
Ceci n'est pas conçu pour Wikidata,
00:27:11.511 --> 00:27:14.081
mais c'est simplement pour dire
que vous pouvez avoir un schéma
00:27:14.082 --> 00:27:15.402
et des annotations
00:27:15.403 --> 00:27:17.518
précisant la manière
dont le schéma est rendu ;
00:27:17.519 --> 00:27:19.031
le formulaire est ensuite construit
00:27:19.031 --> 00:27:21.801
et si vous avez des données,
elles peuvent même peupler le formulaire.
00:27:24.517 --> 00:27:26.164
PyShEx [inaudible]
00:27:28.025 --> 00:27:31.080
(Jose) Je crois que c'est le dernier.
00:27:31.821 --> 00:27:34.080
En effet, PyShEx est le dernier.
00:27:34.675 --> 00:27:38.151
PyShEx est une implémentation
Python de Shape Expressions.
00:27:39.193 --> 00:27:42.680
Si vous voulez ce genre de choses, vous
pouvez aussi jouer avec Jupyter Notebooks.
00:27:42.680 --> 00:27:44.432
OK, le sujet est bouclé.
00:27:44.433 --> 00:27:47.170
(applaudissements)
00:27:52.916 --> 00:27:57.073
(Andra) Je vais parler d'un projet
spécifique dans lequel je suis impliqué
00:27:57.074 --> 00:27:58.654
appelé « Gene Wiki »
00:27:58.654 --> 00:28:04.596
où nous avons aussi affaire
aux problèmes de qualité.
00:28:04.597 --> 00:28:06.684
Mais avant de parler de qualité,
00:28:06.685 --> 00:28:09.229
je vais rapidement
vous présenter Gene Wiki.
00:28:09.855 --> 00:28:15.175
Nous venons juste de publier
un document récemment rédigé
00:28:15.175 --> 00:28:18.160
qui explique les détails de ce projet.
00:28:19.821 --> 00:28:23.839
Je vois les gens prendre des photos,
mais ce que fait Gene Wiki en gros,
00:28:23.846 --> 00:28:28.027
c'est essayer d'obtenir des données
biomédicales publiques pour Wikidata ;
00:28:28.028 --> 00:28:32.200
et nous suivons un modèle spécifique
pour inclure ces données dans Wikidata.
00:28:33.130 --> 00:28:36.809
Donc, quand nous avons un nouveau
répertoire ou ensemble de données
00:28:36.810 --> 00:28:39.360
qui qualifie pour
être inclus dans Wikidata,
00:28:39.360 --> 00:28:41.293
la première étape est
l'engagement communautaire.
00:28:41.294 --> 00:28:44.334
Il n'est pas nécessaire que ce soit
directement vers une communauté Wikidata,
00:28:44.334 --> 00:28:46.120
mais une communauté de recherche locale.
00:28:46.121 --> 00:28:50.286
Nous nous rencontrons en personne
ou en ligne ou sur une autre plateforme
00:28:50.286 --> 00:28:52.881
et essayons de trouver
un modèle de données
00:28:52.882 --> 00:28:56.197
qui fait le pont entre leurs données
et le modèle Wikidata.
00:28:56.197 --> 00:28:59.944
J'ai ici une photo d'un atelier
de l'année dernière
00:28:59.945 --> 00:29:02.663
qui s'est concentré sur
un ensemble de données spécifique,
00:29:02.663 --> 00:29:05.280
et vous pouvez voir les discussions,
00:29:05.281 --> 00:29:09.780
pour l'aligner avec schema.org
et d'autres ontologies existantes.
00:29:10.320 --> 00:29:14.918
À la fin de la première étape,
nous avons un dessin de tableau blanc
00:29:14.918 --> 00:29:17.336
du schéma que nous voulons
implémenter dans Wikidata.
00:29:17.337 --> 00:29:20.440
Ce que vous voyez ici est simple,
00:29:20.441 --> 00:29:21.766
il se trouve là à l'arrière
00:29:21.767 --> 00:29:25.240
pour que nous puissions faire des schémas
dans ce panneau même aujourd'hui.
00:29:26.560 --> 00:29:28.399
Une fois que ce schéma est en place,
00:29:28.400 --> 00:29:31.320
il faut ensuite essayer de rendre
cette machine schéma lisible
00:29:32.358 --> 00:29:36.841
car il faut avoir des modèles actionnables
pour importer les données
00:29:36.842 --> 00:29:39.690
de toute base de données biomédicale
dans Wikidata.
00:29:40.393 --> 00:29:45.182
C'est ici que nous appliquons
Shape Expressions
00:29:46.471 --> 00:29:52.518
parce que celle-ci nous permet de tester
00:29:52.518 --> 00:29:57.040
si l'ensemble de données...
non, d'abord de voir
00:29:57.041 --> 00:30:01.782
si les données déjà existantes dans
Wikidata suivent le même modèle
00:30:01.783 --> 00:30:04.718
qui a été atteint dans
le processus précédent.
00:30:04.719 --> 00:30:07.021
Avec le Shape Expression,
nous pouvons donc vérifier
00:30:07.021 --> 00:30:10.926
si certaines données dans Wikidata
doivent être nettoyées
00:30:10.926 --> 00:30:15.013
ou si nous devons adapter notre modèle
à celui de Wikidata ou vice versa.
00:30:15.937 --> 00:30:19.867
Une fois que tout est décidé et
que nous commençons d'écrire des bots,
00:30:20.670 --> 00:30:23.801
ceux-ci sèmeront les informations
00:30:23.802 --> 00:30:27.308
qui se trouvent dans
les sources primaires de Wikidata.
00:30:27.846 --> 00:30:29.303
Quand ces bots sont prêts,
00:30:29.304 --> 00:30:32.401
nous les écrivons
00:30:32.401 --> 00:30:36.201
à l'aide d'une librairie Python
appelée « Wikidata Integrator »
00:30:36.202 --> 00:30:38.167
qui est née de notre projet.
00:30:38.698 --> 00:30:42.421
Une fois que nous avons nos bots,
nous utilisons une plateforme
00:30:42.421 --> 00:30:44.540
appelée « Jenkins »
pour une intégration continuelle.
00:30:44.540 --> 00:30:45.762
Avec Jenkins,
00:30:45.762 --> 00:30:51.160
nous mettons sans arrêt à jour
les sources primaires dans Wikidata.
00:30:52.178 --> 00:30:55.889
Voici un diagramme pour
le journal mentionné précédemment.
00:30:55.890 --> 00:30:57.551
Ceci est notre environnement actuel.
00:30:57.551 --> 00:31:02.059
Chaque boite orange est
une ressource primaire sur les drogues,
00:31:02.060 --> 00:31:07.827
protéines, gènes, maladies,
composants chimiques avec interaction
00:31:07.827 --> 00:31:11.270
et bien que ce modèle
soit trop petit pour être lisible,
00:31:11.270 --> 00:31:17.472
voici la base de données, les sources
que nous traitons dans Wikidata
00:31:17.473 --> 00:31:20.560
et connectons aux sources primaires.
00:31:20.561 --> 00:31:22.355
Voilà le flux de travail.
00:31:22.870 --> 00:31:25.312
Un de nos partenaires
est L'ontologie des Maladies
00:31:25.312 --> 00:31:27.672
qui est une ontologie CC0 ;
00:31:28.179 --> 00:31:31.990
celle-ci a son propre cycle de curation.
00:31:32.756 --> 00:31:35.736
L'Ontologie des Maladies est
continuellement mise à jour
00:31:35.737 --> 00:31:39.687
pour refléter l’espace maladie
ou l'interprétation des maladies.
00:31:40.336 --> 00:31:44.361
Il existe le cycle de curation Wikidata
également sur les maladies
00:31:44.362 --> 00:31:49.844
où la communauté Wikidata surveille
en permanence ce qui s'y passe.
00:31:50.406 --> 00:31:51.601
Nous avons deux rôles
00:31:51.602 --> 00:31:55.477
appelés familièrement
« gardien d'accès »
00:31:56.009 --> 00:31:59.561
qu'un collègue et moi-même
assumions il y a cinq ans
00:31:59.562 --> 00:32:03.414
où nous nous contentons de surveiller
Wikipedia et Wikidata sur nos ordinateurs
00:32:03.415 --> 00:32:08.601
pour voir si un problème était
signalé à la communauté primaire,
00:32:08.602 --> 00:32:11.765
dans quel cas ils examinaient
l'implémentation et décidaient :
00:32:11.765 --> 00:32:14.240
« OK, pouvons-nous faire confiance
à cette entrée Wikidata ? »
00:32:14.850 --> 00:32:18.555
Si oui, elle intègre le cycle
00:32:18.555 --> 00:32:22.686
et la prochaine itération fait
alors partie de l'Oncologie des Maladies
00:32:22.687 --> 00:32:25.411
et alimente Wikidata.
00:32:27.419 --> 00:32:31.480
Nous faisons de même pour WikiPathways.
00:32:31.481 --> 00:32:36.601
WikiPathways est inspiré du chemin
MediaWiki et du chemin répertoire.
00:32:36.602 --> 00:32:40.901
De même, il y a déjà différents
chemins de ressources sur Wikidata.
00:32:41.463 --> 00:32:44.713
Il peut y avoir des conflits
entre ces chemins de ressources
00:32:44.722 --> 00:32:46.701
et ceux-ci sont signalés
00:32:46.702 --> 00:32:49.521
à cette communauté
par les gardiens d'accès,
00:32:49.522 --> 00:32:53.715
ce qui maintient les cycles
de conservation individuelle.
00:32:53.715 --> 00:32:57.068
Mais si vous vous souvenez
du cycle précédent,
00:32:57.069 --> 00:33:03.041
ici, je ne mentionne que
deux cycles, deux ressources,
00:33:03.566 --> 00:33:06.300
nous devons faire cela pour
chaque ressource que nous avons
00:33:06.300 --> 00:33:07.751
et nous devons gérer ce qui se passe
00:33:07.751 --> 00:33:09.185
car quand je parle de « curation »,
00:33:09.185 --> 00:33:12.187
je veux vraiment dire : consulter
les premières pages de Wikipedia
00:33:12.187 --> 00:33:14.544
pour essayer de le faire.
00:33:14.545 --> 00:33:19.316
Ce qui n'est pas faisable
pour nos deux gardiens d'accès.
00:33:19.860 --> 00:33:22.777
Lors d'une conférence en 2016
00:33:22.778 --> 00:33:26.933
où Eric a présenté Shape Expressions,
00:33:26.934 --> 00:33:29.277
j'ai pris le train en marche
en disant : « OK,
00:33:29.278 --> 00:33:34.240
Shape Expressions peut nous aider
à détecter les différences dans Wkikipedia
00:33:34.240 --> 00:33:41.159
ce qui permettra aux gardiens d'accès
de faire un rapport plus efficace. »
00:33:42.275 --> 00:33:46.019
J'ai été ravi par l'entité
schéma cette année
00:33:46.020 --> 00:33:50.765
parce qu'on peut maintenant
stocker ces systèmes sur Wikidata
00:33:50.765 --> 00:33:53.183
en elle-même, alors
qu'auparavant, c'était sur GitHub.
00:33:53.860 --> 00:33:56.815
Et comme ceci s'aligne
sur l'interface Wikidata,
00:33:56.816 --> 00:33:59.350
nous avons donc
des discussions de document,
00:33:59.350 --> 00:34:00.762
mais aussi des révisions.
00:34:00.763 --> 00:34:05.601
On peut donc tirer parti
des premières pages et des révisions
00:34:05.601 --> 00:34:12.255
pour discuter du contenu de Wikidata
00:34:12.255 --> 00:34:14.060
et celui des ressources primaires.
00:34:14.966 --> 00:34:19.686
Ce que Eric vient de présenter
constitue déjà un bon bénéfice.
00:34:19.686 --> 00:34:24.335
Ici, nous avons fait une Shape Expression
pour le gène humain
00:34:24.336 --> 00:34:30.225
que nous avons soumise à un simple ShEx
et comme vous pouvez le voir,
00:34:30.225 --> 00:34:32.428
nous avons déjà...
00:34:32.429 --> 00:34:34.641
Un problème à surveiller
00:34:34.642 --> 00:34:37.316
est quand un item
ne correspond pas à ce schéma,
00:34:37.316 --> 00:34:43.139
vous pouvez créer déjà une sorte de
rapports de curation d'entités de schéma
00:34:43.140 --> 00:34:46.240
et les envoyer aux différents
rapports de curation.
00:34:48.058 --> 00:34:52.788
Mais le ShEx.js est
une interface construite,
00:34:52.788 --> 00:34:55.860
voyez ici, je n'en fais que dix,
00:34:55.860 --> 00:35:00.362
mais nous en avons des dizaines
de milliers, ce qui est démesuré.
00:35:00.362 --> 00:35:04.654
À présent, le Wikidata Integrator
supporte aussi ShEx,
00:35:05.168 --> 00:35:07.431
nous pouvons donc boucler
les circuits d'items
00:35:07.431 --> 00:35:11.494
en disant : « Oui-Non, Oui-Non,
Vrai-Faux, Vrai-Faux ».
00:35:11.495 --> 00:35:13.015
Cela augmente à nouveau
00:35:13.065 --> 00:35:16.514
l'efficacité de la gestion des rapports.
00:35:17.256 --> 00:35:22.662
Mais cela s'appuie
sur le Wikidata Query Service
00:35:23.181 --> 00:35:24.998
et donc récemment,
nous nous voyons limités
00:35:24.999 --> 00:35:26.560
à cause de ce manque d'ajustement.
00:35:26.561 --> 00:35:31.391
Donc, la gestion des modèles sur Wikidata
est une procédure en cours.
00:35:32.202 --> 00:35:36.682
ShEx est non seulement intimidant,
00:35:36.683 --> 00:35:40.356
mais est d'une trop grande échelle
pour pouvoir le gérer.
00:35:41.068 --> 00:35:45.631
J'ai donc commencé à travailler
avec un outil appelé « yED »
00:35:45.631 --> 00:35:48.130
qui est ma première preuve
de concept ou exercice
00:35:48.184 --> 00:35:52.590
en dessinant ces Shape Expressions
00:35:52.591 --> 00:35:58.098
et en régénérant ce schéma
00:35:58.099 --> 00:36:01.279
en ce format adjacent
des Shape Expressions
00:36:01.280 --> 00:36:04.520
qui s'ouvrirait déjà à l'audience
00:36:04.521 --> 00:36:07.432
qui est intimidée par
les langages Shape Expressions.
00:36:07.961 --> 00:36:12.308
Mais il y a en fait un problème
avec des descriptions visuelles
00:36:12.309 --> 00:36:18.229
car ce schéma a aussi été dessiné
dans yED par quelqu'un.
00:36:18.230 --> 00:36:23.838
Il y en a un autre qui est splendide.
00:36:23.838 --> 00:36:29.414
J'adorerais l'avoir sur mon mur,
mais il n'est pas encore interopérable.
00:36:30.281 --> 00:36:32.131
Je voudrais donc clore mon discours
00:36:32.131 --> 00:36:35.732
avec cette diapositive que
j'ai « empruntée » pour la première fois.
00:36:35.732 --> 00:36:37.964
Nous sommes honorés
de l'avoir dans l'audience
00:36:37.964 --> 00:36:39.423
et j'aime beaucoup ceci :
00:36:39.424 --> 00:36:42.362
« Les gens pensent que RDF
est trop compliqué à utiliser.
00:36:42.362 --> 00:36:44.375
La vérité est pire, c'est tellement simple
00:36:45.151 --> 00:36:48.133
parce que vous devez travailler
avec des problèmes de données réels
00:36:48.134 --> 00:36:50.031
qui sont horriblement compliqués.
00:36:50.031 --> 00:36:51.451
Bien que vous pouvez éviter RDF,
00:36:51.451 --> 00:36:55.760
il est plus dur d'éviter des données et
des problèmes d'ordinateur compliqués. »
00:36:55.761 --> 00:36:59.535
On parle ici de RDF, mais je pense
que cela s'applique également au modelage.
00:37:00.112 --> 00:37:02.769
Ce que je veux dire :
00:37:03.387 --> 00:37:05.882
« Comment lancer la modélisation ? »
00:37:05.882 --> 00:37:10.826
En discutant de ShEx ou
des modèles visuels ou autre...
00:37:11.426 --> 00:37:13.271
Comment continuer ?
00:37:13.474 --> 00:37:14.840
Merci de m'avoir écouté.
00:37:15.102 --> 00:37:17.787
(applaudissements)
00:37:20.001 --> 00:37:21.188
(Lydia) Merci beaucoup.
00:37:21.692 --> 00:37:24.001
Pouvez-vous venir à l'avant
00:37:24.002 --> 00:37:27.741
comme cela, nous pouvons
recevoir les questions de l'audience.
00:37:28.610 --> 00:37:30.203
Il y a des questions ?
00:37:31.507 --> 00:37:32.507
Oui.
00:37:34.253 --> 00:37:36.890
Et pour la caméra, nous devrions...
00:37:38.835 --> 00:37:40.968
(Lydia rit) Oui.
00:37:43.094 --> 00:37:46.273
(Personne du public)
Une question pour Cristina.
00:37:47.366 --> 00:37:51.641
Vous avez mentionné le terme
« gain d'information »
00:37:51.642 --> 00:37:53.619
dans le cadre de connexion
avec d'autres systèmes.
00:37:53.619 --> 00:37:55.269
Il y a une mesure théorique d'information
00:37:55.269 --> 00:37:58.051
qui utilise statistique et probabilité
appelée « gain d'information ».
00:37:58.051 --> 00:37:59.541
Avez-vous la même...
00:37:59.542 --> 00:38:01.736
Parliez-vous de cette mesure,
00:38:01.736 --> 00:38:04.173
du gain d'information
de la théorie de probabilité
00:38:04.174 --> 00:38:05.470
de la théorie d'information
00:38:05.470 --> 00:38:09.024
ou simplement d'un concept de mesure de
gain d'information d'une certaine façon ?
00:38:09.025 --> 00:38:13.016
Non, nous avons en fait défini
et implémenté des mesures
00:38:13.695 --> 00:38:19.911
qui utilisent l'entropie Shannon,
c'est à prendre dans ce sens.
00:38:19.911 --> 00:38:22.596
Je ne voulais pas rentrer dans
les détails des formules concrètes...
00:38:22.596 --> 00:38:25.557
(Personne du public) Non bien sûr,
c'est pour ça que j'ai posé la question.
00:38:25.557 --> 00:38:26.598
Merci.
00:38:32.531 --> 00:38:35.047
(Personne du public) C'est plus
un commentaire qu'une question.
00:38:35.048 --> 00:38:36.241
(Lydia) Allez-y.
00:38:36.242 --> 00:38:39.840
(Personne du public) Il y a eu beaucoup
d'attention au niveau de l'item
00:38:39.840 --> 00:38:42.547
concernant la qualité et la complétion ;
00:38:42.547 --> 00:38:47.374
ce qui me préoccupe est que nous ne
faisons pas de même pour les hiérarchies
00:38:47.374 --> 00:38:51.480
et je crois que souvent,
notre hiérarchie n'est pas bonne.
00:38:51.481 --> 00:38:53.463
Nous prévoyons que
cela va être un réel problème
00:38:53.464 --> 00:38:55.774
avec la recherche des communs et autre.
00:38:56.771 --> 00:39:00.601
Ce que nous pouvons faire
est importer de l'externe.
00:39:00.602 --> 00:39:04.842
La façon dont les thésaurus externes
structurent leurs hiérarchies
00:39:04.842 --> 00:39:10.291
en utilisant le qualificateur
de concept plus large P4900.
00:39:11.037 --> 00:39:16.167
Mais ce qui serait plus utile
serait l'emploi de meilleurs outils
00:39:16.168 --> 00:39:21.212
afin d'importer une hiérarchie
de thésaurus externe.
00:39:21.212 --> 00:39:24.111
Incorporons ça dans nos items Wikidata.
00:39:24.111 --> 00:39:28.199
Une fois que ces qualificateurs
P4900 sont en place,
00:39:28.200 --> 00:39:31.494
vous pouvez faire de
la bonne requête avec SPARQL
00:39:32.490 --> 00:39:37.534
pour voir si notre hiérarchie
diverge de cette hiérarchie externe.
00:39:37.534 --> 00:39:41.346
For exemple, vous savez peut-être
que [Paula Morma], utilisatrice PKM
00:39:41.346 --> 00:39:43.533
travaille beaucoup dans la mode.
00:39:43.533 --> 00:39:50.524
Nous utilisons cela pour extraire la
hiérarchie du Europeana Fashion Thesaurus
00:39:50.524 --> 00:39:53.812
et celle du thésaurus de mode Getty AAT
00:39:53.812 --> 00:39:57.957
et nous voyons alors où sont
les espaces dans nos items haut niveau,
00:39:57.957 --> 00:40:00.511
ce qui représente pour nous
un vrai problème car souvent,
00:40:00.511 --> 00:40:04.355
ce sont des choses qui n'existent que
dans les pages de désambiguïsation,
00:40:04.356 --> 00:40:09.270
ce qui fait que de nombreux articles de
haut niveau manquent dans nos hiérarchies,
00:40:09.271 --> 00:40:14.480
c'est un problème que nous devons adresser
en termes de qualité et de complétion,
00:40:14.480 --> 00:40:15.971
mais ce qui aiderait vraiment,
00:40:16.643 --> 00:40:20.871
ce sont de meilleurs outils que
la jungle de scripts que j'ai écrits...
00:40:20.872 --> 00:40:26.010
Si quelqu'un pouvait entrer cela
dans un notebook PAWS dans Python,
00:40:26.561 --> 00:40:31.832
afin de prendre la hiérarchie
d'un thésaurus externe,
00:40:31.832 --> 00:40:34.595
ce qui pourrait être disponible
en tant que données couplées ou pas,
00:40:35.379 --> 00:40:40.580
et ensuite, de les placer dans les valeurs
P4900 en relevés rapides.
00:40:41.165 --> 00:40:42.165
Et après,
00:40:42.166 --> 00:40:45.917
quand notre représentation se complète,
mettre ces P4900 à jour,
00:40:45.917 --> 00:40:49.691
parce qu'au fur et à mesure que
nos représentations deviennent obsolètes,
00:40:49.691 --> 00:40:51.590
deviennent plus denses,
00:40:51.590 --> 00:40:55.377
les valeurs de ces qualificateurs
doivent changer
00:40:56.230 --> 00:40:59.526
pour représenter le fait qu'on ait plus
de leur hiérarchie dans notre système.
00:40:59.526 --> 00:41:03.728
Si quelqu'un savait faire cela,
ce serait très utile.
00:41:03.728 --> 00:41:07.121
Nous devons aussi
envisager d'autres approches
00:41:07.122 --> 00:41:10.762
pour améliorer la qualité et
la complétion au niveau hiérarchique
00:41:10.763 --> 00:41:12.378
et non simplement au niveau item.
00:41:13.308 --> 00:41:15.080
(Andra) Je peux ajouter quelque chose ?
00:41:16.362 --> 00:41:19.901
Oui, on fait déjà cela
00:41:19.911 --> 00:41:23.551
et je recommande de regarder
la Shape Expression faite par Finn
00:41:23.552 --> 00:41:27.330
avec les données lexicales
où il crée des Shape Expressions
00:41:27.330 --> 00:41:29.640
et s'appuie sur les expressions d'auteur
00:41:29.641 --> 00:41:32.528
pour obtenir un concept de
Shape Expressions liées dans Wikidata
00:41:32.529 --> 00:41:34.495
et spécifiquement, si je comprends bien,
00:41:34.495 --> 00:41:37.183
le cas d'utilisation est exactement
ce que l'on fait dans Gene Wiki.
00:41:37.184 --> 00:41:40.841
Vous avez donc l’Ontologie de Maladies
placée dans Wikidata
00:41:40.842 --> 00:41:44.681
et quand les données de maladie arrivent,
nous appliquons les Shape Expressions
00:41:44.682 --> 00:41:47.247
pour voir si cela correspond
à ce thésaurus.
00:41:47.248 --> 00:41:50.919
Il y a d'autres thésaurus et ontologies
pour les vocabulaires contrôlés
00:41:50.920 --> 00:41:52.469
qui doivent toujours intégrer Wikidata
00:41:52.469 --> 00:41:55.551
et c'est exactement pour cette raison
que Shape Expression est si intéressante
00:41:55.551 --> 00:41:57.963
parce qu'on peut en avoir une
pour l'Ontologie de Maladies,
00:41:57.964 --> 00:41:59.644
pour MeSH,
00:41:59.645 --> 00:42:02.101
on peut dire : « OK, je veux
maintenant vérifier la qualité. »
00:42:02.101 --> 00:42:04.629
Parce que dans Wikidata,
on aussi le contexte
00:42:04.629 --> 00:42:09.567
où dans le cas d'un vocabulaire contrôlé,
vous décidez de la qualité en fonction de,
00:42:09.568 --> 00:42:11.636
mais votre communauté
peut ne pas être d'accord.
00:42:11.636 --> 00:42:16.081
L'outillage est donc en place,
il faut maintenant créer ces modèles
00:42:16.082 --> 00:42:18.144
et les appliquer aux différents
cas d'utilisation.
00:42:18.681 --> 00:42:20.921
(Personne du public)
La Shape Expression est très utile
00:42:20.922 --> 00:42:25.928
une fois que l'ontologie externe
est cartographiée dans Wikidata,
00:42:25.929 --> 00:42:29.474
mais mon problème est
00:42:29.475 --> 00:42:34.881
de figurer l'ontologie externe
qui n'est pas déjà présente dans Wikidata
00:42:34.882 --> 00:42:36.256
et de situer les espaces ;
00:42:36.257 --> 00:42:40.660
et c'est là que le fait
d'avoir des outils plus robustes
00:42:40.660 --> 00:42:44.286
pour voir les parties manquantes
des ontologies externes
00:42:44.286 --> 00:42:45.537
devient très utile.
00:42:47.678 --> 00:42:49.062
Le plus grand problème
00:42:49.062 --> 00:42:51.201
est non pas l'outillage,
mais les licences.
00:42:51.803 --> 00:42:55.249
Mettre les ontologies dans Wikidata
est en fait un jeu d'enfant,
00:42:55.250 --> 00:42:59.295
mais la plupart des ontologies ont...
comment dire ça poliment,
00:42:59.965 --> 00:43:03.256
...des licences restrictives et donc,
non compatibles avec Wikidata.
00:43:03.758 --> 00:43:06.678
(Personne du public) Il y a un grand
nombre de thésaurus de secteur public
00:43:06.678 --> 00:43:08.209
dans les champs culturels.
00:43:08.210 --> 00:43:11.141
- (Andra) On doit alors en discuter.
- (Personne du public) Pas de soucis.
00:43:11.141 --> 00:43:12.384
(Andra) On doit en parler.
00:43:13.624 --> 00:43:19.192
(Personne du public) Mon commentaire
est en fait une réponse à James.
00:43:19.192 --> 00:43:22.401
Les hiérarchies font des graphes
00:43:22.374 --> 00:43:24.041
et quand tu veux...
00:43:24.579 --> 00:43:28.888
Je veux dire que le problème
commun des hiérarchies
00:43:28.889 --> 00:43:30.820
sont les hiérarchies circulaires,
00:43:30.821 --> 00:43:33.796
elles reviennent l'une vers l'autre
quand il y a un problème,
00:43:33.796 --> 00:43:35.920
ce qui ne devrait pas arriver.
00:43:37.022 --> 00:43:41.295
Curieusement, cela arrive fréquemment
dans les catégories de Wikipedia,
00:43:41.295 --> 00:43:42.990
elles sont souvent circulaires,
00:43:43.898 --> 00:43:46.612
mais la bonne nouvelle est que...
00:43:47.713 --> 00:43:51.392
Techniquement, c'est impossible à trouver
car c'est un problème complet PMP
00:43:51.392 --> 00:43:53.414
et facile si on construit
un graphe à cet effet.
00:43:54.473 --> 00:43:57.046
Mais il y a de nombreuses manières
qui ont été développées
00:43:57.047 --> 00:44:00.624
pour trouver les problèmes
dans ces graphes hiérarchiques.
00:44:00.625 --> 00:44:04.860
Comme ce document
appelé « Finding cycles...
00:44:04.861 --> 00:44:07.955
Breaking cycles in Noisy Hierarchies »
00:44:07.956 --> 00:44:12.671
qui a été utilisé pour aider
la catégorisation de Wikipédia Anglais.
00:44:12.672 --> 00:44:17.141
On peut appliquer cela
aux hiérarchies dans Wikidata
00:44:17.142 --> 00:44:19.540
et ensuite, trouver
ce qui est problématique
00:44:19.541 --> 00:44:22.481
et supprimer les causeurs de trouble
00:44:22.482 --> 00:44:24.593
et trouver les problèmes.
00:44:24.594 --> 00:44:26.960
C'est juste une idée pour vous...
00:44:28.090 --> 00:44:29.930
(Personne du public)
Tout cela est bel et bien,
00:44:29.931 --> 00:44:31.982
mais je crois que vous sous-estimez
00:44:31.982 --> 00:44:35.402
le nombre de relations défaillantes
entre les sous-classes que nous avons.
00:44:35.403 --> 00:44:39.680
C'est comme avoir
une ville dans le mauvais pays
00:44:40.250 --> 00:44:44.874
et il existe des outils
géographiques pour cela.
00:44:44.875 --> 00:44:49.201
Nous devons avoir de bien
meilleurs outils en hiérarchies
00:44:49.202 --> 00:44:53.477
pour identifier l'item manquant
00:44:53.478 --> 00:44:57.673
ou s'il a été en fait sous-classé
00:44:57.674 --> 00:45:01.804
à un élément qui ne veut pas dire
quelque chose de tout à fait différent.
00:45:02.804 --> 00:45:07.165
(Lydia) Je pense que
tu as mis le doigt dessus.
00:45:07.166 --> 00:45:12.024
Mon équipe et moi-même
avons les mêmes retours des gens
00:45:12.025 --> 00:45:13.991
qui réutilisent nos données ;
00:45:15.002 --> 00:45:17.078
Un point de donnée
individuel peut être intéressant,
00:45:17.078 --> 00:45:20.163
mais s'il faut examiner l'ontologie, etc.,
00:45:20.164 --> 00:45:21.857
cela devient très...
00:45:22.388 --> 00:45:26.437
Je pense qu'un des grands problèmes
pourquoi cela se produit
00:45:26.437 --> 00:45:30.736
est que nombreuses éditions dans Wikidata
00:45:30.736 --> 00:45:34.544
s'effectuent sur base
d'un élément individuel,
00:45:34.545 --> 00:45:36.201
on modifie cet item
00:45:37.653 --> 00:45:42.075
sans réaliser que cela peut avoir
des conséquences globales
00:45:42.075 --> 00:45:44.245
sur le reste du graphe, par exemple.
00:45:44.245 --> 00:45:50.040
Si les gens avaient des idées
sur comment rendre plus visibles
00:45:50.041 --> 00:45:53.185
les conséquences d'une modification
locale individuelle,
00:45:54.005 --> 00:45:56.537
il faudrait prendre la peine
de les explorer
00:45:57.550 --> 00:46:00.603
pour mieux montrer aux gens
00:46:00.603 --> 00:46:03.434
quelles sont les conséquences
de leur édition,
00:46:03.811 --> 00:46:05.481
même si celle-ci est de bonne foi.
00:46:06.939 --> 00:46:12.237
Commençons par ici,
oui, vous, puis vous et vous et vous !
00:46:12.237 --> 00:46:13.921
(Personne du public) Après la discussion,
00:46:13.922 --> 00:46:18.262
simplement pour exprimer
mon accord avec James.
00:46:18.263 --> 00:46:22.467
Il semble que la chose
la plus dangereuse est la hiérarchie,
00:46:22.468 --> 00:46:23.910
pas la hiérarchie, mais en général,
00:46:23.911 --> 00:46:28.022
les sémantiques des relations
entre sous-classes dans Wikidata,.
00:46:28.022 --> 00:46:32.561
J'ai récemment étudié les langages
en vue de cette conférence
00:46:32.562 --> 00:46:35.257
et par exemple, vous trouvez plein de cas
00:46:35.257 --> 00:46:39.463
où le langage fait partie
des sous-classes.
00:46:39.463 --> 00:46:43.577
On peut alors dire
qu'on a une ontologie flexible.
00:46:43.577 --> 00:46:46.256
Parfois, Wikidata vous donne
cette liberté d'expression.
00:46:46.256 --> 00:46:47.257
Parce que par exemple,
00:46:47.258 --> 00:46:50.721
cette ontologie de langages est
aussi politiquement compliquée, pas vrai ?
00:46:50.722 --> 00:46:54.828
Il est même bon d'être en position
d'exprimer un niveau d'incertitude.
00:46:54.828 --> 00:46:58.093
Mais imaginez quelqu'un qui veut faire
de la lecture automatique à partir de ça.
00:46:58.093 --> 00:46:59.468
C'est vraiment problématique.
00:46:59.468 --> 00:47:00.468
Et de nouveau,
00:47:00.469 --> 00:47:03.556
je ne pense pas que cette ontologie
a été importée de quelque part
00:47:03.556 --> 00:47:05.770
c'est quelque chose qui
originairement nous appartient.
00:47:05.770 --> 00:47:08.321
Je dirais que c'est récolté
de Wikipédia au tout début.
00:47:08.322 --> 00:47:11.324
Donc, je me demande...
Cette Shape Expressions est super
00:47:11.325 --> 00:47:15.575
et le fait de valider et rectifier
l'ontologie Wikidata
00:47:15.576 --> 00:47:18.191
par des ressources externes, belle idée.
00:47:19.026 --> 00:47:20.026
À la fin,
00:47:20.027 --> 00:47:25.440
terminerons-nous en réfléchissant sur
les ontologies externes dans Wikidata ?
00:47:25.441 --> 00:47:28.651
Et aussi, à ce que nous faisons avec
la partie centrale de notre ontologie
00:47:28.652 --> 00:47:30.642
qui n'est jamais récoltée
de ressources externes,
00:47:30.643 --> 00:47:31.978
comment résoudre cela ?
00:47:31.979 --> 00:47:35.276
Et je pense que ce sera
un problème en soi.
00:47:35.277 --> 00:47:39.010
Nous devrons nous concentrer
sur cela indépendamment du fait
00:47:39.010 --> 00:47:41.046
de valider l'ontologie
avec un élément externe.
00:47:49.353 --> 00:47:53.079
(Personne du public) Les contraintes
et formes ainsi que leurs usages
00:47:53.079 --> 00:47:54.495
sont vraiment impressionnantes,
00:47:55.205 --> 00:47:58.481
mais le point principal n'est pas clair
00:47:58.482 --> 00:48:03.229
car nous pouvons maintenant rendre
nos attentes des données plus explicites.
00:48:03.229 --> 00:48:06.893
Avant, chacun devait écrire
ses propres outils et scripts
00:48:06.894 --> 00:48:10.601
pour qu'ils soient plus visibles
et accessibles de discussion.
00:48:10.602 --> 00:48:13.641
Mais il ne s'agit pas
de ce qui est juste ou non,
00:48:13.642 --> 00:48:15.870
il s'agit d'une attente
00:48:15.870 --> 00:48:18.105
et il y aura différentes
attentes et discussions
00:48:18.106 --> 00:48:20.737
sur comment modeler dans Wikidata
00:48:21.246 --> 00:48:23.095
et ceci...
00:48:23.096 --> 00:48:26.280
L'état actuel est simplement
un pas dans la direction
00:48:26.281 --> 00:48:28.041
parce qu'à présent,
00:48:28.042 --> 00:48:31.041
il faut une grande expertise technique
pour s'impliquer
00:48:31.042 --> 00:48:35.721
et nous devons avoir de meilleurs moyens
pour visualiser cette contrainte ;
00:48:35.722 --> 00:48:39.995
de peut-être la transformer en un langage
naturel pour une meilleure compréhension,
00:48:40.939 --> 00:48:43.768
il ne s'agit pas de juste ou faux.
00:48:44.925 --> 00:48:45.925
(Lydia) Oui.
00:48:50.986 --> 00:48:53.893
(Personne du public)
Concernant les problèmes de qualité,
00:48:53.894 --> 00:48:57.010
j'ai trouvé que nombreux problèmes
que j'ai rencontrés consistaient
00:48:58.838 --> 00:49:02.330
en une différence d'opinion entre
« instance de » comparé à « sous-classe ».
00:49:02.331 --> 00:49:05.963
Dans ces situations, je dirais
que ce sont des « erreurs »
00:49:05.963 --> 00:49:11.521
et les trouver est
une procédure chronophage.
00:49:11.522 --> 00:49:14.840
Ce que j'ai trouvé est : « Oh, si
je trouve des articles de haute qualité
00:49:14.840 --> 00:49:16.051
qui sont...
00:49:16.052 --> 00:49:21.628
pour ensuite utiliser toutes les instances
sous-classe et leurs relevés dérivés »,
00:49:21.628 --> 00:49:26.215
c'est une manière utile
de chercher ces erreurs.
00:49:26.215 --> 00:49:28.067
Mais je me demandais si Shape Expressions,
00:49:29.841 --> 00:49:31.582
s'il y a...
00:49:31.583 --> 00:49:36.934
si elle peut être utilisée comme outil
pour aider à résoudre ces problèmes...
00:49:40.314 --> 00:49:42.555
(Personne du public)
S'il y a une empreinte structurée
00:49:45.910 --> 00:49:49.010
que l'on peut...
qui est en sorte falsifiable,
00:49:49.010 --> 00:49:51.191
on peut l'examiner et
reconnaître qu'elle est fausse,
00:49:51.192 --> 00:49:52.670
alors oui, on peut le faire.
00:49:52.671 --> 00:49:56.921
Mais si c'est pour l'associer
à des objets réels,
00:49:56.922 --> 00:49:59.082
cela va demander beaucoup de cerveaux.
00:50:05.768 --> 00:50:08.631
Bonjour, je suis Pablo Mendes
de Siri Knowledge de Apple.
00:50:09.154 --> 00:50:12.770
Nous sommes ici pour découvrir
comment aider le projet et la communauté,
00:50:12.770 --> 00:50:15.645
mais Cristina a commis l'erreur
de nous demander ce qu'on voulait.
00:50:16.471 --> 00:50:20.052
(rire) Une des choses que j'aimerais voir,
00:50:20.958 --> 00:50:23.521
c'est attacher de l'importance
à la vérifiabilité
00:50:23.522 --> 00:50:26.372
qui est un des principes essentiels
du projet dans la communauté
00:50:27.062 --> 00:50:28.590
ainsi que la fiabilité.
00:50:28.590 --> 00:50:32.162
Tous les énoncés ne sont pas identiques,
certains d'entre eux sont très disputés,
00:50:32.162 --> 00:50:33.893
certains d'entre eux
sont faciles à deviner
00:50:33.893 --> 00:50:35.931
comme une date de naissance
qui peut être vérifiée,
00:50:35.931 --> 00:50:39.172
mais comme vous l'avez vu dans Keynote,
la question de genre est plus compliquée.
00:50:40.205 --> 00:50:43.040
Pouvez-vous nous parler davantage
de ce que vous savez au sujet
00:50:43.040 --> 00:50:47.271
de la qualité de données
concernant la fiabilité et vérifiabilité ?
00:50:55.442 --> 00:50:58.138
Et si ce n'est pas grand-chose,
j'aimerais en savoir plus. (rire)
00:51:00.646 --> 00:51:01.646
(Lydia) Oui.
00:51:03.314 --> 00:51:06.548
Apparemment, il n'y a
pas grand-chose à dire. (rire)
00:51:08.024 --> 00:51:12.299
(Andra) Je pense que nous pouvons faire
beaucoup et j'ai discuté hier avec vous.
00:51:12.300 --> 00:51:15.774
Mon exemple favori d'hier
qui est déjà obsolète
00:51:15.774 --> 00:51:20.281
est que si vous allez
sur Q2 qui est la terre,
00:51:20.282 --> 00:51:23.343
il y a une déclaration qui dit
que la terre est plate.
00:51:24.183 --> 00:51:26.055
J'adore cet exemple
00:51:26.056 --> 00:51:28.391
parce qu'il existe une communauté
qui déclare cela
00:51:28.392 --> 00:51:30.417
et ils possèdent des sources vérifiables.
00:51:30.418 --> 00:51:32.254
Je pense que ce cas est véritable,
00:51:32.255 --> 00:51:34.961
qu'il ne devrait pas être déprécié
et devrait être dans Wikidata.
00:51:34.961 --> 00:51:40.385
C'est une circonstance où
Shape Expressions peut être décisif
00:51:40.386 --> 00:51:41.832
parce que vous pouvez dire
00:51:41.833 --> 00:51:44.856
que vous êtes vraiment
intéressé par ce cas d'utilisation,
00:51:44.857 --> 00:51:47.129
ou il se peut que
vous ne soyez pas d'accord,
00:51:47.130 --> 00:51:50.869
mais ce cas d'utilisation pourrait
également vous intéresser.
00:51:50.869 --> 00:51:53.449
Il y a aussi cet exemple
où vous dites que vous avez du glucose.
00:51:53.449 --> 00:51:55.841
Mais quand vous êtes biologiste,
00:51:55.842 --> 00:52:00.176
vous ne vous souciez pas des contraintes
chimiques de la molécule de glucose,
00:52:00.177 --> 00:52:03.201
tout est pareil en ce
qui concerne le glucose.
00:52:03.202 --> 00:52:06.123
Mais si vous êtes chimiste, vous grincerez
des dents en entendant cela,
00:52:06.123 --> 00:52:08.191
vous avez 200...
00:52:08.191 --> 00:52:10.443
Vous pouvez alors avoir
des Shape Expressions multiples,
00:52:10.443 --> 00:52:12.721
d'un point de vue chimique,
00:52:12.722 --> 00:52:13.887
j'appliquerai cela.
00:52:13.887 --> 00:52:16.691
Mais d'un point de vue biologique,
00:52:16.691 --> 00:52:18.524
j'appliquerai cette Shape Expression.
00:52:18.524 --> 00:52:20.358
Et quand vous voulez collaborer,
00:52:20.358 --> 00:52:22.784
parlez plutôt à Eric des cartes ShEx.
00:52:23.910 --> 00:52:28.873
Mais cette aventure ne fait que commencer.
00:52:28.873 --> 00:52:32.238
Et personnellement, je pense qu'il y aura
un rôle à jouer dans ce domaine.
00:52:34.292 --> 00:52:35.535
(Lydia) OK. Ici.
00:52:37.949 --> 00:52:39.168
(rire)
00:52:40.597 --> 00:52:46.035
(Personne du public) J'ai eu plusieurs
idées en entendant les discussions,
00:52:46.035 --> 00:52:50.902
je vais essayer de ne pas les perdre.
00:52:52.394 --> 00:52:55.201
Basé sur ce que James a dit auparavant,
00:52:55.202 --> 00:52:59.001
depuis le début, nous avons
un très gros problème dans Wikidata
00:52:59.002 --> 00:53:01.574
pour l'ontologie supérieure.
00:53:02.363 --> 00:53:05.339
Nous en avons parlé il y a deux ans
lors de WikidataCon
00:53:05.340 --> 00:53:07.432
et nous en avons parlé à Wikimania.
00:53:07.432 --> 00:53:09.818
Chaque fois que nous avons
une réunion Wikidata,
00:53:09.818 --> 00:53:11.656
nous en parlons
00:53:11.656 --> 00:53:15.782
car c'est un très gros problème
de tout premier abord ;
00:53:15.783 --> 00:53:23.118
quelle est l'entité,quel est le travail,
quel est le genre, l'art,
00:53:23.118 --> 00:53:25.461
ce sont les plus grands concepts.
00:53:26.675 --> 00:53:33.117
Et c'est en fait un point très faible
de l'ontologie globale
00:53:33.118 --> 00:53:37.453
parce que les gens essaient
de nettoyer régulièrement
00:53:38.017 --> 00:53:41.047
et finissent par tout casser ;
00:53:42.516 --> 00:53:48.649
je pense que certains se souviennent
peut-être du gars qui candidement,
00:53:48.649 --> 00:53:51.785
a cassé toutes les villes du monde.
00:53:51.785 --> 00:53:57.537
On n'était plus des items géographiques,
donc contraintes de violation partout.
00:53:58.720 --> 00:54:00.278
Et c'était de bonne foi
00:54:00.278 --> 00:54:03.623
parce qu'il apportait vraiment
une correction à un article,
00:54:04.170 --> 00:54:05.732
mais tout s'est écroulé.
00:54:06.349 --> 00:54:09.373
Je ne sais pas trop comment résoudre cela
00:54:10.216 --> 00:54:15.709
parce qu'il n'existe pas
d'institution externe à copier
00:54:15.710 --> 00:54:18.490
car tout le monde travaille sur...
00:54:19.154 --> 00:54:22.041
Si je suis la base de données
d'art performant,
00:54:22.042 --> 00:54:24.601
j'irai simplement à
l'étiquette d'art performant,
00:54:24.601 --> 00:54:29.361
je n'irai pas sur le concept
philosophique de ce qu'est une entité
00:54:29.362 --> 00:54:31.201
et c'est en fait...
00:54:31.202 --> 00:54:34.561
Je ne connais aucune base de données
qui travaille à ce niveau,
00:54:34.562 --> 00:54:36.827
mais ça, c'est le point
le plus faible de Wikidata.
00:54:37.936 --> 00:54:40.812
Et il est probable que quand
nous parlons de qualité de données,
00:54:40.812 --> 00:54:44.034
cela en constitue
une grande partie, donc...
00:54:44.034 --> 00:54:48.569
Et c'est ce que nous avons
aussi mentionné dans...
00:54:48.569 --> 00:54:50.452
Désolée, je change de sujet,
00:54:51.401 --> 00:54:55.774
mais dans différentes sessions
concernant la qualité, nous avons remarqué
00:54:55.774 --> 00:54:59.398
que certains d'entre nous
font un bon travail de modélisation,
00:54:59.399 --> 00:55:01.240
de ShEx et autres choses.
00:55:01.967 --> 00:55:07.655
Les gens ne voient pas ça dans Wikidata,
ils ne voient pas le ShEx,
00:55:07.655 --> 00:55:10.392
ils ne voient pas le WikiProject
sur la page de discussion
00:55:10.393 --> 00:55:11.393
et parfois,
00:55:11.394 --> 00:55:14.958
ils ne voient même pas
les pages de discussion des propriétés
00:55:14.958 --> 00:55:19.628
qui dit clairement :
a) cette propriété est utilisée pour cela.
00:55:19.628 --> 00:55:23.887
La semaine dernière, j'ai ajouté
des contraintes à une propriété.
00:55:23.888 --> 00:55:26.324
La contrainte était écrite explicitement
00:55:26.325 --> 00:55:28.690
dans la discussion
de la création de la propriété.
00:55:28.690 --> 00:55:34.548
J'ai juste créé la partie technique
d'ajout de contrainte et quelqu'un :
00:55:34.548 --> 00:55:37.182
« Quoi ! Tu as cassé
toutes mes modifications ! ».
00:55:37.183 --> 00:55:41.542
Et il se fait qu'il utilisait la propriété
incorrectement depuis deux ans.
00:55:41.542 --> 00:55:46.868
Et celle-ci était en fait très claire,
mais il n'y a eu aucun avertissement ;
00:55:46.869 --> 00:55:49.922
et c'est pareil pour Pink Pony,
nous avons dit à Wikimania
00:55:49.922 --> 00:55:54.719
de rendre plus visible
le WikiProject ou ShEx, mais...
00:55:54.719 --> 00:55:56.917
Et c'est ce qu'a dit Cristina.
00:55:56.917 --> 00:56:02.368
Nous avons un problème de visibilité
concernant les solutions existantes.
00:56:02.368 --> 00:56:04.242
Dans cette session,
00:56:04.242 --> 00:56:06.862
nous parlons tous de
comment créer plus de ShEx
00:56:06.863 --> 00:56:10.727
ou de faciliter les tâches
des gens qui font le nettoyage.
00:56:11.605 --> 00:56:15.835
Mais depuis le premier jour de Wikidata,
nous nettoyons
00:56:15.836 --> 00:56:20.921
et globalement, nous sommes
en train de perdre la partie parce que
00:56:20.922 --> 00:56:22.960
je sais que les noms sont compliqués,
00:56:22.961 --> 00:56:26.162
mais je suis la seule à nettoyer,
00:56:26.662 --> 00:56:29.671
celui qui a ajouté le nom scripté latin
00:56:29.672 --> 00:56:31.584
à tous les chercheurs chinois,
00:56:32.088 --> 00:56:35.616
cela me prendra des mois pour nettoyer
et je ne peux pas le faire seule,
00:56:35.616 --> 00:56:38.777
et de plus, il a fait un lot énorme.
00:56:38.777 --> 00:56:40.241
Nous avons vraiment besoin...
00:56:40.242 --> 00:56:44.158
Notre problème de visibilité est
plus important de celui des outils
00:56:44.158 --> 00:56:45.733
car nous avons de nombreux outils.
00:56:45.733 --> 00:56:50.255
(Lydia) Malheureusement,
on me fait signe (rit),
00:56:50.256 --> 00:56:52.121
nous devons donc terminer.
00:56:52.122 --> 00:56:53.563
Merci à tous pour vos commentaires.
00:56:53.563 --> 00:56:56.611
J'espère voir la discussion se prolonger
au cours de la journée
00:56:56.611 --> 00:56:58.119
et merci pour votre contribution.
00:56:58.359 --> 00:56:59.944
(applaudissements)