UN APERÇU SUR WIKIDATA
(Lydia) Bonjour tout le monde.
Ça fait plaisir que vous soyez tous là,
vous êtes vraiment nombreux.
C'est génial.
Léa a déjà beaucoup
parlé de cet événement
et je vais vous parler un peu de Wikidata
et de ce qui s'est passé concernant
ce sujet au cours de l’année dernière
et vers quoi nous nous dirigeons.
Alors… qu’est-ce que c’est ? Pardon.
UN APERÇU SUR WIKIDATA
Où en sommes-nous ? Où allons-nous ?
Alors... où en sommes-nous ?
Où allons-nous ?
Durant l'année dernière, il y a eu
tellement de choses à célébrer
et je veux souligner quelques points
qui passent parfois inaperçus.
TANT À CÉLÉBRER !
Mais tout d’abord, je veux vous donner
quelques statistiques sur les éditeurs
et notre contenu et comment
nos données sont utilisées.
Éditeurs
Au cours de l'année dernière,
nous avons développé notre communauté,
ce qui est formidable.
Nous avons environ
3 000 nouvelles personnes
qui éditent une ou plusieurs fois
en 30 jours.
Ce qui fait donc 3 000 nouveaux
« Wikidatiens », hourra ! (rit)
Si on regarde ceux qui en font plus,
comme cinq éditions en 30 jours,
nous en avons environ 1 200 de plus.
Et si on regarde ceux qui font
cent éditions ou plus,
j’espère que c'est
la majorité dans cette salle (rit),
nous en avons alors 300 de plus.
Levez votre main si vous êtes
dans ce dernier groupe.
Bravo ! Vous êtes géniaux !
Et même si la quantité d’éditions
n’est pas généralement quelque chose
à laquelle nous prêtons
beaucoup d’attention,
nous avons franchi la barre
des milliards cette année.
(applaudissements)
Contenu
Bien, regardons le contenu.
Nous en sommes maintenant
à 65 millions d'éléments,
des entités pour décrire le monde,
et nous faisons ça
avec environ 6 700 propriétés,
dont environ 4 300 sont
des identificateurs externes,
ce qui nous donne beaucoup de liens vers
d’autres catalogues, bases de données,
sites web et plus,
et fait vraiment de Wikidata
le focus principal
dans une structure web
de données ouvertes.
En utilisant ces propriétés et éléments,
nous avons maintenant
environ 800 millions de déclarations
et comparé à l’année dernière,
nous connaissons à présent
plus d’une demi déclaration
sur chaque élément.
(rires)
Donc, oui, Wikidata
est devenu plus intelligent.
Mais nous n’avons pas seulement
des éléments et propriétés,
nous avons aussi de nouvelles choses
comme les lexèmes
et nous sommes maintenant à
204 000 lexèmes qui décrivent des mots
dans plusieurs langues différentes.
Ce qui est génial.
J'en parlerai davantage
au cours d'une session ultérieure.
Enfin, le dernier ajout
concerne les schémas d’entité
qui nous aident à modéliser
uniformément les données
dans un domaine particulier.
Nous en avons actuellement
plus ou moins 140.
Qualité de l'item moyen
Il est vrai qu'il ne s'agit pas uniquement
de nombres quand on parle de contenu
ou de sa quantité, nous nous préoccupons
également de la qualité de celui-ci.
Et ce que nous avons fait, c’est former
un système d’apprentissage automatique
pour juger de la qualité d’un élément.
C'est loin d'être parfait, mais
cela peut vous donner une idée.
Chaque élément de Wikidata
obtient une note entre un et cinq.
Un est terrible, cinq est incroyable.
Et elle montre des choses
telles que son nombre de déclarations,
son nombre d’identifiants externes,
combien de références sont présentes,
combien de libellés différents
dans différentes langues, etc.
Et puis nous avons observé
Wikidata dans le temps,
et comme vous le voyez,
selon ces métriques,
nous sommes passés de
« terrible » à « beaucoup mieux ».
(rires)
Donc, c'est bien.
Mais on voit aussi qu'il faut encore
de l'amélioration pour arriver à cinq.
Je ne pense pas que nous
en arriverons là, n’est ce pas ?
Les éléments ne seront pas
tous absolument parfaits
selon les métriques que nous avons prises.
Mais je suis vraiment ravie de voir
que la qualité de nos données
s'améliore de plus en plus.
Usage
Mais créer les données
n'est pas suffisant.
Nous faisons cela pour une raison.
Nous voulons que ça soit utilisé.
Nous avons vu combien d’articles
des autres projets de Wikimedia
utilisent les données de Wikidata
et nous avons vu le pourcentage
de tous les articles sur ces projets.
Si on examine l’entièreté de Wikimedia
et de tous ses articles,
alors, 56,35 % utilisent aujourd’hui
certaines données de Wikidata.
Et je pense que c’est plutôt bien,
mais c'est encore bien sûr,
assez lointain de 100.
Puis, j’ai regardé quels étaient
les projets qui utilisent le plus
les données de Wikidata
et je les ai classés par langues, etc.
Selon vous, quels sont
les cinq principaux projets ?
Quels sont-ils ?
De quelle famille de projet
font-ils partie ?
(audience) Commons.
La réponse est
majoritairement « Commons ».
En fait, vous auriez tort.
Les cinq premiers sont Wikivoyage.
(audience) Oh !
(rires)
Alors oui, on applaudit Wikivoyage.
(applaudissements)
Si vous souhaitez vérifier
où se trouve le Commons
et où se trouvent tous
vos autres projets,
Il y a un tableau de bord.
Venez me voir
et nous pourrons le vérifier.
Wikimedia n'est pas le seul endroit
où nos données sont utilisées.
Elles sont également utilisées en
externe et tant de choses sont arrivées.
Je ne pourrais pas tout mentionner,
mais pour en souligner certaines,
il y a une importante utilisation
de nos données au Met, au Wellcome Trust,
à la Bibliothèque du Congrès,
dans Genewiki et tant d’autres.
Et si vous assistez à certaines sessions
plus tard dans le programme,
on vous parlera
de certaines d'entre elles.
Points forts de l'année
D’accord, assez de statistiques.
Regardons d’autres points.
Donc, nous avons déjà parlé de
l’amélioration de la qualité des données
et quand vous examinez celle-ci,
de nombreux paramètres
ont déjà été améliorés ;
comme la précision des données,
leur fiabilité,
la manière dont elles sont référencées,
la cohérence de leur modèle,
leur complétude, etc.
Concernant la cohérence par exemple,
nous avons créé la possibilité de stocker
des schémas d’entité dans Wikidata
afin que vous puissiez décrire comment
certains domaines doivent être modélisés.
Donc, vous pouvez les trouver,
vous pouvez créer un schéma d’entité,
disons, pour les peintres néerlandais
et après vous pouvez voir
quels articles pour
les peintres néerlandais
n’ont par exemple pas de date de naissance
et d’autres choses similaires.
Et j’espère que beaucoup
d’autres projets Wiki
seront capables d’utiliser
des schémas d’entité pour prendre soin
de leurs données, et si vous voulez
apprendre comment le faire,
il y aura une session plus tard
dans le programme
menée par des gens compétents
en la matière et ils feront en sorte
de vous rendre les choses faciles.
Bien.
L'écosystème Wikibase en croissance
Un autre sujet qui a
vraiment capturé l’audience
durant l’année dernière,
c’est l’écosystème Wikibase.
Cette idée que toutes les données ouvertes
ne doivent pas forcément apparaître
dans Wikidata, mais nous désirons
plutôt un écosystème prospère
dans des lieux différents,
avec des facteurs différents
comme les institutions, les entreprises,
les projets bénévoles exposant
leurs données d’une manière similaire
à Wikidata et d'ensuite,
toutes les connecter,
en échangeant et reliant ces données.
Au cours de l’année dernière,
l’intérêt pour ce concept
et pour les institutions
et les gens gèrant eux-mêmes
leur propre base Wikibase
a vraiment explosé,
particulièrement dans
le secteur des bibliothèques.
Il y a beaucoup de tests, d’évaluations,
et pour être honnête, d'innovations,
qui se passent en ce moment
où les institutions aventureuses
travaillent avec nous pour comprendre
comment Wikibase peut optimiser
leurs collections,
pour leurs catalogues, etc.
Parmi eux, la Bibliothèque
nationale allemande,
la Bibliothèque nationale française,
le OCLC et cela fait
vraiment plaisir à voir.
Une des raisons pour lesquelles
je pense que c’est intéressant
est que nous aidons ces institutions
à partager les données d’une façon
qui ne se limite pas à les mettre sur
un site web pour les rendre accessibles,
mais également,
de penser aux futures étapes.
Permettre aux gens de vous aider à
maintenir et augmenter ces données,
les enrichir, c’est vraiment un changement
qui, j’espère, sera positif.
Ce qui nous aide également,
c’est que ça permet aux experts
de conserver les données
dans leur espace, les garder en bon état
afin que nous puissions mettre en place
des processus de synchronisation
avec Wikidata, par exemple,
contrairement à ce que nous nous
en occupions tout le temps nous-mêmes.
Et en fin de compte, j’espère
que la pression pour Wikidata
d'être le récepteur de toute donnée
sera allégée.
Les données lexicographiques
trouvent leur place
Les données lexicographiques.
Au cours de l’année dernière,
les gens ont commencé à décrire des mots
dans leur langue dans Wikidata afin
que nous puissions construire
des outils de traduction automatique,
et nous sommes arrivés au point
où dans certaines langues,
nous nous rapprochons
tout doucement de cette masse critique
qui est nécessaire pour réellement
construire une application sérieuse.
Dans beaucoup de langues, nous avons
encore un long chemin à parcourir,
mais dans d'autres,
nous nous rapprochons du but
et c'est vraiment super à voir.
Si vous voulez en savoir plus, venez
assister à ma session un peu plus tard.
Les données structurées
améliorent les Commons.
Et bien sûr, il ne faut pas oublier
les données structurées sur Commons.
(sifflement dans l'audience)
Oui ! (rire)
(applaudissements)
Les données structurées
sur les Commons vus à la fondation
ont réuni tous les éléments
et ont donné la possibilité
d'ajouter des déclarations aux fichiers,
ce qui fait que les gens commencent
à ajouter celles-ci aux images
pour faciliter la recherche,
la création de meilleures applications
et bien plus encore.
C'est vraiment passionnant
d'observer cette croissance
et je pense qu’il est important
pour la communauté
de Wikidata de comprendre
que quand vous voyez « dépeint »
ou « chat domestique » ou « assis »,
« lézard » et « mur » ici,
ce sont des liens vers des articles
et propriétés de Wikidata.
Cela signifie que quand nous créons
des articles et propriétés,
ils ne proposent pas seulement
le vocabulaire pour Wikidata,
ils fournissent le vocabulaire
pour les Commons également.
Et cela ne fera qu’augmenter davantage,
donc nous devons faire
beaucoup plus attention
à la manière dont
notre ontologie, notre vocabulaire
est utilisé dans d'autres endroits
qu'auparavant.
Nous construisons des ponts
plus solides vers les projets Wikimedia
Et je voudrais aussi dire que nous avons
commencé à créer des ponts plus solides
vers les autres projets Wikimedia.
Mon équipe et moi travaillons sur
un projet appelé « Wikidata Bridge »
et vous devez absolument venir au stand UX
pour tester la situation actuelle
où par exemple, les éditeurs de Wikipedia
éditeront directement depuis leurs projets
sans avoir besoin d'aller sur Wikidata
et sans devoir comprendre
toutes ses subtilités.
J’espère que cela facilitera
l'adoption de données supplémentaires
de Wikidata dans les projets Wikimedia.
Stratégies et vues futures
Maintenant : les stratégies
et où allons-nous ?
Depuis décembre, l’équipe de Wikidata
chez Wikimedia Deutschland
et le personnel de la fondation Wikimedia
ont travaillé sur des stratégies,
des articles concernant Wikidata.
Il s'agit essentiellement
de transcrire ce dont nous avons parlé
au cours des quatre
ou cinq dernières années.
Et je ne sais pas si vous
avez tous lu ces articles.
Ils sont publiés sur les méta-Commons
jusqu’à la fin du mois.
Ce serait formidable que
si vous ne les avez pas encore lus,
de le faire et de laisser
vos commentaires, etc.
Jetons un coup d’œil rapide
sur ce contenu
qui exprime notre conception
de Wikidata et Wikibase en trois parties.
La première est Wikidata
en tant que plateforme,
vous pouvez la voir dans le coin inférieur
et ce qui appartient à Wikidata
permet à chaque personne
d'accéder et partager des informations,
indépendamment de
leur langue et leur technologie
et cela, grâce à la mise à disposition
des données générales à travers le monde.
C'est pratiquement ce que
vous faites tous les jours. (rit)
Deuxièmement, c'est la partie
de l’écosystème de Wikibase
où Wikibase, le logiciel
exécutant Wikidata, alimente
non seulement Wikidata, mais un site
prospère de données qui est la base
d’informations libres et ouvertes.
Et la troisième et dernière chose est
le Wikidata pour les projets de Wikimedia
au sommet où Wikidata se trouve
pour aider les projets de Wikimedia
à se préparer pour l’avenir.
Wikidata en tant que plateforme
Concrètement, qu’est-ce que cela signifie
pour l’avenir proche ou à moyen terme ?
Wikidata en tant que plateforme :
nous voulons une meilleure qualité
de données, donc nous continuerons
d’améliorer les outils
dont nous disposons déjà.
Nous devons rendre
nos données plus accessibles
via de meilleures API, un point
terminaison SPARQL plus robuste,
mais aussi au travers d'une modélisation
plus cohérente de nos données
pour faciliter la réutilisation
dans les applications.
La dernière chose que je veux mentionner
est la mise en place de processus
de retour d'information
avec nos partenaires.
Contrairement à Wikipedia,
Wikidata n’est pas
ce que j’appellerais
« un projet de destination ».
Quand quelqu’un va
sur Wikipedia, il le lit simplement,
ce qui n'est généralement
pas le cas pour Wikidata.
Ce serait génial,
mais ce n'est pas
ce qui se passe en réalité.
Beaucoup de gens qui
sont exposés à nos données
ne sont pas sur Wikidata,
mais ils le voient via Wikipedia
et d’autres plateformes.
Ces autres plateformes reçoivent alors
des commentaires sur ces données.
Leurs utilisateurs leur disent :
« Il y a quelque chose qui ne marche pas »
et je voudrais avoir cette option
pour la rendre disponible
à ceux qui éditent sur Wikidata,
c’est-à-dire vous.
Et trouver comment faire cela
d’une manière significative
sans pour autant accabler
les gens sera un objectif
pour le courant de l'année prochaine.
Écosystème Wikibase
Voyons maintenant
l’écosystème de Wikibase.
Là, nous allons continuer
à travailler avec les bibliothèques,
mais aussi nous pencher
par exemple sur la science et autres.
Il y a un exposé Wikibase plus tard dans
la journée que vous ne devez pas manquer
pour voir comment
Wikibase est déjà exploitée,
cela en vaut vraiment la peine.
Et il sera aussi nécessaire
d'établir de bons processus
dans cet environnement.
Aider les gens à savoir
à qui parler et de quoi,
où ils peuvent trouver de l’aide,
ce genre de choses.
Et bien sûr, faciliter
l'installation et la maintenance
d'une Wikibase parce que
c’est toujours assez compliqué.
Et la dernière chose est
la fédération qui est essentiellement
ce dont nous avons parlé
pour les Commons plus tôt
où les éléments et propriétés
de Wikidata sont utilisés
mais pour d’autres instances Wikibase
afin de pouvoir utiliser
le vocabulaire de Wikidata.
Comme mentionné auparavant,
cela augmente encore
le besoin d’être attentif à la façon
dont notre vocabulaire est utilisé
comparé à ce qui
a été fait jusqu'à présent.
Wikidata pour les projets Wikimedia
Et Wikidata pour
les projets de Wikimedia :
bien sûr, une intégration étroite
au travers du Pont Wikidata
et aider les gens à modifier
directement depuis leur projets ;
et l’autre chose à laquelle nous devons
tous réfléchir ensemble, je pense,
est trouver un moyen pour
réduire les barrières linguistiques.
Plus Wikidata sera intégré
dans les projets de Wikimedia
et plus les gens auront besoin
de communiquer à ce sujet,
alors qu'ils ne parlent pas la même langue
et il est essentiel de pouvoir
gérer ce problème.
Si quiconque a une idée intéressante,
j'aimerais beaucoup l'entendre.
J’arrive maintenant
à la fin de mon discours.
Merci à tous d’avoir facilité
journellement l’accessibilité
d'apprentissage pour plus de monde.
(applaudissements)
Rendre la connaissance accessible
à tous, tous les jours !
Nous avons du temps pour des questions,
donc s'il y a des questions du public
ou si vous regardez en direct,
salut maman, (rires)
vous pouvez poser
des questions sur le EtherPad
ou sur la chaîne Télégramme et nous ferons
de notre mieux pour vous répondre.
Quelqu'un ?
Ah.
(intervenant·e 1) Bonjour à tous,
ceci est plus un mème qu'une question.
Quand l’extension de temps
sera-t-elle capable d'obtenir
heures, minutes et secondes ?
Car jusqu’à présent
la position est juste à jour.
Je sais que ce n’est
pas ma question, (rires)
c’est pourquoi j’ai dit que c’est un mème.
C’est toujours comme ça,
mais cela provient toujours
de fait de distance et donc...
Je n’ai pas une bonne réponse
pour ça, désolée.
Mais pour le contexte,
les gens en ont encore plus besoin
pour décrire les images sur les Commons
et pourrait donc faire surface
sur la longue liste des choses urgentes.
Autres questions ?
(intervenant·e 2) Leta de l'équipe
de recherche de la Fondation Wikimedia.
J’ai une question par rapport
à ce que vous avez dit
sur les patrouilles et qui pourrait être
lié à la qualité du contenu sur Wikidata ;
si vous pouviez explorer
les possibilités de changement
de patrouille à mi-terme,
particulièrement avec le projet Bridge
que je me réjouis d'essayer.
Oui, merci.
Comme vous l'avez dit,
concernant Bridge,
je pense que beaucoup plus d’efforts
devront être consacrés aux patrouilles.
Mais nous sommes à une taille
où ce n’est probablement pas faisable
pour le faire à la main, par un humain,
nous devons donc consacrer plus
d’efforts à l’amélioration, par exemple,
d'ORES, le système d’apprentissage
automatique pour nous aider
à déterminer quelles modifications
doivent être examinées par un humain
et ce qui peut rester pareil.
Actuellement, ORES
n’est pas fort capable de juger
si une modification sur Wikidata
est bonne ou mauvaise.
Il y a actuellement une campagne en cours
qui forme le système
d’apprentissage automatique
avec votre aide,
pour en fait lui enseigner
en quoi consiste
une bonne ou une mauvaise contribution,
et nous n'avons pas encore
le nombre suffisant d'enseignants humains
pour vraiment l’améliorer,
mais si vous avez un peu de temps,
ce serait génial si
vous contribuiez à éduquer ORES
dans son jugement sur
les modifications de Wikidata.
Et c’est vraiment simple :
il vous montre une modification
et vous différenciez entre une bonne
et une mauvaise contribution, c'est tout.
Vous pouvez le faire devant
la télé le soir sur le canapé.
(intervenant·e 3) Donnez-nous le lien.
Oui, nous allons partager
un lien sur le groupe Télégramme.
Et une fois que notre cible est atteinte,
je crois que c’est environ 7 000,
mais je peux me tromper,
après nous pouvons relancer
la formation pour ORES
qui nous l'espérons, sera plus apte
à juger les modifications sur Wikidata.
Ensuite, j'espère que plus
de personnes pourront l'utiliser
pour filtrer les changements récents,
par exemple ou votre liste de surveillance
pour ce qui nécessite
vraiment votre attention.
Oui
Bonjour.
(intervenant·e 4)
Ceci n'est pas une des mes questions,
mais est posée par des partenaires
avec lesquels je travaille.
Le plus de partenaires rejoignent Wikidata
et expérimentent avec des requêtes,
le plus de problèmes surgissent
avec le temps d’attente des requêtes,
alors qu’en est-il ?
En effet, certaines personnes
de la Fondation Wikimedia
font des recherches là-dessus
et petite info...
soyez présent pour la session
de cadeau d’anniversaire.
(rires)
(intervenant·e 5) Salut, je m’appelle
Bart Magnus de Belgique (PACKED).
J’aimerais savoir quelle
est la situation actuelle
concernant la fédération ;
donc augmenter vos propriétés
dans votre propre instance Wikibase.
Y a-t-il quelque chose à dire à ce sujet ?
Au cours de l’année dernière,
beaucoup de gens nous ont dit
qu’ils veulent la fédération,
n’est-ce pas ?
Mais le problème est que beaucoup
de gens ont compris différentes choses
quand ils parlent de « fédération ».
Certaines de ces choses étaient
très facilement réalisables,
d'autres étaient vraiment dures.
Mon équipe et moi avons parlé
à beaucoup de monde, par exemple,
les partenaires avec qui nous travaillons
aux bibliothèques pour déterminer
exactement leurs besoins.
Aujourd'hui, cette initiative est
terminée, mais je suis bien sûr ravie
d'avoir votre retour
si vous voulez m’en parler.
Je suis maintenant au stade où
je suis confiante de pouvoir dire :
« Voilà par où nous allons commencer. »
Je dirais que dans le courant
des deux ou trois prochains mois,
nous écrirons les premières lignes de code
pour ensuite, que
les gens puissent le tester
au début de l’année
prochaine, en principe.
(présentateur)
D’accord, dernière question.
(intervenant·e 6) Finn Årup Nielsen
de Copenhague, Danemark.
Par rapport à l’autre langue,
il y a eu une sorte de discussion
dans la communauté de WikiCite,
pour évaluer si nous devions continuer
d'y inclure plus
de journaux scientifiques.
Cela concerne la quantité de données
que nous pouvons mettre dans Wikidata.
Le délai dans le service de requête
Wikidata est un problème,
mais aussi le maintien ;
qu'en pensez-vous ?
La taille de Wikidata commence-t-elle
à devenir problématique en général ?
Faut-il arrêter d'incorporer
des données lexémiques ?
Ou des données scientifiques ?
Y a-t-il des recherches sur ce sujet
ou les problèmes techniques
s’accroissent-ils ?
Oui.
Wikidata est définitivement
en train d'approcher
ses limites d’évolutivité, dirons-nous,
du point de vue technique
aussi bien que social.
Et nous avons besoin
d'une solution pour ces deux points.
Socialement, nous avons plus d’éditeurs
et de changements récents au point
qu'il est complètement impossible
pour un humain de les patrouiller
car c’est tout simplement trop lourd.
Mais techniquement également et certains
de ces points ont déjà été adressés.
Par exemple, certaines bases
de données qui ré-architecturent
l'environnement des vues converties
en tableau, si quelqu'un connaît.
Mais c'est assez limité
et l’une des choses que
nous voulons tester l’année prochaine
est de localiser et résoudre
les autres points douloureux
du point de vue technique.
Voilà donc la vue d'ensemble.
En même temps, j’hésite beaucoup
à dire : « Non, non, arrêtez
d'intégrer des données dans Wikidata. »
(rires) Ce n'est pas vraiment le but.
Mais par exemple, l’écosystème de Wikibase
est une façon de résoudre ce problème,
pour ne pas surcharger Wikidata.
C’est toute la beauté
du web des données ouvertes.
Tous les éléments ne doivent
pas se trouver au même endroit.
Vous pouvez connecter différents
endroits, c'est incroyable.
Donc, spécifiquement
pour WikiCites, oui...
OK, spécifiquement pour WikiCites, (rires)
je pense qu’il faut
tenir compte de la proportion.
Je n’ai pas un pourcentage exact
des éléments dans Wikidata
qui concernent les sujets WikiCite,
mais c’est un gros pourcentage.
Et c'est peut-être de ça
que nous devons parler...
pendant la pause.
Merci beaucoup !
(applaudissements)