[ウィキデータの概要]
[リディア・ピンチャー]
[ウィキデータの概要]
皆さん こんにちは
こんなに多くの皆さんに
ご参加いただいて
ありがとうございます
このイベントについては
リーアがお話ししましたので
私は ウィキデータそのものについて
また 昨年に起きたことと
今後についてお話しします
さて...
これは何でしょう 失礼
さて 現状と今後の展望は?
昨年は 祝うべきことが
数多くありましたが
あまり目立たない場合もあったので
いくつかハイライトしたいと思います
まずご紹介したいのは
編集者に関する統計と
[編集者]
コンテンツと
データの利用度です
昨年の間に
コミュニティは大きく成長しました
これは素晴らしいことです
新たに約3,000人が加わり
1か月に1回以上の編集を行いました
3,000人の新規ウィキデータンです!
1か月に5回以上の
編集を行った人を見ると
約1,200人が加わっています
100回以上の
編集を行った人は
この部屋に大勢いると思いますが
300人以上です
最後のグループに該当する人は
手を挙げてください
すごいですね!
皆さん素晴らしい
いつもなら編集の回数に
注目することは
あまりありませんが
今年は なんと
記念すべき10億回を超えました
では コンテンツを見ていきましょう
[コンテンツ]
現在 6,500万もの項目があります
つまり このエンティティで
世界が表わされていて
約6,700のプロパティで
それが行われているのです
そのうち 約4,300が
外部識別子です
それが 他の目録や
データベースやウェブサイトなどに
多数リンクしており
このことにより ウィキデータが
オープンデータ ウェブにおける
中心地となっています
これらのプロパティや項目を
使用している文は
現在 ウィキデータに約8億あり
前年比では 各項目については
1.5倍に増加しました
(笑)
ウィキデータは賢くなったのです
項目やプロパティだけではなく
語彙素のような新しいものもあり
現在 たくさんの異なる言語で
表されている語彙素が
20万4千もあります
とても良いことです
この詳細は
後のセッションでご説明します
最も新しく追加したのは
スキーマで
これにより 特定分野において
データを一貫してモデル化する方法が
理解しやすくなります
これは 現在 約140あります
コンテンツについては
数字が全てではありませんから
コンテンツの量だけでなく
品質にも気を配りましょう
現在は 機械学習システムを訓練して
[平均項目品質]
項目の品質を評価しています
完璧には まだ程遠いものの
参考になります
ウィキデータの各項目が
5段階で評価されています
1は極めてひどく
5は優秀ということです
これは 例えば
文の数や
外部識別子の数
出典の数
異なる言語によるラベルの数
などを示します
ウィキデータの推移を見ると
ご覧のように
これらのスコアによれば
極めてひどかった評価が
かなり向上しています
(笑)
これは良いことです
でも 最高の評価までには
まだたくさんの余地があります
これがゴールではありませんね
これらの評価によると
全ての項目が
完璧なわけではありません
しかし データの品質が恒常的に
向上していることをうれしく思います
しかし データを生み出すだけでは
十分ではありません
私たちには 動機が必要です
[利用]
データを利用してほしいのです
そこで ウィキデータのデータを
使用している
ウィキメディアの
各プロジェクトにある
記事の数を確認しました
そして これらのプロジェクトにある
全ての記事の割合を見ました
ウィキメディア全体と
その記事全体を見ると
現在では 56.35%の記事が
ウィキデータから利用されています
非常に良いと思いますが
100%の利用度に達するには
まだ遠い状態です
次に どのプロジェクトが
ウィキデータのデータを
最もよく利用しているかを
言語別などで 分類してみました
全体のうち
どのプロジェクトが―
トップ5だと思いますか?
どのプロジェクト群でしょうか?
(何名かの聴衆)コモンズ
皆さん コモンズという回答ですね
違います
トップ5は 全てウィキボヤージュです
へえっ!
ウィキボヤージュに拍手をどうぞ
(拍手)
現在のコモンズの順位や
他のプロジェクトの順位を
確認するには
ダッシュボードがあります
私に聞いてくだされば 確認します
もちろん データが使用されているのは
ウィキメディア内だけでなく
その多くは外部です
全部は ご紹介できないので
いくつか抜粋したいと思います
メトロポリタン美術館や
ウェルカム・トラスト
アメリカ議会図書館
GeneWikiなどで
よく利用されています
このプログラムの各セッションに
後ほど参加いただければ
いくつか耳にするはずです
[1年のハイライト]
統計はこれぐらいにしましょう
他のハイライト部分を見ていきます
データ品質の向上については
お話ししました
データ品質については
多くの側面がありますので
それを見ていくと
そのうちいくつかが向上しており
例えば データの正確性や
データの信頼性
出典の添付度
モデルの一貫性
完成度などがあります
その一例を挙げると
例えば一貫性ですが
ウィキデータにスキーマを
保存できるよう構築しましたので
特定のドメインの
モデリング方法を表せます
ここで分かることは―
例えば オランダの画家のための
スキーマを作成する場合
オランダの画家のための
項目はどれかを確認できます
例えば 誕生日の項目はないが
追加したほうがいい
というようなことです
より多くのウィキ プロジェクトが
スキーマを活用して
データ管理ができればよいと思います
その方法を知りたい方には
この後のセッションで
皆さんの理解が進むよう
詳しい者から説明します
さて
[ウィキベースのエコシステムの成長]
昨年 弾みがついたのは
ウィキベースのエコシステムです
その基本概念として
オープンデータは
ウィキデータの中だけで
実現するものではありません
さまざまな場所や参加者により
エコシステムが成長するのが理想です
例えば 機関や企業
ボランティア プロジェクトが
ウィキデータと同様の方法で
データを公開し
そのすべてを結び付けて
当事者の間でデータを交換し
データを連携するようなことです
昨年は このことへの関心や
各機関による関心や
自身のウィキベース インスタンスを
稼働する方々による関心が
爆発的に増加しました
特に図書館の分野において
関心が増加しました
数多くのテストや評価を行い
また正直なところ
草分けとも言うべきことを行っていて
先駆的な機関が
ウィキデータと一緒になって
ウィキベースがどのように
自分たちのコレクションや目録に
役立つかを調べていました
その中には
ドイツ国立図書館や
フランス国立図書館
OCLCという
著名な機関が含まれています
これが素晴らしい理由のひとつは
私たちはこれらの機関のデータを
ただウェブに公開して
誰かがアクセスできるように
するだけでなく
今後のステップも考えて
手助けしているからです
人々の協力でデータの保持や
蓄積や強化を行うという
大きな変革により
良いものがもたらされることを
願っています
その他 私たちに役立つ事柄は
専門家に自身のスペースで
データをキュレートしてもらい
良い状態を保つことです
そうすれば 自分たちだけで
常にデータ処理を行う代わりに
ウィキデータに
同期プロセスを設定できます
最終的には ウィキデータの
プレッシャーが軽減され
全てがあるべき状態になればと思います
[辞書学データの今後]
辞書学データについてです
昨年は 利用者の言語による表記を
ウィキデータで開始したことで
自動翻訳ツールなどの
開発が可能になりました
また 言語によっては
私たちは 臨界量に
近づき始めているため
本格的なアプリケーションの開発が
必要とされています
多くの言語では
まだまだこれからですが
いくつかの言語では
そこに到達し始めています
素晴らしいことです
詳細については この後の
私のセッションにご参加ください
[構造化データによるコモンズの改善]
そして もちろん忘れてはいけません
コモンズの構造化データです
やった!(笑)
(拍手)
基盤で見られる
コモンズの構造化データは
本当に改善されてきています
全てが統合されることで
昨年コモンズのファイルに
文を追加することが可能になり
皆さんが画像に文を追加し始めて
何よりも より良いアプリケーションを
開発しやすくなりました
この成長を目の当たりにするのは
素晴らしいことです
ウィキデータのコミュニティが
ここで理解すべき重要点は
ここでご覧の「表示」
「イエネコ」「座っている」
「トカゲ」「壁」は
ウィキデータの項目やプロパティに
リンクされている点です
つまり 項目やプロパティを作成すると
ウィキデータ自身に
語彙が提供されるだけでなく
コモンズにも
語彙が提供されているのです
これは増え続けているので
他の場所での
オントロジーや語彙の使用法に
以前にも増して
注意を払う必要があります
[ウィキペディア プロジェクトへの橋渡し]
最後に 私たちは他のウィキメディアの
プロジェクトに対して
より強固な関係を築き始めました
Wikidata Bridgeという
プロジェクトに
私たちのチームは取り組んでいます
ぜひ UXブースで
現状をお試しください
例えば ウィキペディアの編集者が
自身のプロジェクトから
ウィキデータを直接編集できます
ウィキデータで編集しなくても
その周囲を全て理解できるのです
これで またひとつ
ハードルが取り除かれ
ウィキメディアのプロジェクトにとって
ウィキデータから
データを導入しやすくなるはずです
さて 戦略と今後の展望についてです
[戦略と今後の展望]
12月から ウィキメディア ドイツの
ウィキデータチームと
ウィキメディア財団が
ウィキデータ関連の
戦略や論文に取り組んでいます
これは基本的に この5年間で
すでにお話ししてきたことを
文書にまとめるものです
これらの論文を読まれたかどうか
分かりませんが
Meta Commonsで
今月末まで公開されていますので
まだの方は
ぜひ読んでみてください
読んでコメント等をお願いします
さて その簡単な概要ですが
ウィキデータとウィキベースは
3つに分けることができます
1つ目は プラットフォームとしての
ウィキデータです
画面下隅でご覧になれます
つまり―
ウィキデータは
あらゆる人が
その言語や技術を問わず
情報にアクセスし共有できるよう
世界に関する汎用データを
提供しています
これは基本的に 皆さんが
毎日行っていることですね
2つ目は ウィキベースの
エコシステムです
そこでソフトウェアのウィキベースは
ウィキデータを
稼働しているだけでなく
無料のオープン ナレッジを支える
オープンデータ ウェブの成長を
推進する力となっています
3つ目は ウィキメディアの
プロジェクトのための ウィキデータで
ウィキデータは
ウィキメディアのプロジェクトに
役立つ上に
その今後の備えにも役立っています
では 具体的な短中期の計画は?
[プラットフォームとしてのウィキデータ]
プラットフォームとしての
ウィキデータについては
データ品質の向上が必要なので
私たちは引き続き
より良いツールのために
ツールの改良などを行います
データにアクセスしやすくする
必要もあります
APIの改善や
SPARQLエンドポイントの強化
また アプリケーションで
再利用しやすくなるよう
データを着実にモデリングすること
などが含まれます
最後は パートナーからの
フィードバック プロセスの設定です
ウィキペディアと異なり
ウィキデータは
目的指向型プロジェクトではありません
ウィキペディアを訪れて
読む人はいても
通常は ウィキデータを訪れて
読む人はいません
そうだと良いですが
現実は違いますね
私たちのデータの
公開先の多くは
ウィキデータ自体には
ありません
ウィキペディアや
他の場所を通じて見ることになります
それらの場所が データに関する
フィードバックを得るわけです
ユーザーはそこに
誤りなどを知らせますからね
ウィキデータが
それを得られるようにして
実際にウィキデータの編集を行う
皆さんに公開したいのです
そのための有益な方法を
皆さんの負担にならないようにしながら
来年追求していく予定です
さて ウィキベースのエコシステムです
私たちは 各図書館と
引き続き協力するだけでなく
例えば 科学分野などにも
目を向けていきます
この後 ウィキベースの
ショーケースでご紹介しますので
ご参加ください
すでに実現したことや
実際に人々がウィキベースで
行っていることをご紹介します
価値があります
ウィキベースのエコシステム周辺には
良いプロセスを設定することも必要です
誰に相談すればいいのか
どこに助けを求めればよいのかなどを
分かりやすくする必要があります
またウィキベースのインストールや
メンテナンスを容易にする必要もあります
まだ 少し大変ですから
最後は フェデレーションです
これはコモンズ関連で
先ほどもお話したことですが
コモンズが ウィキデータの
項目やプロパティを使用する際に
他のウィキベースのインスタンスでも
ウィキデータの語彙を
使用できます
先述の通り
ここでもまた増加しているため
ウィキデータの語彙を
外の場所でどう使用するかについては
以前にも増して
注意を払う必要があります
ウィキメディアのプロジェクトのための
ウィキデータとしては
Wikidata Bridgeを介した
より強い統合や
プロジェクトからの直接編集のための
支援があります
それと同時に
皆で一緒に考えるべきことは
言語の障壁を下げる方法を
見つけることだと思います
ウィキメディアのプロジェクトで
ウィキデータの統合がさらに進めば
同じ言語を話さなくても
より多くの人がそのデータについて
話し合う必要が出てきます
それをどのように行うかを
明らかにしなければなりません
優れたアイデアを持つ方がいれば
お話しできればと思います
私の講演も終わりに近づきました
日々 より多くの人により豊富な知識を
利用できるようにしている
皆さんに感謝しています
(拍手)
(司会者)質問の時間を設けます
会場で質問がある方や
ライブストリームで
ご覧の方…私の母とか
質問は EtherPadか
テレグラム チャンネルでどうぞ
ベストを尽くします
ご質問は?
どうぞ
(聴衆1)こんにちは
質問というよりミームなんですが
時間拡張機能は
いつ利用できるようになって
時間、分、秒単位で
設定できる予定ですか
現在は日付単位しかありません
- 自分の質問ではないので
- (笑)
ミームだと言ったんです
いつもこんな具合ですが
そう伝わってくるので...
これにはあまり
良い回答ができません
ごめんなさい
でも 恐らくその背景としては
コモンズ上でますます画像表示が
必要とされてきているので
時間拡張機能を通じて
早く終わらせる必要がある作業が
たくさん出てきているのかもれません
他にご質問は?
(聴衆2)ウィキメディア財団
リサーチチームのリンダです
パトロールについて
お考えを聞かせてください
ウィキデータの品質に関わると思いますが
それについて
お話しいただければ
短中期的なパトロールの
取り組みの改善だとか
特に Bridgeプロジェクトに関して
期待していて
試してみたいのです
お願いします
おっしゃるとおり
Bridgeで行っていることについて
パトロールの取り組みは
さらに必要だと思います
しかし 手動や人力で行える規模では
なくなっています
ですから 改善には
もっと努力が必要です
例えばORESなど
機械学習システムを使用すれば
どの編集で
人間が確認する必要があるか
通常のことで確認の必要はないかが
分かりやすくなります
現在 ORESは
ウィキデータの編集の優劣を
判断できるほど
優秀だとは言えません
現在 機械学習システムを訓練するため
皆さんの協力を大募集中です
良い編集と悪い編集を教えていますが
まだ十分な数の人間が教えたと言える
閾値までは達していません
これを目覚ましく向上させるために
もしお時間があれば
ORESへの訓練を手伝ってください
ウィキデータ編集の
評価を向上させるためです
本当に簡単です
表示された編集を見て
あなたはその優劣を
答えるだけです
ソファーでTVを見ながらでもできます
(聴衆3)リンクを共有してください
テレグラムのグループに
リンクを共有します
必要な閾値に達したら―
約7,000だと思いますが
ORESの再訓練を行うことで
ウィキデータの編集の
評価成績を改善できればと思います
それを皆さんが活用すれば
例えば 最新の変更を
フィルタリングしたり
監視が必要な編集を
把握したりできます
はい
こんにちは
(聴衆4)好奇心からお聞きします
私の質問ではないですが
協働パートナーからの質問ですが
ウィキデータに参加するパートナーが
増えれば増えるほど
またクエリで
いろいろ試せば試すほど
クエリのタイムアウトという
問題も増えています
この件にはどう対処しますか?
ウィキメディア財団のメンバーの一部が
その調査をしており
少しネタをばらしますと
誕生日プレゼントとして
セッションを行う予定です
(笑)
(聴衆5)ベルギーから来た
バート・マグナスです
私が知りたいことは
フェデレーションの現状です
ウィキベースのインスタンス内に
プロパティを提案していますが
それについて
お話しいただけますか?
昨年は 数多くの人から
フェデレーションを
要望されました
しかし 問題は
フェデレーションについての理解が
人によって異なることです
簡単にできることもありましたが
非常に難しい事柄もあります
私のチームは数多くの人たちと
議論をしてきました
例えば 図書館における
協働パートナーは
何を実際に必要としているかなどです
議論はもう終了したとはいえ
もちろん ご意見はいつでも歓迎です
現在の状況は
基礎はできたと
安心して言える段階です
今後2、3か月で
コード記述に着手しますので
来年の初め頃には
皆さんがテストできればと思います
(司会者)最後の質問をどうぞ
(聴衆6)コペンハーゲンから来た
ニールセンです
他の言語に関して討論がありました
WikiCiteコミュニティでは
引き続き科学論文を
増やすべきかどうかを
検討してきたのですが
これはウィキデータの容量に左右されます
ウィキデータのクエリサービスの
タイムアウトも課題の1つですが
メンテナンスも課題です
これについて
どのようにお考えですか
ウィキデータの規模が
全体の問題の
原因になっているのですか?
語彙素データを入れるのを
やめるべきでしょうか?
ウィキデータに科学データを
入れるのをやめるか
調査をすべきでしょうか
技術的な問題が増えているのでしょうか?
はい
ウィキデータは間違いなく
技術的にも 社会的にもですが
スケーラビリティの限界が来ています
双方に解決策が必要ですね?
社会的には 編集者が増え
最近は人間がパトロールするには
あまりにも多すぎる状態に達しています
しかし 技術的には
対処していることもあります
データベースのビュー変換テーブル周辺を
再構築するなどして
いくらか改善できています
しかし 今のところ
私たちが来年の課題としたいのは
他に問題となる個所はどこかを
明らかにして
それを技術面で
どう対処するかです
これが 全体像です
そして それと同時に
「データを入れるのは中止」とは
私は言いたくないのです
これでは 本来の目的に合いません
しかし例えば
ウィキベースのエコシステムは
その対応策のひとつだと思います
ウィキデータに全部は必要ありません
リンクされたオープンデータの
美点だと思います
全部を同じ場所に
納めなくてもよいのです
別の場所を繋ぎ合わせられます
素晴らしいです
WikiCitesの周辺では特に
WikiCitesについては特に
割合で見る必要があると思います
WikiCiteトピック周辺で
ウィキデータの項目が占める
具体的な割合は分かりませんが
かなりの割合だと思います
これは後で休憩時間に
お話ししましょう
ありがとうございました