-
[ウィキデータの概要]
-
[リディア・ピンチャー]
[ウィキデータの概要]
-
皆さん こんにちは
-
こんなに多くの皆さんに
ご参加いただいて
-
ありがとうございます
-
このイベントについては
リーアがお話ししましたので
-
私は ウィキデータそのものについて
-
また 昨年に起きたことと
-
今後についてお話しします
-
さて...
これは何でしょう 失礼
-
さて 現状と今後の展望は?
-
昨年は 祝うべきことが
数多くありましたが
-
あまり目立たない場合もあったので
-
いくつかハイライトしたいと思います
-
まずご紹介したいのは
-
編集者に関する統計と
[編集者]
-
コンテンツと
データの利用度です
-
昨年の間に
コミュニティは大きく成長しました
-
これは素晴らしいことです
-
新たに約3,000人が加わり
-
1か月に1回以上の編集を行いました
-
3,000人の新規ウィキデータンです!
-
1か月に5回以上の
編集を行った人を見ると
-
約1,200人が加わっています
-
100回以上の
編集を行った人は
-
この部屋に大勢いると思いますが
-
300人以上です
-
最後のグループに該当する人は
手を挙げてください
-
すごいですね!
-
皆さん素晴らしい
-
いつもなら編集の回数に
注目することは
-
あまりありませんが
-
今年は なんと
記念すべき10億回を超えました
-
では コンテンツを見ていきましょう
-
[コンテンツ]
-
現在 6,500万もの項目があります
-
つまり このエンティティで
世界が表わされていて
-
約6,700のプロパティで
それが行われているのです
-
そのうち 約4,300が
外部識別子です
-
それが 他の目録や
データベースやウェブサイトなどに
-
多数リンクしており
-
このことにより ウィキデータが
-
オープンデータ ウェブにおける
中心地となっています
-
これらのプロパティや項目を
使用している文は
-
現在 ウィキデータに約8億あり
-
前年比では 各項目については
-
1.5倍に増加しました
-
(笑)
-
ウィキデータは賢くなったのです
-
項目やプロパティだけではなく
-
語彙素のような新しいものもあり
-
現在 たくさんの異なる言語で
表されている語彙素が
-
20万4千もあります
-
とても良いことです
-
この詳細は
後のセッションでご説明します
-
最も新しく追加したのは
スキーマで
-
これにより 特定分野において
-
データを一貫してモデル化する方法が
理解しやすくなります
-
これは 現在 約140あります
-
コンテンツについては
数字が全てではありませんから
-
コンテンツの量だけでなく
品質にも気を配りましょう
-
現在は 機械学習システムを訓練して
[平均項目品質]
-
項目の品質を評価しています
-
完璧には まだ程遠いものの
参考になります
-
ウィキデータの各項目が
5段階で評価されています
-
1は極めてひどく
5は優秀ということです
-
これは 例えば
文の数や
-
外部識別子の数
-
出典の数
-
異なる言語によるラベルの数
などを示します
-
ウィキデータの推移を見ると
-
ご覧のように
これらのスコアによれば
-
極めてひどかった評価が
かなり向上しています
-
(笑)
-
これは良いことです
-
でも 最高の評価までには
まだたくさんの余地があります
-
これがゴールではありませんね
-
これらの評価によると
-
全ての項目が
完璧なわけではありません
-
しかし データの品質が恒常的に
向上していることをうれしく思います
-
しかし データを生み出すだけでは
十分ではありません
-
私たちには 動機が必要です
[利用]
-
データを利用してほしいのです
-
そこで ウィキデータのデータを
使用している
-
ウィキメディアの
各プロジェクトにある
-
記事の数を確認しました
-
そして これらのプロジェクトにある
全ての記事の割合を見ました
-
ウィキメディア全体と
-
その記事全体を見ると
-
現在では 56.35%の記事が
ウィキデータから利用されています
-
非常に良いと思いますが
-
100%の利用度に達するには
まだ遠い状態です
-
次に どのプロジェクトが
-
ウィキデータのデータを
最もよく利用しているかを
-
言語別などで 分類してみました
-
全体のうち
どのプロジェクトが―
-
トップ5だと思いますか?
-
どのプロジェクト群でしょうか?
-
(何名かの聴衆)コモンズ
-
皆さん コモンズという回答ですね
-
違います
-
トップ5は 全てウィキボヤージュです
-
へえっ!
-
ウィキボヤージュに拍手をどうぞ
-
(拍手)
-
現在のコモンズの順位や
-
他のプロジェクトの順位を
確認するには
-
ダッシュボードがあります
-
私に聞いてくだされば 確認します
-
もちろん データが使用されているのは
ウィキメディア内だけでなく
-
その多くは外部です
-
全部は ご紹介できないので
いくつか抜粋したいと思います
-
メトロポリタン美術館や
ウェルカム・トラスト
-
アメリカ議会図書館
-
GeneWikiなどで
よく利用されています
-
このプログラムの各セッションに
後ほど参加いただければ
-
いくつか耳にするはずです
-
[1年のハイライト]
-
統計はこれぐらいにしましょう
-
他のハイライト部分を見ていきます
-
データ品質の向上については
お話ししました
-
データ品質については
多くの側面がありますので
-
それを見ていくと
そのうちいくつかが向上しており
-
例えば データの正確性や
-
データの信頼性
-
出典の添付度
-
モデルの一貫性
-
完成度などがあります
-
その一例を挙げると
例えば一貫性ですが
-
ウィキデータにスキーマを
保存できるよう構築しましたので
-
特定のドメインの
モデリング方法を表せます
-
ここで分かることは―
-
例えば オランダの画家のための
スキーマを作成する場合
-
オランダの画家のための
項目はどれかを確認できます
-
例えば 誕生日の項目はないが
追加したほうがいい
-
というようなことです
-
より多くのウィキ プロジェクトが
-
スキーマを活用して
-
データ管理ができればよいと思います
-
その方法を知りたい方には
この後のセッションで
-
皆さんの理解が進むよう
詳しい者から説明します
-
さて
-
[ウィキベースのエコシステムの成長]
-
昨年 弾みがついたのは
ウィキベースのエコシステムです
-
その基本概念として
オープンデータは
-
ウィキデータの中だけで
実現するものではありません
-
さまざまな場所や参加者により
エコシステムが成長するのが理想です
-
例えば 機関や企業
ボランティア プロジェクトが
-
ウィキデータと同様の方法で
データを公開し
-
そのすべてを結び付けて
-
当事者の間でデータを交換し
データを連携するようなことです
-
昨年は このことへの関心や
-
各機関による関心や
-
自身のウィキベース インスタンスを
稼働する方々による関心が
-
爆発的に増加しました
-
特に図書館の分野において
関心が増加しました
-
数多くのテストや評価を行い
-
また正直なところ
草分けとも言うべきことを行っていて
-
先駆的な機関が
ウィキデータと一緒になって
-
ウィキベースがどのように
-
自分たちのコレクションや目録に
役立つかを調べていました
-
その中には
ドイツ国立図書館や
-
フランス国立図書館
-
OCLCという
著名な機関が含まれています
-
これが素晴らしい理由のひとつは
-
私たちはこれらの機関のデータを
ただウェブに公開して
-
誰かがアクセスできるように
するだけでなく
-
今後のステップも考えて
手助けしているからです
-
人々の協力でデータの保持や
蓄積や強化を行うという
-
大きな変革により
-
良いものがもたらされることを
願っています
-
その他 私たちに役立つ事柄は
-
専門家に自身のスペースで
データをキュレートしてもらい
-
良い状態を保つことです
-
そうすれば 自分たちだけで
常にデータ処理を行う代わりに
-
ウィキデータに
同期プロセスを設定できます
-
最終的には ウィキデータの
プレッシャーが軽減され
-
全てがあるべき状態になればと思います
-
[辞書学データの今後]
-
辞書学データについてです
-
昨年は 利用者の言語による表記を
ウィキデータで開始したことで
-
自動翻訳ツールなどの
開発が可能になりました
-
また 言語によっては
-
私たちは 臨界量に
近づき始めているため
-
本格的なアプリケーションの開発が
必要とされています
-
多くの言語では
まだまだこれからですが
-
いくつかの言語では
そこに到達し始めています
-
素晴らしいことです
-
詳細については この後の
私のセッションにご参加ください
-
[構造化データによるコモンズの改善]
-
そして もちろん忘れてはいけません
-
コモンズの構造化データです
-
やった!(笑)
-
(拍手)
-
基盤で見られる
コモンズの構造化データは
-
本当に改善されてきています
-
全てが統合されることで
-
昨年コモンズのファイルに
文を追加することが可能になり
-
皆さんが画像に文を追加し始めて
-
何よりも より良いアプリケーションを
開発しやすくなりました
-
この成長を目の当たりにするのは
素晴らしいことです
-
ウィキデータのコミュニティが
ここで理解すべき重要点は
-
ここでご覧の「表示」
-
「イエネコ」「座っている」
「トカゲ」「壁」は
-
ウィキデータの項目やプロパティに
リンクされている点です
-
つまり 項目やプロパティを作成すると
-
ウィキデータ自身に
語彙が提供されるだけでなく
-
コモンズにも
語彙が提供されているのです
-
これは増え続けているので
-
他の場所での
オントロジーや語彙の使用法に
-
以前にも増して
注意を払う必要があります
-
[ウィキペディア プロジェクトへの橋渡し]
-
最後に 私たちは他のウィキメディアの
プロジェクトに対して
-
より強固な関係を築き始めました
-
Wikidata Bridgeという
プロジェクトに
-
私たちのチームは取り組んでいます
-
ぜひ UXブースで
現状をお試しください
-
例えば ウィキペディアの編集者が
-
自身のプロジェクトから
ウィキデータを直接編集できます
-
ウィキデータで編集しなくても
-
その周囲を全て理解できるのです
-
これで またひとつ
ハードルが取り除かれ
-
ウィキメディアのプロジェクトにとって
-
ウィキデータから
データを導入しやすくなるはずです
-
さて 戦略と今後の展望についてです
[戦略と今後の展望]
-
12月から ウィキメディア ドイツの
ウィキデータチームと
-
ウィキメディア財団が
-
ウィキデータ関連の
戦略や論文に取り組んでいます
-
これは基本的に この5年間で
すでにお話ししてきたことを
-
文書にまとめるものです
-
これらの論文を読まれたかどうか
分かりませんが
-
Meta Commonsで
今月末まで公開されていますので
-
まだの方は
ぜひ読んでみてください
-
読んでコメント等をお願いします
-
さて その簡単な概要ですが
-
ウィキデータとウィキベースは
3つに分けることができます
-
1つ目は プラットフォームとしての
ウィキデータです
-
画面下隅でご覧になれます
-
つまり―
-
ウィキデータは
-
あらゆる人が
その言語や技術を問わず
-
情報にアクセスし共有できるよう
-
世界に関する汎用データを
提供しています
-
これは基本的に 皆さんが
毎日行っていることですね
-
2つ目は ウィキベースの
エコシステムです
-
そこでソフトウェアのウィキベースは
-
ウィキデータを
稼働しているだけでなく
-
無料のオープン ナレッジを支える
オープンデータ ウェブの成長を
-
推進する力となっています
-
3つ目は ウィキメディアの
プロジェクトのための ウィキデータで
-
ウィキデータは
-
ウィキメディアのプロジェクトに
役立つ上に
-
その今後の備えにも役立っています
-
では 具体的な短中期の計画は?
[プラットフォームとしてのウィキデータ]
-
プラットフォームとしての
ウィキデータについては
-
データ品質の向上が必要なので
私たちは引き続き
-
より良いツールのために
ツールの改良などを行います
-
データにアクセスしやすくする
必要もあります
-
APIの改善や
SPARQLエンドポイントの強化
-
また アプリケーションで
再利用しやすくなるよう
-
データを着実にモデリングすること
などが含まれます
-
最後は パートナーからの
フィードバック プロセスの設定です
-
ウィキペディアと異なり
ウィキデータは
-
目的指向型プロジェクトではありません
-
ウィキペディアを訪れて
読む人はいても
-
通常は ウィキデータを訪れて
読む人はいません
-
そうだと良いですが
現実は違いますね
-
私たちのデータの
公開先の多くは
-
ウィキデータ自体には
ありません
-
ウィキペディアや
他の場所を通じて見ることになります
-
それらの場所が データに関する
フィードバックを得るわけです
-
ユーザーはそこに
誤りなどを知らせますからね
-
ウィキデータが
それを得られるようにして
-
実際にウィキデータの編集を行う
皆さんに公開したいのです
-
そのための有益な方法を
-
皆さんの負担にならないようにしながら
-
来年追求していく予定です
-
さて ウィキベースのエコシステムです
-
私たちは 各図書館と
引き続き協力するだけでなく
-
例えば 科学分野などにも
目を向けていきます
-
この後 ウィキベースの
ショーケースでご紹介しますので
-
ご参加ください
-
すでに実現したことや
-
実際に人々がウィキベースで
行っていることをご紹介します
-
価値があります
-
ウィキベースのエコシステム周辺には
-
良いプロセスを設定することも必要です
-
誰に相談すればいいのか
-
どこに助けを求めればよいのかなどを
-
分かりやすくする必要があります
-
またウィキベースのインストールや
メンテナンスを容易にする必要もあります
-
まだ 少し大変ですから
-
最後は フェデレーションです
-
これはコモンズ関連で
先ほどもお話したことですが
-
コモンズが ウィキデータの
項目やプロパティを使用する際に
-
他のウィキベースのインスタンスでも
-
ウィキデータの語彙を
使用できます
-
先述の通り
ここでもまた増加しているため
-
ウィキデータの語彙を
外の場所でどう使用するかについては
-
以前にも増して
注意を払う必要があります
-
ウィキメディアのプロジェクトのための
ウィキデータとしては
-
Wikidata Bridgeを介した
より強い統合や
-
プロジェクトからの直接編集のための
支援があります
-
それと同時に
皆で一緒に考えるべきことは
-
言語の障壁を下げる方法を
見つけることだと思います
-
ウィキメディアのプロジェクトで
ウィキデータの統合がさらに進めば
-
同じ言語を話さなくても
-
より多くの人がそのデータについて
話し合う必要が出てきます
-
それをどのように行うかを
明らかにしなければなりません
-
優れたアイデアを持つ方がいれば
お話しできればと思います
-
私の講演も終わりに近づきました
-
日々 より多くの人により豊富な知識を
利用できるようにしている
-
皆さんに感謝しています
-
(拍手)
-
(司会者)質問の時間を設けます
-
会場で質問がある方や
-
ライブストリームで
ご覧の方…私の母とか
-
質問は EtherPadか
-
テレグラム チャンネルでどうぞ
ベストを尽くします
-
ご質問は?
-
どうぞ
-
(聴衆1)こんにちは
質問というよりミームなんですが
-
時間拡張機能は
いつ利用できるようになって
-
時間、分、秒単位で
設定できる予定ですか
-
現在は日付単位しかありません
-
- 自分の質問ではないので
- (笑)
-
ミームだと言ったんです
-
いつもこんな具合ですが
-
そう伝わってくるので...
-
これにはあまり
良い回答ができません
-
ごめんなさい
-
でも 恐らくその背景としては
-
コモンズ上でますます画像表示が
必要とされてきているので
-
時間拡張機能を通じて
-
早く終わらせる必要がある作業が
たくさん出てきているのかもれません
-
他にご質問は?
-
(聴衆2)ウィキメディア財団
リサーチチームのリンダです
-
パトロールについて
お考えを聞かせてください
-
ウィキデータの品質に関わると思いますが
-
それについて
お話しいただければ
-
短中期的なパトロールの
取り組みの改善だとか
-
特に Bridgeプロジェクトに関して
-
期待していて
試してみたいのです
-
お願いします
-
おっしゃるとおり
Bridgeで行っていることについて
-
パトロールの取り組みは
さらに必要だと思います
-
しかし 手動や人力で行える規模では
なくなっています
-
ですから 改善には
もっと努力が必要です
-
例えばORESなど
機械学習システムを使用すれば
-
どの編集で
人間が確認する必要があるか
-
通常のことで確認の必要はないかが
分かりやすくなります
-
現在 ORESは
ウィキデータの編集の優劣を
-
判断できるほど
優秀だとは言えません
-
現在 機械学習システムを訓練するため
-
皆さんの協力を大募集中です
-
良い編集と悪い編集を教えていますが
-
まだ十分な数の人間が教えたと言える
閾値までは達していません
-
これを目覚ましく向上させるために
もしお時間があれば
-
ORESへの訓練を手伝ってください
-
ウィキデータ編集の
評価を向上させるためです
-
本当に簡単です
-
表示された編集を見て
-
あなたはその優劣を
答えるだけです
-
ソファーでTVを見ながらでもできます
-
(聴衆3)リンクを共有してください
-
テレグラムのグループに
リンクを共有します
-
必要な閾値に達したら―
-
約7,000だと思いますが
-
ORESの再訓練を行うことで
-
ウィキデータの編集の
評価成績を改善できればと思います
-
それを皆さんが活用すれば
-
例えば 最新の変更を
フィルタリングしたり
-
監視が必要な編集を
把握したりできます
-
はい
-
こんにちは
-
(聴衆4)好奇心からお聞きします
私の質問ではないですが
-
協働パートナーからの質問ですが
-
ウィキデータに参加するパートナーが
増えれば増えるほど
-
またクエリで
いろいろ試せば試すほど
-
クエリのタイムアウトという
問題も増えています
-
この件にはどう対処しますか?
-
ウィキメディア財団のメンバーの一部が
その調査をしており
-
少しネタをばらしますと
-
誕生日プレゼントとして
セッションを行う予定です
-
(笑)
-
(聴衆5)ベルギーから来た
バート・マグナスです
-
私が知りたいことは
フェデレーションの現状です
-
ウィキベースのインスタンス内に
プロパティを提案していますが
-
それについて
お話しいただけますか?
-
昨年は 数多くの人から
-
フェデレーションを
要望されました
-
しかし 問題は
フェデレーションについての理解が
-
人によって異なることです
-
簡単にできることもありましたが
-
非常に難しい事柄もあります
-
私のチームは数多くの人たちと
議論をしてきました
-
例えば 図書館における
協働パートナーは
-
何を実際に必要としているかなどです
-
議論はもう終了したとはいえ
-
もちろん ご意見はいつでも歓迎です
-
現在の状況は
-
基礎はできたと
安心して言える段階です
-
今後2、3か月で
-
コード記述に着手しますので
-
来年の初め頃には
-
皆さんがテストできればと思います
-
(司会者)最後の質問をどうぞ
-
(聴衆6)コペンハーゲンから来た
ニールセンです
-
他の言語に関して討論がありました
-
WikiCiteコミュニティでは
引き続き科学論文を
-
増やすべきかどうかを
検討してきたのですが
-
これはウィキデータの容量に左右されます
-
ウィキデータのクエリサービスの
タイムアウトも課題の1つですが
-
メンテナンスも課題です
-
これについて
どのようにお考えですか
-
ウィキデータの規模が
-
全体の問題の
原因になっているのですか?
-
語彙素データを入れるのを
やめるべきでしょうか?
-
ウィキデータに科学データを
入れるのをやめるか
-
調査をすべきでしょうか
-
技術的な問題が増えているのでしょうか?
-
はい
-
ウィキデータは間違いなく
-
技術的にも 社会的にもですが
-
スケーラビリティの限界が来ています
-
双方に解決策が必要ですね?
-
社会的には 編集者が増え
-
最近は人間がパトロールするには
-
あまりにも多すぎる状態に達しています
-
しかし 技術的には
対処していることもあります
-
データベースのビュー変換テーブル周辺を
再構築するなどして
-
いくらか改善できています
-
しかし 今のところ
-
私たちが来年の課題としたいのは
-
他に問題となる個所はどこかを
明らかにして
-
それを技術面で
どう対処するかです
-
これが 全体像です
-
そして それと同時に
-
「データを入れるのは中止」とは
私は言いたくないのです
-
これでは 本来の目的に合いません
-
しかし例えば
ウィキベースのエコシステムは
-
その対応策のひとつだと思います
-
ウィキデータに全部は必要ありません
-
リンクされたオープンデータの
美点だと思います
-
全部を同じ場所に
納めなくてもよいのです
-
別の場所を繋ぎ合わせられます
-
素晴らしいです
-
WikiCitesの周辺では特に
-
WikiCitesについては特に
-
割合で見る必要があると思います
-
WikiCiteトピック周辺で
ウィキデータの項目が占める
-
具体的な割合は分かりませんが
-
かなりの割合だと思います
-
これは後で休憩時間に
お話ししましょう
-
ありがとうございました