[ウィキデータの概要] [リディア・ピンチャー] [ウィキデータの概要] 皆さん こんにちは こんなに多くの皆さんに ご参加いただいて ありがとうございます このイベントについては リーアがお話ししましたので 私は ウィキデータそのものについて また 昨年に起きたことと 今後についてお話しします さて... これは何でしょう 失礼 さて 現状と今後の展望は? 昨年は 祝うべきことが 数多くありましたが あまり目立たない場合もあったので いくつかハイライトしたいと思います まずご紹介したいのは 編集者に関する統計と [編集者] コンテンツと データの利用度です 昨年の間に コミュニティは大きく成長しました これは素晴らしいことです 新たに約3,000人が加わり 1か月に1回以上の編集を行いました 3,000人の新規ウィキデータンです! 1か月に5回以上の 編集を行った人を見ると 約1,200人が加わっています 100回以上の 編集を行った人は この部屋に大勢いると思いますが 300人以上です 最後のグループに該当する人は 手を挙げてください すごいですね! 皆さん素晴らしい いつもなら編集の回数に 注目することは あまりありませんが 今年は なんと 記念すべき10億回を超えました では コンテンツを見ていきましょう [コンテンツ] 現在 6,500万もの項目があります つまり このエンティティで 世界が表わされていて 約6,700のプロパティで それが行われているのです そのうち 約4,300が 外部識別子です それが 他の目録や データベースやウェブサイトなどに 多数リンクしており このことにより ウィキデータが オープンデータ ウェブにおける 中心地となっています これらのプロパティや項目を 使用している文は 現在 ウィキデータに約8億あり 前年比では 各項目については 1.5倍に増加しました (笑) ウィキデータは賢くなったのです 項目やプロパティだけではなく 語彙素のような新しいものもあり 現在 たくさんの異なる言語で 表されている語彙素が 20万4千もあります とても良いことです この詳細は 後のセッションでご説明します 最も新しく追加したのは スキーマで これにより 特定分野において データを一貫してモデル化する方法が 理解しやすくなります これは 現在 約140あります コンテンツについては 数字が全てではありませんから コンテンツの量だけでなく 品質にも気を配りましょう 現在は 機械学習システムを訓練して [平均項目品質] 項目の品質を評価しています 完璧には まだ程遠いものの 参考になります ウィキデータの各項目が 5段階で評価されています 1は極めてひどく 5は優秀ということです これは 例えば 文の数や 外部識別子の数 出典の数 異なる言語によるラベルの数 などを示します ウィキデータの推移を見ると ご覧のように これらのスコアによれば 極めてひどかった評価が かなり向上しています (笑) これは良いことです でも 最高の評価までには まだたくさんの余地があります これがゴールではありませんね これらの評価によると 全ての項目が 完璧なわけではありません しかし データの品質が恒常的に 向上していることをうれしく思います しかし データを生み出すだけでは 十分ではありません 私たちには 動機が必要です [利用] データを利用してほしいのです そこで ウィキデータのデータを 使用している ウィキメディアの 各プロジェクトにある 記事の数を確認しました そして これらのプロジェクトにある 全ての記事の割合を見ました ウィキメディア全体と その記事全体を見ると 現在では 56.35%の記事が ウィキデータから利用されています 非常に良いと思いますが 100%の利用度に達するには まだ遠い状態です 次に どのプロジェクトが ウィキデータのデータを 最もよく利用しているかを 言語別などで 分類してみました 全体のうち どのプロジェクトが― トップ5だと思いますか? どのプロジェクト群でしょうか? (何名かの聴衆)コモンズ 皆さん コモンズという回答ですね 違います トップ5は 全てウィキボヤージュです へえっ! ウィキボヤージュに拍手をどうぞ (拍手) 現在のコモンズの順位や 他のプロジェクトの順位を 確認するには ダッシュボードがあります 私に聞いてくだされば 確認します もちろん データが使用されているのは ウィキメディア内だけでなく その多くは外部です 全部は ご紹介できないので いくつか抜粋したいと思います メトロポリタン美術館や ウェルカム・トラスト アメリカ議会図書館 GeneWikiなどで よく利用されています このプログラムの各セッションに 後ほど参加いただければ いくつか耳にするはずです [1年のハイライト] 統計はこれぐらいにしましょう 他のハイライト部分を見ていきます データ品質の向上については お話ししました データ品質については 多くの側面がありますので それを見ていくと そのうちいくつかが向上しており 例えば データの正確性や データの信頼性 出典の添付度 モデルの一貫性 完成度などがあります その一例を挙げると 例えば一貫性ですが ウィキデータにスキーマを 保存できるよう構築しましたので 特定のドメインの モデリング方法を表せます ここで分かることは― 例えば オランダの画家のための スキーマを作成する場合 オランダの画家のための 項目はどれかを確認できます 例えば 誕生日の項目はないが 追加したほうがいい というようなことです より多くのウィキ プロジェクトが スキーマを活用して データ管理ができればよいと思います その方法を知りたい方には この後のセッションで 皆さんの理解が進むよう 詳しい者から説明します さて [ウィキベースのエコシステムの成長] 昨年 弾みがついたのは ウィキベースのエコシステムです その基本概念として オープンデータは ウィキデータの中だけで 実現するものではありません さまざまな場所や参加者により エコシステムが成長するのが理想です 例えば 機関や企業 ボランティア プロジェクトが ウィキデータと同様の方法で データを公開し そのすべてを結び付けて 当事者の間でデータを交換し データを連携するようなことです 昨年は このことへの関心や 各機関による関心や 自身のウィキベース インスタンスを 稼働する方々による関心が 爆発的に増加しました 特に図書館の分野において 関心が増加しました 数多くのテストや評価を行い また正直なところ 草分けとも言うべきことを行っていて 先駆的な機関が ウィキデータと一緒になって ウィキベースがどのように 自分たちのコレクションや目録に 役立つかを調べていました その中には ドイツ国立図書館や フランス国立図書館 OCLCという 著名な機関が含まれています これが素晴らしい理由のひとつは 私たちはこれらの機関のデータを ただウェブに公開して 誰かがアクセスできるように するだけでなく 今後のステップも考えて 手助けしているからです 人々の協力でデータの保持や 蓄積や強化を行うという 大きな変革により 良いものがもたらされることを 願っています その他 私たちに役立つ事柄は 専門家に自身のスペースで データをキュレートしてもらい 良い状態を保つことです そうすれば 自分たちだけで 常にデータ処理を行う代わりに ウィキデータに 同期プロセスを設定できます 最終的には ウィキデータの プレッシャーが軽減され 全てがあるべき状態になればと思います [辞書学データの今後] 辞書学データについてです 昨年は 利用者の言語による表記を ウィキデータで開始したことで 自動翻訳ツールなどの 開発が可能になりました また 言語によっては 私たちは 臨界量に 近づき始めているため 本格的なアプリケーションの開発が 必要とされています 多くの言語では まだまだこれからですが いくつかの言語では そこに到達し始めています 素晴らしいことです 詳細については この後の 私のセッションにご参加ください [構造化データによるコモンズの改善] そして もちろん忘れてはいけません コモンズの構造化データです やった!(笑) (拍手) 基盤で見られる コモンズの構造化データは 本当に改善されてきています 全てが統合されることで 昨年コモンズのファイルに 文を追加することが可能になり 皆さんが画像に文を追加し始めて 何よりも より良いアプリケーションを 開発しやすくなりました この成長を目の当たりにするのは 素晴らしいことです ウィキデータのコミュニティが ここで理解すべき重要点は ここでご覧の「表示」 「イエネコ」「座っている」 「トカゲ」「壁」は ウィキデータの項目やプロパティに リンクされている点です つまり 項目やプロパティを作成すると ウィキデータ自身に 語彙が提供されるだけでなく コモンズにも 語彙が提供されているのです これは増え続けているので 他の場所での オントロジーや語彙の使用法に 以前にも増して 注意を払う必要があります [ウィキペディア プロジェクトへの橋渡し] 最後に 私たちは他のウィキメディアの プロジェクトに対して より強固な関係を築き始めました Wikidata Bridgeという プロジェクトに 私たちのチームは取り組んでいます ぜひ UXブースで 現状をお試しください 例えば ウィキペディアの編集者が 自身のプロジェクトから ウィキデータを直接編集できます ウィキデータで編集しなくても その周囲を全て理解できるのです これで またひとつ ハードルが取り除かれ ウィキメディアのプロジェクトにとって ウィキデータから データを導入しやすくなるはずです さて 戦略と今後の展望についてです [戦略と今後の展望] 12月から ウィキメディア ドイツの ウィキデータチームと ウィキメディア財団が ウィキデータ関連の 戦略や論文に取り組んでいます これは基本的に この5年間で すでにお話ししてきたことを 文書にまとめるものです これらの論文を読まれたかどうか 分かりませんが Meta Commonsで 今月末まで公開されていますので まだの方は ぜひ読んでみてください 読んでコメント等をお願いします さて その簡単な概要ですが ウィキデータとウィキベースは 3つに分けることができます 1つ目は プラットフォームとしての ウィキデータです 画面下隅でご覧になれます つまり― ウィキデータは あらゆる人が その言語や技術を問わず 情報にアクセスし共有できるよう 世界に関する汎用データを 提供しています これは基本的に 皆さんが 毎日行っていることですね 2つ目は ウィキベースの エコシステムです そこでソフトウェアのウィキベースは ウィキデータを 稼働しているだけでなく 無料のオープン ナレッジを支える オープンデータ ウェブの成長を 推進する力となっています 3つ目は ウィキメディアの プロジェクトのための ウィキデータで ウィキデータは ウィキメディアのプロジェクトに 役立つ上に その今後の備えにも役立っています では 具体的な短中期の計画は? [プラットフォームとしてのウィキデータ] プラットフォームとしての ウィキデータについては データ品質の向上が必要なので 私たちは引き続き より良いツールのために ツールの改良などを行います データにアクセスしやすくする 必要もあります APIの改善や SPARQLエンドポイントの強化 また アプリケーションで 再利用しやすくなるよう データを着実にモデリングすること などが含まれます 最後は パートナーからの フィードバック プロセスの設定です ウィキペディアと異なり ウィキデータは 目的指向型プロジェクトではありません ウィキペディアを訪れて 読む人はいても 通常は ウィキデータを訪れて 読む人はいません そうだと良いですが 現実は違いますね 私たちのデータの 公開先の多くは ウィキデータ自体には ありません ウィキペディアや 他の場所を通じて見ることになります それらの場所が データに関する フィードバックを得るわけです ユーザーはそこに 誤りなどを知らせますからね ウィキデータが それを得られるようにして 実際にウィキデータの編集を行う 皆さんに公開したいのです そのための有益な方法を 皆さんの負担にならないようにしながら 来年追求していく予定です さて ウィキベースのエコシステムです 私たちは 各図書館と 引き続き協力するだけでなく 例えば 科学分野などにも 目を向けていきます この後 ウィキベースの ショーケースでご紹介しますので ご参加ください すでに実現したことや 実際に人々がウィキベースで 行っていることをご紹介します 価値があります ウィキベースのエコシステム周辺には 良いプロセスを設定することも必要です 誰に相談すればいいのか どこに助けを求めればよいのかなどを 分かりやすくする必要があります またウィキベースのインストールや メンテナンスを容易にする必要もあります まだ 少し大変ですから 最後は フェデレーションです これはコモンズ関連で 先ほどもお話したことですが コモンズが ウィキデータの 項目やプロパティを使用する際に 他のウィキベースのインスタンスでも ウィキデータの語彙を 使用できます 先述の通り ここでもまた増加しているため ウィキデータの語彙を 外の場所でどう使用するかについては 以前にも増して 注意を払う必要があります ウィキメディアのプロジェクトのための ウィキデータとしては Wikidata Bridgeを介した より強い統合や プロジェクトからの直接編集のための 支援があります それと同時に 皆で一緒に考えるべきことは 言語の障壁を下げる方法を 見つけることだと思います ウィキメディアのプロジェクトで ウィキデータの統合がさらに進めば 同じ言語を話さなくても より多くの人がそのデータについて 話し合う必要が出てきます それをどのように行うかを 明らかにしなければなりません 優れたアイデアを持つ方がいれば お話しできればと思います 私の講演も終わりに近づきました 日々 より多くの人により豊富な知識を 利用できるようにしている 皆さんに感謝しています (拍手) (司会者)質問の時間を設けます 会場で質問がある方や ライブストリームで ご覧の方…私の母とか 質問は EtherPadか テレグラム チャンネルでどうぞ ベストを尽くします ご質問は? どうぞ (聴衆1)こんにちは 質問というよりミームなんですが 時間拡張機能は いつ利用できるようになって 時間、分、秒単位で 設定できる予定ですか 現在は日付単位しかありません - 自分の質問ではないので - (笑) ミームだと言ったんです いつもこんな具合ですが そう伝わってくるので... これにはあまり 良い回答ができません ごめんなさい でも 恐らくその背景としては コモンズ上でますます画像表示が 必要とされてきているので 時間拡張機能を通じて 早く終わらせる必要がある作業が たくさん出てきているのかもれません 他にご質問は? (聴衆2)ウィキメディア財団 リサーチチームのリンダです パトロールについて お考えを聞かせてください ウィキデータの品質に関わると思いますが それについて お話しいただければ 短中期的なパトロールの 取り組みの改善だとか 特に Bridgeプロジェクトに関して 期待していて 試してみたいのです お願いします おっしゃるとおり Bridgeで行っていることについて パトロールの取り組みは さらに必要だと思います しかし 手動や人力で行える規模では なくなっています ですから 改善には もっと努力が必要です 例えばORESなど 機械学習システムを使用すれば どの編集で 人間が確認する必要があるか 通常のことで確認の必要はないかが 分かりやすくなります 現在 ORESは ウィキデータの編集の優劣を 判断できるほど 優秀だとは言えません 現在 機械学習システムを訓練するため 皆さんの協力を大募集中です 良い編集と悪い編集を教えていますが まだ十分な数の人間が教えたと言える 閾値までは達していません これを目覚ましく向上させるために もしお時間があれば ORESへの訓練を手伝ってください ウィキデータ編集の 評価を向上させるためです 本当に簡単です 表示された編集を見て あなたはその優劣を 答えるだけです ソファーでTVを見ながらでもできます (聴衆3)リンクを共有してください テレグラムのグループに リンクを共有します 必要な閾値に達したら― 約7,000だと思いますが ORESの再訓練を行うことで ウィキデータの編集の 評価成績を改善できればと思います それを皆さんが活用すれば 例えば 最新の変更を フィルタリングしたり 監視が必要な編集を 把握したりできます はい こんにちは (聴衆4)好奇心からお聞きします 私の質問ではないですが 協働パートナーからの質問ですが ウィキデータに参加するパートナーが 増えれば増えるほど またクエリで いろいろ試せば試すほど クエリのタイムアウトという 問題も増えています この件にはどう対処しますか? ウィキメディア財団のメンバーの一部が その調査をしており 少しネタをばらしますと 誕生日プレゼントとして セッションを行う予定です (笑) (聴衆5)ベルギーから来た バート・マグナスです 私が知りたいことは フェデレーションの現状です ウィキベースのインスタンス内に プロパティを提案していますが それについて お話しいただけますか? 昨年は 数多くの人から フェデレーションを 要望されました しかし 問題は フェデレーションについての理解が 人によって異なることです 簡単にできることもありましたが 非常に難しい事柄もあります 私のチームは数多くの人たちと 議論をしてきました 例えば 図書館における 協働パートナーは 何を実際に必要としているかなどです 議論はもう終了したとはいえ もちろん ご意見はいつでも歓迎です 現在の状況は 基礎はできたと 安心して言える段階です 今後2、3か月で コード記述に着手しますので 来年の初め頃には 皆さんがテストできればと思います (司会者)最後の質問をどうぞ (聴衆6)コペンハーゲンから来た ニールセンです 他の言語に関して討論がありました WikiCiteコミュニティでは 引き続き科学論文を 増やすべきかどうかを 検討してきたのですが これはウィキデータの容量に左右されます ウィキデータのクエリサービスの タイムアウトも課題の1つですが メンテナンスも課題です これについて どのようにお考えですか ウィキデータの規模が 全体の問題の 原因になっているのですか? 語彙素データを入れるのを やめるべきでしょうか? ウィキデータに科学データを 入れるのをやめるか 調査をすべきでしょうか 技術的な問題が増えているのでしょうか? はい ウィキデータは間違いなく 技術的にも 社会的にもですが スケーラビリティの限界が来ています 双方に解決策が必要ですね? 社会的には 編集者が増え 最近は人間がパトロールするには あまりにも多すぎる状態に達しています しかし 技術的には 対処していることもあります データベースのビュー変換テーブル周辺を 再構築するなどして いくらか改善できています しかし 今のところ 私たちが来年の課題としたいのは 他に問題となる個所はどこかを 明らかにして それを技術面で どう対処するかです これが 全体像です そして それと同時に 「データを入れるのは中止」とは 私は言いたくないのです これでは 本来の目的に合いません しかし例えば ウィキベースのエコシステムは その対応策のひとつだと思います ウィキデータに全部は必要ありません リンクされたオープンデータの 美点だと思います 全部を同じ場所に 納めなくてもよいのです 別の場所を繋ぎ合わせられます 素晴らしいです WikiCitesの周辺では特に WikiCitesについては特に 割合で見る必要があると思います WikiCiteトピック周辺で ウィキデータの項目が占める 具体的な割合は分かりませんが かなりの割合だと思います これは後で休憩時間に お話ししましょう ありがとうございました